JP5946533B2 - 共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム - Google Patents

共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム Download PDF

Info

Publication number
JP5946533B2
JP5946533B2 JP2014526566A JP2014526566A JP5946533B2 JP 5946533 B2 JP5946533 B2 JP 5946533B2 JP 2014526566 A JP2014526566 A JP 2014526566A JP 2014526566 A JP2014526566 A JP 2014526566A JP 5946533 B2 JP5946533 B2 JP 5946533B2
Authority
JP
Japan
Prior art keywords
entity
relationship
entities
resolution
similarity score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014526566A
Other languages
English (en)
Other versions
JP2014529129A (ja
Inventor
カセレス・バリー・マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2014529129A publication Critical patent/JP2014529129A/ja
Application granted granted Critical
Publication of JP5946533B2 publication Critical patent/JP5946533B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、共通エンティティに対する関係に基づいてエンティティを解決するための技法に関する。
エンティティ・レゾリューション(entity resolution)アプリケーションは、通常、エンティティ・レゾリューションおよび関係解決のうちの一方または両方を実行する。エンティティ・レゾリューションは、「誰が誰であるか」という疑問に答えること、すなわち、複数のデータ記録が同じ物理エンティティまたは異なる物理エンティティを実際に言い表すかどうかを判別することを試行する。たとえば、異なる姓を持つ2人の女性を識別するデータ記録は、実際には、家族姓および結婚後の姓の両方を有する同じ女性を言い表す可能性がある。関係解決は、たとえば様々なソースからのデータを相互参照することによって、顧客、従業員、販売業者などの、識別間の関係の恩恵あるいはリスクまたはその両方を特定するために、「誰が誰を知っているか」という疑問に答えることを試行する。たとえば、関係は、共通の住所または電話番号を共有している2人の人物の間で識別される場合がある。エンティティ・レゾリューション・アプリケーションの一例が、ニューヨーク州アーモンクのインターナショナル・ビジネス・マシーンズ・コーポレーション(IBM(R))から入手可能な、InfoSphere Identity Insightである。
共通エンティティに対する関係に基づいてエンティティを解決するための技法を提供する。
本発明の実施形態は、エンティティ・レゾリューション・システムにおいて第1のエンティティと第2のエンティティとの間の類似スコアを決定することを含む動作を実行するための、コンピュータ実装方法、コンピュータ・プログラム製品、およびシステムを提供する。各エンティティは、エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す、1つまたは複数の識別記録を含む。さらに各識別記録は、対応する物理エンティティを特徴付ける1つまたは複数の属性を含む、データ記録を含む。動作は、類似スコアが、第1のエンティティおよび第2のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定することも含む。動作は、第1のエンティティに関係する1つまたは複数のエンティティのセットおよび第2のエンティティに関係する1つまたは複数のエンティティのセットを識別することも含む。動作は、2つのセットの交差に基づき、1つまたは複数のコンピュータ・プロセッサの動作によって、類似スコアを調整することも含み、この交差は少なくとも第3のエンティティを含む。動作は、調整された類似スコアが定義済みしきい値を満たしている旨の決定時に、第1のエンティティおよび第2のエンティティがエンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定する。
したがって、前述の態様が達成され、詳細に理解されるように、上記で簡潔に要約された本発明の実施形態について、添付の図面を参照しながらより具体的な説明を行うことができる。
しかしながら、添付の図面は本発明の典型的な実施形態のみを示しているため、本発明についてその範囲を限定するものとはみなされず、他の等しく有効な実施形態を認め得ることに留意されたい。
本発明の一実施形態に従った、エンティティ・レゾリューションのためのシステムを示すブロック図である。 本発明の一実施形態に従った、共通に関係する(commonly related)エンティティに基づいてエンティティを解決するための技法を示す図である。 本発明の一実施形態に従った、エンティティ・レゾリューションのためのアプリケーションが発見された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。 本発明の一実施形態に従った、アプリケーションが発見された関係に基づいて類似スコアを調整することが可能な、エンティティの他の例を示す図である。 本発明の一実施形態に従った、アプリケーションが開示された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。 本発明の一実施形態に従った、アプリケーションが共通エンティティとの関係の結果として解決するのを控えることが可能な、エンティティの例を示す図である。 本発明の一実施形態に従った、アプリケーションが望ましくないほど多くの関係を伴うエンティティの結果として解決するのを控えることが可能な、エンティティの例を示す図である。 本発明の一実施形態に従った、共通エンティティとの関係に基づいてエンティティを解決するための方法を示す流れ図である。 本発明の一実施形態に従った、1つまたは複数の共通エンティティのセットを決定するための方法を示す流れ図である。 本発明の一実施形態に従った、エンティティ・レゾリューションのためのアプリケーションの構成要素を示すブロック図である。
本発明の実施形態は、関連する識別、エンティティ、条件、アクティビティ、またはイベントに基づいてデータ記録を処理するように構成された、エンティティ・レゾリューションのためのアプリケーションを提供する。一実施形態において、アプリケーションは、エンティティ・レゾリューション・システムに知られている、またはより具体的に言えば、エンティティ・レゾリューション・システムによって物理的な世界に存在すると想定される、別個の物理エンティティの多くの知識を維持する。エンティティ・レゾリューション・システムにおいて、各物理エンティティはそれぞれの論理エンティティによって表され、本明細書ではエンティティとも呼ばれる。各論理エンティティは、それぞれの論理エンティティによって表される物理エンティティに関連すると決定された、1つまたは複数のデータ記録のセットであり、すなわち、エンティティ・レゾリューション・システムに知られている他の物理エンティティとは対照的である。言い換えれば、各論理エンティティは、それぞれの論理エンティティによって表される特定の物理エンティティを記述する1つまたは複数の属性を含む、データ記録のセットである。データ記録は、本明細書では識別記録とも呼ばれる。エンティティ・レゾリューション・システムに知られている物理エンティティを表す論理エンティティは、既知の(または既存の)論理エンティティとも呼ばれる。物理エンティティは、人物、組織、場所、建物、車両、動物、物体などの、エンティティ・レゾリューション・システムによって物理的な世界に存在すると考えられる、任意の識別可能エンティティとすることができる。
一実施形態において、アプリケーションが新しく受信したデータ記録を処理する(または既存のデータ記録を再処理する)場合、アプリケーションは、処理されているデータ記録がエンティティ・レゾリューション・システムに知られている物理エンティティに関連するかどうかを判別する。関連する場合、アプリケーションはそのデータ記録を物理エンティティに関するセットに追加する、すなわち、処理されているデータ記録および物理エンティティを表すセットが、単一の論理エンティティに統合またはマージされる。実施形態に応じて、処理されているデータ記録は、エンティティ・レゾリューション・システムによって、データ記録がその一部である独自の論理エンティティを有するともみなされ得る。データ記録(またはその論理エンティティ)がエンティティ・レゾリューション・システムに知られている特定の物理エンティティに関連すると決定することは、本明細書では、データ記録(またはその論理エンティティ)を特定の物理エンティティを表す論理エンティティに「解決すること」とも呼ばれる場合がある。
いくつかの実施形態において、アプリケーションは、データ記録がもはや所与の論理エンティティに属していないはずであることも決定し得る。こうしたケースでは、データ記録を所与の論理エンティティから除去し、異なるかまたは新しい論理エンティティに割り当てることができる。論理エンティティからデータ記録を除去することは、本明細書では、データ記録を論理エンティティから「分割すること」とも呼ばれる場合がある。
いくつかのケースでは、アプリケーションが所与のデータ記録をいずれの既知の論理エンティティにも解決しないことも可能であり得る。こうしたケースでは、アプリケーションは、データ記録をエンティティ・レゾリューション・システム内のその独自の論理エンティティに解決するものと決定したと言える。いくつかの実施形態において、アプリケーションは、データ記録の論理エンティティとエンティティ・レゾリューション・システム内の既知の論理エンティティとの間に、さらに関係を作成することができる。言い換えれば、アプリケーションはデータ記録をいずれの既知の論理エンティティにも解決しなかったにもかかわらず、アプリケーションは、データ記録が既知の物理エンティティとの何らかの関係を有する物理エンティティを記述していることを決定し得る。たとえば、この関係は、雇用者対被雇用者関係、婚姻関係、販売者対顧客関係などと呼ばれる場合がある。この決定は、少なくとも部分的に、データ記録に含まれる情報に基づいて行われ得る。
単に参照の便宜上、「処理されることになるデータ記録」は、本明細書では「インバウンド識別記録」と呼ばれる場合がある。言い換えれば、インバウンド識別記録は、識別記録を既知の論理エンティティに解決するか(または識別記録を既知の論理エンティティから分割するか)どうかを決定するために、既知の論理エンティティに照らして評価(または再評価)されることになる、任意の識別記録を言い表す。
前述のように、論理エンティティ(またはエンティティ)は、エンティティ・レゾリューション・システムによって同じ物理エンティティを記述すると考えられる、1つまたは複数の識別記録のセットを言い表す。例として、「Bob Smith」がホテルにチェックインする場合、ホテルのチェックイン記録から自宅の住所および電話番号を使用して、彼を、同じ住所および電話番号を有する「Robert Smith」と同じ人物であるものと突き合せることができる。「Bob Smith」を「Robert Smith」と突き合せるために、「Bob Smith」を記述する識別記録が、それぞれが別個の人物を表すエンティティのセットと比較される。
一実施形態において、識別記録を解決しエンティティ間の関係を検出するプロセスは、所定のまたは構成可能なエンティティ・レゾリューション規則を用いて実行することができる。典型的には、2つのエンティティ間の関係は、2つのエンティティ間の関係を示すエンティティに関係する識別記録内の情報(たとえば、共通のアドレス、雇用者、電話番号など)から導出される。こうした規則の2つの例は、以下を含む。
・インバウンド識別記録が、既存のエンティティと一致する「社会保障番号」および近い「氏名」を有する場合、そのインバウンド識別記録をその既存のエンティティに解決する。
・インバウンド識別記録が、既存のエンティティと一致する「電話番号」を有する場合、そのインバウンド識別記録のエンティティと一致する電話番号を有するものとの間に関係を作成する。
第1の規則は、新しいインバウンド記録を既存のエンティティに追加し、第2の規則はインバウンド記録に基づいて2つのエンティティ間に関係を作成する。もちろん、エンティティ・レゾリューション規則は、インバウンド識別記録のタイプに基づいて、特定のケースの必要性に合うように調整することができる。
一実施形態において、エンティティ・レゾリューションに関するアプリケーションは、関連する識別、識別、条件、またはイベントを検出するための規則、すなわち、入ってくる識別記録に基づいて警告を生成するための規則も含むことができる。たとえば規則は、インバウンド識別記録の属性をチェックし、特定の一致(たとえば、インバウンド識別記録は、特定の郵便番号内の住所を含むことから興味の対象である)が見つかった場合に警告を生成することができる。あるいは警告規則は、インバウンド識別記録の割り当てられた役割が、インバウンド記録がゼロまたはそれ以上の度合いで関係を有する別の識別記録の割り当てられた役割と競合する状況を指定することができる(たとえば、「従業員」の割り当てられた役割を伴う識別は、「販売者」の割り当てられた役割を伴う識別と、強い関係を有する)。他の例として、警告規則は、両方の方法の組み合わせ(たとえば、「ネバダ賭博ブラック・リスト」の役割を伴う識別が、「ホテル客」の役割も有し、関係ホテルが「ネバダ」州に位置する場合は、必ず警告する)として定義することができる。もちろん、使用される関連性規則は、特定のケースの必要性に合うように調整することができる。
一実施形態において、アプリケーションは、特定の識別記録の存在(典型的には、インバウンド記録が処理される)が、いくつかの点で関連し、ユーザ(たとえば、ビジネス・アナリスト、警察の捜査官など)による追加の調査を必要とする場合がある、何らかの条件を満たす場合、警告を生成する。これらのプロセスの結果は、通常、ユーザによって審査されるべきである識別に関する警告のリストである。こうした警告は、恩恵(たとえば潜在的好機)およびリスク(たとえば潜在的脅威あるいは不正行為またはその両方)の両方を識別する際にユーザを支援することができる。
一実施形態において、アプリケーションは、第1のエンティティおよび第2のエンティティが単一エンティティに解決されるべきかどうかを判別するために、関係とともに属性を評価する。このため、アプリケーションは、第1のエンティティと第2のエンティティとを比較して、第1のエンティティおよび第2のエンティティがエンティティ・レゾリューション規則をほぼ満たすことを決定することができる。より具体的に言えば、アプリケーションは、第1のエンティティおよび第2のエンティティの属性を比較して、2つのエンティティに関する類似スコアを決定することができる。エンティティ・レゾリューション規則は、第1のエンティティおよび第2のエンティティを単一エンティティに解決するための基準を指定する。
いくつかのケースでは、識別記録は、エンティティ・レゾリューション規則によって定義されたしきい値スコアに僅差で(たとえば、規定された数値的範囲だけわずかに)届かない類似スコアを有することによって、エンティティ・レゾリューション規則を満たすことに近付ける可能性がある。こうしたケースでは、アプリケーションは第1のエンティティおよび第2のエンティティに関係するエンティティを識別することができる。アプリケーションは、第1のエンティティおよび第2のエンティティに共通に関係するエンティティに基づいて、類似スコアを調整する。少なくともいくつかのケースでは、類似スコアはしきい値を超えるように調整可能である。言い換えれば、第1のエンティティおよび第2のエンティティは、第1のエンティティおよび第2のエンティティが第3のエンティティに関係していることに基づいて、エンティティ・レゾリューション規則を満たすものと決定され得る。たとえば、満たした場合に識別記録をJennifer Smithという名前のエンティティに解決することをトリガするという、エンティティ・レゾリューション規則を、Jenny Smithに関する識別記録が満たしていないものと想定する。さらに、Jenny SmithおよびJennifer Smithの両方が、第3の人物、Robert Smithとの関係を有するものと想定する。こうしたケースでは、アプリケーションは、第三者(Robert Smith)との共通する関係に基づいて、(Jenny Smithの)識別記録およびJennifer Smithのエンティティに関する類似スコアを再評価することができる。これにより、特定のケースについてしきい値セットを超えて類似スコアが引き上げられると想定すると、インバウンド識別記録はJennifer Smithを表すエンティティへと解決されることになる。
さらに本明細書では、実施形態はエンティティ・レゾリューション規則によって定義されるしきい値スコアに関して説明されているが、他の実施形態も広義に企図される。たとえば代替実施形態において、しきい値スコアはエンティティ・レゾリューション・システムによって定義されるパラメータとすることができる。こうした実施形態において、しきい値スコアはいずれの特定のエンティティ・レゾリューション規則にも関連付けられない。
有利なことに、関係とともに属性を評価することにより、アプリケーションは、少なくともいくつかのケースでは、エンティティの解決において関係は考慮せず単に属性のみを考慮する代替の手法に比べて、精度の向上したエンティティ・レゾリューションを実行することができる。たとえばアプリケーションは、2つのエンティティが解決されるべきであることを示すのに属性が不十分なケースであっても、2つのエンティティを単一エンティティに正しく解決することができる。
以下で、本発明の実施形態を参照する。しかしながら本発明は、特定の説明される実施形態に限定されないことを理解されたい。代わりに、以下の特徴および要素のいずれの組み合わせも、異なる実施形態に関係するか否かにかかわらず、本発明を実装および実施するように企図されている。さらに、本発明の実施形態は他の可能なソリューションを介して、あるいは従来技術を介して、またはその両方で、利点を達成することが可能であるが、特定の利点が所与の実施形態によって達成されるか否かは、本発明を制限するものではない。したがって、以下の態様、特徴、実施形態、および利点は単なる例示であり、請求項に明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とはみなされない。同様に、「本発明」という言い回しは、本明細書に開示されたいかなる発明の主題の一般化とも解釈されるべきではなく、請求項に明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とはみなされるべきではない。
当業者であれば理解されるように、本発明の態様は、システム、方法、またはコンピュータ・プログラム製品として具体化され得る。したがって、本発明の態様は、完全にハードウェア実施形態、完全にソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、あるいは、本明細書ではすべてが一般に「回路」、「モジュール」、または「システム」と呼ばれることのある、ソフトウェアおよびハードウェアの態様を組み合わせた実施形態の形を取ることができる。さらに本発明の態様は、具体化されたコンピュータ読み取り可能プログラム・コードを有する1つまたは複数のコンピュータ読み取り可能媒体内で具体化される、コンピュータ・プログラム製品の形を取ることもできる。
1つまたは複数のコンピュータ読み取り可能媒体の任意の組み合わせが利用可能である。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能信号媒体またはコンピュータ読み取り可能記憶媒体であってよい。コンピュータ読み取り可能記憶媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはそれらの任意の好適な組み合わせであってよいが、それらに限定されない。コンピュータ読み取り可能記憶媒体のより特定の例(非網羅的リスト)は、1本または複数本のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバー、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、光学ストレージ・デバイス、磁気ストレージ・デバイス、またはそれらの任意の好適な組み合わせを含むことになる。本書との関連において、コンピュータ読み取り可能記憶媒体は、命令実行のシステム、装置、またはデバイスによって、あるいはそれらに関して使用するためのプログラムを、含むかまたは記憶することが可能な、任意の有形媒体とすることができる。
コンピュータ読み取り可能信号媒体は、たとえばベースバンド内または搬送波の一部として、内部にコンピュータ読み取り可能プログラム・コードが具体化された、伝搬データ信号を含むことができる。こうした伝搬信号は、電磁、光、またはそれらの任意の好適な組み合わせを含むがそれらに限定されない、様々な形のいずれかを取ることができる。コンピュータ読み取り可能信号媒体は、コンピュータ読み取り可能記憶媒体ではなく、命令実行のシステム、装置、またはデバイスによって、あるいはそれらに関して使用するためのプログラムを、通信、伝搬、または移送することが可能な、任意のコンピュータ読み取り可能媒体とすることができる。
コンピュータ読み取り可能媒体上に具体化されるプログラム・コードは、無線、有線、光ファイバー・ケーブル、RFなど、またはそれらの任意の好適な組み合わせを含むが、それらに限定されない、任意の適切な媒体を用いて伝送することができる。
本発明の態様に関する動作を実行するためのコンピュータ・プログラム・コードは、Java(TM)、Smalltalk(TM)、C++などのオブジェクト指向プログラミング言語、および、「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで作成することができる。プログラム・コードは、完全にユーザのコンピュータ上、部分的にユーザのコンピュータ上、スタンドアロン型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上、または、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介して、ユーザのコンピュータに接続可能であるか、あるいは、(たとえばインターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続可能である。
本発明の態様が、本発明の実施形態に従った方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図あるいはブロック図またはその両方を参照しながら、以下で説明される。流れ図あるいはブロック図またはその両方の各ブロック、および流れ図あるいはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ・プログラム命令によって実装可能であることを理解されよう。これらのコンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、流れ図あるいはブロック図またはその両方のブロック内に指定された機能/動作を実装するための手段を作成するように、汎用コンピュータ、特定用途向けコンピュータ、またはマシンを生成するための他のプログラマブル・データ処理装置に提供可能である。
これらのコンピュータ・プログラム命令は、コンピュータ読み取り可能媒体内に記憶された命令は、流れ図あるいはブロック図またはその両方のブロック内に指定された機能/動作を実装する命令を含む装置を生成するように、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスに、特定の様式で機能するよう指示することが可能な、コンピュータ読み取り可能媒体にも記憶することが可能である。
コンピュータ・プログラム命令は、コンピュータまたは他のプログラマブル装置上で実行する命令が、流れ図あるいはブロック図またはその両方のブロック内に指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行されることになる一連の動作可能なステップに、コンピュータ実装プロセスを生成させるために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードすることも可能である。
本発明の実施形態は、クラウド・コンピューティング・インフラストラクチャを介してエンド・ユーザに提供することができる。クラウド・コンピューティングは、一般に、ネットワークを介したサービスとしてのスケーラブル・コンピューティング・リソースの提供を言い表す。より正式には、クラウド・コンピューティングは、コンピューティング・リソースとその基礎となる技術的アーキテクチャ(たとえば、サーバ、ストレージ、ネットワーク)との間に抽象化を提供し、最小限の管理作業またはサービス・プロバイダ対話を用いて即時に提供および解放され得る、構成可能なコンピューティング・リソースの共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にする、コンピューティング機能として定義され得る。したがって、クラウド・コンピューティングは、コンピューティング・リソースの提供に使用される基礎となる物理システム(またはそうしたシステムの場所)に関係なく、「クラウド」内のユーザ(たとえば、ストレージ、データ、アプリケーション、さらには完全な仮想化コンピューティング・システム)が、仮想コンピューティング・リソースにアクセスできるようにする。
典型的には、クラウド・コンピューティング・リソースは、ユーザが実際に使用されるコンピューティング・リソース(たとえば、ユーザまたはユーザによってインスタンス化されるいくつかの仮想化システムによって消費される、記憶スペースの量)に対してのみ課せられる、利用回数制料金(pay-per-use basis)でユーザに提供される。ユーザは、いつでも、またインターネット全体のどこからでも、クラウド内に常駐するいずれのリソースにもアクセス可能である。本発明との関連において、エンティティ・レゾリューションのためのアプリケーションはクラウド内で実行可能である。アプリケーションをクラウド内で実行させることにより、ユーザは、クラウドに接続されたネットワーク(たとえばインターネット)に接続されたいずれのコンピューティング・システムからも、エンティティ・レゾリューションを管理することができる。
図面内の流れ図およびブロック図は、本発明の様々な実施形態に従ったシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。この点で、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表すことができる。いくつかの代替の実装において、ブロックに示された機能が図面に示された順序以外でも発生し得ることも留意されたい。たとえば、連続して示された2つのブロックは、実際にはほぼ同時に実行可能であるか、またはこのブロックは時折、関連する機能に応じて逆の順序で実行可能である。ブロック図あるいは流れ図またはその両方の各ブロック、および、ブロック図あるいは流れ図またはその両方におけるブロックの組み合わせが、指定された機能または動作、あるいは特定用途向けハードウェアおよびコンピュータ命令の組み合わせを実行する、特定用途向けハードウェアベース・システムによって実装可能であることも留意されたい。
図1は、本発明の一実施形態に従った、エンティティ・レゾリューションのためのシステム100を示すブロック図である。ネットワーク・システム100は、ネットワーク130を介してデータ・ソース170に接続されたコンピュータ102を含む。コンピュータ102は、ネットワーク130を介して他のコンピュータにも接続され得る。データ・ソース170は、アプリケーション150に送信されることになる識別記録、ならびに識別記録が解決されるエンティティ、またはその両方を記憶する。一般にネットワーク130は、通信ネットワークあるいはワイド・エリア・ネットワーク(WAN)またはその両方とすることができる。特定の実施形態において、ネットワーク130はインターネットである。
コンピュータ102は、一般に、バス112を介してメモリ106、ネットワーク・インターフェース・デバイス110、ストレージ108、入力デバイス114、および出力デバイス116に接続された、プロセッサ104を含む。コンピュータ102は、一般に、オペレーティング・システムの制御下にある。オペレーティング・システムの例は、UNIX、Microsoft Windows(R)オペレーティング・システムのバージョン、およびLinux(R)オペレーティング・システムの分散を含む。(注:Linuxは米国および諸外国におけるLinus Torvaldsの商標である。)より一般的には、本明細書で開示される機能をサポートするいずれのオペレーティング・システムも使用可能である。プロセッサ104は、単一CPU、複数CPU、複数の処理コアを有する単一CPUなどの代表として含まれている。同様に、メモリ106はランダム・アクセス・メモリであってもよい。メモリ106は単一の識別として示されているが、メモリ106は複数のモジュールを含み得ること、ならびに、メモリ106は、高速レジスタおよびキャッシュから低速であるがより大きなDRAMチップまで、複数のレベルで存在し得ることを、理解されたい。ネットワーク・インターフェース・デバイス110は、コンピュータ102がネットワーク130を介して他のコンピュータと通信できるようにする、任意のタイプのネットワーク通信デバイスとすることができる。
ストレージ108は、永続的ストレージ・デバイスとすることができる。ストレージ108は単一のユニットとして示されているが、ストレージ108は、固定ディスク・ドライブ、ソリッド・ステート・ドライブ、フレキシブル・ディスク・ドライブ、テープ・ドライブ、取り外し可能メモリ・カード、または光学ストレージなどの、固定式あるいは取り外し可能またはその両方のストレージ・デバイスの組み合わせとすることができる。メモリ106およびストレージ108は、複数の1次および2次の記憶デバイスにまたがる1つの仮想アドレス・スペースの一部とすることができる。さらに前述のように、アプリケーション150は、識別記録あるいはエンティティまたはその両方をデータ・ソース170から受信する。加えてまたは別の方法として、アプリケーション150は、識別記録あるいはエンティティまたはその両方を、ストレージ108を介しても受信可能である。
入力デバイス114は、コンピュータ102に入力を提供するための任意のデバイスとすることができる。たとえば、キーボードあるいはマウスまたはその両方が使用可能である。出力デバイス116は、コンピュータ102のユーザに出力を提供するための任意のデバイスとすることができる。たとえば、出力デバイス116は、従来のディスプレイ画面またはスピーカのセット、ならびにそれらそれぞれのインターフェース・カード、すなわちビデオ・カードおよびサウンド・カード(図示せず)とすることができる。出力デバイス116は入力デバイス114から離れて図示されているが、入力デバイス114と組み合わせることが可能である。たとえば、組み込み型タッチスクリーンを備えるディスプレイ・スクリーンが使用可能である。
図に示されるように、コンピュータ102のメモリ106は、エンティティ・レゾリューションのためのアプリケーション150、エンティティ152、およびエンティティ152間の関係156を含む。前述のように、アプリケーション150は、インバウンド識別記録をエンティティ152の1つまたは複数に解決するように、インバウンド識別記録を処理することができる。各識別記録は、1つまたは複数の属性154を含むことができる。いくつかの実施形態において、インバウンド識別記録は、少なくともアプリケーション150が、すでに知られたエンティティを参照しながら新しいエンティティを解決するかどうかを決定するまで、アプリケーション150によって新しいエンティティともみなされることが可能である。各関係156は、開示された関係または発見された関係とすることができる。本明細書で使用される場合、開示された関係は、従業員ファイルにおける緊急連絡先、雇用申請書の照会先、保険証券の受取人などの、エンティティ間の任意のユーザ指定関係を言い表す。発見された関係は、ユーザ指定でなく、エンティティの属性間の類似性に基づいてアプリケーション150によって推測される、任意の関係を言い表す。少なくともいくつかの実施形態において、アプリケーション150は、2つのエンティティの属性が、エンティティが関係している可能性が高いことを示すのには十分であるが、エンティティが単一エンティティに解決されるべきであることを示すのには不十分である場合、2つのエンティティ間に発見された関係を作成する。たとえば発見された関係は、2つのエンティティが、電話番号、住所、またはクレジット・カード番号などの単一の一致属性を共有する場合に作成可能である。
前述のように、一実施形態において、アプリケーション150は、インバウンド識別記録をエンティティ152の1つまたは複数に解決するようにインバウンド識別記録を処理する。少なくともいくつかの実施形態において、インバウンド識別記録をすべての既知のエンティティと比較することは、時間あるいは処理またはその両方に関して、費用がかかり過ぎる場合がある。したがって、一実施形態において、アプリケーション150は、候補エンティティまたは単に「候補」と呼ばれる既知のエンティティのサブセットのみに照らして、インバウンド識別記録を評価することができる。候補は、1つまたは複数の候補構築属性に基づいて選択可能である。たとえば、候補構築属性が電話番号の場合、インバウンド識別記録と同じ識別記録を伴うエンティティが候補エンティティとして選択される。インバウンド識別記録を候補のみに照らして評価することで、少なくともいくつかのケースではアプリケーション150の性能が向上する可能性がある。
一実施形態において、候補が選択されると、アプリケーション150はインバウンド識別記録を候補のうちの1つに解決するかどうかを決定することができる。この決定は、他の属性(すなわち候補構築属性以外の属性)に基づいてさらに候補を評価することによって実行可能である。たとえば、インバウンド識別記録が候補エンティティと同じ電話番号、住所、氏名、および生年月日を含む場合、インバウンド識別記録および候補は、同じ人物を表す可能性が高い。したがってアプリケーション150は、インバウンド識別記録および候補エンティティを単一エンティティに解決することができる。別の方法として、候補エンティティが対応する属性を有さない場合、インバウンド識別記録は新しいエンティティ(エンティティ・レゾリューション・システムにまだ「知られて」いない人物など)を言い表すものと仮定される。こうしたケースでは、アプリケーション150はインバウンド識別記録に基づいて新しいエンティティを作成することができる。
一実施形態において、インバウンド識別記録を候補エンティティのうちの1つに解決するかどうかを決定するために、アプリケーション150はインバウンド識別記録と各候補エンティティとの間の「類似スコア」を決定する。所与の候補エンティティに関する類似スコアは、所与の候補エンティティにおける属性がインバウンド識別記録における属性と一致する程度を特徴付ける。次にアプリケーション150は、最高の類似スコアを有する候補エンティティを選択することができる。選択された候補(最高の類似スコアを有する)の類似スコアが、2つのエンティティを単一エンティティに解決するためのエンティティ・レゾリューション規則によって定義されたしきい値を超える場合、アプリケーション150は、インバウンド識別記録を選択された候補に解決する。しきい値を超えない場合、アプリケーション150はインバウンド識別記録を新しいエンティティとして記憶する。いくつかの実施形態において、前述のステップを反復することにより、インバウンド識別記録および複数の候補エンティティを単一エンティティに解決することができる。さらに、いくつかの実施形態において、選択された候補の類似スコアが少なくともエンティティ間の関係を確立するための下方しきい値を満たす場合、アプリケーション150は新しいエンティティと候補エンティティとの間の発見された関係も作成することができる。下方しきい値は、(2つのエンティティを単一エンティティに解決するのではなく)2つのエンティティ間の関係を作成するための、エンティティ・レゾリューション規則によって定義することができる。アプリケーション150は、選択された候補の類似スコアに基づいて、発見された関係についての関係強度を決定することもできる。
一実施形態において、インバウンド識別記録と所与の候補エンティティとの間の類似スコアは、1つまたは複数の事前に定義されたスコアリング規則に基づいて決定可能である。スコアリング規則は、それぞれの一致または不一致属性に相対的な重みを割り当てることが可能であり、各重みは正または負とすることができる。スコアリング規則は、一致属性に共通性係数(commonality factor)を割り当てることもできる。共通性係数は、エンティティ・レゾリューション・システムにおいて一致属性の一部またはすべてが発生する頻度を特徴付ける。たとえば、インバウンド識別記録の氏名「James Smith Robinson」と候補エンティティの氏名「James Smith」との間に、部分的一致があるものと仮定する。アプリケーション150が、「James Smith」の氏名が、エンティティ・レゾリューション・システムに記憶されたエンティティで一般的に遭遇されると決定した場合、アプリケーション150は、部分的一致が類似スコアに寄与する程度を低下させる(または消去する)ことができる。加えて、または別の方法として、アプリケーション150が、一致する氏名がエンティティ・レゾリューション・システムに記憶されたエンティティでほとんど遭遇されないと決定した場合、アプリケーション150は、一致する氏名が類似スコアに寄与する程度を上げることができる。エンティティ・レゾリューション・システムにおいて属性値が発生する程度は、頻度の統計値の形で維持され、アプリケーション150が利用できるようにすることが可能である。他の実施形態において、頻度統計値は、氏名の外部データベースなどの、エンティティ・レゾリューション・システム以外のデータ・ソースに基づいて決定することができる。
少なくともいくつかの実施形態において、類似スコアは、基本類似スコアが計算される初期段階と、(最終)類似スコアを生成するために基本類似スコアに1回または複数回の調整が行われる調整段階という、2つの段階を介して計算される。たとえば、初期段階時に、一致する氏名および住所はスコア100をもたらすことが可能であり、これはインバウンド識別記録を解決するための最低スコアとすることができる。他方で、その後、アプリケーション150が調整段階時に、誕生日が一致しないと決定した場合、アプリケーション150は類似スコアを関連付けられた値(たとえば20)だけ下げて、識別記録が解決されるのを防ぐことができる。たとえば、インバウンド識別記録および候補エンティティは、異なる時点でその住所に居住していた2人の異なる人物を表すことができる。事前に定義されたスコアリング規則は、各一致または不一致属性が、初期段階または調整段階にあるとみなされるかどうかを指定することができる。代替の実施形態において、類似スコアは単一の段階で計算され、事前に定義されたスコアリング規則によって指定されるすべての重みと、一致あるいは不一致またはその両方の属性とを考慮する。
いくつかの実施形態において、アプリケーション150の性能を向上させるために、事前に定義されたスコアリング規則は、調整を考慮するためにしきい値スコアを指定することも可能である。たとえば、負の調整はインバウンド識別記録を候補エンティティに解決する結果に影響を与える可能性が少ない(および正の調整は影響を与えない)ため、最高のしきい値スコア200が指定可能であり、候補エンティティは200またはそれ以上の類似スコアを有する。しきい値スコアは、所与の調整に特有とすることもできる。たとえば、合計100はインバウンド識別記録を解決されるようにトリガするため、潜在的に類似スコアを5だけ増加させる最低のしきい値スコア95を調整に指定することができる。いくつかのケースでは、他の調整が、インバウンド識別記録を解決されるようにトリガするのに十分なだけスコアを増加させるのを助けることができるため、95より低いしきい値スコアが望ましい場合がある。したがってアプリケーション150は、調整を考慮するためにしきい値スコアを使用して、少なくともいくつかのケースでは不必要に属性を比較することあるいは調整を計算することまたはその両方に関連付けられた、処理時間あるいは費用またはその両方を被るのを避けることができる。少なくともいくつかの実施形態において、アプリケーション150は、どの調整が処理に時間がかかるものと知られているかを示すメタデータを取り出す。このメタデータに基づき、アプリケーション150は、処理に時間がかかる調整の実行を選択的に避けることができる。したがって本明細書で開示された技法を使用し、ユーザは、効率的な処理と正確なスコアリングとの間でのトレードオフを、特定のケースの必要性に合わせて構成することができる。
一実施形態において、アプリケーション150は、(i)識別記録を表す第1のエンティティおよび(ii)候補エンティティに、共通に関係する1つまたは複数のエンティティに基づいて、類似スコアを調整する。たとえば、類似スコアは、1つまたは複数のエンティティのカウント、第1のエンティティ(あるいは候補エンティティまたはその両方)に対する1つまたは複数のエンティティの関係強度、あるいは、第1のエンティティから(あるいは候補エンティティまたはその両方から)の1つまたは複数のエンティティの分離の度合い数に基づいて、調整可能である。候補エンティティは、他の候補エンティティに比較して、最も高い類似スコアを有することに基づいて選択され得る。
一実施形態において、1つまたは複数のエンティティは、第1のエンティティあるいは候補エンティティまたはその両方に関連付けられた関係に基づいて、識別され得る。いくつかの実施形態において、関係は、第1のエンティティあるいは候補エンティティまたはその両方に関連付けられた関係グラフの形で表すことができる。本明細書で使用される場合、関係グラフは、エンティティを頂点として表し、エンティティ間の関連付けをエッジとして表す、任意のグラフを言い表す。1つまたは複数のエンティティは、関係グラフをトラバースすることによって識別され得る。実施形態に応じて、関係グラフは、予め生成されるかトラバース中またはトラバース直前に動的に生成されるかの、何れかとすることができる。本明細書で使用される場合、第1のエンティティおよび第2のエンティティは、第1のエンティティから第3のエンティティを通り第2のエンティティへの経路が存在し、この経路が事前に定義された経路基準を満たす場合、一般的に関係する第3のエンティティを有すると言える。この経路基準は、3つのエンティティのうちの任意の2つの間の分離を最大の度合い数に指定することができる。より簡単に言えば、最大数の分離度合いの範囲内でCがAおよびBの両方に関係している場合、CはAおよびBに「共通に関係している」と言える。加えて、経路基準は、経路の任意のセグメントの最低関係強度を指定することができる。経路基準は、エンティティは経路内に2回は現れないものと指定することができる。そうすることで、分離の最大度合い数が1より大きい場合に、関係エンティティの関係が関係エンティティとして誤って分類されるのを防ぐ。
たとえば、エンティティCがエンティティAおよびBに共通に関係すると仮定する。より具体的に言えば、エンティティCが、エンティティAおよびBに対してそれぞれ度合い1の関係を有すると仮定する。エンティティCは、エンティティDに対しても度合い1の関係を有すると仮定する。エンティティDも、経路{A,C,D,C,B}によってエンティティAおよびBに対して共通に関係しているものと指定する代わりに、Cが経路内に2回発生しているため、この経路は不適格とされる。言い換えれば、CがAおよびBに共通に関係しているというだけで、自動的にCの(エンティティDなどの)他の度合い1の関係がAおよびBに対して共通に関係しているとはされない。しかしながら、それでもエンティティDは、エンティティEおよびFを介する(たとえば経路{A,E,D,F,B}を介する)など、他の経路を介してエンティティAおよびBに共通に関係しているものとして指定され得る。第1のエンティティおよび候補エンティティに共通に関係する1つまたは複数のエンティティに基づいて、類似スコアを調整した後、アプリケーション150は、候補エンティティがエンティティ・レゾリューション規則を満たしているかどうかを判別することができる。満たしている場合、アプリケーション150は、第1のエンティティおよび候補エンティティを単一エンティティに解決する。
一実施形態において、関係グラフをトラバースする場合、第1のエンティティと候補エンティティとの間の関係は無視される(開示された関係および発見された関係を含む)。こうすることで、アプリケーション150が、第1のエンティティおよび候補エンティティに共通に関係しているものとしてエンティティを誤って識別するのを防ぐ。たとえば、エンティティAがエンティティBに関係しており、エンティティBがエンティティCに関係していると仮定する。さらに、エンティティAおよびエンティティCが、エンティティBを介してのみ関係していると仮定する。エンティティAとエンティティBの間の関係を無視することによって、エンティティCが、エンティティAおよびエンティティBに共通に関係するエンティティとして誤って識別されるのを防ぐ。
図2は、本発明の一実施形態に従った、共通に関係するエンティティに基づいてエンティティを解決するための技法を示す図である。前述のように、アプリケーション150は、それぞれ第1および第2のエンティティ152、152に含まれる属性154、154に基づいて、第1のエンティティ152と第2のエンティティ152との間の類似スコア178を決定する。類似スコア178は、第1のエンティティおよび第2のエンティティを単一エンティティに統合する(またはマージする)ための類似しきい値180を満たしていない。言い換えれば、類似スコアは、アプリケーション150が、第1のエンティティおよび第2のエンティティが同じ物理エンティティを表すという結論を出すには不十分である。一実施形態において、アプリケーション150は、第1のエンティティ152に関係するエンティティのセット172および第2のエンティティ152に関係するエンティティのセット174を決定する。次にアプリケーション150は、2つのセット172、174の間の交差176を決定する。この交差は、第1のエンティティ152および第2のエンティティ152の両方に共通に関係するエンティティのみを含む。次にアプリケーション150は、この交差に基づいて類似スコア178を調整する。調整された類似スコアが類似しきい値180を超える場合、アプリケーション150は第1のエンティティおよび第2のエンティティを単一エンティティに統合する。
図3は、本発明の一実施形態に従った、アプリケーション150が発見された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。この例は、2人のルームメイト、James SmithおよびJohn Robinsonとの関連において提示される。もちろん当業者であれば、本明細書で提示される例が単なる例示であり、本発明の実施形態を制限することは意図されていないことを理解されよう。図に示されるように、エンティティはエンティティA152、エンティティB152、エンティティC152を含む。エンティティAがインバウンド識別記録を含み、エンティティBが候補エンティティであり、エンティティCがエンティティAおよびエンティティBのうちの少なくとも1つに関係するエンティティであると想定する。エンティティは、識別記録インジケータ202、氏名204、および生年月日206の属性を含む。加えて、エンティティAおよびCは電話番号208を表す属性を含み、エンティティBおよびCは住所210を表す属性を含む。図に示されるように、エンティティAおよびBは一致する氏名204および生年月日206を有する。少なくともいくつかの実施形態において、一致する氏名および生年月日は、エンティティAおよびBを単一エンティティに解決することをトリガするのに十分であり得る。
しかしながら、氏名「James Smith」がエンティティ・レゾリューション・システムにおいて一般的なオカレンスであるものと仮定する。結果として、類似スコアは、エンティティAおよびBの単一エンティティへの解決をトリガするには不十分であり得る(または不十分となるように調整され得る)。他方で、アプリケーション150は、エンティティAおよびBがエンティティCに共通に関係することを推測する(または事前に推測していた)。より具体的に言えば、アプリケーション150は、(i)一致する電話番号に基づくエンティティAとCの間の関係212、および(ii)一致する住所に基づくエンティティBとCとの間の関係214を推測する(または事前に推測していた)。前述のように、これらの関係は発見された関係と呼ばれる。一実施形態において、アプリケーション150は、共通に関係するエンティティCに基づいて、エンティティAとBとの間の類似スコアを上げる。一般にJohn(エンティティC)が同じ氏名および生年月日を有する2人の別個の人物をルームメイトとして有していた可能性は低いが、氏名が同じ可能性があるのは一般的であるため、類似スコアが上げられる。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション150はエンティティAおよびBを単一エンティティに解決する。したがって、共通に関係するエンティティCの存在が、実際に、類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値に僅差で届かない場合など、少なくともいくつかのケースでは、エンティティAおよびBの解決をトリガする可能性がある。
一実施形態において、少なくとも部分的に関係グラフの生成あるいはトラバースまたはその両方の結果として、2つのエンティティが共通に関係するエンティティを有するかどうかを判別することは、2つのエンティティが特定の一致属性を有するかどうかを判別することに比べて、(処理時間あるいは計算リソースまたはその両方に関して)より費用がかかる可能性がある。したがって、いくつかの実施形態において、アプリケーション150は、類似スコアが規定の程度だけ、たとえばしきい値100ポイントのうちの10ポイント以内で、しきい値に届かない場合のみ、共通に関係するエンティティを識別するように構成される。こうすることで、類似スコアにおける何らかの上昇が依然としてエンティティ・レゾリューションをトリガするには不十分である場合など、少なくともいくつかのケースにおいて、アプリケーション150が共通に関係するエンティティを不必要に識別するのを防ぐことができる。規定の程度は、ユーザが指定する、あるいは特定のケースの必要性に合うように調節される、またはその両方であってよい。したがってユーザは、このような状況において、効率的な処理と正確なスコアリングとの間のトレードオフを管理することも可能である。
図4は、発明の一実施形態に従った、アプリケーション150が発見された関係に基づいて類似スコアを調整することが可能な、エンティティの他の例を示す図である。この例は、法執行機関に対し、レストラン所有者Roger Ramirezによって徘徊が繰り返し訴えられてきた、人物、James Smithとの関連において、提示されている。図4に示されるように、エンティティはエンティティA152、エンティティB152、エンティティC152を含む。ここでも、エンティティAがインバウンド識別記録を含み、エンティティBが候補エンティティであり、エンティティCがエンティティAおよびエンティティBのうちの少なくとも1つに関係するエンティティであると想定する。エンティティは、識別記録インジケータ302、氏名304、および1つまたは複数の告訴識別子308の、属性を含む。この特定の例では、各告訴識別子は、法執行機関によって提出された告訴を固有に識別し、各告訴には違反者および法的処置を用いて告訴を提出する人物の氏名が記載されている。加えて、エンティティAおよびBは生年月日306を含み、エンティティCは、住所310および電話番号312をそれぞれ表す属性を含む。さらにエンティティAは識別記録A1を含み、エンティティBは識別記録B2を含み、エンティティCは2つの識別記録C1およびC2を含む。各識別記録はそれぞれの告訴識別子に関連付けられている。
上記の例のように、エンティティAおよびBから算出される類似スコアは、エンティティAおよびBの単一エンティティへの解決をトリガするには不十分である。一実施形態において、アプリケーション150は、エンティティAおよびBがエンティティCに共通に関係することを推測する。より具体的に言えば、アプリケーション150は、(i)第1の一致する告訴識別子に基づく識別記録A1とC1との間の関係314、および(ii)第2の一致する告訴識別子に基づく識別記録B1とC2との間の関係316を、推測する。一実施形態において、アプリケーション150は、共通に関係するエンティティCに基づいて、エンティティAとBの間の類似スコアを上げる。告訴を提出している人物(エンティティC)が、同じ違反者に関して、同じ氏名および生年月日を有する2人の別個の人物を訴えている可能性は通常低いが、氏名が同じ可能性があるのは一般的であるため、類似スコアが上げられる。言い換えれば、告訴を提出している人物が再犯者を2回訴えた可能性の方が一般に高い場合がある。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション150はエンティティAおよびBを単一エンティティに解決する。
図5は、本発明の一実施形態に従った、アプリケーション150が開示された関係に基づいて類似スコアを調整することが可能な、エンティティの例を示す図である。この例は、個人Joy Sadoが、別の人物RogerRamirezの雇用申請書の照会先としてリストに挙げられた状況で提示されている。さらにJoyは、Rogerの雇用者生命保険の受取人としてもリストに挙げられている。エンティティAがJoyを表すインバウンド識別記録を含み、エンティティBが同じくJoyを表す候補エンティティであり、エンティティCがエンティティAおよびエンティティBのうちの少なくとも1人に関係するエンティティであるものと想定する。エンティティは、識別記録インジケータ402、氏名404、および電話番号406の、属性を含む。加えて、エンティティBおよびCは、それぞれ生年月日408および住所410を表す属性も含む。さらにエンティティAは識別記録A1を含み、エンティティBは識別記録B2を含み、エンティティCは2つの識別記録C1およびC2を含む。C1はRogerの雇用申請書を表し、C2はRogerの雇用者生命保険プランを表すものと想定する。
氏名「Joy Sado」は、エンティティ・レゾリューション・システムにおいて一般的なオカレンスではないものと仮定する。したがって、一致する氏名および一致する電話番号は、エンティティAおよびBの単一エンティティへの解決をトリガするのに十分な可能性がある。しかしながら、エンティティBの電話番号はエンティティAの電話番号と厳密には一致していない。たとえば、データ入力時あるいは処理時またはその両方でのエラーにより、結果としてエンティティBの電話番号とエンティティAの電話番号に1桁のみの違いを生じさせた可能性がある。1桁のみ異なる電話番号により、結果として、エンティティAおよびBが、エンティティ・レゾリューション規則によって定義されたしきい値を僅差で満たしていない可能性がある。
他方で、一実施形態において、アプリケーション150は、エンティティAおよびBがエンティティCに共通に関係していることを識別する。この識別は、(i)雇用照会先に基づく識別記録C1とA1との間の開示された関係412、および(ii)受取人リストに基づく識別記録C2とB1との間の開示された関係412に基づいて、行われる。一実施形態において、次にアプリケーション150は、共通に関係するエンティティCに基づいて、エンティティAとBの間の類似スコアを上げる。1人は雇用照会先として、もう1人は受取人としてリストに挙げられるような、同じ氏名および同様の電話番号を有する2人の別個の人物に、Rogerがそれほど緊密に関係している可能性が一般には高くないことから、類似スコアが上げられる。上げられた類似スコアがエンティティ・レゾリューション規則によって定義されたしきい値を満たす場合、アプリケーション150はエンティティAおよびBを単一エンティティに解決する。
図3〜図5に関連して上記で説明した例は、少なくともいくつかのケースで解決不足(under-resolving)エンティティを避けるために関係を使用することを含む。本明細書で使用される場合、解決不足とは、2つのエンティティが実際には同じ人物を言い表している(および解決されるべきである)場合、2つのエンティティを単一のエンティティに解決することを誤って控えることを言い表す。いくつかの実施形態において、本明細書で開示された技法は、関係を使用する結果として過剰解決(over-resolving)エンティティを避けるためにさらに改良することも可能である。本明細書で使用される場合、過剰解決とは、2つのエンティティが実際には別個の人物を言い表している(および解決されるべきでない)場合、2つのエンティティを単一のエンティティに誤って解決することを言い表す。
一実施形態において、この技法は、第1のエンティティ(インバウンド識別記録を含む)と候補エンティティとの間ですでに共有されている識別属性値からのみ形成される、発見された関係を無視することによって、改良可能である。たとえば、エンティティAがインバウンド識別記録を含み、エンティティBが、エンティティAに一致する氏名および生年月日の2つの属性を含むものと想定する。エンティティAおよびBが、エンティティAおよびBを単一エンティティに解決するには不十分な類似スコアを有するものと想定する。たとえば、一致する氏名が、エンティティ・レゾリューション・システムにおいて一般に発生する、たとえば「James Smith」であるとする。さらにアプリケーション150が、エンティティAとBの間の一致属性のいくつかまたはすべてに基づいて、エンティティAおよびBのそれぞれとエンティティCとの間の関係を推測することも想定する。言い換えれば、エンティティCが、一致する氏名あるいは一致する生年月日またはその両方も有すると想定する。
いくつかの実施形態において、エンティティCにおける一致属性は、エンティティCがエンティティAまたはBに解決される結果を生じさせるのに必ずしも十分でない可能性があるにもかかわらず、エンティティCにおける一致属性は、アプリケーション150がエンティティCとエンティティAおよびBのそれぞれとの間の関係を推測するのには十分な可能性がある。本明細書で開示される改良された技法を使用することによって、アプリケーション150は、エンティティCとエンティティAおよびBのそれぞれとの間で推測される関係を無視し、エンティティCがエンティティAとエンティティBとの間のすべての類似スコアを上げるのを防ぐ。これは、エンティティCが、エンティティAをエンティティBに関連付ける新しい情報(すなわち属性)を含まないためである。その代わりに、エンティティAをエンティティBに関連付けるエンティティC内の属性のみが、エンティティAおよびBにすでに含まれている。したがって改良された技法は、少なくともいくつかのケースにおいて、エンティティ間の関係を使用する結果としてのエンティティの過剰解決を防ぐことができる。たとえば改良された技法は、エンティティCが、エンティティAおよびエンティティBの単一エンティティへの解決を誤ってトリガするのを防ぐ。
図6は、本発明の一実施形態に従った、アプリケーション150が共通エンティティとの関係の結果として解決するのを控えることが可能な、エンティティの例を示す図である。図に示されるように、エンティティA、B、およびCはそれぞれ、それぞれの識別記録インジケータ502を含む。加えて、エンティティA、B、およびCは、氏名504および生年月日506の、一致属性を含む。この特定の例では、一致する氏名は「James Smith」であり、エンティティ・レゾリューション・システムにおいて一般的に生じる。したがって、エンティティAおよびBは、エンティティAおよびBの単一エンティティへの解決をトリガするには不十分な類似スコアを有する可能性がある。さらにアプリケーション150は、氏名504および生年月日506の一致属性に基づいて、エンティティAおよびBのそれぞれとエンティティCとの間の関係を推測することができる。より具体的に言えば、一致属性に基づき、アプリケーション150は、エンティティAとC、エンティティBとC、およびエンティティAとBの、それぞれの間の関係508、510、512を推測することができる。他方でエンティティCは、すでに含まれる属性エンティティAおよびBに対して、いずれの新しい属性を使用しても、エンティティAおよびBを関連付けることはない。したがってアプリケーション150は、推測される関係を無視し、推測される関係に基づいてエンティティAとBの間の類似スコアが上げられることを防ぐ。したがってアプリケーション150は、エンティティCが、エンティティAおよびBを過剰解決にするのを防ぐ。
いくつかの実施形態において、少なくともいくつかのケースでエンティティの過剰解決を防ぐように技法を改良する代替手法は、各関係を「類似関係」または「接続関係」のいずれかとして指定することを含む。本明細書で使用される場合、類似関係とは、エンティティが同じ人物を表す可能性が高いことを示す、エンティティ間の関係を言い表す。たとえば、類似関係は2つのエンティティ間で作成可能であり、ここでエンティティは、エンティティを単一エンティティに解決するための上方しきい値を満たしていないが、2つのエンティティ間に類似関係を作成するための下方しきい値を満たしている、類似スコアを有する。接続関係とは、エンティティが別個であるが関係する人物を表す可能性が高いことを示す、エンティティ間の関係を言い表す。たとえば接続関係は、保険証券での受取人、雇用ファイルでの緊急連絡先、雇用申請書での照会先などの、開示された関係に基づいて、2つのエンティティ間に作成することができる。通常、人物が少なくとも何らかのタイプの開示された関係のリストに自分自身を挙げる可能性は低い場合がある。各関係が、類似関係または接続関係のいずれかとして指定されると、すべての類似関係を無視し、それによっていずれの類似関係も類似スコアを上昇させないようにすることによって、技法を改良することができる。別の方法として、接続関係のみを考慮し、それによって接続関係のみが類似スコアを上昇させられるようにすることによって、技法を改良することができる。
加えてまたは別の方法として、一実施形態では、他のケースにおけるエンティティの過剰解決を避けるように技法を改良することができる。たとえば、過剰に関係しているエンティティが、2つのエンティティが過剰解決されるのを防ぐように、技法を改良することができる。本明細書で使用される場合、過剰に関係しているエンティティとは、望ましくないほど多くの度合い1の関係を伴うエンティティを言い表す。たとえばアプリケーション150は、エンティティが事前に定義されたしきい値を超えるいくつかの第1の度合いの関係を有する場合、そのエンティティを過剰に関係しているエンティティとして指定するように決定することができる。過剰に関係しているエンティティは、一般に、少ない数の第1の度合いの関係を有するエンティティよりも、過剰解決を発生させる可能性が高い場合がある。
図7は、本発明の一実施形態に従った、アプリケーション150が、望ましくないほど多くの関係を伴うエンティティの結果として解決するのを控えることが可能な、エンティティの例を示す図である。この例は、レンタカーの顧客がネバダにおいて交通召喚状を受け取った状況で提示される。レンタカーの顧客は、ネバダ州車両管理局(DMV)に登録された多数の車両を有するレンタカー会社である、Acme Rental Carのクライアントである。DMVでの各登録の結果、識別記録が新しく生成され、そのそれぞれがそれぞれ別個のナンバープレートを備える。図に示されるように、エンティティAおよびBはそれぞれJames Smithという名前の顧客を表し、エンティティCはAcme Rental Carを表す。エンティティA、B、およびCは、それぞれ識別記録インジケータ602および氏名604を含む。加えて、エンティティAおよびBは、生年月日606、ナンバープレート608、召喚日610、および運転免許612を含む。エンティティCは、新しく生成された識別記録のすべて(およびそれぞれ、別個のナンバープレート)を含む。たとえばアプリケーション150は、氏名、電話番号、および住所などの一致属性に基づいて、新しく生成された識別記録のすべてを単一エンティティ、エンティティCに解決することができる。
この特定の例において、エンティティAは、2002年にレンタカーを運転中、召喚状を受け取った人物James Smithを表し、この運転手が召喚時点でカリフォルニア州の運転免許を保持していたものと想定する。さらにエンティティBは、2008年に異なるレンタカーを運転中、召喚状を受け取った、同じ氏名James Smithを持つ人物を表し、この運転手が召喚時点でテキサス州の運転免許を保持していたものと想定する。エンティティAおよびBが一致する生年月日を有するものとも想定する。前述のように、一致する氏名および生年月日は、通常、エンティティAおよびBの単一エンティティへの解決をトリガするのに十分な可能性がある。しかしながら、氏名「James Smith」はエンティティ・レゾリューション・システムにおいて一般的に生じるため、エンティティAおよびBは、エンティティAおよびBを単一エンティティに解決するためのしきい値に僅差で届かない類似スコアを有する可能性がある。
一実施形態において、技法は、任意の過剰に関係しているエンティティを無視し、過剰に関係しているエンティティに対するいずれの関係も、2つのエンティティが単一エンティティに誤って解決されるのを防ぐように改良される。前述のように、アプリケーション150は、エンティティが事前に定義されたしきい値を超えるいくつかの関係を有する場合、そのエンティティを過剰に関係しているエンティティとして指定するように決定することができる。事前に定義されたしきい値は、ユーザが指定する、あるいは関係カウントに従って、エンティティ・レゾリューション・システムにおいて指定されたパーセンタイルのエンティティに基づいて決定する、またはその両方とすることができる。たとえば一実施形態において、関係カウントに基づく上位20パーセンタイルのエンティテが、アプリケーション150によって無視され得る。改良された技法は、Acme Rental Car(エンティティC)がエンティティAおよびBを単一エンティティに誤って解決するのを防ぐために使用することができる。
確かに、2002年から2008年の間に、James Smithという氏名の単一の人物が、カリフォルニア州からテキサス州に移転し、ネバダ州を複数回訪問し、ネバダ州に居る間に両方の召喚状を受け取った可能性がある。他方で、Acme Rental Carが何千人もの顧客を抱える大会社である場合、どちらもJames Smithという氏名の2人の人物が、それぞれカリフォルニア州およびテキサス州から別々にネバダ州を訪問し、それぞれがネバダ州に居る間にそれぞれの召喚状を受け取った可能性も有り得る。エンティティが2人の別個の人物を表している確率は、少なくともある程度、Acme Rental Carの第1の度合いの関係の数、あるいはJames Smithという氏名の共通性、またはその両方に等しい可能性がある。したがって、改良された技法を使用することにより、アプリケーション150は、こうしたケースでエンティティを過剰に解決するのを避けることができる。
図8は、本発明の一実施形態に従った、共通エンティティとの関係に基づいてエンティティを解決するための方法700を示す流れ図である。図に示されるように、方法700はステップ710で開始され、ここでアプリケーション150は、第1のエンティティおよび第2のエンティティを比較して、第1のエンティティおよび第2のエンティティがエンティティ・レゾリューション規則をほぼ満たしていることを決定する。第1のエンティティはインバウンド識別記録を含むことが可能であり、第2のエンティティは候補エンティティとすることができる。前述のように、エンティティ・レゾリューション規則は、第1のエンティティおよび第2のエンティティを単一エンティティに解決するための基準を指定する。エンティティ・レゾリューション規則をほぼ満たすことは、エンティティ・レゾリューション規則によって定義されたしきい値に、規定された数値的範囲だけわずかに、僅差で届かない類似スコアを有することを含む。
ステップ720で、アプリケーション150は、第1のエンティティおよび第2のエンティティに共通に関係している1つまたは複数のエンティティのセットを決定し、ここで1つまたは複数のエンティティのセットは少なくとも第3のエンティティを含む。1つまたは複数のエンティティは、開示された関係あるいは発見された関係またはその両方を含む関係グラフをトラバースすることによって決定することができる。ステップ720については、図9に関連して以下でさらに説明する。ステップ730で、アプリケーション150は、1つまたは複数のエンティティのセットに基づいて、第1のエンティティおよび第2のエンティティがエンティティ・レゾリューション規則を満たしていることを決定する。たとえば、1つまたは複数のエンティティに基づいて第1と第2のエンティティの間の類似スコアを上げることが可能であり、上げられた類似スコアは、エンティティ・レゾリューション規則によって定義されたしきい値を満たす。次にステップ740で、アプリケーション150は、第1および第2のエンティティを単一エンティティに解決する。ステップ740の後、方法700は終了する。
図9は、発明の一実施形態に従った、図8の第1および第2のエンティティに共通に関係する1つまたは複数のエンティティのセットを決定するための方法800を示す流れ図である。方法800は、図8のステップ720に対応する。さらに本明細書では、関係の形のセットの基礎となる表現を参照しながら実施形態について説明しているが、他の実施形態も広範に企図される。たとえばセットの基礎となる表現は、関係ではなくエンティティの形とすることができる。たとえば、そのエンティティAおよびBに共通に関係するエンティティCは、関係の形(すなわち、AとCの間の第1の関係およびBとCの間の第2の関係を含むセット)ではなくエンティティの形(すなわち、エンティティCを含むセット)で表すことができる。この特定の状況では、エンティティCは、エンティティAあるいはエンティティBまたはその両方に関係するエンティティ/それらの関係として、互換的に言い表すことができる。
図に示されるように、方法800はステップ810で開始され、ここでアプリケーション150は、第1と第2のエンティティ間のいずれの関係も除き、第1および第2のエンティティのそれぞれについて度合い1の発見された関係をすべて識別する。アプリケーション150は、識別された関係をセットに追加することができる。ステップ820で、アプリケーション150は、第1と第2のエンティティ間にすでに一致が存在していた属性から単に形成された発見された関係を、セットから除去することができる。たとえばアプリケーション150は、図6の関係508、510、512(あるいはエンティティC154またはその両方)を、セットから除去することができる。ステップ830で、アプリケーション150は、第1と第2のエンティティ間のいずれの関係も除き、第1および第2のエンティティのそれぞれについて開示された関係を、セットに追加する。ステップ840で、アプリケーション150は、オプションで、最低関係強度を満たしていないいずれの関係も、セットから除去するため、結果として、望ましい強度を超える関係のみが共通に関係するエンティティを決定する際に考慮されることになる。
ステップ850で、アプリケーション150は、第1および第2のエンティティに共通していない任意の第3のエンティティに対するいずれの関係も、セットから除去し、結果として共通に関係するエンティティのセットが生じる。ステップ860で、アプリケーション150は、オプションで、セット内の1つまたは複数の追加の関係の度合いをトラバースし、第1および第2のエンティティに共通に関係することがわかったいずれのエンティティもセットに追加する。ステップ870で、アプリケーション150は、オプションで、過剰に関係するエンティティとして識別されたエンティティとのいずれの関係も、セットから除去する。たとえばアプリケーション150は、図7の関係618および620(あるいはエンティティC154またはその両方)を、セットから除去することができる。ステップ870の後、方法800は終了する。
図10は、本発明の一実施形態に従った、図1のアプリケーション150の構成要素900を示すブロック図である。図に示されるように、構成要素900は、エンティティ・レゾリューション構成要素910、関係ジェネレータ920、関係トラバーサ930、およびスコアリング構成要素940を含む。スコアリング構成要素940は、基本スコア・モジュール950および調整モジュール960を含む。一実施形態において、エンティティ・レゾリューション構成要素910は、複数のエンティティを単一エンティティに解決するか、または単一エンティティを複数のエンティティに分割するように構成される。このため、エンティティ・レゾリューション構成要素910は、1つまたは複数のエンティティ・レゾリューション規則を適用する。したがって、エンティティ・レゾリューション構成要素910は、図8のステップ740を実行することができる。関係ジェネレータ920は、エンティティに含まれた属性および事前に定義された関係基準に基づいて、エンティティ間の推測される関係を作成および記憶するように構成される。たとえば関係ジェネレータ920は、図9のステップ810の一部またはすべてを実行することができる。
一実施形態において、関係トラバーサ930は、共通に関係するエンティティを識別するために関係グラフを探査するように構成される。このため、関係トラバーサ930は事前に定義されたトラバース基準を適用することができる。トラバース基準の例は、関係強度、分離の度合い、関係のカウントなどを含む。したがって、関係トラバーサ930は、図9のステップ820からステップ870を実行することができる。スコアリング構成要素940は、第1のエンティティの属性が第2のエンティティの属性に一致する度合いを少なくとも部分的に表す、類似スコアを算出するように構成される。このため、スコアリング構成要素940は、1つまたは複数の事前に定義されたスコアリング規則を適用する。したがって、スコアリング構成要素940は、図8のステップ710あるいはステップ730またはその両方の一部またはすべてを実行することができる。類似スコアが2つの段階を介して算出される実施形態では、基本スコア・モジュール950はステップ710の一部またはすべてを実行し、調整モジュール960はステップ730の一部またはすべてを実行する。
有利なことに、本発明の実施形態は、共通エンティティに対する関係に基づいてエンティティの解決を実行するための技法を提供する。一実施形態は、エンティティ・レゾリューションのためのアプリケーションを提供する。アプリケーションは2つのエンティティを比較して、エンティティ・レゾリューションしきい値がほぼ満たされているかどうかを判別し、ここでエンティティ・レゾリューションしきい値は、2つのエンティティを単一エンティティに解決するためのしきい値を言い表す。アプリケーションは、2つのエンティティに共通に関係する1つまたは複数のエンティティを決定する。次にアプリケーションは、1つまたは複数の共通に関係するエンティティに基づいて、2つのエンティティがエンティティ・レゾリューションしきい値を満たしていることを決定する。次にアプリケーションは、2つのエンティティを単一エンティティに解決する。有利なことに、アプリケーションは、少なくともいくつかのケースで、代替の手法に比べてより正確にエンティティを解決することができる。より具体的に言えば、本明細書に開示された技法を使用する結果として、エンティティの過剰解決におけるいずれの増加も最小限にしながら、エンティティの解決不足を減らすことができる。
一実施形態において、取り込まれるデータの量が少ないかあるいは品質が低い、またはその両方の場合は特に、エンティティをより正確に解決することができる。少量のデータの例は、多くの人物に関して氏名および生年月日のみが記録される場合である。低品質のデータの例は、おそらくデータ入力あるいはデータ処理またはその両方におけるエラーの結果として、取り込まれるデータ内に多くの不整合が存在する場合である。たとえばデータは、多くの識別記録を含むことが可能であり、それぞれが氏名「James Smith」の異なるスペルミスと見られるものを伴っている。本明細書の技法は、識別記録が実際に単一エンティティに解決されるべきである場合、エンティティ・レゾリューション・システムにおいて多数のまばらに分布されたエンティティ全体に広がる識別記録の発生を削減するために使用可能である。
前述のように、アプリケーションは、少なくともいくつかのケースで、代替の手法に比べてより正確にエンティティを解決することができる。代替手法の例は、共通の氏名に基づいてエンティティの解決を選択的に実行可能にすること、あるいは、エンティティの解決時に共通エンティティに対する関係を考慮することなく、エンティティ・レゾリューション規則に指定されたしきい値を変更すること、またはその両方を含む手法である。代替手法は、解決不足をある程度削減することが可能であるが、結果として過剰解決が格段に頻繁に発生する可能性がある。少なくともいくつかの実施形態において、過剰解決が格段に頻繁に発生する可能性のある程度は、確率論における誕生日問題に関連付けられた確率論的技法を用いて測定することができる。誕生日問題は、ランダムに選択された人物のセットにおいて、人物のいくつかのペアが同じ誕生日を有することになる確率に関連している。例として、エンティティ・レゾリューション・システムにおけるエンティティは、氏名および生年月日のみを含むことがしばしばある。50年の期間内には、うるう年の追加の日を除いて、およそ18250の別個の生年月日がある。それぞれの別個の生年月日がエンティティ・レゾリューション・システムにロードされ、所与の氏名が160の別個の生年月日に割り当てられると想定する。この特定の例では、生年月日のうちの1つが同じ氏名の2人の別個の人物に属する確率は、ほぼ50パーセントで存在し得る。さらに人口がほぼ800万人のニューヨーク市の状況では、そのほぼ半数が男性であり、ニューヨーク市には「James Smith」という氏名の別個の人物が1320人存在する可能性がある。400人の別個の人物がエンティティ・レゾリューション・システムにロードされた場合、2人の人物が同じ生年月日を有する確率はほぼ98.8%であり得る。これは、確率が、(i)人物および(ii)生年月日の、いくつかのペアワイズ・コンビネーション(pair-wisecombination)に基づいているためである。2人の別個の人物が同じ生年月日を有する確率が高いため、代替手法を使用した結果として、過剰解決が格段に頻繁に発生する可能性がある。
上記は本発明の実施形態を対象としているが、本発明の他のおよび追加的な実施形態が、その基本的な範囲を逸脱することなく考案可能であり、その範囲は以下の特許請求の範囲によって決定される。

Claims (21)

  1. エンティティ・レゾリューション・システムにおいて第1のエンティティと第2のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す1つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける1つまたは複数の属性を含むデータ記録を含む、決定すること、
    前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定すること、
    前記第1のエンティティに関係する1つまたは複数のエンティティのセットおよび前記第2のエンティティに関係する1つまたは複数のエンティティのセットを識別すること、
    前記2つのセットの交差に基づき、1つまたは複数のコンピュータ・プロセッサの動作によって、前記類似スコアを調整することであって、前記交差が少なくとも第3のエンティティを含む、調整すること、および、
    前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第1のエンティティおよび前記第2のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定すること、
    を含
    前記第3のエンティティが、(i)前記第1のエンティティまたは前記第2のエンティティからの分離の度合いおよび(ii)関連付けられた関係強度のうちの、少なくとも1つに基づいて識別されたエンティティのセットから選択され、前記第1のエンティティと前記第2のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも1つの関係が、発見された関係および開示された関係のうちの1つを含み、前記第1および第2のエンティティによって共有される1つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される
    エンティティ・レゾリューションのための方法。
  2. 前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティの属性を比較することによって決定され、前記第2のエンティティが候補エンティティである、請求項1に記載のエンティティ・レゾリューションのための方法。
  3. 前記第3のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つから測定される、請求項1に記載のエンティティ・レゾリューションのための方法。
  4. 前記第3のエンティティが、事前に定義されたしきい値を超えない度合い1の関係のカウントを有する、請求項1に記載のエンティティ・レゾリューションのための方法。
  5. 前記類似スコアが、(i)前記交差の範囲、(ii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、関係の強度の測定、および(iii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、分離の度合いのカウントのうちの、少なくとも1つに基づいて調整される、請求項1に記載のエンティティ・レゾリューションのための方法。
  6. 少なくとも前記第3のエンティティが、前記第1および第2のエンティティのうちの少なくとも1つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第1および第2のエンティティのうちの少なくとも1つとの関係を有することを含み、前記関係が、前記第1及び第2のエンティティに共通の1つまたは複数の識別属性のみに基づく、請求項1に記載のエンティティ・レゾリューションのための方法。
  7. 各関係が類似関係および接続関係のうちの1つを含み、前記第1および第2のエンティティのうちの少なくとも1つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第1および第2のエンティティのうちの少なくとも1つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項に記載のエンティティ・レゾリューションのための方法。
  8. エンティティ・レゾリューションのためのコンピュータ・プログラムであって、コンピュータに
    エンティティ・レゾリューション・システムにおいて第1のエンティティと第2のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す1つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける1つまたは複数の属性を含むデータ記録を含む、決定すること
    前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定すること
    前記第1のエンティティに関係する1つまたは複数のエンティティのセットおよび前記第2のエンティティに関係する1つまたは複数のエンティティのセットを識別すること
    前記2つのセットの交差に基づき、前記類似スコアを調整することであって、前記交差が少なくとも第3のエンティティを含む、調整することと、および
    前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第1のエンティティおよび前記第2のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定すること
    を実行させ、
    前記第3のエンティティが、(i)前記第1のエンティティまたは前記第2のエンティティからの分離の度合いおよび(ii)関連付けられた関係強度のうちの、少なくとも1つに基づいて識別されたエンティティのセットから選択され、前記第1のエンティティと前記第2のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも1つの関係が、発見された関係および開示された関係のうちの1つを含み、前記第1および第2のエンティティによって共有される1つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される
    エンティティ・レゾリューションのためのコンピュータ・プログラム。
  9. 前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティの属性を比較することによって決定され、前記第2のエンティティが候補エンティティである、請求項に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  10. 前記第3のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つから測定される、請求項に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  11. 前記第3のエンティティが、事前に定義されたしきい値を超えない度合い1の関係のカウントを有する、請求項に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  12. 前記類似スコアが、(i)前記交差の範囲、(ii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、関係の強度の測定、および(iii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、分離の度合いのカウントのうちの、少なくとも1つに基づいて調整される、請求項に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  13. 少なくとも前記第3のエンティティが、前記第1および第2のエンティティのうちの少なくとも1つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第1および第2のエンティティのうちの少なくとも1つとの関係を有することを含み、前記関係が、前記第1及び第2のエンティティに共通の1つまたは複数の識別属性のみに基づく、請求項に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  14. 各関係が類似関係および接続関係のうちの1つを含み、前記第1および第2のエンティティのうちの少なくとも1つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第1および第2のエンティティのうちの少なくとも1つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項13に記載のエンティティ・レゾリューションのためのコンピュータ・プログラム。
  15. 1つまたは複数のコンピュータ・プロセッサと、
    メモリであって、前記1つまたは複数のコンピュータ・プロセッサによって実行された場合、
    エンティティ・レゾリューション・システムにおいて第1のエンティティと第2のエンティティとの間の類似スコアを決定することであって、各エンティティが、前記エンティティ・レゾリューション・システムによって存在すると見なされる対応する物理エンティティを表す1つまたは複数の識別記録を含み、各識別記録が、前記対応する物理エンティティを特徴付ける1つまたは複数の属性を含むデータ記録を含む、決定すること、
    前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティを単一エンティティに解決するための定義済みしきい値を満たしていない旨を決定すること、
    前記第1のエンティティに関係する1つまたは複数のエンティティのセットおよび前記第2のエンティティに関係する1つまたは複数のエンティティのセットを識別すること、
    前記2つのセットの交差に基づき、前記類似スコアを調整することであって、前記交差が少なくとも第3のエンティティを含む、調整すること、および、
    前記調整された類似スコアが前記定義済みしきい値を満たしている旨の決定に応答して、前記第1のエンティティおよび前記第2のエンティティが前記エンティティ・レゾリューション・システム内の同じ物理エンティティを表す旨を決定すること、
    を含む動作を実行するように構成された、プログラムを含むメモリと、
    を備
    前記第3のエンティティが、(i)前記第1のエンティティまたは前記第2のエンティティからの分離の度合いおよび(ii)関連付けられた関係強度のうちの、少なくとも1つに基づいて識別されたエンティティのセットから選択され、前記第1のエンティティと前記第2のエンティティとの間のいずれの関係も、前記エンティティのセットの識別において無視され、少なくとも1つの関係が、発見された関係および開示された関係のうちの1つを含み、前記第1および第2のエンティティによって共有される1つまたは複数の属性値のみに基づくいずれの発見された関係も、前記エンティティのセットを識別する際に無視される
    システム。
  16. 前記類似スコアが、前記第1のエンティティおよび前記第2のエンティティの属性を比較することによって決定され、前記第2のエンティティが候補エンティティである、請求項15に記載のシステム。
  17. 前記第3のエンティティが事前に定義されたしきい値を超えない分離の度合いを有し、前記分離の度合いが前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つから測定される、請求項15に記載のシステム。
  18. 前記第3のエンティティが、事前に定義されたしきい値を超えない度合い1の関係のカウントを有する、請求項15に記載のシステム。
  19. 前記類似スコアが、(i)前記交差の範囲、(ii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、関係の強度の測定、および(iii)(A)少なくとも前記第3のエンティティと(B)前記第1のエンティティおよび前記第2のエンティティのうちの少なくとも1つの間の、分離の度合いのカウントのうちの、少なくとも1つに基づいて調整される、請求項15に記載のシステム。
  20. 少なくとも前記第3のエンティティが、前記第1および第2のエンティティのうちの少なくとも1つに対する類似のしきい値を満たす任意のエンティティを除外し、前記類似のしきい値を満たすことが、前記第1および第2のエンティティのうちの少なくとも1つとの関係を有することを含み、前記関係が、前記第1及び第2のエンティティに共通の1つまたは複数の識別属性のみに基づく、請求項15に記載のシステム。
  21. 各関係が類似関係および接続関係のうちの1つを含み、前記第1および第2のエンティティのうちの少なくとも1つに対して発見された関係を有するエンティティと、類似のしきい値を満たすエンティティとが、類似関係を有するものとして指定され、前記第1および第2のエンティティのうちの少なくとも1つに対して開示された関係を有するエンティティが接続関係を有するものとして指定される、請求項20に記載のシステム。
JP2014526566A 2011-08-24 2012-06-21 共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム Active JP5946533B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/217,027 2011-08-24
US13/217,027 US8965848B2 (en) 2011-08-24 2011-08-24 Entity resolution based on relationships to a common entity
PCT/IB2012/053144 WO2013027129A1 (en) 2011-08-24 2012-06-21 Entity resolution based on relationships to common entity

Publications (2)

Publication Number Publication Date
JP2014529129A JP2014529129A (ja) 2014-10-30
JP5946533B2 true JP5946533B2 (ja) 2016-07-06

Family

ID=47745141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014526566A Active JP5946533B2 (ja) 2011-08-24 2012-06-21 共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム

Country Status (5)

Country Link
US (1) US8965848B2 (ja)
EP (1) EP2748731A4 (ja)
JP (1) JP5946533B2 (ja)
CN (1) CN103748582B (ja)
WO (1) WO2013027129A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012007316B1 (pt) 2009-09-30 2021-09-28 Evan V. Chrapko Método e sistemas para determinar a conectividade de rede
US20110099164A1 (en) 2009-10-23 2011-04-28 Haim Zvi Melman Apparatus and method for search and retrieval of documents and advertising targeting
KR101994987B1 (ko) * 2012-02-22 2019-09-30 구글 엘엘씨 관련 엔티티들
US9471606B1 (en) * 2012-06-25 2016-10-18 Google Inc. Obtaining information to provide to users
JP6281491B2 (ja) * 2012-08-31 2018-02-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法及びプログラム
US10311156B2 (en) * 2013-06-03 2019-06-04 Comcast Cable Communications, Llc Information association and suggestion
US20150134379A1 (en) * 2013-11-14 2015-05-14 International Business Machines Corporation Singularity of Presence
US10026114B2 (en) * 2014-01-10 2018-07-17 Betterdoctor, Inc. System for clustering and aggregating data from multiple sources
US9390126B2 (en) 2014-02-03 2016-07-12 International Business Machines Corporation Distributed analytics for entity resolution
JP6268435B2 (ja) * 2014-03-03 2018-01-31 富士通株式会社 データベースの再構成方法、データベースの再構成プログラム、及び、データベースの再構成装置
EP3143519A1 (en) * 2014-05-12 2017-03-22 Google, Inc. Automated reading comprehension
US9946808B2 (en) 2014-07-09 2018-04-17 International Business Machines Corporation Using vertex self-information scores for vertices in an entity graph to determine whether to perform entity resolution on the vertices in the entity graph
US10572935B1 (en) * 2014-07-16 2020-02-25 Intuit, Inc. Disambiguation of entities based on financial interactions
US9922290B2 (en) 2014-08-12 2018-03-20 Microsoft Technology Licensing, Llc Entity resolution incorporating data from various data sources which uses tokens and normalizes records
US10380486B2 (en) * 2015-01-20 2019-08-13 International Business Machines Corporation Classifying entities by behavior
US9578043B2 (en) 2015-03-20 2017-02-21 Ashif Mawji Calculating a trust score
US10187399B2 (en) * 2015-04-07 2019-01-22 Passport Health Communications, Inc. Enriched system for suspicious interaction record detection
WO2016205286A1 (en) 2015-06-18 2016-12-22 Aware, Inc. Automatic entity resolution with rules detection and generation system
CN105376223B (zh) * 2015-11-02 2018-10-12 北京锐安科技有限公司 网络身份关系的可靠度计算方法
CN106817390B (zh) 2015-12-01 2020-04-24 阿里巴巴集团控股有限公司 一种用户数据共享的方法和设备
US9734207B2 (en) * 2015-12-28 2017-08-15 Entelo, Inc. Entity resolution techniques and systems
WO2017132073A1 (en) * 2016-01-25 2017-08-03 Quaero Signal matching for entity resolution
US20170235792A1 (en) 2016-02-17 2017-08-17 Www.Trustscience.Com Inc. Searching for entities based on trust score and geography
US9679254B1 (en) 2016-02-29 2017-06-13 Www.Trustscience.Com Inc. Extrapolating trends in trust scores
US9721296B1 (en) 2016-03-24 2017-08-01 Www.Trustscience.Com Inc. Learning an entity's trust model and risk tolerance to calculate a risk score
US10585893B2 (en) * 2016-03-30 2020-03-10 International Business Machines Corporation Data processing
US10606821B1 (en) 2016-08-23 2020-03-31 Microsoft Technology Licensing, Llc Applicant tracking system integration
US10185738B1 (en) 2016-08-31 2019-01-22 Microsoft Technology Licensing, Llc Deduplication and disambiguation
US11501181B2 (en) 2017-02-09 2022-11-15 International Business Machines Corporation Point-and-shoot analytics via speculative entity resolution
US10783137B2 (en) * 2017-03-10 2020-09-22 Experian Health, Inc. Identity management
US11194829B2 (en) 2017-03-24 2021-12-07 Experian Health, Inc. Methods and system for entity matching
US11853397B1 (en) 2017-10-02 2023-12-26 Entelo, Inc. Methods for determining entity status, and related systems and apparatus
US11860960B1 (en) 2018-04-15 2024-01-02 Entelo, Inc. Methods for dynamic contextualization of third-party data in a web browser, and related systems and apparatus
US10997248B2 (en) * 2018-12-28 2021-05-04 IGMR Research Ltd. Data association using complete lists
CN109918669B (zh) * 2019-03-08 2023-08-08 腾讯科技(深圳)有限公司 实体确定方法、装置及存储介质
US10885020B1 (en) * 2020-01-03 2021-01-05 Sas Institute Inc. Splitting incorrectly resolved entities using minimum cut
US11474983B2 (en) 2020-07-13 2022-10-18 International Business Machines Corporation Entity resolution of master data using qualified relationship score
US11726980B2 (en) * 2020-07-14 2023-08-15 International Business Machines Corporation Auto detection of matching fields in entity resolution systems
US20230376467A1 (en) * 2022-05-18 2023-11-23 Twilio Inc. Identity resolution system
US20230418877A1 (en) * 2022-06-24 2023-12-28 International Business Machines Corporation Dynamic Threshold-Based Records Linking
US12008138B1 (en) * 2023-09-29 2024-06-11 Lightbeam.ai, Inc. Method for maintaining privacy and security of data

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR0215411A (pt) * 2001-12-28 2005-09-06 Jeffrey James Jonas Métodos para processar dados e para separar registros previamente conjugados, e, meio legìvel por computador
US7672833B2 (en) 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
WO2008121700A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for managing entities
EP2245554A1 (en) 2007-12-21 2010-11-03 Thomson Reuters Global Resources Systems, methods, and software for entity relationship resolution
CN101594372A (zh) * 2008-05-29 2009-12-02 西北工业大学 基于虚拟感知能力部件的上下文感知计算的方法和系统
CN101309190A (zh) * 2008-06-30 2008-11-19 腾讯科技(深圳)有限公司 用户组织管理系统及方法
US8150813B2 (en) * 2008-12-18 2012-04-03 International Business Machines Corporation Using relationships in candidate discovery
US8533223B2 (en) 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US9727842B2 (en) * 2009-08-21 2017-08-08 International Business Machines Corporation Determining entity relevance by relationships to other relevant entities
JP2011081763A (ja) * 2009-09-09 2011-04-21 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
CN102110087A (zh) 2009-12-24 2011-06-29 北京大学 字符数据中实体消解的方法和装置
US20120136812A1 (en) * 2010-11-29 2012-05-31 Palo Alto Research Center Incorporated Method and system for machine-learning based optimization and customization of document similarities calculation

Also Published As

Publication number Publication date
EP2748731A4 (en) 2015-07-01
EP2748731A1 (en) 2014-07-02
JP2014529129A (ja) 2014-10-30
CN103748582B (zh) 2016-12-21
CN103748582A (zh) 2014-04-23
US8965848B2 (en) 2015-02-24
WO2013027129A1 (en) 2013-02-28
US20130054598A1 (en) 2013-02-28

Similar Documents

Publication Publication Date Title
JP5946533B2 (ja) 共通エンティティとの関係に基づくエンティティ・レゾリューションのための方法、コンピュータ・プログラム、およびシステム
AU2019200055B2 (en) Automated secure identification of personal information
US10438297B2 (en) Anti-money laundering platform for mining and analyzing data to identify money launderers
US11030340B2 (en) Method/system for the online identification and blocking of privacy vulnerabilities in data streams
US8843501B2 (en) Typed relevance scores in an identity resolution system
US10180969B2 (en) Entity resolution and identity management in big, noisy, and/or unstructured data
US8918393B2 (en) Identifying a set of candidate entities for an identity record
US9996607B2 (en) Entity resolution between datasets
US20120023586A1 (en) Determining privacy risk for database queries
US10459982B2 (en) Generating derived links
KR20040088036A (ko) 실시간 데이터 웨어하우징
US20140303993A1 (en) Systems and methods for identifying fraud in transactions committed by a cohort of fraudsters
US8620927B2 (en) Unguided curiosity in support of entity resolution techniques
US10108616B2 (en) Probabilistic link strength reduction
US20130018921A1 (en) Need-to-know information access using quantified risk
US11500876B2 (en) Method for duplicate determination in a graph
US20140052685A1 (en) Context Accumulation Based on Properties of Entity Features
US11531656B1 (en) Duplicate determination in a graph
US20130046560A1 (en) System and method for deterministic and probabilistic match with delayed confirmation
US12001456B2 (en) Mutual exclusion data class analysis in data governance
US11880377B1 (en) Systems and methods for entity resolution
US11176108B2 (en) Data resolution among disparate data sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160531

R150 Certificate of patent or registration of utility model

Ref document number: 5946533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150