JP2023537947A

JP2023537947A - ピア・データ構造を使用するエンティティ解決データ・グラフの分析のためのマシン

Info

Publication number: JP2023537947A
Application number: JP2023509517A
Authority: JP
Inventors: コリンズ、ダブリュー．、ドウェイン
Original assignee: ライブランプインコーポレーテッド
Priority date: 2020-08-10
Filing date: 2021-04-29
Publication date: 2023-09-06
Also published as: US20230259557A1; CA3191440A1; EP4193273A1; WO2022035477A1

Abstract

マシンは、データ構造のキュレートされたピア・レビュー・セットを使用してエンティティ解決データ・グラフを分析する。マシンは、類似の又は関連しているが異なるユニバース及びエンティティをモデル化する独立ピア・データ構造を使用する。これらのデータ構造は、他のエンティティ解決データ・グラフ又はファイルベース・データ構造を含んでよい。マシンは、まず、これらのデータ構造のうちのいずれが分析において使用するための要求を満たすかを決定するために候補スクリーニングを行う。次いで、マシンは、それによって分析を行う候補ピア・データ構造の中から選択する。最後に、エンティティ解決データ・グラフは、選択されたピア・データ構造に対するクエリを使用して分析され、そのデータ・グラフの品質の分析を提供する。

Description

本願は、２０２０年８月１０日に出願された米国仮特許出願第６３／０６３，７９１号、２０２０年８月２７日に出願された米国仮特許出願第６３／０７０，９１１号、及び２０２０年１１月３日に出願された米国仮特許出願第６３／１０９，１８３号の優先権を主張するものである。前記出願のそれぞれは、それらの全体が本明細書に示されているものとして引用により組み込まれる。

エンティティ解決データ・グラフは、データ・グラフのユーザに対する外部インターフェースと共に、エンティティの規定された既存のユニバースに関連するデータを格納するための複雑なデータ構造である。アイデンティティ・アプリケーションにおいて、これらの「エンティティ」は、氏名、住所、その他のタッチポイント・タイプ・データ、例えば、電話番号及びＥメール・アドレス、及び１つ又は複数のタイプの「ハウスホールド」（ここではある統一的な社会経済的関係を有する個人のグループとして定義される）を含んでよい。データ・グラフは、データのセット及びこのようなデータの間の接続からなる「アサートされた関係」（又はＡＲ）を含み、ここで、接続されたデータはそれぞれ特定のエンティティに関連する。したがって、データ・グラフの主要なユニットは、タッチポイント・タイプ・インスタンスのアサートされた関係（ＡＲ）、及びその他の属性であり、その他の属性の意図は、特定のユニバースのモデルの基礎を形成する固有のエンティティ（人、ハウスホールド、又は１つ又は複数の人又はハウスホールドを含むトランザクションなど）を記述することである。ユニバースは、例えば、所与の地理的又は政治的なエンティティにおける消費者の居住者であってよい。アサートされた関係に形成された、これらのインスタンスの間の接続は、完成したエンティティ解決データ・グラフを規定する。１つのこのような実例において、アサートされた関係は、個人の氏名、住所、Ｅメール・アドレス及び電話番号の間の接続であってよい。データ・グラフの外部インターフェースは、様々な目的のために提供されてよい。例えば、エンティティ解決データ・グラフは、小売業者によって維持された顧客記録のセットに対する整合、又は財政的トランザクションの一部として入力された識別データの認証のために、使用されてもよい。

異なるエンティティ解決データ・グラフは、それらのエンティティ解決データ・グラフを構築した人にとって関心のあるデータのメークアップにおける違いを反映する。このようなユニバースの実例は、人口統計目的のために使用される米国国勢調査、徴税及びアセスメント目的のために使用される内国歳入庁、及び患者ケアを提供し且つ追跡するために使用される医療提供者システムを含む。これらのデータ・グラフのそれぞれは異なる目的で構築されているので、データの異なるソートを含み、データに異なる優先順位を付ける。それらは、また、それらの関連するフィールド内でより効率的に動作するために、内部構造が異なっていてよい。異なるエンティティ解決データ・グラフは、また、システム内に表された各エンティティの定義又はコンテクストにおける違いを反映する。ここでもまた、これは、検討中の特定のエンティティ解決データ・グラフのための範囲及び意図における違いを反映してよい。

２つのこのようなエンティティ解決データ・グラフは、上記で提示された次元の観点から同じである可能性がないので、このようなシステムのための「真実性」又は「正確性」の客観的概念は存在することができない。例えば、自然人が、エンティティ解決データ・グラフを構築又は更新するために使用されるトランザクションの一部として情報を提供するとき、これらの人は、様々なコンテクストにおける個人情報についてのアサーションを行う場合がある。これらは、異なるコンテクストのための異なる「認証ストリング」を難読化又は使用してもよい。人は、エイリアスを使用しても、古い情報を使用しても、情報をメークアップしても又は偽情報を使用しても、意図的に又は意図せずにエラー又は曖昧さを生成するためのその他の手段を使用してもよい。人は、この情報の究極のソースであるので、あらゆる他のソースから導き出すことができる客観的真実が存在することはできない。したがって、あらゆるエンティティ解決データ・グラフのための客観的正確性の単一の尺度を提供するシステムを構築することは不可能である。

正確性を測定することの困難性及びエンティティ解決データ・グラフに関する客観的真実を見つけ出すことの不可能にもかかわらず、それにもかかわらず、それらが含むデータ及びアサートされた関係の形式におけるそのデータ間の接続の観点から、これらのデータ構造の品質を分析的に評価することの強い必要性が存在する。既存の技術分野におけるあらゆるこのような品質尺度の欠如は、有効なエンティティ解決データ・グラフの構築を妨げ、さらに既存のエンティティ解決データ・グラフの改良を妨げる。したがって、エンティティ解決データ・グラフの定量化可能な分析を提供するマシンが強く望まれている。

背景技術のセクションで言及された引用文献は、本発明に関する従来技術であることは承認されていない。

本発明は、ピア・データ構造を使用してエンティティ解決データ・グラフを分析するためのマシン及び方法に関する。マシンは、分析の基礎としてピア・データ構造を使用するので、測定は、評価されるエンティティ解決データ・グラフによって課せられるあらゆるバイアス又は主観的視点から独立している。

様々な実施例において、マシンは、対応するデータ構造のキュレートされたピア・レビュー・フレームワークを使用して時点及び時間的観点の両方から表現的な分析を提供してよい。マシンは、類似の又は関連するがそれにもかかわらず異なるユニバース及びエンティティをモデル化する独立したデータ構造を使用して主体エンティティ表現データ・グラフの正確性を分析する。これらの独立したデータ構造は、本明細書では、主体エンティティ解決データ・グラフの「ピア」と呼ばれ、他の分野におけるピア・レビュー・システムと同様に機能する分析を容易にする。これらの独立したデータ構造は、よりローカライズされた特定のデータ及びデータ構造内のデータ間の接続を有してよい。なぜならば、独立したデータ構造は、ある実施例において、完全なエンティティ解決データ・グラフそれ自体ではない場合があるからである。多くの場合、完全なエンティティ解決データ・グラフをピアとして使用することは実用的ではない。なぜならば、このようなシステムは一般的にパブリックに利用可能ではないからである。したがって、ピア・データ構造は、完全なエンティティ解決データ・グラフのもの、特に主体エンティティ解決データ・グラフのものよりも小さなサイズ及び範囲のユニバースを表す場合がある。したがって、それが生成された目的を反映する自己の内部構造に基づいて、それぞれの独立したデータ構造を、主体完全エンティティ解決データ・グラフのバイアスされた視点からの主体完全エンティティ解決データ・グラフと直接比較するのではなく、本発明のマシンは、コンテクスト－ニュートラル・データ・クエリを使用して主体エンティティ解決データ・グラフと選択されたピア・データ構造とを比較する特定のバイアスされていない分析を与えるための手段を提供する。独立したデータ構造のそれぞれは、それらの自己の独立したデータからのデータ・セット及び信頼できる視点を使用してこれらのクエリに対する応答を入力する。また、それぞれの独立したデータ構造は、他からの可変性を非自明な方式で提供することができるので、ある実施例における分析コンポーネントは、個々のエンティティ・インスタンスの微細レベルの詳細（例えば、共通の氏名及び電話番号）に重点を置くのではなく、非常に粒度の高いレベルの文脈的類似性からの集合視点に重点を置く。しかしながら、あらゆる直接的な内部インスタンス・レベル分析比較（独立したデータ構造が特定の所定のエンティティを含むかどうかなど）が要求される場合があるならば、このようなクエリは、評価されている主体エンティティ表現データ・グラフのものではなく、それぞれの独立したデータ構造視点に基づく。言い換えれば、それぞれの独立したデータ構造は、データ構造が自己のユニバースにおいて表されているかどうか及びどのように表されているかを決定し、次いで、主体完全エンティティ解決データ・グラフを評価するためにその表現を使用する。次いで、それぞれの特定の独立したデータ構造のためのこの分析の結果は、主体エンティティ表現データ・グラフのための品質尺度を生成するために収集される。

本発明のこれら及びその他の特徴、目的及び利点は、以下に説明する図面に関連して好適な実施例の以下の詳細な説明及び添付の請求項を検討することによりさらに理解されるであろう。

本発明の１つの実施例によるエンティティ解決データ・グラフの潜在的なピア・データ構造のための候補スクリーニング・ステップを示すスイム・レーン図である。本発明の１つの実施例によるファイルベースの潜在的なピア・データ構造のための候補スクリーニング・ステップを示すスイム・レーン図である。本発明の１つの実施例によるファイルベースの潜在的なピア・レビュー・データ構造のための候補スクリーニング・ステップを行うためのマシンの論理アーキテクチャの図である。本発明の１つの実施例によるエンティティ解決データ・グラフの潜在的なピア・データ構造のためのピア選択プレステップを示すスイム・レーン図である。本発明の１つの実施例によるピア選択ステップを示すスイム・レーン図である。本発明の１つの実施例によるファイルベースのピア・データ構造のためのピア選択ステップを行うためのマシンの論理アーキテクチャの図である。本発明の１つの実施例による主体分析ステップを示すスイム・レーン図である。本発明の１つの実施例による主体分析ステップを行うためのマシンの論理的アーキテクチャの図である。

本発明がさらに詳細に説明される前に、本発明は、説明された特定の実施例に限定されず、特定の実施例を説明する際に使用された用語は、それらの特定の実施例を説明するためだけのものであり、限定することは意図されていないことが理解されるべきである。なぜならば、本発明の範囲は請求項のみによって限定されるからである。

ある実施例において、発明は、類似又は関連しているがしかしながら異なるユニバース及びエンティティをモデル化する独立したピア・システムによって主体エンティティ解決データ・グラフを分析するためのマシンに関する。これらの独立したシステムは、エンティティ解決データ・グラフのピアと呼ばれる。代替的に、ピアは、本明細書では「オラクル」と呼ばれてもよい。なぜならば、ピアは、以下で説明するように候補スクリーニングプロセスの間にピアとして選択されると、主体エンティティ解決データ・グラフにおける情報についての特定の問いに答えるために使用される場合があるからである。

基本的に、潜在的なピア独立システムとして本発明の様々な実施例において使用されてよい２つの異なるタイプの独立したシステムが存在する。１つのタイプは、既存の認証システムのためのデータ・グラフを含むファイルベース・データ構造（ＦＢシステム）である。このようなインスタンスは、主に、ビジネス又は企業にとって関心のある特定の人に関連する記録のデータベースであり、これは、主に、それぞれの含まれた人のための１つのアサートされた関係（ＡＲ）を含む。上記に提供されたこれらの様々なデータ構造の説明から、これらのファイルベース・データ構造が完全なエンティティ解決データ・グラフではないことが分かる。潜在的なピア独立システムの第２のタイプは、実際のエンティティ解決データ・グラフであるが、この場合、エンティティ解決データ・グラフを共有することができない。これは、例えば、プライバシーの懸念又は法的規制によるものであり得る。１つの非限定的な実例として、独立ピア・エンティティ解決データ・グラフの所有者は、その独立エンティティ解決データ・グラフに含まれたデータの完全な共有を許可しないプライバシーポリシーの下でグラフを入力するデータを収集している場合がある。しかしながら、独立エンティティ解決データ・グラフは、その整合又はリンクサービスにアクセスするために使用される場合がある。加えて、独立エンティティ解決データ・グラフは、その解放が、適用可能なプライバシーポリシーに違反しない、個人を特定できる情報（ＰＩＩ）を明らかにしない集められた、オートモナイズされた分配及びカウントのセットを生成するために使用される場合がある。したがって、このシステムは、それにもかかわらず、本明細書に説明されたマシンを使用して、基礎となるエンティティ解決データ・グラフの一貫性及び信頼性を測定するために使用される場合がある。実際には、一般的に、ファイルベース・データ構造よりも、ピアのセットでの使用のためにより少ない独立エンティティ解決データ・グラフが利用可能であり、システムが、主に、主体エンティティ解決データ・グラフの分析のために後者に依存することが予測されることが分かっている。

エンティティ解決データ・グラフは広範囲の使用ケースに適用可能であるので、主体エンティティ解決データ・グラフ内へフィードするデータは、広範囲の様々なソースから来る場合がある。人は、しばしば、アサートされた個人的に識別可能な情報をコンテクストごとに変化させる。例えば、人は、銀行口座を開設するための又は住宅ローンを申し込むためのアサートされた情報に関するよりもフォーマルでない形式でクーポンを提供するウェブサイトにおいて自らを表す場合がある。これらの変化の程度、並びにタイプミス及び個人的に識別可能な情報の意図的な難読化は、識別及び修正することが困難である。その結果、多くのエンティティ解決システムは、関心のあるユニバースをモデル化するエンティティの数が、対応するユニバースの実際のサイズよりもはるかに大きいデータ・グラフを使用する。これは、システムが、異なる氏名、ニックネーム及びエイリアスを、例えば、これらの異なる識別子の全てに関連した一人の人に解決することができなかったために生じる。このようなケースでは、データ・グラフは、役割が解決のためにかなり異なる領域に細分されることができる。これらは、時代遅れであるが歴史的完全性のために維持されているエンティティの領域、エンティティ解決データ・グラフの所有者による最も求められるエンティティの領域などを含む。本発明の実施例に関して説明されるマシンは、主体エンティティ解決データ・グラフにおける領域のあらゆるサブセットを分析するために使用することができ、そのため、主体エンティティ解決データ・グラフの異なる領域の品質は、独立ピア・データ構造によって提供される同じ独立した視点から互いに比較されることができる。

最も高いレベルにおいて、本明細書に説明されるマシンは、主体エンティティ解決データ・グラフを分析するために３つのステップを行う。第１のステップである候補スクリーニングにおいて、マシンは、各候補独立データ構造の信頼性及びコンテクスト的関連性の計算を行う。第２のステップであるピア選択において、第１のステップの出力は、ピア・レビューのために使用される独立データ構造の初期セットの選択のために使用される。第３のステップである主体分析において、実際のピア・レビュー分析は、選択されたピア・データ構造を使用して主体エンティティ解決データ・グラフに関して行われる。これらのコンポーネントのそれぞれは、以下に詳細に説明される。

第１のステップである候補スクリーニングは、マシンによって使用されるピア・データ構造セットをそこから構築するための信頼性及び関連性基準を満たすこれらの初期独立データ構造（ファイルベース・データ構造又はエンティティ解決データ・グラフのいずれか）を識別するという目的を果たす。このプロセスは、既存のエンティティ解決データ・グラフに含むための候補ソース・ファイルの値、品質又は信頼性を決定するために一般的に使用されるものよりも、よりコンテクスト的に関与させられる。これは、それぞれの独立データ構造が、評価のために提供される主体エンティティ解決データ・グラフからの必要最小限のバイアスされた解釈で、規定するアサートされた関係及び独立したスタンドアロン・システムとしてのエンティティ・アサーションの両方において一貫性、信ぴょう性及び表現力を示さなければならないことによる。意義のある独立データ構造を識別するために、候補の分析は、２つの異なる主要な認知的局面に関して行われる。第１に、マシンは、候補データ構造に含まれた関心のあるユニバースのモデルを構成するデータの一貫性、信ぴょう性及び信頼性の程度を評価する。第２に、マシンは、評価のために提供された主体エンティティ解決データ・グラフに対する対応するデータ・モデルを構成する関心のあるそのユニバース及びエンティティの関連性の程度を測定する。

「真実性」及び「正確性」の従来の概念は、エンティティ解決データ・グラフのために知り得ない又は測定不能であるため、独立ピア・データ構造に与えられるべき信頼性の最小限の程度及びコンテクストは、内部データ一貫性及びそれが表すことをアサートするエンティティの観点から候補独立データ構造を規定するデータの一般的信ぴょう性によって発見的に測定される。個人に関連するデータ構造の例において、収集される情報は、アサートされたネーム・コンポーネント、住所、電話番号、ジェンダー、生年月日、Ｅメールなどの属性の分配及びカウント、並びにこれらの属性のセットの間の一貫性測定を含む場合がある。しかしながら、追加的なコンテクスト的情報は、提供されたエンティティ・タイプ及び属性に応じて、様々な実施例においてマシンによって計算されてもよい。この追加的な情報は、パーソナル・エンティティ・データ、ハウスホールド・エンティティ・データ、及び追加的なアサートされたタッチポイント又は属性情報を含んでよい（ただしそれらに限定されない）。パーソナル・エンティティ・データは、独立データ構造更新期間ごとの個人エンティティ情報の相違の数を含んでよく、除去された人、新たな人の人数、及び人ごとの新たな及び除去されたタッチポイント・タイプのインスタンスの分配を含む。分配は、それぞれのタッチポイント・タイプごとに個々に又は集合における全てのタッチポイント・タイプごとに（すなわち、キー・バリューとしての各タイプのタプル）行われてよい。人ごとに複数の名前がある場合、共有された名前コンポーネントを有さず且つ少なくとも１つの異なる名前コンポーネントを有するこのような名前のインスタンスの分配は、パーソン・エンティティ・データに含まれてよい。

ハウスホールド・エンティティ・データは、アサートされたハウスホールドごとのパーソン・エンティティの数の分配、それぞれのハウスホールド内の個別パーソン・ラスト・ネームの分配、ハウスホールドにおけるアサートされた人の数にキーされたそれぞれのハウスホールドのための個別住所の数の分配、ハウスホールドにおけるアサートされた人の数にキーされたそれぞれのハウスホールドのための個別電話番号の数の分配、それぞれの電話番号をアサートするハウスホールドの数の分配、それぞれのＥメール・アドレスをアサートするハウスホールドの数の分配、それぞれの住所をアサートするハウスホールドの数の分配、及びパーソン・レベルにおける独立したシステム更新期間ごとのハウスホールド・エンティティ情報における変化の数を含んでよい。更新期間ごとのこれらの変化は、新たなハウスホールド、除去されたハウスホールド、組み合わされたハウスホールド、及び分割されたハウスホールドを含んでよい。分割されたハウスホールドは、以前は２つの別々のハウスホールドであると信じられていたものからデータをひとまとめにするという決定を表すのに対し、分割されたハウスホールドは、以前は１つのハウスホールドであると信じられていたデータを２つの別々のハウスホールドに分割するという決定を表す。

追加的なアサートされたタッチポイント／属性情報は、アサートされた人ごとのインターネット・プロトコル（ＩＰ）アドレスのカウントの分配、アサートされたハウスホールドごとのＩＰアドレスのカウントの分配、それぞれの人レベル識別子（例えば、運転免許証ＩＤ、顧客ＩＤ、人ＩＤ）をアサートする人の数のカウントの分配、及び共通のハウスホールドにおけるそれぞれの人の年齢範囲の分配を含む場合がある。

ここで図１を参照すると、候補スクリーニング、すなわち候補エンティティ解決データ・グラフのための、信ぴょう性又は信頼性の評価のためにマシンによって行われるプロセスが説明されてよい。内部システム・データ１０は、候補エンティティ解決データ・グラフ自体によって提供された又はそれから抽出された情報を含む。幾つかの場合、主体エンティティ解決データ・グラフ１２は、そのために分析がマシンによって提供されるエンティティ解決データ・グラフにおいて前に述べたように、候補エンティティ解決データ・グラフの信ぴょう性又は信頼性についての質問に答えることを助けるための分配メトリクスを提供してよい。しかしながら、その他のケースでは、内部システム・データ１０として図１に表されたデータのサブセットは、これらのメトリクスを引き出すために主体エンティティ解決データ・グラフ１２へ送られてもよい。

候補エンティティ表現データ・グラフのための候補スクリーニングからの出力は、ある実施例において３つの異なるクラスのメトリクスを含んでよい。ソース評価メトリクス１４は、郵便都市／州／郵便番号一貫性などの、様々な特定のタッチポイント・メトリクスの評価を含んでよい。マッチ・メトリクス１６は、候補システムが、評価される主体エンティティ解決データ・グラフ１２にどれだけ類似するか又は類似しないかの尺度である。したがって、これは、コンテクスト関連性の尺度である。進化メトリクス１８は、経時的変化を測定する。次いで、経時的変化が合理的に見え、ナショナル・チェンジ・オブ・アドレス・データベース又はその他の米国郵便サービスデータなどの非常に高い信頼性の公知の外部ソースに一致するかどうかにクエリが向けられる。

これらの分配及びカウントは、マシンによって計算され、図１の「出力」レーンに示されたように１つ又は複数の出力ファイルにおいて記録される。マシンは、人レベルに基づくこれらの単一の時点分配及びカウントを計算する。ハウスホールド・レベルの時点情報計算のために、つまり、データが人ベースであり、それぞれの人の記録のためのハウスホールドＩＤを提供するならば、マシンは、ハウスホールドＩＤに基づいてデータを集約し、次いで、前に述べた人レベルのプロセスを使用してそれぞれのハウスホールドを人として扱いながら、分配及びカウントを計算する。これらのリクエストされた分配は、候補エンティティ解決データ・グラフを使用するための最終的な同意により変化する可能性がある。なぜならば、全てのこのような望まれるメトリクスが候補によって提供されない場合があるからである。再び、これは、既存のエンティティ解決データ・グラフの使用における制限に関係する。この場合、システムは、以下で説明するコンテクスト関連性の測定のコンテクスト内でこの問題を解決する。

候補ファイルベース・データ構造の場合、これらの分配及びカウントもマシンによって自動的に計算され、出力ファイルに記録される。図２は、ファイルベース・データ構造の場合の信ぴょう性又は信頼性に関する問い合わせの概略図を提供する。マシンは、候補ファイルベース・データ構造から分配及びカウントのセットをリクエストし、図１を参照して上記で説明したように、そこから同じメトリクスを計算し、推定することができる。潜在的なファイルベース・データ構造２０の現在のバージョン及び１つ又は複数の過去のバージョン２２の両方が使用されてよい。潜在的なファイルベース・データ構造２０の評価のための主要なメトリクスが、ソース評価プロセス４４において生成される。別の評価アプローチは、リンキング・プロセス２６に表されるように、潜在的なファイルベース・データ構造２２における記録に対するリンキングを行うことである。リンキング・プロセス２６において、マシンは、そのエンティティに対応するリンクを戻すことによって特定のエンティティを識別するために、主体エンティティ解決データ・グラフを使用する。「リンク」は、数字又は英数字ストリングなどの、あらゆる識別子であってよい。リンクは、このタイプのエンティティのための全てのこのようなリンクのユニバースの中で独特であり、したがって、主体エンティティ解決データ・グラフに表された特定のエンティティと明白に関連付けられる。１つの実例において、マシンは、主体エンティティ解決データ・グラフのリンキング・プロセスに対して適用されたときに候補ファイルベース・データ構造２０がどれだけうまく行われるかをリンキング・プロセス２６において測定する。加えて、マシンは、候補ファイルベース・データ構造２０がどれだけ時間と共に変化したかを決定するために、候補ファイルベース・データ構造２０及び過去のバージョン２２の両方に対して過去の進化分析プロセス２８を適用する。同じメトリクスは、図１の候補エンティティ解決データ・グラフのように計算され、ソース評価メトリクス１４、マッチ・メトリクス１６及び進化メトリクス１８として出力ファイルに記録される。

この第１のメイン・ステップにおいてマシンによって行われる機能は、以下のようにより詳細に説明され得る。上記で説明したシステムを利用して、Ａが時間的にＢよりも先行するデータ・グラフの各対Ａ，Ｂについて、セット・インターセクション（共通のエントリ）及び２つのセット差Ａ－Ｂ（除去された人）及びＢ－Ａ（新たな人）が計算される。連続するデータ・グラフの対だけでなく、ペアリングの全てが計算されることに留意することが重要である。これらのタイプの時間的変化は、主体エンティティ解決データ・グラフにおける実際の及び持続する変化を反映し得るが、このようなデータは、予想されず且つ意図しない非常にローカライズされたノイズも有する可能性があり且つ有する。このようなノイズは、人の意図しない実際の付加又は除去によって又は所与の人に対する識別子に割り当ての変動によって起こる可能性がある。したがって、データ・グラフＡからデータ・グラフＢへの計算された差及びデータ・グラフＢからデータ・グラフＣへの計算された差が、ＡからＣへの計算された差よりも大きい場合、Ｂは、このようなローカライズされた「ノイズ」を明らかに含んでいた。これにより、全てのペアリングの計算は、候補独立システムの人エンティティの進化のより表現的で且つ容易に識別可能な時間的パターンを提供する。

それぞれの人のための異なるタッチポイント・タイプ・インスタンス（住所、電話番号、Ｅメールなど）の時間的挙動について、タッチポイント特定及び集合的分配が１つの計算された分配において実現される。システムは、前に説明したフレームワークに続き、データ・グラフのそれぞれの関連した対について、両方のグラフ（インターセクション）に共通の人が、アサートされたタッチポイント・タイプの観点から比較される。それぞれのこのような人について、タッチポイント・タイプのそれぞれの比較タプルが、（＃「第１の」データ・グラフにおけるタッチポイント・タイプ・インスタンス、＃第２のグラフにおけるノット、＃第２のグラフにおける新たなインスタンス）の形式で計算される。人のために、これらの単一インスタンス比較タプルは、単一の分配キー・タプルに収集され、同じ分配キーを共有する人のカウントが、最終的な分配を形成する。例えば、住所、電話及びＥメールが（そのオーダーにおいて）関心のあるタッチポイント・タイプである場合、分配エントリ（（２，０，０），（２，１，０），（１，０，１））：９５６２１９４は、第１のグラフにおいて２つの住所、２つの電話及び１つのＥメール・アドレスを有していた２つのデータ・グラフにおける９５０万を僅かに超える共通の人が存在し、アサートされた住所における変化はなく、１つの電話インスタンスが除去され、第２のグラフにおいて１つの新たなＥメールインスタンスが存在する。候補独立システムの人エンティティにおけるローカライズされたノイズがあり得るので、このようなノイズは、タッチポイント・タイプ・インスタンス・レベルにおいても存在する可能性がある（そして、しばしば存在する）。これにより、このようなノイズは、人エンティティそれ自体のために説明されたのと同じ形式でこれらの分配で識別されることができる。

候補ファイルベース・データ構造のためのハウスホールド・エンティティの時間的態様の信ぴょう性及び信頼性に関して、異なるデータ・グラフのハウスホールドは、共通のハウスホールド識別子を共有する人識別子の集合セットによって表される。計算された人レベル時間的変化に関して、同じままである、消滅した、新規である、構成人員の観点から増大又は減少した、２つ以上の異なるハウスホールドに分割された又は他のハウスホールドと組み合わされたハウスホールドの数のためのカウントは、人識別子の進化パターンに基づいて計算される。

候補独立システムのコンテクスト関連性を評価するために、それぞれの候補ファイルベース・データ構造人エンティティ・データは、主体エンティティ解決データ・グラフの既存のマッチ及びリンキング・サービスを通過させられ、これにより、ベース・レベル・エンティティ（氏名、住所、電話番号、Ｅメール・アドレスなど）を定義する人エンティティ及び共有ＰＩＩの属性の観点から２つのモデル化されたユニバースのオーバーラップを推定する。エンティティ解決データ・グラフ・マッチ・サービスのフレームワークに応じて、候補独立システムの個人レベルデータは、単一の完全記録入力ではなく異なる入力のセットとしてマッチ・サービスへ送られる必要があり得る。本発明の１つの実装例において、主体エンティティ解決データ・グラフは、完全な人記録におけるそれぞれの埋め込まれたエンティティ表現（氏名＋単一タッチポイント・タイプ・インスタンス）の観点から完全入力記録と一致する。この場合、マッチ・サービスは、そのエンティティ表現及びその他の「引き出された」リンクを含むエンティティ解決データ・グラフに人が存在するならばそれぞれのエンティティ表現のための「維持された」リンクを戻す。これにより、それぞれの完全人記録入力は、リンクのリストを戻す。全ての入力人のための住所ＥＲリンクのセットは、集合させられ、戻されたリンクが維持される又は引き出されるかどうかの観点からカウントされ、このプロセスは、電話及びＥメールエンティティ解決リンクのためにも別々に行われる。これらのカウントは、それぞれのタッチポイント・タイプの観点から候補独立システムと主体エンティティ解決データ・グラフとのオーバーラップを示す。それぞれの人入力のためのリンクのこのセットから、入力人がエンティティ解決データ・グラフにおける一人又は複数の人に関連しているかどうか又は実際にエンティティ解決データ・グラフにおける人とは明白に異なるように見えるかどうかが決定される。

エンティティ解決データ・グラフにある完全人のセットがタッチポイント・タイプの視点から人の集合セットよりもしばしば小さいことに留意すべきである。関連付けられたエンティティ解決データ・グラフ人の数のカウントの分配がまず計算される。この情報から、第２の分配も計算され、これは、エンティティ解決データ・グラフにおいて同じ一人又は二人の人に関連付けられるように見える候補独立システムからの入力人の数をカウントする時に「反対」方向に進む。これらの２つの分配は、エンティティ解決データ・グラフの視点に関する候補独立システムにおける人の過少統合及び過剰統合の程度を表す。これらの最後の２つの分配は、アサートされたハウスホールドのための過少統合及び過剰統合を推定するためにちょうど説明されたプロセスのために前に説明された自然延長によって計算される。

前に説明したメトリクスとは異なり、これらの最後の２つの分配は、評価におけるより直接的且つ表現的な比較のために（使用されることが選択されるならば）主体エンティティ解決データ・グラフの独立システムのレビューを正規化するために使用される。例えば、独立システムにおける人エンティティの５０％が実際には二人以上の別個の人であることが決定されると、分配及びカウントは、より良い人推定を与えるために対応して正規化される。

エンティティ解決データ・グラフ候補のために、類似の、ただし逆のプロセスが使用され、これにより、候補によって提供される異なる品質及びコンテクスト情報を近似する。評価されているエンティティ解決データ・グラフからのキュレートされた人ＡＲのファイルが、候補のマッチ／リンキング・サービスを通過させられ、これにより、エンティティ解決データ・グラフ候補によって直接応答されないあらゆる信ぴょう性問い合わせの両方を解決し、評価されているエンティティ解決データ・グラフに対する候補のコンテクスト関連性を推定する。このキュレートされたファイルは、エンティティ解決データ・グラフのユニバースのための合理的なプロキシを形成する複数のローカライズされた地理的領域における１つ又は複数の密度の高い人口のための人及びハウスホールド・レベルの両方においてほとんど完全な網羅を提供するように構成されている。このコンポーネントの１つの実装例において、キュレートされたファイルは、サウスカロライナ州に居住する全ての人及びハウスホールドから成る又は少なくとも１つのアサートされたサウスカロライナ州住所を有する。

前に示したように、候補エンティティ解決データ・グラフ独立システムのマッチ・サービスへの入力の構造は、リンキング出力のフレームワークに依存する。リンキング結果の最も表現的な解釈のために、戻されたマッチ結果は、タッチポイント・レベル及び完全人レベル情報の両方を提供する。タッチポイント・レベル・マッチ結果に対して、エンティティ解決データ・グラフ候補独立システムから維持されたリンクを戻してエンティティ解決データ・グラフにおける人のそれぞれのタッチポイント・タイプのための関連付けられた情報が収集される。その特定のタッチポイント・タイプに直接関連したあらゆる信ぴょう性問題は、次いで、エンティティ解決データ・グラフの情報によって推定される。エンティティ解決データ・グラフ人情報は、上記で説明したように完全人入力レベル解釈のために収集され、関連したエンティティ解決データ・グラフ候補独立システムのユニバースのためのプロキシを形成する。このセットから、あらゆる追加的な必要とされる信ぴょう性メトリクス及び評価されるエンティティ解決データ・グラフに対する候補独立システムのユニバース・レベル・コンテクスト関連性が推定され、関連付けられた同じ正規化補間値が計算される。それぞれの候補独立システムのためのこの分析の結果は、本発明の第２のコンポーネントが適用される前にレビューのために適切なデータ構造に記憶される。

これらの構成要素の共有の予測される程度に関してハードなしきい値は存在しないが、むしろ、計算された類似性は、独立したシステムが提供することを予想することができる表現的品質ベース評価のタイプ及び評価結果を解釈するために使用されなければならないコンテクストに影響する。これにより、電話番号の観点から評価されるシステムとの直接的なオーバーラップをほとんどから全く有さないが、他のエンティティ及びコンテクストに関する有意義な類似性を示す候補独立システムは、類似の及び異なるタイプ並びに、例えば、人ごとの電話番号市外局番の分配について権威を持って有意義にさらに話すことができる。他方で、評価されているシステムにおいて使用される重要なＰＩＩコンポーネントの全てに関する共有をほとんどから全く有さない候補独立システムは、評価プロセスにおけるその表現性及び値が著しく弱められている、極めて一般的な集合情報のみを提供することができる。

この情報が収集されると、候補独立システム及びシステムが評価されるならば、エンティティの間の共通性及び比較意味の程度を決定するためにレビューされる。例えば、かなり頻繁にこのような候補独立システムにおける「人」の概念は、実際には「顧客」又は「メンバー」の内部概念であり、それぞれは、実際には、複数の「人」であるか、又は複数の「顧客」を形成する人の単一の表現である場合がある。前に述べたように、意味のある「ハウスホールド」の異なる定義がある（幾つかは、主に人ベースであり、その他は、主に、タッチポイント・タイプ・ローカリティ・ベース、すなわち、アドレス可能なテレビＩＤ又はＩＰアドレスである）。主要な共通性及び相違は、候補独立システムと、評価されるエンティティ解決データ・グラフ・システムとの間の防御可能な補間マッピングが存在するかどうかを決定するために推定される。幾つかの場合、ハウスホールド態様のために必要とされるものとは異なる、評価の「人」態様のための補間正規化を必要とする場合がある。このような補間が適切であるならば、マッピングの詳細は、システムの評価コンポーネントへの入力として使用されるために符号化される。

候補独立システムの初期セットのこの評価から、本発明の第２の主要なコンポーネントが行われる。類似であるが別個の視点から広範囲の品質評価次元を提供するために十分な相違及び共通性を備える許容可能な独立システムのセットの区域を制限する予算的及び計算環境制約が存在する可能性があるので、許容可能な独立システムの全てが使用されない場合がある。また、評価システムの進化の間、アンサンブルにおける変化が決定され、この計算された情報及び評価プロセスを使用して更新される。

展開制約を満たし且つ最大表現性を提供する許容可能な独立システムの最適なセットを決定するために、ＡＲのセットの複数の集合を受け入れる進化分析フレームワークが使用される。この場合、それは、考慮される候補独立システムのそれぞれを表すＡＲを使用する。加えて、それは、セットの１つ又は複数の連続的順序付けを使用し、それぞれのセットは、「インサート」の１つであるとラベル付けされる。順序付けのそれぞれのために、サンドボックス・ユニバースが、ベースの１つとして順序付けにおける第１のセットから構築される。次いで、リストにおけるＡＲのそれぞれの後続のセットが、構築されたユニバースに追加され、ユニバースに対する変化が記録される（新たな人、既存の人の統合及び／又は分割、新たなタッチポイント・タイプ、変化なしなど）。このフレームワークを使用するために、ＡＲのセットがまず計算されなければならない。ファイルベースのデータ構造のために、データ・ファイル自体が使用される。エンティティ解決データ・グラフ独立システムのために、前に説明したように、評価されているエンティティ解決データ・グラフからのＡＲのキュレートされたセットは、エンティティ解決データ・グラフ独立システムのマッチ・サービスを通過させられ、そのデータ・グラフにあるものとしてサービスが応答する人について、対応する入力ＡＲは、エンティティ解決データ・グラフ独立システムを表すセットに追加される。

ここで図３を参照すると、マシンを使用する候補試験ステップの実装のためのハードウェア構成が、図２の候補ファイルベース・データ構造分析に関して説明されてよい。時間ベース変化は、連続的な公開された更新の間の比較を要求する。人レベル時間的変化のために、２つ以上の時間的に連続的なデータ（又は、データの密度の高い、地理的にローカライズされ且つ代表的なサンプル）が、分配されたＡｐａｃｈｅＳｐａｒｋ「イン・メモリ」環境にロードされる。ＡｐａｃｈｅＳｐａｒｋは、大スケールデータ処理のためのオープンソースの統合された分析エンジンであり、暗黙的データ並列処理及びフォールト・トレランスで全クラスタをプログラムするためのインターフェースを提供する。候補ファイルベース・データ構造２０及び過去のバージョン２２は、外部クライアント・ロケーションにおいて、システムから物理的に離れている。これらは、ファイアウォール２４を介してシステムに接続されている。マシンにおいてソース評価プロセス４４を実装するためのハードウェアは、それぞれが８～６４個の別個のプロセッサ及び１００ｓのＧＢのＲＡＭを備える、１０ｓ～１００ｓのクラウド計算仮想サーバのからなる計算環境であってよい。マシンにおけるリンキング・プロセス２６のためのハードウェアは、同様に、それぞれが８～６４個の別個のプロセッサ及び１００ｓのＧＢのＲＡＭを備える、１０ｓ～１００ｓのクラウド計算仮想サーバからなる計算環境であってよい。マシンにおける過去の進化分析プロセス２８を実装するためのハードウェアは、それぞれが８～６４個の別個のプロセッサ及び１００ｓのＧＢのＲＡＭを備える、１０ｓ～１００ｓのサーバを使用するＳｐａｒｋ環境からなる計算環境であってよい。代替的な実施例において、その他の環境を使用することができる。

図４は、概略図において、エンティティ解決データ・グラフ（ファイルベースデータ構造とは反対）が、本明細書において説明されたマシンによって実装される方法のピア処理主要ステップに提出されるときに必要な前処理ステップを示している。内部システム・データ１０からのデータのサブセットである内部システム・データ・サブセット３０で開始して、多数の外部エンティティ表現データ・グラフ３２が、マッチ結果３４のセットを生成するために使用される。基本的に、これらのそれぞれは、クエリを構築するために内部システム・データ・サブセット３０からのデータを使用してリンキングを行う（すなわち、エンティティと関連付けられたリンクを戻す）ための、外部エンティティ表現データ・グラフ３２のそれぞれに対するリクエストである。結果は、外部エンティティ表現データ・グラフ３２のそれぞれのための、プロキシ・ファイルベース・データ構造候補３６である。したがって、この前処理は、エンティティ解決データ・グラフ処理をファイルベース・データ構造処理ステップと同じレベルと同一視するために使用される。この前処理ステップの後、候補エンティティ解決データ・グラフは、候補ファイルベース・データ構造に基本的に変換されており、これにより、主体エンティティ解決データ・グラフのためのピアとしてのデータ構造のいずれかのタイプのための更なる処理が、同様に取り扱われてよい。

次いで、図５に移ると、マシンによって実行されるプロセスの第２の主要ステップ（ピア選択）が開始してよい。ファイルベース・データ構造候補又は「オラクル」候補３８は、エンティティ解決データ・グラフから構築された、図４に示されたプロセスから生じたプロキシ・ファイルベース・データ構造「オラクル」候補３６と共に、入力として与えられる。次いで、オラクル候補３６及び３８の両セットは、進化分析ステップ４０への入力として使用される。候補及びプロキシ候補のそれぞれの可能な組合せが、進化分析ステップ４０へ送られる。出力は、一連の組合せ変化レポート４２である。次いで、結果は、更新されたセット４６である。この進化分析ステップ４０のオペレーションは、以下に説明され、追加的な情報は、２０２０年８月２７日に出願された米国仮特許出願第６３／０７０，９１１号に示されている。

進化分析プロセス４０は、特定のデータ・ソースの分析のために使用される１つ又は複数の「サンドボックス」の構築から始まる。これらのサンドボックスは、後の分析を通知するために、データ・ソースの様々な可能な組合せの全てが試験されることを可能にする。特定の実装例において１つのサンドボックスのみが使用される場合、対応するジオロケーションが識別される。例えば、解釈されるデータが米国全体を網羅しているならば、ジオロケーションのための選択は、ＵＳ全体ほど多くの正規化された文化的、社会経済的及び民族的多様性主要パターンを含むために努力する。

ジオロケーションのための予想される人の密度の高いサブセットを構築するために、サンドボックスは、含まれるそれぞれの人のための全てのＰＩＩ記録を含むべきである。選択された人は、主体エンティティ解決データ・グラフが、その人がジオロケーションとの強い関連性を有するという最近の証拠を有することを示すものから選択されている。関連性の１つのタイプは、人を含むハウスホールドがジオロケーション内に住所を有するという事実などの、ジオロケーションに対する郵便的結びつきである。別のタイプは、人の電話番号のうちの少なくとも１つが、ジオロケーションに関連付けられた市外局番を有し、最近の使用／活動の証拠を有するデジタルなものである。サンドボックスが構築されると、サブセットのための関連付けられた結果的なデータ・グラフは、セーブされ、そこから追加的なデータ・ファイルを追加又は除去することによって調整のシーケンスが行われる初期ベースラインを表す。

次いで、進化分析プロセス４０は、入力として、主体エンティティ解決データ・グラフ及び追加される候補データ・ソースのセット又は除去される候補データ・ソースのセットのいずれかを使用する。次いで、このプロセスは、入力修正を有するグラフから人を構築するために完全な基準エンティティ解決データ・グラフのための人形成プロセスを使用する。データ・ファイルのセットの追加の場合、全てのデータがサンドボックスに追加される。これは、新たなデータのうちの幾つかが、サンドボックスにおける人のための異なるジオロケーション情報を反映するので必要である。データのセットの除去の場合、このセットのみによってベースライン・グラフに寄与させられたこれらのＰＩＩ記録のみが、サンドボックスから除去される。サンドボックス・データが修正されると、完全なデータ・グラフを構築するための同じプロセスが、サンドボックスから人を形成するために使用される。次いで、人が形成されると、持続性の識別子（リンク）が、完全なグラフ・リンキング・プロセスの修正されたプロセスによって、形成された人及びＰＩＩ記録の両方のために計算される。この文脈における持続性は、人形成プロセス中に変化しなかったあらゆるＰＩＩ記録又は人が、ベースラインにおいて使用された同じ識別子を有し続け、あらゆる新たなＰＩＩ記録が、新たな独特の識別子及び定義するＰＩＩが専ら新たなデータから得られる新たに形成された人を得ることを意味する。入力データ・グラフ人が新たなＰＩＩ記録の導入によってのみ変化させられる場合、ベースライン識別子は持続させられる。入力データ・グラフにおける人が統合される場合、グラフにおける人は、複数の異なる人に分かれるか、又はグラフにおける人は、定義するＰＩＩ記録のうちの幾つかを失い、識別子の割り当ては、外部データにおけるマッチ・サービスを使用する場合に見える変化を最小化することに対して行われる。この計算は、関係するＰＩＩ記録のそれぞれのための最新性及びマッチ・リクエストの評価を要求する。例えば、人が異なる人に分かれる場合、元の人識別子は、そのデータが最近のものであり且つ定義するＰＩＩ記録のために最もマッチ・ヒットを有する新たな人に割り当てられる。新たな人が形成され、識別子が持続的な形式で割り当てられると、この修正されたサンドボックス・データがセーブされる。追加的な修正が必要とされるならば、このデータは、反復形式でこのコンポーネントへの入力として使用することができる。

次に、進化分析プロセス４０は、所望の修正シーケンスにおいて構築されたオラクル候補から全てのデータ・セットのセットを使用し、データ・セットのあらゆるペアの差を計算する。前のコンポーネントからの構築の線形オーダリングに関する連続的なデータ・セットのペアリングは、デフォルトであるが、データ・セットのあらゆるペアは、このコンポーネントによって比較されることができる。データの進化的影響を記述するために計算された差は、修正によるデータ構造の基本的変化を表す。１つのこのような変化は、新たなデータからの新たな人の生成である（これは、新たなデータが追加された場合にのみ生じる）。この差は、新たに追加されたソースによって提供されたデータのうちの幾つかが、基準エンティティ解決データ・グラフに存在するものとは明白に異なることを示す。しかしながら、入力データは特定のジオロケーションに制限されているので、彼らをこのジオロケーションに直接結びつける郵便、デジタル又はその他のタッチポイント・インスタンスを有する新たな人のみが、意味を有する。第２の変化は、基準エンティティ解決データ・グラフにおける人のための既存のＰＩＩ記録の全ての完全な削除である。これは、修正がデータ・ソースのセットの除去である場合に起こる可能性があり、それが生じるならば、それぞれのインスタンスは、データ・セットの進化に関して意味がある。続けて、基準エンティティ解決データ・グラフにおける一人又は複数の人は、データ・ソースの削除又は追加のいずれかによって単一の人に組み合わさることができる。この挙動（統合）は、データ・セットの進化に意味がある。なぜならば、統合がどのように生じたかにかかわらず、基準エンティティ解決データ・グラフにおける人に影響があるからである。同じことが、スプリット、すなわち二人以上の異なる人への単一の人の破壊の場合に当てはまる。

この点まで、述べられた差は、実際の人形成に関するものであったが、キャプチャされる追加的な一般的進化効果は、実際のＰＩＩ記録及び対応する人が確認データ・ソースを有するかどうかの観点からである。１つの寄与するソースのみを有する全てのＰＩＩ記録は、データ・セットにおける「障害点」記録である。なぜならば、その寄与ソースの除去は、結果的なデータ・グラフにおける著しい変化を生じる可能性があるからである。これにより、データ・ソースのセットがグラフから除去される場合、消滅しなかったが、このような「障害点」記録となったＰＩＩ記録を識別することが重要である。ＰＩＩ記録のレベルから人へ移動して（すなわち、ＰＩＩ記録の互いに素な集合）、データ・ソースのセットの削除が人を生成し、これにより、その人のための全ての定義するＰＩＩ記録が「障害点」記録であるならば、人は、「障害点」人となる。「障害点」人のこの概念は、全ての定義するＰＩＩ記録が「障害点」記録であるわけではない場合にまで拡張されなければならない。これらの記録の除去は、サーチが、人が依然としてデータ・グラフに存在する場合があるにもかかわらず基準エンティティ解決データ・グラフにおける人を見つけることを妨げる。進化分析フレームワークのこのコンポーネントは、これらの述べられた差の全ての大きさを計算する。

進化分析プロセス４０の次のコンポーネントは、計算されたデータを２つのセットに分割する。第１の（及び主要な）セットは、発明の実装のビジネス・コンテクストにおいて最も求められる少なくとも一人の人（本明細書では「アクティブな」人と呼ばれる）を含む差である。第２のカテゴリは、全ての他のもの（本明細書では「非アクティブな」人と呼ばれる）である。「アクティブ」の概念は、しばしば主に、実際のマッチを生じたマッチ・サービス及び特定のＰＩＩ記録からどの人が戻されたかについての情報を提供する主体エンティティ解決データ・グラフのマッチ・サービスの残りのログに基づく。入力がログされていないが、この情報は、データ・グラフにおけるどのＰＩＩがそれぞれの成功したマッチの要因であるかに関するクリアな信号を提供する。「アクティブな」人の定義の異なる視点が存在し、多くのコンテクストにおいて、異なる程度又はタイプのアクティブさを測定する定義のシーケンスを有することが望まれる。本発明は、システムに利用可能なデータを使用するあらゆるこのようなユーザ定義されたシーケンスを許容する。しかしながら、使用される選択された定義のうちの少なくとも１つは、解決システムのマッチ・サービスのクライアントの使用の時間的解釈を伴う。

アクティブな人のセットを計算するために、ある実施例において少なくとも６か月の幅を有する最近の時間的範囲が構築される。この幅は、主体エンティティ表現データ・グラフの過去の使用パターンに基づいて計算される。言い換えれば、マッチ・サービスが一般的に毎月又は四半期ごとに使用される場合、６か月の範囲は、使用の非常に表現的な信号を生成する。そうでなければ、より大きな範囲（通常は１２か月）が使用されてもよい。マッチ・ログされた値の時間的信号を使用して、ユーザごとのジョブ・ユニットの数のカウントが得られる場合がある。ジョブ・ユニットは、単一のユーザからの単一のバッチ・ジョブであるか又は時間的に密度の高い共通のユーザによるトランザクション・マッチ・コールのセットである（すなわち、十分に規定された開始時間及び終了時間内に現れるもの）。単一のＰＩＩ記録は、ジョブ・ユニット内に複数回マッチ・サービスによって「ヒット」されることができ、これは、人工的にスキューされるカウントの解釈を生じることができる。これにより、それぞれのユーザのためのそれぞれのジョブ・ユニットのために、「ヒットした」ＰＩＩ記録が一度だけカウントされる。「アクティブ」の概念が異なるシステム・ユーザのために異なる方法で定義される実装例において（すなわち、金融機関対小売ビジネス）、結果的な信号は、対応する数のサブ信号に分解される。

それぞれのサブ信号のために、「アクティブな」人の１つの解釈が、マッチ・サービス結果ログからの時間的信号の複数のパターンの観点から表される。これらのパターンは、非ゼロカウントの大きな割合の相対的最近性、信号が最も遠い過去から現在まで増加しているか又は減少しているか、月ごとの変動の大きさ（すなわち一次差）を含むことができるが、これらに限定されない。例えば、人が、住所又は電話番号の変更を行う場合、これらの変更は、同時に金融口座及び小売口座の全てにほとんど伝えられない。しばしば、これらの口座の全てに変更がなされるまでに数か月（あるとしても）かかる。これらの場合、この新たなＰＩＩは、非常に小さなカウントを有する信号においてゆっくりと見られ始める。しかし、時間が経過するにつれて、この信号は、増大するカウントのパターンを示す。カウントの大きさは無視することができる。なぜならば、この新たなＰＩＩが解決システムのユーザにとって重要であることをこの増大するカウント挙動が明らかに示すからである。同様に、幾つかのユーザは、潜在的な新たな顧客の「見込みの」ファイルを購買する場合があり、これらはしばしば、ファイルにおける人のいずれかが既に顧客であるかどうかを見えるためにシステムのマッチ・サービスを通過する。このような見込みのファイルは一定の頻度で動作させられないので、これらのインスタンスは、その差が通常及び予想された摂動よりも著しく大きな大きさである複数の変動によって信号において識別されることができる。このタイプの信号は、公知のユーザの関心を示さない場合があり、これにより、しばしばこの処理において「アクティブな」人として考慮されない。

アクティブな人が識別されると、前に計算されたデータ・セット差が、少なくとも１つのアクティブな人を含むものと、非アクティブな人を含むものとに分離させられる。この後者のセット内の差の進化的影響は、システム性能に影響する形式で主体エンティティ解決データ・グラフを変更する著しく低い可能性を有する。このコンポーネントの出力は、差のそれぞれの述べたタイプのカウントであり、それぞれの２つ以上のカウントのために表される。サンドボックス・データ・セットからの単一のデータ・ソースの除去の例示的な結果は、以下のとおりである場合がある：［５４０４２６７，［２５７１３９８，３０６，１５］，［３７９９，３１１，１５１］，［１９０７７１，２３１０５，２０３１０］，［２０９０６９，１９，２］］。第１の値は、この１つのソースのみによって寄与されたときに除去された合計で５．４ＭＰＩＩ記録が存在したことを示している。次の３つのタプルは、ＰＩＩ記録のうちの全てではないが幾つかを失う人の観点からの差を表している。第１の値（２．５７Ｍ）は、これが起こったサンドボックス・データ・セットにおける人の総数を示している。次の２つの値は、「アクティブな」人の２つの異なる定義のためのカウントを表し、第１のものは、第２のものよりも制限的でない。続けて、次の３－タプルは、ＰＩＩ記録のうちの全てを失った人のための同じ種類のカウントを表しており、その後に、二人以上の人に分割される人のための３－タプルが続いており、最後は、別の人と統合された人のための３－タプルである。統合の効果は、データが除去されるときに奇妙に見え、このケースはしばしば見落とされることに留意すべきである。しかしながら、人のためのＰＩＩ記録は、ＰＩＩ記録の２つ以上の強く関連したサブセットを分離する必須の１つであることができ、その除去は、サブセットを分割し続けるための十分なコンテクストを失う。

進化分析フレームワークのこれらのステップは、ソースデータセットの単一のセットをユニットとして、関心のある他のセットから独立して解釈する。マシンは、セットを意図的に順序付け、同じセットを説明されたプロセスに繰り返し通過させる異なる配列を分析することによって、ソース・ファイルの複数のセットの間の幾つかの関係を推論することができる。かなりしばしば使用コンテクストはソースデータの（大きな）セットで開始し、答えるべき質問は、フル・セットのサブセットが、結果的な解決に対する悪影響を高める及び／又は最小化する基準エンティティ解決データ・グラフに追加する又はそれから除去するための「良好な」サブセットであるということである。人形成に対する直接的影響よりもむしろこのより大きな視点から、意図は、人を定義する提示されたタッチポイント・インスタンス、すなわち、住所、Ｅメール・アドレス及び電話番号の観点からそれぞれの人のための解決能力に対する影響を決定することである。人は、多くのデータ・ソースによって寄与される複数のＰＩＩ記録を有するようにしてもよいが、特定のタッチポイント・タイプ・インスタンスが存在しない場合（電話番号なし、Ｅメールなし、など）は、そのタッチポイント・タイプを使用するマッチ・サービスを介してその人にアクセスするための解決システムのユーザの能力を有するようにしてもよい。

進化分析プロセス４０の次のコンポーネントは、特定のＰＩＩ記録の観点からではなく、むしろその除去が人のための指定されたタッチポイント・タイプ・インスタンスの全てを除去するソース・ファイルの最小限のサブセットの観点から「障害点」の問題を解決する。以下は、プロセスを記述するためにＥメール・アドレスを使用するが、電話番号、住所、ＩＰアドレスなどのその他のタッチポイント・タイプにも適用される。ソース・ファイル（データ・グラフにおける人ではなく）は、そのためにこのファイルがデータ・グラフからの唯一のコントリビュータであるＰＩＩ記録の全ての除去が、除去の前にＥメール・アドレスを有していたが、除去後にはＥメール・アドレスを有していない人を生成するならば、「障害点」である。ソース・ファイルの除去はしばしば、人のための幾つかのＥメール・アドレスを除去するが、このようなＥメール・アドレスの除去は、データ・グラフの進化又はマッチ・サービスを有するユーザのエクスペリエンスの現在の状態にとって必ずしも有害ではない。実際には、過去に、早期に提供されたＥメール・アドレスは、ユーザがＰＩＩとしてかつて使用したことのない大量の「生成された」又はプレースホルダ・Ｅメール・アドレスを含んでいた。このようなＥメール・アドレスの除去は、データ・グラフにおける人形成における著しい改善を生じることができる。しかしながら、人のためのＥメール・アドレスの全ての除去は、グラフ、及び主体エンティティ解決データ・グラフからマッチ・サービスを有するユーザのエクスペリエンスに対する悪影響の著しくより高い可能性を有する。

データ・ソース「障害点」の概念は、単一ソール・ファイルのみならず、ソース・ファイルのサブセットにも拡張する。これにより、マシンは、それらのＥメール・アドレスの全てを失う入力データ・グラフにおける人の数を計算する場合がある。このコンポーネントへの入力は、上記で定義したような入力グラフであり、そのＰＩＩ記録がデータ・グラフからの潜在的な除去のために考慮されるデータ・セットのセットである。データ・セットのセットの各エレメントは、単一のデータ・ソースであるか又はデータ・ソースのセットである（全てがグラフにとどまる又は全てが除去されなければならず、これにより１つとして処理される）。情報のあらゆる損失のユーザ及び進化の影響は、前に定義された「アクティブな」人の概念に対して考慮されるべきである。ある実施例におけるマシンは、「アクティブネス」の程度の定義のあらゆるシーケンスを許容する。

このコンポーネントに対する入力は、分析において考慮されるタッチポイント・タイプのセット、「アクティブな」人の定義のシーケンス、及び主体エンティティ解決データ・グラフからの潜在的な除去のために考慮されるソース・ファイルのセットである。それぞれの入力タッチポイント・タイプのために、並びにサブセット及びソースのそれぞれの組合せのために、入力は、組合せの除去によるが、全ての人及び「アクティブ」な人の入力定義のそれぞれに含まれた人のために組合せのあらゆるより小さなサブセットが計算されることによらない、それらの入力タッチポイント・タイプ・インスタンスの全てを失った入力データ・グラフにおける人のカウントである。加えて、入力は、入力における単一のソース・ファイル・エントリ及びカウントに基づくソートされたリストを含む全ての組合せに基づくグループ分けを含む可能な出力結果データ・フォーマットを含む。

２つの主要なコンポーネントからの結果（「人」ベースの差及び「ソース」ベースの差）は、主体エンティティ解決データ・グラフを形成する基本データにおける提案された変化のための影響の主要な領域の多次元の表現的なビューを提供する。しばしば、非常に狭いビューは、マッチ・サービスに対するより大きなカバレッジのためのＥメール及びその他のデジタル・タッチポイントの数の増加などのこのような提案を促進する。しかしながら、それぞれの予想された改善は、ある程度の悪影響の観点から犠牲となる。このような変化を行うための決定は、全体的な値及び改善の概念を定義する大幅に変化したパラメータ及びコンテクストを有する。これにより、マシンは、これらの２つの重要な次元の表現的要約を提供するようにさらに構成されている。

「ピア」セットとしての使用のための独立したシステム・データ・ファイルの候補セットが計算されると、進化分析プロセス４０は、考慮される独立したシステムの適切なサブセットを提供し、人エンティティ及びタッチポイント・タイプ・インスタンスの両方に関するカバレージ、オーバーラップ、相互依存、及び「障害点」を記述する。既に述べたように、これは、それぞれのこのような組合せのための組合せ変化レポート４２の形式で見られる。この場合、サンドボックスは、独立したシステムの既存のセットから構築される。次いで、潜在的な候補であるそれぞれの既存の独立したシステムは、「除去」のラベルを有する進化分析のためのそれぞれのオーダーされたシーケンシャル・リストに追加され、新たな候補に「挿入」のラベルが追加される。それぞれのオーダーされたシーケンスのための進化プロセスが行われると、「挿入」候補は既存のサンドボックスに追加され、「除去」候補はサンドボックスから除去される。この情報及び制限から、独立したシステムの最適に表現的なセットが選択される。

このプロセスを実装するためのハードウェア・コンポーネントが図６に示されている。候補システム３８は、外部クライアント・ロケーションに存在し、図３に関して説明したように、ファイアウォール２４を介してシステムと相互作用する。システムのためのクラウド・コンピューティング環境において、図４により詳細に示されたエンティティ解決プレステップ・プロセスは、プロキシ候補３６を生じる。次いで、これらは、図３に示したように、過去の進化分析システム２８へ送られる。上述のように、このシステムのための計算環境は、１０ｓ～１００ｓのサーバを使用するＳｐａｒｋシステムであり、それぞれが８～６４の個々のプロセッサ及び１００ｓのＧＢのＲＡＭを有する。

ここで図７を参照すると、マシンによって実装されるプロセスの第３の主要ステップを行うためのプロセスが説明されてよい。それぞれの独立したシステムは、主体エンティティ解決データ・グラフから独立した「マッチ・サービス」・インターフェースを有さなければならない。それぞれのマッチ・サービス５０は、更新された候補４６を介して、ＡＲマッチング５８によって主体エンティティ解決データ・グラフからのＡＲ入力を許容し、１つ又は複数の人及びハウスホールドを戻す。リストの第２のアイテムを測定するために、マッチ・サービスは、入力のためのトップ・マッチである独立したシステムにおける人識別子の全てを戻すことができなければならない。他の３つのカテゴリのために、人ＩＤのための単一のリターン値を有することが評価のために十分であるが、複数のリターン値が、これらのケースのそれぞれに追加的なインサイトを追加することができる。

ファイルベース・データ構造のそれぞれのために、マッチ・サービス５０が構築される。このようなマッチ・サービスは、一般的なフルインプット・コンテクストのものであり、結果を所定の形式でバイアスするために（電話及びＥメールよりも住所が好ましいなど）、特定の「ビジネス・ルール」は追加されない。この実装例は、それぞれのＡＲ入力のためのマッチ結果の部分的にオーダーされたランク付けされたセットも戻す。エンティティ解決データ・グラフ独立システムのために、それぞれの完全ＡＲ入力のために一人の人のみを戻すことができるならば、その独立したシステムは、第２のアイテム解釈に寄与しない。

ハウスホールド情報をアサートするそれぞれのＦＢ独立システムはハウスホールド識別子を有するので、これらの値は、実装されたマッチ・サービス内へ運ばれ、それぞれの戻された人識別子のために加えられる。ハウスホールド情報を提供するこれらのエンティティ解決データ・グラフ独立システムは、デフォルトで、エンティティ解決データ・グラフからのあらゆる入力ＡＲのための対応するハウスホールド識別子を戻す。

それぞれの独立したシステムのマッチ・インターフェースへ送られるエンティティ解決データ・グラフからのＡＲのセット（又は複数のセット）は、本発明の第１のコンポーネントの説明において説明したように注意深くキュレートされる。外部コンテクストは、それらのデータに対するエンティティ解決データ・グラフの使用のクライアントの知覚に重点を置くので、一般にエンティティ解決データ・グラフのクライアントに興味がある証拠を有するこれらの人を構成する人及びＡＲのエンティティ解決データ・グラフの領域からのＡＲのセットは、これらの品質特徴を評価するために最も表現的である。また、米国における居住移転の大部分は同一州内であるので、選択されるセットは、移動する人がハウスホールド構造に有する影響を測定するために１つ又は複数の州からの人の大部分を含むべきである。このような「非常に求められる」人口の大きなランダムなサンプルは、十分な表現性を提供しない場合がある。評価されるエンティティ解決データ・グラフから１つ又は複数のサンプルが選択されると、サンプルは、それぞれの独立したシステムのマッチ・インターフェースへ送られ、人及びハウスホールド結果が、次いで、個々の属性のそれぞれに応答するように処理される。これらの視点のそれぞれのための推定されるカウントが計算される。

選択されたファイルベース・データ構造とは反対に、ピアとして選択されたそれぞれのエンティティ解決データ・グラフのために、プロキシ・オラクル３６が存在する。内部システム・データ１０を使用して、データ・レベル評価（すなわち、ソース評価）４４が、図２を参照して上記で説明したようにソース評価を行う。結果としての情報も品質評価５６へ送られ、これにより、信頼性評価を通過したファイルベース・データ構造も考慮される場合がある。

評価されているエンティティ解決データ・グラフのそれぞれの特定の領域／コンテクストのための合計集合結果は、２つの次元のそれぞれのためのユニバース及びエンティティ・タイプの定義の著しい差を考慮するために上記で説明したように正規化された後、システムによって収集され、次いで独立したシステムレベル及びそれぞれの特定の品質属性レベルの両方において見られ且つ解釈されることができる形式で個々に表にされる。このプロセスは、内部マッチ・サービス５４を使用してエンティティ・レベル評価５２において生じる。更新されたピア・セット４６のそれぞれのメンバーのために、外部マッチ・サービス６２において外部マッチ・システム１２へのコールが生じることに留意される場合がある。結果は、それぞれのピア・レビュワー独立システムの知覚のプロフィルであるので、出力は、品質評価５６における従来のピア・レビュー・コンテクストに類似する。しかしながら、システムは、これらの結果を計算及び識別し、ここで、エンティティ解決データ・グラフ・カウント／分配は、ピア独立システムのセットによって観察される範囲の著しく外側にある。分配比較の場合において、別個のコルモゴロフ－スミルノフ（ＫＳ）検定などの１つ又は複数の方法が、この比較努力のために使用される。次いで、システムの全体的な出力は、品質メトリクス６０であり、これは、関心のある内部システムと、評価されるピア・システムのグループとの間の識別された著しい差に関する質的情報を提供する。

ＡＲマッチング・プロセス５８がここでより詳細に説明されてよい。大きな解決システムにおける人の構築は、アサートされたデータのユニバースの、互いに素な著しくより小さなサブセットへのパーティショニングを要求し、ここで、それぞれは、結果的な人を定義する観点から自己完結型である。これらのサブセットのそれぞれは、メンバーのＰＩＩに基づくメンバーシップ基準を有する。マッチング・サービス・フレームワークは、人のユニバースが、類似の人のサブセットにパーティショニングされることを要求し、ここから１つ又は複数が選択され、そこから入力データへのマッチが選択される。しかしながら、このパーティショニングは、認識的に表現的な方法が、入力認証ストリングとマッチされる人を識別するために効率的に使用されるために、十分に小さいサブセットを形成するという意図で行われなければならない。

エンティティ・データ・グラフにおける人及びその他のエンティティの構築のためのＰＩＩ認証ストリングの初期ユニバースのパーティショニングと、ＡＲマッチング・アルゴリズムにおける使用のための構築されたエンティティ・グラフ内の人のパーティショニングとの間に、著しい差が存在する。まず、多くのエンティティ解決システムとは異なり、それぞれの人は多くのＰＩＩ認証ストリングを有することができ、ＰＩＩ認証ストリングは、共通のオーバーラップ、ひいては異なる名前変化、住所、電話番号、Ｅメール・アドレス及び社会保障番号などのその他のＰＩＩ情報をほとんど共有しない。なぜならば、これらの認証ストリングは、多くの人が彼ら自身を全く異なって表すように選択し得る広範囲のソース及びコンテクストから来ているからである。人を構築するために使用されるＰＩＩ認証ストリングは、ほとんど専ら、初期ポジショニングの共通のサブセットから来ているが、互いに強く類似する人は、異なる区分けサブセットから来ることができる。第２の差は、複数の人が、異なる属性フィールドにわたって大量のＰＩＩデータを共有することができ、実際に共有しているということである。例えば、二人の異なる人は、名前、住所、電話番号、生年月日、Ｅメール・アドレス及び社会保障番号などの属性の著しいサブセットをそれらの定義するセット内で共有することができる。前に述べたように、人々はしばしば、そこからソース・ベンダーがそれらのデータを収集及び集約する異なるコンテクストのためのＰＩＩ属性の、親戚の、友人の、又は純粋に偽のインスタンスを使用する。また、人が、数十のそれぞれの異なる名前変化、住所、電話などを有することも珍しくない。あいにく、人は、彼らの「アクティブに使用される」認証ストリングの全て（又はさらにはほとんど）のために同じタッチポイント・タイプ・インスタンスを必ずしも使用しない。したがって、完全なＡＲ又は人レベルにおけるマッチングのために必要な初期パーティショニングは、エンティティ・グラフの構築における人の構築において使用される同じパーティショニング・コンテクストに基づくが、類似手段のために基本コンテクスト・ユニットとして、形成された人を使用する。ほぼ同じサイズで、且つそれぞれのための合理的な人サイズと可能な限り「類似性クローズド」のパーティション・エレメントを得るために、プロセスにおけるそれぞれの人の選択された最近の／「最善の」住所に重点が置かれる。

パーティションの実際の構築は、「最善の」住所を共有する人の初期集合で開始し、次いで、厳格な類似性基準に基づいて潜在的に大きなサブセットの類似性パーティションを形成するために、次いで拡張し、郵便都市、州、（複数の）住所からの郵便番号、提供された電話番号からの市外局番、Ｅメール・アドレスのローカル・パート、及び名前コンポーネントなどの一般的な「ローカリティ」コンテクストを提供するその他のフィールドを使用する。人及び／又は人を構成する認証ストリングの観点から大きいそれらの結果セットのために、パーティショニング・ステップの１つ又は複数の追加的な反復が、締め付けられたローカリティ・コンテクストによってそれらに対して行われる。この締め付けられたコンテクストは、制限されたベース・ローカリティ（すなわち、市外局番／交換コード、郵便都市／州／郵便番号など）及び人の定義するＰＩＩのための属性フィールドの十分に大きなサブセットにおける正確なマッチなどの類似性要求を増大することの組合せである。反復が、人のユニバースの単一のパーティショニングに集束したならば、次いで、フィードバック・ループがパーティション境界を横切る強い人類似性の観点からパーティション・エレメントに対する少数の調整が必要であるかどうかを決定するために、定義する類似性インデックスの観点から行われる。ユニバースの一部が２つ以上の互いに素なコンポーネントに細分されるたびに、複数のコンポーネントに極めて類似して見えるが１つに配置されている人が、最初はそれらを含まなかった別のコンポーネントの細分においてより良いフィットであるように見ることができるので、これは必要とされる。そうであるならば、このような調整は、パーティションに対して行われ、それぞれのパーティション・エレメントのための属性インデックスが記録される。

次の主要なコンテクスト・コンポーネントは、外部ＡＲにおいて「マッチ」されるように取得し、次いで、シーケンスで３つの連続的なサポート・コンポーネントをコールするマッチング・サービス・フレームワークである。これらの３つのコンポーネントは、完全なユニバースの特定の区分けの計算からなり、ここで、入力ＡＲと、実際の比較と、結果の集合とを比較するために、類似性の強度及び類似性の曖昧さの証拠の両方を決定する集合比較からのマッチ決定及び最終的なマッチ決定を行う。

マッチ・パーティション・エレメントの決定は、パーティショニング・インデックスに対する入力認証ストリングの属性の比較を含む。人に対する類似の認証ストリングの認識ディビジョンの前述した曖昧さ及び難読化があるにもかかわらず、単一のインデックスが、認証ストリングに対する最も近いマッチとして明確に識別される。しかしながら、単一の最善のマッチが存在しない場合、２つの選択肢が存在する。第１は、単一のインデックスを確定的且つ持続的に選択することである。第２は、等しく強いマッチ・インデックスのサブセットを戻すことである。このシステムの１つの実装例において、等しく強いマッチ・インデックスの全てが戻され、このようなリターン・セットの最大数は３であった。

「比較」及び「マッチ決定」コンポーネントのためのフレームワークは、選択されたインデックス付けされたパーティション・サブセットのそれぞれに入力認証ストリングを追加する認識コンテクストを使用し、人形成は、それぞれのサブセット内で再計算される。それぞれのサブセットにおける人のこの再計算は、「比較」コンポーネントのロールである「トップダウン」アプローチを使用する。それぞれのサブセットにおいて「新たな」人を再構築するためにスクラッチから開始するのではなく、入力ＡＲが既存の人のそれぞれと比較され、そのＡＲが、リッチなコンテクスト完全グラフ構築のために使用される同じ基準の使用によってその人に加えられるために十分に類似しているならば、そのように述べられる。ＡＲが、既存の人と潜在的に組み合わされるために十分に類似していないならば、そのパーティション・サブセットにおける「新たな」人であると考えられる。

人が、異なるオーダリングにおいて名前コンポーネントの異なるバリエーションを使用することは珍しくない。また、使用される「第１の」及び「中間の」イニシャルを見つけることは非常に一般的である。同様に、人が、１つ又は複数のニックネーム及び名前変異を使用することは珍しくない。解釈が独立してそれぞれのＡＲの名前コンポーネントのみに基づくとき極端に制限されたコンテクストが存在するので、これら名前を標準化及び／又は衛生的にする試みは失敗し、しばしば追加的な曖昧さをもたらす。同様に、住所も、「正しい」又は予測されたフォーマットにあることが仮定されないので、このようなストリングの直接的な比較を適用することはできない。次に、人が、提供された電話番号を難読化するとき、それは、主に、単なる数字のランダムな選択ではなく、むしろ、市外局番、交換コード、及びライン番号のうちの１つ又は複数を、僅かに変更された又は明らかに偽のもの、すなわち、ライン番号００００、９９９９、特別な使用又は未使用の市外局番、電話番号案内（５５５－１２１２）などと置き換える。電話難読化は、同じハウスホールドにおける別の人又は親戚／友人の電話番号並びにビジネス番号を提出することによっても生じる。これらの第１の述べられたケースのうちのいずれかが、入力ＡＲと、考慮された人を定義するＡＲのうちの１つとの比較内の電話番号のために識別されるならば、ＡＲの類似性の程度は、電話比較によってペナルティを科されるのではなく、「ブランク」値であると論理的に考慮される。他方で、電話番号が、入力ＡＲを含むハウスホールドを共有する異なるＡＲ又は人と関連付けられていることが決定されるならば、電話番号は、比較において完全な電話マッチとして作用する。全ての他のケースは、３つの電話コンポーネント（市外局番、交換コード、及びライン番号）の異なる類似性及び差異のタイプを決定するカテゴリに該当する。例えば、電話番号が、市外局番及び交換コードを共有し、ライン番号が１つの数字又は２つの連続する数字のスイッチによって異なるならば、類似性はかなり強い。同様に、交換コード及びライン番号が同じであり、上記に述べたようなものではなく（明らかに有効でない又は無効な番号）、市外局番が異なるならば、番号が類似であると考慮される。なぜならば、別のロケーションへ移動する又は特定の目的のための新たな電話番号を必要とする人が、同じ非市外局番の７つの数字を使用することは珍しくないからである。また、アサートされた電話番号は、「Ｘ」（しばしばライン番号又はライン番号のための最後の２つの数字）によって置き換えられた最後の数字のうちの幾つかを有する。これらの場合、２つの電話番号は、人比較にＡＲの類似性のためのサポートを提供するために十分に類似していると考えられる。

続けて、年齢及び／又は生年が提供されると、４年以下の信号の差と、ＡＲ類似性のエビデンスの有効な程度とがマークされる（差が小さいほど、エビデンスは強い）。比較されるそれぞれのＡＲにおいて完全な生年月日が提供されると、生年月日の月／年部分は、類似性のためのエビデンスのバルクを持つ。月の第１を使用し、また１月１日を月／日として使用することによって人の実際の誕生日を難読化することは一般的なやり方である。後者のケースのインスタンスのために、年のみが使用されるか又は比較されるＡＲの月／日アサーションのそれぞれが、この共通の日（１月１日）である。なぜならば、１月１日バリエーションは、このように生年月日を難読化する人のために最も頻繁であるケースであるからである。

社会保障番号及び／又はＥメール・アドレスが提供されるならば、これらは、上記の述べられたＰＩＩコンポーネントの類似性の強度及びタイプに応じてエビデンスを追加することができる。例えば、これらの属性の正確なマッチが存在するならば、これは、非常に強い形式で類似性エビデンスに寄与するか（社会保障番号が、明白な偽物（１２３－４５－６７８９、９９９－９９－９９９９など）ではないか、又はＥメール・アドレスが明白な偽物（ｎｏｎａｍｅ＠ｎｏｎａｍｅ．ｃｏｍ）ではないか、又は非常に一般的なファースト・ネーム又はラスト・ネーム及び非常に一般的なＥメール・ドメイン（ｓｍｉｔｈ＠ｇｍａｉｌ．ｃｏｍ）ではないと仮定する）。しかしながら、これらの「一般的コンポーネント」Ｅメール・アドレスは、難読化されたものとしてかなり定期的に使用され、近親者（両親、祖父母、子供）は、時には、異なる社会経済的状況／トランザクションにおいて社会保障番号のうちの１つ又は複数を共有する。

類似性スコアリング・メカニズムは、比較される入力ＡＲと人ＡＲとの間の類似性の最終的な程度を決定するために使用されない。なぜならば、ＡＲと人との類似性の信ぴょう性は、独立した個々のコンポーネント類似性に依存するのみならず、最大の類似性強度及びエンティティ解決システムの使用ケース好適性を示す特定のフィールドにも依存するからである。特に、母と娘は、共通のフル・ネーム、住所、電話番号、Ｅメール・アドレスを共有することができ、１５歳以上異なる年齢を有することができる。他方で、共通の名前、電話番号、Ｅメール・アドレス、社会保障番号／年齢が存在するが、共通の電話番号の市外局番に関連付けられた同じ州における異なる住所が存在するならば、入力ＡＲが、比較されている同じ人であるという、より強いクレームをなすことができる。したがって、類似性が、入力ＡＲを比較される人と組み合わせるために十分に強いかどうかに関する決定は、独立した単一の属性類似性によってキャプチャされないコンテクストに依存する。

エンティティ解決は、２つの一般的なタイプ、すなわち、「過少統合」を好むものと、許容可能な偽ポジティブ及び偽ネガティブ比の観点から「過剰統合」を好むものとがある。しかしながら、これらのケースのいずれかにおいて、時には、他のコンテクストにおける解決システムにおけるものと完全には整合しない入力ＡＲを最初に「マッチ」することが重要である。エンティティ解決システムが、システムの構築に対するソースのセットを潜在的に追加及び／又は除去する観点から内部で評価される場合、この評価の著しいコンポーネントは、マッチ・サービスを使用することによるシステムに対する進化的変化を評価することによって行われる。これらの場合、データ・グラフの構築とこのマッチ・プロセスとの間のバランスにおける一貫性が必要である。他方で、このシステムは、強いマッチング基準のための所望のコンテクストを記述するために上述のケースのタイプを変更することによってこのような調整が行われることを可能にする。

最後に、比較される人のＡＲのいずれも入力ＡＲと強くマッチしないならば、上記プロセスは、潜在的に強い類似性を見つけるためにその人のＡＲの全てによって提供される全てのタッチポイント・タイプ及び属性のセットに適用される。入力ＡＲと、単一の外部でアサートされるＡＲとの間の強い類似性を見つけることは集合ビューによる強い類似性よりも認識的によりディフェンシブであるので、単一ＡＲレベルにおいて極端に強い類似性比較が存在しない場合、最善単一ＡＲマッチ（生じるならば）コンテクスト及び最善集合類似性マッチコンテクストの両方は、「マッチ決定」コンポーネントにパスされるために収集される。

強く類似の人のセットへの単一ＡＲの追加は、単一の人へのＡＲの単純な追加よりも大きな影響を有するので、マッチ決定コンポーネントは、適切な人へのＡＲの全てのディフェンシブな単一の追加を考慮し、新たに生成された曖昧さ又は既存のグラフ構造への著しい暗示された変化を識別するためにこのより大きなコンテクストを測定する。マッチ・サービスの権限は、グラフ自体へ変化を向けるために拡張せず、むしろ、ＡＲがグラフに追加されるべきであった「かどうか」に基づく最善の答えであるので、マッチ決定は、グラフの既存の状態と一貫し且つ意味のあるリプライで応答しなければならない。また、本発明は、マッチ・サービスを使用するクライアントが、１つ又は複数の異なるタッチポイント・タイプ及び決定プロセスにおいて戻される人の最大数における重点の観点から両好適性に影響することができる特定のビジネス・ルールを指定することを許容する。これらのビジネス・ルールは、彼らによって消費される入力ＡＲに十分に類似することが既に識別された人にのみ適用される。このようなルールは、類似性レベルが郵便及び電話よりも名前及びＥメール正確性を優先するかどうか、入力電話番号に対する正確なマッチを要求するかどうか、ＡＲ対ＡＲマッチを要求するかどうかを含むことができ、最大５人がそれぞれの入力ＡＲのために受け入れられる。このようなルールが提供されないと、せいぜい一人の人が、マッチ決定コンポーネントに与えられるそれぞれの人のための類似性プロフィルに基づいて戻される。

実際の決定プロセスに進むと、ＡＲがパーティション・サブセットにおいてあらゆる人に加えられなかった場合、ＡＲは、コンテクスト的に「新たな人」であり、このサブコンポーネントは、ＡＲが「マッチ」するエンティティ・グラフに人が存在しないという決定で応答する。他方で、それ自体へ入力ＡＲを消費した一人の人のみが存在する場合、この人は、独特なマッチ決定であり、提供される特定のビジネス・ルールを満たす限りマッチ決定として戻される。

入力ＡＲが、クライアントのビジネス・ルールを満足する二人以上の人の中で消費されている場合、入力とＡＲ対ＡＲの強いマッチを有する一人の人のみが存在するならば、それは、このコンポーネントによって戻される人である。しかしながら、結果に含むための許容される人の最大数よりも多くが存在するならば、複数の方法で解決することができる曖昧さのレベルが存在する。

入力ＡＲが、単一のタッチポイント・タイプ・インスタンス（名前、住所、電話番号、又はＥメール・アドレス）からなるならば、入力は、このインスタンスを共有する複数の人が存在するという非常に高い可能性があるという点で非常に低い粒度を有する。これは、あらゆるエンティティ解決システムに当てはまる。この場合、クライアントが、進化システムにおいてできるだけ多くの持続性／一貫性を保存するために単一の人（又はハウスホールドなどのその他のエンティティ）のための識別子を受け取ることを望むならば、単一の「最善の」人が予め決定され、データ・グラフにおけるそれぞれのタッチポイント・タイプ・インスタンスのためにインデックスされる。本発明は、このケースの場合にもこの公知のパラダイムに従う。

入力ＡＲが２つのタッチポイント・インスタンスからなる場合（主にアサートされた名前及び１つの他のタッチポイント・タイプ・インスタンス）、この情報を共有する複数の人の可能性は、低下するが、依然としてかなり高い（本文献の最初に述べたように）。再び、エンティティ解決システムは一般的に、単一タッチポイント・タイプ・インスタンス・ケースと同じ方法でこの問題にアプローチし、本発明も、このアプローチを使用し、実際には、アサートされた名前及び２つの追加的なタッチポイント・タイプ・インスタンスのケースまで動かす。

続けて、「最善の」人を選択し且つ４つ以上のタッチポイント・インスタンスのための結果をインデックスすることは、マッチ・サービスによって直接的に使用されるデータ・グラフの構築及び人が戻ることを決定する間のルックアップ・プロセスの両方の効率に対する著しい悪影響のポイントまで指数関数的により大きくなる。主にマーケティング努力のために使用されるエンティティ解決システムの（全てではないとしても）ほとんどは、「名前＋１つの異なるタッチポイント・タイプ・インスタンス」又は「名前＋２つの別個のタッチポイント・タイプ・インスタンス」ケースのみを考慮し且つ「最善の」人のインデックス付けを使用するようにマッチ・サービスのレンズを制限することによってこの問題を解決する。しかしながら、このようなエンティティ解決のために、これは、主要なコンテクスト的問題を生じる。我々は、実例を用いてこの問題を説明する。

ＪＯＨＮＳＭＩＴＨ，２３５Ｎ２３ｒｄＳＴ，ＮＥＷＹＯＲＫＮＹ０１２３４，５４３－４４３－２１００，ＪＳＭＩＴＨ＠ＧＭＡＩＬ．ＣＯＭという入力を考える。名前＋単一タッチポイント・タイプ・インスタンス「レンズ」を使用して、マッチ・サービスは、同じ名前及び住所を有する１２人の人が存在することを発見し、したがって、人Ｘのインデックスされた「最善の」選択を使用する。同様に、同じ名前及び電話番号を共有する４人の人及び同じ名前及びＥメール・アドレスを共有する３０人の人がデータ・グラフに存在する。マッチ・サービスは、名前＋電話のマッチ結果のために人Ｙ（Ｘとは異なる）を選択し、名前＋Ｅメール・アドレスのマッチ結果のために人Ｚを選択する。しかしながら、完全な入力ＡＲにマッチするのはエンティティ・データ・グラフにおいて一人の人、特に人Ｗしかいない。人Ｗは、３つのマッチ決定のための候補のセットのそれぞれにいたが、選択されなかった。Ｘ，Ｙ，Ｚから「最善の」累積結果を取り出すためにビジネス特定ルールが追加されるとしても、実際の正当な最善決定は見つけられない。導入部分において記述したように、これらのタイプのケースは、マーケティング目的のために利用可能な、利用可能な認証ストリングのユニバースの性質、及び人々が異なる社会経済的コンテクストにおいて使用する広範囲のＡＲにより、予想よりも頻繁に生じる。

これらのより大きなコンテクストＡＲ（名前＋３つ以上のタッチポイント・タイプ・インスタンス）を解決するために、ステップは、前のケースのように開始し、まず、候補が、クライアントのビジネス・ルールの観点からフィルタリングされ、その類似性プロフィルがＡＲ対ＡＲマッチを示す人の数が識別される。ビジネス・ルールにおける許容可能な人の最大数よりも少ない候補が存在する場合、結果は明快である。戻された結果において、許容できる人の最大数よりも多くの候補が存在する場合、候補は、最も強く且つそのサイズがビジネス特定要求を超過しない候補のサブセットの間の明確な区別が存在するようにオーダーされることが試みられる。

上述のオーダリングは、厳格なオーダリングよりも部分的なオーダリングである。厳格なオーダリングは、「第１の場所」エンティティが「第２の場所」エンティティよりも（厳格に）優れているもの、などである。しかしながら、これらのタイプの解決システムにおける類似性測定のために、ディフェンシブな厳格なオーダリングは存在しない。なぜならば、入力ＡＲに対するその類似性が本質的に異なるが強度において等しい複数の人が存在し得るからである。これにより、「第１の場所」エンティティは「第２の場所」エンティティよりも少なくない、などの部分的なオーダリング・スキームは、ディフェンシブ且つ一貫していることができる。単純な実例として、数値結果に基づく以下の演算式の部分的なオーダリングは、「３＋３」、「３×２」、「３０／５」、「４」、「３＋１」、「１０／５」である。

これにより、マッチ決定コンポーネントの目的は、候補の人のこのような部分的なオーダリングを見つけ、これにより、部分的なオーダーにおける明らかな厳格な描写（２つの連続するエントリの間の厳格な「より良い」ステップ）が存在し、リストのヘッドが、戻されるべき人の最大許容数を超えないようにすることである。大多数のケースにおいて、候補の人のプロフィルの明快なレビューは、述べたようにこのような明らかな描写を有し、リターン値が迅速に決定される。このオーダリングは、クライアントの特定の類似性優先権を考慮する。

比較のためのコンテクストを形成するためにこの多くのタッチポイント・タイプ・インスタンスを備える入力ＡＲのための類似性曖昧さは、過剰に低い可能性まで指数関数的に減少し、これにより、「あまりに多くの」区別できない類似性の人が存在するケースの数は、非常にまれである。しかしながら、このようなケースにおいて、本発明は、類似性コンポーネントリターン、異なるタッチポイント・タイプの数、人を構成するＡＲの全てに見られる属性インスタンスも有する。これらの値は、次いで、それぞれの人のための予想される難読化の程度を測定するために使用される。例えば、複数のアサートされた生年月日及び／又は社会保障番号、多くの電話番号及び／又はＥメール・アドレスなどを有する人は、個人的難読化のこのようなエビデンスを有さない人よりも、意味のあるリターン値のためのよりディフェンシブでない候補であると仮定される。

最後に、この最後のフィルタリング努力の後に「最良の」人の最も小さい区別可能なセットにおいて依然として多すぎる人が存在するならば、複数の実装例が利用可能である。１つの実装例は、人結果、及び「マッチなし」結果からこのケースを分離する特別な識別子を戻さない。別の実装例は、それらの数が、最大許容可能を小さな量だけ超過するならば最善の人を戻し、このケースを識別するための結果を再び明らかにマークすることであることができる。さらに別のものは、戻すための人の許容可能な数を（ランダムに）選択することである。しかしながら、このケースでは、一貫性又は持続性が、マッチ・サービスの評価された特質であるならば、戻されたセットは、その特定のクライアントのためにインデックスされる必要があり、これにより、マッチ・サービスへの将来のコールがこの特質を保存することができる。

プロセスにおける他のステップへ進むと、データ・レベル評価４４及びエンティティ・レベル評価５２がここでより詳細に説明されてよい。処理は、ここでは、評価されるシステムのための分析プロセスのための基礎を形成するそれぞれの独立したシステムのための分配及びカウントの計算によって開始する。１つの実装例において、独立システム・データ更新期間は、一か月である。しかしながら、この時間フレームは、実際には、異なる独立したシステムのためには異なる可能性がある。このようなカウント及び分配のセットは、独立システムの更新「月」の始めに計算され、現在の単一の分析クエリのみならず、関連するクエリの（既存の及び新たな）セットに効率的な形式で応答するために使用されるために、十分に一般的であるが表現的であるように設計されてよい。このタイプの分配の実例は、以下で説明される。

主体エンティティ解決データ・グラフのための本発明においてそれぞれの適切な独立したシステムを介して評価される品質次元は、内部及び外部の視点の両方からである。内部次元は、候補独立システムを評価するための使用されるのと同じものを含み、以下を含む：個々の及び集合レベルの両方におけるそれぞれのＡＲの信ぴょう性及び一貫性；タッチポイント・タイプ・インスタンスにおける時間的変化；属性値の異なる範囲を有する複数のエンティティの分配（それぞれの州に「住む」人の数、ジェンダー分配、年齢分配など）；及び人及びハウスホールドのエンティティの時間的持続性（このようなエンティティにおいて変化がいつどのように生じるか）。エンティティ解決データ・グラフの内部態様を評価するために、候補独立システムのための類似の品質分析を決定するために使用される分配からの視点の大きなサブセットは、エンティティ解決データ・グラフのために計算される。しかしながら、異なる独立システム及び評価されるエンティティ解決データ・グラフは、人のためのあらゆる数の異なるタッチポイント・タイプ・インスタンス（名前、住所、電話番号、Ｅメールなど）を含むことができるので、複数のレベルの品質比較が使用される場合がある。しかしながら、これらのケースにおいて、それからエンティティ解決データ・グラフが独立システムのセットと比較される分配の計算のためのシステム及びデータ・フローは、第１のコンポーネントにおいて説明されたものと同じである。例えば、独立システム又は評価されるエンティティ解決データ・グラフのうちの１つにおける人が４つのアサートされた住所及び５つの電話番号を有するケースを考える。本発明の１つの実装例は、人ごとの関係パターンの分配のための匿名キーを計算する。この場合、郵便州／電話番号一貫性分配のためのキーは、フォームのタプルである（郵便電話州合意、非関連電話情報）。キーの「郵便州合意」部分は、郵便住所におけるそれぞれの州のための値のタプルであるのに対し、非関連電話情報は、あらゆるアサートされた州に関連しない電話番号を表すタプルのリストである。

それぞれの独立システムのための「郵便州合意」のためのタプルを計算するために、それぞれの別個の州は、その市外局番がその州に関連付けられた別個の電話番号のカウントによって表される。例えば、タプル（２，１，０）は、４つのアサートされた住所のうち、３つの別個の州が存在し、電話番号のうちの２つが州のうちの１つに関連付けられており、別の電話番号が第２の州に関連付けられており、１つの州が、関連付けられたアサートされた電話番号を有さないことを示す。この情報が評価されるエンティティ解決データ・グラフから来る場合、それぞれの値はタプルと置き換えられる。このタプルは、それぞれの州のために、顧客へのマッチング／リンキングの場合にエンティティ解決データ・グラフのクライアントが使用しているものであるかどうか（バイナリ値）、州が、人のための最善の住所において使用されたものであるかどうか（バイナリ値）、州に関連付けられた電話番号の数、顧客へのマッチング／リンキングの場合にエンティティ解決データ・グラフのクライアントが使用している電話番号の数、及び電話番号のうちの１つがエンティティ解決データ・グラフによって人のための最善の電話番号であると考えられるかどうか（バイナリ値）、を示す。したがって、タプル（２，１，０）は、タプル（（１，０，２，１，０），（１，１，１，０，０），（０，０，０，０，０））に拡張することができる。この場合、第１の州（１，０，２，１，０）は、マッチングの場合にクライアントによって使用されるものであり、最善の住所のための州ではなく、州に関連付けられた２つの別個の電話番号を有し、電話番号のうちの１つは、マッチングの場合にエンティティ解決データ・グラフのクライアントによって使用されるように見え、人のための最善の電話番号ではない。したがって、このキーは、独立システムベースのキーが提供する同じ一般的情報を表すのみならず、外部及び内部のコンテクストに関する重要な情報の状態へのスナップショットも提供する。

キーの「非関連電話情報」部分は、別個の州のいずれとも関連付けられていない電話番号のカウントを記述する。これは、フォームのタプルである（＃異なる州に関連付けられた電話番号、＃特別使用市外局番を有する電話番号、＃「現在使用されていない」市外局番を有する電話番号）。したがって、説明された実例の場合、アサートされた郵便州に関連付けられていない２つの電話番号が存在し、それらのためのタプルは（０，２，０）であってよく、これは、それぞれが特別使用電話番号であることを示している。この場合、郵便／電話州一貫性分配のための完全なキーは、（（２，１，０），（０，２，０））になる。評価されるエンティティ解決データ・グラフのために、このキーは、上記で説明したのと同様の形式で拡張され、電話番号の既存の使用ケースのための内部及び外部コンテクストを提供する。一般に、本発明において使用される品質属性の全ても同様の形式で表すことができる。評価されることが望まれるグラフの１つの領域が存在する場合、例えば、サウスカロライナ州に住む全ての人の場合、分配キーは、関連付けられた人／ＡＲがその特定の基準を満たすかどうかを示す追加的なバイナリ・フラッグを追加することができる。

このタイプの構築は、分配データの追加のセットの構築なしに、精度及びコンテクスト使用のレベルが調整されることを可能にする。例えば、郵便州／電話一貫性品質属性に関して、評価のための精度のレベルは、（複数の住所のうちの）少なくとも１つの住所及び電話番号が共通の関連付けられた州を共有するかどうかを決定することによって非常に粗く設定することができる。その一方で、評価は、住所及び電話番号の大部分（又はその他のパーセンテージ）が州の共通のセットを共有するかどうかに関して行われることができる。同様に、精度から独立して、エンティティ解決データ・グラフの評価は、内部及び／又は外部使用ケースにとって重要な人及びタッチポイント・タイプ・インスタンスのみを含むことができる。このタイプのフィルタリングは、エンティティ解決データ・グラフのどの領域が評価されるかを定義することに関するプロセスの開始時に行うことができるが、選択された領域から独立して異なるスケール及びコンテクストにおいて特定の品質態様のあらゆるセットを評価する能力は、非常に最小限の計算及び効率コストで評価に対する著しい柔軟性及び表現力を加える。

品質評価の「外部」視点は、エンティティ解決データ・グラフ・マッチング／リンキング・サービス・インターフェースを使用する場合にエンティティ解決データ・グラフのクライアントが有する経験に重点を置かれる。クライアントのためのプロキシとして作用する、独立したシステムの視点からアドレスされたその経験のための品質のカテゴリは、（１）エンティティ解決データ・グラフにおいて同じ人と見られる独立システムの視点からの異なる人の数（独立システムの視点からの過剰統合）及びそれぞれのこのようなケースのサイズの大きさ、（２）エンティティ解決データ・グラフにおける複数の人として見られる独立システムの視点からの単一の人の数（独立システムの視点からの過少統合）及びそれぞれのこのようなケースのサイズの大きさ、（３）エンティティ解決データ・グラフの視点から単一のハウスホールドと交差する独立システムの視点からの異なるハウスホールドの数及びそれぞれのこのようなケースのサイズの大きさ、及び（４）エンティティ解決データ・グラフの視点から複数のハウスホールドと交差する独立システムの視点からの単一のハウスホールドの数及びそれぞれのこのようなケースのサイズの大きさである。

また、エンティティ解決データ・グラフにおけるエンティティ・データの高い「カバレージ」にも関心がある。しかしながら、この態様は、２つの基本的な理由から実際の評価においてカバーされない。第１に、このカバレージを効率的且つディフェンシブに測定する唯一の方法は、データをエンティティ解決データ・グラフのマッチ・サービスへ送り、結果からこのカバレージを測定することであり、これは、正確に、エンティティ解決データ・グラフを使用する場合に外部ユーザが採用するプロセスである。第２に、このカバレージは、エンティティ解決データ・グラフのマッチ・サービスの特徴（及びバイアス）に直接依存する。本発明は、しばしばデータ・グラフの進化において使用されるものと同じコンテクストを使用しない、インターフェースではないデータ・グラフ・モデルの品質を測定しているので、この測定は本発明の範囲外である。したがって、評価のこの部分のために、グラフの異なる領域／コンテクストが、選択された期間のために評価されることが望まれると、分配の１つの一般的なセットのみが、独立システム及び評価されるエンティティ解決データ・グラフのそれぞれのための異なる視点を定義する人／ＡＲの異なる属性を反映するカウント及び分配キーを備える第１のコンポーネントにおいて説明されたものと類似の形式で構築される。

図８は、プロセスのこの第３の主要なステップの実装のためのコンポーネントのハードウェア概略図を提供する。候補システム３８は、処理システムから離れて、外部クライアント・ロケーションに配置されており、ファイアウォール２４を介してシステムと相互作用する。前に説明したクラウド・コンピューティング環境と同様に、ここではＡＲマッチング・プロセス５８、データ・レベル評価プロセス４４及び内部マッチ・サービス・プロセス５４のための環境が存在する。

本明細書に説明されたマシンは、様々な実施例において、ハードウェア及びソフトウェアのあらゆる組合せによって実装されてよい。例えば、１つの実施例において、マシンは、それぞれが、プロセッサに結合されたコンピュータ可読記憶媒体に記憶されたプログラム命令を実行する１つ又は複数のプロセッサを含む、１つのコンピュータ・システム又はコンピュータ・システムの集合によって実装されてよい。プログラム命令は、本明細書に説明された機能を実装する場合がある。図面に示され且つ本明細書に説明された様々なシステム及びディスプレイは、実例の実装例を表す。あらゆる方法の順序は変更されてもよく、様々な要素が加えられ、修正され、又は省略されてもよい。

本明細書に説明されたマシンは、本発明の様々な実装の部分を形成するものとして、クラウド・コンピューティング・システム又は非クラウド・コンピューティング・システムのハードウェア部分を実装してよい。コンピュータ・システムは、コモディティ・サーバ、パーソナル・コンピュータ・システム、デスクトップ・コンピュータ、ラップトップ又はノートブック・コンピュータ、メインフレーム・コンピュータ・システム、ハンドヘルド・コンピュータ、ワークステーション、ネットワーク・コンピュータ、コンシューマ・デバイス、アプリケーション・サーバ、ストレージ・デバイス、電話、携帯電話、又は一般的にあらゆるタイプのコンピューティング・ノード、計算ノード、計算デバイス、及び／又はコンピューティング・デバイスを含むが、これらに限定されない様々なタイプのデバイスのいずれかであってよい。コンピューティング・システムは、入力／出力（Ｉ／Ｏ）インターフェースを介してシステム・メモリに結合された１つ又は複数のプロセッサ（そのうちいずれかが、複数の処理コアを含んでよく、処理コアは、シングルスレッド又はマルチスレッドであってよい）を含む。コンピュータ・システムは、さらに、Ｉ／Ｏインターフェースに結合されたネットワーク・インターフェースを含んでよい。

様々な実施例において、マシンは、１つのプロセッサを含むシングル・プロセッサ・システム、又は複数のプロセッサを含むマルチプロセッサ・システムであってよい。プロセッサは、コンピューティング命令を実行することができるあらゆる適切なプロセッサであってよい。例えば、様々な実施例において、プロセッサは、様々な命令セット・アーキテクチャのいずれかを実装する汎用又は組み込みプロセッサであってよい。マルチプロセッサ・システムにおいて、それぞれのプロセッサは、一般的に、ただし必ずしもそうではないが、同じ命令セットを実装してよい。コンピュータ・システムは、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク又はインターネットなどの通信ネットワーク上で他のシステム及び／又はコンポーネントと通信するための１つ又は複数のネットワーク通信デバイス（例えば、ネットワーク・インターフェース）も含む。例えば、コンピューティング・デバイスにおいて実行するクライアント・アプリケーションは、様々なサブシステムにおいて実装されるようにクラウド・コンピューティング又は非クラウド・コンピューティング環境において本明細書に説明されたシステムのコンポーネントのうちの１つ又は複数を実装する単一のサーバ又はサーバのクラスタにおいて実行するサーバ・アプリケーションと通信するためにネットワーク・インターフェースを使用してよい。別の実例において、コンピュータ・システムにおいて実行するサーバ・アプリケーションのインスタンスは、他のコンピュータ・システムにおいて実装され得るアプリケーションの他のインスタンスと通信するためにネットワーク・インターフェースを使用してよい。

コンピューティング・デバイスは、１つ又は複数の持続的ストレージ・デバイス及び／又は１つ又は複数のＩ／Ｏデバイスも含む。様々な実施例において、持続的ストレージ・デバイスは、ディスク・ドライブ、テープ・ドライブ、ソリッド・ステート・メモリ、その他のマス・ストレージ・デバイス、又はあらゆるその他の持続的ストレージ・デバイスに対応する場合がある。コンピュータ・システム（又はそこで動作する分配アプリケーション又はオペレーティング・システム）は、望みに応じて、持続的ストレージ・デバイスに命令及び／又はデータを記憶してよく、必要に応じて、記憶された命令及び／又はデータを検索してよい。例えば、幾つかの実施例において、コンピュータ・システムは、制御プレーン又は制御システムの１つ又は複数のノードを実装してよく、持続的ストレージは、サーバ・ノードに取り付けられたＳＳＤを含んでよい。複数のコンピュータ・システムは、同じ持続的ストレージ・デバイスを共有してもよい又は持続的ストレージ・デバイスのプールを共有してもよく、プールにおけるデバイスは、同じ又は異なるストレージ技術を表す。

コンピュータ・システムは、プロセッサによってアクセス可能なコード／命令及びデータを記憶し得る１つ又は複数のシステム・メモリを含む。システム・メモリは、例えば、アクセス速度に基づいてメモリにおける情報をスワップするように設計されたシステムにおける複数のレベルのメモリ及びメモリキャッシュを含んでよい。インターリービング及びスワッピングは、仮想メモリ実装における持続的ストレージに拡張してよい。メモリを実装するために使用される技術は、例えば、スタティック・ランダム・アクセス・メモリ（ＲＡＭ）、ダイナミックＲＡＭ、読み出し専用メモリ（ＲＯＭ）、不揮発性メモリ、又はフラッシュ・タイプ・メモリを含んでよい。持続的ストレージに関して、複数のコンピュータ・システムは、同じシステム・メモリを共有してよいか又はシステム・メモリのプールを共有してよい。１つ又は複数のシステム・メモリは、本明細書に説明されたルーチンを実装するためにプロセッサによって実行可能なプログラム命令を含んでよい。様々な実施例において、プログラム命令は、バイナリ、アセンブリ言語、Ｊａｖａ（登録商標）などのあらゆるインタープリタ型言語、Ｃ／Ｃ＋＋などのコンパイラ型言語、又はそれらのあらゆる組合せにおいて符号化されてよい。ここで示された特定の言語は単なる実例である。幾つかの実施例において、プログラム命令は、複数の別々のクライアント、サーバ・ノード、及び／又はその他のコンポーネントを実装してよい。

幾つかの実装例において、プログラム命令は、オペレーティング・システム（図示せず）を実装するために実行可能な命令を含んでよく、オペレーティング・システムは、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ、Ｓｏｌａｒｉｓ（商標）、ＭａｃＯＳ（商標）、又はＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（商標）などの様々なオペレーティング・システムのうちのいずれかであってよい。プログラム命令のいずれか又は全ては、コンピュータ・プログラム製品又はソフトウェアとして提供されてよく、これは、命令が記憶された非一時的コンピュータ可読記憶媒体を含んでよく、これは、様々な実装例に従ってプロセスを行うためにコンピュータ・システム（又はその他の電子デバイス）をプログラムするために使用されてよい。非一時的コンピュータ可読記憶媒体は、マシン（例えば、コンピュータ）によって読み出し可能な形式（例えば、ソフトウェア、プロセシング・アプリケーション）で情報を記憶するためのあらゆる機構を含んでよい。一般的に言えば、非一時的コンピュータアクセス可能媒体は、磁気又は光学的媒体、例えば、Ｉ／Ｏインターフェースを介してコンピュータ・システムに結合されたディスク又はＤＶＤ／ＣＤ－ＲＯＭなどのコンピュータ可読記憶媒体又はメモリ媒体を含んでよい。非一時的コンピュータ可読記憶媒体は、システム・メモリ又は別のタイプのメモリとしてコンピュータ・システムの幾つかの実施例において含まれてよいＲＡＭ又はＲＯＭなどのあらゆる揮発性又は不揮発性媒体を含んでもよい。別の実装例において、プログラム命令は、ネットワーク・インターフェースを介して実装されてよいなど、ネットワーク及び／又は有線又は無線リンクなどの通信媒体を介して搬送される光学的、音響的又はその他の形式の伝播される信号（例えば、搬送波、赤外線信号、デジタル信号など）を使用して通信されてよい。ネットワーク・インターフェースは、その他のコンピュータ・システム又はあらゆるタイプの外部電子デバイスを含んでよい他のデバイスとインターフェースするために使用されてよい。概して、ネットワークを介して他のデバイスにおいてアクセス可能なシステム・メモリ、持続的記憶装置、及び／又はリモート記憶装置は、データ・ブロック、データ・ブロックの複製、データ・ブロック及び／又はそれらの状態に関連付けられたメタデータ、データベース構成情報、及び／又は本明細書に説明されたルーチンを実装する際に使用可能なあらゆるその他の情報を記憶してよい。

ある実装例では、Ｉ／Ｏインターフェースは、プロセッサ、システム・メモリ、及びネットワーク・インターフェース又はその他の周辺インターフェースを介するものを含む、システムにおけるあらゆる周辺デバイスの間のＩ／Ｏトラフィックを調整してよい。幾つかの実施例において、Ｉ／Ｏインターフェースは、１つのコンポーネント（例えば、システム・メモリ）からのデータ信号を別のコンポーネント（例えば、プロセッサ）によって使用するのに適したフォーマットに変換するための、あらゆる必要なプロトコル、タイミング又はその他のデータ媒体変換を行ってよい。幾つかの実施例において、Ｉ／Ｏインターフェースは、例えば、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バス規格又はユニバーサル・シリアル・バス（ＵＳＢ）規格のバリアントなど、様々なタイプの周辺バスを介して取り付けられるデバイスのためのサポートを含んでよい。また、幾つかの実施例において、インターフェース・トゥ・システム・メモリなどの、Ｉ／Ｏインターフェースの機能のうちの幾つか又は全ては、直接プロセッサに組み込まれてよい。

ネットワーク・インターフェースは、コンピュータ・システムと、例えば、その他のコンピュータ・システム（１つ又は複数のストレージ・システム・サーバ・ノード、主要ノード、読み出し専用ノード・ノード、及び／又は本明細書に説明されたデータベース・システムのクライアントを実装してよい）などの、ネットワークに取り付けられたその他のデバイスとの間でデータが交換されることを可能にしてよい。加えて、Ｉ／Ｏインターフェースは、コンピュータ・システムと、様々なＩ／Ｏデバイス及び／又はリモート・ストレージとの間の通信を可能にしてよい。入力／出力デバイスは、幾つかの実施例において、１つ又は複数のディスプレイ端子、キーボード、キーパッド、タッチパッド、スキャニング・デバイス、音声又は光学認識デバイス、又は１つ又は複数のコンピュータ・システムによってデータを入力又は検索するのに適したあらゆるその他のデバイスを含んでよい。これらは、特定のコンピュータ・システムに直接接続されるか、又はクラウド・コンピューティング環境、グリッド・コンピューティング環境、又は複数のコンピュータ・システムを含むその他のシステムにおける複数のコンピュータ・システムに一般的に接続されてよい。複数の入力／出力デバイスは、コンピュータ・システムと通信して存在してよいか、又はコンピュータ・システムを含む分散システムの様々なノードに分散させられてよい。本明細書に説明されたユーザ・インターフェースは、ＣＲＴディスプレイ、ＬＣＤディスプレイ、ＬＥＤディスプレイ、及びその他のディスプレイ技術を含んでよい様々なタイプのディスプレイ・スクリーンを使用するユーザに見えてよい。幾つかの実装例において、入力は、タッチスクリーン技術を使用してディスプレイを通じて受け取られてよく、その他の実装例において、入力は、キーボード、マウス、タッチパッド、又はその他の入力技術、又はこれらの技術のあらゆる組合せを通じて受け取られてよい。

幾つかの実施例において、類似の入力／出力デバイスは、コンピュータ・システムとは別個であってよく、ネットワーク・インターフェース上でなど、有線又は無線接続を介してコンピュータ・システムを含む分散システムの１つ又は複数のノードと相互作用してよい。ネットワーク・インターフェースは、一般的に１つ又は複数のワイヤレス・ネットワーキング・プロトコル（例えば、Ｗｉ－Ｆｉ／ＩＥＥＥ８０２．１１、又は別のワイヤレス・ネットワーキング規格）をサポートしてよい。ネットワーク・インターフェースは、例えば、その他のタイプのイーサネット（登録商標）・ネットワークなどの、あらゆる適切な有線又は無線の一般的データ・ネットワークを介した通信をサポートしてよい。加えて、ネットワーク・インターフェースは、アナログ音声ネットワーク又はデジタル・ファイバ・通信ネットワークなどの遠隔通信／電話通信ネットワークを介して、ファイバ・チャネルなどのストレージ・エリア・ネットワーク（ＳＡＮ）を介して、又はあらゆるその他の適切なタイプのネットワーク及び／又はプロトコルを介して通信をサポートしてよい。

本明細書に説明された分散システム実施例のいずれか、又はそれらのコンポーネントのいずれかは、クラウド・コンピューティング環境において１つ又は複数のネットワーク・ベース・サービスとして実装されてよい。例えば、データベース・システムのデータベース・ティア内の読み書きノード及び／又は読み出し専用ノードは、本明細書に説明された分散ストレージ・システムを使用するデータベース・サービス及び／又はその他のタイプのデータ・ストレージ・サービスをネットワーク・ベース・サービスとしてクライアントに提供してよい。幾つかの実施例において、ネットワーク・ベース・サービスは、ネットワーク上で相互運用可能なマシン同士の相互作用をサポートするように設計されたソフトウェア及び／又はハードウェア・システムによって実装されてよい。ウェブ・サービスは、ウェブ・サービス・記述言語（ＷＳＤＬ）などの、マシン処理可能フォーマットにおいて記述されたインターフェースを有してよい。その他のシステムは、ネットワーク・ベース・サービスのインターフェースの記述によって規定された形式でネットワーク・ベース・サービスと相互作用してよい。例えば、ネットワーク・ベース・サービスは、その他のシステムが呼び出してもよい様々なオペレーションを定義してよく、様々なオペレーションをリクエストする時にその他のシステムが従うと予想され得る特定のアプリケーション・プログラミング・インターフェース（ＡＰＩ）を定義してよい。

様々な実施例において、ネットワーク・ベース・サービスは、ネットワーク・ベース・サービス・リクエストに関連付けられたパラメータ及び／又はデータを含むメッセージの使用を介してリクエストされてよい又は呼び出されてよい。このようなメッセージは、拡張マークアップ言語（ＸＭＬ）などの特定のマークアップ言語に従ってフォーマットされてよい、及び／又はシンプル・オブジェクト・アクセス・プロトコル（ＳＯＡＰ）などのプロトコルを使用してカプセル化されてよい。ネットワーク・ベース・サービス・リクエストを行うために、ネットワーク・ベース・サービス・クライアントは、リクエストを含むメッセージを組み立て、ハイパーテキスト転送プロトコル（ＨＴＴＰ）などのインターネット・ベース・アプリケーション層転送プロトコルを使用して、ウェブ・サービスに対応するアドレス可能なエンドポイント（例えば、ユニフォーム・リソース・ロケータ（ＵＲＬ））にメッセージを搬送してよい。幾つかの実施例において、ネットワーク・ベース・サービスは、メッセージ・ベース技術ではなくレプリゼンテーショナル・ステート・トランスファ（ＲＥＳＴ）技術を使用して実装されてよい。例えば、ＲＥＳＴ技術に従って実装されるネットワーク・ベース・サービスは、ＰＵＴ、ＧＥＴ又はＤＥＬＥＴＥなどのＨＴＴＰ方法内に含まれたパラメータを介して呼び出されてよい。

別段の定めがない限り、本明細書において使用される全ての技術的及び科学的用語は、本発明が属する技術分野の当業者によって一般的に理解されるものと同じ意味を有する。本明細書に説明されたものと類似又は同等のあらゆる方法及び材料も本発明の実用又は試験において使用することができるが、限定された数の例示的な方法及び材料が本明細書に説明されている。本明細書における発明の概念から逸脱することなく多くの更なる修正が可能であることが当業者に明らかとなるであろう。

本明細書において使用される全ての用語は、文脈と一致する可能な限り最も広い形式で解釈されるべきである。本明細書においてグループ分けが使用されている場合、そのグループの全ての個々のメンバー及びそのグループの可能な全ての組合せ及びサブコンビネーションは、個々に含まれることが意図されている。本明細書において範囲が述べられている場合、その範囲は、その範囲内の全ての部分的な範囲及び個々の点を含むことが意図されている。本明細書において引用された全ての参照物は、本明細書の開示と不一致が生じない範囲で参照により本明細書に組み込まれる。

本発明は、例示的でしかなく、添付の請求項に示されたような本発明の完全な範囲を限定しないことが意図された好適且つ代替的な実施例を参照して説明されている。

Claims

ピア・データ構造に対して主体エンティティ解決データ・グラフを分析するためのマシンであって、前記マシンが、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサによって実行されたときにオペレーションのパフォーマンスを容易にする実行可能な命令を記憶する少なくとも１つのメモリと、を備え、前記オペレーションが、
信頼性メトリクスのセットを生成するために複数のピア・エンティティ解決データ構造をスクリーニングすることであって、前記信頼性メトリクスのセットが、複数の候補データ構造を生成するために適用され、前記複数の候補データ構造が、前記複数のピア・エンティティ解決データ・グラフのサブセットを形成する、スクリーニングすることと、
前記複数の候補データ構造のそれぞれ１つと前記複数の候補データ構造のそれぞれの他の１つとの組合せを生成し、それぞれの組合せを進化分析プロセスに提出して、前記複数の候補データ構造のサブセットを形成する複数のオラクルを生成することと、
前記複数の候補データ構造のそれぞれからアサートされた関係を引き出し、これらの候補データ構造のアサートされた関係を前記主体エンティティ解決データ・グラフに対してマッチさせ、マッチング結果のセットを生成し、前記マッチング結果のセットに対するデータ・レベル及びエンティティ・レベルの評価を行い、前記主体エンティティ解決データ・グラフのための品質メトリクスのセットを生成することとを含む、マシン。
前記複数のエンティティ・データ構造のうちの少なくとも１つが、ファイルベース・データ構造である、請求項１に記載のマシン。
前記複数のエンティティ・データ構造の少なくとも１つが、独立エンティティ解決データ・システムである、請求項２に記載のマシン。
記憶された前記実行可能な命令が、少なくとも１つの前記独立エンティティ解決データ・システムから内部システム・データ・セットを生成することをさらに容易にする、請求項３に記載のマシン。
前記少なくとも１つのファイルベース・データ構造が、前記少なくとも１つのファイルベース・データ構造の複数の過去のバージョンをさらに含む、請求項４に記載のマシン。
前記信頼性メトリクスが、ソース評価メトリクス、マッチ・メトリクス及び進化メトリクスを含む、請求項５に記載のマシン。
前記マッチ・マトリクスが、前記少なくとも１つのファイルベース・データ構造を使用して前記主体エンティティ解決データ・グラフに対するリンキング・プロセスを行うことによって生成される、請求項６に記載のマシン。
前記進化メトリクスが、前記ファイルベース・データ構造が前記少なくとも１つのファイルベース・データ構造の前記複数の過去のバージョンに関して時間の経過と共に変化する程度を測定することによって、生成される、請求項７に記載のマシン。
記憶された前記実行可能な命令が、少なくとも１つの外部エンティティ解決データ・グラフを前記内部システム・データ・セットのサブセットに適用して、マッチ結果のセットを生成し、プロキシ・ファイルベース・データ構造を生成することをさらに容易にする、請求項４に記載のマシン。
生成された前記組合せの少なくとも１つが、前記少なくとも１つのファイルベース・データ構造と組み合わされた前記プロキシ・ファイルベース・データ構造である、請求項９に記載のマシン。
記憶された前記実行可能な命令が、前記プロキシ・ファイルベース・データ構造に対してエンティティ・レベル評価のための外部マッチ・サービスをコールすることをさらに容易にする、請求項１０に記載のマシン。
前記複数のピア・エンティティ解決データ構造のそれぞれが、前記主体エンティティ解決データ・グラフよりもローカライズされた特定のエンティティ・データを含む、請求項４に記載のマシン。
前記複数のピア・エンティティ解決データ構造のそれぞれが、前記複数のピア・エンティティ解決データ構造の他のそれぞれから独立している、請求項１２に記載のマシン。
前記主体エンティティ解決データ・グラフが、エンティティの完全なユニバースを表す複数のアサートされた関係を含み、さらに、前記複数のピア・エンティティ解決データ構造のそれぞれが、エンティティの完全なユニバースを表す複数のアサートされた関係のサブセットを含む、請求項１３に記載のマシン。
前記独立エンティティ解決データ・システムが、共有可能でない、請求項３に記載のマシン。
前記独立エンティティ解決データ・システムが、リンキング・サービスを含む、請求項１５に記載のマシン。
主体エンティティ解決データ・グラフを評価するためのマシンであって、前記マシンが、
主体エンティティ解決データ・グラフであって、前記主体エンティティ解決データ・グラフが、複数のアサートされた関係を含み、前記複数のアサートされた関係のそれぞれが、少なくとも１つのタッチポイント及び少なくとも１つの識別子を含み、さらに、前記主体エンティティ解決データ・グラフが、タッチポイントを受け取り、識別子を戻すように構成されたリンキング・サービスを含む、主体エンティティ解決データ・グラフと、
複数のピア・データ構造であって、前記ピア・データ構造のそれぞれが、他のピア・データ構造のそれぞれから独立している、複数のピア・データ構造と、
前記ピア・データ構造からアサートされた関係のセットを読み出し、前記ピア・データ構造からの前記アサートされた関係の一貫性を示すソース評価メトリクスのセットを生成するように構成されたソース評価システムと、
前記ピア・データ構造からアサートされた関係のセットを読み出し、前記主体エンティティ解決データ・グラフに対する前記ピア・データ構造の類似性を示すマッチ・メトリクスのセットを生成するように構成されたリンキング評価システムと、
前記ピア・データ構造及び前記ピア・データ構造の少なくとも１つの過去のバージョンを読み出し、前記ピア・データ構造の時間の経過における変化を示す進化メトリクスのセットを生成するように構成された進化分析システムと、を備える、マシン。
独立エンティティ解決データ・グラフを含むそれぞれのピア・データ構造のためのプロキシ・ファイルベース・データ構造を構築するように構成されたエンティティ解決データ・グラフ前処理システムをさらに含む、請求項１７に記載のマシン。
ファイルベース・データ構造を含むそれぞれのピア・データ構造のために、このようなピア・データ構造に対応するマッチ・サービスを生成するように構成されたアサート関係マッチング・システムをさらに含む、請求項１８に記載のマシン。
前記ピア・データ構造と前記主体エンティティ解決データ・グラフとの間の類似性を示す品質メトリクスのセットを生成するために、データ・レベル評価及びエンティティ・レベル評価を受け取るように構成された品質評価システムをさらに含む、請求項１９に記載のマシン。