JP2023526626A - エンティティ解決データ構造システム及び方法 - Google Patents

エンティティ解決データ構造システム及び方法 Download PDF

Info

Publication number
JP2023526626A
JP2023526626A JP2022570439A JP2022570439A JP2023526626A JP 2023526626 A JP2023526626 A JP 2023526626A JP 2022570439 A JP2022570439 A JP 2022570439A JP 2022570439 A JP2022570439 A JP 2022570439A JP 2023526626 A JP2023526626 A JP 2023526626A
Authority
JP
Japan
Prior art keywords
population
graph
unique
key
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022570439A
Other languages
English (en)
Inventor
ジマーマン、アダム
トーリー、テリー、マイケル
コリンズ、ドウェイン
Original Assignee
ライブランプ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ライブランプ インコーポレーテッド filed Critical ライブランプ インコーポレーテッド
Publication of JP2023526626A publication Critical patent/JP2023526626A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Abstract

エンティティ解決データ構造システムが、分散型処理環境において混同行列を作成することによって、2つのデータ・グラフを比較する。ベンチマーク・ファイルが、参照データ・グラフとの比較のために、1つのデータ・グラフから作成される。識別子及びメタデータがベンチマーク・ファイルに付加されて、比較が行われることと混同行列の構築とを可能にする。混同行列は、比較の結果の高レベル指示を提供する。データ・グラフが個人識別可能情報(PII)を含んでいるとき、プロセスは、PIIが、比較されるべきデータ・グラフを維持する当事者間でいずれの方向にも送信されることを必要としない。

Description

本出願は、2020年5月20日に出願された「Data Graph Comparison Using Distributed Processing Construction of Confusion Matrices」と題する米国仮特許出願第63/027,755号の利益を主張する。上記の出願は、その全体が参照により本明細書に組み込まれる。
エンティティ解決(entity resolution)システムは、エンティティに関するデータを処理するように動作し、そのエンティティをエンティティの集団(population)の中から確実に識別することを試みる、コンピュータ化システムである。エンティティ解決データ・グラフ又は単に「データ・グラフ」が、この目的で使用され得る。データ・グラフは、エンティティ又はオブジェクトについて説明するアサーションの大きいセットからなる。これらのエンティティは、たとえば、アイデンティティ・データ・グラフの場合、人、世帯(すなわち、人のセット)、又はビジネスであり得る。アイデンティティ・データ・グラフにおいて、アサーションは、個人識別可能情報(PII:personally identifiable information)属性並びに非PII属性を含み得る。商用設定におけるアイデンティティ・グラフは、各レコード中に数百個又は数千個の属性(フィールド)をもつ何十億ものレコードを含む、極めて大きいものであり得る。医学など、他の分野において使用されるデータ・グラフは、オブジェクトのための非常に大きい数のノードと、対応する接続するエッジとを同様に含み得る。
現在、データ・グラフ間の一致のレベル、又は、一方のグラフが参照と見なされる場合、いずれかのデータ・グラフの精度を決定するために、2つの極めて大きいデータ・グラフを互いに比較するための有効な手段がない。したがって、問題のデータ・グラフ間の一致の精度又は少なくとも程度を決定するために、比較を実施し、有意味な出力を提供する方法が望ましいであろう。個人識別可能情報(PII)の使用に対する様々な制限、特に、特定の地理的領域中にある特定の団体の外部のPIIの送信に課される制限により、データ・グラフ間の通信のいずれの方向でもPIIの使用を必要としないやり方で、この情報を含んでいる(アイデンティティ・グラフなどの)データ・グラフを比較する方法を開発することが、さらに望ましいであろう。
混同行列は、機械学習の分野においてよく知られている。混同行列は、一般に、教師あり機械学習のコンテキストにおいて、機械学習アルゴリズムの性能の可視化を可能にするテーブル・レイアウトである。通常、行列の各行は、予測されたクラスにおけるインスタンスを表し、各列は、実際のクラスにおけるインスタンスを表す。混同行列は、予測された分類が実際の分類にどれくらいの頻度で一致したかを示すことによって、機械学習アルゴリズムが、それが割り当てられた分類タスクをどれくらい正確に実施したかの容易に読み取られる指示を研究者に提供する。本出願の発明者は、混同行列が、他のタイプの比較、特にデータ・グラフ間の特定の比較を可視化するために使用され得るが、従来の方法による混同行列の構築が、何十億ものレコードをもつデータ・グラフを比較するとき、計算量的に実現不可能であることを認識した。したがって、現存するコンピューティング機器上で実現可能な時間フレームにおいて結果を作り出す様式で混同行列を生成するためにそのような比較を実施する方法も望ましいであろう。
この背景技術のセクションにおいて述べられる言及は、本発明に関して従来技術であると認められるものではない。
本発明は、混同行列を作成する2つのデータ・グラフを比較するためのシステム及び方法を対象とする。混同行列は、比較の結果の高レベル指示を提供するために読み取られ得る。データ・グラフがPIIを含んでいるとき、プロセスは、PIIが、比較されるべきデータ・グラフを維持する当事者間でいずれの方向にも送信されることを必要としない。さらに、プロセスは、参照データ・グラフと比較されているデータ・グラフの品質に依存しない。本発明のいくつかの実装形態では、ベンチマーク・ファイルが、参照データ・グラフとの比較のために、1つのデータ・グラフから作成される。識別子及びメタデータがベンチマーク・ファイルに付加される。識別子の適用は、比較が行われることと混同行列の構築とを可能にする。分散型処理方法が、プロセスを計算量的に実現可能にするために使用される。
本発明のこれらの及び他の特徴、目的並びに利点は、図面とともに、いくつかの実施例の以下の詳細な説明、及び添付の特許請求の範囲を考慮するとより良く理解されるようになるであろう。
本発明の一実装形態による、いくつかのデータ構造の論理図である。 本発明の一実装形態による、システムのための論理構造である。 本発明の一実装形態による、例示的な混同行列の図である。 本発明の一実装形態による、クラウド・コンピューティング・システムの論理図である。
本発明がさらに詳細に説明される前に、本発明の範囲は後続の非仮出願における特許請求の範囲によってのみ限定されるので、本発明が、説明される特定の実施例に限定されないこと、並びに特定の実施例を説明する際に使用される用語が、それらの特定の実施例を説明するためのものにすぎず、限定するものではないことを理解されたい。
次に図1を参照しながら、本発明の一実施例による、方法を実施するためのプロセスが次に説明され得る。比較されるべきデータ・グラフは、最初に、ベンチマーク・ファイルに集約(reduce)される。ベンチマーク・ファイルは、レコードのセット、場合によっては何十億ものそのようなレコードからなり、各エンティティについて1つのレコードがある。図1は、1つの例示的なデータ・グラフ・レコード10を示すが、これは一実例にすぎず、実際のシステムは、非常に多数のそのようなレコードを含むことになることを理解されよう。各レコードはエンティティ表現を含み、エンティティ表現は、人及び世帯(すなわち、人のグループ化)に関するデータを含むアイデンティティ・グラフの場合、名前、郵便住所(postal address)、電話番号、電子メール・アドレスなどを含み得る。データ・グラフ・レコード10の実例では、簡単のために、名前及び住所のみが示されている。各エンティティ表現は、1つ又は複数の「ゴールド」キーを割り当てられ、「ゴールド」キーは、アイデンティティ・グラフ内のすべてのエンティティ表現の母集団(universe)にわたって一意である、各エンティティ表現のための識別子である。「ゴールド」キーという用語は、本明細書では、参照データ・グラフと比較されるべきである、データ・グラフ内で使用される任意の識別子を示すために使用される。それらの識別子は、それらが、比較されるべきデータ・グラフ内の各エンティティ表現に関して一意である限り、任意の形式をとり得る。
各エンティティ表現に割り当てられる複数のゴールド・キーがあり得、たとえば、人のための単一のエンティティ表現が、その人のためのゴールド・キーと、その人が属する世帯のためのゴールド・キーと、その人がいる場所のためのゴールド・キーとを割り当てられ得る。ゴールド・キーの各タイプはそれの空間内で一意であり、したがって、各人ゴールド・キーは、すべての人ゴールド・キーの間で一意であり、各世帯ゴールド・キーは、すべての世帯ゴールド・キーの間で一意であり、各場所又はロケーション・ゴールド・キーは、すべての場所又はロケーション・ゴールド・キーの間で一意である。このようにして、各ゴールド・キーは、特定の一意の人、特定の一意の世帯、又は特定の一意の場所を表すことができる。世帯を共有する複数の人が、それらに割り当てられた同じ世帯ゴールド・キーを有することになる。同様に、同じロケーションを共有する人及び/又は世帯が、それらを割り当てられた同じ場所ゴールド・キーを有し得る。データ・グラフ・レコード10の実例では、6桁英数字が、人ゴールド・キー、世帯ゴールド・キー、及び場所ゴールド・キーのために使用されるが、これらのゴールド・キーは、コンピューティング環境内で任意の他の形式で表され得る。代替実装形態では、本発明が、1つ又は複数の他のタイプのデータ・オブジェクトに拡張され得、1つ又はより大きい数のゴールド・キーを採用し得ることを容易に理解されよう。
データ・グラフ・レコード10の場合のようにゴールド・キーを各エンティティ表現に割り当てた後に、修正されたベンチマーク・ファイルが、エンティティ解決システム・マッチ論理プロセス12に導入される。エンティティ解決マッチ論理12プロセスは、参照データ・グラフ(すなわち、エンティティ解決グラフ14)を利用して、参照データ・グラフ自体の識別子をベンチマーク・ファイルの各エンティティ解決に割り当てる。ゴールド・キーのように、参照データ・グラフの識別子は、そのデータ・グラフに知られている、各人、世帯、又は場所について一意である。このプロセスの結果は、図1に示されているように、各エンティティ表現が、例示的なエンティティ解決グラフ・レコード16によって表されるように、エンティティ解決グラフ(すなわち、参照データ・グラフ)からの1つ又は複数のゴールド・キーと1つ又は複数の識別子の両方を各エンティティ表現に割り当てられることになることである。ここでも、このプロセスの出力は、一般に、非常に多数のそのようなレコードを含むことが理解されるとともに、エンティティ解決グラフ・レコード16は、一実例にすぎないことを理解されたい。
このプロセスはまた、図2のデータ・フロー図によって示されているように可視化され得る。ベンチマーク入力ファイル18が、ゴールド・キーの割当ての後に、解決ジョブ20に供給され、これは、エンティティ解決グラフ14を使用するエンティティ解決マッチ論理12プロセスによって促進される。「解決された」ベンチマーク(すなわち、エンティティ解決グラフからのゴールド・キーと識別子の両方をもつベンチマーク・ファイル)22が、次いで、マッチ率及びスコアリング24のために送られ、マッチ率及びスコアリング24は、以下で説明されるようにエンティティ解決混同行列26を作り出す。
数十億ものレコードの規模でのエンティティ解決混同行列26の構築は、利用可能な算出リソースを用いて連続的に実現可能に実施され得ない。むしろ、それは、分散型処理を通して実施される。一実装形態では、大きいデータ・ジョイン(data join)をサポートするためにコンピューティング・クラスタ上で並列の、分散型アルゴリズムを使用して極めて大きいデータ・セットのために使用されるプログラミング・モデルである、MapReduceなどのフレームワークが採用される。図4は、本発明がHadoopフレームワークを使用して実装され得る、MapReduceシステムの全体的なアーキテクチャ・ビューを提供する。システム出力は、分散型ストレージ36のコンテキスト内にある。概して、Hadoopクラスタは、最小限に、マスタ・サーバ及びワーカー・サーバ(worker server)を必要とする。この場合、クラスタは、マスタ30、複数のワーカー32を、すべてビッグ・データ処理コンピュート・クラスタ34のフレームワーク内に含む。ただし、本発明は、Hadoopフレームワークにおける実装形態に限定されず、本発明の代替実装形態では、他のソフトウェア・パッケージが使用され得る。
MapReduceフレームワークを適用すること、フィルタ処理すること、及び分類することが、最初に実施され、次いで、集計(summary)動作を実施する集約方法が適用される。詳細には、本プロセスは、本発明の特定の実装形態において、以下のフェーズを通る。
1.各一意の予測されたキー(参照データ・グラフにおいて使用される識別子である予測されたキー)について、すべてのゴールド・キーをグループ化する、
2.頻度に基づいて、各一意の予測されたキーについて、単一のゴールド・キーを発行する、
3.各一意のゴールド・キーについて、すべての予測されたキーをグループ化する、
4.頻度に基づいて、各一意のゴールド・キーについて、単一の予測されたキーを選ぶ、
5.この時点で混同行列が作られており、次に、ゴールド・キーに関する1対1のマッピングをグループ化する、
6.混同行列の以下の領域を合計する、
a.総集団、
b.データの一意の集団を表す、総ゴールド・キー集団、
c.参照データ・グラフにおいて未知であった、ベンチマーク・ファイル中の集団を表す、総未知集団(total unknown population)(TMEC)、
d.ベンチマーク・ファイル中ではなく、参照データ・グラフ中の集団を表す、総追加集団(total additional population)、
e.ベンチマーク・ファイルと参照データ・グラフとの間で一致しなかった重複する集団を表す、総不一致(total disagreement)(混同行列における黄色セルの和)、
f.ベンチマーク・ファイルと参照データ・グラフとが一致した重複する集団を表す、総一致(total agreement)(混同行列における緑色セルの和)、
g.列におけるゴールド・キーについての一致のみが存在する、非あいまい完全同値類を表す、総厳密(total exact)(TEEC)、
h.列におけるゴールド・キーについての欠落した識別子がなかったが、ゴールド・キーと予測されたキーとの間のいくつかの不一致があり得る、同値類を表す、総完全(total complete)(TCEC)、
i.列におけるゴールド・キーについてのいくつかの欠落した識別子があったが、ゴールド・キーと比較して正確又は不正確のいずれかであった少なくとも1つの予測されたキーがあった、同値類を表す、総部分的(total partial)(TPEC)、
j.参照データ・グラフにおけるすべての予測された識別子が一致するが、集団のすべてが参照データ・グラフ中に存在したとは限らない、ベンチマーク・ファイルの集団を表す、非あいまい部分的(unambiguous partial)(TPUEC)、
k.集団のすべてが参照データ・グラフと重複したが、すべての予測された識別子が一致したとは限らない、ベンチマーク・ファイルの集団を表す、あいまい完全(ambiguous complete)(TCEC)、
l.集団のすべてが参照データ・グラフ中に存在したとは限らず、予測された識別子のすべてがベンチマーク・ファイルと一致したとは限らない、ベンチマーク・ファイルの集団を表す、あいまい部分的(ambiguous partial)(TPAEC)。
本発明の実装形態による、本方法に従って構築された例示的な混同行列が、図3に示されている。図3におけるTPIDは、「総予測されたID(total predicted ID)」を指し、他の略語及び用語は、上記で又は図3自体内で定義されるものである。図3から、得られた混同行列は個人識別可能情報(PII)を含んでいないことがわかり得る。したがって、システムは、データ・グラフにおけるPIIの使用又は送信を必要とすることなしにデータ・グラフの比較を可能にし、したがって、いずれかのグラフ中でデータが収集される人のための個人データが失われるか又はインターセプトされ得るリスクを大幅に減少させる。
本明細書で説明されるシステム及び方法は、様々な実施例では、ハードウェアとソフトウェアとの任意の組合せによって実装され得る。たとえば、一実施例では、システム及び方法は、コンピュータ・システム又はコンピュータ・システムの集合によって実装され得、それらの各々は、プロセッサに結合されたコンピュータ可読記憶媒体に記憶されたプログラム命令を実行する1つ又は複数のプロセッサを含む。プログラム命令は、本明細書で説明される機能を実装し得る。図において示されているような、本明細書で説明される様々なシステム及び表示は、例示的な実装形態を表す。任意の方法の順序が変更され得、様々な要素が追加、修正、又は省略され得る。
本明細書で説明されるコンピューティング・システム又はコンピューティング・デバイスは、本発明の様々な実装形態の部分を形成するものとして、クラウド・コンピューティング・システム又は非クラウド・コンピューティング・システムのハードウェア部分を実装し得る。コンピュータ・システムは、限定はしないが、コモディティ・サーバ、パーソナル・コンピュータ・システム、デスクトップ・コンピュータ、ラップトップ又はノートブック・コンピュータ、メインフレーム・コンピュータ・システム、ハンドヘルド・コンピュータ、ワークステーション、ネットワーク・コンピュータ、消費者デバイス、アプリケーション・サーバ、ストレージ・デバイス、電話、携帯電話、或いは概して任意のタイプのコンピューティング・ノード、コンピュート・ノード、コンピュート・デバイス、及び/又はコンピューティング・デバイスを含む、様々なタイプのデバイスのうちのいずれかであり得る。コンピューティング・システムは、入出力(I/O)インターフェースを介してシステム・メモリに結合された(それらのうちのいずれかが単一又はマルチスレッドであり得る複数の処理コアを含み得る)1つ又は複数のプロセッサを含む。コンピュータ・システムは、I/Oインターフェースに結合されたネットワーク・インターフェースをさらに含み得る。
様々な実施例では、コンピュータ・システムは、1つのプロセッサを含むシングル・プロセッサ・システム、又は複数のプロセッサを含むマルチプロセッサ・システムであり得る。プロセッサは、コンピューティング命令を実行することが可能な任意の好適なプロセッサであり得る。たとえば、様々な実施例では、プロセッサは、様々な命令セット・アーキテクチャのうちのいずれかを実装する汎用プロセッサ又は組込みプロセッサであり得る。マルチプロセッサ・システムでは、プロセッサの各々は、通常、必ずしもそうではないが、同じ命令セットを実装し得る。コンピュータ・システムはまた、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、又はインターネットなど、通信ネットワークにわたって他のシステム及び/又は構成要素と通信するための1つ又は複数のネットワーク通信デバイス(たとえば、ネットワーク・インターフェース)を含む。たとえば、コンピューティング・デバイス上で実行するクライアント・アプリケーションは、様々なサブシステムにおいて実装される、クラウド・コンピューティング又は非クラウド・コンピューティング環境において本明細書で説明されるシステムの構成要素のうちの1つ又は複数を実装する単一のサーバ上で又はサーバのクラスタ上で実行するサーバ・アプリケーションと通信するためのネットワーク・インターフェースを使用し得る。別の実例では、コンピュータ・システム上で実行するサーバ・アプリケーションのインスタンスは、他のコンピュータ・システム上に実装され得るアプリケーションの他のインスタンスと通信するためのネットワーク・インターフェースを使用し得る。
コンピューティング・デバイスはまた、1つ又は複数の永続ストレージ・デバイス及び/又は1つ又は複数のI/Oデバイスを含む。様々な実施例では、永続ストレージ・デバイスは、ディスク・ドライブ、テープ・ドライブ、固体メモリ、他の大容量ストレージ・デバイス、又は任意の他の永続ストレージ・デバイスに対応し得る。コンピュータ・システム(或いはその上で動作する分散型アプリケーション又はオペレーティング・システム)は、要望に応じて、命令及び/又はデータを永続ストレージ・デバイスに記憶し得、必要に応じて、記憶された命令及び/又はデータを取り出し得る。たとえば、いくつかの実施例では、コンピュータ・システムは、制御プレーン又は制御システムの1つ又は複数のノードを実装し得、永続ストレージは、そのサーバ・ノードに取り付けられたSSDを含み得る。複数のコンピュータ・システムは、同じ永続ストレージ・デバイスを共有し得るか、或いは、永続ストレージ・デバイスのプールを共有し得、プール中のデバイスは、同じ又は異なるストレージ技術を表す。
コンピュータ・システムは、(1つ又は複数の)プロセッサによってアクセス可能なコード/命令とデータとを記憶し得る1つ又は複数のシステム・メモリを含む。システム・メモリは、たとえば、アクセス速度に基づいてメモリ中の情報をスワップするように設計されたシステムにおける複数のレベルのメモリ及びメモリ・キャッシュを含み得る。インターリービング及びスワッピングが、仮想メモリ実装形態において永続ストレージに拡張し得る。メモリを実装するために使用される技術は、実例として、スタティック・ランダムアクセス・メモリ(RAM:random-access memory)、ダイナミックRAM、読取り専用メモリ(ROM:read-only memory)、不揮発性メモリ、又はフラッシュタイプ・メモリを含み得る。永続ストレージの場合と同様に、複数のコンピュータ・システムは、同じシステム・メモリを共有し得るか、又はシステム・メモリのプールを共有し得る。1つ又は複数のシステム・メモリは、本明細書で説明されるルーチンを実装するために、(1つ又は複数の)プロセッサによって実行可能であるプログラム命令を含んでいることがある。様々な実施例では、プログラム命令は、バイナリ、アセンブリ言語、Javaなどの任意のインタープリタ型言語、C/C++などのコンパイルされた言語において、又はそれらの任意の組合せにおいて符号化され得、ここで与えられる特定の言語は、実例にすぎない。いくつかの実施例では、プログラム命令は、複数の別個のクライアント、サーバ・ノード、及び/又は他の構成要素を実装し得る。
いくつかの実装形態では、プログラム命令は、UNIX(登録商標)、LINUX、Solaris(商標)、MacOS(商標)、又はMicrosoft Windows(商標)など、様々なオペレーティング・システムのうちのいずれかであり得る、オペレーティング・システム(図示せず)を実装するために実行可能な命令を含み得る。プログラム命令のいずれか又はすべては、様々な実装形態に従ってプロセスを実施するようにコンピュータ・システム(又は他の電子デバイス)をプログラムするために使用され得る、命令を記憶した非一時的コンピュータ可読記憶媒体を含み得る、コンピュータ・プログラム製品又はソフトウェアとして提供され得る。非一時的コンピュータ可読記憶媒体は、機械(たとえば、コンピュータ)によって可読な形態(たとえば、ソフトウェア、処理アプリケーション)で情報を記憶するための任意の機構を含み得る。概して、非一時的コンピュータアクセス可能媒体は、磁気媒体又は光媒体など、コンピュータ可読記憶媒体又はメモリ媒体、たとえば、I/Oインターフェースを介してコンピュータ・システムに結合されたディスク又はDVD/CD-ROMを含み得る。非一時的コンピュータ可読記憶媒体は、コンピュータ・システムのいくつかの実施例では、システム・メモリ又は別のタイプのメモリとして含まれ得る、RAM又はROMなど、任意の揮発性媒体又は不揮発性媒体をも含み得る。他の実装形態では、プログラム命令は、ネットワーク・インターフェースを介して実装され得るものなど、ネットワーク及び/或いはワイヤード又はワイヤレス・リンクなど、通信媒体を介して伝達される、伝搬される信号の光形態、音響形態、又は他の形態(たとえば、搬送波、赤外線信号、デジタル信号など)を使用して通信され得る。ネットワーク・インターフェースは、他のコンピュータ・システム又は任意のタイプの外部電子デバイスを含み得る、他のデバイスとインターフェースするために使用され得る。概して、ネットワークを通して他のデバイス上でアクセス可能なシステム・メモリ、永続ストレージ、及び/又はリモート・ストレージは、データ・ブロック、データ・ブロックのレプリカ、データ・ブロック及び/又はそれらの状態に関連付けられたメタデータ、データベース構成情報、並びに/或いは本明細書で説明されるルーチンを実装する際に使用可能な任意の他の情報を記憶し得る。
いくつかの実装形態では、I/Oインターフェースは、ネットワーク・インターフェース又は他の周辺インターフェースを通してを含めて、システムにおけるプロセッサとシステム・メモリと任意の周辺デバイスとの間のI/Oトラフィックを協調させ得る。いくつかの実施例では、I/Oインターフェースは、ある構成要素(たとえば、システム・メモリ)からのデータ信号を、別の構成要素(たとえば、プロセッサ)による使用に好適なフォーマットにコンバートするために、任意の必要なプロトコル、タイミング又は他のデータ変換を実施し得る。いくつかの実施例では、I/Oインターフェースは、たとえば、周辺構成要素相互接続(PCI:Peripheral Component Interconnect)バス規格又はユニバーサルシリアルバス(USB:Universal Serial Bus)規格の変形態など、様々なタイプの周辺バスを通して取り付けられたデバイスのサポートを含み得る。また、いくつかの実施例では、システム・メモリへのインターフェースなど、I/Oインターフェースの機能の一部又は全部が、(1つ又は複数の)プロセッサに直接組み込まれ得る。
ネットワーク・インターフェースは、たとえば、データが、コンピュータ・システムと、(本明細書で説明される、1つ又は複数のストレージ・システム・サーバ・ノード、1次ノード、読取り専用ノード・ノード、及び/又はデータベース・システムのクライアントを実装し得る)他のコンピュータ・システムなど、ネットワークに取り付けられた他のデバイスとの間で交換されることを可能にし得る。さらに、I/Oインターフェースは、コンピュータ・システムと様々なI/Oデバイス及び/又はリモート・ストレージとの間の通信を可能にし得る。入出力デバイスは、いくつかの実施例では、1つ又は複数のディスプレイ端末、キーボード、キーパッド、タッチパッド、走査デバイス、ボイス又は光認識デバイス、或いは1つ又は複数のコンピュータ・システムによってデータを入れるか又は取り出すのに好適な任意の他のデバイスを含み得る。これらは、特定のコンピュータ・システムに直接接続するか、或いは、概して、クラウド・コンピューティング環境、グリッド・コンピューティング環境、又は複数のコンピュータ・システムを伴う他のシステムにおける、複数のコンピュータ・システムに接続し得る。複数の入出力デバイスが、コンピュータ・システムと通信して存在し得るか、又はコンピュータ・システムを含む分散型システムの様々なノード上に分散され得る。本明細書で説明されるユーザ・インターフェースは、CRTディスプレイと、LCDディスプレイと、LEDディスプレイと、他のディスプレイ技術とを含み得る、様々なタイプのディスプレイ・スクリーンを使用してユーザに可視であり得る。いくつかの実装形態では、入力は、タッチスクリーン技術を使用してディスプレイを通して受信され得、他の実装形態では、入力は、キーボード、マウス、タッチパッド、又は他の入力技術、或いはこれらの技術の任意の組合せを通して受信され得る。
いくつかの実施例では、同様の入出力デバイスが、コンピュータ・システムとは別個であり得、ネットワーク・インターフェース上でなど、ワイヤード又はワイヤレス接続を通して、コンピュータ・システムを含む分散型システムの1つ又は複数のノードと対話し得る。ネットワーク・インターフェースは、通常、1つ又は複数のワイヤレス・ネットワーキング・プロトコル(たとえば、Wi-Fi/IEEE802.11、又は別のワイヤレス・ネットワーキング規格)をサポートし得る。ネットワーク・インターフェースは、たとえば、他のタイプのイーサネット・ネットワークなど、任意の好適なワイヤード又はワイヤレスの一般的なデータ・ネットワークを介した通信をサポートし得る。さらに、ネットワーク・インターフェースは、アナログ・ボイス・ネットワーク又はデジタル・ファイバー通信ネットワークなどの電気通信/テレフォニー・ネットワークを介した通信、ファイバー・チャネルSANなどのストレージ・エリア・ネットワークを介した通信、或いは任意の他の好適なタイプのネットワーク及び/又はプロトコルを介した通信をサポートし得る。
本明細書で説明される分散型システム実施例のうちのいずれか、又はそれらの構成要素のうちのいずれかは、クラウド・コンピューティング環境における1つ又は複数のネットワークベース・サービスとして実装され得る。たとえば、データベース・システムのデータベース・ティア内の読取り書込みノード及び/又は読取り専用ノードは、本明細書で説明される分散型ストレージ・システムを採用するデータベース・サービス及び/又は他のタイプのデータ・ストレージ・サービスを、ネットワークベース・サービスとしてクライアントに提示し得る。いくつかの実施例では、ネットワークベース・サービスは、ネットワークを介した相互運用可能なマシンツーマシン対話をサポートするように設計されたソフトウェア及び/又はハードウェア・システムによって実装され得る。ウェブ・サービスは、ウェブ・サービス記述言語(WSDL:Web Services Description Language)などの機械処理可能なフォーマットで記述されたインターフェースを有し得る。他のシステムは、ネットワークベース・サービスのインターフェースの記述によって規定された様式でネットワークベース・サービスと対話し得る。たとえば、ネットワークベース・サービスは、他のシステムが呼び出し得る様々な動作を定義し得、様々な動作を要求するときに他のシステムが従うことが予想され得る特定のアプリケーション・プログラミング・インターフェース(API:application programming interface)を定義し得る。
様々な実施例では、ネットワークベース・サービスは、ネットワークベース・サービス要求に関連付けられたパラメータ及び/又はデータを含むメッセージの使用を通して要求されるか又は呼び出され得る。そのようなメッセージは、拡張可能マークアップ言語(XML:Extensible Markup Language)などの特定のマークアップ言語に従ってフォーマットされ得、及び/又はシンプル・オブジェクト・アクセス・プロトコル(SOAP:Simple Object Access Protocol)などのプロトコルを使用してカプセル化され得る。ネットワークベース・サービス要求を実施するために、ネットワークベース・サービス・クライアントは、要求を含むメッセージをアセンブルし、ハイパーテキスト転送プロトコル(HTTP:Hypertext Transfer Protocol)などのインターネットベース・アプリケーション・レイヤ転送プロトコルを使用して、そのメッセージを、ウェブ・サービスに対応するアドレス指定可能なエンドポイント(たとえば、ユニフォーム・リソース・ロケータ(URL:Uniform Resource Locator))に伝達し得る。いくつかの実施例では、ネットワークベース・サービスは、メッセージ・ベース技法ではなく表現状態転送(REST:Representational State Transfer)技法を使用して実装され得る。たとえば、REST技法に従って実装されたネットワークベース・サービスが、PUT、GET、又はDELETEなど、HTTPメソッド内に含まれるパラメータを通して呼び出され得る。
別段に明記されていない限り、本明細書で使用されるすべての技術用語及び科学用語は、本発明が属する当技術分野の当業者によって一般に理解されるものと同じ意味を有する。本明細書で説明されるものと同様の又は等価な方法及び材料が、本発明の実施又はテストにおいても使用され得るが、限られた数の例示的な方法及び材料が本明細書で説明される。はるかに多くの修正が、本明細書の発明概念から逸脱することなく可能であることが当業者には明らかであろう。
本明細書で使用されるすべての用語は、コンテキストに一致する最も広い可能な様式で解釈されるべきである。グループ化が本明細書で使用されるとき、グループのすべての個々のメンバー並びにグループの可能なすべての組合せ及び部分組合せが本開示に個々に含まれるものとする。本明細書で引用されるすべての参照は、本明細書の本開示との不整合がない範囲で、参照により本明細書に組み込まれる。本明細書で範囲が使用されるとき、範囲内のすべてのポイント及び範囲内のすべてのサブ範囲が、本開示に含まれるものとする。
本発明は、例にすぎないことが意図され、本発明の完全な範囲に限定するものではない、いくつかの好ましい実装形態及び代替実装形態に関して説明された。

Claims (24)

  1. データ・グラフを比較するための方法であって、前記方法は、
    ソース・データ・グラフからベンチマーク・ファイルを構築するステップであって、前記ベンチマーク・ファイルが、各々エンティティ表現を備える複数のレコードを備える、ステップと、
    前記ベンチマーク・ファイルの各エンティティ表現にゴールド・キーを割り当てるステップであって、各ゴールド・キーが、前記ソース・データ・グラフにおいてエンティティに一意に関連付けられる識別子である、ステップと、
    前記ベンチマーク・ファイルとエンティティ解決システムとの間でマッチ・プロセスを稼働するステップであって、前記エンティティ解決システムが、マッチングのための参照データ・グラフを利用し、前記参照データ・グラフが複数のエンティティ表現を備え、前記参照データ・グラフにおける各エンティティ表現が少なくとも1つの識別子を備える、ステップと、
    前記ベンチマーク・ファイルと前記参照データ・グラフとの間の各マッチしたエンティティ表現について、前記参照データ・グラフにおける前記マッチしたエンティティ表現における各識別子を、前記ベンチマーク・ファイルにおける前記マッチしたエンティティ表現にコピーするステップと、
    エンティティ解決混同行列を作り出すために、前記ベンチマーク・ファイルをスコアリングするステップと
    を含む、方法。
  2. 各エンティティ表現に割り当てられた前記ゴールド・キーが人ゴールド・キーであり、各人ゴールド・キーが、前記ベンチマーク・ファイルにおけるすべての人エンティティに関して一意である、請求項1に記載の方法。
  3. 少なくとも1つのエンティティ表現に世帯ゴールド・キーを割り当てるステップであって、各世帯ゴールド・キーが、前記ベンチマーク・ファイルにおけるすべての世帯エンティティに関して一意である、ステップをさらに含む、請求項2に記載の方法。
  4. 少なくとも1つのエンティティ表現にロケーション・ゴールド・キーを割り当てるステップであって、各ロケーション・ゴールド・キーが、前記ベンチマーク・ファイルにおけるエンティティのすべてのロケーションに関して一意である、ステップをさらに含む、請求項3に記載の方法。
  5. 各エンティティ表現が、名前又は郵便住所又は電話番号又は電子メール・アドレスのうちの少なくとも1つを備える、請求項1に記載の方法。
  6. 参照アイデンティティ・グラフにおいて各エンティティ表現に割り当てられた前記識別子が人識別子であり、各人識別子が、前記参照アイデンティティ・グラフにおけるすべての人識別子に関して一意である、請求項1に記載の方法。
  7. 前記参照アイデンティティ・グラフにおいて各表現に割り当てられた前記識別子が世帯識別子をさらに備え、各世帯識別子が、前記参照アイデンティティ・グラフにおけるすべての世帯識別子に関して一意である、請求項6に記載の方法。
  8. 前記参照アイデンティティ・グラフにおいて各表現に割り当てられた前記識別子がロケーション識別子をさらに備え、各ロケーション識別子が、前記参照アイデンティティ・グラフにおけるすべてのロケーション識別子に関して一意である、請求項7に記載の方法。
  9. エンティティ表現混同行列を作り出すステップが、並列処理を通してコンピューティング・クラスタ上の分散型コンピューティング・システムにおいて実施される、請求項1に記載の方法。
  10. エンティティ表現混同行列を作り出す前記ステップが、大きいデータ・ジョインをサポートするバッチ並列フレームワークにおいて実施される、請求項9に記載の方法。
  11. エンティティ表現混同行列を作り出す前記ステップが、フィルタ処理するステップと、分類するステップと、集約のステップとを含む、請求項1に記載の方法。
  12. エンティティ表現混同行列を作り出す前記ステップが、
    各一意の予測されたキーについて、すべてのゴールド・キーをグループ化するステップと、
    各一意の予測されたキーについて、単一のゴールド・キーを発行するステップと、
    各一意のゴールド・キーについて、すべての予測されたキーをグループ化するステップと、
    各一意のゴールド・キーについて、単一の予測されたキーを選ぶステップと
    をさらに含む、請求項1に記載の方法。
  13. 各一意の予測されたキーについて、単一のゴールド・キーを発行するサブステップが、頻度に基づく、請求項12に記載の方法。
  14. 各一意のゴールド・キーについて、単一の予測されたキーを選ぶサブステップが、頻度に基づく、請求項12に記載の方法。
  15. 対応するゴールド・キーに基づいて1対1のマッピングをグループ化するステップをさらに含む、請求項12に記載の方法。
  16. 総集団を合計するステップをさらに含む、請求項15に記載の方法。
  17. 総ゴールド・キー集団を合計するステップをさらに含み、前記総ゴールド・キー集団が、参照ファイルの一意の集団を含む、請求項16に記載の方法。
  18. 総未知集団を合計するステップをさらに含み、前記総未知集団が、前記参照アイデンティティ・グラフにおいて未知であった、前記ベンチマーク・ファイル中の集団を含む、請求項17に記載の方法。
  19. 総追加集団を合計するステップをさらに含み、前記総追加集団が、前記ベンチマーク・ファイル中ではなく、前記参照アイデンティティ・グラフ中の集団を含む、請求項18に記載の方法。
  20. 総不一致を計算するステップをさらに含み、総不一致が、前記ベンチマーク・ファイルと前記参照アイデンティティ・グラフとの間で一致しなかった重複する集団を含む、請求項19に記載の方法。
  21. 総一致を計算するステップをさらに含み、総一致が、前記ベンチマーク・ファイルと前記参照アイデンティティ・グラフとの間で一致した重複する集団を含む、請求項20に記載の方法。
  22. 非あいまい部分的を計算するステップをさらに含み、非あいまい部分的が、集団であって、前記参照アイデンティティ・グラフにおけるすべての予測された識別子が一致するが、前記集団のすべてが前記参照アイデンティティ・グラフ中に存在したとは限らない、集団を含む、請求項21に記載の方法。
  23. あいまい完全を計算するステップをさらに含み、あいまい完全が、前記ベンチマーク・ファイルの集団であって、前記集団のすべてが前記参照アイデンティティ・グラフと重複したが、すべての予測された識別子が一致したとは限らない、集団を含む、請求項22に記載の方法。
  24. あいまい部分的を計算するステップをさらに含み、あいまい部分的が、前記ベンチマーク・ファイルの集団であって、前記集団のすべてが前記参照アイデンティティ・グラフ中に存在したとは限らず、前記予測された識別子のすべてが前記ベンチマーク・ファイルと一致したとは限らない、集団を含む、請求項23に記載の方法。
JP2022570439A 2020-05-20 2021-04-09 エンティティ解決データ構造システム及び方法 Pending JP2023526626A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063027755P 2020-05-20 2020-05-20
US63/027,755 2020-05-20
PCT/US2021/026533 WO2021236250A1 (en) 2020-05-20 2021-04-09 Entity resolution data structure system and method

Publications (1)

Publication Number Publication Date
JP2023526626A true JP2023526626A (ja) 2023-06-22

Family

ID=78708071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570439A Pending JP2023526626A (ja) 2020-05-20 2021-04-09 エンティティ解決データ構造システム及び方法

Country Status (5)

Country Link
US (1) US20230185852A1 (ja)
EP (1) EP4154084A1 (ja)
JP (1) JP2023526626A (ja)
CA (1) CA3183609A1 (ja)
WO (1) WO2021236250A1 (ja)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1435058A4 (en) * 2001-10-11 2005-12-07 Visualsciences Llc SYSTEM, METHOD AND COMPUTER PROGRAM PRODUCT FOR PROCESSING AND VISUALIZING INFORMATION
US8892571B2 (en) * 2004-10-12 2014-11-18 International Business Machines Corporation Systems for associating records in healthcare database with individuals
US8073832B2 (en) * 2009-05-04 2011-12-06 Microsoft Corporation Estimating rank on graph streams
US20100293203A1 (en) * 2009-05-18 2010-11-18 Henry Roberts Williams User interface for graph database data
US9135369B2 (en) * 2012-05-02 2015-09-15 Nvidia Corporation System, method, and computer program product for performing graph aggregation
US20140180810A1 (en) * 2012-12-22 2014-06-26 Coupons.Com Incorporated Selection of digital offers based on current and historical transaction data
US9760654B2 (en) * 2013-04-26 2017-09-12 Wal-Mart Stores, Inc. Method and system for focused multi-blocking to increase link identification rates in record comparison
US9519859B2 (en) * 2013-09-06 2016-12-13 Microsoft Technology Licensing, Llc Deep structured semantic model produced using click-through data
BR112016014479A8 (pt) * 2013-12-20 2020-05-26 Dun & Bradstreet Corp procura de uma rede de relacionamentos comerciais, e avaliação de uma relevância de um relacionamento
US11514096B2 (en) * 2015-09-01 2022-11-29 Panjiva, Inc. Natural language processing for entity resolution
US10572537B2 (en) * 2016-04-13 2020-02-25 International Business Machines Corporation Efficient graph optimization
US11386507B2 (en) * 2019-09-23 2022-07-12 International Business Machines Corporation Tensor-based predictions from analysis of time-varying graphs
US11494552B2 (en) * 2019-11-11 2022-11-08 Jpmorgan Chase Bank, N.A. System and method for implementing smart business intelligence testing tools
CN113139102A (zh) * 2021-05-18 2021-07-20 北京深演智能科技股份有限公司 数据处理方法、装置、非易失性存储介质及处理器
CN113849702A (zh) * 2021-10-12 2021-12-28 北京锐安科技有限公司 一种确定目标数据的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20230185852A1 (en) 2023-06-15
WO2021236250A1 (en) 2021-11-25
CA3183609A1 (en) 2021-11-25
EP4154084A1 (en) 2023-03-29

Similar Documents

Publication Publication Date Title
US11711420B2 (en) Automated management of resource attributes across network-based services
US20220100553A1 (en) Systems and methods for tuning containers in a high availability environment
US10122788B2 (en) Managed function execution for processing data streams in real time
WO2020048391A1 (zh) 基于多租户技术的web服务的部署、调用方法和装置
JP2019535065A (ja) 分散イベント処理システムにおけるデータシリアライズ
US10182104B1 (en) Automatic propagation of resource attributes in a provider network according to propagation criteria
WO2023134134A1 (zh) 一种关联查看模型的生成方法、装置、计算机设备及存储介质
CN113190517B (zh) 数据集成方法、装置、电子设备和计算机可读介质
WO2018188607A1 (zh) 流处理方法及装置
Ikhlaq et al. Computation of Big Data in Hadoop and Cloud Environment
CN111752539A (zh) Bi服务集群系统及其搭建方法
JP2023526626A (ja) エンティティ解決データ構造システム及び方法
US10152556B1 (en) Semantic modeling platform
US20240012857A1 (en) Asserted Relationships Matching in an Identity Graph Data Structure
US20230342352A1 (en) System and Method for Matching into a Complex Data Set
US11803789B2 (en) Provision of remote application action feed cards
Senapaty et al. Cloud-Based Data Analytics: Applications, Security Issues, and Challenges
US20230246916A1 (en) Service map conversion with preserved historical information
US20230010906A1 (en) System event analysis and data management
CA3186623A1 (en) Graph data structure edge profiling in mapreduce computational framework
JP2023540318A (ja) 個人識別可能情報を共有することのないデータの交換のためのシステム及び方法
US20210117218A1 (en) Security risk load balancing systems and methods
CN116701220A (zh) 数据同步测试方法、装置、电子设备及计算机可读介质
CN114610507A (zh) 应用服务处理方法、装置、设备、存储介质以及程序产品
CN115760013A (zh) 运维模型的构建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240115