JP2021500692A - 系図エンティティ解決システムおよび方法 - Google Patents

系図エンティティ解決システムおよび方法 Download PDF

Info

Publication number
JP2021500692A
JP2021500692A JP2020543471A JP2020543471A JP2021500692A JP 2021500692 A JP2021500692 A JP 2021500692A JP 2020543471 A JP2020543471 A JP 2020543471A JP 2020543471 A JP2020543471 A JP 2020543471A JP 2021500692 A JP2021500692 A JP 2021500692A
Authority
JP
Japan
Prior art keywords
tree
person
familial
birth
death
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020543471A
Other languages
English (en)
Inventor
フォークマン,タイラー
ファーナー,レイ
Original Assignee
アンセストリードットコム オペレーションズ インコーポレイテッド
アンセストリードットコム オペレーションズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アンセストリードットコム オペレーションズ インコーポレイテッド, アンセストリードットコム オペレーションズ インコーポレイテッド filed Critical アンセストリードットコム オペレーションズ インコーポレイテッド
Publication of JP2021500692A publication Critical patent/JP2021500692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

系図データベース内のツリーの人物2人が同じ実在の個人に対応しているかどうかを判定するためのシステムおよび方法。実施形態は、ツリーデータベースから、第1の系統樹からの第1のツリーの人物と、第2の系統樹からの第2のツリーの人物とを取得することを含む。実施形態はまた、複数の家族性カテゴリを識別することを含む。実施形態はさらに、複数の家族性カテゴリの各家族性カテゴリについて、家族性カテゴリ内のツリーの人物の各々について特徴の第1の量を抽出することと、ツリーの人物の可能なペアリングの各々について第1の類似性スコアを生成することと、最大の第1の類似性スコアに基づいて代表的なペアリングを識別することと、代表的なペアリングにおけるツリーの人物の各々の特徴の第2の量を抽出することとをさらに含む。実施形態はまた、特徴の第2の量に基づいて第2の類似性スコアを生成することを含み得る。【選択図】図3A

Description

[0001]本出願は、2017年10月24日に提出された米国仮特許出願第62/576,462号、標題「系図エンティティ解決システムおよび方法(GENEALOGICAL ENTITY RESOLUTION SYSTEM AND METHOD)」の優先権を主張するものであり、その各々の内容全体が本明細書に組み込まれる。
[0002]特定の系図または家族歴データベースでは、祖先データは、1人以上の人物または個人を含むツリーに格納される。ツリーには、特定のツリー内の様々な個人間の関係を示すツリー内関係も含まれる。多くの場合、ユーザが他のユーザと共通の祖先を有するために、1つのツリー内の人物は他のツリー内の人物に対応し得る。系図データベースを維持する上での1つの課題はエンティティの解決であり、これは同じ実世界のオブジェクトの異なる出現を特定してリンクする問題を指す。例えば、同じ人物の多くの出現が複数のツリーに見られる場合がある。この問題は、異なる履歴記録間の不一致、履歴記録と人間の説明との間の不一致、および異なる人間の説明間の不一致が原因で発生する。例えば、共通の祖先を有する異なるユーザが、その祖先の名前、生年月日および出生地について異なる意見を有する場合がある。この問題は、大量の履歴文書が読みづらく、広範囲の可能な祖先データが生じている場合に特に顕著になる。したがって、この分野では改善された技術が必要とされている。
[0003]本発明の実施形態は、系図データベース内のツリーの人物2人が同じ実在の個人に対応するかどうかを判定する方法を含む。本開示の一態様では、1つの方法が提供される。この方法は、ツリーデータベースから、第1の系統樹からの第1のツリーの人物と、第2の系統樹からの第2のツリーの人物とを取得することを含み得る。いくつかの実施形態では、第1の系統樹および第2の系統樹の各々は、互いに関連する個人に対応する複数の相互接続されたツリーの人物を含む。この方法はまた、複数の家族性カテゴリを特定することを含み得、家族性カテゴリの各々は、第1の系統樹および第2の系統樹の各々からの少なくとも1人のツリーの人物を含む。この方法は、複数の家族性カテゴリの各家族性カテゴリについて、家族性カテゴリ内のツリーの人物の各々について特徴の第1の量を抽出することと、特徴の第1の量に基づいて、異なる系統樹からのツリーの人物の可能なペアリングの各々について第1の類似性スコアを生成することと、最大の第1の類似性スコアに基づいて、代表的なペアリングを識別することと、代表的なペアリングにおけるツリーの人物の各々の特徴の第2の量を抽出することとをさらに含み得る。この方法は、各家族性カテゴリの代表的なペアリングにおけるツリーの人物の各々の特徴の第2の量に基づいて第2の類似性スコアを生成することを含み得る。この方法はまた、第2の類似性スコアに基づいて、第1のツリーの人物および第2のツリーの人物が同じ個人に対応すると判定することを含み得る。
[0004]いくつかの実施形態では、複数の家族性カテゴリは、自己、母親、父親、配偶者、および子供のうちの1つ以上を含む。いくつかの実施形態では、特徴の第1の量は、特徴の第2の量よりも少ない。いくつかの実施形態では、特徴の第2の量は、名、名の類似性、名の一意性、姓、姓の類似性、姓の一意性、出生月、出生日、出生年、死亡月、死亡日、死亡年、結婚月、結婚日および結婚年、出生市、出生郡、出生州、出生国、死亡市、死亡郡、死亡州、死亡国、結婚市、結婚郡、結婚州、結婚国、性別、居住市、居住郡、居住州、居住国、居住月、居住日、居住年の1つ以上を含む。いくつかの実施形態では、この方法は、クラスタデータベースから、家族性カテゴリの少なくとも1つについて追加のツリーの人物に対応する情報を取得することを含み得る。この方法はまた、ツリーデータベースから、追加のツリーの人物を取得することを含み得る。この方法は、追加のツリーの人物を家族性カテゴリの少なくとも1つに含めることをさらに含み得る。いくつかの実施形態では、この方法は、第1のツリーの人物および第2のツリーの人物が同じ個人に対応することを反映するようにクラスタデータベースを修正することを含み得る。いくつかの実施形態では、第1のツリーの人物および第2のツリーの人物が同じ個人に対応することを反映するようにクラスタデータベースを修正することは、第1のツリーの人物に対応する第1のノードが第2のツリーの人物に対応する第2のノードに直接接続するように、クラスタデータベース内の1つ以上のノード接続を修正することを含む。
[0005]本開示の別の態様では、非一時的コンピュータ可読記憶媒体が提供される。いくつかの実施形態では、非一時的コンピュータ可読記憶媒体は、プロセッサによって実行されると、上記方法を含む動作をプロセッサに実行させる命令を含み得る。本開示のさらに別の態様では、システムが提供される。システムは、1つ以上のプロセッサを含み得る。システムはまた、1つ以上のプロセッサによって実行されると上記方法を含む動作を1つ以上のプロセッサに実行させる命令を含む、1つ以上のコンピュータ可読記憶媒体を含み得る。
[0006]本発明のさらなる理解を提供するために含まれる添付図面は、本明細書に組み込まれ、本明細書の一部を構成し、本発明の実施形態を示し、詳細な説明と共に本発明の原理を説明する役割を果たす。本発明の基本的な理解に必要であり得るよりも詳細に本発明の構造的詳細および実施され得る様々な方法を示す試みは行われない。
本開示の実施形態による、類似の個人を有する様々なツリーを示す図である。 本開示の実施形態による、クラスタデータベースを修正するためのシステムのブロック図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための様々なステップを示す図である。 本開示の実施形態による、スコアを生成するための様々な計算を示す表である。 本開示の実施形態による結果図である。 本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定する方法を示す図である。 本開示の実施形態による、簡略化されたコンピュータシステムを示す図である。
[0015]添付の図では、類似のコンポーネントおよび/または特徴には同じ参照番号ラベルが付いている場合がある。さらに、同じタイプの様々なコンポーネントは、参照ラベルの後に文字を付けることによって、または参照ラベルの後にダッシュを付け、その後に類似のコンポーネントおよび/または特徴を区別する第2の参照番号ラベルを付けることによって区別される場合がある。本明細書で第1の参照番号ラベルのみを使用する場合、説明は、末尾の文字に関係なく、同じ第1の参照番号ラベルが付いた類似のコンポーネントおよび/または機能のいずれか1つに当てはまる。
[0016]エンティティの解決は、長い間研究されてきた問題であり、依然としていくつかの興味深い課題を提起している。この問題は、同じ実世界のオブジェクトの異なる出現を識別してリンクすることとして定義される。多くの組織では、重複する可能性のあるエンティティに関するデータを収集している。特定の系図データベースでは、各ユーザが個人の系統樹を有し得る。これらのツリーは、他のユーザのツリーと重複していることが多く、系図データベースには重複したエンティティが作成される。既知の重複を追跡する1つの方法は、複数のエンティティを1つのクラスタに解決することである。これにより、ユーザはより的を絞ったヒントを受け取り、ツリー外のユーザとの関係を理解し、より正確な検索機能を使用できるようになるため、ユーザに計り知れない価値がもたらされる。
[0017]本開示の実施形態は、異なるツリー内の2人の人物が同じ個人に対応すると判定されたときに、クラスタデータベースを修正することに関する。場合によっては、作成されたノード接続は、異なるツリー内の2人の人物に対応する2つのノード間で生成される。この技術は、クラスタデータベースの生成中に段階的に使用され得る。したがって、ユーザが新しいノードを作成するか、既存のノードを編集すると、開示された技術を使用して、そのノードが現在のエンティティクラスタに解決されるかどうか、または独自のクラスタを生成すべきかどうかを確認できる。この処理は、パフォーマンスの理由から、単一のバッチ処理とは異なり、段階的に実行され得る。このエンティティ解決の問題は、不正確なデータ、スペルミス、同名の兄弟などの難しい比較を含む様々な理由により、困難な問題である。
[0018]これらの重複した人物を識別する別の利点は、あるユーザが、別のユーザが有していない彼らの祖先に関する情報を有し得ることである。より多くの重複した人物が識別されるほど、ユーザが参照するためにすべての重複した人物を列挙するのではなく、クラスタの単一の簡潔なビューに統合されたすべての重複の集合体(すなわち、重複した人物のグループ化)をユーザに示すことがより有益であり得る。重複した人物を識別する別の利点は、ユーザAとユーザBが家系図内に重複した人物を有する場合、少なくとも重複した人物を介してユーザAとユーザBが互いに関連していると判定できることである。さらに、重複した人物が識別されると、ユーザAはユーザBの家系図からの情報で自分の家系図を補足することができ、その逆も可能である。
[0019]本明細書で使用する場合、「ツリー」、「家系図」、および「系統樹」という用語は、互換的に使用され、それらの関係に従って相互接続される有限数の関係者のグループ化を指し得る。ツリーで直接接続されている2人の人物は、親子関係、兄弟関係、または何らかの他の関係にあり得る。ツリーは、線で結ばれた様々な点として表示され得る。ツリーの基部または底部は、ツリーのユーザであってもなくてもよい単一の個人を含み得る。
[0020]本明細書で使用する場合、「ツリーの人物」、「人物」、「個人」、および「ノード」という用語は、互換的に使用され得、生きているまたは亡くなった実在の個人のツリーにおける表現を指し得る。
[0021]本明細書で使用する場合、「ユーザ」という用語は、ツリーの所有者または作成者を指す場合もあれば、ツリーまたは系図データベースを何らかの方法で使用している人間または人間以外の任意のエンティティを指す場合もある。
[0022]本明細書で使用する場合、「クラスタ」という用語は、各々が異なるツリーに由来し、かつ各々が同じ実在の個人に対応すると判定されたツリーの人物のグループ化を指すことがある。クラスタは、同じ実在の個人に対応するツリーの人物のみをグループ化するように設計されているが、これが常に可能であるとは限らず、多くの場合、クラスタは、採用される類似性の閾値に基づいて過剰に含まれるか不十分に含まれる。
[0023]図1は、ツリー100a〜cを示し、各々が、本開示の実施形態による類似した個人102a〜cを有する。ツリー100a〜cは、それぞれツリーA、B、およびCとしても示される。ツリーA、B、およびCは、ツリーの人物A1、B1、およびC1によって、あるいはツリーA、B、およびCの人物とは無関係のその他のユーザによって所有、作成、および/または使用され得る。いくつかの実施形態では、ツリーの人物A15(「ジョン・ドウ」という名前)、ツリーの人物B13(「ジョナサン・ドウ」という名前)、およびツリーの人物C5(「ジョニー・ドウ」という名前)は、類似性に基づいて同じ実在の個人に対応すると判定され得る。ツリーAのユーザは、ツリーの人物A15がジョン・ドウであることを理解している可能性があるが、ジョン・ドウが異なるスペルの名前および異なる死亡日を有することを理解しているツリーBおよびCのユーザによって発見された情報を知ることが、そのユーザにとって有益であり得る。同様に、ツリーBおよびCのユーザは、ジョナサン・ドウおよびジョニー・ドウであると理解しているツリーの人物B13およびC5の代替のスペルおよび死亡日を知ることが有益であり得る。したがって、ツリーA、B、およびCのユーザの系図調査を支援するために、同じ実在の個人に対応すると判定されるツリーの人物を識別、グループ化、および場合によっては統合することがしばしば有利である。
[0024]ツリーの人物A15、B13、およびC5が同じ実在の個人に対応するかどうかを判定する1つの方法は、人類専門家が異なる人物のペアを調べてルールを作成するルールベースのアルゴリズムである。例えば、2人の人物が「ジャック・スミス」という名前であるが、1人は1981年3月1日生まれであり、もう1人は1932年3月1日生まれであると考える。ルールベースのアルゴリズムは、1つは名前の比較(この例では高スコア)、1つは出生月の比較(この例では高スコア)、1つは出生日の比較(この例では高スコア)、および1つは出生年(この例では低スコア)の4つの別々のスコアを生成し得る。4つの別々のスコアが合計されて、最終的な類似性スコアが生成される。類似性スコアが高いほど、ツリーの人物2人が同じ実在の個人に対応する確率が高くなる。
[0025]ルールベースのアルゴリズムにはいくつかの欠点がある。第1に、それらは主観的である。スコアは、最終的な類似性スコアへと組み合わされるときに、最終的な類似性スコアが、任意であり得る選択された重み付けに対して過度に敏感になるように重み付けされ得る。第2に、ルールベースのアルゴリズムは、一般的な名前など、いくつかの特殊なケースを考慮する必要があるため、非常に複雑になる。第3に、ルールベースのアルゴリズムは、更新および維持が困難である。時間の経過と共に、単一の最終的な類似性スコアを生成するための数百のルールが存在する可能性がある。新しい特別なケースが発生した場合、人類専門家は、以前に生成されたすべてのルールが新しいケースに適用されるかどうかを確認する必要がある。特定のルールが適用されない場合には、変更が必要になることがある。
[0026]図2は、本開示の実施形態による、クラスタデータベース214を修正するためのシステム200のブロック図を示す。システム200は、データプロセッサ202と、2つのデータベース、すなわちツリーデータベース212およびクラスタデータベース214とを含む。いくつかの実施形態では、ツリーデータベース212およびクラスタデータベース214は、単一のデータベースとして維持され得る。
[0027]いくつかの実施形態では、データプロセッサ202は、ツリーデータベース212から、TPおよびTPと呼ばれるツリーの人物2人を選択するためのツリーの人物選択器204を含む。ツリーの人物TPおよびTPは、一般に2つの異なる家系図から選択されるが、いくつかの実施形態では同じ家系図から選択されることがある。いくつかの実施形態では、データプロセッサ202は、ツリーの人物TPおよびTPから、ならびにツリーデータベース212から選択される追加のツリーの人物から特徴を抽出するための特徴抽出器206を含む。ツリーの人物TPから抽出された特徴を第1の特徴ベクトルfと呼び、ツリーの人物TPから抽出された特徴を第2の特徴ベクトルfと呼ぶことができる。特徴抽出器206は、機械学習技術を使用して、特徴ベクトルf1、iおよびf2、iを抽出してもよい。いくつかの実施形態では、ツリーの人物TPおよびTPが取得された後、データプロセッサ202は、クラスタデータベース214から追加のツリー人物情報を取得することができる。図3A〜図3Fを参照して説明するように、追加のツリー人物情報は、ツリーの人物TPおよびTPの親族とクラスタを共有するツリーの人物を識別することができる。追加のツリー人物情報を取得した後、追加のツリー人物情報で識別された追加のツリーの人物は、データプロセッサ202によってツリーデータベース212から取得され得る。
[0028]いくつかの実施形態では、データプロセッサ202は、特徴抽出器206によって抽出されたスコアベースの特徴を生成するためのスコア生成器208を含む。場合によっては、第1の特徴ベクトルf1、iおよび第2の特徴ベクトルf2、iを使用して、メトリック関数s(f)を生成し、ここで、fは結合された特徴ベクトルである。特徴の数がnに等しい場合、スコア生成器208は、第1の特徴ベクトルf1、iと第2の特徴ベクトルf2、iとの間のn個の異なるメトリックを計算することができる。例えば、n=2およびf1、i=(「ジョン」、1956)およびf2、i=(「ジョン」、1958)の場合、第1のメトリックは2つの文字列(「ジョン」および「ジョン」)の差が1に等しいことに基づいて計算され得、第2のメトリックは2つの整数(1956と1958)の差が0.83に等しいことに基づいて計算され得る。この例で得られるメトリック関数s(f)は(1、0.83)に等しくなる。メトリックは0と1との間の値を生成することができ、0は類似性が低く、1は類似性が高いことを示す。いくつかの実施形態では、メトリックは、0と1との間の値を生成することに制限されない。メトリック関数s(f)がどのように生成されるかの特定の例は、図5を参照して説明される。
[0029]いくつかの実施形態では、2つの文字列間のメトリックとしてジャロ・ウィンクラー距離が使用され、整数とベクトルなど、任意の2つの非文字列間のメトリックとしてコサイン類似性が使用される。メトリック計算器208内で使用され得る他の可能なメトリックには、編集距離、アフィンギャップ距離、スミス−ウォーターマン距離、およびQグラム距離が含まれるが、これらに限定されない。いくつかの実施形態では、スコア生成器208は、機械学習技術を使用して、ツリーの人物2人の抽出された特徴に基づいて類似性スコアを生成することができる。
[0030]いくつかの実施形態では、スコア生成器208は、以下の式を使用して、ツリーの人物(例えば、TPおよびTP)間の類似性スコアを生成することができ、

ここで、nは特徴fの数、wはi番目の特徴fの特徴の重みである。類似性スコアtは、特徴の重みwによって重み付けされているメトリック関数s(f)の重み付き合計に基づいて生成される。いくつかの実施形態では、特徴の重みwは、系図学者によって準備された様々な訓練データがスコア生成器208を訓練するために使用される機械学習技術を用いて計算されてもよい。
[0031]いくつかの実施形態では、データプロセッサ202は、ツリーの人物TPおよびTPが同じ個人に対応すると判定されるかどうかに基づいてクラスタデータベース214を修正するためのデータベース変更子を含む。いくつかの例では、ツリーの人物TPおよびTPが同じ個人に対応すると判定されると、クラスタデータベース214でツリーの人物TPに対応する第1のノードとツリーの人物TPに対応する第2のノードとの間に新しいノード接続が生成される。対照的に、ツリーの人物TPおよびTPが同じ個人に対応しないと判定された場合、クラスタデータベース214でツリーの人物TPに対応する第1のノードとツリーの人物TPに対応する第2のノードとの間のノード接続が削除されることがある。いくつかの実施形態では、新しいノード接続を生成すること、または以前のノード接続を削除することは、クラスタデータベース214内の電気回路内の電気スイッチを閉じるまたは開くことを含み得る。
[0032]図3A〜図3Fは、本開示の実施形態による、ツリーの人物2人、すなわちツリーの人物D8およびツリーの人物E5が同じ個人に対応するかどうかを判定するための様々なステップを示す。示されている例では、ツリーの人物D8は、ツリーの人物D1(母親)、D3(父親)、D6(配偶者)、およびD9−D12(子供)と同じ家系図に由来する可能性があり、ツリーの人物E5は、ツリーの人物E1(父親)、E2(母親)、E7(配偶者)、およびE9−E10(子供)と同じ家系図に由来する可能性がある。残りのツリーの人物は、異なる家系図に由来する可能性があるが、家族性カテゴリ302に示されているツリーの人物と同じクラスタに属している可能性がある。
[0033]図3Aを参照すると、家族性カテゴリ302の各家族性カテゴリは2つの部分を有すると考えられ、例えば、母親1と母親2は集合的に単一の家族性カテゴリと見なされ、父親1と父親2は集合的に単一の家族性カテゴリと見なされ、自己1と自己2は集合的に単一の家族性カテゴリと見なされるなどである。各家族性カテゴリには、比較されるツリーの人物の家系図(ツリーの人物D8およびツリーの人物E5)の各々からの少なくとも1人のツリーの人物が含まれる。いくつかの実施形態では、家族性カテゴリ302は、比較されているツリーの人物の家系図からのツリーの人物のみを含む。図3Aに示す例のような他の実施形態では、異なる家系図に由来するが家族性カテゴリ内のツリーの人物と同じクラスタに属する追加のツリーの人物が含まれ得る。例えば、ツリーの人物D2は、(クラスタデータベース214で示すように)ツリーの人物D1とクラスタを共有する可能性があり、ツリーの人物D1と同じ家族性カテゴリ(母親)に含まれ得る。また、ツリーの人物D4およびD5の各々は、(クラスタデータベース214で示すように)ツリーの人物D3とクラスタを共有する可能性があり、ツリーの人物D3と同じ家族性カテゴリ(父親)に含まれ得る。さらに、ツリーの人物D13〜D16の各々は、ツリーの人物D9〜D12のうちの1人と(クラスタデータベース214で示すように)クラスタを共有する可能性があり、ツリーの人物D9〜D12と同じ家族性カテゴリ(子供)に含まれ得る。
[0034]家族性カテゴリ302が識別された後、特徴の第1の量が、図3Aに示すツリーの人物の各々から抽出され得る。特徴抽出は、ツリーデータベース212から情報を検索および/または受信することができる特徴抽出器206によって実行することができる。いくつかの実施形態では、特徴の第1の量は5個未満の特徴であり得る。例えば、いくつかの実施形態では、名、姓、および出生年が、ツリーの人物の各々から抽出され得る。
[0035]図3B〜図3Fを参照すると、スコア生成器208は、各家族性カテゴリ内のツリーの人物の可能なペアリングの各々の間の類似性スコア306を生成することができる。例えば、図3Bを参照すると、母親の家族性カテゴリ内のツリーの人物の以下のペアリング間で類似性スコアが生成される:D1:E2、D1:E3、D1:E4、D2:E2、D2:E3、およびD2:E4(合計6)。次に、最も高い(すなわち、最大の)類似性スコアが識別され、対応するツリーの人物が家族性カテゴリの代表的なペアリングとして識別される。この例では、最大類似性スコアは、ツリーの人物D2とE4のペアリングに対応する。図3Cを参照すると、父親の家族性カテゴリ内のツリーの人物の以下のペアリング間で類似性スコアが生成される:D3:E1、D4:E1、およびD5:E1(合計3)。次に、最も高い(すなわち、最大の)類似性スコアが識別され、対応するツリーの人物が家族性カテゴリの代表的なペアリングとして識別される。この例では、最大類似性スコアは、ツリーの人物D3とE1のペアリングに対応する。
[0036]図3Dを参照すると、配偶者の家族性カテゴリ内のツリーの人物の以下のペアリング間で類似性スコアが生成される。D6:E7、D6:E8、D7:E7、およびD7:E8(合計4)。この例では、最大類似性スコアは、ツリーの人物D6とE7のペアリングに対応する。図3Eを参照すると、自己の家族性カテゴリ内のツリーの人物の以下のペアリング間で類似性スコアが生成される:D8:E5およびD8:E6(合計2)。この例では、最大類似性スコアは、ツリーの人物D8とE6のペアリングに対応する。図3Fを参照すると、子供の家族性カテゴリ内のツリーの人物の以下のペアリング間で類似性スコアが生成される。D9:E9、D9:E10、D9:E11、D9:E12、D9:E13、D9:E14、D9:E15、D10:E9、D10:E10、D10:E11、D10:E12、D10:E13、D10:E14、D10:E15、D11:E9、D11:E10、D11:E11、D11:E12、D11:E13、D11:E14、D11:E15、D12:E9、D12:E10、D12:E11、D12:E12、D12:E13、D12:E14、D12:E15、D13:E9、D13:E10、D13:E11、D13:E12、D13:E13、D13:E14、D13:E15、D14:E9、D14:E10、D14:E11、D14:E12、D14:E13、D14:E14、D14:E15、D15:E9、D15:E10、D15:E11、D15:E12、D15:E13、D15:E14、D15:E15、D16:E9、D16:E10、D16:E11、D16:E12、D16:E13、D16:E14、およびD16:E15(合計56)。いくつかの実施形態では、最も高い(すなわち、最大の)3つの類似性スコアが識別され、対応するツリーの人物が家族性カテゴリの代表的なペアリングとして識別される。最も高い3つの類似性スコアは、一意のツリーの人物との最も高い3つの類似性スコアであり得る。この例では、最大類似性スコアは、ツリーの人物の以下のペアリングに対応する。D9:E14、D13:E10、およびD15:E11。
[0037]図4A〜図4Bは、本開示の実施形態による、ツリーの人物2人、すなわちツリーの人物D8およびツリーの人物E5が同じ個人に対応するかどうかを判定するための様々なステップを示す。図4A〜図4Bは、図3A〜図3Fに示す例に続く。家族性カテゴリ302の各々について代表的なペアリングが識別された後、代表的なペアリングではない家族性カテゴリ302内のツリーの人物が削除され、家族性カテゴリ402が得られる。次に、特徴の第2の量が、図4Aに示すツリーの人物の各々から抽出され得る。特徴抽出は、ツリーデータベース212から情報を検索および/または受信することができる特徴抽出器206によって実行することができる。いくつかの実施形態では、特徴の第2の量は、50個を超える特徴であり得る。例えば、いくつかの実施形態では、名、姓、および出生年が、ツリーの人物の各々から抽出され得る。
[0038]図4Bを参照すると、スコア生成器208は、各家族性カテゴリ内のツリーの人物の各代表的なペアリング間の類似性スコア406を生成することができる。第1のアプローチでは、ツリーの人物D8とE5との間の最終的な類似性スコアが、類似性スコア406の各々(例えば、類似性スコア406の平均または重み付き平均)に基づいて生成される。第2のアプローチでは、代表的なペアリングにおけるツリーの人物の各々に関する特徴の第2の量に基づく集合的計算に基づいて、ツリーの人物D8とE5との間の最終的な類似性スコアが生成される。ツリーの人物D8とE5との間の最終的な類似性スコアを生成した後、最終的な類似性スコアに基づいて、第1のツリーの人物と第2のツリーの人物とが同じ個人に対応するかどうかが判定される。
[0039]図5は、本開示の実施形態による、特徴抽出器206およびスコア生成器208の例示的な動作を示す表500を図示する。ツリーの人物102aに対応するツリーの人物TPおよびツリーの人物102bに対応するツリーの人物TPについて、特徴抽出器206は、表500の第2列および第3列に示す特徴fを抽出し、特徴fをスコア生成器208に送ることができる。スコア生成器208は、表500の第5列で指定されたメトリックを使用して、第4列に示すメトリック関数s(f)を計算することができる。次に、スコア生成器208は、メトリック関数s(f)に基づいて類似性スコアを生成することができる。
[0040]図6は、本開示の実施形態による、上位特徴の相対的重要性を示す結果図600を図示する。図6に示すように、名前は非常に重要で強力な特徴であり得る。また、類似した家族関係は、エンティティマッチングの強力な指標となり得る。さらに、出生の特徴は死亡の特徴よりも強い関連性があり得る。これは、出生情報に比べて死亡情報が欠落している可能性が高いためと考えられる。
[0041]図7は、本開示の実施形態による、ツリーの人物2人が同じ個人に対応するかどうかを判定するための方法700を示す。方法700の実行は、図7に示す動作よりも多いまたは少ない動作を実行することを含み得る。例えば、いくつかの実施形態では、特定の動作が省略されてもよい。いくつかの実施形態では、方法700内の動作の順序は示されているものとは異なる場合があり、1つ以上の動作が他の動作と同時に実行される場合がある。
[0042]ブロック702で、第1のツリーの人物が第1の系統樹から取得され、第2のツリーの人物が第2の系統樹から取得される。いくつかの実施形態では、第1の系統樹および第2の系統樹の各々は、互いに関連している個人に対応する複数の相互接続されたツリーの人物を含む。一例では、第1の系統樹はツリーの人物3人、すなわち、第1のツリーの人物、第1のツリーの人物の父親、および第1のツリーの人物の母親を含むことができる。別の例では、第1の系統樹には、第1のツリーの人物の5人の子供と、第1のツリーの人物の20人の孫も含まれる。場合によっては、第1のツリーの人物および第2のツリーの人物を取得することは、第1のツリーの人物および第2のツリーの人物をそれぞれ受信、検索、取得、獲得、確保、選択、および/または識別することを含み得る。
[0043]ブロック704で、複数の家族性カテゴリが識別される。いくつかの実施形態では、各家族性カテゴリは、第1の系統樹および第2の系統樹の各々からの少なくとも1人のツリーの人物を含む。一例では、5つの家族性カテゴリが識別されてもよく、各々が第1の系統樹からのツリーの人物および第2の系統樹からのツリーの人物を有する。したがって、いくつかの実施形態では、各家族性カテゴリは、少なくとも2人のツリーの人物(各系統樹からの少なくとも1人)を含むことがある。いくつかの実施形態では、複数の家族性カテゴリは、自己、母親、父親、配偶者、および子供のうちの1つ以上を含む。
[0044]ブロック706〜712は、複数の家族性カテゴリの各家族性カテゴリに対して実行されてもよい。いくつかの実施形態では、ブロック706〜712を通した単一の反復中に、ブロック706〜712を複数の家族性カテゴリに対して実行することができる。
[0045]ブロック706で、特徴の第1の量が、家族性カテゴリ内のツリーの人物の各々について抽出される。いくつかの実施形態では、特徴の第1の量は、名、姓、および出生年を含み得る。
[0046]ブロック708で、特徴の第1の量に基づいて、異なる系統樹からのツリーの人物の可能なペアリングの各々について第1の類似性スコアが生成される。いくつかの実施形態では、可能なペアリングの総数は、第1の系統樹からのツリーの人物の数に、第2の系統樹からのツリーの人物の数を掛けた数に等しい。いくつかの実施形態では、第1の類似性スコアを生成することは、第1の系統樹からのツリーの人物の各特徴を、第2の系統樹からのツリーの人物の対応する特徴と比較することを含む。第1の類似性スコアは、平均、合計、または比較に基づく何らかの他の計算であり得る。
[0047]ブロック710で、最大の第1の類似性スコアに基づいて、代表的なペアリングが識別される。いくつかの実施形態では、ブロック710の前に、最大の第1の類似性スコアが識別される追加の動作がある。識別された最大の第1の類似性スコアに対応するツリーの人物のペアリングは、代表的なペアリングになるようにラベル付け、指定、および/または割り当てられる。いくつかの実施形態では、ブロック710は、2つ以上の代表的なペアリングを識別すること(例えば、2つ、3つ、または4つの代表的なペアリングを識別すること)を含み得る。例えば、子供の家族性カテゴリを含むいくつかの実施形態では、上位3つの最大の第1の類似性スコアに対応するツリーの人物の3つのペアリングが、代表的なペアリングになるようにラベル付け、指定、および/または割り当てられる。
[0048]ブロック712で、代表的なペアリングのツリーの人物の各々について、特徴の第2の量が抽出される。いくつかの実施形態では、特徴の第2の量は、名、名の類似性、名の一意性、姓、姓の類似性、姓の一意性、出生月、出生日、出生年、死亡月、死亡日、死亡年、結婚月、結婚日および結婚年、出生市、出生郡、出生州、出生国、死亡市、死亡郡、死亡州、死亡国、結婚市、結婚郡、結婚州、結婚国、性別、居住市、居住郡、居住州、居住国、居住月、居住日、居住年の1つ以上を含む。いくつかの実施形態では、特徴の第2の量は、特徴の第1の量よりも多い。
[0049]ブロック714で、各家族性カテゴリの代表的なペアリングにおけるツリーの人物の各々に関する特徴の第2の量に基づいて、第2の類似性スコアが生成される。いくつかの実施形態では、第2の類似性スコアを生成することは、第1の系統樹からのツリーの人物の各特徴を、各代表的なペアリングについて第2の系統樹からのツリーの人物の対応する特徴と比較することを含む。第2の類似性スコアは、平均、合計、または比較に基づく何らかの他の計算であり得る。
[0050]ブロック716で、第1のツリーの人物および第2のツリーの人物は、第2の類似性スコアに基づいて同じ個人に対応すると判定される。判定は、第2の類似性スコアを所定の閾値(例えば0.95)と比較することを含み得る。
[0051]図8は、本開示のいくつかの実施形態による、簡略化されたコンピュータシステム800を示す。図8に例示するようなコンピュータシステム800は、本明細書で説明するような携帯型電子デバイス、携帯電話、または他のデバイスなどのデバイスに組み込まれ得る。図8は、様々な実施形態によって提供される方法のステップの一部またはすべてを実行することができるコンピュータシステム800の一実施形態の概略図を提供する。図8は、様々なコンポーネントの一般化された図を提供することのみを意図しており、それらのいずれかまたはすべてが適宜利用され得ることに留意されたい。したがって、図8は、個々のシステム要素が比較的分離された、または比較的統合された方法でどのようにして実装され得るかを広く例示している。
[0052]コンピュータシステム800は、バス805を介して電気的に結合することができるか、そうでなければ、必要に応じて通信することができるハードウェア要素を含むように示されている。ハードウェア要素は、限定ではないが1つ以上の汎用プロセッサおよび/または1つ以上の専用プロセッサ(デジタル信号処理チップ、グラフィックス加速プロセッサなど)を含む1つ以上のプロセッサ810と、1つ以上の入力デバイス815(限定ではないがマウス、キーボード、カメラなどを含むことができる)と、1つ以上の出力デバイス820(限定ではないが表示デバイス、プリンタなどを含むことができる)とを含み得るがこれらに限定されない。
[0053]コンピュータシステム800はさらに、1つ以上の非一時的ストレージデバイス825を含むおよび/またはそれと通信することができ、非一時的ストレージデバイス825は、限定ではないがローカルおよび/またはネットワークアクセス可能なストレージを含むことができ、および/または限定ではないがディスクドライブ、ドライブアレイ、光ストレージデバイス、ソリッドステートストレージデバイス、例えばランダムアクセスメモリ(「RAM」)および/または読み取り専用メモリ(「ROM」)(プログラム可能、フラッシュアップデート可能などであり得る)を含むことができる。そのようなストレージデバイスは、様々なファイルシステム、データベース構造などを含むがこれらに限定されない任意の適切なデータストアを実装するように構成され得る。
[0054]コンピュータシステム800は通信サブシステム830も含み得、通信サブシステム830は、モデム、ネットワークカード(無線または有線)、赤外線通信デバイス、無線通信デバイス、および/またはチップセット(例えば、ブルートゥース(登録商標)デバイス、802.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信設備など)を含むことができるがこれらに限定されない。通信サブシステム830は、以下で説明するネットワーク(一例を挙げると、他のコンピュータシステム、テレビ、および/または本明細書で説明する他の任意のデバイス)などのネットワークとデータを交換することを可能にする1つ以上の入力および/または出力通信インターフェイスを含み得る。所望の機能および/または他の実装の事柄に応じて、携帯型電子デバイスまたは同様のデバイスが通信サブシステム830を介して画像および/または他の情報を通信する場合がある。他の実施形態では、携帯型電子デバイス(例えば、第1の電子デバイス)がコンピュータシステム800に組み込まれることがある(例えば、入力デバイス815としての電子デバイス)。いくつかの実施形態では、コンピュータシステム800は、上記で説明したように、RAMまたはROMデバイスを含むことができるワーキングメモリ835をさらに備える。
[0055]コンピュータシステム800はまた、現在ワーキングメモリ835内にあるものとして示されているソフトウェア要素を含むことができ、これはオペレーティングシステム840、デバイスドライバ、実行可能ライブラリ、および/または1つ以上のアプリケーションプログラム845などの他のコードを含み、これらは本明細書に記載されるように様々な実施形態によって提供されるコンピュータプログラムを含み得、ならびに/あるいは他の実施形態によって提供される方法を実装し、および/またはシステムを構成するように設計され得る。単なる例として、図8に関連して説明したものなど、上記方法に関して説明した1つ以上の手順は、コンピュータおよび/またはコンピュータ内のプロセッサによって実行可能なコードおよび/または命令として実装され得、一態様では、そのようなコードおよび/または命令を使用して、汎用コンピュータまたは他のデバイスを構成および/または適合させて、説明した方法に従って1つ以上の動作を実行することができる。
[0056]これらの命令および/またはコードのセットは、上述のストレージデバイス825などの非一時的コンピュータ可読記憶媒体に格納され得る。場合によっては、記憶媒体は、コンピュータシステム800などのコンピュータシステム内に組み込まれることがある。他の実施形態では、記憶媒体は、コンピュータシステム、例えばコンパクトディスクなどのリムーバブル媒体から分離され、および/またはインストールパッケージで提供されることがあり、記憶媒体を使用して、格納されている命令/コードを汎用コンピュータにプログラム、構成、および/または適合させることができる。これらの命令は、コンピュータシステム800によって実行可能な実行可能コードの形式をとってもよく、および/またはソースおよび/またはインストール可能なコードの形式をとってもよく、それが次にコンパイルおよび/またはコンピュータシステム800へのインストール時に(例えば、一般的に利用可能な様々なコンパイラ、インストールプログラム、圧縮/解凍ユーティリティなどを使用)実行可能コードの形式をとる。
[0057]当業者には、特定の要件に従って実質的なバリエーションが行われ得ることが明らかであろう。例えば、カスタマイズされたハードウェアが使用されることもあり、および/または特定の要素が、ハードウェア、アプレットなどのポータブルソフトウェアを含むソフトウェア、またはその両方で実装されることがある。さらに、ネットワーク入力/出力デバイスなどの他のコンピューティングデバイスへの接続が使用されることがある。
[0058]上記のように、一態様では、いくつかの実施形態は、コンピュータシステム800などのコンピュータシステムを使用して、技術の様々な実施形態による方法を実行することができる。一組の実施形態によれば、そのような方法の手順の一部またはすべては、オペレーティングシステム840および/または他のコード(ワーキングメモリ835に含まれるアプリケーションプログラム845など)に組み込まれ得る1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ810に応答して、コンピュータシステム800によって実行される。そのような命令は、1つ以上のストレージデバイス825などの別のコンピュータ可読媒体からワーキングメモリ835に読み込まれてもよい。単なる例として、ワーキングメモリ835に含まれる命令のシーケンスの実行は、プロセッサ810に、本明細書で説明される方法の1つ以上の手順を実行させる可能性がある。追加的または代替的に、本明細書で説明する方法の一部は、専用ハードウェアを介して実行されてもよい。
[0059]本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械を特定の方法で動作させるデータを提供することに関与する任意の媒体を指す。コンピュータシステム800を使用して実装される実施形態では、様々なコンピュータ可読媒体が、実行のためにプロセッサ810に命令/コードを提供することに関与し、ならびに/あるいはそのような命令/コードを格納および/または伝達するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および/または有形の記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形式をとることがある。不揮発性媒体には、例えば、ストレージデバイス825などの光学および/または磁気ディスクが含まれる。揮発性媒体は、ワーキングメモリ835などの動的メモリを含むが、これに限定されない。
[0060]物理的および/または有形のコンピュータ可読媒体の一般的な形式には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD−ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを備えた任意の他の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および/またはコードを読み取ることができるその他の媒体が含まれる。
[0061]様々な形式のコンピュータ可読媒体が、実行のために1つ以上の命令の1つ以上のシーケンスをプロセッサ810に伝達することに関与し得る。単なる例として、命令は最初にリモートコンピュータの磁気ディスクおよび/または光ディスク上で伝達されてもよい。リモートコンピュータは、命令をその動的メモリにロードし、コンピュータシステム800によって受信および/または実行される伝送媒体を介して信号として命令を送信してもよい。
[0062]通信サブシステム830および/またはそのコンポーネントが一般に信号を受信し、次にバス805が信号および/または信号によって運ばれるデータ、命令などをワーキングメモリ835に伝達してもよく、ワーキングメモリ835からプロセッサ810が命令を検索し、実行する。ワーキングメモリ835によって受信された命令は、オプションで、プロセッサ810によって実行される前または後のいずれかに、非一時的ストレージデバイス825に格納されてもよい。
[0063]上記方法、システム、およびデバイスは例である。様々な構成では、必要に応じて様々な手順やコンポーネントが省略、置換、または追加され得る。例えば、代替の構成では、方法は、記載された順序とは異なる順序で実行されてもよく、および/または様々な段階が追加、省略、および/または組み合わされてもよい。また、特定の構成に関して説明した特徴を様々な他の構成に組み合わせてもよい。構成の異なる態様および要素を同様の方法で組み合わせてもよい。また、技術は進化しているため、要素の多くは例であり、本開示または請求の範囲を限定するものではない。
[0064]実装を含む例示的な構成の完全な理解を提供するために、説明では特定の詳細を示している。しかし、これらの特定の詳細なしで構成を実行してもよい。例えば、よく知られた回路、プロセス、アルゴリズム、構造、および技術は、構成を不明瞭にしないようにするために、不必要な詳細なしに示されている。この説明は構成例のみを提供し、特許請求の範囲、適用性、または構成を限定するものではない。むしろ、構成の前述の説明は、説明した技術を実装することを可能にする説明を当業者に提供するであろう。本開示の趣旨または範囲から逸脱することなく、要素の機能および配置に様々な変更を加えることができる。
[0065]また、構成は、概略的なフローチャートまたはブロック図として図示されるプロセスとして説明されている場合がある。各々が動作を順次プロセスとして説明している場合があるが、動作の多くは並列または同時に実行できる。また、動作の順序を入れ替えてもよい。プロセスには、図に含まれていない追加のステップがあり得る。さらに、方法の例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体などの非一時的コンピュータ可読媒体に格納され得る。プロセッサは、説明されているタスクを実行し得る。
[0066]いくつかの例示的な構成を説明したが、本開示の趣旨から逸脱することなく、様々な修正、代替構造、および同等物を使用することができる。例えば、上記要素は、より大きなシステムのコンポーネントであってもよく、他のルールが技術の適用に優先するか、そうでなければ技術の適用を変更してもよい。また、上記要素を検討する前、検討中、または検討した後に、いくつかのステップが行われ得る。したがって、上記説明は、特許請求の範囲を拘束するものではない。
[0067]本明細書および添付の特許請求の範囲で使用される場合、単数形「a」、「an」および「the」は、文脈からそうでないことが明確に示されない限り、複数の言及を含む。したがって、例えば、「ユーザ」への言及には複数のそのようなユーザが含まれ、「プロセッサ」への言及には1つ以上のプロセッサおよび当業者に知られているその同等物などへの言及が含まれる。
[0068]また、本明細書および以下の特許請求の範囲で使用される場合、「含む(comprise)」、「含む(comprising)」、「含む(contain)」、「含む(containing)」、「含む(include)」、「含む(including)」、および「含む(includes)」という言葉は、記載されている特徴、整数、コンポーネント、またはステップの存在を指定することを目的としているが、1つ以上の他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を排除しない。

Claims (20)

  1. ツリーデータベースから、第1の系統樹からの第1のツリーの人物と第2の系統樹からの第2のツリーの人物とを取得することであって、前記第1の系統樹および前記第2の系統樹の各々が、互いに関連する個人に対応する複数の相互接続されたツリーの人物を含むことと、
    複数の家族性カテゴリを特定することであって、前記家族性カテゴリの各々が、前記第1の系統樹および前記第2の系統樹の各々からの少なくとも1人のツリーの人物を含むことと、
    前記複数の家族性カテゴリの各家族性カテゴリについて、
    前記家族性カテゴリ内の前記ツリーの人物の各々について特徴の第1の量を抽出することと、
    前記特徴の第1の量に基づいて、異なる系統樹からのツリーの人物の可能なペアリングの各々について第1の類似性スコアを生成することと、
    最大の第1の類似性スコアに基づいて、代表的なペアリングを識別することと、
    前記代表的なペアリングにおける前記ツリーの人物の各々について、特徴の第2の量を抽出することと、
    前記各家族性カテゴリの前記代表的なペアリングにおける前記ツリーの人物の各々について、前記特徴の第2の量に基づいて、第2の類似性スコアを生成することと、
    前記第2の類似性スコアに基づいて、前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応すると判定することと
    を含む方法。
  2. 前記複数の家族性カテゴリが、自己、母親、父親、配偶者、および子供のうちの1つ以上を含む、請求項1に記載の方法。
  3. 前記特徴の第1の量が、前記特徴の第2の量よりも少ない、請求項1に記載の方法。
  4. 前記特徴の第2の量が、名、名の類似性、名の一意性、姓、姓の類似性、姓の一意性、出生月、出生日、出生年、死亡月、死亡日、死亡年、結婚月、結婚日および結婚年、出生市、出生郡、出生州、出生国、死亡市、死亡郡、死亡州、死亡国、結婚市、結婚郡、結婚州、結婚国、性別、居住市、居住郡、居住州、居住国、居住月、居住日、居住年のうちの1つ以上を含む、請求項1に記載の方法。
  5. クラスタデータベースから、少なくとも1つの前記家族性カテゴリに対する追加のツリーの人物に対応する情報を取得することと、
    前記ツリーデータベースから、前記追加のツリーの人物を取得することと、
    前記追加のツリーの人物を前記少なくとも1つの前記家族性カテゴリに含めることと
    をさらに含む、請求項1に記載の方法。
  6. 前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応することを反映するように前記クラスタデータベースを修正すること
    をさらに含む、請求項5に記載の方法。
  7. 前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応することを反映するように前記クラスタデータベースを修正することは、前記第1のツリーの人物に対応する第1のノードが前記第2のツリーの人物に対応する第2のノードに直接接続するように、前記クラスタデータベース内の1つ以上のノード接続を修正することを含む、請求項6に記載の方法。
  8. ツリーデータベースから、第1の系統樹からの第1のツリーの人物と第2の系統樹からの第2のツリーの人物とを取得することであって、前記第1の系統樹および前記第2の系統樹の各々が、互いに関連する個人に対応する複数の相互接続されたツリーの人物を含むことと、
    複数の家族性カテゴリを特定することであって、前記家族性カテゴリの各々が、前記第1の系統樹および前記第2の系統樹の各々からの少なくとも1人のツリーの人物を含むことと、
    前記複数の家族性カテゴリの各家族性カテゴリについて、
    前記家族性カテゴリ内の前記ツリーの人物の各々について特徴の第1の量を抽出することと、
    前記特徴の第1の量に基づいて、異なる系統樹からのツリーの人物の可能なペアリングの各々について第1の類似性スコアを生成することと、
    最大の第1の類似性スコアに基づいて、代表的なペアリングを識別することと、
    前記代表的なペアリングにおける前記ツリーの人物の各々について、特徴の第2の量を抽出することと、
    前記各家族性カテゴリの代表的なペアリングにおける前記ツリーの人物の各々について、前記特徴の第2の量に基づいて、第2の類似性スコアを生成することと、
    前記第2の類似性スコアに基づいて、前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応すると判定することと
    を含む動作を、プロセッサによって実行されたときに前記プロセッサに実行させる命令を含む非一時的コンピュータ可読記憶媒体。
  9. 前記複数の家族性カテゴリが、自己、母親、父親、配偶者、および子供のうちの1つ以上を含む、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  10. 前記特徴の第1の量が、前記特徴の第2の量よりも少ない、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  11. 前記特徴の第2の量が、名、名の類似性、名の一意性、姓、姓の類似性、姓の一意性、出生月、出生日、出生年、死亡月、死亡日、死亡年、結婚月、結婚日および結婚年、出生市、出生郡、出生州、出生国、死亡市、死亡郡、死亡州、死亡国、結婚市、結婚郡、結婚州、結婚国、性別、居住市、居住郡、居住州、居住国、居住月、居住日、居住年のうちの1つ以上を含む、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  12. 前記動作が、
    クラスタデータベースから、少なくとも1つの前記家族性カテゴリに対する追加のツリーの人物に対応する情報を取得することと、
    前記ツリーデータベースから、前記追加のツリーの人物を取得することと、
    前記追加のツリーの人物を前記少なくとも1つの前記家族性カテゴリに含めることと
    をさらに含む、請求項8に記載の非一時的コンピュータ可読記憶媒体。
  13. 前記動作が、
    前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応することを反映するように前記クラスタデータベースを修正すること
    をさらに含む、請求項12に記載の非一時的コンピュータ可読記憶媒体。
  14. 前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応することを反映するように前記クラスタデータベースを修正することは、前記第1のツリーの人物に対応する第1のノードが前記第2のツリーの人物に対応する第2のノードに直接接続するように、前記クラスタデータベース内の1つ以上のノード接続を修正することを含む、請求項13に記載の非一時的コンピュータ可読記憶媒体。
  15. 1つ以上のプロセッサと、
    ツリーデータベースから、第1の系統樹からの第1のツリーの人物と第2の系統樹からの第2のツリーの人物とを取得することであって、前記第1の系統樹および前記第2の系統樹の各々が、互いに関連する個人に対応する複数の相互接続されたツリーの人物を含むことと、
    複数の家族性カテゴリを特定することであって、前記家族性カテゴリの各々が、前記第1の系統樹および前記第2の系統樹の各々からの少なくとも1人のツリーの人物を含むことと、
    前記複数の家族性カテゴリの各家族性カテゴリについて、
    前記家族性カテゴリ内の前記ツリーの人物の各々について特徴の第1の量を抽出することと、
    前記特徴の第1の量に基づいて、異なる系統樹からのツリーの人物の可能なペアリングの各々について第1の類似性スコアを生成することと、
    最大の第1の類似性スコアに基づいて、代表的なペアリングを識別することと、
    前記代表的なペアリングにおける前記ツリーの人物の各々について、特徴の第2の量を抽出することと、
    前記各家族性カテゴリの前記代表的なペアリングにおける前記ツリーの人物の各々について、前記特徴の第2の量に基づいて、第2の類似性スコアを生成することと、
    前記第2の類似性スコアに基づいて、前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応すると判定することと
    を含む動作を、前記1つ以上のプロセッサによって実行されたときに前記1つ以上のプロセッサに実行させる命令を含む1つ以上のコンピュータ可読記憶媒体と
    を含むシステム。
  16. 前記複数の家族性カテゴリが、自己、母親、父親、配偶者、および子供のうちの1つ以上を含む、請求項15に記載のシステム。
  17. 前記特徴の第1の量が、前記特徴の第2の量よりも少ない、請求項15に記載のシステム。
  18. 前記特徴の第2の量が、名、名の類似性、名の一意性、姓、姓の類似性、姓の一意性、出生月、出生日、出生年、死亡月、死亡日、死亡年、結婚月、結婚日および結婚年、出生市、出生郡、出生州、出生国、死亡市、死亡郡、死亡州、死亡国、結婚市、結婚郡、結婚州、結婚国、性別、居住市、居住郡、居住州、居住国、居住月、居住日、居住年のうちの1つ以上を含む、請求項15に記載のシステム。
  19. 前記動作が、
    クラスタデータベースから、少なくとも1つの前記家族性カテゴリに対する追加のツリーの人物に対応する情報を取得することと、
    前記ツリーデータベースから、前記追加のツリーの人物を取得することと、
    前記追加のツリーの人物を前記少なくとも1つの前記家族性カテゴリに含めることと
    をさらに含む、請求項15に記載のシステム。
  20. 前記動作が、
    前記第1のツリーの人物および前記第2のツリーの人物が同じ個人に対応することを反映するように前記クラスタデータベースを修正すること
    をさらに含む、請求項19に記載のシステム。
JP2020543471A 2017-10-24 2018-10-19 系図エンティティ解決システムおよび方法 Pending JP2021500692A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762576462P 2017-10-24 2017-10-24
US62/576,462 2017-10-24
PCT/US2018/056678 WO2019083834A1 (en) 2017-10-24 2018-10-19 SYSTEM AND METHOD FOR RESOLVING GENEALOGICAL ENTITIES

Publications (1)

Publication Number Publication Date
JP2021500692A true JP2021500692A (ja) 2021-01-07

Family

ID=66246663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543471A Pending JP2021500692A (ja) 2017-10-24 2018-10-19 系図エンティティ解決システムおよび方法

Country Status (9)

Country Link
US (2) US11321361B2 (ja)
EP (1) EP3701388A4 (ja)
JP (1) JP2021500692A (ja)
AU (1) AU2018354105B2 (ja)
BR (1) BR112020007809A2 (ja)
CA (1) CA3073217A1 (ja)
MX (1) MX2020002093A (ja)
NZ (1) NZ761768A (ja)
WO (1) WO2019083834A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019083834A1 (en) * 2017-10-24 2019-05-02 Ancestry.Com Operations Inc. SYSTEM AND METHOD FOR RESOLVING GENEALOGICAL ENTITIES
US20200394188A1 (en) * 2019-06-17 2020-12-17 Ancestry.Com Operations Inc. Genealogical tree tracing and story generation
US11544477B2 (en) 2019-08-29 2023-01-03 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US11556845B2 (en) * 2019-08-29 2023-01-17 International Business Machines Corporation System for identifying duplicate parties using entity resolution
US11625623B2 (en) * 2019-09-08 2023-04-11 Gurunath Santhosh Neelamegam Vetharaman System and method for generating a matrimony recommendation using a machine learning model
US20230252052A1 (en) 2022-02-10 2023-08-10 Ancestry.Com Operations Inc. Determining relationships of historical data records
WO2023175516A1 (en) 2022-03-15 2023-09-21 Ancestry.Com Operations Inc. Machine-learning based automated document integration into genealogical trees

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154566A1 (en) 2006-10-02 2008-06-26 Sorenson Molecular Genealogy Foundation Method and system for displaying genetic and genealogical data
US7657540B1 (en) * 2003-02-04 2010-02-02 Seisint, Inc. Method and system for linking and delinking data records
WO2005119502A2 (en) * 2004-05-28 2005-12-15 John Golze Systems, methods, and graphical tools for representing connectedness of individuals
US8645417B2 (en) 2008-06-18 2014-02-04 Microsoft Corporation Name search using a ranking function
CA2765001A1 (en) * 2009-06-10 2010-12-16 Ancestralhunt Partners, Llc System and method for the collaborative collection, assignment, visualization, analysis and modification of probable genealogical relationships based on geo-spatial and temporal proximity
US20110099193A1 (en) * 2009-10-26 2011-04-28 Ancestry.Com Operations Inc. Automatic pedigree corrections
US20140108527A1 (en) * 2012-10-17 2014-04-17 Fabric Media, Inc. Social genetics network for providing personal and business services
US20150039636A1 (en) * 2013-03-08 2015-02-05 Brigham Young University Systems and methods for intelligently linking and formatting genealogical structures
AU2014218418A1 (en) * 2013-03-15 2015-10-01 Ancestry.Com Dna, Llc Family networks
US10002292B2 (en) * 2015-09-30 2018-06-19 Microsoft Technology Licensing, Llc Organizational logo enrichment
US11113609B2 (en) * 2016-04-07 2021-09-07 Ancestry.Com Operations Inc. Machine-learning system and method for identifying same person in genealogical databases
WO2019083834A1 (en) * 2017-10-24 2019-05-02 Ancestry.Com Operations Inc. SYSTEM AND METHOD FOR RESOLVING GENEALOGICAL ENTITIES

Also Published As

Publication number Publication date
US20220229855A1 (en) 2022-07-21
MX2020002093A (es) 2020-12-03
AU2018354105B2 (en) 2022-09-29
CA3073217A1 (en) 2019-05-02
US11321361B2 (en) 2022-05-03
EP3701388A4 (en) 2021-03-17
WO2019083834A1 (en) 2019-05-02
BR112020007809A2 (pt) 2020-10-20
US20200257707A1 (en) 2020-08-13
AU2018354105A1 (en) 2020-03-05
EP3701388A1 (en) 2020-09-02
NZ761768A (en) 2020-02-28

Similar Documents

Publication Publication Date Title
JP2021500692A (ja) 系図エンティティ解決システムおよび方法
US20210365803A1 (en) Machine-learning system and method for identifying same person in genealogical databases
US20220044809A1 (en) Systems and methods for using deep learning to generate acuity scores for critically ill or injured patients
WO2006047532A1 (en) Probabilistic model for record linkage
JP6956107B2 (ja) 明確な照合情報を持たない識別不能のヘルスケアデータベースの病院マッチング
CN107680661B (zh) 用于估计医疗资源需求的系统和方法
EP3040900B1 (en) Data securing device, data securing program, and data securing method
JP6877374B2 (ja) 画像に対応するタグセットを表すベクトルを出力するモデルを訓練する方法
JP7106743B2 (ja) グラフ計算技術に基づく請求不正防止方法、装置、機器及び記憶媒体
JP6908977B2 (ja) 医療情報処理システム、医療情報処理装置及び医療情報処理方法
CN111785383B (zh) 数据处理方法及相关设备
US20240220547A1 (en) System and method for genealogical entity resolution
CN112655047A (zh) 对医学记录分类的方法
US20220367051A1 (en) Methods and systems for estimating causal effects from knowledge graphs
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN115620915A (zh) 基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备
JP6810780B2 (ja) Cnn基盤イメージ検索方法および装置
CN116882408B (zh) 变压器图模型的构建方法、装置、计算机设备和存储介质
WO2022185442A1 (ja) 情報解析装置、情報解析方法および情報解析用プログラム
Artamonov Predictions based on the rectification and processing of noisy data
CN116796840A (zh) 医疗实体信息抽取方法、装置、计算机设备及存储介质
CN118299064A (zh) 基于罕见病的图模型训练方法、应用方法及相关设备
JP2024092727A (ja) 画像生成検索装置、画像生成検索システム及び画像生成検索方法
JP2022097034A (ja) 審査支援システム、及び審査支援方法