JP2020533679A

JP2020533679A - ヒト集団における関連性を予測するシステム及び方法

Info

Publication number: JP2020533679A
Application number: JP2020513751A
Authority: JP
Inventors: ステープルズ、ジェフリー; ハベガー、ルーカス; リード、ジェフリー
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2017-09-07
Filing date: 2018-09-07
Publication date: 2020-11-19
Also published as: JP2020532989A; CN117746978A; WO2019051233A1; MX2020002664A; CN111279420B; KR20240038142A; SG11202001747XA; KR102648634B1; KR20200050992A; US20190205502A1; JP7277438B2; MX2020002665A; JP2023103325A; CN111279420A; SG11202001715YA; AU2023282218A1; US20220336045A1; US11605444B2; KR20200065000A; CN111247599A

Abstract

ヒト集団における関連性の予測モデルを作成する方法、コンピュータによって実装される方法、及びシステムが提供される。方法、コンピュータによって実装される方法、及びシステムによって作成される予測モデルを用いて、研究者が遺伝コホートにおいて期待する関連性の量を推定するための多様な調査対象集団及びサンプリング手法をモデリングすることができる。

Description

関連出願の相互参照
本出願は、２０１７年９月７日に出願された米国仮特許出願第６２／５５５，５９７号の利益を主張し、この出願の内容は、その全体が参照により本明細書に援用される。さらに、２０１８年９月７日に出願された「ゲノムデータ分析において関連性を活用するシステム及び方法」と題された同時係属出願もまた、その全体が参照によって援用される。

本開示は、一般に、ヒト集団における関連性の予測モデルに関する。より詳細には、本開示は、ヒト集団における関連性モデルを作成しかつ遺伝学的調査において集団から個人のサブセットを選択するためのモデルを特定するシステム及び方法に関する。

人間の病状は、環境因子だけでなく遺伝因子によっても引き起こされかつ影響を受ける。したがって、ヒト集団における遺伝的変異の理解は、人間の疾病の病因及び進行を理解するにおいて、ならびに、これら疾病の治療のための新規の薬剤標的の同定において重要である。

ヘルスケア集団の遺伝学的調査はこの点に関して、広範なヘルスケアデータが利用可能なために特に有用であり、遺伝的変異が人間の病状にどのように寄与するかの研究を簡略化する。従来、そうした調査は、疾病の遺伝子座をマッピングするためのゲノムワイド遺伝的連鎖分析に基づくのが一般的であった。遺伝子座は特定されると、分子レベルで詳細がさらに分析され得た。ここ数年において、ハイスループットＤＮＡシーケンシング技術の普及により、何十万人のヒトのゲノムの並列シーケンシングが可能となった。理論上、ハイスループットＤＮＡシーケンシング技術から取得されたデータは、人間の疾病の遺伝的基礎を解明するのに用いることができる有力な情報源を表す。ＤｉｓｃｏｖＥＨＲ（Ｄｅｗｅｙら（２０１６）Ｓｃｉｅｎｃｅ、３５４、ａａｆ６８１４）、ＵＫＢｉｏｂａｎｋ／米国政府のＡｌｌｏｆＵｓ（ＰｒｅｃｉｓｉｏｎＭｅｄｉｃｉｎｅＩｎｉｔｉａｔｉｖｅの一部）（Ｃｏｌｌｉｎｓ及びＶａｒｍｕｓ（２０１５）Ｎ．Ｅｎｇｌ．Ｊ．Ｍｅｄ．３７２、７９３−７９５）、ＴＯＰＭｅｄ、ＥｘＡＣ／ｇｎｏｍＡＤ（Ｌｅｋら（２０１６）Ｎａｔｕｒｅ５３６、２８５−２９１）；及びその他多数を含む、係る大規模なヒトシーケンシングプロジェクトの数及び規模は、急速に発展している。これらの調査のうちの多くは、付随する表現型に富む電子カルテ（ＥＨＲ）を有する統合されたヘルスケア集団から、ＥＨＲとゲノム配列データを組み合わせて橋渡し的発見及びプレシジョンメディスンを促進する目的で、サンプルを収集している（Ｄｅｗｅｙら（２０１６）Ｓｃｉｅｎｃｅ、３５４、ａａｆ６８１４）。

従来、大規模な遺伝的調査の高いコスト及び個人調査員らの限られるリソースにより、様々な地理的エリアからの個人の表面的な確認を示す調査集団が生み出されてきた。検定力を向上させるために、研究者らは、多数の異なる収集センターからサンプルを組み合わせて、より大きなコホートにし、これらコホートは、しばしば、何十人から何十万人の個人で構成される、より大きな共同体に統合される。サンプリングされる個人の総数は多いことがよくあるが、これら調査は、通常、任意の所与の地理的エリアにおいて個人らのうち相対的に小さな一部のみをサンプリングする。そうした従来の集団ベースの調査は一般に、複数の地理的エリアからサンプルを収集するものだったので、それらは、最も一般的には、最も広い関連性の「クラス」、すなわち集団構造を示す。遺伝学的調査における集団構造（「サブ構造」または「層別」と称されることが多い）が生じるのは、異なる先祖グループのアレル頻度すなわち「遺伝的デーム」が、デーム間におけるよりも類似しているときである。遺伝的デームは、より最近の遺伝的隔離、浮動、及び流動パターンの結果として発生する。遺伝的デーム内における個人の確認は、遠い潜在的関連性（Ｈｅｎｎら（２０１２）ＰＬｏＳＯＮＥ７、ｅ３２４２６７；Ｈａｎら（２０１７）Ｎａｔ．Ｃｏｍｍｕｎ．８、１４２３８）、本明細書で第三度〜第九度近親者として定義される、第２の関連性の「クラス」を生成し得る。これらの遠い近親者は、ＥＨＲから特定可能である可能性は低いが、通常彼らのゲノムの１つまたは複数の大きいセグメントは、それらの関連度ならびにアレルの組み換え及び分離に応じて同祖的であるので、重要である（Ｈｕｆｆら（２０１１）ＧｅｎｏｍｅＲｅｓ．２１、７６８−７７４）。遠い潜在的関連性は、通常、大きな集団の小さなサンプリングから構成される調査コホートにおいて制限されるが、潜在的関連性のレベルは、有効な集団サイズが減少しサンプルサイズが増加するにつれて、実質的に増大する。最終的に、家族を収集するように設計されない限り、典型的な集団に基づく調査は、通常、極めて小さな家族構造、すなわち、第一度近親者及び第二度近親者からなる、第３の関連性の「クラス」を有する（ＳｕｄｌｏｗらＰＬｏＳＭｅｄ．１２、ｅ１００１７７９；Ｈａｎら（２０１７）Ｎａｔ．Ｃｏｍｍｕｎ．８、１４２３８；Ｆｕｃｈｓｂｅｒｇｅｒら（２０１６）Ｎａｔｕｒｅ５３６、４１−４７；Ｌｏｃｋｅら（２０１５）Ｎａｔｕｒｅ５１、１９７−２０６；Ｓｕｒｅｎｄｒａｎら（２０１６）Ｎａｔ．Ｇｅｎｅｔ４８、１１５１−１１６１）。

コホートにおける家族構造の増加は、下流分析の選択及び実行に対して重要な意義を有し得、熟慮のもと検討されなければならない。任意の集団を分析するための統計ツールを選択するために、集団における関連性の量に関する知識は、重要な役割を果たす（Ｓａｎｔｏｒｉｃｏら（２０１４）Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３８（Ｓｕｐｐｌ１）、Ｓ９２−Ｓ９６；Ｈｕら（２０１４）Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．３２、６６３−６６９；Ｐｒｉｃｅら（２０１０）Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．１１、４５９−４６３；Ｋａｎｇら（２０１０）Ｎａｔ．Ｇｅｎｅｔ．４２、３４８−３５４；Ｓｕｎ及びＤｉｍｉｔｒｏｍａｎｏｌａｋｉｓ（２０１２）ＭｅｔｈｏｄｓＭｏｌ．Ｂｉｏｌ８５０、４７−５７；Ｄｅｖｌｉｎ及びＲｏｅｄｅｒ（１９９９）Ｂｉｏｍｅｔｒｉｃｓ５５、９９７−１００４；ならびにＶｏｉｇｈｔ及びＰｒｉｔｃｈａｒｄ（２００５）ＰＬｏＳＧｅｎｅｔ．１、ｅ３２）。例えば、一部のツール（例えば、主成分［ＰＣ］分析）は、全ての個人が無関係であると仮定し、一部は（例えば、線形混合モデル）は、対関係の推定値を有効に処理し、一部は（例えば、連鎖及びＴＯＴ分析）は、血統構造を直接活用することができる。

家族構造の削除（すなわち、サンプルを選択的に除外して関連性を排除すること）により、サンプルのサイズ及び容量は低減されるが、一方、潜在的価値のある関係情報が破棄される。分析または視覚化に必要とされる血統構造において、ＰＲＩＭＵＳ（Ｓｔａｐｌｅｓら（２０１４）Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９５、５５３−５６４）及びＣＬＡＰＰＥＲ（Ｋｏ及びＮｅｉｌｓｅｎ（２０１７）ＰＬｏＳＧｅｎｅｔ．９５、５５３−５６４）などのツールを用いて、遺伝子データから直接的に血統構造を再建するのに、関連性を用いることができる。データセットにおける関連性及び家族構造の有用性は、関連性を有するデータセットにおける変異体の同定及び特徴付けについての見解を提供することができる。かくして、血統を再建し、複合ヘテロ接合性変異（ＣＨＭ）をフェージングし、かつデノボ変異（ＤＮＭ）を検出することによって、関連性を活用して遺伝子データをより良く分析して調査を行うために、その集団における関連性を有するデータセットが有用である。

しかしながら、今日、データセットのサイズの増大により、バイオインフォマティクスツール及びそれらの取扱いを効率的に続けるための分析パイプラインのたゆまぬ革新が必要とされる。データセットを選択する際、どれほどの関連性を目の当たりにすることを研究者らが期待するか及びその関連性が、以前の集団ベースのゲノム研究において見られた関連性のレベルに追随するかどうかは不明なことが多い。下流分析への関連性の影響を考えると、関連性のこの量が期待されるかどうか、この量がデータセットに一意なものかどうか、及びシーケンスされたコホートが拡大するにつれてこの量はどれくらい増大するかを判定する必要がある。本開示は、この需要に取り組む。

一態様において、開示の例示的な実施形態は、ヒト集団における関連性の予測モデルを提供する。予測モデルは、第１の集団データセットを確立することと；１２０年のバーンイン段階を行って第２の集団データセットを確立することと；以下のステップ：（ａ）第２の集団データセットにおける個人を、個人の年齢にしたがって年齢プールに移動させるステップ、（ｂ）いとこよりも遠い関係にある未婚男性と未婚女性の対を、第２の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによって指定された婚姻率で婚姻させるステップであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、婚姻させるステップ、（ｃ）夫婦を、指定された離婚率で離婚させるステップであって、夫婦は、第２の集団データセットからランダムで選ばれ、離婚すると未婚としてマークされる、離婚させるステップ、（ｄ）第２の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とするステップであって、両親はいとこよりも遠い関係にあるように制限され、かつ、第２の集団データセットにおける全個人は、１年当たり有する子どもは１人であるように制限される、選びかつ可能とするステップ、（ｅ）第２の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とするステップ、（ｆ）第２の集団データセットにかつ第２の集団データセットから、個人が移住することを可能とするステップであって、それによって、集団の年齢及び性別の分布ならびに第２の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、個人が移住することを可能とするステップ、及び（ｇ）第２の集団データセット内で個人が移動することを可能とするステップであって、それによって、サブ集団から個人がランダムに選択され、別のサブ集団に（存在する場合）、サブ集団間の指定された移動率が達成されるまでランダムに割り当てられる、第２の集団データセット内で個人が移動することを可能とするステップ；ステップ（ａ）〜（ｇ）の１つまたは複数を、所定の年数、１年間隔で反復的に繰り返すステップであって、ステップ（ａ）〜（ｇ）は、所定時間のヒト集団における関連性の予測モデルを表す最終集団データセットを生成するために、以前の反復によってもたらされた集団データセットに適用される、反復的に繰り返すステップ、のうち１つまたは複数のステップを実行することによって第２の集団データセットを修正することと、を含むプロセスによって作成され得る。

一部の例示的な実施形態において、第１の集団データセットを確立することは、さらに、サブ集団の数及びサイズを特定することを含む。
一部の例示的な実施形態において、第１の集団データセットを確立することは、さらに、第１の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを含む。

一部の例示的な実施形態において、妊孕性を有する最大年齢は４９歳である。
一部の例示的な実施形態において、バーンイン段階を行うことは、さらに、第２の集団データセットにおける個人の出生と死の数を等しくかつ個人の純移住率をゼロに保つことを含む。

一部の例示的な実施形態において、バーンイン段階を行うことは、さらに、第２の集団データセットにおける個人を、個人が妊孕性を有する最小年齢を超える年齢になると、若年プールから交配プールに移動させることと；個人を、個人が妊孕性を有する最大年齢を超える年齢になると、交配プールから老年プールに移動させることと；個人が移住のため離れるまたは死去した場合、全ての年齢プールから個人を削除することとを含む。

一部の例示的な実施形態において、妊孕性を有する最小年齢は１５歳であり、妊孕性を有する最大年齢は４９歳である。
別の態様において、開示の例示的な実施形態は、個人の確認がランダムに行われる、予測モデルを用いる方法を提供する。

別の態様において、開示は、個人の確認が集落化されて行われる、予測モデルを用いる方法を提供する。
一部の例示的な実施形態において、個人の確認は、さらに、確認された個人において第一度近親者または第二度近親者、あるいは両方を含む、確認された個人に関する関連性データ及び関連統計を集めることを含む。

一部の例示的な実施形態において、予測モデルは、さらに、遺伝分析のためのヒト集団を、最終集団データセットに基づいて選択することを備え得る。遺伝分析は、血統を再建すること、複合ヘテロ接合性変異をフェージングすること、デノボ変異を検出すること、またはそれらの組み合わせを含み得る。

一部の例示的な実施形態において、ヒト集団は、複数のヒト集団を含み、最終集団データセットを生成することは、複数のヒト集団の各々に対する最終集団データセットを生成することを含み、遺伝分析のために複数のヒト集団のうち１つを、最終集団データセットに基づいて選択することをさらに備える。

例示的な一実施形態による、ヒト集団における関連性の予測モデルを作成する方法の流れ図である。例示的な動作環境の図である。開示された方法を行うように構成されている複数のシステム構成要素の図である。開示の例示的な実施形態による、６１Ｋ人のＤｉｓｃｏｖＥＨＲの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルＡは、第一度近親者対の確認を示す。開示の例示的な実施形態による、６１Ｋ人のＤｉｓｃｏｖＥＨＲの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルＢは、２人以上の第一度近親者を有する個人数の確認を示す。開示の例示的な実施形態による、９２Ｋ人の拡張ＤｉｓｃｏｖＥＨＲの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルＡは、第一度近親者対の確認を示す。開示の例示的な実施形態による、９２Ｋ人の拡張ＤｉｓｃｏｖＥＨＲの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルＢは、２人以上の第一度近親者を有する個人数の確認を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＡは、第一度近親者の対の確認を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＢは、１人または複数の第一度近親者を有する確認された参加者の割合を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＣは、第一度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＤは、１人または複数の第一度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＡは、第一度近親者の対の確認を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＢは、１人または複数の第一度近親者を有する確認された参加者の割合を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＣは、第一度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルＤは、１人または複数の第一度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＡは、第一度近親者及び第二度近親者の対の確認を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＢは、１人または複数の第一度近親者及び第二度近親者を有する確認された参加者の割合を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＣは、第一度関係及び第二度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＤは、１人または複数の第一度近親者または第二度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＡは、第一度近親者及び第二度近親者の対の確認を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＢは、１人または複数の第一度近親者及び第二度近親者を有する確認された参加者の割合を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＣは、第一度関係及び第二度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。開示の例示的な実施形態による、シミュレーションされた集団と、拡張ＤｉｓｃｏｖＥＨＲコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルＤは、１人または複数の第一度近親者または第二度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。開示の例示的な実施形態による、モデリングされた確認されたデータセットにおける関連性の量を推し進める要因の一部を示す。

「ａ」という用語は、「少なくとも１つ」を意味するとして理解されるべきであり、「約」及び「おおよそ」という用語は、当業者によって理解されるような標準的なばらつきを許容するとして理解されるべきであり、範囲が与えられる場合、端点が含まれる。

以前の大規模なヒトのゲノム研究は、通常、幾つもの異なる地理的エリア及び／またはヘルスケアシステムにわたってヒトサンプルを収集し、それらを組み合わせて、分析のためのコホートを生成するものであった。これらのコホートにおいてサンプリングされた個人の総数は多いことがよくあったが、これらのコホートにおける関連性及び家族構造の範囲は、比較的低い傾向にあった。関連性分析及び主成分分析を含むゲノム分析の文脈で慣用される多くの統計法は、全てのサンプルが無関係であることを必要とする。そうでない場合、これらのテストの統計的出力は偏り、ｐ−値の暴騰及び偽陽性の所見の原因となる（Ｋａｎｇら（２０１０）、ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ４２、３４８−３５４；Ｓｕｎ及びＤｉｍｉｔｒｏｍａｎｏｌａｋｉｓ（２０１２）、ＭｅｔｈｏｄｓＭｏｌ．Ｂｉｏｌ．８５０、４７−５７；Ｄｅｖｌｉｎ及びＲｏｅｄｅｒ（１９９９）、Ｂｉｏｍｅｔｒｉｃｓ５５、９９７−１０４；ならびにＶｏｉｇｈｔ及びＰｒｉｔｃｈａｒｄ（２００５）、ＰＬｏＳＧｅｎｅｔ１、ｅ３２−１０）。

データセットからの家族構造の削除は、データセットが有する密接に関連するサンプルがたった一握りである場合、実行可能なオプションである（Ｌｅｋら（２０１６）、ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６、２８５−２９１；Ｆｕｃｈｓｂｅｒｇｅｒら（２０１６）、ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６、４１−４７；Ｌｏｃｋｅら（２０１５）、Ｎａｔｕｒｅ５１８、１９７−２０６；ならびにＳｕｒｅｎｄｒａｎら（２０１６）ＮａｔＧｅｎｅｔ４８、１１５１−１１６１）。家族構造の削除はまた、主成分（ＰＣ）を計算し次いで残りのサンプルをこれらＰＣ上に投影するなどの統計分析に、データの無関係なサブセットが適している場合、可能なオプションである（Ｄｅｗｅｙら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ６８１４−ａａｆ６８１４）。研究者らが、最大サイズの無関係な個人のセットを保持することを支援するいくつかの方法が存在する（Ｓｔａｐｌｅｓら（２０１３）、Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３７、１３６−１４１；Ｃｈａｎｇら（２０１５）、Ｇｉｇａｓｃｉｅｎｃｅ４、７）。残念なことに、関連を有する個人の削除は、サンプルのサイズを低減させるのみならず、有用な関係性情報も破棄してしまう。実際、データセットが適度なレベルの家族構造を有する場合、そうした情報の損失は、多くの分析にとって受け入れがたい。

個人と個人の間の遺伝的関連性は、遺伝学の多くの分野において重要な役割を果たす。遺伝分析において、関連性の知識を用いて、遺伝性及び遺伝相関性などの遺伝的パラメータを推定する（Ｆａｌｃｏｎｅｒ及びＭａｃｋａｙ（１９９６）ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＱｕａｎｔｉｔａｔｉｖｅＧｅｎｅｔｉｃｓ．ＬｏｎｇｍａｎｓＧｒｅｅｎ、Ｈａｒｌｏｗ、Ｅｓｓｅｘ、ＵＫ）。進化生物学において、相互作用する個人間の関連性の知識は、社会的相互作用の進化の帰結を予測するのに必要とされる（Ｈａｍｉｌｔｏｎ（１９６４）Ｔｈｅｏｒ．Ｂｉｏｌ．７、１７−５２）。保全遺伝学において、関連性の知識は、保存戦略を最適化するのに必要とされる。コホートにおける集団の関連性に関する情報は、量的遺伝学、保存遺伝学、法医学、進化及び生態学における多数の研究領域において重要な用途を有し得る。コホートにおける個人間の遺伝的関連性は、集団及び個人がどのようにその集団からサンプリングされるかに応じて、さまざまな形でコホート内において現れる連続体である。ヘルスケア集団ベースのゲノム（ＨＰＧ）研究における関連性の増加は、下流分析を選択かつ実行する際に重要な意義を有し、熟慮のもと検討されなければならない（Ｓａｎｔｏｒｉｃｏら（２０１４）Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３８Ｓｕｐｐｌ１、Ｓ９２−Ｓ９６；Ｈｕら（２０１４）．Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．３２、６６３−６６９；Ｐｒｉｃｅら（２０１０）Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．１１、４５９−４６３；Ｋａｎｇら（２０１０）．ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ４２、３４８−３５４；Ｓｕｎ及びＤｉｍｉｔｒｏｍａｎｏｌａｋｉｓ（２０１２）ＭｅｔｈｏｄｓＭｏｌ．Ｂｉｏｌ．８５０、４７−５７；Ｄｅｖｌｉｎ及びＲｏｅｄｅｒ（１９９９）Ｂｉｏｍｅｔｒｉｃｓ５５、９９７−１０４；Ｖｏｉｇｈｔ及びＰｒｉｔｃｈａｒｄ（２００５）ＰＬｏＳＧｅｎｅｔ．１、ｅ３２−１０）。関連性を活用する遺伝子データは、血統を再建し、複合ヘテロ接合性変異（ＣＨＭ）をフェージングし、かつデノボ変異（ＤＮＭ）を検出するのに用いることができる。さらに、データはまた、集団の成長を予測しかつ集団における疾病パターンを示すマーカを提供するのにも用いることができる。

そうしたデータを分析するために、関連性を有する個人を備えるデータセットが望ましい。さらに、データセットにおける個人間の関連度に基づいてデータセットに適用することができる様々な統計ツールが存在する。利用可能なデータセットまたは設計されるデータセットは、バイオインフォマティクスツール及びそれらの取扱いを効率的に続けるための分析パイプラインのたゆまぬ革新を必要とするだろう。

遺伝学研究または進化的研究または人口調査研究において、データセットを選択または設計するために、コホートにおける関連度を予測することができる方法またはモデルは存在せず、研究者らは、どれくらいの関連性を研究者が目の当たりにすることを期待するか及び関連レベルが以前の集団ベースのゲノム研究において見られた関連レベルと同様であるかどうかに関して不確かであることが多い。

本開示は、ヒト集団における関連性の予測モデルに少なくとも部分的に基づく。
開示の例示的な実施形態によるヒト集団における関連性の予測モデルを用いて、１つまたは複数のサブ集団にわたって分散した何百万の人々の集団を、指定された集団パラメータに基づいて予測することができる。モデルは、カップリング、誕生、離婚、移住、死亡及び／またはサブ集団間の移動を、指定されたパラメータに基づいて年々シミュレーションすることを進めて、ＨＧＰ研究を含む幅広い集団ベースの研究を表す現実的な血統構造及び集団を生成する。異なる集団をモデリングするために、パラメータのカスタマイズは容易に行うことができる。

開示の例示的な実施形態はまた、ヒト集団における関連性の予測モデルを作成して、研究者らが所与の集団セット及びサンプリングパラメータに対して発見することを期待する関連性の量を推定するプロセスに少なくとも部分的に基づく。そうしたモデルを生成するプロセスの例を図１に記載する。

開示の例示的な実施形態によれば、ヒト集団における関連性の予測モデルを作成するプロセスは、ステップ１００として、第１の集団データセットを確立することを含み得る。この第１の集団データセットは、ユーザによって定義され得る。

一部の例示的な実施形態において、ステップ１２０として、所定時間のバーンイン段階が行われて、第２の集団データセットを確立する。バーンイン段階は、調査に基づいて変わり得、かつ、ユーザによって選択され得る。具体的な例示的実施形態において、バーンイン段階は、９０〜２００年の範囲にあり得、範囲内の任意の所望の値を含む。別の具体的な例示的実施形態において、バーンイン段階は約１２０年である。

一部の例示的な実施形態において、第２の集団データセットにおける個人の初期年齢は、０〜４９歳の範囲にあり得る。この第２の集団データセットにおける個人は、様々なプール、例えば、若年または妊孕性／交配または老年プールに割り当てられ得る。例えば、約１５歳よりも下の年齢の個人は若年プールに割り当てられ得る。１５〜４９歳の間の年齢の個人は、妊孕性／交配プールに割り当てられ得る。さらに、個人は、１５歳を超えたときに若年プールから妊孕性／交配プールに、４９歳を超えたときに妊孕性／交配プールから老年プールに移動させることもできる。このデータセットにおける個人は、さらに、彼らが移住のために離れたまたは死亡した場合、削除することができる。ユーザは、プールが備えるこれらの年齢グループを、人口統計または地理的エリアの歴史または祖先クラスまたはグループに影響を及ぼし得る任意の他のパラメータに基づいて選択することができる。第２の集団データセットにおいて、ユーザは、さらに、出生率、死亡率、転入率、転出率、婚姻率、離婚率、妊孕性開始年齢、妊孕性終了年齢、年齢別の妊孕性に対する全血兄妹率範囲、年齢別の男性死亡率、年齢別の女性死亡率、年齢別の男性婚姻及び／または年齢別の女性婚姻を、人口統計または地理的エリアの歴史または祖先クラスまたはその率に影響を及ぼし得る任意の他のパラメータ（それらの対応する値及び率を有する）にしたがって設定することができる。例えば、パラメータを設定するのに、双子率、死産率、堕胎率、同性婚率、養子率、ポリアモリー関係率を用いることができる。さらに、パラメータはまた、集団内の人々の地理的な位置（例えば、彼らが互いに対して、暮らし働く場所）及び交配の機会を増加または減少させ得る地理的／社会的障壁（例えば、川、谷、山、祖先、及び地域）に基づいてモデリングすることができる。一部の例示的な実施形態において、第２の集団は、約０．０２１９の出生率または約０．００９５の死亡率または約０．０１１６８の婚姻率または約０．００２８の離婚率または約０．８８の全血兄妹率または約１５歳の妊孕性開始年齢または約４９歳の妊孕性終了年齢または約０．０１の転入率または約０．０２１の転出率または０〜１の範囲の年齢別の妊孕性（０〜５０歳の女性に対する重み付けベクトル）または０〜１の範囲の年齢別の男性死亡率（０〜１２０歳の男性に対する重み付けベクトル）または０〜１の範囲の年齢別の女性死亡率（０〜１２０歳の女性に対する重み付けベクトル）または０〜１の範囲の年齢別の男性婚姻率（０〜５０歳の男性に対する重み付けベクトル）または０〜１の範囲の年齢別の女性婚姻率（０〜５０歳の女性に対する重み付けベクトル）またはそれらの組み合わせを有し得る。

一部の例示的な実施形態において、確立された第２の集団は、ステップ１３０として、第２の集団データセットにおける個人を、個人の年齢−若年、妊孕性／交配または老年にしたがって年齢プールに移動させることによって修正することができる。

一部の例示的な実施形態において、確立された第２の集団は、さらに、ステップ１４０として、いとこよりも遠い関係にある未婚男性と未婚女性の対を、第２の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることによって、修正することができる。婚姻のため選ばれた対は、婚姻数が、設定済みの婚姻率パラメータによって指定される数に達するまで婚姻することが可能であり得る。ユーザは、年齢パラメータによる婚姻を、人口統計または地理的エリアの歴史または祖先クラスまたはそうした率に影響を及ぼし得る任意の他のパラメータ（それらの対応する値及び率を有する）に基づいて選択することができる。例えば、パラメータを設定するのに、双子率、死産率、堕胎率、同性婚率、養子率、ポリアモリー関係率を用いることができる。さらに、パラメータはまた、集団内の人々の地理的な位置（例えば、彼らが互いに対して、暮らし働く場所）及び交配の機会を増加または減少させ得る地理的／社会的障壁（例えば、川、谷、山、祖先、及び地域）に基づいてモデリングすることができる。

第２の集団データセットをさらに修正するのに、ユーザは、離婚率及び／または生殖率を、人口統計または地理的エリアの歴史または祖先クラスまたはそうした率に影響を及ぼし得る任意の他のパラメータに基づいて選択することができる。一部の例示的な実施形態において、確立された第２の集団は、ステップ１５０として、夫婦が、指定された離婚率で離婚することを可能とするように修正され得る。第２の集団データセットからランダムに選ばれた未婚男性と未婚女性の対または夫婦は、指定された率で選択され得、かつ、成功妊娠の標的数に達するまで、ステップ１６０として、指定された出生率にしたがって生殖することが可能であり得る。両親は、いとこより遠い関係であるように制限され得る。さらに、第２の集団データセットの交配／妊孕性年齢プールにおける全個人は、１年につき持つ子どもは１人であるように制限され得る。

さらに、第２の集団データセットは、人口統計または地理的エリアの歴史または祖先クラスまたは任意の他のパラメータ（それらの対応する値及び率を有し、そうした率に影響を及ぼし得る）に基づいて、死亡率及び／または移住を設定することによって修正され得る。

一部の例示的な実施形態において、確立された第２の集団データセットにおける個人は、ステップ１７０として、指定された死亡率でかつ年齢パラメータによる指定された死亡率で死去することが可能であり得る。さらに、第２の集団データセットにおける個人はまた、ステップ１８０として、第２の集団データセットにかつ第２の集団データセットから移住することも可能であり得る。そうした移住は、しかしながら、集団の年齢及び性別分布ならびに第２の集団データセットにおける既婚の妊孕性を有する年齢にある個人の割合を維持し得る。

一部の例示的な実施形態において、確立された第２の集団における個人は、ステップ１９０として、第２の集団データセット内で移動することが可能であり得、それによって、サブ集団から個人がランダムに選択され、別のサブ集団にランダムに割り当てられる。

一部の例示的な実施形態において、交配、婚姻、離婚、生殖、移住、死亡または第２の集団データセットにおける１つのサブ集団から別のサブ集団への移動のうちの１つまたは複数のステップは、以前の反復からもたらされる集団データセットにステップを適用することによって、所定の年数、１年間隔で繰り返すことができる（ステップ２００として）。

このフレームワークは、より一時的な集団の表面的な確認のモデリングに適用するのに十分に柔軟である。第１の集団データセットに基づき、第２の集団データセットに対するパラメータは、任意の特定の地理的エリアまたはサブ集団に対する予測モデルをカスタマイズするように修正され得る。

一部の実施形態において、予測モデルは、集団からランダムに個人を確認することができる。ランダムな確認は、集団における各個人に、非復元で確認される等しい機会を与える。

一部の例示的な実施形態において、予測モデルは、個人を集団から集落化して確認することができる。集落化サンプリングは、個人を幾人かの第一度近親者及び第二度近親者とともにランダムに選択することによって、近親者に対して強化することができる。

開示によって説明または例示された方法のいずれも、コンピュータによって実装される方法としてかつ／またはシステムとして実施され得る。当業者によって知られている任意の適切なコンピュータシステムが、この目的に用いられ得る。

図２は、本方法及びシステムが動作することができる例示的な環境２０１の様々な態様を示す。本方法は、デジタル機器及びアナログ機器の両方を用いる様々なタイプのネットワーク及びシステムにおいて用いられ得る。本明細書中に提供されるのは、機能的説明と、それぞれの機能はソフトウェア、ハードウェアまたはソフトウェアとハードウェアの組み合わせによって行うことができるということである。

環境２０１は、ローカルデータ／処理センター２１０を備え得る。ローカルデータ／処理センター２１０は、１つまたは複数のコンピューティングデバイス間の通信を容易にするための、ローカルエリアネットワークなどの１つまたは複数のネットワークを備え得る。１つまたは複数のコンピューティングデバイスを用いて、生体データを格納、処理、分析、出力かつ／または視覚化することができる。環境２０１は、任意選択的に、医療データプロバイダー２２０を備え得る。医療データプロバイダー２２０は、生体データの１つまたは複数の源を備え得る。例えば、医療データプロバイダー２２０は、１人または複数の患者の医療情報にアクセスする１つまたは複数のヘルスシステムを備え得る。医療情報は、例えば、医療履歴、医療専門所見及びコメント、実験報告、診断、医者のオーダー、処方箋、バイタルサイン、体液平衡、呼吸機能、血液パラメータ、心電図、ｘ線、ＣＴスキャン、ＭＲＩデータ、臨床検査結果、診断、予後、評価、入退院ノート及び患者記録情報を備え得る。医療データプロバイダー２２０は、１つまたは複数のコンピューティングデバイス間の通信を容易にするための、ローカルエリアネットワークなどの１つまたは複数のネットワークを備え得る。１つまたは複数のコンピューティングデバイスを用いて、医療データを格納、処理、分析、出力かつ／または視覚化することができる。医療データプロバイダー２２０は、医療情報を匿名化し、匿名化された医療情報をローカルデータ／処理センター２１０に提供することができる。匿名化された医療情報は、医療情報を匿名化された状態に保ちつつ、１人の患者の医療情報を別の患者から区別するために患者ごとに一意の識別子を備え得る。匿名化された医療情報は、患者の身元が、その本人の特定の医療情報に結び付けられないようにする。ローカルデータ／処理センター２１０は、匿名化された医療情報を分析して、（例えば、国際疾病分類「ＩＣＤ」及び／または現行医療行為用語「ＣＰＴ」コードを割り当てることによって）１つまたは複数の表現型を各患者に割り当てることができる。

環境２０１は、ＮＧＳシーケンシング設備２３０を備え得る。ＮＧＳシーケンシング設備２３０は、１つまたは複数のシーケンサ（例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑ２５００、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＰａｃＢｉｏＲＳＩＩなど）を備え得る。１つまたは複数のシーケンサは、エクソームシーケンシング、全エクソームシーケンシング、ＲＮＡ−ｓｅｑ、全ゲノムシーケンシング、ターゲットシーケンシングなどに対して構成され得る。例示的な態様において、医療データプロバイダー２２０は、匿名化された医療情報と関連付けられた患者からの生体サンプルを提供し得る。一意の識別子を用いて、生体サンプルと生体サンプルに対応する匿名化された医療情報の関連を維持することができる。ＮＧＳシーケンシング設備２３０は、各患者のエクソームを、生体サンプルに基づいてシーケンスすることができる。シーケンシングの前に生体サンプルを格納するために、ＮＧＳシーケンシング設備２３０は、（例えば、ＬｉｃｏｎｉｃＩｎｓｔｒｕｍｅｎｔ製の）バイオバンクを備え得る。生体サンプルはチューブにおいて受けることができ（各チューブは患者に関連する）、各チューブは、スキャンされてサンプルをローカルデータ／処理センター２１０内に自動的にログすることができるバーコード（または他の識別子）を備え得る。ＮＧＳシーケンシング設備２３０は、均一なデータ及び効果的なノンストップ動作を確保するためシーケンシングの１つまたは複数の段階で用いるための１つまたは複数のロボットを備え得る。このように、ＮＧＳシーケンシング設備２３０は、１年当たり何万ものエクソームをシーケンスすることができる。一態様において、ＮＧＳシーケンシング設備２３０は、１月当たり少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、１１，０００または１２，０００の全エクソームをシーケンスする機能的能力を有する。

ＮＧＳシーケンシング設備２３０によって生成された生体データ（例えば、未加工のシーケンシングデータ）は、ローカルデータ／処理センター２１０に転送することができ、そして、ローカルデータ／処理センター２１０は、生体データをリモートデータ／処理センター２４０に転送することができる。リモートデータ／処理センター２４０は、クラウドベースのデータストレージ及び１つまたは複数のコンピューティングデバイスを備える処理センターを備え得る。ローカルデータ／処理センター２１０及びＮＧＳシーケンシング設備２３０は、データを、１つまたは複数の大容量ファイバー線を介してリモートデータ／処理センター２４０にかつリモートデータ／処理センター２４０から直接通信し得るが、他のデータ通信システムが検討される（例えばインターネット）。例示的な態様において、リモートデータ／処理センター２４０は、サードパーティシステム、例えば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ（ＤＮＡｎｅｘｕｓ）を備え得る。リモートデータ／処理センター２４０は、分析ステップの自動化を促進することができ、かつ、１つまたは複数のコラボレータ２５０と安全にデータを共有することを可能とする。ローカルデータ／処理センター２１０から生体データを受信すると、リモートデータ／処理センター２４０は、バイオインフォマティクスツールを用いて一次かつ二次データ分析のための自動化された一連のパイプラインステップを行うことができ、サンプルごとにアノテーション付きバリアントファイルをもたらす。そうしたデータ分析からもたらされる結果（例えば遺伝子型）は、ローカルデータ／処理センター２１０に通信して戻すことができ、例えば、各生体サンプルの状態を維持するように構成され得るラボラトリー情報管理システム（ＬＩＭＳ）に統合することができる。

そして、ローカルデータ／処理センター２１０は、ＮＧＳシーケンシング設備２３０及びリモートデータ／処理センター２４０を介して取得された生体データ（例えば遺伝子型）を、匿名化された医療情報（特定された表現型を含む）と組み合わせて利用して、遺伝子型と表現型の関連を特定することができる。例えば、ローカルデータ／処理センター２１０は、表現型ファースト手法を適用することができ、この手法では、特定の疾患領域、例えば心疾患に対する血中脂質の過多において治療可能性を有し得る表現型が定義される。別の例は、典型的な範囲の併存疾患から保護されているように見える個人を識別する、肥満患者の調査である。別の手法は、遺伝子型と仮説、例えば、遺伝子Ｘは、疾患Ｙを引き起こすことまたは疾患Ｙからの保護に関わるという仮説から始めるものである。

例示的な態様において、１つまたは複数のコラボレータ２５０は、生体データ及び／または匿名化された医療情報の一部またはすべてに、インターネット２６０などのネットワークを介してアクセスすることができる。

図３に示すような例示的な態様において、ローカルデータ／処理センター２１０及び／またはリモートデータ／処理センター２４０の１つまたは複数は、遺伝子データコンポーネント３００、表現型データコンポーネント３１０、遺伝的変異体−表現型の関連データコンポーネント３２０及び／またはデータ分析コンポーネント３３０のうち１つまたは複数を備える１つまたは複数のコンピューティングデバイスを備え得る。遺伝子データコンポーネント３００、表現型データコンポーネント３１０、及び／または遺伝的変異体−表現型の関連データコンポーネント３２０は、シーケンスデータの品質評価、参照ゲノムへのリードアライメント、変異同定、変異のアノテーション、表現型同定、変異体−表現型の関連特定、データ視覚化、それらの組み合わせなどの１つまたは複数のために構成され得る。

数及び／または文字付きの、本明細書中に提供される方法ステップの連続的なラベリングは、方法またはその任意の実施形態を、特定の示された順序に限定することを意味しない。

特許、特許出願、公開特許出願、アクセッション番号、技術記事及び学術記事を含む様々な刊行物が明細書全体で引用される。これら引用文献の各々は、参照によって、その全体があらゆる目的で本明細書中に組み込まれる。

開示は、開示をより詳細に説明するために提供される以下の例を参照することによって、より完全に理解されよう。それらの例は例示することが意図され、開示の範囲を限定するとして解釈されるべきでない。

実施例１
患者及びサンプル
２つのデータセットが、予測モデルをコホート‐（Ａ）６１，７２０人の匿名化された患者のエクソームを有するＤｉｃｏｖＥＨＲコホート及び（Ｂ）９２，４５５人の匿名化された患者のエクソームを有する拡張ＤｉｃｏｖＥＨＲコホートに適用することによって、収集された。

ＧｅｉｓｉｎｇｅｒＨｅａｌｔｈＳｙｓｔｅｍ（ＧＨＳ）から取得された両方のコホートにおける匿名化された被験者のすべてがシーケンスされた。全参加者は、ＭｙＣｏｄｅ（登録商標）ＣｏｍｍｕｎｉｔｙＨｅａｌｔｈＩｎｉｔｉａｔｉｖｅ（Ｃａｒｅｙら（２０１６）、Ｇｅｎｅｔ．Ｍｅｄ．１８、９０６−９１３）に参加することを承諾し、Ｒｅｇｅｎｅｒｏｎ−ＧＨＳＤｉｓｃｏｖＥＨＲＳｔｕｄｙ（Ｄｅｗｅｙら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ６８１４−ａａｆ６８１４）におけるゲノム分析のためにＤＮＡサンプルを提供した。全患者は、対応する匿名化された電子カルテ（ＥＨＲ）に結びつけられたエクソームを有していた。最初の５０，７２６人のシーケンスされた個人のより詳細な説明は、以前に公開されている（Ｄｅｗｅｙら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ６８１４−ａａｆ６８１４；Ａｂｕｌ−Ｈｕｓｎら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ７０００−ａａｆ７０００）。

調査は、調査に参加するのに家族を具体的な標的としなかったが、調査は、ヘルスケアシステムと頻繁に相互作用する、慢性的な健康問題を抱える成人、ならびにＣｏｒｏｎａｒｙＣａｔｈｅｔｅｒｉｚａｔｉｏｎＬａｂｏｒａｔｏｒｙ及びＢａｒｉａｔｒｉｃＳｅｒｖｉｃｅからの参加者に対して強化されたものであった。

実施例２
ＳｉｍＰｒｏｇｅｎｙを用いるシミュレーション及び関連性の予測
ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲデータセットにおける関係ネットワークの成長をモデリング、理解かつ予測するために、シミュレーションフレームワーク（本明細書中以下で「ＳｉｍＰｒｏｇｅｎｙ」）が開発された。これは、複数のサブ集団にわたって分散された何百年にわたる何百万の人々の系統をシミュレーションし得る。これらのシミュレーションされた集団から、様々なサンプリング手法をモデリングすることができ、かつ、研究者らが所与のセットの集団及びサンプリングパラメータに対して発見することを期待する関連性の量を推定することができる（実施例６を参照）。

ＳｉｍＰｒｏｇｅｎｙを用いて、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲの集団ならびにそれらそれぞれからの最初の６１Ｋ及び最初の９２Ｋの参加者の確認をシミュレーションした。シミュレーションでは、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲの参加者は集団からランダムにサンプリングされたのではなく、データセットは近親者に対して強化されたものであったことが示される。図２Ａ及び図２Ｂに示すように、実データは、薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。６１Ｋ‐人のフリーズにおいて特定されたサンプル及び関係もまたとられ、そして確認順をシャッフルして、６１ＫのＤｉｓｃｏｖＥＨＲの参加者の前半は、後半に比べ第一度近親者に対して強化されたものであったことを示す。様々なサイズの集団が、ＤｉｓｃｏｖＥＨＲがそれから確認された実集団に類似のパラメータを用いてシミュレーションされた。次いで、これら集団の各々からのランダムな確認が行われて、いずれの集団サイズが実データに最も近く適合するかを確認した。重要なことは、これらの集団サイズのいずれも実データに適合せず、ランダムな確認手法の適合は不十分であるということである。ランダムな確認と比べて第一度近親者に対して強化された異なる確認手法は、より良好な適合を生じさせ得る。図４Ａは、サイズ２７０Ｋの有効なサンプリング集団における第一度近親者対の確認が、実データのシャッフルされたバージョンに近く適合するが、６１Ｋの確認された参加者を下回る近親者対の数を過小に見積もり、６１Ｋの参加者を超える近親者対の数を、著しく過大に見積もることを示す。図４Ｂは、２７０Ｋの集団が、１人または複数の第一度近親者を有する個人の数に対して、シャッフルされた実データに最も近く適合するが、実データへの適合は不十分であることを示す。

拡張ＤｉｓｃｏｖＥＨＲデータセットを用いて同様の結果が観察された（図５Ａ及び図５Ｂ）。９２Ｋ−人のフリーズにおいて特定されたサンプル及び関係は、次いで、シャッフルされて、９２Ｋ人の拡張ＤｉｓｃｏｖＥＨＲの参加者の前半は、後半に比べて第一度近親者に対して強化されたものであることを示した。次いで、これら集団の各々からのランダムな確認が行われて、いずれの集団サイズが実データに最も近く適合するかを確認した。図５Ａは、サイズ４０３Ｋの有効なサンプリング集団における第一度近親者対の確認が、実データのシャッフルされたバージョンに近く適合するが、９２Ｋの確認された参加者を下回る近親者対の数を過小に見積もり、９２Ｋの参加者を超える近親者対の数を、著しく過大に見積もることを示す。図５Ｂは、４０３Ｋの集団が、１人または複数の第一度近親者を有する個人の数に対して、シャッフルされた実データに最も近く適合するが、実データへの適合は不十分であることを示す。

近親者の強化が、ＤｉｓｃｏｖＥＨＲ（図６Ａ及び図６Ｂ）及び拡張ＤｉｓｃｏｖＥＨＲ（図７Ａ及び図７Ｂ）において実データにより良好に適合するシミュレーションを生成する集落化確認手法を用いることによってモデリングされた（実施例６を参照）。図６及び図７の両方において、実データは、薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。大部分のシミュレーションパラメータは、実集団の人口統計に関する情報及びＤｉｓｃｏｖＥＨＲ確認手法に基づいて設定された。しかしながら、２つのパラメータ：１）サンプルがそれから確認された有効な集団サイズ、及び２）第一度近親者が以前に確認されたとして誰かが確認される機会の増大（「集落化確認」と称される）は、我々が利用できるものではなかったので、未知であり、したがって、実データへの適合性に基づいて推測された。図６及び図７における全てのパネルは、推定される有効集団サイズに及ぶ同一の３つのシミュレーションされた集団サイズを示す。集落化確認は、第一度近親者のポアソン分布による乱数（分布のラムダは、凡例に示される）とともに個人をランダムに確認することによってシミュレーションされた。これらのシミュレーション結果は、有効なサンプリング集団サイズは約４７５Ｋの個人であったこと、及び０．２のラムダを有するポアソン分布が第一度近親者の強化に最も近く合致したことを示唆する。これは、現在の参加者の過半数が、ＧＨＳ通院区域（＞２．５百万の個人）全体にわたって均等に分布するのではなく、この例ではＤａｎｖｉｌｌｅ、Ｐａ．区域（約５００Ｋの個人）といった特定のローカルな地理的エリアに住んでいるという理解と一致した。

実データに合理的に適合するシミュレーションパラメータが特定された後、ＳｉｍＰｒｏｇｅｎｙを用いて、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲ研究が２５０Ｋの参加者という目的にまで拡大するとき期待される第一度関係の量の予測を取得した。結果として、参加者の確認が同じ様に続いた場合、約１５０Ｋの第一度関係を取得することが、ＤｉｓｃｏｖＥＨＲ（図６Ｃ）及び拡張ＤｉｓｃｏｖＥＨＲ（図７Ｃ）に対して期待され、ＤｉｓｃｏｖＥＨＲの参加者の約６０％を含み（図６Ｄ）かつ拡張ＤｉｓｃｏｖＥＨＲの参加者の約６０％を含む（図７Ｄ）ことが示された。

シミュレーション分析は次いで、第二度関係を含むまでに拡大された。シミュレーション結果は、２５０Ｋの参加者の場合、ＤｉｓｃｏｖＥＨＲ（図８）及び拡張ＤｉｓｃｏｖＥＨＲ（図９）における個人の７０％超えを含む、２００Ｋをはるかに超える組み合わされた第一度関係及び第二度関係が期待されることを示唆した。この分析において、実データは、図において薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。大部分のシミュレーションパラメータは、実集団の人口統計に関する情報及びＤｉｓｃｏｖＥＨＲ確認手法に基づいて設定された。しかしながら、２つのパラメータ：１）サンプルがそれから確認された有効な集団サイズ、及び２）第一度近親者または第二度近親者が以前に確認されたと仮定して誰かが確認される機会の増大（「集落化確認」と称される）は、未知であり、実データへの適合性に基づいて選択された。図８及び図９における全てのパネルは、推定された有効集団サイズに及ぶ同一の３つのシミュレーションされた集団サイズを示す。集落化確認は、第一度近親者のポアソン分布による乱数及び第二度近親者の別の乱数（どちらのポアソン分布も、図の凡例に示されるラムダを有する）とともにランダムに個人を確認することによってシミュレーションされた。

シミュレーション結果は、ＤｉｓｃｏｖＥＨＲのＨＰＧ研究における関連性の明確な強化を示し、ならびに、さらなる参加者の確認が続けられたときに把握されることが期待される、膨大な量の関連性についての極めて重要な洞察をもたらした。

実施例３
サンプルの準備、シーケンシング、バリアントコール、及びサンプルのＱＣ
データサンプルの準備及びシーケンシングは、Ｄｅｗｅｙら（Ｄｅｗｅｙら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ６８１４−ａａｆ６８１４）に先に記載されている。

シーケンシングが完了すると、各ＩｌｌｕｍｉｎａＨｉｓｅｑ２５００ランからの未加工データが、ローカルバッファストレージに集められ、自動分析のためにＤＮＡｎｅｘｕｓプラットフォームにアップロードされた（Ｒｅｉｄら（２０１４）１５、３０）。サンプルレベルのリードファイルが、ＣＡＳＡＶＡ（ＩｌｌｕｍｉｎａＩｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ）を用いて生成され、ＧＲＣｈ３８に、ＢＷＡ−ｍｅｍ（Ｌｉ及びＤｕｒｂｉｎ（２００９）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５、１７５４−１７６０；Ｌｉ，Ｈ．（２０１３）；ａｒＸｉｖｑ−ｂｉｏ．ＧＮ）を用いてアラインされた。結果として生じたＢＡＭファイルは、ＧＡＴＫ及びＰｉｃａｒｄを用いて処理されて、ソートを行い、重複をマークし、かつ推定インデルの周りのリードのローカルリアライメントを行った。シーケンスされた変異体は、Ｅｎｓｅｍｂｌ８５遺伝子定義を用いてｓｎｐＥＦＦ（Ｃｉｎｇｏｌａｎｉら（２０１２）；Ｆｌｙ（Ａｕｓｔｉｎ）６、８０−９２）でアノテーションされて、転写産物及び遺伝子への機能的影響を判定した。遺伝子定義は、１９，４６７の遺伝子に対応する、アノテーションされた開始及び終止を用いてたんぱく質をコードする５４，２１４の転写産物に制限された。

高い率の同型接合性、低いシーケンスデータカバレッジ、または現実の一卵性双生児であると実証され得ない遺伝的に同定された重複によって示される低品質のＤＮＡシーケンスデータを有する個人は除外された。すなわち、６１，０１９のエクソームが分析のために残った。サンプル準備、シーケンシング、バリアントコール及びバリアントアノテーションに関するさらなる情報は、Ｄｅｗｅｙら（２０１６）、Ｓｃｉｅｎｃｅ３５４、ａａｆ６８１４−１〜ａａｆ６８１４−１０に報告される。

実施例４
ＳｉｍＰｒｏｇｅｎｙ
ＳｉｍＰｒｏｇｅｎｙは、大規模な集団ならびにその集団からの様々なサンプル確認方法をシミュレーションするために開発された。ＳｉｍＰｒｏｇｅｎｙは、１つまたは複数のサブ集団にわたって分散された何百万の人々の集団をシミュレーションし、彼らの死亡を何百年にわたって追跡することができる。単純化と現実性の良好なバランスを見出すために、ユーザが調整することができるいくつかの極めて重要な集団レベルのパラメータが選択された（以下の表１を参照）。これらのパラメータは、シミュレーションツールを相対的に簡潔なままにしながら、実集団及び家系構造の良好な近似値を提供するように選択された。デフォルト値は、ＵＳ人口統計に基づく（１９６０年からのＵＳの平均出生率：ＤｅｐａｒｔｍｅｎｔｏｆＨｅａｌｔｈａｎｄＨｕｍａｎＳｅｒｖｉｃｅｓ、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＨｅａｌｔｈＳｔａｔｉｓｔｉｃｓ；１９６０年からのＵＳの平均死亡率：ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＨｅａｌｔｈＳｔａｔｉｓｔｉｃｓ、Ｕ．Ｓ．ＣｅｎｓｕｓＢｕｒｅａｕ；１９６０年からのＵＳの平均婚姻率：１００ｙｅａｒｓｏｆｍａｒｒｉａｇｅａｎｄｄｉｖｏｒｃｅｓｔａｔｉｓｔｉｃｓＵｎｉｔｅｄＳｔａｔｅｓ、１８６７−１９６７；１９６０年からのＵＳの平均離婚率：１００ｙｅａｒｓｏｆｍａｒｒｉａｇｅａｎｄｄｉｖｏｒｃｅｓｔａｔｉｓｔｉｃｓＵｎｉｔｅｄＳｔａｔｅｓ、１８６７−１９６７；田舎と都会両方の移住を反映する２０００年からのＰＡにおける転入率及び転出率；１９７０年からのＵＳの出生率：Ｈａｍｉｌｔｏｎ、Ｂ．Ｅ．、Ｍａｒｔｉｎ，Ｊ．Ａ．、Ｏｓｔｅｒｍａｎ、Ｍ．Ｊ．Ｋ．、Ｃｕｒｔｉｎ、Ｓ．Ｃ．、＆Ｍａｔｈｅｗｓ、Ｔ．Ｊ．（２０１５）、Ｂｉｒｔｈｓ：Ｆｉｎａｌｄａｔａｆｏｒ２０１４．ＮａｔｉｏｎａｌＶｉｔａｌＳｔａｔｉｓｔｉｃｓＲｅｐｏｒｔｓ，６４（１２）及びＨｙａｔｔｓｖｉｌｌｅ、ＭＤ：ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＨｅａｌｔｈＳｔａｔｉｓｔｉｃｓ；２００５年からの女性死亡率；２００５年７月１日時点で推定された２０００年の国勢調査に基づいた死亡率の調査後推定；ならびに２００９年からの年齢別の男性婚姻率及び女性婚姻率）。デフォルト値は、様々なコホートに対して機能するように設定され、これらのパラメータは、異なる集団をモデリングするために、ＳｉｍＰｒｏｇｅｎｙコード（ウェブリソース）に包含される構成ファイルを修正することによって、容易にカスタマイズされ得る。集団シミュレーションプロセスの詳細な説明については、実施例６を参照。

ＤｉｓｃｏｖＥＨＲコホートに対して開発されたフレームワークにおいて、妊孕性終了は４９歳であり、拡張ＤｉｓｃｏｖＥＨＲコホートに対して開発されたフレームワークにおいて、妊孕性終了は５０歳であった。

集団をモデリングすることに加えて、ＳｉｍＰｒｏｇｅｎｙは、遺伝学的調査のために、集団からの個人の選択のモデリングに対する２つの確認手法：ランダムな確認及び集落化サンプリングをシミュレーションする。ランダムな確認は、集団における各個人に、非復元で確認される等しい機会を与える。集落化サンプリングは、近親者に対して強化された手法であり、個人を、幾人かの彼らの第一度近親者及び第二度近親者とともにランダムに選択することによって行うことができる。第一度近親者の数は、ユーザによって指定された第一度の確認ラムダ（デフォルトは０．２）で分散されたポアソンからの値をサンプリングすることによって判定される。第二度近親者の数は同様に判定され、デフォルトの第二度の確認ラムダは０．０３である。ＳｉｍＰｒｏｇｅｎｙの確認オプションに関するさらなる情報については、実施例６を参照。

実施例５
基礎となるＤｉｓｃｏｖＥＨＲ集団及びその確認のシミュレーション
シミュレーションモデルを複雑にしすぎないように、シミュレーションは、開始サイズ２００Ｋ、３００Ｋ、４００Ｋ、４５０Ｋ、５００Ｋ、５５０Ｋ、６００Ｋ及び１０００Ｋの個人集団を含むものであった。ＳｉｍＰｒｏｇｅｎｙのパラメータ（上記の表１を参照）は、公開されている国、州、及び国家レベルで調整された。ペンシルベニア（ＰＡ）からの移住率の平均は、ＧＨＳは主に田舎のエリアを供給し、それは、より都会のエリアよりも低い移住率を有する傾向があるので、低減された。シミュレーションは、１２０年のバーンイン期間をもって実行され、そして、１０１年間進められた。シミュレーションされた集団は、約１５％成長しており、それは、２０世紀半ばからのＰＡの成長に類似する。

ランダムな確認及び集落化確認の両方が行われた。両方の確認手法において、集団の最初の５％の確認順（ｏｒｄｅｒｅｄ＿ｓａｍｐｌｉｎｇ＿ｐｒｏｐｏｒｔｉｏｎパラメータで指定される）は、コラボレーションの開始時、ＧＨＳバイオバンクにおける個人のランダムなシーケンシング順をモデリングするためにシャッフルされた。このパラメータの選択はランダムな確認に影響を及ぼさずかつ集落化確認における対関係の累積にほとんど影響を及ぼさないが、変曲点を生じさせることによって集落化サンプリングを用いて確認された、データセットにおける１人または複数の近親者を有する個人の割合には影響を及ぼす。それは、より高いラムダ値で表される。この変曲点は、実データのフリーズプロセスをモデリングすることによってまたはＧＨＳバイオバンクからのシーケンシングサンプルと新しく確認された個人の間のより滑らかな移行をモデリングすることによって、より緩やかとなり得る。

実施例６
ＳｉｍＰｒｏｇｅｎｙ集団及び確認のシミュレーションプロセス
シミュレーションは、ユーザによって指定されたサブ集団の数及びサイズを初期化することによって開始した。年齢は、最初に、ゼロから最大妊孕性年齢（デフォルトは４９歳）の間で割り当てられた。集団における個人は、３つの年齢ベースのプール：若年、妊孕性、または老年の１つに存在するものであった。個人は、彼らが妊孕性年齢（デフォルトは１５歳）を下回る場合、サブ集団の若年プールに割り当てられ、または、妊孕性年齢範囲（デフォルトでは１５〜４９歳）内の場合、サブ集団の交配プールに割り当てられた。個人は、彼らが最小妊孕性年齢を超えたとき、若年プールから交配プールに移動された。同様に、彼らは、最大妊孕性年齢を超えたとき、交配プールから老年プールに移動された。個人は、彼らが移住して離れるまたは死去した場合、全年齢プールから削除された。初期集団を確立後、シミュレーションは、１２０年のバーンイン段階を行って、出生と死亡の等しい数及びゼロの純移住率を要しながら、入力パラメータにより近く合致する家族関係及び年齢分布を確立した。バーンイン後、シミュレーションは、与えられた集団成長及び移住率をもって、指定された年数の間実行された。シミュレーションは、１年単位で進んだ。各年は、別途記述がない限り、各サブ集団内で行われる以下のステップを有するものであった。

１．年齢‐年齢プールから外れる年齢になった個人を、次の年齢プールに移動させる。
２．交際‐ある未婚男性及びある未婚女性を一夫一婦の婚姻をするとしてシミュレーションする。このプロセスは、現実的な数の全血兄妹関係を得るのに重要である。男性と女性の対は、未婚の生殖可能年齢にある男性及び女性のプールからランダムに選ばれ、彼らの婚姻は、男性及び女性の「年齢別婚姻」パラメータによって指定された、彼らの年齢で婚姻する機会に基づいて、成功する。成功婚姻数が婚姻率によって定義される数に達するまで、対は引き出される。カップルは、いとこよりも遠い関係にあるように制限される。バーンイン段階中、婚姻率は、ユーザによって指定された初期婚姻率に達するまで（デフォルトは、婚姻予定の妊孕性プールのうち６６％である）、２倍である。

３．別れ‐ある男性とある女性の婚姻の破綻を、指定された離婚率でシミュレーションする。カップルはランダムに選ばれ、両個人は未婚としてマークされる。
４．合体‐１年において集団内で発生し得る生殖の全てをシミュレーションする。父親／母親の対は、未婚の生殖可能年齢プールまたは既婚プールのいずれかから、全血兄妹率（デフォルトは、夫婦に対して全出生のうち８８％）によって定義された比率で、ランダムに選ばれる。成功妊娠の標的数に達するまで（デフォルトの出生率は、一人当たり０．０２１９出生）、対は引き出され、かつ、生殖の試みがなされる。成功妊娠が起きる機会は、母親候補の年齢及び対応する妊孕率に基づく。両親は、いとこよりも遠い関係であるように制限され、全個人は、１年当たりに持つ子は１人であるように制限される。

５．除外‐個人の死去をシミュレーションする。死亡率（デフォルトは、一人当たり０．００９５の死亡）を用いて、所与の年における集団内の予測される死亡数を判定する。年齢別の男性死亡率及び女性死亡率パラメータは、ランダムに選択された個人が死去する機会に重み付けするのに用いられる。０〜１の間のランダムな数が、個人の年齢におけるその人の死亡可能性を超える場合、個人は留保され、別の個人が選択される。不運な個人は、故人プールに追加され、任意の他の生存プールから削除される。１２０歳よりも年上の全個人は、自動的に逝去プールに追加され、その年の死亡の標的数に加算される。

６．移住‐集団へのかつ集団からの移住をシミュレーションする。移住して離れることは、集団から個人をランダムに選択し、個人を、既婚の場合、個人の配偶者とともに集団から削除することによって行われる。死去していく若年の個人及び老年の個人の割合は、妊孕性の年齢にある夫婦の数とともに記録される。移住して入ってくることは、年齢分布及び妊孕性の年齢にある夫婦の数を維持するように行われる。まず、若年が、既存の集団からランダムに選択され、同一の性別及び年齢の新しい個人が若年プールに追加され、このプロセスが、適切な割合の若年が追加され終わるまで繰り返される。移住ステップ中に人々が削除されるとき、削除された集団における若年の割合は記録された。削除されたのと同一の数の若年が、集団に追加されて戻された。例えば、１００人（２０人の若年を含む）が削除され、１０人のみが追加された場合、それら１０人のうち２人は若年となる。同一のプロセスが、老年の個人に対して繰り返される。次に、２人の妊孕性の年齢にある個人が既存の集団から選択され、対応する年齢の２人の新しい個人が追加される。１人は男性に割り当てられ、他方は女性に割り当てられ、２人の移住者は、その後結婚する。このステップは、夫婦の数が満たされるまで繰り返される。最後に、妊孕性の年齢にある個人が、新しい若年を追加するのに用いられるプロセスと同一のプロセスで追加され、移住者の標的数が達成されるまでそれは繰り返される。このプロセスは、集団の年齢及び性別分布ならびに既婚の妊孕性の年齢にある個人の割合を維持することを助ける。

７．移動‐人々がサブ集団内で移動することをシミュレーションする。サブ集団間の遺伝的隔離の欠如をシミュレーションするために、個人は、集団全体内でサブ集団間を移動することができる。単一の移動率が集団全体にわたって用いられる。個人が、サブ集団からランダムに選択され、所望の移動数が達成されるまで、他のサブ集団の１つにランダムに割り当てられる。このステップは、サブ集団が１つしか存在しない場合または移動率が０である場合（デフォルトは、各年、全体的な集団の移動の１％である）、発生しない。シミュレーションは、指定された時間の長さ進み、各始祖及びそれらの子孫の軌跡を保持する。

ランダムな確認及び集落化確認の両方が行われた。両方の確認手法において、集団の最初の５％の確認順（ｏｒｄｅｒｅｄ＿ｓａｍｐｌｉｎｇ＿ｐｒｏｐｏｒｔｉｏｎパラメータで指定される）は、コラボレーションの開始時、ＧＨＳバイオバンクにおける個人のランダムなシーケンシング順をモデリングするために、シャッフルされた。このパラメータの選択はランダムな確認に影響を及ぼさずかつ集落化確認における対関係の累積にほとんど影響を及ぼさないが、変曲点を生じさせることによって集落化サンプリングを用いて確認された、データセットにおける１人または複数の近親者を有する個人の割合には影響を及ぼした。それは、より高いラムダ値で表された。この変曲点は、実データのフリーズプロセスをモデリングするのであればまたはバイオバンクからのシーケンシングサンプルと新しく確認された個人の間のより滑らかな移行をモデリングするのであれば、より緩やかとなり得た。例えば、ユーザは、次のセットのサブ集団に移動する前に１つまたは複数のサブ集団からの確認をシミュレーションしたい場合、サブ集団の確認順を指定し得た。デフォルトは、サブ集団全てを最初にグループ化し、それらから、それらをまるで単一の集団であるかのように確認をすることであった。ユーザはまた、他のサブ集団または全体的な集団に移動する前に確認された集団の初期割合を特定し得た。プログラムは、ｐｅｄファイル形式での全体割合に対する出力、確認されたサンプルの、確認順でのリスト、並びに有用な集団及び確認統計を要約したいくつかの結果ファイルを成立させた。

そうした順シミュレーションフレームワーク（ＳｉｍＰｒｏｇｅｎｙ）は、ＧＨＳ（上で例示したような）のようなヘルスケアシステムによって与えられた集団を含む広範な集団をシミュレーションするのに用いることができる。それはまた、ＨＰＧ研究によって用いられるサンプル確認をシミュレーションすることもできる。確認されたデータセットにおける関連性の量を推し進めることができるいくつかの要因が存在する（図１０）。

さらに、そうしたモデルは、ユーザによって指定された集団パラメータ（上記の表１を参照）に基づいて、１つまたは複数のサブ集団にわたって分散された何百万の人々の集団をシミュレーションすることができる。年々進みながら、シミュレーションは、指定されたパラメータに基づいて、カップリング、出生、離婚、移住、死亡及びサブ集団間の移動を生成する。このプロセスは、様々なＨＰＧ研究を表す現実の血統構造及び集団を生成する。デフォルト値は、シミュレーションされた集団がＤｉｓｃｏｖＥＨＲコホート及び拡張ＤｉｓｃｏｖＥＨＲコホートをモデリングするように調整されているが、これらのパラメータは、異なる集団をモデリングするために、ＳｉｍＰｒｏｇｅｎｙコードに包含される構成ファイルを修正することによって容易にカスタマイズすることができる。

Claims

ヒト集団における関連性を予測する方法であって、
第１の集団データセットを確立することと、
指定された年数、バーンイン段階を行って、前記第１の集団データセットから第２の集団データセットを確立することと、
第２の集団データセットに対するシミュレーションを行うことであって、
（ａ）前記第２の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
（ｂ）いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第２の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
（ｃ）夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第２の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
（ｄ）前記第２の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第２の集団データセットにおける全個人は、１年当たり持つ子どもは１人であるように制限される、前記選びかつ可能とすること、
（ｅ）前記第２の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
（ｆ）前記第２の集団データセットにかつ前記第２の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第２の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
（ｇ）前記第２の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
（ｈ）（ａ）〜（ｇ）の１つまたは複数を、所定年数、１年間隔で反復的に繰り返すことであって、（ａ）〜（ｇ）の１つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、のうち１つまたは複数を含む、
前記第２の集団データセットに対するシ前記ミュレーションを行うことと
を含む、前記方法。
遺伝分析のための前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに含む、請求項１に記載の方法。
前記遺伝分析が、血統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項２に記載の方法。
前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対して最終集団データセットを生成することを含み、
遺伝分析のために前記複数のヒト集団の１つを前記最終集団データセットに基づいて選択することをさらに備える、請求項１に記載の方法。
前記第１の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項１に記載の方法。
前記第１の集団データセットを確立することが、さらに、前記第１の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項５に記載の方法。
妊孕性を有する前記最大年齢が４９歳である、請求項５に記載の方法。
前記バーンイン段階を行うことが、さらに、前記第２の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項１〜７のいずれか１項に記載の方法。
前記バーンイン段階を行うことが、さらに、
前記第２の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
を備える、請求項８に記載の方法。
妊孕性を有する前記最小年齢が１５歳であり、妊孕性を有する前記最大年齢が４９歳である、請求項９に記載の方法。
個人の確認がランダムに行われる、請求項１〜１０のいずれか１項に記載の前記予測モデルを用いる方法。
個人の確認が集落化されて行われる、請求項１〜１０のいずれか１項に記載の前記予測モデルを用いる方法。
個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項１１または１２に記載の方法。
前記指定された年数が１２０年である、請求項１に記載の方法。
ヒト集団における関連性を予測するシステムであって、
データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されているプログラムを備え、
前記プログラムは、前記データプロセッサによって実行されることが可能である命令を含み、
前記プログラムは、
第１の集団データセットを確立することと、
指定された年数、バーンイン段階を行って、前記第１の集団データセットから第２の集団データセットを確立することと、
第２の集団データセットに対するシミュレーションを行うことであって、
（ａ）前記第２の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
（ｂ）いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第２の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
（ｃ）夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第２の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
（ｄ）前記第２の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第２の集団データセットにおける全個人は、１年当たり持つ子どもは１人であるように制限される、前記選びかつ可能とすること、
（ｅ）前記第２の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
（ｆ）前記第２の集団データセットにかつ前記第２の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第２の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
（ｇ）前記第２の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
（ｈ）（ａ）〜（ｇ）の１つまたは複数を、所定年数、１年間隔で反復的に繰り返すことであって、（ａ）〜（ｇ）の１つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、の１つまたは複数を含む、
前記第２の集団データセットに対する前記シミュレーションを行うことと、
を行う、前記システム。
遺伝分析のために前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに備える、請求項１５に記載のシステム。
前記遺伝分析が、系統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項１６に記載のシステム。
前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対する最終集団データセットを生成することを含み、
遺伝子分析のために前記複数のヒト集団の１つを、前記最終集団データセットに基づいて選択することをさらに備える、請求項１５に記載のシステム。
前記第１の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項１５に記載のシステム。
前記第１の集団データセットを確立することが、さらに、前記第１の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項１９に記載のシステム。
妊孕性を有する前記最大年齢が４９歳である、請求項１９に記載のシステム。
前記バーンイン段階を行うことが、さらに、前記第２の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項１５〜２１のいずれか１項に記載のシステム。
前記バーンイン段階を行うことが、さらに、
前記第２の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
を備える、請求項２２に記載のシステム。
妊孕性を有する前記最小年齢が１５歳であり、妊孕性を有する前記最大年齢が４９歳である、請求項２３に記載のシステム。
個人の確認がランダムに行われる、請求項１５〜２４のいずれか１項に記載の前記予測モデルを用いるシステム。
個人の確認が集落化されて行われる、請求項１５〜２４のいずれか１項に記載の前記予測モデルを用いるシステム。
個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項２５または２６に記載のシステム。
前記指定された年数が１２０年である、請求項１５に記載のシステム。
ヒト集団における関連性を判定する非一時的なコンピュータによって実装される方法であって、
第１の集団データセットを確立するためにデータプロセッサを用いることと、
指定された年数、バーンイン段階を行って、前記第１の集団データセットから第２の集団データセットを確立するために前記データプロセッサを用いることと、
前記第２の集団データセットに対するシミュレーションを行うために前記データプロセッサを用いることであって、
（ａ）前記第２の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
（ｂ）いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第２の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
（ｃ）夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第２の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
（ｄ）前記第２の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第２の集団データセットにおける全個人は、１年当たり持つ子どもは１人であるように制限される、前記選びかつ可能とすること、
（ｅ）前記第２の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
（ｆ）前記第２の集団データセットにかつ前記第２の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第２の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
（ｇ）前記第２の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
（ｈ）（ａ）〜（ｇ）の１つまたは複数を、所定年数、１年間隔で反復的に繰り返すことであって、（ａ）〜（ｇ）の１つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、のうち１つまたは複数を含む、
前記第２の集団データセットに対するシミュレーションを行うために前記データプロセッサを用いることと
を含む、前記方法。
遺伝分析のために前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに含む、請求項２９に記載の非一時的なコンピュータによって実装される方法。
前記遺伝分析が、系統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項３０に記載のシステム。
前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対する最終集団データセットを生成することを含み、
遺伝分析のために前記複数のヒト集団の１つを、前記最終集団データセットに基づいて選択することをさらに備える、請求項２９に記載の非一時的なコンピュータによって実装される方法。
前記第１の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項２９に記載の非一時的なコンピュータによって実装される方法。
前記第１の集団データセットを確立することが、さらに、前記第１の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項３３に記載の非一時的なコンピュータによって実装される方法。
妊孕性を有する前記最大年齢が４９歳である、請求項３４に記載の非一時的なコンピュータによって実装される方法。
前記バーンイン段階を行うことが、さらに、前記第２の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項２９〜３５のいずれか１項に記載の非一時的なコンピュータによって実装される方法。
前記バーンイン段階を行うことが、さらに、
前記第２の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
を備える、請求項３６に記載の非一時的なコンピュータによって実装される方法。
妊孕性を有する前記最小年齢が１５歳であり、妊孕性を有する前記最大年齢が４９歳である、請求項３７に記載の非一時的なコンピュータによって実装される方法。
個人の確認がランダムに行われる、請求項２９〜３８のいずれか１項に記載の非一時的なコンピュータによって実装される方法。
個人の確認が集落化されて行われる、請求項２９〜３８のいずれか１項に記載の非一時的なコンピュータによって実装される方法。
個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項３９または４０に記載の非一時的なコンピュータによって実装される方法。
前記指定された年数が１２０年である、請求項２９に記載の非一時的なコンピュータによって実装される方法。