JP2020532989A

JP2020532989A - ゲノムデータ解析に近縁性を活用するシステム及び方法

Info

Publication number: JP2020532989A
Application number: JP2020513709A
Authority: JP
Inventors: ステープルズ、ジェフリー; ハベガー、ルーカス; リード、ジェフリー
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2017-09-07
Filing date: 2018-09-07
Publication date: 2020-11-19
Anticipated expiration: 2038-09-07
Also published as: KR20200065000A; JP7277438B2; WO2019051238A1; IL272927A; AU2018327326A1; MX2020002665A; US20190205502A1; SG11202001747XA; CN111279420A; JP2020533679A; AU2023282218A1; CN111247599A; US20190074092A1; JP2023103325A; EP3679575A1; CN117746978A; CN111279420B; KR102648634B1; MX2020002664A; IL272963A

Abstract

集団における複合ヘテロ接合性変異（ＣＨＭ）及びｄｅｎｏｖｏ変異（ＤＮＭ）を同定する方法、非一時的なコンピュータ実行方法、及びシステムが提供される。また、集団の近縁性を活用することによって、集団における遺伝的バリアントをフェージングする方法が提供される。さらに、ヒト集団における近縁性の予測モデルが提供される。

Description

関連出願の相互参照
本出願は、２０１７年９月７日提出の米国仮特許出願第６２／５５５，５９７号の利益を主張するものであり、この米国仮特許出願の内容は、その全体が、参照することにより本明細書に援用される。さらに、２０１８年９月７日提出の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＰｒｅｄｉｃｔｉｎｇＲｅｌａｔｅｄｎｅｓｓｉｎａＨｕｍａｎＰｏｐｕｌａｔｉｏｎ」と題する同時係属出願もまた、その全体が、参照することにより援用される。

分野
本開示は、一般に、ゲノムデータの分析のための方法及びシステム、ならびに大集団コホートにおける近縁性を利用して、稀少遺伝的バリエーションを疾患及び疾患感受性に結び付けることに関する。より詳細には、本開示は、同祖性を確立し、遺伝的バリアントを複合ヘテロ接合性変異またはｄｅｎｏｖｏ変異としてフェージングするためのシステム及び方法に関する。

ヒトの病状は、環境要因によってのみならず、遺伝的要因によっても引き起こされ影響される。したがって、ヒト集団の遺伝的バリエーションについて理解することが、ヒト疾患の病因及び進行の理解、ならびにこれらの疾患を治療するための新規薬剤ターゲットの同定にとって重要である。

保健医療集団の遺伝的研究は、この点で、広範な健康管理データが使用できることのために特に有効である。これにより、遺伝的バリアントがヒトの病状にどのように寄与するかの研究が簡略化される。過去には、通常、そのような研究は、疾患遺伝子座をマッピングするための全ゲノム遺伝的連鎖解析に基づいており、これらは同定されると、同定後に、分子レベルでさらに詳細に解析することができた。

ここ数年にわたって、ハイスループットなＤＮＡシークエンシングテクノロジが広く一般に使用できるようになったことで、数十万人のヒトのゲノムの並列シークエンシングが可能になっている。理論上、これらのデータは、ヒト疾患の遺伝的基礎を解読するために使用できる強力な情報源を意味する。しかしながら、これらの増え続けているデータセットは、このような非常に大きなデータセットの効率的な処理を継続するために、バイオインフォマティクスのツール及び解析パイプラインの持続的な革新が必要とされている。さらに、このような大きなデータセットにおける近縁性及び家族構造の有用性、ならびにこれをバリアントの同定及び特性評価に活用できる範囲に関しては、完全には認識されておらず、利用されていない。

大規模なゲノムデータの解析のための、改良されたバイオインフォマティクスのツールが必要とされている。本開示は、このニーズに応えるものである。

一態様では、本開示は、集団における遺伝的バリアントを、集団の近縁性を活用することによってフェージングする方法であって、複数のヒト被験者から得られた核酸配列サンプルのデータセットから、低クオリティの配列バリアントを除去すること、サンプルの１つ以上のそれぞれについて祖先スーパークラスの指定を確立すること、低クオリティサンプルをデータセットから除去すること、祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、統合同祖性推定に基づいて被験者の第２の第一度家族ネットワークを構築すること、ならびにバリアントを、統合同祖性推定及び第２の第一度家族ネットワークに応じて、複合ヘテロ接合性変異（ＣＨＭ）であるかもしくはＣＨＭではないものとしてフェージングし、またはバリアントを、統合同祖性推定及び第２の第一度家族ネットワークに応じて、ｄｅｎｏｖｏ変異（ＤＮＭ）として同定することを含む方法を提供する。

いくつかの例示的な実施形態では、第１の同祖性推定と第３の同祖性推定とを統合することは、第３の同祖性推定に特有のペアワイズ同祖性推定を補って、第１の同祖性推定を増強することを含む。

いくつかの例示的な実施形態では、バリアントを複合ヘテロ接合性変異（ＣＨＭ）としてフェージングすることは、（１）集団アレル頻度に応じてバリアントをフェージングすること、（２）ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせの一塩基多型（ＳＮＰ）を除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去すること、（３）同じサンプル内及び同じ遺伝子内に１つ以上のバリアントの対が存在する潜在複合ヘテロ接合性変異（ｐＣＨＭ）として残りのバリアントを選択すること、ならびに（４）ｐＣＨＭをシスｐＣＨＭまたはトランスｐＣＨＭとしてフェージングし、次いでトランスｐＣＨＭとしてフェージングされたｐＣＨＭをＣＨＭとして分類することを含む。

いくつかの例示的な実施形態では、バリアントを複合ヘテロ接合性変異としてフェージングすることは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む。

いくつかの例示的な実施形態では、本方法は、さらに、（１）機能的効果優先度に応じてＣＨＭにスコアを付与すること、及び（２）サンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択し、ヒトが同一遺伝子内に複数のＣＨＭを有する場合に、タンパク質機能抑制をもたらす可能性が最も高いＣＨＭが同定されるようにすることをさらに含む。

いくつかの例示的な実施形態では、バリアントをｄｅｎｏｖｏ変異としてフェージングすることは、（１）第２の第一度家族ネットワーク及びそのトリオのサンプルの中のバリアントを同定すること、（２）遺伝子型尤度スコアを、トリオ内の親サンプル及び対応する子サンプルのバリアントに割り当て、バリアントがｄｅｎｏｖｏ変異である確率を計算し、計算した確率が統計的に有意な場合に、そのバリアントを推定ｄｅｎｏｖｏ変異として同定すること、（３）トリオの子サンプルのバリアントを同定し、トリオのいずれの親サンプルにもバリアントが存在しない場合に、そのバリアントを推定ｄｅｎｏｖｏ変異として同定すること、（４）子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有する推定ｄｅｎｏｖｏ変異、または複数のヒト被験者由来のサンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の親サンプルに約２％を超えるアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに約１５％未満のアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに約９０％を超えるＡＢを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の親サンプルに代替アレルホモ接合性を有する推定ｄｅｎｏｖｏ変異、またはこれらの組み合わせの推定ｄｅｎｏｖｏ変異を除去することによって同定される推定ｄｅｎｏｖｏ変異をフィルタ処理すること、ならびに（５）フィルタ処理済みの同定された推定ｄｅｎｏｖｏ変異を組み合わせて、それによって推定ｄｅｎｏｖｏ変異データセットを形成することを含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異データセット内の推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、子サンプルで約０．１５以上、かつ各親サンプルで約０．０２以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のＭＡＣがサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、中信頼度ｄｅｎｏｖｏ変異を、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティアノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプスを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替リードデプスを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、ＳＮＰについて約３より大きいＱＤを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、ＩＮＤＥＬについて約５より大きいＱＤを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

一態様では、本開示は、集団における複合ヘテロ接合性変異（ＣＨＭ）を同定する方法であって、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定すること、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、統合同祖性推定に基づいて第２の第一度家族ネットワークを構築すること、集団アレル頻度に応じて、サンプルの中のバリアントをフェージングすること、フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類すること、ならびに潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた潜在ＣＨＭをＣＨＭとして分類することを含む方法を提供する。

いくつかの例示的な実施形態では、本方法は、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、本方法は、被験者の第１の同祖性推定及び第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、バリアントをフィルタ処理することは、複数のヒト被験者由来のサンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数のヒト被験者由来のサンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む。

いくつかの例示的な実施形態では、本方法は、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することを含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである。

いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む。
いくつかの例示的な実施形態では、本方法は、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む。

いくつかの例示的な実施形態では、集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のＤＮＡ配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む。

いくつかの例示的な実施形態では、潜在ＣＨＭは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント（ＭＡＣ）に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである。

いくつかの例示的な実施形態では、本方法は、機能的効果優先度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得することをさらに含む。

いくつかの例示的な実施形態では、ＤＮＡ配列サンプルはエクソーム配列を含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、１０Ｋを超える被験者を含む。

いくつかの例示的な実施形態では、低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ（ＫＳ）検定を使用して、サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される。

いくつかの例示的な実施形態では、集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む。

別の態様では、本開示は、集団における複合ヘテロ接合性変異（ＣＨＭ）を同定する非一時的なコンピュータ実行方法を提供する。概して、本非一時的なコンピュータ実行方法は、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、データプロセッサを使用すること、祖先スーパークラス内での被験者の第１の同祖性推定を生成するために、データプロセッサを使用すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成するために、データプロセッサを使用すること、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングするために、データプロセッサを使用すること、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成するために、データプロセッサを使用すること、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得するために、データプロセッサを使用すること、統合同祖性推定に基づいて第２の第一度家族ネットワークを構築するために、データプロセッサを使用すること、集団アレル頻度に応じて、サンプルの中のバリアントをフェージングするために、データプロセッサを使用すること、フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類するために、データプロセッサを使用すること、ならびに潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた潜在ＣＨＭをＣＨＭとして分類するために、データプロセッサを使用することを含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである。

いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む。
いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、機能的効果優先度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得することのために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、低クオリティサンプルのＤ−ｓｔａｔは、ＫＳ検定を使用して、サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される。

別の態様では、本開示は、本方法及び非一時的なコンピュータ実行方法を実行するためのシステムを提供する。本システムは、概して、データプロセッサ、データプロセッサに結合されたメモリ、及びメモリに格納されたプログラムを含み、プログラムが、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定する、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立する、祖先スーパークラス内での被験者の第１の同祖性推定を生成する、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成する、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングする、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成する、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得する、統合同祖性推定に基づいて第２の第一度家族ネットワークを構築する、集団アレル頻度に応じて、サンプルの中のバリアントをフェージングする、フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類する、ならびに潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた潜在ＣＨＭをＣＨＭとして分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、プログラムは、被験者の第１の同祖性推定及び第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するための命令を含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである。

いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む。
いくつかの例示的な実施形態では、プログラムは、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、機能的効果優先度に応じてＣＨＭにスコアを付与する、及びサンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得するための命令を含む。

別の態様では、本開示は、集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）を同定する方法を提供する。概して、本方法は、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定すること、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、統合同祖性推定に基づいて核家族を構築すること、核家族におけるバリアントを同定すること、構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、バリアントがｄｅｎｏｖｏ変異である確率を計算するとともに、独立して、トリオのどちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定して、そのバリアントがｄｅｎｏｖｏ変異である確率を計算し、次いで両方の確率を組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成することを含む。

いくつかの例示的な実施形態では、本方法は、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、本方法は、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む。
いくつかの例示的な実施形態では、遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のＤＮＡ配列サンプルに基づいている。

いくつかの例示的な実施形態では、本方法は、遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、本方法は、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、バリアントをフィルタ処理することは、子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、またはサンプル中で１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む。

いくつかの例示的な実施形態では、本方法は、バリアントに品質管理メトリクスでアノテーションを付けることをさらに含む。
いくつかの例示的な実施形態では、本方法は、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、各親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のＭＡＣがサンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、子サンプルで約０．１５以上、かつ各親サンプルで約０．０２以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）がサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

いくつかの例示的な実施形態では、本方法は、中信頼度ｄｅｎｏｖｏ変異を、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替ＤＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む。

別の態様では、本開示は、集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）を同定する非一時的なコンピュータ実行方法を提供する。概して、本非一時的なコンピュータ実行方法は、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、データプロセッサを使用すること、祖先スーパークラス内での被験者の第１の同祖性推定を生成するために、データプロセッサを使用すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成するために、データプロセッサを使用すること、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングするために、データプロセッサを使用すること、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成するために、データプロセッサを使用すること、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得するために、データプロセッサを使用すること、統合同祖性推定に基づいて核家族を構築するために、データプロセッサを使用すること、核家族におけるバリアントを同定するために、データプロセッサを使用すること、構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、バリアントがｄｅｎｏｖｏ変異である確率を計算するとともに、独立して、トリオのどちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定して、そのバリアントがｄｅｎｏｖｏ変異である確率を計算し、次いで両方の確率を組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成するために、データプロセッサを使用することを含む。

いくつかの例示的な実施形態では、バリアントをフィルタ処理することは、複数のヒト被験者由来のサンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡に反するバリアントを除去すること、または複数のヒト被験者由来のサンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、バリアントをフィルタ処理することは、子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、またはサンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、バリアントに品質管理メトリクスでアノテーションを付けるために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、各親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のＭＡＣがサンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、子サンプルで約０．１５以上、かつ各親サンプルで約０．０２以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）がサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、中信頼度ｄｅｎｏｖｏ変異を、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替ＤＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類するために、データプロセッサを使用することをさらに含む。

別の態様では、本開示は、システムを提供する。本システムは、例えば、本方法及び非一時的なコンピュータ実行方法を実行するために使用されてもよい。本システムは、概して、データプロセッサ、データプロセッサに結合されたメモリ、及びメモリに格納されたプログラムを含み、プログラムが、複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定する、同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立する、祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成する、第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングする、第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成する、第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得する、統合同祖性推定に基づいて核家族を構築する、核家族におけるバリアントを同定する、構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、バリアントがｄｅｎｏｖｏ変異である確率を計算するとともに、独立して、トリオのどちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定して、そのバリアントがｄｅｎｏｖｏ変異である確率を計算し、次いで両方の確率を組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、プログラムは、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、バリアントに品質管理メトリクスでアノテーションを付けるための命令を含む。
いくつかの例示的な実施形態では、プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランスが、各親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のＭＡＣがサンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、推定ｄｅｎｏｖｏ変異を、推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、子サンプルで約１５％以上、かつ各親サンプルで約２％以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）がサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、プログラムは、中信頼度ｄｅｎｏｖｏ変異を、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替ＤＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む。

いくつかの例示的な実施形態では、本方法、非一時的なコンピュータ実行方法、またはシステムは、構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、バリアントがｄｅｎｏｖｏ変異である確率を計算し、バリアントがｄｅｎｏｖｏ変異である確率が有意に高いバリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いでｄｅｎｏｖｏ変異の２つのセットを組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成することを含む。

別の態様では、本開示は、ヒト集団における近縁性の予測モデルを提供する。予測モデルは、第１の集団データセットを確立すること、１２０年のバーンインフェーズを実行して、第２の集団データセットを確立すること、及び以下のステップを実施することによって、第２の集団データセットを修正することを含むプロセスによって準備し得る。（ａ）第２の集団データセット内の個人を、個人の年齢に応じて年齢プールに移動し、（ｂ）第２の集団データセット内の独身男性及び独身女性から、いとこよりも遠縁である独身男性及び独身女性のペアをランダムに選択し、年齢パラメータによって指定される結婚によって結婚させ、結婚率パラメータによって指定された数に達するまでペアを選択する。（ｃ）指定された離婚率で夫婦を離婚させる。夫婦は第２の集団データセットから無作為に選ばれ、離婚時に独身とマークされる。（ｄ）指定された比率で２番目の集団データセットから無作為に独身男性及び独身女性または既婚カップルのペアを選択し、成功した受胎の目標数に達するまで、指定された出生率に従ってそれらを再現できるようにする。両親は、第１のいとこよりも遠縁であることに制限されており、第２の集団データセットの全ての個人は１年に１人の子供を持つことに制限される。（ｅ）第２の集団データセットの個人が、特定の死亡率及び年齢パラメータにより、特定の死亡率で死亡することを許可する。（ｆ）個人が第２の集団データセットに出入りすることを許可し、これにより、集団の年齢と性別の分布、及び第２の集団データセット内の結婚している生殖可能な年齢の者の割合が維持される。（ｇ）個人が第２の集団データセット内を移動できるようにし、これにより、サブ集団から個人がランダムに選択され、サブ集団間の指定された移動率が達成されるまで、存在する場合は、無作為に別の集団に割り当てられる。ステップ（ａ）〜（ｇ）を１年間隔で所定の年数繰り返し、ステップは前の繰り返しから得られた集団データセットに適用される。

いくつかの例示的な実施形態では、第１の集団のデータセットを確立することは、いくつかのサブ集団及びサイズを指定することをさらに含む。
いくつかの例示的な実施形態では、第１の集団のデータセットを確立することは、ゼロと最大受胎年齢との間の第１の集団データセット内の個人に年齢を割り当てることをさらに含む。

いくつかの例示的な実施形態では、最大受胎年齢は４９歳である。
いくつかの例示的な実施形態では、バーンインフェーズを実行することは、第２の集団データセット内の個人の出生数及び死亡数を等しく保ち、個人の正味の移動率をゼロに保つことをさらに含む。

いくつかの例示的な実施形態では、バーンインフェーズの実行はさらに、個人が最低出生可能年齢を超える年齢になると、個人の第２の集団のデータセットを青年プールから交配プールに移動すること、及び個人が最大受胎可能年齢を超える年齢になると、個人を交配プールから高齢者プールに移動すること、ならびに個人が移住または亡くなった場合、全ての年齢層から個人を除去することを含む。

いくつかの例示的な実施形態では、出生の最低年齢は１５歳、最高受胎年齢は４９歳である。
別の態様では、本開示は、予測モデルを使用する方法を提供し、個人の確認はランダムに行われる。

別の態様では、本開示は、予測モデルを使用する方法を提供し、個人を確認することは、クラスタ化された方法で実行される。
いくつかの例示的な実施形態では、個人を確認することは、確認された個人間の第一度または第二度の関係、またはその両方を含む、確認された個人に関する近縁性データ及び関連統計を収集することをさらに含む。

集団の近縁性を活用することによって、集団における遺伝的バリアントのフェージング／同定が行われる例示的な実施形態のフローチャートである。集団における複合ヘテロ接合性変異（ＣＨＭ）が同定される例示的な実施形態のフローチャートである。集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）が同定される例示的な実施形態のフローチャートである。例示的な実施形態による、ヒト集団における近縁性の予測モデルを作成する方法のフローチャートである。同祖性が判定される例示的な実施形態のフローチャートを表す。同祖性が判定される例示的な実施形態のフローチャートを表す。同祖性が判定される例示的な実施形態のフローチャートを表す。同祖性が判定される例示的な実施形態のフローチャートを表す。集団において複合ヘテロ接合性変異（ＣＨＭ）が同定／フェージングされる例示的な実施形態のフローチャートを表す。集団において複合ヘテロ接合性変異（ＣＨＭ）が同定／フェージングされる例示的な実施形態のフローチャートを表す。集団において複合ヘテロ接合性変異（ＣＨＭ）が同定／フェージングされる例示的な実施形態のフローチャートを表す。集団においてｄｅｎｏｖｏ変異（ＤＮＭ）が同定される例示的な実施形態のフローチャートを表す。ＤＮＭのコール、フィルタ処理、及び信頼度ランキングのワークフロー。ＧＱ＝遺伝子型クオリティである。ＭＡＣはＤｉｓｃｏｖＥＨＲのマイナーアレルカウントである。ＤＰ＝ＤＮＭサイトのリードデプスである。ＡＤ＝代替アレルデプスである。ＡＢ＝代替アレルバランスである。ＭＱ＝マッピングクオリティである。ＱＤ＝ＤｉｓｃｏｖＥＨＲｐＶＣＦと呼ばれる接合のクオリティバイデプス（クオリティバイデプス）である。ホモポリマーＩＮＤＥＬは、同じヌクレオチドの４つ以上の連続した塩基対を持つＩＮＤＥＬである。ブラックリストに登録された遺伝子には、ＰＤＥ４ＤＩＰ、ＰＲＡＭＥＦ１、ＰＡＢＰＣ３、ＮＢＰＦ１０、ＮＢＰＦ１４、嗅覚遺伝子（ＯＲ^＊）、ＭＵＣ遺伝子（ＭＵＣ^＊）、及びＨＬＡ遺伝子（ＨＬＡ−^＊）が含まれる。集団においてｄｅｎｏｖｏ変異（ＤＮＭ）が同定される例示的な実施形態のフローチャートを表す。ＤＮＭのコール、フィルタ処理、及び信頼度ランキングのワークフロー。ＧＱ＝遺伝子型クオリティである。ＭＡＣはＤｉｓｃｏｖＥＨＲのマイナーアレルカウントである。ＤＰ＝ＤＮＭサイトのリードデプスである。ＡＤ＝代替アレルデプスである。ＡＢ＝代替アレルバランスである。ＭＱ＝マッピングクオリティである。ＱＤ＝ＤｉｓｃｏｖＥＨＲｐＶＣＦと呼ばれる接合のクオリティバイデプス（クオリティバイデプス）である。ホモポリマーＩＮＤＥＬは、同じヌクレオチドの４つ以上の連続した塩基対を持つＩＮＤＥＬである。ブラックリストに登録された遺伝子には、ＰＤＥ４ＤＩＰ、ＰＲＡＭＥＦ１、ＰＡＢＰＣ３、ＮＢＰＦ１０、ＮＢＰＦ１４、嗅覚遺伝子（ＯＲ^＊）、ＭＵＣ遺伝子（ＭＵＣ^＊）、及びＨＬＡ遺伝子（ＨＬＡ−^＊）が含まれる。Ａ、Ｂ、Ｃ及びＤは、様々なタイプの集団ベースのゲノム研究、及び対応するサンプリング方法の概要を提供するスキームを表し、厳密な確認が家族構造を増加させ、使用する必要がある統計分析アプローチに影響を与えることを示す。パネルＡは、（１）従来の集団ベースのゲノム研究（灰色のボックス）、（２）医療集団ベースのゲノム（ＨＰＧ）研究（緑色のボックス）、及び（３）家族ベースのゲノム研究（黄色のボックス）の概略図を示す。パネルＢは、前述の３つの確認アプローチにおける家族構成の線グラフを示す。パネルＣは、前述の３つの確認アプローチにおける家族構造の散布図を示す（線は、前述の３つの確認アプローチから確認された第一度及び第二度のペアワイズ関係を示す）。パネルＤは、家族構成のレベルに基づいて４つのカテゴリに分類された統計分析アプローチを示す。分析されたデータセット（ＤｉｓｃｏｖＥＨＲデータセット；実施例を参照）の中の潜在複合ヘテロ接合性変異（ｐＣＨＭ）のフェーズを決定するために行われたカスケード分析の概要を示す例示的な実施形態のフローチャートである。例示的な動作環境である。開示された方法を実行するために構成された複数のシステム構成要素を示す。Ａ、Ｂ、Ｃ、及びＤは、例示的な実施形態によるＤｉｓｃｏｖＥＨＲコホートからの第１の６１Ｋのシークエンシングされた個人に見られる近縁性を示す。パネルＡは、ＩＢＤ０対ＩＢＤ１のプロットを示す。例示的な実施形態によるＤｉｓｃｏｖＥＨＲコホートからの第１の６１Ｋのシークエンシングされた個人に見られる近縁性を示す。パネルＢは、分析されたコホート内の第一度家族ネットワークのサイズ分布をプロットしたヒストグラムを示す。例示的な実施形態によるＤｉｓｃｏｖＥＨＲコホートからの第１の６１Ｋのシークエンシングされた個人に見られる近縁性を示す。パネルＣは、ペアワイズＩＢＤ推定から再構築された、シークエンシングされた２５の個人を含む第一度家族ネットワークの家系図を示す。例示的な実施形態によるＤｉｓｃｏｖＥＨＲコホートからの第１の６１Ｋのシークエンシングされた個人に見られる近縁性を示す。パネルＤは、７，０８４の個人の最大の第二度家族ネットワークを表現するスキームを示す。例示的な実施形態によって確認されたデータセット内の確認された個人の数の関数として、ＤｉｓｃｏｖＥＨＲコホート内の近縁性の累増を示す。例示的な実施形態によって確認されたデータセット内の確認された個人の数の関数として、ＤｉｓｃｏｖＥＨＲコホート内の近縁性の累増を示す。例示的な実施形態による、６１ＫのＤｉｓｃｏｖＥＨＲ参加者の中にいる第一度血縁者の確認と、シミュレートされた集団のランダムな確認との比較を示す。パネルＡは、第一度血縁者ペアの確認を示す。例示的な実施形態による、６１ＫのＤｉｓｃｏｖＥＨＲ参加者の中にいる第一度血縁者の確認と、シミュレートされた集団のランダムな確認との比較を示す。パネルＢは、複数の第一度血縁者を持つ個人の数の確認を示す。例示的な実施形態による、シミュレートされた集団及び確認されたＤｉｓｃｏｖｅｒＥＨＲコホート内の第一度の近縁性の累増に適合する確認を示す。パネルＡは、第一度血縁者のペアの蓄積を示す。例示的な実施形態による、シミュレートされた集団及び確認されたＤｉｓｃｏｖｅｒＥＨＲコホート内の第一度の近縁性の累増に適合する確認を示す。パネルＢは、１人以上の第一度血縁者がいる確定した参加者の割合を示す。例示的な実施形態による、シミュレートされた集団及び確認されたＤｉｓｃｏｖｅｒＥＨＲコホート内の第一度の近縁性の累増に適合する確認を示す。パネルＣは、第一度の関係の数の上限と下限とともにシミュレーションされた確認予測を示す。例示的な実施形態による、シミュレートされた集団及び確認されたＤｉｓｃｏｖｅｒＥＨＲコホート内の第一度の近縁性の累増に適合する確認を示す。パネルＤは、第一度血縁者が１人以上いる、確認された参加者の割合の上限と下限とともにシミュレーションされた予測を示す。例示的な実施形態による、確認され拡張されたＤｉｓｃｏｖＥＨＲコホートからの最初の９２Ｋのシークエンシングされた個人を示す。パネルＡは、ＩＢＤ０対ＩＢＤ１のプロットを示す。例示的な実施形態による、確認され拡張されたＤｉｓｃｏｖＥＨＲコホートからの最初の９２Ｋのシークエンシングされた個人を示す。パネルＢは、分析されたコホート内の第一度家族ネットワークのサイズ分布をプロットしたヒストグラムを示す。例示的な実施形態による、確認され拡張されたＤｉｓｃｏｖＥＨＲコホートからの最初の９２Ｋのシークエンシングされた個人を示す。パネルＣは、ペアワイズＩＢＤ推定から再構築された、シークエンシングされた２５の個人を含む第一度家族ネットワークの家系図を示す。例示的な実施形態による、確認され拡張されたＤｉｓｃｏｖＥＨＲコホートからの最初の９２Ｋのシークエンシングされた個人を示す。パネルＤは、７，０８４の個人の最大の第二度家族ネットワークを表現するスキームを示す。例示的な実施形態による、シミュレートされた集団のランダムな確認と比較した、９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者の中にいる第一度血縁者の確認の間の比較を示す。パネルＡは、第一度血縁者ペアの確認を示す。例示的な実施形態による、シミュレートされた集団のランダムな確認と比較した、９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者の中にいる第一度血縁者の確認の間の比較を示す。パネルＢは、複数の第一度血縁者を持つ個人の数の確認を示す。例示的な実施形態による、拡張されたＤｉｓｃｏｖＥＨＲコホートにおける第一度近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＡは、第一度血縁者のペアの蓄積を示す。例示的な実施形態による、拡張されたＤｉｓｃｏｖＥＨＲコホートにおける第一度近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＢは、１人以上の第一度血縁者がいる確定した参加者の割合を示す。例示的な実施形態による、拡張されたＤｉｓｃｏｖＥＨＲコホートにおける第一度近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＣは、第一度の関係の数の上限と下限とともにシミュレーションされた確認予測を示す。例示的な実施形態による、拡張されたＤｉｓｃｏｖＥＨＲコホートにおける第一度近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＤは、第一度血縁者が１人以上いる、確認された参加者の割合の上限と下限とともにシミュレーションされた予測を示す。例示的な実施形態による、確認されたＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＡは、第一度及び第二度の血縁者のペアの蓄積を示す。例示的な実施形態による、確認されたＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＢは、１人以上の第一度及び第二度の血縁者がいる確定した参加者の割合を示す。例示的な実施形態による、確認されたＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＣは、第一度及び第二度の関係の数の上限と下限とともにシミュレーションされた確認予測を示す。例示的な実施形態による、確認されたＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＤは、第一度または第二度の血縁者が１人以上いる、確認された参加者の割合の上限と下限とともにシミュレーションされた予測を示す。例示的な実施形態による、確認された拡張ＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＡは、第一度及び第二度の血縁者のペアの蓄積を示す。例示的な実施形態による、確認された拡張ＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＢは、１人以上の第一度及び第二度の血縁者がいる確定した参加者の割合を示す。例示的な実施形態による、確認された拡張ＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＣは、第一度及び第二度の関係の数の上限と下限とともにシミュレーションされた確認予測を示す。例示的な実施形態による、確認された拡張ＤｉｓｃｏｖＥＨＲコホート内の第一度及び第二度の近縁性の蓄積をシミュレートした集団及び確認の適合を示す。パネルＤは、第一度または第二度の血縁者が１人以上いる、確認された参加者の割合の上限と下限とともにシミュレーションされた予測を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける個人ごと同定された複合ヘテロ接合性変異（ＣＨＭ）の数を示す。パネルＡは、ＤｉｓｃｏｖＥＨＲコホートにおける個人あたりのＣＨＭの数を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける遺伝子ごとに同定された複合ヘテロ接合性変異（ＣＨＭ）の数を示す。パネルＢは、ＤｉｓｃｏｖＥＨＲコホートにおける遺伝子あたりのＣＨＭの数を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける個人ごとに同定されたｄｅｎｏｖｏ変異（ＤＮＭ）の数を示す。パネルＣは、ＤｉｓｃｏｖＥＨＲコホートのトリオの子供間のエクソン高信頼度ＤＮＭの数の分布を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける遺伝子ごとに同定されたｄｅｎｏｖｏ変異（ＤＮＭ）の数を示す。パネルＤは、遺伝子ごとのいくつかの非同義のＤＮＭを示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲデータセットについて同定されたフェージング済みの複合ヘテロ接合性変異体（ＣＨＭ）バリアント間のゲノム距離の範囲を示すチャートである。（Ａ）大動脈瘤、（Ｂ）ＱＴ延長症候群、及び（Ｃ）甲状腺癌のバリアントを含む、既知の疾患の原因となるバリアントの分離を示すＤｉｓｃｏｖＥＨＲコホートから再構成された家系図を示す。ＬＤＬＲにおける縦列重複の２２／２９のキャリアを含む、シークエンシングされたＤｉｓｃｏｖＥＨＲから、およびシークエンシングされたコホートからの影響を受けていない１０人の血縁関係（第一度または第二度）のある個人から再構成された家系図である。９２Ｋディスカバー参加者間の潜在複合ヘテロ接合性変異（ｐＣＨＭ）のフェーズを決定するための例示的な実施形態の決定カスケードである。例示的な実施形態による、同定された複合ヘテロ接合性変異（ＣＨＭ）及びｄｅｎｏｖｏ変異（ＤＮＭ）についての結果となる拡張ＤｉｓｃｏｖＥＨＲコホートを示す。パネルＡは、ＤｉｓｃｏｖＥＨＲコホートにおける個人あたりのＣＨＭ数の分布を示す。例示的な実施形態による、同定された複合ヘテロ接合性変異（ＣＨＭ）についての結果となる拡張ＤｉｓｃｏｖＥＨＲコホートを示す。パネルＢは、遺伝子あたりのＣＨＭ数の分布を示す。例示的な実施形態による、ｄｅｎｏｖｏ変異（ＤＮＭ）についての結果となる拡張ＤｉｓｃｏｖＥＨＲコホートを示す。パネルＣは、ＤｉｓｃｏｖＥＨＲコホートのトリオの子供たちの間の３，４１５個のエクソン高信頼度及び中信頼度ＤＮＭの分布を示す。例示的な実施形態による、ｄｅｎｏｖｏ変異（ＤＮＭ）についての結果となる拡張ＤｉｓｃｏｖＥＨＲコホートを示す。パネルＤは、１つ以上の２，８０２遺伝子にわたる非同義ＤＮＭの分布を示す。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲについて同定されたフェージング済みの複合ヘテロ接合性変異体（ＣＨＭ）バリアント間のゲノム距離の範囲を示すチャートである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲデータセットで識別された、家族トリオの数、親の年齢を伴う家族のトリオ、１以上のエクソンＤＮＭを伴う発端者、エクソンＤＮＭ、中／高信頼度ＤＮＭ、単一ヌクレオチドＤＮＭ、中／高信頼度バリアント、及びランダムなバリアントを示すコホートプロファイルである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおける信頼度レベルごと及びヒトごとに同定されたＤＮＭの数を示す。パネルＡは、拡張ＤｉｓｃｏｖＥＨＲコホートにおける信頼度レベルごとのＤＮＭ数の分布を示す。パネルＢは、例示的な実施形態による、ＤＮＭが同定された拡張ＤｉｓｃｏｖＥＨＲコホートにおける個人あたりのＤＮＭ数分布を示す。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおける機能的効果ＤＮＭごとに同定されたＤＮＭ数分布をプロットするヒストグラムである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおけるＤＮＭのタイプ（トランジション、トランスバージョン、及びインデル）ごとに同定されたＤＮＭ数分布をプロットするヒストグラムである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおける単一ヌクレオチドＤＮＭのタイプ（→）ごとに同定されたＤＮＭ数分布をプロットするヒストグラムである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおける染色体あたり１０Ｍのエクソン塩基対ごとに同定されたＤＮＭ数分布をプロットするヒストグラムである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおいてＣＧジヌクレオチド（慣習的にＣｐＧと記され、「ｐ」は２つの塩基間のリン酸塩を表す）が富化されていることがわかっているゲノムの領域で発生するＤＮＭまたはランダムに選択されたバリアントのパーセンテージの分布をプロットする棒グラフである。ＬＤＬＲにおける新規ＦＨを引き起こす縦列重複の２５／３７のキャリア、及び２０の非キャリア、血縁関係（第一度または第二度）個人を含む、シークエンシングされた拡張ＤｉｓｃｏｖＥＨＲコホートから再構成された家系予測の画像を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける出生時の父方及び母方の年齢と、子供において同定されたエクソンＤＮＭの数との関係を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける出生時の父方及び母方の年齢と、子供において同定されたエクソンＤＮＭの数との関係を示す。例示的な実施形態による、ＤｉｓｃｏｖＥＨＲコホートにおける子供の出産時の母親及び父親の年齢と、子供において同定されたＤＮＭとの相関を示すチャートである。例示的な実施形態による、拡張ＤｉｓｃｏｖＥＨＲコホートにおいて同定されたＤＮＭ及びランダムバリアントの病原性予測をプロットするヒストグラムである。

「ａ」という用語は、「少なくとも１つ」を意味すると解されるべきである。「約」及び「およそ」という用語は、当業者によって理解されるであろう標準的な変動を許すと解されるべきである。範囲が提供される場合は、端点が含まれる。

これまでの大規模なヒトゲノム研究では、通常は、多数の様々な地理的地域及び／またはヘルスケアシステムにわたってヒトサンプルを収集し、それらを組み合わせて分析用のコホートを生成した。このようなコホートでは、サンプリングされる個人の総数はしばしば大きいが、これらのコホートにおける近縁性及び家族構造の範囲は比較的小さい傾向があった。ゲノム解析との関連で一般に用いられる多くの統計的手法では、関連解析及び主成分分析を含めて、全てのサンプルが血縁関係にないことを求められる。そうでない場合は、これらの検定の統計出力にバイアスがかかり、結果的にｐ値をつり上げ、偽陽性所見をもたらすことになる（図８）（Ｋａｎｇｅｔａｌ．（２０１０），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ４２，３４８−３５４、ＳｕｎａｎｄＤｉｍｉｔｒｏｍａｎｏｌａｋｉｓ（２０１２），ＭｅｔｈｏｄｓＭｏｌ．Ｂｉｏｌ．８５０，４７−５７、ＤｅｖｌｉｎａｎｄＲｏｅｄｅｒ（１９９９），Ｂｉｏｍｅｔｒｉｃｓ５５，９９７−１０４、及びＶｏｉｇｈｔａｎｄＰｒｉｔｃｈａｒｄ（２００５），ＰＬｏＳＧｅｎｅｔ１，ｅ３２−１０）。

近縁関係にあるサンプルがデータセットに少数しかない場合、データセットから家族構造を除去することは実行可能な選択肢である（Ｌｅｋ，ｅｔａｌ．（２０１６），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６，２８５−２９１、Ｆｕｃｈｓｂｅｒｇｅｒｅｔａｌ．（２０１６），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６，４１−４７、Ｌｏｃｋｅｅｔａｌ．（２０１５），Ｎａｔｕｒｅ５１８，１９７−２０６、及びＳｕｒｅｎｄｒａｎｅｔａｌ．（２０１６）ＮａｔＧｅｎｅｔ４８，１１５１−１１６１）。また、血縁関係にないデータのサブセットが、主成分（ＰＣ）を算出し、次いで残りのサンプルをこれらのＰＣに投影するなどの統計分析のために十分である場合には、家族構造の除去はやはり実現可能な選択肢となる（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４）。血縁関係にない個人の最大サイズのセットを研究者が保持するのに役立ついくつかの方法が存在する（Ｓｔａｐｌｅｓａｔａｌ．（２０１３），Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３７，１３６−１４１、Ｃｈａｎｇａｔａｌ．（２０１５），Ｇｉｇａｓｃｉｅｎｃｅ４，７）。残念ながら、血縁個人を除去するとサンプルサイズが小さくなるだけでなく、有用な関係の情報が破棄される。実際のところ、データセットが中程度の家族構造を有する場合であっても、そのような情報の損失は多くの分析では受け入れられない。

本開示は、複数対象者のゲノムサンプルのデータセットのうち家族構造及び家系構造ならびに近縁性に関する情報が、とりわけ、稀少遺伝的バリエーション（例えば、複合ヘテロ接合性変異及び／またはｄｅｎｏｖｏ変異）と病気との間のつながりを調査することを可能にする多くの分析の機会を与えることから、その情報は有用であるという認識に、少なくとも部分的に基づいている。

また、本開示は、ゲノムワイドな同祖性（ＩＢＤ）の推定が、複数対象者のゲノムサンプルのデータセット内の近縁性、及び２組の個人間の近縁性のレベルを定量化するための優れたメトリックであるという認識にも、少なくとも部分的に基づいている。

正確なペアワイズ関係をモデル化するいくつかの統計的手法が開発されている。例えば、混合モデルを用いるゲノムワイド関連解析は、より高性能であり、交絡近縁性をモデル化しない方法より性能が優れているが（Ｋａｎｇｅｔａｌ．（２０１０），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ４２，３４８−３５４、Ｚｈａｎｇｅｔａｌ．（２０１０），ＮａｔＧｅｎｅｔ４２，３５５−３６０、Ｙａｎｇｅｔａｌ．（２０１４），ＮａｔＧｅｎｅｔ４６，１００−１０６、ＫｉｒｋｐａｔｒｉｃｋａｎｄＢｏｕｃｈａｒｄ−Ｃｏｔｅ（２０１６），ａｒＸｉｖｑ−ｂｉｏ．ＱＭ）、混合モデルは、家族構造の中に含まれる情報を完全には活用せず、数十万のサンプルと数百から数千の表現型とを含むデータセットに合わせて、実際のところ、拡大することはできない。ペアワイズ関係を家系を用いないＱＴＬ連鎖解析に使用する場合もある（Ｄａｙ−Ｗｉｌｌｉａｍｓｅｔａｌ．（２０１１），Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３５，３６０−３７０）。ペアワイズ関係推定（ＰＣｒｅｌａｔｅ）（Ｃｏｎｏｍｏｓｅｔａｌ．（２０１６），Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９８，１２７−１４８）及び主成分分析（ＰＣ−ＡｉＲ）（Ｃｏｎｏｍｏｓｅｔａｌ．（２０１５），Ｇｅｎｅｔ．Ｅｐｉｄｅｍｉｏｌ．３９，２７６−２９３）のために、集団構造及び家族構造をモデル化する更なるソフトウェアパッケージがある。

従来のゲノムワイド関連解析とは対照的に、最近及び将来の大規模ゲノム研究、例えば、本開示に具体化される研究では、個別の地理的地域から、数万〜数十万人もの参加者をサンプリングする。結果的に、これらの研究は、同じ地理的地域から遥かに大きな割合の人々、したがって、サンプルデータセット内の家族構造及び家系構造を確認して、従来の集団全体の関連解析では正しく評価されていない家族において分離する稀少バリアントを同定する。

いくつかの理由によって、そのような大規模なゲノム研究のデータには、家族構造及び遠縁の隠れた近縁性が豊富に含まれる。第一に、これらの研究は、特定の地理的地域から、例えばヘルスケアシステム集団を通じて大量にサンプリングし、判明される血縁関係にある個人の対の数は、単一集団からより多くのサンプルが確認されるにつれて、組み合わせ的に増加する（図８Ａ）。第二に、同じ地理的地域に住んでいる家族は、共通の保険適用及び利便性のために、同じヘルスケアシステムにおいて同じ医師から医療を受けているものと考えられる。第三に、共通の遺伝的要因及び環境的要因は、特定の家族を対象にして医療連携の頻度を増加させる場合がある。移住率の低い集団では、家族構造及び遠縁の隠れた近縁性の両方とも、さらに一層顕著である（Ｈｅｎｎｅｔａｌ．（２０１２），ＰＬｏＳＯＮＥ７，ｅ３４２６７）。家族構造の影響力は、連鎖、家系に基づく分析、ＩＢＤモデル化、及び非血縁関係者の分析に対するサンプリング方法の効果を通して観察され得る（図８、パネルＤ）。「連鎖」とは、情報価値のある１つ以上の家系を用いる従来の連鎖解析のことをいう。「家系に基づく分析」とは、血縁関係がない個人を含むより大きなコホート内の家系構造を用いる連鎖の範囲を超えた統計的手法のことをいう。「ＩＢＤモデル化」とは、家系構造全体を用いずに個人間のペアワイズ関係をモデル化する分析のことをいう。「非血縁関係者の分析」とは、コホート内の全ての個人が非血縁関係にあると仮定する分析のことをいう。

本開示では、家族構造に焦点を合わせ、実データ及び模擬データの両方を使用して、高レベルの家族構造を明示する。本開示の改良点の１つは、複合ヘテロ接合性変異（ＣＨＭ）及び／またはｄｅｎｏｖｏ変異（ＤＮＭ）を、従来型のアプローチよりも正確かつ確実に同定し及び／またはフェージングすることである（実施例の節に開示されているデータ参照）。

したがって、本開示は、確認された集団における遺伝的バリアントを、集団の近縁性を活用することによってフェージングする方法を提供する。例示的なフェージング方法を概説するフローが図１に与えられる。

本方法は、様々な集団における各種遺伝的バリアントに適用し得る。評価し得る遺伝的バリアントの種類の非限定的な例には、点突然変異、挿入、欠失、逆位、重複、及び多量体化が含まれる。集団の種類の非限定的な例には、単一医療ネットワーク集団、複数医療ネットワーク集団、人種的、文化的、もしくは社会的に同種もしくは異種の集団、混合年齢集団もしくは年齢に関して均質な集団、地理的に集中した集団もしくは地理的に分散した集団、またはこれらの組み合わせが含まれる。遺伝的バリアントを取得し得る手段の非限定的な例は、次のステップを含む。

− サンプルの調製及びシークエンシング（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０）。
− シークエンシングの完了時に、各シークエンシングランからの生データがローカルバッファストレージに収集され、自動解析のために、ＤＮＡｎｅｘｕｓプラットフォーム（Ｒｅｉｄｅｔａｌ．（２０１４）；ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１５，３０）にアップロードされる。

− サンプルレベルのリードファイルが、ＣＡＳＡＶＡ（ＩｌｌｕｍｉｎａＩｎｃ．，ＳａｎＤｉｅｇｏ，ＣＡ）で生成され、ＢＷＡ−ｍｅｍでＧＲＣｈ３８（Ｌｉ及びＤｕｒｂｉｎ（２００９）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４−１７６；Ｌｉ（２０１３）；ａｒＸｉｖｑ−ｂｉｏ．ＧＮ）にアライメントされる。

− 結果として得られたＢＡＭファイルが、ソート、重複のマーク付け、及び推定インデル周辺のリードの局所的なアライメント修正の実行のために、ＧＡＴＫ（ＭｃＫｅｎｎａｅｔａｌ．（２０１０）；ＧｅｎｏｍｅＲｅｓ．２０，１２９７−１３０３）及びＰｉｃａｒｄを使用して処理される。

− シークエンシングされたバリアントは、転写産物及び遺伝子に対する機能的影響を明らかにするために、Ｅｎｓｅｍｂｌ８５遺伝子定義を使用して、ｓｎｐＥＦＦ（Ｃｉｎｇｏｌａｎｉｅｔａｌ．（２０１２）；Ｆｌｙ（Ａｕｓｔｉｎ）６，８０−９２）でアノテーションを付けられる。

本方法は、上記のどのステップにも限定されず、配列バリアントの取得を、任意好適な手段によって行い得ると解される。
図１は、集団の近縁性を活用することによって、集団における遺伝的バリアントのフェージング／同定が行われる例示的な実施形態のフローチャートである。複数のヒト被験者から得られた核酸配列サンプルのデータセットから、低クオリティの配列バリアントを、任意好適な手段によってステップ１で除去し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

サンプルの１つ以上のそれぞれについて祖先スーパークラスの指定を、任意好適な手段によって、ステップ２で確立し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）及び本実施例に開示されているものが挙げられる。

低クオリティサンプルを、任意好適な手段によって、ステップ３でデータセットから除去し得る。そのような手段の非限定的な例としては、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に開示されているもの、及び本実施例に開示されているものが挙げられる。

祖先スーパークラス内での被験者の第１の同祖性推定を、任意好適な手段によって、ステップ４で生成し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を、ステップ５及びステップ６で生成し得、第２の同祖性推定の１つ以上に基づいて、任意好適な手段によって、被験者を第１の第一度家族ネットワークにクラスタリングし得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を、任意好適な手段によって、ステップ７で生成し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

第１の同祖性推定と第３の同祖性推定とを、任意好適な手段によってステップ８で統合して、統合同祖性推定を取得し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

統合同祖性推定に基づいて被験者の第２の第一度家族ネットワークを、任意好適な手段によって、ステップ９で構築し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

ステップ１０で、バリアントを、任意好適な手段によって、統合同祖性推定及び第２の第一度家族ネットワークに応じて、複合ヘテロ接合性変異（ＣＨＭ）であるかもしくはＣＨＭではないものとしてフェージングし得、またはバリアントを、任意好適な手段によって、統合同祖性推定及び第２の第一度家族ネットワークに応じて、ｄｅｎｏｖｏ変異（ＤＮＭ）として同定し得る。そのような手段の非限定的な例としては、図６及び図７ならびに本実施例に開示されているものが挙げられる。

図５〜図７は、同祖性（ＩＢＤ）推定を生成し、そのＩＢＤ推定を使用して、複合ヘテロ接合性変異（ＣＨＭ）もしくは潜在複合ヘテロ接合性変異（ｐＣＨＭ）、またはｄｅｎｏｖｏ変異（ＤＮＭ）として遺伝子バリアントをフェージングする手法を、限定するためではなく説明のために、基本的な動作ロジックを示す。ロジック中で識別されるプログラム（例えば、ＥＡＧＬＥ、ＰＬＩＮＫなど）は、それらが識別されるステップの例となるものであるが、そのようなプログラムは、そのようなステップを実行する唯一の方法ではないことが理解される。

バリアントを複合ヘテロ接合性変異（ＣＨＭ）としてフェージングすることは、（１）集団アレル頻度に応じてバリアントをフェージングすること、（２）ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去すること、（３）同じサンプル内及び同じ遺伝子内に１つ以上のバリアントの対が存在する潜在複合ヘテロ接合性変異（ｐＣＨＭ）として残りのバリアントを選択すること、ならびに（４）ｐＣＨＭをシスｐＣＨＭまたはトランスｐＣＨＭとしてフェージングし、次いでトランスｐＣＨＭとしてフェージングされたｐＣＨＭをＣＨＭとして分類することを含み得る。集団アレル頻度に応じてバリアントをフェージングすることは、ＥＡＧＬＥ（Ｌｏｈｅｔａｌ．（２０１６），ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）を含むがこれに限定されない任意好適な手段によって促進し得る。ある一定の選択基準を満たさないバリアントは除去され得、残りのバリアントが潜在複合ヘテロ接合性変異として選択され、潜在複合ヘテロ接合性変異は、本実施例に記載されたものを含む任意好適な手段によってフェージングされる。また、これらの例示的な実施形態は図６にも示される。

バリアントを複合ヘテロ接合性変異としてフェージングすることは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含み得る。これらのステップは、除外パラメータがより厳しいレベルに設定されることを除いて、本明細書の他の箇所に記載されるように実施してもよい。

いくつかの例示的な実施形態では、本方法は、さらに、（１）機能的効果優先度に応じてＣＨＭにスコアを付与すること、及び（２）サンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択することを含み、ヒトが同一遺伝子内に複数のＣＨＭを有する場合に、タンパク質機能抑制をもたらす可能性が最も高いＣＨＭが同定されるようにするものとする。これらのステップは、ＳＩＦＴ（Ｌｏｈｅｔａｌ．（２０１６）；ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）（損傷を与える（ｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＤＩＶ４５（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＶＡＲ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＬＲＴ４６（有害（ｄｅｌｅｔｅｒｉｏｕｓ））、及びＭｕｔａｔｉｏｎＴａｓｔｅｒ（Ｓｃｈｗａｒｚｅｔａｌ．（２０１４）；Ｎａｔ．Ｍｅｔｈｏｄｓ１１、３６１−３６２）（必然的に疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇａｕｔｏｍａｔｉｃ）、及び疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇ））を含むが、これらに限定されない任意好適な手段によって行い得る。

バリアントをｄｅｎｏｖｏ変異としてフェージングすることは、（１）第２の第一度家族ネットワーク及びそのトリオのサンプルの中のバリアントを同定すること、（２）遺伝子型尤度スコアを、トリオ内の親サンプル及び対応する子サンプルのバリアントに割り当て、バリアントがｄｅｎｏｖｏ変異である確率を計算し、計算した確率が統計的に有意な場合に、そのバリアントを推定ｄｅｎｏｖｏ変異として同定すること、（３）トリオの子サンプルのバリアントを同定し、トリオのいずれのの親サンプルにもバリアントが存在しない場合に、そのバリアントを推定ｄｅｎｏｖｏ変異として同定すること、（４）子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有する推定ｄｅｎｏｖｏ変異、またはサンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の親サンプルに約２％を超えるアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに約１５％未満のアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または子サンプルに約９０％を超えるＡＢを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の親サンプルに代替アレルホモ接合性を有する推定ｄｅｎｏｖｏ変異、またはこれらの組み合わせの推定ｄｅｎｏｖｏ変異を除去することによって同定される推定ｄｅｎｏｖｏ変異をフィルタ処理すること、ならびに（５）フィルタ処理済みの同定された推定ｄｅｎｏｖｏ変異を組み合わせて、それによって推定ｄｅｎｏｖｏ変異データセットを形成することを含み得る。これらのステップは、本実施例に記載されたものを含む任意好適な手段によって行い得る。また、これらの例示的な実施形態は図７にも示される。

いくつかの例示的な実施形態では、本方法は、さらに、推定ｄｅｎｏｖｏ変異のアレルバランスが、子サンプルで約０．１５以上、かつ各親サンプルで約０．０２以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のＭＡＣがサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合、推定ｄｅｎｏｖｏ変異データセット内の推定ｄｅｎｏｖｏ変異を中信頼度ｄｅｎｏｖｏ変異として分類することを含む。いくつかの例示的な実施形態では、本方法は、さらに、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティアノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプスを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替リードデプスを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、中信頼度ｄｅｎｏｖｏ変異を、高信頼度ｄｅｎｏｖｏ変異として分類することを含む。どちらの例示的な実施形態も、本実施例に開示されたものを含むが、これらに限定されない、いずれかの方法で実施してもよい。

また、本開示は、集団における複合ヘテロ接合性変異（ＣＨＭ）を同定する方法を提供する。ＣＨＭを同定する方法の例を示すフローチャートが図２に与えられる。
本方法は、任意手段によって得られる任意の種類のヒト被験者に由来するあらゆる種類のＤＮＡ配列サンプルに適用し得る。バリアントの非限定的な例には、点突然変異、挿入、欠失、逆位、重複、及び多量体化が含まれる。ヒト被験者の種類の非限定的な例には、単一医療ネットワーク集団、複数医療ネットワーク集団、人種的、文化的、もしくは社会的に同種もしくは異種の集団、混合年齢集団もしくは年齢に関して均質な集団、地理的に集中した集団もしくは地理的に分散した集団、またはこれらの組み合わせからのヒト被験者が含まれる。ＤＮＡ配列サンプルは、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に開示されているものを含むが、これに限定されない多くの方法のいずれかで取得し得る。

いくつかの例示的な実施形態では、ＤＮＡ配列サンプルはエクソーム配列を含む。エクソームＤＮＡは、一般に使用される方法のいずれかによって、またはＤｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に記載の通りに単離し得る。

複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを、任意好適な手段によって、ステップ１１で同定し得る。バリアントを同定し得る手段の非限定的な例は、次のステップを含む。

− シークエンシングの完了時に、各シークエンシングランからの生データがローカルバッファストレージに収集され、自動解析のために、ＤＮＡｎｅｘｕｓプラットフォーム（Ｒｅｉｄｅｔａｌ．（２０１４）；ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１５，３０）にアップロードされる。

− サンプルレベルのリードファイルが、ＣＡＳＡＶＡソフトウェア（ＩｌｌｕｍｉｎａＩｎｃ．，ＳａｎＤｉｅｇｏ，ＣＡ）で生成され、ＢＷＡ−ｍｅｍでＧＲＣｈ３８（Ｌｉ及びＤｕｒｂｉｎ（２００９）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４−１７６；Ｌｉ（２０１３）；ａｒＸｉｖｑ−ｂｉｏ．ＧＮ）にアライメントされる。

本方法は、上記のどのステップにも限定されず、配列バリアントの取得を、任意好適な手段によって行い得ると解される。
図２は、集団における複合ヘテロ接合性変異（ＣＨＭ）が同定される例示的な実施形態のフローチャートである。同定されたバリアントに基づく被験者の祖先スーパークラスの指定を、任意好適な手段によって、ステップ１２で確立し得る。祖先スーパークラス内での被験者の第１の同祖性推定を、任意好適な手段によって、ステップ１３で生成し得る。被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を、任意好適な手段によって、ステップ１４で生成し得る。ステップ１５で、第２の同祖性推定の１つ以上に基づいて、任意好適な手段によって、被験者を第１の第一度家族ネットワークにクラスタリングし得る。第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を、任意好適な手段によって、ステップ１６で生成し得る。第１の同祖性推定と第３の同祖性推定とを、任意好適な手段によって、ステップ１７で統合して、統合同祖性推定を取得し得る。ステップ１８で、統合同祖性推定に基づいて、任意好適な手段によって、第２の第一度家族ネットワークを構築し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む。

ＥＡＧＬＥ（Ｌｏｈｅｔａｌ．（２０１６），ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）を含むがこれに限定されない任意好適な手段によって、集団アレル頻度に応じてサンプルの中のバリアントを、ステップ１９でフェージングし得る。

フェージングされたバリアントの対を、同じ被験者及び遺伝子における２つのそのバリアントの存在に基づいて、ステップ２０で潜在ＣＨＭとして分類し得る。このことは、同じ人物の遺伝子内のへテロ接合性ｐＬｏＦ及び／または有害ミスセンスバリアントの全てのあり得る組み合わせを検査することによって確認された。

潜在ＣＨＭを、ステップ２１でシスまたはトランスとしてフェージングし得、トランスとしてフェージングされた潜在ＣＨＭをＣＨＭとして分類し得る。潜在ＣＨＭは、好適な手段のいずれかによってフェージングし得る。非限定的な例では、ＥＡＧＬＥを用いる集団アレル頻度ベースのフェージングと家系／関係ベースのフェージングとの組み合わせが使用されて、潜在ＣＨＭの相が、シスかトランスかを判定する（この例示的なプロセスは、図９にも示される）。

いくつかの例では、本方法は、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含み、いくつかの例示的な実施形態では、本方法は、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。バリアントを、任意好適な手段によってフィルタ処理してもよい。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

いくつかの例示的な実施形態では、バリアントをフィルタ処理することは、複数のヒト被験者由来のサンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数のヒト被験者由来のサンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む。ある一定の選択基準を満たさないバリアントは除去され得、残りのバリアントが潜在複合ヘテロ接合性変異として選択され、潜在複合ヘテロ接合性変異は、本実施例に記載されたものを含む任意好適な手段によってフェージングされる。また、これらの例示的な実施形態は図６にも示される。

いくつかの例示的な実施形態では、本方法は、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することを含む。低クオリティサンプルを、任意好適な手段によって除去し得る。そのような手段の非限定的な例としては、一般的に知られているＤｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に開示されているもの、及び本実施例に開示されているものが挙げられる。いくつかの例示的な実施形態では、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルが、除去される低クオリティサンプルであるように、パラメータが調節される。

第１の同祖性推定と第３の同祖性推定とを統合することは、第３の同祖性推定に特有のペアワイズ同祖性推定を補って、第１の同祖性推定を増強することを含み得、これは、例えば限定されないが、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示される手段によって促進し得る。

いくつかの例示的な実施形態では、本方法は、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理することをさらに含み、このフェージングは、いくつかの例示的な実施形態では、ヒト被験者のＤＮＡ配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含み得る。集団アレル頻度に応じてバリアントをフェージングすることは、ＥＡＧＬＥ（Ｌｏｈｅｔａｌ．（２０１６），ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）を含むがこれに限定されない任意好適な手段によって促進し得る。集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含んでもよい。集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含んでもよい。ある一定の選択基準を満たさないバリアントは除去され得、残りのバリアントが潜在複合ヘテロ接合性変異として選択され、潜在複合ヘテロ接合性変異は、本実施例に記載されたものを含む任意好適な手段によってフェージングされる。また、これらの例示的な実施形態は図６にも示される。

潜在ＣＨＭは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされ得、またはマイナーアレルカウント（ＭＡＣ）に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである。フェージングは、当技術分野で一般的に用いられる任意好適な方法によって促進し得る。非限定的な例では、ＥＡＧＬＥを用いる集団アレル頻度ベースのフェージングと家系／関係ベースのフェージングとの組み合わせが使用されて、潜在ＣＨＭをフェージングする。また、この例示的なプロセスは図９にも示される。

いくつかの例示的な実施形態では、本方法は、機能的効果優先度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い機能的効果優先度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得することをさらに含む。これらのステップは、ＳＩＦＴ（Ｌｏｈｅｔａｌ．（２０１６）；ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）（損傷を与える（ｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＤＩＶ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＶＡＲ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＬＲＴ（有害（ｄｅｌｅｔｅｒｉｏｕｓ））、及びＭｕｔａｔｉｏｎＴａｓｔｅｒ（Ｓｃｈｗａｒｚｅｔａｌ．（２０１４）；Ｎａｔ．Ｍｅｔｈｏｄｓ１１、３６１−３６２）（必然的に疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇａｕｔｏｍａｔｉｃ）、及び疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇ））を含むが、これらに限定されない任意好適な手段によって行い得る。

また、本開示は、集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）を同定する方法をも提供する。ＤＮＭを同定する方法の例を示すフローチャートが図３に与えられる。
本方法は、任意手段によって得られる任意の種類のヒト被験者に由来するあらゆる種類のＤＮＡ配列サンプルに適用し得る。バリアントの非限定的な例には、点突然変異、挿入、欠失、逆位、重複、及び多量体化が含まれる。ヒト被験者の種類の非限定的な例には、単一医療ネットワーク集団、複数医療ネットワーク集団、人種的、文化的、もしくは社会的に同種もしくは異種の集団、混合年齢集団もしくは年齢に関して均質な集団、地理的に集中した集団もしくは地理的に分散した集団、またはこれらの組み合わせからのヒト被験者が含まれる。ＤＮＡ配列サンプルは、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に開示されているものを含むが、これに限定されない多くの方法のいずれかで取得し得る。

ＤＮＡ配列サンプルは、エクソーム配列を含むか、またはエクソーム配列である。エクソームＤＮＡは、一般に使用される方法のいずれかによって、またはＤｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に記載の通りに単離し得る。

複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを、任意好適な手段によって、ステップ２２で同定し得る。バリアントを同定し得る手段の非限定的な例は、次のステップを含む。

本開示は、上記のどのステップにも限定されず、配列バリアントの取得を、任意好適な手段によって行い得ると解される。
図３は、集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）が同定される例示的な実施形態のフローチャートである。同定されたバリアントに基づく被験者の祖先スーパークラスの指定を、任意好適な手段によって、ステップ２３で確立し得る。祖先スーパークラス内での被験者の第１の同祖性推定を、任意好適な手段によって、ステップ２４で生成し得る。被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を、任意好適な手段によって、ステップ２５で生成し得る。ステップ２６で、第２の同祖性推定の１つ以上に基づいて、任意好適な手段によって、被験者を第１の第一度家族ネットワークにクラスタリングし得る。第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を、任意好適な手段によって、ステップ２７で生成し得る。第１の同祖性推定と第３の同祖性推定とを、任意好適な手段によって、ステップ２８で統合して、統合同祖性推定を取得し得る。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含み得る。

さらに、統合同祖性推定に基づいて、ステップ２９で核家族を構築し得る。核家族におけるバリアントを、ステップ３０で同定し得る。ステップ３１で、構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに、遺伝子型尤度スコアを付与し得て、そのバリアントがｄｅｎｏｖｏ変異である確率を計算し得るとともに、独立して、トリオのどちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定し得て、そのバリアントがｄｅｎｏｖｏ変異である確率を計算し得、次いで推定ｄｅｎｏｖｏ変異の両方のセットを組み合わせ得、それによって、推定ｄｅｎｏｖｏ変異のデータセットを形成する。上記のステップを実施する手段の非限定的な例としては、本実施例に開示されているものが挙げられる。

いくつかの例示的な実施形態では、本方法は、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含み、いくつかの例示的な実施形態では、本方法は、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。バリアントを、任意好適な手段によってフィルタ処理してもよい。そのような手段の非限定的な例としては、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示されているものが挙げられる。

バリアントをフィルタ処理することは、複数のヒト被験者由来のサンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数のヒト被験者由来のサンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含み得る。ある一定の選択基準を満たさないバリアントは除去され得、残りのバリアントが潜在複合ヘテロ接合性変異として選択され、潜在複合ヘテロ接合性変異は、本実施例に記載されたものを含む任意好適な手段によってフェージングされる。

いくつかの例示的な実施形態では、本方法は、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することを含む。低クオリティサンプルを、任意好適な手段によって除去し得る。そのような手段の非限定的な例としては、一般的に知られていて、したがって本明細書ではこれ以上詳述されないＤｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に開示されているもの、及び本実施例に開示されているものが挙げられる。

いくつかの例示的な実施形態では、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルが、除去される低クオリティサンプルであるように、パラメータが調節される。いくつかの例示的な実施形態では、低クオリティサンプルのＤ−ｓｔａｔは、ＫＳ検定を使用して、サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される。

第１の同祖性推定と第３の同祖性推定とを統合することは、第３の同祖性推定に特有のペアワイズ同祖性推定を補って、第１の同祖性推定を増強することを含み得、これは、例えば限定されないが、ＰＬＩＮＫ（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７）、及び本実施例に開示される手段によって促進され得る。

バリアントをフィルタ処理することは、子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、またはサンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含み得る。推定ｄｅｎｏｖｏ変異を中信頼度ｄｅｎｏｖｏ変異として分類することは、推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、子サンプルで約１５％以上、かつ各親サンプルで約２％以下の場合、及び推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）がサンプル全体にわたって約２０未満の場合、及び推定ｄｅｎｏｖｏ変異のソフトクリップリードが、推定ｄｅｎｏｖｏ変異のキャリアにおけるバリアントサイトで約３以下の場合、及び推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に行われ得る。中信頼度ｄｅｎｏｖｏ変異を高信頼度ｄｅｎｏｖｏ変異として分類することは、中信頼度ｄｅｎｏｖｏ変異が、親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、各親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、子サンプルにおいて約７以上の代替ＤＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に行われ得る。これらのステップは、任意好適な手段によって行い得る。

本実施例に記載されたものを含む。また、これらの例示的な実施形態は図７にも示される。
本明細書で使用される「Ｄ−ｓｔａｔ」という用語は、低クオリティサンプルを同定するのに生成し使用し得るＱＣメトリクスを指す。サンプルのクオリティが低いのは汚染に起因する場合があり、下流の分析で問題を引き起こす場合がある。サンプルのＤ−ｓｔａｔは、例えば、サンプルの実際のアレルバランスの分布を参照アレルバランスの分布（例えば、予想されるアレルバランスの分布）と比較することによって計算してもよい。この参照分布は、例えば、分析すべきサンプルをクエリするのに使用されるものと同じプラットフォームを使用してキャプチャされ配列決定される汚染の形跡が全くない複数のサンプルから計算してもよい。本明細書で使用されるＤ−ｓｔａｔのＱＣメトリクス値は、ｐ値の計算に先立ってＫ−Ｓ（Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ）検定から生成されるＤ統計値と同等である。Ｄ−ｓｔａｔには単位がない。Ｋ−Ｓ検定のＤ統計値は、０と１との間の値になり、１は、参照分布及びサンプル分布の累積分布間の極大差を意味する。いくつかの例示的な実施形態では、サンプルの実際のアレルバランスの分布を、Ｋ−Ｓ検定に従って計算されたアレルバランスの予想される分布／参照分布と比較することによって、低クオリティサンプルが同定される。いくつかの例示的な実施形態では、特定のＤ−ｓｔａｔ値を有すると判定されたサンプルは、低クオリティサンプルとみなされ、以降の分析から除外される。いくつかの例示的な実施形態では、低クオリティであるとみなされ、除外すべきサンプルのＤ−ｓｔａｔ値は、０．０１、０．０２、０．０３、０．０４、０．０５、０．０６、０．０７、０．０８、０．０９、０．１、０．１１、または０．１２よりも大きい。好ましい実施形態では、低クオリティであるとみなされ、除外すべきサンプルのＤ−ｓｔａｔ値は、約０．１２よりも大きい。さらに一層好ましい実施形態では、低クオリティであるとみなされ、除外すべきサンプルのＤ−ｓｔａｔ値は、０．１２よりも大きい。

記載されており、または例示されている方法のいずれも、非一時的なコンピュータ実行方法として、及び／またはシステムとして実施し得る。このために、当業者に知られている任意好適なコンピュータシステムを使用してよい。

図１０は、本方法及びシステムが動作し得る例示的な環境２０１の様々な態様を示す。本方法は、デジタル及びアナログの両方の機器を使用する各種のネットワーク及びシステムで使用し得る。本明細書では、機能説明が提供され、それぞれの機能が、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアとの組み合わせによって実行し得ることが示されている。

環境２０１は、ローカルデータ／処理センタ２１０を含み得る。ローカルデータ／処理センタ２１０は、１つ以上のコンピューティングデバイスの間の通信を助けるために、ローカルエリアネットワークなどの１つ以上のネットワークを含んでもよい。１つ以上のコンピューティングデバイスを用いて、生物学的データの保存、処理、分析、出力、及び／または視覚化を行い得る。環境２０１は、任意選択で、医療データプロバイダ２２０を含んでもよい。医療データプロバイダ２２０は、生物学的データの１つ以上の情報源を含み得る。例えば、医療データプロバイダ２２０は、１人以上の患者の医療情報が入手可能な１つ以上の医療システムを含み得る。医療情報は、例えば、病歴、医療専門家の見解及び注釈、検査室報告、診断、医師命令、処方箋、バイタルサイン、体液バランス、呼吸機能、血液パラメータ、心電図、Ｘ線写真、ＣＴスキャン、ＭＲＩデータ、臨床試験結果、診断、予後、評価、入院及び退院の記録、ならびに患者登録情報を含み得る。医療データプロバイダ２２０は、１つ以上のコンピューティングデバイスの間の通信を促進するために、ローカルエリアネットワークなどの１つ以上のネットワークを含んでもよい。１つ以上のコンピューティングデバイスを用いて、医療情報の保存、処理、分析、出力、及び／または視覚化を行い得る。医療データプロバイダ２２０は、医療情報を匿名化し、この匿名化医療情報をローカルデータ／処理センタ２１０に提供し得る。匿名化医療情報は、医療情報を匿名化された状態に保ちながらも、ある患者の医療情報と別の患者の医療情報を区別するために、患者ごとに一意の識別子を含み得る。匿名化医療情報により、患者の個人情報が患者の特定の医療情報に関連付けされないようにする。ローカルデータ／処理センタ２１０は、匿名化医療情報を分析して、（例えば、国際疾病分類「ＩＣＤ」コード及び／または医師診療行為用語「ＣＰＴ」コードを付与することによって）各患者に１つ以上の表現型を付与してもよい。

環境２０１は、ＮＧＳシークエンシング施設２３０を含み得る。ＮＧＳシークエンシング設備２３０は、１つ以上のシークエンサ（例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑ２５００、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓＰａｃＢｉｏＲＳＩＩなど）を含み得る。１つ以上のシークエンサは、エクソームシークエンシング、全エクソームシークエンシング、ＲＮＡ−ｓｅｑ、全ゲノムシークエンシング、ターゲットシークエンシングなどのために構成され得る。例示的な態様では、医療データプロバイダ２２０は、匿名化医療情報に関連している患者由来の生体サンプルを提供してもよい。一意の識別子が用いられて、生体サンプルと、その生体サンプルに対応する匿名化医療情報との間の関連が維持され得る。ＮＧＳシークエンシング施設２３０は、生体サンプルを基に各患者のエクソームを配列決定し得る。シークエンシングに先立って生体サンプルを保管するために、ＮＧＳシークエンシング施設２３０は、バイオバンク（例えば、ＬｉｃｏｎｉｃＩｎｓｔｒｕｍｅｎｔｓ製）を備えてもよい。チューブ（患者に割り当てられた各チューブ）中に生体サンプルを収容することができ、各チューブは、サンプルをローカルデータ／処理センタ２１０に自動的に記録するためにスキャンされ得るバーコード（または他の識別子）を備えてもよい。ＮＧＳシークエンシング施設２３０は、均質のデータと効率的な無停止運用とを保証するために、シークエンシングの１つ以上のフェーズで用いるための１つ以上のロボットを備えてもよい。このようにして、ＮＧＳシークエンシング施設２３０は、年間数万のエクソームを配列決定することができる。一態様では、ＮＧＳシークエンシング施設２３０は、月当たり少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１０，０００、１１，０００、または１２，０００の全エクソームを配列決定する機能的能力を有する。

ＮＧＳシークエンシング施設２３０によって生成された生物学的データ（例えば、未加工のシークエンシングデータ）は、ローカルデータ／処理センタ２１０に転送され得、次いで、ローカルデータ／処理センタ２１０は、生物学的データをリモートデータ／処理センタ２４０に転送してもよい。リモートデータ／処理センタ２４０は、１つ以上のコンピューティングデバイスを含むクラウドベースのデータストレージ及び処理センタを備え得る。ローカルデータ／処理センタ２１０及びＮＧＳシークエンシング施設２３０は、１つ以上の大容量ファイバ線を介して、リモートデータ／処理センタ２４０との間でデータ通信をすることができるが、他のデータ通信システム（例えば、インターネット）も企図されている。例示的な態様では、リモートデータ／処理センタ２４０は、例えばアマゾンウェブサービス（ＤＮＡｎｅｘｕｓ）などのサードパーティシステムを含んでもよい。リモートデータ／処理センタ２４０は、分析ステップの自動化を容易にすることができ、安全な方法で１人以上の協働者２５０とデータを共有することを可能にする。ローカルデータ／処理センタ２１０から生物学的データを受け取ると、リモートデータ／処理センタ２４０は、バイオインフォマティクスツールを使用して、一次及び二次のデータ分析のための自動化された一連のパイプラインステップを実行し、結果としてサンプルごとにアノテーション付きバリアントファイルを生成し得る。そのようなデータ分析（例えば、遺伝子型）の結果は、ローカルデータ／処理センタ２１０に返送され得て、例えば、ラボラトリ情報管理システム（ＬＩＭＳ）に組み込まれ得、各生体サンプルの状態を維持するように構成され得る。

その後、ローカルデータ／処理センタ２１０は、ＮＧＳシークエンシング施設２３０及びリモートデータ／処理センタ２４０によって得られた生物学的データ（例えば、遺伝子型）を、匿名化医療情報（同定された表現型を含む）と組み合わせて利用して、遺伝子型と表現型との間の関連を同定してもよい。例えば、ローカルデータ／処理センタ２１０は、表現型優先のアプローチを適用してもよく、このアプローチでは、特定の疾患領域、例えば心臓血管疾患に対する極端な血中脂質において治療可能性を有し得る表現型が定義される。もう一つの例は、典型的な併存疾患の範囲から保護されていると思われる個人を同定するための肥満患者の研究である。別のアプローチは、遺伝子型と、例えば、遺伝子Ｘが疾患Ｙの発症か、または疾患Ｙからの保護に関与しているという仮説とに端を発するものである。

例示的な態様では、１人または複数人の協働者２５０が、インターネット２６０などのネットワークを介して、生物学的データ及び／または匿名化医療情報の一部または全てにアクセスし得る。

図１１に示す例示的な態様では、ローカルデータ／処理センタ２１０及び／またはリモートデータ／処理センタ２４０の１つ以上は、遺伝データ構成要素３００、表現型データ構成要素３１０、遺伝的バリアント−表現型関連データ構成要素３２０、及び／またはデータ分析構成要素３３０のうちの１つ以上を含む１つ以上のコンピューティングデバイスを備え得る。遺伝データ構成要素３００、表現型データ構成要素３１０、及び／または遺伝的バリアント−表現型関連データ構成要素３２０は、配列データの品質評価、参照ゲノムへのリードアライメント、バリアントの同定、バリアントのアノテーション、表現型の同定、バリアント−表現型関連の同定、データの可視化、それらの組み合わせなどのうちの１つ以上のために構成され得る。

例示的な態様では、構成要素の１つ以上は、全面的にハードウェアの実施形態、全面的にソフトウェアの実施形態、またはソフトウェア態様とハードウェア態様とを組み合わせた実施形態の形を取り得る。さらに、方法及びシステムは、記憶媒体中に取り入れられたコンピュータ可読プログラム命令（例えば、非一時的なコンピュータソフトウェア）を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形を取ってもよい。より具体的に、本方法及びシステムは、ウェブ上で実行されるコンピュータソフトウェアの形を取ってもよい。ハードディスク、ＣＤ−ＲＯＭ、光学記憶装置、または磁気記憶装置を含む任意好適なコンピュータ可読記憶媒体を利用してよい。

例示的な態様では、遺伝データ構成要素３００は、１つ以上の遺伝的バリアントに機能的にアノテーションするように構成され得る。また、遺伝データ構成要素３００は、１つ以上の遺伝的バリアントの保管、分析、受領などを行うように構成される場合もある。１つ以上の遺伝的バリアントは、１人以上の患者（被験者）から取得された配列データ（例えば、未加工の配列データ）から判断してアノテーションされ得る。例えば、１つ以上の遺伝的バリアントは、少なくとも１００，０００、２００，０００、３００，０００、４００，０００、または５００，０００人の被験者のそれぞれからアノテーションされ得る。１つ以上の遺伝的バリアントを機能的にアノテーションした結果、遺伝的バリアントデータが生成される。例として、遺伝的バリアントデータは、１つ以上のバリアントコールフォーマット（ＶＣＦ）ファイルを含む場合がある。ＶＣＦファイルは、ＳＮＰ、インデル、及び／または構造バリエーションのコールを構成するためのテキストファイル形式である。転写産物／遺伝子に対する機能的影響についてバリアントが評価され、潜在的な機能喪失（ｐＬｏＦ）候補が同定される。Ｅｎｓｅｍｂｌ７５遺伝子定義を使用して、バリアントがｓｎｐＥｆｆでアノテーションを付けられ、次いで機能的アノテーションが、バリアント（及び遺伝子）ごとにさらに処理される。

本明細書で提供される方法ステップの数字及び／または文字による連続したラベル付けは、方法またはそのいかなる例示的な実施形態をも特定の示された順序に限定することを意味しない。

特許、特許出願、公開された特許出願、アクセッション番号、技術論文、学術論文など、種々の出版物が本明細書全体を通して引用されている。これらの引用文献のそれぞれは、参照によりその全体があらゆる目的で本文書に援用される。

本開示は、本開示をより詳細に説明するために提供される以下の実施例を参照することによって、より完全に理解されるであろう。これらは例示を意図したものであり、本開示の範囲を限定するものと解釈されるべきではない。

実施例１．１
６１Ｋのヒトエクソームのコホートにおける関係の推定と近縁性の内容
６１Ｋのヒトエクソームのコホートを分析した。このコホートは、２０１４年に開始されたＲｅｇｅｎｅｒｏｎＧｅｎｅｔｉｃｓＣｅｎｔｅｒ（ＲＧＣ）及びＧｅｉｓｉｎｇｅｒＨｅａｌｔｈＳｙｓｔｅｍ（ＧＨＳ）による研究を起源としている（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４）。このＤｉｓｃｏｖＥＨＲ研究では、移住率の低い集団を扱う単一のヘルスケアシステムに属する患者を密にサンプリングした。この６１Ｋのヒトエクソームコホートは、本明細書ではＤｉｓｃｏｖＥＨＲデータセットと呼ぶ。膨大な量の家族構造をＤｉｓｃｏｖＥＨＲデータセット内で同定し、本明細書に開示されたシミュレーションでは、本研究で２５０Ｋのターゲットを確認したときに、データセット内の個人の７０％〜８０％が、第一度または第二度の血縁者を持つであろうと見積もられた。

同祖性（ＩＢＤ）推定を用いて、データセット内の様々な種類の家族関係を同定し、ＰＲＩＭＵＳ（Ｓｔａｐｌｅｓｅｔａｌ．（２０１４），Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９５，５５３−５６４）を用いて、ペアワイズ関係を種々の家族クラスに分類するとともに、家系を再構築した（実施例８でさらに説明する）。全エクソームシークエンシング（ＷＥＳ）データから遠縁の血縁者のＩＢＤ比率を正確に推定することに制限があるため、ＤｉｓｃｏｖＥＨＲデータセットサンプルの間に推定した第一度、第二度、及び信頼度の高い第三度の関係のみを含めた。

データセット内に、合計で、２０の一卵性双生児、８，８０２の親子関係、６，１２２の完全同胞関係、及び約２０，０００の第二度関係を同定した（図１２Ａ）。第二度関係及び第三度関係のＩＢＤ共有分布は互いに重なり合うため、この研究では、２つの期待平均値の間にハードカットオフ（ｈａｒｄｃｕｔｏｆｆ）を設定した。第三度関係（図１２Ａではアスタリスクで印が付けられている）は、エクソームデータの技術的な制限、ならびにより遠い関係クラス（例えば、第四度及び第五度）の期待される平均ＩＢＤ比率の周囲の拡張変動及び重複変動のために、正確に推定することは困難である。次に、無向グラフを生成するために、個人をノードとし、関係をエッジとして扱った。第一度関係のみを用いて、第一度家族ネットワークと呼ばれる７，６８４の連結成分を同定した。図１２Ｂは、第一度家族ネットワークのサイズの分布を示しており、これは２から２５までのシークエンシングされた個人の範囲に広がる。同様に、７，１３６の第二度家族ネットワークが見つかり、最大のものは７，１２３の個人を含んでいた（データセット全体の約１２％、図１２Ｄ）。図１２Ｄでは、第二度家族ネットワーク内の第一度家族ネットワークは、ネットワーク（図１２Ｃに示す第一度家族ネットワークの家系を含む）内の個人の数に比例したサイズの赤いボックスとして表す。単一の個人は、青いエッジとして描いた第二度の関係で結ばれる黒いノードとして表す。

第二度家族ネットワーク内に、約４，５００の第三度の関係を同定することもできた。表示される祖先グループ内のＩＢＤ推定のための最小ＩＢＤカットオフを緩和することにより、ＤｉｓｃｏｖＥＨＲデータセット内で５０Ｋを大幅に超す第三度関係を同定した。ヨーロッパ系の個人はＤｉｓｃｏｖＥＨＲデータセットの９６．５％を構成するに過ぎないが（以下の表１ａ参照）、データセットに見つかるペアワイズ関係の圧倒的多数（＞９９％）はヨーロッパ系の個人を含む（以下の表１ｂ参照）。いずれにしても、ヨーロッパ系の人々の間、非ヨーロッパ系の人々の間、及び種々の祖先を持つ個人の間には、多くの関係が存在する。例えば、子供が厳密に参照集団に適合しなかったために、子供に不明の祖先が割り当てられたヨーロッパ人の父親と東アジア人の母親とを含むトリオを、ＤｉｓｃｏｖＥＨＲデータセット中に見出した。

血縁者の累増率は、実験的にサンプルを確認した割合を遥かに超え（図１３Ａ）、シミュレーションを通じて（図１４Ａ）、血縁者の累増率は、サンプルを確認する割合を遥かに超えていた。さらなるペアワイズ関係の累増は、より多くの個人がこれらの関係に関わる結果となった。現在、６１Ｋの個人の５０．４％は、ＤｉｓｃｏｖＥＨＲデータセットに第一度または第二度の血縁者を１人以上有する（図１３Ｂ）。

実施例１．２
９２Ｋのヒトエクソームのコホートにおける関係の推定と近縁性の内容
より大きな９２，４５５のヒトエクソームの臨床コホートを分析した。このコホートは、２０１４年に開始されたＲｅｇｅｎｅｒｏｎＧｅｎｅｔｉｃｓＣｅｎｔｅｒ（ＲＧＣ）及びＧｅｉｓｉｎｇｅｒＨｅａｌｔｈＳｙｓｔｅｍ（ＧＨＳ）による進行中の研究を起源としている（Ｓｔａｐｌｅｓｅｔａｌ．（２０１８），Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．１０２（５）：８７４−８８９）。同様に、この拡張されたＤｉｓｃｏｖｅｒＥＨＲコホートは、中央ペンシルベニアの移住率が低い大部分が農村の集団を扱う単一のヘルスケアシステムからの参加者を密にサンプリングしたものである。

準備しシークエンシングした第１の６１Ｋサンプル（実施例１．１）を含むセットを、「ＶＣＲｏｍｅセット」と称した。残りの３１Ｋサンプルのセットは、ＮｉｍｂｌｅＧｅｎプローブによるキャプチャの代わりに、わずかに改変したバージョンのＩＤＴのｘＧｅｎプローブを用い、ＮｉｍｂｌｅＧｅｎのＶＣＲｏｍｅキャプチャ試薬によってカバーされるが、標準のｘＧｅｎプローブによってはカバーされにくいゲノムの領域をキャプチャするために、補足プローブを用いたことを除いて、同じプロセスによって調製した。キャプチャした断片はストレプトアビジン結合ビーズに結合させ、非特異的ＤＮＡ断片を、製造元（ＩＤＴ）の推奨プロトコルに従って、一連のストリンジェント洗浄によって除去した。この第２のサンプルセットを、「ｘＧｅｎセット」と称した。バリアントコールを、ＧＡＴＫで生成した。ＧＡＴＫは、推定インデル周辺の各サンプルの、アライメントし、重複にマークをつけたリードを、局所的にアライメント修正するために用いた。サンプルがゲノムバリアントコールフォーマット（ｇＶＣＦ）のゲノム参照と異なる全てのエクソン位置を同定するために、ＧＡＴＫのＨａｐｌｏｔｙｐｅＣａｌｌｅｒを使用して、ＩＮＤＥＬのアライメント修正した重複マーク付きのリードを処理した。各サンプル上のＧＡＴＫのＧｅｎｏｔｙｐｅＧＶＣＦと、単一ヌクレオチドバリアント（ＳＮＶ）及びインデルの両方を参照と比較して同定する単一サンプルのバリアントコールフォーマット（ＶＣＦ）ファイルを出力するランダムに選ばれた５０個のサンプルのトレーニングセットとを用いて、遺伝子型決定を達成した。次に、単一サンプルのＶＣＦファイルを使用して、両方のセットの単一サンプルＶＣＦファイルからの全ての変異性サイトを含む疑似サンプルを作成した。さらに、２００の単一サンプルｇＶＣＦファイルを疑似サンプルと共に共同でコールすることによって、ＶＣＲｏｍｅセット用の独立したｐＶＣＦファイルは、２つのキャプチャセットにわたる全ての変異性サイトで、各サンプルのコールまたは無コールを強制する。２００サンプルのｐＶＣＦファイル全てを組み合わせて、ＶＣＲｏｍｅのｐＶＣＦファイルを作成し、このプロセスを繰り返してｘＧｅｎのｐＶＣＦファイルを作成した。ＶＣＲｏｍｅのｐＶＣＦファイルとｘＧｅｎのｐＶＣＦファイルとを組み合わせて、結合ｐＶＣＦファイルを作成した。ＧＲＣｈ３８に配列リードをアライメントし、Ｅｎｓｅｍｂｌ８５遺伝子定義を用いることによって、バリアントにアノテーションを付けた。遺伝子定義は、アノテーション付きの開始及び停止を伴うタンパク質コードである１９，４６７の遺伝子に対応する５４，２１４の転写産物に制限した。サンプルのＱＣプロセスの後に、９２，４５５のエクソームを分析のために残した。

９２，４５５の個人の拡張したＤｉｓｃｏｖＥＨＲデータセットから、４３の一卵性双生児、１６，４７６の親子関係、１０，４７９の完全同胞関係、及び３９，０００の第二度関係を同定した（図１６、パネルＡ）。無向グラフを生成するために、個人をノードとし、関係をエッジとして扱った。第一度関係のみを用いて、第一度家族ネットワークと呼ばれる１２，５９４の連結成分を同定した。図１６、パネルＢは、第一度家族ネットワークのサイズの分布を示しており、これは２から２５までのシークエンシングされた個人の範囲に広がる。同様に、最大のもので１９，９６８（データセット全体の２２％、図１６、パネルＣ）の個人を含む、１０，１７３の第二度家族ネットワークを同定した。また、第二度家族ネットワーク内に、約５，３００の第三度の関係も同定した。第二度家族ネットワークを考慮することなく、祖先グループ内のＩＢＤ推定に低いＩＢＤカットオフ（ＰＩＪ＿ＨＡＴ＞０．０９８７５）を使用することで、拡張したＤｉｓｃｏｖＥＨＲコホート内に、１００，０００を超える第三度の関係を同定した。拡張したＤｉｓｃｏｖＥＨＲ個人の９５．９％がヨーロッパ系であったことを考えると（表２ａ）、見つかったペアワイズ関係の大多数（９８．６％）がヨーロッパ系の２つの個人間であったことは驚くに値しない（表２ｂ）。それにもかかわらず、ヨーロッパ系の人々の間、同じ非ヨーロッパ系の祖先を持つ人々の間、及び異なる祖先を持つ個人の間に、多くの関係を同定した。例えば、ヨーロッパ人の親１名、東アジア人の親１名、ならびにゲノムの種類が混在しているために祖先が超集団に割り当てられていない子供を含むトリオがいくつかあった。重要なことには、実験的に（図１７Ａ）かつシミュレーションを通じて（図１８Ａ）、血縁者の累増率は、サンプルを確認する割合を遥かに超えることが判明した。このことは、データセット内で可能なペアワイズ関係の数が、データセットのサイズが大きくなるにつれて組み合わせ的に増加し、また、データセット内の以前は無関係であった個人が、新しく同定された関係に関与してくる可能性も増加することを考えると、予想されたことである。現在、拡張したＤｉｓｃｏｖＥＨＲコホートのうちの３９％の個人は、データセット内に少なくとも１人の第一度血縁者を有する可能性があり、参加者の５６％は、データセット内に１人以上の第一度または第二度の血縁者を有する可能性がある（図１７、パネルＢ）。

実施例２
ＳｉｍＰｒｏｇｅｎｙを用いたシミュレーションと近縁性予想
ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲのデータセット内の関係ネットワークの成長のモデル化、理解、及び予測をしようとする試みで、シミュレーションフレームワーク（以下「ＳｉｍＰｒｏｇｅｎｙ」）を開発した。これは、複数のサブ集団にまたがって分散した数百年にわたる数百万人の血統をシミュレートすることが可能である。これらのシミュレートされた集団から、ＳｉｍＰｒｏｇｅｎｙは、様々なサンプリングアプローチをモデル化し、研究者が、所与の集団及びサンプリングパラメータのセットに対して見出すことを期待するだろう近縁性の量を推定することができる（実施例１７参照）。

ＳｉｍＰｒｏｇｅｎｙを用いて、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲの集団と、それぞれ、それらからの第１の６１Ｋ参加者及び第１の９２Ｋ参加者の確認とをシミュレートした。シミュレーションは、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲの参加者を、集団からランダムにサンプリングしたのではなく、近親血縁者に対してデータセットを濃縮したことを示す。図１４Ａ及び図１４Ｂに示すように、薄い線で結ばれた句読点で表示される周期的な「フリーズ」で、実データを計算した。また、６１Ｋ人のフリーズにおいて同定したサンプル及び関係を取得し、次いで、確認順序をシャッフルして、６１ＫのＤｉｓｃｏｖＥＨＲ参加者の前半は、後半に比べて、第一度の関係が濃縮されたことを示した。ＤｉｓｃｏｖＥＨＲを確認した実際の集団と同様のパラメータを使用して、様々なサイズの集団をシミュレートした。次に、これらの集団のそれぞれからランダムに確認を行って、どの集団のサイズが実データに最もよく適合しているかを確認した。重要な留意点は、これらの集団のサイズはどれも実データに適合せず、ランダムな確認アプローチは適合性が低いということである。第一度血縁者を濃縮する別の確認アプローチは、ランダムな確認と比べて、より良好な適合をもたらし得る。図１４Ａは、サイズ２７０Ｋの有効サンプリング集団における第一度血縁者ペアの確認が、実データのシャッフルしたバージョンによく適合するが、確認した６１Ｋの参加者より少ない血縁者ペアの数を低く見積もり過ぎ、６１Ｋの参加者を超える血縁者ペアの数を著しく高く見積もり過ぎることを示す。図１４Ｂは、２７０Ｋの集団が、１人以上の第一度血縁者を持つ個人の数については、シャッフルされた実データに最もよく適合するが、実データにはあまり適合しないことを示す。

拡張したＤｉｓｃｏｖＥＨＲデータセットを用いて、同様の結果が観察された（図１７Ａ及び図１７Ｂ）。次に、９２Ｋ人のフリーズにおいて同定したサンプル及び関係をシャッフルして、９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者の前半は、後半に比べて、第一度の関係が濃縮されたことを示した。次に、これらの集団のそれぞれからランダムに確認を行って、どの集団のサイズが実データに最もよく適合しているかを確認した。図１７Ａは、サイズ４０３Ｋの有効サンプリング集団における第一度血縁者ペアの確認が、実データのシャッフルしたバージョンによく適合するが、確認した９２Ｋの参加者より少ない血縁者ペアの数を低く見積もり過ぎ、９２Ｋの参加者を超える血縁者ペアの数を著しく高く見積もり過ぎることを示す。図１７Ｂは、４０３Ｋの集団が、１人以上の第一度血縁者を持つ個人の数については、シャッフルされた実データに最もよく適合するが、実データにはあまり適合しないことを示し、拡張されたＤｉｓｃｏｖＥＨＲの参加者がランダムに確認されなかったことを示唆する。

近親血縁者の濃縮は、ＤｉｓｃｏｖＥＨＲ（図１５Ａ及び図１５Ｂ）及び拡張ＤｉｓｃｏｖＥＨＲ（図１８Ａ及び図１８Ｂ）の実データに、より良好に適合するシミュレーションを生成するクラスタリングされた確認アプローチ（実施例１７参照）を使用することによってモデル化した。図１５及び図１８では、共に、薄い線で結ばれた句読点で表示される周期的な「フリーズ」で、実データを計算した。ほとんどのシミュレーションパラメータは、実際の集団の人口統計及びＤｉｓｃｏｖＥＨＲ確認アプローチに関する情報に基づいて設定した。ただし、２つのパラメータが不明であり、実データへの適合を踏まえて選択した。すなわち、１）サンプルが確認された有効な集団サイズ、及び２）「クラスタリングされた確認」と呼ばれる、以前に確認された第一度血縁者を考慮して誰かが確認される可能性の増加である。全てのパネルは、推定される有効な集団サイズにまたがる、シミュレーションされた同じ３つの集団のサイズを示す。クラスタリングされた確認は、ポアソン分布の第一度血縁者の乱数と連動して、個人をランダムに確認することによってシミュレートした（ポアソン分布のラムダ値は凡例に示される）。これらのシミュレーション結果は、有効なサンプリング集団のサイズが約４７５Ｋの個人であり、ラムダ０．２のポアソン分布が第一度血縁者の濃縮と最もよく一致することを示唆した。このことは、現在の参加者の大多数が、ＧＨＳ管轄区域全体（＞２５０万人）に均等に分散するのではなく、この例ではＰＡ州ダンビル（約５００Ｋ人）などの特定の地域の地理的領域に住んでいるという理解と一致した。

実データに適度に適合するシミュレーションパラメータを同定した後、ＳｉｍＰｒｏｇｅｎｙを使用して、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲの研究が２５０Ｋの参加者という目標まで拡張したときに期待されるべき第一度関係の総計予測を得た。結果は、参加者の確認を同じようにして継続するならば、ＤｉｓｃｏｖＥＨＲ（図１５Ｃ）及び拡張ＤｉｓｃｏｖＥＨＲ（図１８Ｃ）では、ＤｉｓｃｏｖＥＨＲ参加者の約６０％が関与して（図１５Ｄ）、かつ拡張ＤｉｓｃｏｖＥＨＲ参加者の約６０％が関与して（図１８Ｄ）、約１５０Ｋの第一度関係が期待されるはずであることを示した。

次に、シミュレーション分析を、第二度関係を含めるように拡張し、シミュレーション結果から、２５０Ｋの参加者では、ＤｉｓｃｏｖＥＨＲ（図１９）及び拡張ＤｉｓｃｏｖＥＨＲ（図２０）の個人の７０％超が関与する第一度及び第二度の関係を合わせた２００Ｋを優に超えることが期待されることが示唆された。この分析では、図中の薄い線で結ばれた句読点で表示される周期的な「フリーズ」で、実データを計算した。ほとんどのシミュレーションパラメータは、実際の集団の人口統計及びＤｉｓｃｏｖＥＨＲ確認アプローチに関する情報に基づいて設定した。全てのパネルは、推定される有効な集団サイズにまたがる、シミュレーションされた同じ３つの集団のサイズを示す。クラスタリングされた確認は、ポアソン分布の第一度血縁者の乱数及び第二度血縁者の別個の乱数と連動して、個人をランダムに確認することによってシミュレートした（どちらのポアソン分布も、図の凡例に示されているラムダを有する）。

シミュレーション結果は、ＤｉｓｃｏｖＥＨＲのＨＰＧ研究において近縁性の明確な濃縮を示し、さらなる参加者の確認を続けたときに見られることが予想される膨大な量の近縁性に対する重要な洞察を提供した。

実施例３．１
近縁性をＤｉｃｏｖｅｒＥＨＲデータセットの確率変数のように扱うことの代わりに、近縁性を活用すること
家系再構築ツールＰＲＩＭＵＳ（Ｓｔａｐｌｅｓｅｔａｌ．（２０１４），Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９５，５５３−５６４．）を使用して、ＤｉｓｃｏｖＥＨＲデータセットにおいて、７，６８４の全ての第一度家族ネットワークを再構築し、ＩＢＤ推定と報告された年齢とを考慮するとき、これらの家系の９８．９％が一意に再構築されることが分かった。これらの家系には、１，０８１の核家族（９２５のトリオ、１３４のカルテット、１９のクインテット、及び３つのセクステット）が含まれていた。以下の表３は、トリオの祖先別の内訳を示す。１，０８１の核家族を、それらの個々のトリオ構成要素に分割した。例えば、カルテットは、同じ親を持つ２つの別々のトリオに分けることになる。ＤｉｓｃｏｖＥＨＲコホートは、大半はヨーロッパ人であったため、トリオの大多数は、ヨーロッパ系の個人を含んでいた。不明の祖先を持つ個人は、概して、異なる系統を持つ親の子供であった。例えば、東アジア人−ヨーロッパ人−不明のトリオの３つ全ては、ヨーロッパ人の父親と東アジア人の母親とを含んでおり、混合された子供をもたらす。これらのヨーロッパ人−東アジア人の混合した個人に厳密に一致する参照集団がなかったため、これらは不明の祖先という結果となった。

図１２Ｃは、２５のシークエンシングされた個人を含むＤｉｓｃｏｖＥＨＲデータセットにおいて同定された最大の第一度家系を示す。これらの関係及び家系は、以下を含むいくつかの方法で使用した。

複合ヘテロ接合性変異
人類遺伝学の主な目的は、ヒトゲノム中の全ての遺伝子の機能をより深く理解することである。ホモ接合性機能喪失型変異（ＬｏＦ）は、これらの「ヒトノックアウト」（ＫＯ）の表現効果を分析することにより、遺伝子機能を洞察する力を得るための強力なツールである。最近の大規模シークエンシング研究では、稀少（ＭＡＦ＜１％）ホモ接合性ＬｏＦが特に注目されており、多くの遺伝子−表現型相互作用の同定において重要になっている（Ｌｅｋｅｔａｌ．（２０１６），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６，２８５−２９１、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４、Ｓａｌｅｈｅｅｎｅｔａｌ．（２０１７），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５４４，２３５−２３９、及びＮａｒａｓｉｍｈａｎｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５２，４７４−４７７）。２つのヘテロ接合性ＬｏＦの稀少複合ヘテロ接合性変異（ＣＨＭ）は、機能的には稀少ホモ接合性ＫＯと同等であるが、これらは、このような大規模シークエンシング研究ではめったに調査されない（Ｌｅｋｅｔａｌ．（２０１６），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６，２８５−２９１、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４、及びＳａｌｅｈｅｅｎｅｔａｌ．（２０１７），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５４４，２３５−２３９）。ＬｏＦの稀少ＣＨＭの正確な同定は、（１）稀少ＣＨＭがヒト遺伝子ＫＯ数を実質的に増加させ、統計的検出力を改善するため、（２）稀少ＣＨＭのＫＯが、ホモ接合性キャリアを欠き得る極めて稀少なヘテロ接合性変異を含む可能性があるため、及び（３）稀少ＣＨＭが、「ヒトＫＯプロジェクト」のためのより完全なＫＯセットを提供するため、価値がある（Ｓａｌｅｈｅｅｎｅｔａｌ．（２０１７），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５４４，２３５−２３９、Ｐｅｒｄｉｇｏｔｏ（２０１７），Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．１８，３２８−３２９）。

ＤｉｓｃｏｖＥＨＲデータセット内の稀少ＣＨＭの調査を行った。第一に、有害であるという強力な証拠を持つ、推定ＬｏＦ（ｐＬｏＦ、すなわち、ナンセンス変異、フレームシフト変異、またはスプライスサイト変異）またはミスセンスバリアントのいずれかである稀少ヘテロ接合性バリアントのペアで構成された、３９，４５９の高クオリティの潜在ＣＨＭ（ｐＣＨＭ）を同定した（実施例１０参照）。第二に、ｐＣＨＭは、ＥＡＧＬＥを使用するアレル頻度ベースのフェージングと、再構築された家系及び関係のデータを使用する家系ベースのフェージングとの組み合わせを使用してフェージングした（図９）。ＥＡＧＬＥは、トリオ検証に基づいて、９１．４％の精度でｐＣＨＭをフェージングした（以下の表４参照）。ただし、このコホート内には広範囲にわたる家系及び関係のデータがあったため、ｐＣＨＭのほぼ３分の１を、これらのデータに基づいて約１００％の精度でフェージングすることができ（以下の表４を参照）、不正確なフェージングを約３１％削減することが可能であった。フェージングされたｐＣＨＭは、シングルトンから１％ＭＡＦまでの全範囲に及んだ（以下の表５参照）。

トリオの子に発生したＭＡＦ＜１％かつＭＡＣ＞１の全てのｐＣＨＭを、再構築したトリオを用いてフェージングし、「真」であると見なした。子において、寄与バリアントの１つ以上がｄｅｎｏｖｏであると判定されたｐＣＨＭは除外した。次に、フェージング済みトリオのｐＣＨＭを使用して、他のフェージング方法を評価した。ＥＡＧＬＥの精度は、再構築した各核家族から１人の子供の第一度血縁者を全て除去し、次いで残りのデータセット中の全てのバリアントをフェージングすることによって評価した。ＥＡＧＬＥのフェージング済みｐＣＨＭを、トリオのフェージング済みｐＣＨＭと比較した。

ｐＣＨＭの精度は極めて稀少なバリアントでは低下する傾向があったため、２つのｐＣＨＭバリアントのうちのより稀少なＭＡＦを用いて、ｐＣＨＭをそれぞれの頻度ビンに入れた。ＭＡＣが１のｐＣＨＭは、関係データを用いてフェージングし、ｐＣＨＭキャリア中のｄｅｎｏｖｏ変異ではないと見なした。ｐＣＨＭの不明な相は、片方または両方のｐＣＨＭバリアントがＥＡＧＬＥ（ＭＡＣ＝１または欠損＞１０％）によってフィルタ処理された結果であり、フェージング用の関係データがないために発生した。

処理後、ｐＣＨＭの３９％をトランスにてフェージングし、６１Ｋの個人の１１，３７５の間に分布する、１３，３３５の稀少で有害なＣＨＭの高信頼度セットを産出した（平均＝０．２２；最大＝６；図２１、パネルＡ）。シスでのｐＣＨＭバリアント間のゲノム距離の中央値（５，３０８ｂｐｓ）は、トランスでのバリアント間の中央値距離（１１，２０１ｂｐｓ；図２２）の半分より少し少なかった。ＣＨＭのほぼ３分の１は少なくとも１つのｐＬｏＦを含み、ＣＨＭの９．８％は２つのｐＬｏＦバリアントで構成されていた（以下の表６を参照）。１９，４６７の標的化遺伝子のうち３，３８５を超える遺伝子が１つ以上のＣＨＭキャリアを含み（以下の表７を参照）、そのうちの１，５５５（４６％）は複数のキャリアを有していた。８５を超えるＣＨＭキャリアを持つ１１の遺伝子は、ＥｘＡＣのｐＬＩスコアに基づいて、ゲノムで最もＬｏＦ耐性があると推定された（Ｌｅｋｅｔａｌ．（２０１６），ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５３６，２８５−２９１）（以下の表８を参照）。

この表は、稀少（＜１％ＭＡＦ）ｐＬｏＦとミスセンスバリアントとで構成されているＣＨＭの内訳を提供する。また、これらのＣＨＭのいくつがインデル−インデル、インデル−ＳＮＰ、及びＳＮＰ−ＳＮＰペアリングを構成しているかも示す。

ＣＨＭが最も多い１１遺伝子については、ＥｘＡＣによって報告されたそれらのｐＬＩスコアを表示している。また、全ての遺伝子をｐＬＩスコアでランク付けし、報告ｐＬｉスコアを持つ遺伝子の総数で割ることによって計算した、ＬｏＦ許容値に対する各遺伝子のパーセンタイルも表示している。

^＊ＳＳＰＯのｐＬＩスコアは、ＥｘＡＣによって報告されていない。
ヒトノックアウト遺伝子のよりロバストなセットを取得し、ＣＨＭの付加価値を実証するために、ＣＨＭを、６１ＫのＤｉｓｃｏｖＥＨＲ参加者の間で見出された３，９１５のホモ接合性ｐＬｏＦと組み合わせた。ｐＬｏＦ−ｐＬｏＦのＣＨＭは、推定ＫＯを有する≧１及び≧１０の個人の遺伝子数を、それぞれ１５％及び５４％だけ増加させた（上記の表６を参照）。ＫＯ分析にＣＨＭを含めることの利点は、タンパク質の機能を混乱させると予測されるミスセンスバリアントを考慮した場合、さらに一層重要となった。つまり、ＣＨＭは、キャリアが１つ以上の遺伝子を２８％増加させ、キャリアが１０以上の遺伝子を２４６％増加させたが、この場合、遺伝子の両方のコピーは完全にノックアウトするかまたは攪乱されることが予測される。

トリオ検証の結果は、家族関係ベースのフェージングは１００％で正確（７５０／７５０ｐＣＨＭ）であり、ＥＡＧＬＥフェージングは９１．４％（４５９／５０２ｐＣＨＭ；上記表３参照）で、それほど正確ではないことを示した。また、Ｉｌｌｕｍｉｎａのリードデータの視覚的検証を、１９０のｐＣＨＭ（１１５のシス及び７９のトランス；１２６がＥＡＧＬＥでフェージングし、７４が家系／関係でフェージング）に対して実施した。視覚的検証は、家系／関係及びＥＡＧＬＥのフェージングに対して、全体的な精度がそれぞれ９５．８％及び８９．９％であった（以下の表９を参照）。Ｉｌｌｕｍｉｎａのリードベースの検証結果は、トリオ検証の結果と一致していたが、Ｉｌｌｕｍｉｎａのリードベースの検証精度の結果は、トリオを用いるフェージングによって決定されたフェージング精度よりも低かったことに留意すべきである。この差は、シークエンシング及びバリアントコールのエラーを起こしやすいエクソンの小さな問題を抱えた領域での偽陽性ｐＣＨＭの濃縮による可能性が高いと考えられる。

６１ＫのＤｉｓｃｏｖＥＨＲ参加者の中から、両方のバリアントが互いに７５塩基対以内にある２００のｐＣＨＭをランダムに選択し、次いで２つのバリアントにまたがるリードスタックを見ることによって、相を視覚的に検証した。１０個（５％）については、両方のバリアントにオーバーラップするリードが無いか、またはリードが矛盾する結果（すなわち、一部のリードがシスを示し、別の一部のリードがトランスを示した）をもたらすかいずれかのために、リードスタックを用いて確信的にフェージングすることができなかった。

ｄｅｎｏｖｏ変異
ｄｅｎｏｖｏ変異（ＤＮＭ）は、純化淘汰の低減に起因して、ヒトにおいて極端な表現型を生成する可能性が高い稀少バリエーションのクラスである。最近のシークエンシング研究は、ＤＮＭがヒトの遺伝的疾患の大きな要因であることを示しており（ｄｅＬｉｇｔｅｔａｌ．（２０１２），Ｎ．Ｅｎｇｌ．Ｊ．Ｍｅｄ．３６７，１９２１−１９２９、ＤｅｃｉｐｈｅｒｉｎｇＤｅｖｅｌｏｐｍｅｎｔａｌＤｉｓｏｒｄｅｒｓＳｔｕｄｙ（２０１７）．Ｐｒｅｖａｌｅｎｃｅａｎｄａｒｃｈｉｔｅｃｔｕｒｅｏｆｄｅｎｏｖｏｍｕｔａｔｉｏｎｓｉｎｄｅｖｅｌｏｐｍｅｎｔａｌｄｉｓｏｒｄｅｒｓ．ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５４２，４３３−４３８、及びＦｒｏｍｅｒｅｔａｌ．（２０１４），ＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５０６，１７９−１８４）、ＤＮＭが遺伝子機能をより深く理解するための有益なツールであることを示している。

ＤｉｓｃｏｖＥＨＲデータセットから再構築された核家族を使用して、トリオで１，２６２の有効な子供のうちの８８７に分布する１，８００の中信頼度及び高信頼度エクソンＤＮＭを確信的にコールした（実施例１２参照）。個人当たりのＤＮＭの平均数は１．４３で、最大は４９であった（図２１Ｃ）。ＰｏｌｙＰｈｅｎ２は、ＤＮＭの２８．２％（Ｎ＝５０７）を「ほぼ確実に損傷を与える（ｐｒｏｂａｂｌｙｄａｍａｇｉｎｇ）」と予測し、さらに８．６％（Ｎ＝１５４）を「損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ）」と予測した。ＤＮＭは、１，５９７の遺伝子にわたって分布し（図２１Ｄ）、１つの遺伝子のみが５超のＤＮＭを収容していた。最も一般的なタイプのＤＮＭは、非同義ＳＮＶ（５７．１７％）であり、これに同義ＳＮＶ（２５．５６％）が続いた。以下の表１０は、ＤＮＭタイプの全内訳を提供し、様々な機能クラスに分類されるＤＮＭの割合が、発育障害のある子供のＤＮＭについての最近の研究で見出された割合とよく一致していることを示す。

^＊発達障害解読研究（ＤＤＤ）（ＤｅｃｉｐｈｅｒｉｎｇＤｅｖｅｌｏｐｍｅｎｔａｌＤｉｓｏｒｄｅｒｓＳｔｕｄｙ（２０１７）．Ｐｒｅｖａｌｅｎｃｅａｎｄａｒｃｈｉｔｅｃｔｕｒｅｏｆｄｅｎｏｖｏｍｕｔａｔｉｏｎｓｉｎｄｅｖｅｌｏｐｍｅｎｔａｌｄｉｓｏｒｄｅｒｓ．ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ５４２，４３３−４３８）。ＤＤＤ論文はまた、我々の分析にもこの表にも含まれていない他のクラスの５７のＤＮＭを報告している。パーセンテージは、それに応じて調節した。

全ての機能クラスにまたがる、２３の高信頼度ＤＮＭ、３０の中信頼度ＤＮＭ、及び４７の低信頼度ＤＮＭの視覚的検証を行おうと試みた。８つの中信頼度バリアント及び２つの低信頼度バリアントを、真陽性または偽陽性のＤＮＭとして確信的にコールすることができなかった。残りの２３／２３（１００％）の高信頼度ＤＮＭ、１９／２２（８６％）の中信頼度ＤＮＭ、及び１２／４３（２８％）の低信頼度ＤＮＭは、真陽性であると確証できた。また、視覚的検証では、１０を超えるＤＮＭを持つ個人の潜在的なＤＮＭの大多数（４０／４９）が、偽陽性のコールである可能性が高いことも確認した。

家系におけるバリアントと表現型との分離
ＤｉｓｃｏｖＥＨＲデータセットの中から再構築された家系データを使用して、新規／稀少な集団のバリエーションと家族性バリアントとを区別し、この家系データを活用して、集団全体の関連解析で正当に評価されていない、家族において分離する高浸透性疾患のバリアントを同定した。これは、これらの家系を介して伝わる全ての既知のメンデル遺伝病の原因となるバリエーションの調査を意図したものではないが、家族性大動脈瘤（図２３、パネルＡ）、ＱＴ延長症候群（図２３、パネルＢ）、甲状腺癌（図２３、パネルＣ）、家族性高コレステロール血症（ＦＨ；図２４）（Ｍａｘｗｅｌｌ，Ｅ．Ｋ．，ｅｔａｌ．（２０１７）．Ｐｒｏｆｉｌｉｎｇｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎａｎｄｄｉｓｅａｓｅａｓｓｏｃｉａｔｉｏｎｓｆｒｏｍ５０，７２６ＤｉｓｃｏｖＥＨＲＳｔｕｄｙｅｘｏｍｅｓ）など、いくつかの説明に役立つ実例を確認した。ＦＨの例は、ＬＤＬＲの新規家族性高コレステロール血症を引き起こす縦列重複の２７／２９キャリアが再構築されたことから、特に興味深いものであった。５つのさらなるキャリア（描画せず）もこの家系に含まれていた。ＬＤＬ及び総コレステロールの上昇、ならびに冠動脈疾患及び早期発症虚血性心疾患（「虚血性心疾患年齢」は男性では５５歳未満、女性では６５歳未満）の有病率の増加は、重複キャリアと分離する。彼らの共通の祖先の履歴は、彼ら全員が、この重複事象を、約６世代前の共通の祖先から継承したことを示している。残りの２つのサンプルは互いに第一度血縁者であったが、それらは正常に遺伝子型決定されず、より大きな家系に接続することができなかった。

シークエンシング研究は、絶えず増え続ける大きさのヒト集団を捕集し、配列決定し続け、ヒトの近縁性の非常に複雑で絡み合った性質を明らかにしつつある。ＤｉｓｃｏｖＥＨＲデータセットでは、約３５Ｋの第一度及び第二度の関係を同定し、７，６８４家系を再構築し、７，０００人を超える参加者の第二度家族ネットワークを明らかにした。創設者集団の研究は、関係の複雑さを前々から強調しており（オールド・オーダー・アーミッシュ（ＭｃＫｕｓｉｃｋ，Ｖ．Ａ．，ＨＯＳＴＥＴＬＥＲ，Ｊ．Ａ．，ａｎｄＥＧＥＬＡＮＤ，Ｊ．Ａ．（１９６４）．ＧＥＮＥＴＩＣＳＴＵＤＩＥＳＯＦＴＨＥＡＭＩＳＨ，ＢＡＣＫＧＲＯＵＮＤＡＮＤＰＯＴＥＮＴＩＡＬＩＴＩＥＳ．ＢｕｌｌＪｏｈｎｓＨｏｐｋｉｎｓＨｏｓｐ１１５，２０３−２２２）、ハッタライト（Ｏｂｅｒｅｔａｌ．（２００１），ＴｈｅＡｍｅｒｉｃａｎＪｏｕｒｎａｌｏｆＨｕｍａｎＧｅｎｅｔｉｃｓ６９，１０６８−１０７９），及びアシュケナジム系ユダヤ人（Ｇｕｓｅｖｅｔａｌ．（２０１２），Ｍｏｌ．Ｂｉｏｌ．Ｅｖｏｌ．２９，４７３−４８６）、非創始者集団の最近の研究は、広範なレベルの近縁性（ＵＫＢｉｏｂａｎｋ（Ｂｙｃｒｏｆｔｅｔａｌ．（２０１７）．Ｇｅｎｏｍｅ−ｗｉｄｅｇｅｎｅｔｉｃｄａｔａｏｎ〜５００，０００ＵＫＢｉｏｂａｎｋｐａｒｔｉｃｉｐａｎｔ），ＮＨＡＭＥＳ（Ｍａｌｉｎｏｗｓｋｉｅｔａｌ．（２０１５），ＦｒｏｎｔＧｅｎｅｔ６，３１７）と、ＡｎｃｅｓｔｒｙＤＮＡ（Ｈａｎｅｔａｌ．（２０１７），ＮａｔＣｏｍｍｕｎ８，１４２３８．）とを報告している。かっては大規模なシークエンシングコホートに少数の個人のみが関与していたが、密接した関係は、大規模な医療集団ベースのゲノム（ＨＰＧ）研究で、大多数ではないにしても、大きな割合の個人を関わらせる可能性が高い。本明細書では、シミュレーションと実データとを通じて、多数の密接した家族関係、核家族、及び情報価値のある家系を取得できることを示した。この観察は、家族が同じヘルスケアシステムを訪問する傾向があり、遺伝的及び環境的疾患のリスクが類似しているため、ＨＰＧ研究のために収集されたデータセットでは、より顕著である可能性が高かった。コホート全体のごく一部に過ぎないことを知っていて、近縁関係にある個人のペアを関連研究から単純に除外することは、もはや不可能であることが明らかになりつつある。最大サイズの非血縁関係のセットを取得する従来のアプローチは、ＨＰＧコホートのサイズを劇的に減少させ、これらのタイプのコホートで実施される多くの重要な疾患表現型分析には適さない。代わりに、本明細書に概説した近縁性情報を活用するために新しい方法が必要である。

本研究では、近縁性情報を活用する方法について、いくつかの方法を実証している。第一に、稀少複合ヘテロ接合性変異（ＣＨＭ）のフェージング精度を改善した。ＥＡＧＬＥを用いてＣＨＭの正確なフェージングが得られたが、家系及び関係ベースのフェージングは遥かに正確であり、ｐＣＨＭのフェージングエラーは推定で３１％減少した。ペアワイズ関係を使用したフェージングでは、２つのバリアントが２人の血縁者に一緒に現れる場合、それらはシスにあり、共通の祖先から一緒に分離されていると想定しているため、ｐＣＨＭの関係に基づくフェージングの精度は、ＭＡＦが１％を超えるバリアントが含まれるとき、わずかに低下する可能性があった。独立して分離された２つの共通のバリアントが、複数の人々に同時に出現する可能性は非常に高く、その結果、アルゴリズムによって誤ってシスとしてフェージングされる。一般的なバリアントでは、集団アレル頻度を使用したフェージングの方が、関係ベースのフェージングよりも適切な場合がある。

第二に、ＨＰＧ研究で同定した関係の家系再構築によって、いくつかの方法で使用できる有益なトリオと情報価値のある家系とを提供した。１，２６２の再構築したトリオを、１，８００のＤＮＭを見出すのに使用し、拡張した家系を通じて、既知の疾患原因変異を追跡することが可能であった。情報価値のある家系の数とサイズは、集団のより大きい部分をシークエンシングするにつれて増加し続け、より豊富な家系データセットを提供するようになる。家系を介した稀少バリアントの伝播は、それが実在し、より伝統的なメンデル遺伝学的アプローチの使用を可能にするという強力な証拠を提供するので、家系及び関係は、非常に稀少なバリアントに対して特に有用である。家系は、フォローアップ調査で小規模から中規模の家系を増補するために、ＤｉｓｃｏｖＥＨＲの患者に再連絡し、追加の家族を採用する能力と組み合わせると、特に有用であることが判明した。

近縁性を対処する必要のある厄介な問題として見るのではなく、貴重で未開発の遺伝学的洞察の源を利用する機会として捉えるべきである。ゲノムに基づく精密医療の時代が始まり、ますます成長するシークエンシングコホートに含まれる家族構造と遠縁の近縁性とを効果的にマイニングすることができる革新的な方法とツールとが必要とされている。

実施例３．２
近縁性を拡張ＤｉｃｏｖｅｒＥＨＲデータセットの確率変数のように扱うことの代わりに、近縁性を活用すること
拡張ＤｉｓｃｏｖＥＨＲデータセット内の１２，５７４の第一度家族ネットワークの家系構造を、家系再構築ツールＰＲＩＭＵＳを使用して再構築した。ＬＢＤ推定及び報告された参加者の年齢を考慮すると、これらの家系の９８．９％が単一の家系構造に明確に再構築されることが分かった。これらの家系には、２，１９２の核家族（１，８４１のトリオ、２９７のカルテット、５０のクインテット、３つのセクステット、及び１つのセプテット）が含まれる。表１１は、トリオの祖先別の内訳を示す。図１４、パネルＣは、３４のシークエンシングされた個人を含む最大の第一度家系を示す。

複合ヘテロ接合性変異
稀少ヘテロ接合変異のペアで構成される５７，３５５の高クオリティｐＣＨＭは、推定ＬｏＦ（ｐＬｏＦ、すなわち、ナンセンス変異、フレームシフト変異、またはスプライスサイト変異）、または有害である強い証拠を有するミスセンスバリアントであることを認めた。次に、ＥＡＧＬＥによるアレル頻度ベースのフェージングと、再構築された家系及び関係のデータによる家系ベースのフェージングとの組み合わせを使用することによるｐＣＨＭのフェージングを実行した（図２５）。トリオ検証は、ＥＡＧＬＥが、平均８９．１％の精度でｐＣＨＭをフェージングしたことを示した（以下の表１２）。ただし、このコホートでは、広範な家系及び関係のデータのため、ｐＣＨＭの２５．２％をフェージングし、非常に正確なトリオ及び関係のフェージングデータ（Ｒ９８．０％；表１２）を有するトランスＣＨＭの３３．８％が、トランスＣＨＭの不正確なフェージングを約３分の１だけ減らした。フェージングされたｐＣＨＭは、シングルトンから１％ＭＡＦまでの全範囲に及んだ（以下の表１３参照）。

トリオの子に発生したＭＡＦ＜１％かつＭＡＣ＞１の全てのｐＣＨＭを、再構築したトリオを用いてフェージングし、「真」であると見なした。子において、寄与バリアントの１つ以上がｄｅｎｏｖｏであると判定されたｐＣＨＭは除外した。次に、フェージング済みトリオのｐＣＨＭを使用して、他方のフェージング方法を評価した。ＥＡＧＬＥの精度は、再構築した各核家族から１人の子供の第一度血縁者を全て除去し、次いで残りのデータセット中の全てのバリアントをフェージングすることによって評価した。ＥＡＧＬＥのフェージング済みｐＣＨＭを、トリオのフェージング済みｐＣＨＭと比較した。

処理後、ｐＣＨＭの４０．３％をトランスにてフェージングし、９２Ｋの個人の１７，５３３の間に分布する、２０，９４７の稀少で有害なＣＨＭの高信頼度セットを産出した（１人当たり平均約０．２３；１人当たり最大約１０；図２６、パネルＡ）。シスのｐＣＨＭバリアント間のゲノム距離の中央値（５，９５５ｂｐ）は、トランスでのｐＣＨＭ間の中央値距離（１１，６００ｂｐ；図２７）の半分より少し多かった。ＣＨＭのほぼ３分の１は少なくとも１つのｐＬｏＦを含み、ＣＨＭの８．９％は２つのｐＬｏＦバリアントで構成されていた（以下の表１４を参照）。１９，４６７の標的化遺伝子のうち４，２１６を超える遺伝子が１つ以上のＣＨＭキャリアを含み（以下の表１５を参照）、そのうちの２，４６８は複数のキャリアを有している（図２６、パネルＢ）。ＥｘＡＣのｐＬＩスコアは、ＣＨＭキャリアが１２５を超える１０の遺伝子が、ゲノム内で最もＬｏＦ耐性がある可能性が高いことを示す。（以下の表１６を参照）。

ＣＨＭが最も多い１０の遺伝子については、ＥｘＡＣ３によって報告されたそれらのｐＬＩスコアを表示している。また、全ての遺伝子をｐＬＩスコアでランク付けし、報告ｐＬｉスコアを持つ遺伝子の総数で割ることによって計算した、ＬｏＦ許容値に対する各遺伝子のパーセンタイルも表示している。

^＊ＳＳＰＯのｐＬＩスコアは、ＥｘＡＣによって報告されていない。
遺伝子の両方のコピーが同じ個人でノックアウトまたは攪乱される、よりロバストな遺伝子セットを得るとともに、ＣＨＭの付加価値を実証するために、ＣＨＭを、９２ＫのＤｉｓｃｏｖＥＨＲ参加者の間から見出した６，５６０の稀少（ＭＡＦ＜１％）ホモ接合性ｐＬｏＦと組み合わせた。ｐＬｏＦ−ｐＬｏＦのＣＨＭは、Ｒ１及びＲ２０の個人でノックアウトされた遺伝子の数を、それぞれ１５％及び６１％だけ増加させた（以下の表１６を参照）。ＣＨＭをＫＯ分析に含めることの利点は、タンパク質機能を攪乱させると予測されるミスセンスバリアントを考慮した場合、さらに一層重要になる。組み合わされた２０，３６４の稀少ホモ接合性ｐＬＯＦと、有害ミスセンスバリアントとが、９２Ｋの参加者に見つかった。ホモ接合性ｐＬｏＦまたは予測される有害ミスセンスバリアントのキャリアは、完全にノックアウトまたは攪乱されると予測される多数の遺伝子を提供した。ただし、ＣＨＭのキャリアを含めると、Ｒ１個人でノックアウトまたは攪乱される遺伝子が２６％多く、Ｒ２０個人でノックアウトまたは攪乱される遺伝子が３９７％多かった（表１５）。

ｄｅｎｏｖｏ変異
９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者から再構築された核家族は、トリオで２，６０２の有効な子供のうちの１，７８３に分布する３，４１５の中信頼度及び高信頼度エクソンＤＮＭを内密にコールすることができた（平均約１．３１；最大約４８；図２６、パネルＣ）。ＰｏｌｙＰｈｅｎ２は、ＤＮＭの２９．１％（ｎ〜９９５）を「ほぼ確実に損傷を与える（ｐｒｏｂａｂｌｙｄａｍａｇｉｎｇ）」と予測し、さらに９．２％（ｎ〜３１６）を、損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ）と予測している。ＤＮＭは２，８０２の遺伝子にわたって分布しており（図２６、パネルＤ）、ＴＴＮが最も多く（９）収容する。ＤＮＭの最も一般的なタイプは、非同義ＳＮＶ（５８．５％）であり、これに同義ＳＮＶ（２４．３％）が続く。表１７は、ＤＮＭタイプの全内訳を提供し、様々な機能クラスに分類されるＤＮＭの割合が、発育障害のある子供のＤＮＭについての最近の研究で見出された割合とほぼ一致することを示す。図７に記載の通り、ＤＮＭのコール、フィルタリング、及び信頼度順位付けのワークフローに従った。シークエンシングされた９２，４５５のＧＨＳエクソームのコホートから、２，６０２トリオを同定した（図２８）。低信頼度、中信頼度、及び高信頼度のＤＮＭに基づいてソートしたトリオから、６，６４５のエクソンＤＮＭを同定した。拡張ＤｉｓｃｏｖＥＨＲデータセットから再構築した家族を使用して、２，６０２の家族トリオから、３，４０９の中信頼度及び高信頼度のエクソンＤＮＭ、ならびに３，０４５の単一ヌクレオチドＤＮＭを確信的にコールした（図２９、パネルＡ及びＢ）。コホートのほとんどの個人は、ＤＮＭは５未満であった。さらに、シークエンシングした９２，４５５のＧＨＳエクソームのコホートから、２，６０２のトリオを同定し、これらを低信頼度、中信頼度、高信頼度のバリアントに基づいてソートして、１０，０００のランダムバリアントを生成する７３、１９２の中信頼度／高信頼度バリアントを提供した。

最も一般的なタイプのＤＮＭは、非同義ＳＮＶであり、これに同義ＳＮＶが続いた。ストップロスＳＮＶは、最も一少ないＤＮＭであった。この結果は、６１Ｋのエクソームシークエンシングデータを含むＤｉｓｃｏｖＥＨＲコホートで得られた結果と類似していた（以下の表１７を参照）。図３０は、拡張ＤｉｓｃｏｖＥＨＲコホートで見出される中信頼度及び高信頼度のエクソンＤＮＭ（ｎ＝３４０９）のタイプの全内訳を提供し、異なる機能的効果クラスに分類されるＤＮＭの割合を示す。

図３１は、拡張ＤｉｓｃｏｖＥＨＲコホートで見出した中信頼度及び高信頼度のエクソンＤＮＭ（ｎ＝３４０９）のタイプの内訳を提供し、トランジション、トランスバージョン、及びインデルによって引き起こされるＤＮＭの比率を示す。拡張ＤｉｓｃｏｖＥＨＲで見出した中信頼度及び高信頼度のエクソンＤＮＭ（ｎ＝３４０９）のうち、トランジションによる変異の数は２０３８であり、トランスバージョンによる変異の数は１００７であり、インデルによる変異の数は３６４であった。したがって、トランジションのトランスバージョンに対する比（Ｔｉ：Ｔｖ）は２：１であり、これは、他の研究から得られるトランジションのトランスバージョンに対する比と類似していた。単一ヌクレオチドＤＮＭ（ｎ＝３０４５）の中では、システインからチミン、グアニンからアデニンが最も一般的な変異であった（図３２）。

中信頼度及び高信頼度のＤＮＭは、常染色体の全体にわたって均一に分布していた。一方向のカイ二乗検定（χ^２検定）は、１０Ｍのエクソン塩基対当たりのＤＮＭが、ランダム分布（ｐ＝０．０４５）から大きく逸脱しないことを示した（図３３）。

ＣＧジヌクレオチド（慣習的にＣｐＧと記されており、「ｐ」は２つの塩基間のリン酸塩を表す）の変異は、ヒトにおける疾患の原因となる生殖細胞系変異の３分の１の原因である（ＣｏｏｐｅｒａｎｄＫｒａｗｃｚａｋ（１９９０）；Ｈｕｍ．Ｇｅｎｅｔ．８５：５５−７４）。中信頼度／高信頼度ＤＮＭ（ｎ＝３，４０９）のうち、約１３％のＤＮＭがＣｐＧアイランドでのＤＮＭによるものと説明された。ランダムなバリアント（ｎ＝１０，０００）のうち、約１０％のＤＮＭがＣｐＧアイランドにおけるＤＮＭに起因するものであることが説明された。ＤＮＭは、ランダムなバリアントよりもＣｐＧアイランドで発生する可能性が高かった（χ^２＝３２．３６６１、ｄｆ値＝１、ｐ値＝１．２８Ｅ−０８）（図３４）。このことは、これらのサイトの高可変性のためにより予想される。

全ての機能クラスにまたがる、２３の高信頼度ＤＮＭ、３０の中信頼度ＤＮＭ、及び４７の低信頼度ＤＮＭの視覚的検証を行う試みがなされた。８つの中信頼度バリアント及び２つの低信頼度バリアントを、真陽性または偽陽性のＤＮＭとして確信的にコールすることができなかった。残りの２３／２３（１００％）の高信頼度ＤＮＭ、１９／２２（８６％）の中信頼度ＤＮＭ、及び１２／４３（２８％）の低信頼度ＤＮＭは、真陽性であると確証した。また、視覚的検証では、１０を超えるＤＮＭを持つ個人の潜在的なＤＮＭの大多数（４０／４９）が、偽陽性のコールである可能性が最も高いことも確認した。

家系におけるバリアントと表現型との分離
９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者の中から再構築された家系データを使用して、稀少集団バリエーションと家族性バリアントとを区別し、これを活用して、家族において分離する高浸透性疾患のバリアントを同定した。これは、ＤｉｓｃｏｖｅｒＥＨＲデータセットと同様に、これらの家系を介して伝わる全ての既知のメンデル遺伝病の原因となるバリエーションの調査を意図したものではないが、家族性大動脈瘤、ＱＴ延長症候群、甲状腺癌、家族性高コレステロール血症（ＦＨ［ＭＬＭ：１４３８９０］；図３５）を同定している。ＣＮＶコールの更新時に、９２Ｋのエクソーム間でＦＨを引き起こす縦列重複の３７のキャリアを見つけている。これに基づいて、３７のキャリアのうち３０を単一の拡張家系に再構築した。キャリアの共通の祖先の履歴は、彼ら全員が、この重複事象を、約６世代前の共通の祖先から継承したことを示した。残りの７人のキャリアのうち２人は互いに第二度血縁者であるが、残りの７人のキャリアも図３６の他のキャリアと遠縁であることを確認するために、遺伝子型決定の配列データを入手することはできなかった。図３６に記載された家系では、キャリア及び非キャリアの状態は、各個人からのエクソームデータから決定され、最大ＬＤＬレベル（記号の下の値）の上昇、ならびに冠動脈疾患（ＣＡＤ、赤い塗りつぶし）の有病率の増加及び重複キャリアで分離された純粋な高コレステロール血症（ＩＣＤ２７２．０；青）が見られた。５人のさらなるキャリア（描かれず）は、この家系の個人の遠縁の血縁者（第七度から第九度の血縁者）であることも判明した（図３６）。

実施例４
患者とサンプル
予測モデルを、コホート、（Ａ）６１，７２０人の匿名化された患者のエクソームを持つＤｉｃｏｖＥＨＲコホート、及び（Ｂ）９２，４５５人の匿名化された患者のエクソームを持つ拡張ＤｉｃｏｖＥＨＲコホートに適用することにより、２セットのデータを収集した。

ＧｅｉｓｉｎｇｅｒＨｅａｌｔｈＳｙｓｔｅｍ（ＧＨＳ）から取得した両方のコホートの匿名化された患者参加者全員のシークエンシングを行った。全ての参加者が、ＭｙＣｏｄｅ（登録商標）ＣｏｍｍｕｎｉｔｙＨｅａｌｔｈＩｎｉｔｉａｔｉｖｅ（Ｃａｒｅｙｅｔａｌ．（２０１６），Ｇｅｎｅｔ．Ｍｅｄ．１８，９０６−９１３）に参加することに同意し、Ｒｅｇｅｎｅｒｏｎ−ＧＨＳＤｉｓｃｏｖＥＨＲ研究（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４）のゲノム解析に、ＤＮＡサンプルを提供した。全ての患者のエクソームは、対応する匿名化電子医療記録（ＥＨＲ）にリンクさせた。シークエンシングされた最初の５０，７２６人の詳細については、以前に公開されている（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４、Ａｂｕｌ−Ｈｕｓｎｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ７０００−ａａｆ７０００）。

この研究は、この研究に参加する家族を具体的に対象としたものではなく、ヘルスケアシステムと頻繁にやり取りする慢性的な健康上の問題を抱えた成人、ならびに冠動脈カテーテル検査室及び肥満治療室からの参加者を対象としたものであった。

実施例５
サンプル準備、シークエンシング、バリアントコール、及びサンプルＱＣ
サンプルの準備とシークエンシングは、Ｄｅｗｅｙら（Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−ａａｆ６８１４）で以前に記載されている。

シークエンシングの完了時に、各ＩｌｌｕｍｉｎａＨｉｓｅｑ２５００ランからの生データがローカルバッファストレージに収集され、自動解析のために、ＤＮＡｎｅｘｕｓプラットフォーム（Ｒｅｉｄｅｔａｌ．（２０１４）１５，３０）にアップロードされた。サンプルレベルのリードファイルが、ＣＡＳＡＶＡ（ＩｌｌｕｍｉｎａＩｎｃ．，ＳａｎＤｉｅｇｏ，ＣＡ）で生成され、ＢＷＡ−ｍｅｍでＧＲＣｈ３８（Ｌｉ及びＤｕｒｂｉｎ（２００９）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５，１７５４−１７６０、Ｌｉ，Ｈ．（２０１３）；ａｒＸｉｖｑ−ｂｉｏ．ＧＮ）にアライメントされた。結果のＢＡＭファイルを、ＧＡＴＫ及びＰｉｃａｒｄを使用して処理して、重複のソート、マーク付け、及び推定インデル周辺のリードの局所的なアライメント修正を行った。シークエンシングされたバリアントは、転写産物及び遺伝子に対する機能的影響を明らかにするために、Ｅｎｓｅｍｂｌ８５遺伝子定義を使用して、ｓｎｐＥＦＦ（Ｃｉｎｇｏｌａｎｉｅｔａｌ．（２０１２）；Ｆｌｙ（Ａｕｓｔｉｎ）６，８０−９２）でアノテーションを付けられた。遺伝子定義は、１９，４６７の遺伝子に対応する、アノテーション付きの開始及び停止を伴うタンパク質コードである５４，２１４の転写産物に制限した。

高頻度のホモ接合性、低配列データカバレッジ、または実際の一卵性双生児であることを確認できない遺伝的に同定された重複により示される低クオリティのＤＮＡ配列データを有する個人を除外した。６１，０１９のエクソームが分析のために残った。サンプル準備、シークエンシング、バリアントコール、及びバリアントアノテーションに関する追加情報は、Ｄｅｗｅｙｅｔａｌ．（２０１６），Ｓｃｉｅｎｃｅ３５４，ａａｆ６８１４−１〜ａａｆ６８１４−１０に報告されている。

実施例６
主成分と祖先推定
ＰＬＩＮＫｖ１．９を使用してデータセットをＨａｐＭａｐ３（ＩｎｔｅｒｎａｔｉｏｎａｌＨａｐＭａｐ３Ｃｏｎｓｏｒｔｉｕｍ，Ａｌｔｓｈｕｌｅｒｅｔａｌ．（２０１０）、ＮａｔｕｒｅＰｕｂｌｉｓｈｉｎｇＧｒｏｕｐ４６７，５２−５８）とマージし、両方のデータセットにあるＳＮＰのみを保持した。また、次のＰＬＩＮＫフィルタを適用した。−−ｍａｆ０．１ −−ｇｅｎｏ０．０５ −−ｓｎｐｓ−ｏｎｌｙ −−ｈｗｅ０．００００１。ＨａｐＭａｐ３サンプルの主成分（ＰＣ）分析が計算され、ＰＬＩＮＫを使用して各サンプルがデータセット内のそれらのＰＣに投入された。ＨａｐＭａｐ３サンプルのＰＣを使用して、５つの祖先スーパークラス、すなわち、アフリカ人（ＡＦＲ）、混合アメリカ人（ＡＭＲ）、東アジア人（ＥＡＳ）、ヨーロッパ人（ＥＵＲ）、南アジア人（ＳＡＳ）のそれぞれのカーネル密度推定（ＫＤＥ）を訓練した。ＫＤＥを使用して、各サンプルが各スーパークラスに属する尤度を計算した。各サンプルについて、祖先スーパークラスを尤度に基づいて割り当てた。サンプルが０．３を超える尤度を持つ２つの祖先グループを有する場合、ＡＦＲをＥＵＲに優先して割り当て、ＡＭＲをＥＵＲに優先して割り当て、ＡＭＲをＥＡＳに優先して割り当て、ＳＡＳをＥＵＲに優先して割り当て、ＡＭＲをＡＦＲに優先して割り当てた。それ以外の場合は「不明」になる（これは、ＥＵＲとＥＡＳの集団の厳密な推定と、データセット内の混合の多い集団の包括的な推定とを提供するために行われた）。ゼロまたは３つ以上の祖先グループが十分に高い尤度を持っていた場合、サンプルに祖先の「不明」を割り当てた。祖先が不明なサンプルは、祖先ベースの同祖性（ＩＢＤ）計算から除外した。

実施例７
ＩＢＤ推定
次のフラグを使用して全データセットに対してＰＬＩＮＫを実行することにより、高クオリティで一般的なバリアントをフィルタ処理した。−−ｍａｆ０．１ −−ｇｅｎｏ０．０５ −−ｓｎｐｓ−ｏｎｌｙ −−ｈｗｅ０．００００１。次に、エクソームデータから正確なＩＢＤ推定を取得するために、２つのアプローチを取った。最初に、個人間のＩＢＤ推定を、祖先分析から決定された祖先スーパークラス（例えば、ＡＭＲ、ＡＦＲ、ＥＡＳ、ＥＵＲ、及びＳＡＳなど）内で計算した。次のＰＬＩＮＫフラグを、第二度関係までのＩＢＤ推定を取得するために使用した。−−ｇｅｎｏｍｅ −−ｍｉｎ０．１８７５。全てのサンプルが同様の祖先アレルを共有したため、これにより、より正確な関係推定が可能になった。ただし、このアプローチでは、異なる系統の個人間の関係、例えば、ヨーロッパ人の父親とアジア人の母親との子供を予測できなかった。

次に、祖先の異なる個人間の第一度の関係を把握するために、−−ｍｉｎ０．３ＰＬＩＮＫオプションを使用して、全ての個人間でＩＢＤ推定を計算した。次に、個人を第一度家族ネットワークにグループ化し、この場合、ネットワークノードが個人であり、エッジが第一度第一度関係である。各第一度家族ネットワークを、ｐｒｅＰＲＩＭＵＳパイプライン（Ｓｔａｐｌｅｓｅｔａｌ．（２０１４）；Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９５，５５３−５６４）を通じて実行し、サンプルの祖先を適切な祖先マイナーアレル頻度に一致させて、ＩＢＤ推定を改善した。このプロセスは、各家族ネットワーク内の個人間の第一度及び第二度の関係を正確に推定した（０．１５の最小ＰＩ＿ＨＡＴ）。

最後に、上記の２つのアプローチからのＩＢＤ推定を、家族ネットワーク由来のＩＢＤ推定から欠落している関係を、祖先ベースのＩＢＤ推定に加えることによって結合した。このアプローチは、類似した祖先の全てのサンプル間の第二度の関係と、全てのサンプル間の第一度の関係とに、正確なＩＢＤ推定をもたらした。

第三度血縁者のＩＢＤ比率は、分析が人為的に誇張されたＩＢＤ推定に起因して予測される第三度関係の過剰数をもたらすことが多いため、多様な系統を持つ大規模なエクソームシークエンシングデータセットから正確に推定することは困難である。祖先特異的ＩＢＤ分析の間中に、−−ｍｉｎ０．０９８７５カットオフを使用して、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲコホートに存在し得る第三度の関係の数を把握したが、これらはいずれのフェージングまたは家系ベースの分析にも使用しなかった。むしろ、本明細書で開示された関係に基づく分析では、第一度及び第二度の家族ネットワーク内で同定した信頼度の高い第三度の関係のみを使用した。

実施例８
家系再構築
ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲコホート内で同定した全ての第一度家族ネットワークをＰＲＩＭＵＳｖ１．９．０で再構築した。結合ＩＢＤ推定は、遺伝的に得られた性別及びＥＨＲ報告年齢の範囲内でＰＲＩＭＵＳに提供された。ＰＩ＿ＨＡＴ＞０．３７５の近縁性カットオフを、再構築が第一度家族ネットワークに制限されるように指定し、０．１８７５のカットオフを指定して、第二度ネットワークを定義した。

実施例９
アレル頻度ベースのフェージング
ＥＡＧＬＥｖ２．３（Ｌｏｈｅｔａｌ．（２０１６）；ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）を用いて、６１，０１９エクソーム由来の全ての両アレルバリアントをフェージングした。ＤＮＡｎｅｘｕｓ内の解析を並列化するために、ゲノムは、５００のバリアントと２５０Ｋの塩基対との最小オーバーラップを有する約４０Ｋのバリアントのオーバーラップセグメントに分割した。目標は、遺伝子内の推定複合ヘテロ接合性変異をフェージングすることであったため、セグメント切断点が遺伝子間領域に生じるように注意を払った。

ＥＡＧＬＥが提供するｇｅｎｅｔｉｃ＿ｍａｐ＿ｈｇ１９．ｔｘｔ．ｇｚファイルのｈｇ１９からＧＲＣｈ３８へのリフトオーバーを実行し、染色体を交換し、または染色体内の相対的な順序を変更して、染色体の位置とｃＭの位置とがどちらもソート時に昇順にならないようにする全てのバリアントを除去した。ほとんどの場合、このＱＣステップは、セントロメア周辺の逆位を除去することであった。代替染色体にマッピングしたＳＮＰも除去した。合計で、３３０万のＳＮＰのうち、２，７８３のみを遺伝子マップファイルから除去した。各セグメントのデータは、ＰＬＩＮＫ形式のファイルとしてＥＡＧＬＥに提供され、次のＥＡＧＬＥコマンドラインパラメータを使用して、ＤＮＡｎｅｘｕｓ上で実行した。

−−ｇｅｎｅｔｉｃＭａｐＦｉｌｅ＝ｇｅｎｅｔｉｃ＿ｍａｐ＿ｈｇ１９＿ｗｉｔｈＸ．ｔｘｔ．ＧＲＣｈ３８＿ｌｉｆｔｏｖｅｒ．ｔｘｔ．ｇｚ
−−ｍａｘＭｉｓｓｉｎｇＰｅｒＩｎｄｉｖ１
−−ｇｅｎｏＥｒｒＰｒｏｂ０．０１
−−ｎｕｍＴｈｒｅａｄｓ＝１６
実施例１０
複合ヘテロ接合性コール
目的は、機能喪失（ｐＬｏＦ）と推定されるバリアントの高信頼度複合ヘテロ接合性変異（ＣＨＭ）コールを取得して、ノックアウトまたは攪乱された可能性のある遺伝子の両方のコピーを有するヒトを同定することであった。フレームシフト、終止コドン獲得、終止コドン喪失、開始コドン獲得、開始コドン喪失、またはスプライシングアクセプタもしくはドナー変更バリアントが発生した場合に、バリアントをｐＬｏＦとして分類した。２番目の、潜在的に有害なバリアントの拡張されたセットを作成し、これには、ｐＬＯＦ及びおそらく攪乱ミスセンスバリアントが含まれ、以下の５つの方法の全てによって有害であると予測されることによって定義された。ＳＩＦＴ（Ｌｏｈｅｔａｌ．（２０１６）；ＮａｔＧｅｎｅｔ４８，１４４３−１４４８）（損傷を与える（ｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＤＩＶ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＶＡＲ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＬＲＴ（有害（ｄｅｌｅｔｅｒｉｏｕｓ））、及びＭｕｔａｔｉｏｎＴａｓｔｅｒ（Ｓｃｈｗａｒｚｅｔａｌ．（２０１４）；Ｎａｔ．Ｍｅｔｈｏｄｓ１１、３６１−３６２）（必然的に疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇａｕｔｏｍａｔｉｃ）、及び疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇ））。

稀少（代替アレルカウント＜１％）潜在複合ヘテロ接合性変異（ｐＣＨＭ）は、同じ人物の遺伝子内のヘテロ接合性ｐＬｏＦ及び／または有害ミスセンスバリアントの全ての可能な組み合わせをテストすることによって同定した。ハーディ・ワインベルグ平衡（ＨＷＥ）から外れており（ＰＬＩＮＫで計算されたｐ値＜１０^−１５（Ｃｈａｎｇｅｔａｌ．（２０１５）；Ｇｉｇａｓｃｉｅｎｃｅ４，７．））、６１Ｋサンプル全体で１０％の欠損を超えているか、または同じ個人の１０塩基対内に別のバリアントがある全てのバリアントを除外した。また、ＱＤ＜３、ＡＢ＜１５％、及びリードデプス＜７であるＳＮＰと、ＱＤ＜５、ＡＢ＜２０％、及びリードデプス＜１０であるＩＮＤＥＬとを除外した。フィルタ処理後、２５，０３１の個人に分布し、ｐＣＨＭバリアントがトランスでフェージングされた場合に、ヒトの遺伝子の両方のコピーの機能をノックアウトまたは攪乱する可能性のある、３９，４５９の高クオリティｐＣＨＭを得た。

次のステップは、ｐＣＨＭをフェージングすることであった。ＥＡＧＬＥを用いる集団アレル頻度ベースのフェージングと家系／関係ベースのフェージングとの組み合わせを使用して、ｐＣＨＭがシスかトランスかを判定した。図９は、ＤｉｓｃｏｖＥＨＲデータセット内の各ｐＣＨＭの最も正確なフェージングを取得するために使用されたｐＣＨＭフェージングワークフローを示す。図２は、拡張ＤｉｓｃｏｖＥＨＲデータセット内の各ｐＣＨＭの最も正確なフェージングを取得するために使用されたｐＣＨＭフェージングワークフローを示す。家系及び関係のフェージングは、ＥＡＧＬＥのフェージングよりも正確であることが証明されたため、家系及び関係のデータをフェージングに使用した。以下の表１８は、様々なタイプの家族関係のｐＣＨＭの相を決定するために使用されるロジックを示す。残りの全てのｐＣＨＭでは、上記のＥＡＧＬＥフェーズデータを使用した。シングルトンでのＥＡＧＬＥのフェージング精度は、ランダムな推測と有意差がなかったため、ＥＡＧＬＥでフェージングした、バリアントのいずれかまたは両方がシングルトンであるｐＣＨＭを除外した（ＤｉｓｃｏｖＥＨＲデータセットについては以下の表１９を、拡張ＤｉｓｃｏｖＥＨＲデータセットについては表２０を参照）。ＤｉｓｃｏｖＥＨＲデータセットでは、ｐＣＨＭの２つのバリアントが、１００未満の同じマイナーアレルカウント（ＭＡＣ）を有する場合、それらはほとんど常にシス（我々のトリオの間で３７中の３６）であり、ＥＡＧＬＥのｐＣＨＭフェージングの精度を超えていた。拡張ＤｉｓｃｏｖＥＨＲデータセットでは、ｐＣＨＭの２つのバリアントが、１００未満の同じマイナーアレルカウント（ＭＡＣ）を有する場合、それらはほとんど常にシス（トリオの間で２２中の２２）であり、ＥＡＧＬＥのｐＣＨＭフェージングの精度を超えていた。

これらのルールは、各関係の最上位のルールから順に適用した。「？」結果は、ｐＣＨＭをフェージングできなかったことを意味する。「ＮＡ」の結果は、その結果が発生してはならなかったことを示しており、シークエンシングエラーまたは他の非メンデリアンのバリアントの伝播の結果である可能性が高い。ＰＣ＿ｒｅｌは、親子関係の非ｐＣＨＭキャリアを指す。「稀少」とは、１％未満のＭＡＦを指し、これには、本明細書で用いられる全てのバリアントが含まれる。

ＭＡＦが１％未満の全てのｐＣＨＭは、ｐＣＨＭを構成する２つのバリアントのうち頻度の低いものによってビニングした。ｐＣＨＭのＥＡＧＬＥフェージングとトリオで決定されたフェージングとを比較することにより、正しいコールと精度とを決定した。トリオ内でシスまたはトランスであると判定された誤ったＥＡＧＬＥフェージングのｐＣＨＭの数も提供される。トリオの子で一方または両方のバリアントがｄｅｎｏｖｏであると判断されたｐＣＨＭを除外した。ＭＡＣ＞６のｐＣＨＭは全て９０年代半ばから上位にかけて同様の精度であったが、ＭＡＣが２〜６の場合に精度の低下が見られた。ＥＡＧＬＥのシングルトンフェージングは、ランダムな推測よりもパフォーマンスが大幅に向上していなかったため、ＥＡＧＬＥでフェージングされたシングルトンは、ＥＡＧＬＥでフェージングされたｐＣＨＭの全体的な精度を測定するときと同様に、フェージングされたｐＣＨＭの結果から除外した。

ＭＡＦが１％未満の全てのｐＣＨＭは、ｐＣＨＭを構成する２つのバリアントのうち頻度の低いものによってビニングした。ｐＣＨＭのＥＡＧＬＥフェージングとトリオで決定されたフェージングとを比較することにより、正しいコールと精度とを決定した。また、トリオ内でシスまたはトランスであると判定された誤ったＥＡＧＬＥフェージングのｐＣＨＭの数も提供した。トリオの子供で一方または両方のバリアントがｄｅｎｏｖｏであると判定されたｐＣＨＭは除外した。ＭＡＣ＞９のｐＣＨＭは全て同様の精度９０を有するが、２〜９のＭＡＣを有するＥＡＧＬＥのｐＣＨＭフェージング精度が低下することが分かる。ＥＡＧＬＥのシングルトンを含むｐＣＨＭのフェージングは、ランダムな推測よりもパフォーマンスが大幅に低下しないため、ＥＡＧＬＥでフェージングされたシングルトンは、ＥＡＧＬＥでフェージングされたｐＣＨＭの全体的な精度を測定する場合と同様に、フェージングされたｐＣＨＭの結果から除外した。^＊シングルトンバリアントのフェーズ精度が低いため、シングルトンバリアントを含む２，８３８のｐＣＨＭを除去した。したがって、残りの４０１個のシングルトンバリアントは、トリオ及び関係のデータのみでフェージングした。

データセット全体にわたるＥＡＧＬＥのｐＣＨＭフェージングの正確な精度を測定するために、フェージング前に各核家族の１人の子供の全ての第一度の血縁者を除外して、データセット全体にわたってＥＡＧＬＥを実行した。親のハプロタイプを含めると、データセットに親のないサンプルと比較して、トリオの子のフェージングの精度が向上するため、この取り除きが必要であった。

最後に、個人の同じ遺伝子内に複数のｐＣＨＭがあった場合、最も有害なプロファイルを持つｐＣＨＭのみを保持した（以下の表２１を参照）。全てのｐＣＨＭの＞９９％をフェージングし、１３，３３５の稀少複合ヘテロ接合性変異（ＣＨＭ）を同定することが可能であった。

人が同じ遺伝子に２つ以上のトランスｐＣＨＭを持っている場合に、この表の値を、最も有害なｐＣＨＭを同定して保持するために使用した。効果スコアは、２つのバリアントの機能的効果スコアを加算し、それらが全ての遺伝子転写産物に影響しなかった場合にペアにペナルティを課すことによって計算した。スコアのより低いｐＣＨＭは、最も有害であると予測され、保持された。

実施例１１．１
ＤｉｓｃｏｖＥＨＲデータセットの複合ヘテロ接合性変異検証
フェージングの精度は、フェージング予測をトリオ及びＩｌｌｕｍｉｎａのリードを用いて行ったフェージングと比較することによって評価した。まず、トリオのフェーズ済みのｐＣＨＭを真として使用して、ｐＣＨＭのフェージング精度を評価した。各家族関係のフェージングアプローチは、トリオのフェージングとは独立して行われたため、ｐＣＨＭキャリアがトリオの子供である限り、各関係クラスのフェージングの精度を適切に測定することができた。上記の表４及び表１２は、これらの稀少ｐＣＨＭについて、家族関係ベースのフェージングの精度が１００％正確であったことを示している。ＥＡＧＬＥのフェージングは、ＤｉｓｃｏｖＥＨＲ及び拡張ＤｉｓｃｏｖＥＨＲデータセットで、それぞれ９１．４％及び８９．１％と正確性が劣っていた。ＤｉｓｃｏｖＥＨＲデータセットの場合、フェージングｐＣＨＭでのＥＡＧＬＥの精度が、異なるマイナーアレル頻度の範囲で評価され、ＭＡＣが６より大きい場合に９５％以上、ＭＡＣが２〜６の場合、約７７％の精度が一貫して得られた（上記の表１９参照）。ＥＡＧＬＥフェージングは、予期したように、シングルトンでは機能しなかった。

次に、統合ゲノミクスビューア（ＩＧＶ）（Ｒｏｂｉｎｓｏｎｅｔａｌ．（２０１１）；Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．２９，２４−２６）のリードスタックを見て、２つのバリアントが同じリードで発生するか、独立して発生するかを確認することにより、短いＩｌｌｕｍｉｎａリード（約７５ｂｐ）で２００ｐＣＨＭを検証することを試みた。この検証プロセス中に、最初の欠失の終わりが２番目の欠失の１０ｂｐｓ内にある２つの欠失で構成されるｐＣＨＭは、実際には１つの大きな欠失が２つの個別の欠失として誤ってコールされていることが分かった（３９，４５９のｐＣＨＭのうちＮ＝１，１０９）。１５のみがトランスとしてフェージングされたため（ＣＨＭデータセット全体の約０．１％）、これらのｐＣＨＭは分析全体から除外されなかったが、検証のために２００のｐＣＨＭを選択したときに除外した。短いリードを使用して、ランダムに選択された２００のｐＣＨＭのうち、１９０を決定的にフェージングするためにリードを使用することができた。残りの１０例は、シス及びトランスの両方のフェージングのリード証拠を示したが、これは、バリアントの一方または両方が偽陽性コールである可能性が最も高い。

実施例１１．２
拡張ＤｉｓｃｏｖＥＨＲデータセットの複合ヘテロ接合性変異検証
ＤｉｓｃｏｖＥＨＲデータセットの場合、上記の表１２は、稀少ｐＣＨＭの家族ベースのフェージングの精度が９９．６％（１０６０／１０６４ｐＣＨＭ）であったことを示している。ＥＡＧＬＥのフェージングは、８９．１％（７６６／８６０ｐＣＨＭ；上記の表１２）であり、それほど正確ではなかった。マイナーアレル頻度の様々な範囲でのＥＡＧＬＥのｐＣＨＭ位相精度を評価して、ＭＡＣが９を超える場合にＥＡＧＬＥが一貫して９０％を超える精度を達成し、ＭＡＣが２から９の場合に約７７％の精度を達成することを確認した（上記の表２０を参照）。ＥＡＧＬＥフェージングは、シングルトンでは不十分に機能した。

次に、統合ゲノミクスビューア（ＩＧＶ）（Ｒｏｂｉｎｓｏｎｅｔａｌ．（２０１１）；Ｎａｔ．Ｂｉｏｔｅｃｈｎｏｌ．２９，２４−２６）のリードスタックを見て、２つのバリアントが同じリードで発生するか、独立して発生するかを確認することにより、短い（９７５ｂｐ）Ｉｌｌｕｍｉｎａリードで２００ｐＣＨＭを検証することを試みた。短いリードを使用して、１９０（１１５のシス及び７９のトランス、ＥＡＧＬＥフェーズ済みの１２６及び家系または関係でフェーズ済みの７４）のｐＣＨＭを選択した。残りの１０例は、シス及びトランスのフェージングの両方のリード証拠を示したが、これは、バリアントの一方または両方が偽陽性のコールであったためという可能性が最も高い。視覚的検証では、家系及び関係のフェージング及びＥＡＧＬＥのフェージングに対して、全体的な精度がそれぞれ９５．８％及び８９．９％であった（表２２を参照）。Ｉｌｌｕｍｉｎａのリードベースの検証結果は、トリオの検証結果と一致していたが、Ｉｌｌｕｍｉｎａのリードベースの検証精度の結果は、トリオのフェージングの精度よりも低かった。この差は、シークエンシングエラーとバリアントコールエラーが発生しやすい問題を抱えた小さなエクソン領域での偽陽性ｐＣＨＭの濃縮による可能性が高い。

２００のｐＣＨＭは、９２Ｋの拡張ＤｉｓｃｏｖＥＨＲ参加者の中からランダムに選び、両方のバリアントは互いに７５塩基対以内であり、２つのバリアントにまたがるリードスタックを調べることによって、相を視覚的に検証した。１０個（５％）については、両方のバリアントにオーバーラップするリードが無いか、またはリードが矛盾する結果（すなわち、一部のリードがシスを示し、別の一部のリードがトランスを示した）をもたらすかいずれかのために、リードスタックを用いて確信的にフェージングすることができなかった。

実施例１２
ｄｅｎｏｖｏ変異（ＤＮＭ）検出
ＤＮＭを検出するための２つの異なるアプローチの結果を統合した。最初の方法はＴｒｉｏＤｅＮｏｖｏ（Ｗｅｉｅｔａｌ．（２０１５）；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ３１，１３７５−１３８１）であり、これは、子の変異性サイトごとに、子及び親の遺伝子型の尤度を読み取る。これらの尤度をベイジアンフレームワークに入力し、子供のバリアントがＤＮＭであるという事後尤度を計算した。第２のプログラムはＤｅＮｏｖｏＣｈｅｃｋ（ｈｔｔｐｓ：／／ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｐｒｏｊｅｃｔｓ／ｄｅｎｏｖｏｃｈｅｃｋ）であり、これは、ｄｅＬｉｇｔ，ｅｔａｌ．の補足方法で説明されている（ｄｅＬｉｇｔｅｔａｌ．（２０１２）；Ｎ．Ｅｎｇｌ．Ｊ．Ｍｅｄ．３６７，１９２１−１９２９）。ＤｅＮｏｖｏＣｈｅｃｋは、どちらの親にもなく、子でコールされていると識別された候補ＤＮＭのセットを取り込む。次に、ＢＡＭファイルを調べることによって、子にバリアントが存在するかどうか、及び両方の親にバリアントが存在しないかどうかを確認する。これらの潜在的ＤＮＭをフィルタリングし、結合セットにおける各ＤＮＭの信頼度レベルを種々のＱＣメトリクスを用いて評価した。図７は、このＤＮＭコールプロセスを示し、適用したバリアントフィルタを示し、各ＤＮＭを低信頼度、中信頼度、または高信頼度のいずれかに分類するために使用した基準を提供する。

実施例１３．１
ＤｉｓｃｏｖＥＨＲデータセットでの受胎時の親の年齢と子供のＤＮＭの数との相関関係のテスト
この分析では、１０以上のＤＮＭを持つサンプルを外れ値（Ｎ＝６の除外されたサンプル）として除外した。それらは、技術上の人為結果、または体細胞変異を示している可能性が高い。母方と父方の年齢には高い相関がある（ｒｈｏ＝０．７８、ｐ＝１．２ｘ１０＾−２６２）；共同でモデル化した場合、共線性のためにどちらも有意ではなかった（０．００５３母体ＤＮＭ／年、ｐ＝０．４８；０．００７６父親ＤＮＭ／年、ｐ＝０．２６；ポアソン回帰）（図３６Ａ及び３６Ｂ）。次に、両親の年齢差（父方と母方の年齢）を、出生時の母方または父方の年齢のいずれかと共にテストした。父方と母方の両方の年齢は、ＤＮＭ数を等しく予測することが判明した（つまり、年齢差は、母方または父方の年齢を所与として、ＤＮＭの数と有意に関連しなかった）。

エクソンＤＮＭ数の増加も、他の報告と一致して、出生時の母性（０．０１２ＤＮＭ／年、ｐ＝０．０１１；ポアソン回帰；図３７）と父性（０．０１１ＤＮＭ／年；ｐ＝０．００７）の両方の年齢に関して観察された（ＤｅｃｉｐｈｅｒｉｎｇＤｅｖｅｌｏｐｍｅｎｔａｌＤｉｓｏｒｄｅｒｓＳｔｕｄｙ（２０１７）．Ｎａｔｕｒｅ５４２，４３３−４３８；Ｋｏｎｇｅｔａｌ．（２０１２）Ｎａｔｕｒｅ５４２，４３３−４３８；Ｒａｈｂａｒｉｅｔａｌ．（２０１６）Ｎａｔ．Ｇｅｎｅｔ．４８，１２６−１３３；及びＷｏｎｇｅｔａｌ．（２０１６）Ｎａｔ．Ｃｏｍｍｕｎ．７，１０４８６）。特に、出生時の母方と父方の年齢はデータセットにおいて高度に相関し（ｒｈｏ＝０．７８、ｐ＝１．２ｘ１０＾−２６２；図３８）、従って、比率は付加的ではなく、駆動因子として区別するための有意差は同定されなかった。

実施例１３．２
拡張ＤｉｓｃｏｖＥＨＲデータセットでの受胎時の親の年齢と子供のＤＮＭの数との相関関係のテスト
拡張ＤｉｓｃｏｖｅｒＥＨＲコホートは、受胎時の親の年齢と子供のＤＮＭの数との相関関係をテストした結果、ＤｉｓｃｏｖＥＨＲコホートと同様の結果を示した。他の報告と一致して、出生時の母性（０．０１１ＤＮＭ／年、ｐ＝７．３ｘ１０^−４；ポアソン回帰；図３７）及び父性（０．０１０ＤＮＭ／年；ｐ＝５．６ｘ１０^−４）の年齢の両方に関して、エクソンＤＮＭの数の増加が観察された。特に、出産時の母方及び父方の年齢はデータセット（ｒ＝０．７９；図３９）で高度に相関して、したがって、比率は付加的ではなく、駆動因子としても区別される有意差はない。

父方の年齢は、ポアソン分布を使用して、１人あたりのＤＮＭ数と相関していた（ｎ＝２５８７、係数＝０．０１０、ｐ＝５．６７Ｅ−４）。同様に、母性年齢は、ポアソン分布を使用して、１人あたりのＤＮＭ数と相関した（ｎ＝２５８７、係数＝０．０１１、ｐ＝７．３５Ｅ−４）。さらに、父方と母方の年齢も互いに相関している（Ｒ^２＝０．７９；ｐ＜１０Ｅ−３０８）。

機能的予測アルゴリズム、すなわちＳＩＦＴ（損傷を与える（ｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＤＩＶ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＰｏｌｙＰｈｅｎ２ＨＶＡＲ（損傷を与える（ｄａｍａｇｉｎｇ）、及び損傷を与えるおそれがある（ｐｏｓｓｉｂｌｙｄａｍａｇｉｎｇ））、ＬＲＴ（有害（ｄｅｌｅｔｅｒｉｏｕｓ））、及びＭｕｔａｔｉｏｎＴａｓｔｅｒ（Ｓｃｈｗａｒｚｅｔａｌ．（２０１４）；Ｎａｔ．Ｍｅｔｈｏｄｓ１１、３６１−３６２）（必然的に疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇａｕｔｏｍａｔｉｃ）、及び疾患を引き起こす（ｄｉｓｅａｓｅｃａｕｓｉｎｇ））を使用して、ＤＮＭの病原性が予測された。ＤＮＭの病原性予測は、ランダムなバリアント分布の予測とは大きく異なる（図３８）。より高い割合のＤＮＭも、非病原性の一致した予測を示した。ＤＮＭは、５／５アルゴリズムによって病原性であると予測される可能性が１．８倍高くなる。ランダムバリアントは、病原性の予測が一致しない可能性が１．５倍高い。

実施例１４
ＬＤＬＲ縦列重複遠縁家系推定
本コホートでは匿名化された個人の真の家族歴を知ることは不可能であるが、ＰＲＩＭＵＳ再構成家系（Ｓｔａｐｌｅｓｅｔａｌ．（２０１４）；Ａｍ．Ｊ．Ｈｕｍ．Ｇｅｎｅｔ．９５，５５３−５６４．）、ＥＲＳＡ遠縁関係推定（Ｈｕｆｆｅｔａｌ．（２０１１）；ＧｅｎｏｍｅＲｅｓ．２１，７６８−７７４．）、及び家系を接続するＰＡＤＲＥの能力を用いて（Ｓｔａｐｌｅｓｅｔａｌ．（２０１６）；ＴｈｅＡｍｅｒｉｃａｎＪｏｕｒｎａｌｏｆＨｕｍａｎＧｅｎｅｔｉｃｓ９９，１５４−１６２）、ＬＤＬＲにおける新規縦列重複の突然変異キャリアの最良の家系表現を同定した（Ｍａｘｗｅｌｌｅｔａｌ．（２０１７）．Ｐｒｏｆｉｌｉｎｇｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎａｎｄｄｉｓｅａｓｅａｓｓｏｃｉａｔｉｏｎｓｆｒｏｍ５０，７２６ＤｉｓｃｏｖＥＨＲＳｔｕｄｙｅｘｏｍｅｓ）。ＨｕｍａｎＯｍｎｉＥｘｐｒｅｓｓ配列データは、以前はより遠い関係を推定するために使用されていた。

実施例１５
ＳｉｍＰｒｏｇｅｎｙ
ＳｉｍＰｒｏｇｅｎｙは、１つ以上のサブ集団に分散した何百万もの人々の集団をシミュレートし、数百年にわたって彼らの子孫を追跡できる。単純性と現実性の間の良好なバランスを見つけるために、ユーザが調整できるいくつかの主要な集団レベルパラメータを選択した（下の表２３を参照）。これらのパラメータは、シミュレーションツールを比較的単純に保ちながら、実際の集団と家族の家系構造とを適切に近似するために選択された。デフォルト値は、米国の人口統計に基づいている。デフォルト値は両方のコホートで機能するように設定されており、ＳｉｍＰｒｏｇｅｎｙコード（Ｗｅｂリソース）に含まれている構成ファイルを変更することで、これらのパラメータを簡単にカスタマイズして、様々な集団をモデル化できる。集団シミュレーションプロセスの詳細については、例１７を参照されたい。

ＤｉｓｃｏｖＥＨＲコホート用に開発されたフレームワークの場合、生殖の終了は４９歳であり、拡張ＤｉｓｃｏｖＥＨＲコホート用に開発されたフレームワークの場合、生殖の終了は５０歳であった。

集団のモデリングに加えて、ＳｉｍＰｒｏｇｅｎｙは、遺伝的研究のために集団から個人を選択することをモデル化する２つの確認アプローチ、すなわちランダム確認及びクラスタ化サンプリングをシミュレーションする。ランダム確認は、集団中の各個人が置換なしに確認される等しい機会を与える。クラスタ化サンプリングは、近親血縁者を濃縮するアプローチであり、第一度及び第二度の血縁者の多くとともにランダムに個人を選択することによって行われる。第一度血縁者の数は、ユーザ指定の第一度の確認ラムダ（デフォルトは０．２）で分布されたポアソンから値をサンプリングすることによって決定される。第二度血縁者の数も同じ方法で決定され、デフォルトの第二度確認ラムダは０．０３である。ＳｉｍＰｒｏｇｅｎｙの確認オプションの詳細については、実施例１７を参照されたい。

実施例１６
基礎となるＤｉｓｃｏｖＥＨＲ集団のシミュレーションとその確認
シミュレーションモデルが過度に複雑にならないように、シミュレーションには、開始サイズが２００Ｋ、３００Ｋ、４００Ｋ、４５０Ｋ、５００Ｋ、５５０Ｋ、６００Ｋ、及び１０００Ｋの個々の集団が含まれていた。ＳｉｍＰｒｏｇｅｎｙパラメータ（上記の表２３を参照）は、公的に入手可能な国、州、及び郡レベルのデータと、ＧＨＳを通じて個人が確認された方法に関する我々自身の理解とに合わせて調整された。選択したパラメータの入手源は、補足ファイルＳｉｍｕｌａｔｉｏｎ＿ｐａｒａｍｅｔｅｒｓ．ｘｌｓで見ることができる。ＧＨＳは主に農村地域を対象としており、都市部より移住率が低い傾向があるため、ペンシルベニア州（ＰＡ）の平均的な移住率を減少させた。シミュレーションは１２０年のバーンイン期間で実行し、その後１０１年間継続した。シミュレートされた集団は約１５％増加したが、これは、２０世紀半ば以降のＰＡの成長と類似している。

ランダムの確認とクラスタ化された確認との両方を実行した。両確認アプローチに対して、集団の最初の５％の確認順序（ｏｒｄｅｒｅｄ＿ｓａｍｐｌｉｎｇ＿ｐｒｏｐｏｒｔａｎｃｅパラメータで指定）を、共同研究の開始時にＧＨＳバイオバンクの個人のランダムシークエンシング順序をモデル化するためにシャッフルした。このパラメータの選択は、ランダム確認には影響せず、クラスタリングされた確認でのペアワイズ関係の累増に対する影響は無視できたが、クラスタ化サンプリングで確認されたデータセットにおいて、変曲点（より高いラムダ値でより顕著である）を生じることにより、１つ以上の血縁者を持つ個人の割合には影響した。この変曲点は、実際のデータのフリーズプロセスをモデル化し、またバイオバンクからのシークエンシングサンプルと新しく確認された個人との間のよりスムーズな移行をモデル化したりする場合には、それほど顕著ではないであろう。

実施例１７
ＳｉｍＰｒｏｇｅｎｙ集団及び確認シミュレーションプロセス
シミュレーションは、ユーザが指定した数のサブ集団及びサイズを初期化することによって開始させた。年齢は最初に０と最大繁殖年齢（デフォルトは４９）との間に割り当てた。集団中の個人は、青年、繁殖力のある個人、高齢者という３つの年齢別プールのいずれかに存在していた。個人は、繁殖年齢（１５のデフォルト）未満であればサブ集団の青年プールに割り当てられ、繁殖年齢の範囲内（デフォルトは１５〜４９）であればサブ集団の交配プールに割り当てられた。個人は最低生殖可能年齢以上になると幼体プールから交配プールに移動した。同様に、繁殖可能年齢を超えた時点で、交配プールから高齢者の集団に移した。移住または死亡した個人は、全ての年齢層から除外した。初期集団を確立した後、シミュレーションは１２０年のバーンイン段階を実施して、出生数と死亡数とが等しく、正味移動率がゼロであることを必要としながら、入力パラメータとより密接に一致する家族関係と年齢分布とを確立した。バーンイン後、シミュレーションを、与えられた個人群成長と移動速度とで特定の年数で実行した。シミュレーションは１年ずつ増加し、特に明記しない限り、各サブ集団内で実施された以下のステップを毎年実施した。

１．年齢−年齢プールから年齢を超えた個人を次の年齢プールに移動する。
２．交際−一夫一婦の結婚に参加する独身男性と独身女性とをシミュレートする。このプロセスは、完全同胞関係の現実的な数を取得するために重要である。男性と女性のペアは、単一の生殖年齢の男女プールからランダムに選択され、彼らは、男性及び女性の「年齢別の結婚」パラメータで指定された年齢で結婚する可能性に基づいて正常に結婚する。ペアは、結婚率で定義された成功した結婚の数に達するまで引き出される。夫婦は、従兄弟よりも遠縁に限定される。バーンインフェーズ中は、ユーザが指定した初期の結婚率に達するまで、結婚率は２倍になる（デフォルトは、結婚している交配プールの６６％である）。

３．分割−指定された離婚率で婚姻関係を解消する男女をシミュレートする。カップルはランダムに選択され、両方の個人は独身としてマークされる。
４．交わり−１年間に集団内で発生する可能性のある全ての生殖をシミュレートする。母親と父親のペアは、単一の出生年齢プールまたは既婚プールのいずれかから無作為に完全同胞率で定義された比率で選択される（デフォルトは、全ての出産の８８％が既婚カップルである）。ペアが引き出され、目標とする受胎成功数に到達するまで、生殖の試みが行われる（デフォルトの出生率は１人あたり０．０２１９出生である）。受胎が成功する可能性は、母親の年齢と対応する出生率とに基づいている。両親は従兄弟よりも遠縁に制限されており、全ての個人は年に１人の子供を持つことが制限されている。

５．淘汰−亡くなった個人をシミュレートする。死亡率（デフォルトは１人あたり０．００９５人の死亡）を使用して、特定の年に集団内で予想される死亡数を決定する。年齢別の男性と女性の死亡率パラメータを使用して、ランダムに選択された個人が亡くなる可能性に重みを付ける。０から１の間の乱数が、その人の年齢で死亡する確率を超える場合、その個人は保持され、別の個人が選択される。不運な個人は、死者のプールに追加され、生者の他のプールから除去される。１２０歳を超える全ての個人は、自動的に死者のプールに追加され、年間の目標死亡数にカウントされる。

６．移住−集団間の移住をシミュレートする。移住は、交配プールから無作為に１個人を選び、個人が結婚していて繁殖可能な年齢であれば、配偶者とともに集団から外すことによって行われる。青年と高齢者が去る割合は、繁殖可能な年齢の夫婦の数とともに記録される。移民は、年齢分布と繁殖可能な年齢の夫婦の数を維持する方法で行われる。まず、既存の集団から少年をランダムに選択し、同じ性別と年齢の新しい個人を青年プールに追加し、適切な割合の少年が追加されるまでこのプロセスを繰り返す。同じプロセスが高齢者に対しても繰り返される。次に、２人の繁殖力のある年齢の者が既存の人口から選択され、２人の新しい個人が対応する年齢とともに追加される。一方は男性、もう一方は女性に割り当てられ、２人の移民は結婚する。このステップは、夫婦の数が補充されるまで繰り返される。最後に、繁殖力のある年齢の者が、新しい青年を追加するのと同じプロセスで追加され、移民の目標数が達成されるまで繰り返される。このプロセスは、人口の年齢と性別の分布、及び結婚している繁殖可能な年齢の者の割合を維持するのに役立つ。

７．移植−サブ集団内で移動する人々をシミュレートする。サブ集団間の遺伝的隔離がないことをシミュレートするために、個人は集団全体の中でサブ集団間を移動することができる。集団全体にわたって単一の移動率が使用される。サブ集団からの個人はランダムに選択され、移植の所望の数が達成されるまで、他のサブ集団の１つにランダムに割り当てられる。この手順は、サブ集団が１つしかない場合、または移植率が０の場合は発生しない（デフォルトは、全集団移植の１％である）。

このシミュレーションは、各創始者とその子孫を追跡しながら、指定された時間の間進行する。
ランダムの確認とクラスタ化された確認との両方を実行した。両確認アプローチに対して、集団の最初の５％の確認順序（ｏｒｄｅｒｅｄ＿ｓａｍｐｌｉｎｇ＿ｐｒｏｐｏｒｔａｎｃｅパラメータで指定）を、共同研究の開始時にＧＨＳバイオバンクの個人のランダムシークエンシング順序をモデル化するためにシャッフルした。このパラメータの選択は、ランダム確認には影響せず、クラスタリングされた確認でのペアワイズ関係の累増に対する影響は無視できたが、クラスタ化サンプリングで確認されたデータセットにおいて、変曲点（より高いラムダ値でより顕著である）を生じることにより、１つ以上の血縁者を持つ個人の割合には影響した。この変曲点は、実際のデータのフリーズプロセスをモデル化し、またバイオバンクからのシークエンシングサンプルと新しく確認された個人との間のよりスムーズな移行をモデル化したりする場合には、それほど顕著ではないであろう。ユーザは、次のサブ集団のセットに移動する前に、１つ以上のサブ集団から確認することをシミュレートしたい場合に、サブ集団確認順序を指定することができる。デフォルトでは、最初に全てのサブ個人群をグループ化し、それらのサブ個人群をあたかも単一の個人群であるかのように確認する。ユーザは、他のサブ集団または全集団に移る前に確認された集団の最初の割合を指定することもできる。このプログラムは、集団全体の出力をｐｅｄファイル形式で作成し、確認されたサンプルのリストを確認された順に作成し、有用な集団及び確認統計を要約したいくつかの結果ファイルを作成した。

実施例１８
所与の表現型の遺伝的原因の同定を補助するために家系構造を用いる方法は、典型的には、関連マッピング、連鎖解析、またはその両方に関する革新的なバリエーションを含む。このような方法には、ＭＯＲＧＡＮ３１、ｐＶＡＡＳＴ１５、ＦＢＡＴ（ｗｗｗ．ｈｓｐｈ．ｈａｒｖａｒｄ．ｅｄｕ／ｆｂａｔ／ｆｂａｔ．ｈｔｍ）、ＱＴＤＴ（ｃｓｇ．ｓｐｈ．ｕｍｉｃｈ．ｅｄｕ／ａｂｅｃａｓｉｓ／ｑｔｄｔ／）、ＲＯＡＤＴＲＩＰＳ、ｒａｒｅＩＢＤ、及びＲＶ−ＧＤＴが含まれる。使用する適切な方法は、表現型、遺伝様式、祖先、家系構造／サイズ、家系の数、及び非血縁関係のデータセットのサイズに依存する。関連性と家系を用いて遺伝子−表現型の関連性を直接調べることに加えて、それらは、追加のまたは改善されたデータを生成するための多くの他の方法、すなわち家系を認識した帰属、家系を認識したフェージング、メンデル式エラーチェック、複合ヘテロ接合性ノックアウト検出及びｄｅｎｏｖｏ変異コール、ならびにバリアントコール検証で使用することもできる。

本開示は、上記で説明し例示した例示的な実施形態に限定されるものではなく、添付の特許請求の範囲内で変形及び修正が可能である。

Claims

集団における遺伝的バリアントを、前記集団の近縁性を活用することによってフェージングする方法であって、
前記サンプルの１つ以上のそれぞれについて祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて被験者の第２の第一度家族ネットワークを構築すること、ならびに
バリアントを、統合同祖性推定及び第２の第一度家族ネットワークに応じて、複合ヘテロ接合性変異（ＣＨＭ）であるかもしくはＣＨＭではないものとしてフェージングする、またはバリアントを、統合同祖性推定及び第２の第一度家族ネットワークに応じて、ｄｅｎｏｖｏ変異（ＤＮＭ）として同定することを含む、前記方法。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項１に記載の方法。
バリアントを複合ヘテロ接合性変異（ＣＨＭ）としてフェージングすることは、
集団アレル頻度に応じてバリアントをフェージングすること、
ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去すること、
同じサンプル内及び同じ遺伝子内に１つ以上のバリアントの対が存在する潜在複合ヘテロ接合性変異（ｐＣＨＭ）として残りのバリアントを選択すること、ならびに
ｐＣＨＭをシスｐＣＨＭまたはトランスｐＣＨＭとしてフェージングし、次いでトランスｐＣＨＭとしてフェージングされた前記ｐＣＨＭをＣＨＭとして分類することを含む、請求項１または請求項２に記載の方法。
バリアントを複合ヘテロ接合性変異としてフェージングすることは、
ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項３に記載の方法。
表現型の重症度に応じてＣＨＭにスコアを付与すること、及び
サンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するＣＨＭを選択し、前記ヒトが同一遺伝子内に複数のＣＨＭを有する場合に、タンパク質機能抑制をもたらす可能性が最も高い前記ＣＨＭが同定されるようにすることをさらに含む、請求項３または請求項４に記載の方法。
バリアントをｄｅｎｏｖｏ変異としてフェージングすることは、
第２の第一度家族ネットワーク及びそのトリオのサンプルの中のバリアントを同定すること、
遺伝子型尤度スコアを、トリオ内の親サンプル及び対応する子サンプルのバリアントに割り当て、前記バリアントがｄｅｎｏｖｏ変異である確率を計算し、計算した前記確率が統計的に有意な場合に、前記バリアントを推定ｄｅｎｏｖｏ変異として同定すること、
トリオの子サンプルのバリアントを同定し、前記トリオのどちらの親サンプルにも前記バリアントが存在しない場合に、前記バリアントを推定ｄｅｎｏｖｏ変異として同定すること、
前記子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有する推定ｄｅｎｏｖｏ変異、または前記サンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有する推定ｄｅｎｏｖｏ変異、または前記子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の前記親サンプルに約２％を超えるアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または前記子サンプルに約１５％未満のアレルバランス（ＡＢ）を有する推定ｄｅｎｏｖｏ変異、または前記子サンプルに約９０％を超えるＡＢを有する推定ｄｅｎｏｖｏ変異、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有する推定ｄｅｎｏｖｏ変異、またはこれらの組み合わせの推定ｄｅｎｏｖｏ変異を除去することによって同定される推定ｄｅｎｏｖｏ変異をフィルタ処理すること、ならびに
フィルタ処理済みの同定された推定ｄｅｎｏｖｏ変異を組み合わせて、それによって推定ｄｅｎｏｖｏ変異データセットを形成することを含む、請求項１〜５のいずれか１項に記載の方法。
前記推定ｄｅｎｏｖｏ変異データセット内の推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、前記子サンプルで約０．１５以上、かつ各前記親サンプルで約０．０２以下の場合、及び前記推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のＭＡＣが前記サンプル全体にわたって約２０未満の場合、及び前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合、及び前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６に記載の方法。
中信頼度ｄｅｎｏｖｏ変異を、前記中信頼度ｄｅｎｏｖｏ変異が、前記親サンプルにおいて約９０以上の遺伝子型クオリティアノテーションを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、各前記親サンプルにおいて約１０以上のリードデプスを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、前記子サンプルにおいて約７以上の代替リードデプスを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項７に記載の方法。
低クオリティサンプルを前記データセットから除去することをさらに含み、前記低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項１〜８のいずれか１項に記載の方法。
集団における複合ヘテロ接合性変異（ＣＨＭ）を同定する方法であって、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて第２の第一度家族ネットワークを構築すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングすること、
フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類すること、ならびに
潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在ＣＨＭをＣＨＭとして分類することを含む、前記方法。
被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項１０に記載の方法。
被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項１０に記載の方法。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項１１または請求項１２に記載の方法。
同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することをさらに含む、請求項１１〜１３のいずれか１項に記載の方法。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項１４に記載の方法。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項１０〜１５のいずれか１項に記載の方法。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項１０〜１６のいずれか１項に記載の方法。
バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理することをさらに含む、請求項１０〜１７のいずれか１項に記載の方法。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項１８に記載の方法。
集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のＤＮＡ配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項１０〜１９のいずれか１項に記載の方法。
潜在ＣＨＭは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント（ＭＡＣ）に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項１０〜２０のいずれか１項に記載の方法。
表現型の重症度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得することをさらに含む、請求項１０〜２０のいずれか１項に記載の方法。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項１０〜２２のいずれか１項に記載の方法。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項１０〜２３のいずれか１項に記載の方法。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項１５に記載の方法。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項１９に記載の方法。
集団における複合ヘテロ接合性変異（ＣＨＭ）を同定する非一時的なコンピュータ実行方法であって、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、前記データプロセッサを使用すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成するために、前記データプロセッサを使用すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成するために、前記データプロセッサを使用すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングするために、前記データプロセッサを使用すること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成するために、前記データプロセッサを使用すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得するために、前記データプロセッサを使用すること、
統合同祖性推定に基づいて第２の第一度家族ネットワークを構築するために、前記データプロセッサを使用すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングするために、前記データプロセッサを使用すること、
フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類するために、前記データプロセッサを使用すること、ならびに
潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在ＣＨＭをＣＨＭとして分類するために、前記データプロセッサを使用することを含む、前記非一時的なコンピュータ実行方法。
被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項２７に記載の非一時的なコンピュータ実行方法。
被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項２７または請求項２８に記載の非一時的なコンピュータ実行方法。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項２８または請求項２９に記載の非一時的なコンピュータ実行方法。
同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するために、前記データプロセッサを使用することをさらに含む、請求項２８〜３０のいずれか１項に記載の非一時的なコンピュータ実行方法。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項３１に記載の非一時的なコンピュータ実行方法。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項２７〜３２のいずれか１項に記載の非一時的なコンピュータ実行方法。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項２７〜３１のいずれか１項に記載の非一時的なコンピュータ実行方法。
バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項２７〜３２のいずれか１項に記載の非一時的なコンピュータ実行方法。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項３５に記載の非一時的なコンピュータ実行方法。
集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のＤＮＡ配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項２７〜３５のいずれか１項に記載の非一時的なコンピュータ実行方法。
潜在ＣＨＭは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント（ＭＡＣ）に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項２７〜３７のいずれか１項に記載の非一時的なコンピュータ実行方法。
表現型の重症度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得するために、前記データプロセッサを使用することをさらに含む、請求項２７〜３８のいずれか１項に記載の非一時的なコンピュータ実行方法。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項２７〜３９のいずれか１項に記載の非一時的なコンピュータ実行方法。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項２７〜３９のいずれか１項に記載の非一時的なコンピュータ実行方法。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項３２に記載の非一時的なコンピュータ実行方法。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項３６に記載の非一時的なコンピュータ実行方法。
データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されたプログラムを備え、前記プログラムが、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて第２の第一度家族ネットワークを構築すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングすること、
フェージングされたバリアントを、同じ被験者及び遺伝子における２つ以上のバリアントの存在に基づいて潜在ＣＨＭとして分類すること、ならびに
潜在ＣＨＭを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在ＣＨＭをＣＨＭとして分類するための命令を含む、システム。
前記プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項４４に記載のシステム。
前記プログラムは、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項４４または請求項４５に記載のシステム。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項４４〜４６のいずれか１項に記載のシステム。
前記プログラムは、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するための命令を含む、請求項４５〜４７のいずれか１項に記載のシステム。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項４８に記載のシステム。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項４４〜４９のいずれか１項に記載のシステム。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項４４〜５０のいずれか１項に記載のシステム。
前記プログラムは、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するための命令を含む、請求項４４〜５１のいずれか１項に記載のシステム。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約２以下、またはリードデプス（ＤＰ）が約５未満、または代替アレルバランス（ＡＢ）が約１０％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約２以下、またはＤＰが約５未満、またはＡＢが約１０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項５２に記載のシステム。
集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のＤＮＡ配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項４４〜５３のいずれか１項に記載のシステム。
潜在ＣＨＭは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント（ＭＡＣ）に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項４４〜５３のいずれか１項に記載のシステム。
前記プログラムは、表現型の重症度に応じてＣＨＭにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するＣＨＭを選択し、それによって医学的に重要な変異の集合を取得するための命令を含む、請求項４４〜５５のいずれか１項に記載のシステム。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項４４〜５６のいずれか１項に記載のシステム。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項４４〜５７のいずれか１項に記載のシステム。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項４９に記載のシステム。
集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡（ＨＷＥ）から外れたバリアント、もしくは同じサンプル内の別のバリアントの１０塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）が約３以下、またはリードデプス（ＤＰ）が約７未満、または代替アレルバランス（ＡＢ）が約１５％以下、またはこれらの組み合わせのＳＮＰを除去すること、及びＱＤが約５以下、またはＤＰが約１０未満、またはＡＢが約２０％以下、またはこれらの組み合わせの挿入または欠失（ＩＮＤＥＬ）を除去することを含む、請求項５３に記載のシステム。
集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）を同定する方法であって、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングすること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて核家族を構築すること、
核家族におけるバリアントを同定すること、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがｄｅｎｏｖｏ変異である確率を計算し、前記バリアントがｄｅｎｏｖｏ変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記ｄｅｎｏｖｏ変異の２つのセットを組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成することを含む、前記方法。
被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項６１に記載の方法。
被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項６１または請求項６２に記載の方法。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項６２または請求項６３に記載の方法。
同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することをさらに含む、請求項６２〜６４のいずれか１項に記載の方法。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項６５に記載の方法。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項６１〜６５のいずれか１項に記載の方法。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項６１〜６６のいずれか１項に記載の方法。
前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のＤＮＡ配列サンプルに基づいている、請求項６１〜６８のいずれか１項に記載の方法。
遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む、請求項６１〜６８のいずれか１項に記載の方法。
どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む、請求項６１〜７０のいずれか１項に記載の方法。
バリアントをフィルタ処理することは、前記子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、または前記サンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または前記子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の前記親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項７０または請求項７１に記載の方法。
バリアントに品質管理メトリクスでアノテーションを付けることをさらに含む、請求項６１〜７１のいずれか１項に記載の方法。
どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理することをさらに含む、請求項６１〜７３のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、前記子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７４のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、各前記親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７５のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７６のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７７のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のＭＡＣが前記サンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７８のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜７９のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜８０のいずれか１項に記載の方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、前記子サンプルで約０．１５以上、かつ各前記親サンプルで約０．０２以下の場合、及び前記推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）が前記サンプル全体にわたって約２０未満の場合、及び前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合、及び前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項６１〜８１のいずれか１項に記載の方法。
中信頼度ｄｅｎｏｖｏ変異を、前記中信頼度ｄｅｎｏｖｏ変異が、前記親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、各前記親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、前記子サンプルにおいて約７以上の代替ＤＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類することをさらに含む、請求項８２に記載の方法。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項６１〜８３のいずれか１項に記載の方法。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項６１〜８４のいずれか１項に記載の方法。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項６６に記載の方法。
集団におけるｄｅｎｏｖｏ変異（ＤＮＭ）を同定する非一時的なコンピュータ実行方法であって、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、データプロセッサを使用すること、
祖先スーパークラス内での被験者の第１の同祖性推定を生成するために、データプロセッサを使用すること、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成するために、データプロセッサを使用すること、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングするために、データプロセッサを使用すること、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成するために、データプロセッサを使用すること、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得するために、データプロセッサを使用すること、
統合同祖性推定に基づいて核家族を構築するために、データプロセッサを使用すること、
核家族におけるバリアントを同定するために、データプロセッサを使用すること、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがｄｅｎｏｖｏ変異である確率を計算し、前記バリアントがｄｅｎｏｖｏ変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記ｄｅｎｏｖｏ変異の２つのセットを組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成することを含む、前記非一時的なコンピュータ実行方法。
被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項８７に記載の非一時的なコンピュータ実行方法。
被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項８７または請求項８８に記載の非一時的なコンピュータ実行方法。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項８８〜８９のいずれか１項に記載の非一時的なコンピュータ実行方法。
同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するために、前記データプロセッサを使用することをさらに含む、請求項８８〜９０のいずれか１項に記載の非一時的なコンピュータ実行方法。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項９１に記載の非一時的なコンピュータ実行方法。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項８７〜９２のいずれか１項に記載の非一時的なコンピュータ実行方法。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項８７〜９３のいずれか１項に記載の非一時的なコンピュータ実行方法。
前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のＤＮＡ配列サンプルに基づいている、請求項８７〜９４のいずれか１項に記載の非一時的なコンピュータ実行方法。
遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項８７〜９５のいずれか１項に記載の非一時的なコンピュータ実行方法。
どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項８７〜９６のいずれか１項に記載の非一時的なコンピュータ実行方法。
バリアントをフィルタ処理することは、前記子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、または前記サンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または前記子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の前記親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項９６または請求項９７に記載の非一時的なコンピュータ実行方法。
バリアントに品質管理メトリクスでアノテーションを付けるために、前記データプロセッサを使用することをさらに含む、請求項８７〜９８のいずれか１項に記載の非一時的なコンピュータ実行方法。
どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項８７〜９９のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、前記子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１００のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、各前記親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０１のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０２のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０３のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のＭＡＣが前記サンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０４のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０５のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０６のいずれか１項に記載の非一時的なコンピュータ実行方法。
推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、前記子サンプルで約０．１５以上、かつ各前記親サンプルで約０．０２以下の場合、及び前記推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）が前記サンプル全体にわたって約２０未満の場合、及び前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合、及び前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項８７〜１０７のいずれか１項に記載の非一時的なコンピュータ実行方法。
中信頼度ｄｅｎｏｖｏ変異を、前記中信頼度ｄｅｎｏｖｏ変異が、前記親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、各前記親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、前記子サンプルにおいて約７以上の代替ＤＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項１０８に記載の非一時的なコンピュータ実行方法。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項８７〜１０９のいずれか１項に記載の非一時的なコンピュータ実行方法。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項８７〜１１０のいずれか１項に記載の非一時的なコンピュータ実行方法。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項９２に記載の非一時的なコンピュータ実行方法。
データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されたプログラムを備え、前記プログラムが、
複数のヒト被験者由来のＤＮＡ配列サンプルの中のバリアントを同定する、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立する、
祖先スーパークラス内での被験者の第１の同祖性推定を生成する、
被験者の祖先スーパークラスから独立した被験者の第２の同祖性推定を生成する、
前記第２の同祖性推定の１つ以上に基づいて被験者を第１の第一度家族ネットワークにクラスタリングする、
第１の第一度家族ネットワーク内での被験者の第３の同祖性推定を生成する、
第１の同祖性推定と第３の同祖性推定とを統合して、統合同祖性推定を取得する、
統合同祖性推定に基づいて核家族を構築する、
核家族におけるバリアントを同定する、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがｄｅｎｏｖｏ変異である確率を計算し、前記バリアントがｄｅｎｏｖｏ変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記ｄｅｎｏｖｏ変異の２つのセットを組み合わせ、それによって推定ｄｅｎｏｖｏ変異のデータセットを形成するための命令を含む、システム。
前記プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項１１３に記載のシステム。
前記プログラムは、被験者の第２の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項１１３または請求項１１４に記載のシステム。
バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約１０％を超える代替アレル頻度を有するバリアントを除去すること、またはｐ値が約１０^−６超である、ハーディ・ワインベルグ平衡（ＨＷＥ）に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約５％超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項１１４または請求項１１５に記載のシステム。
前記プログラムは、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するための命令を含む、請求項１１４〜１１６のいずれか１項に記載のシステム。
低クオリティサンプルは、Ｄ−ｓｔａｔが０．１２を超えるか、もしくは２０ｘのリードカバレッジが７５％未満であるか、またはその両方であるサンプルである、請求項１１７に記載のシステム。
第１の同祖性推定と第３の同祖性推定とを統合することは、前記第３の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第１の同祖性推定を増強することを含む、請求項１１３〜１１８のいずれか１項に記載のシステム。
同祖性推定は、サンプルペアの間のゲノム全域にわたる０、１、及び２のＩＢＤ値の計算を含む、請求項１１３〜１１９のいずれか１項に記載のシステム。
前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のＤＮＡ配列サンプルに基づいている、請求項１１３〜１２０のいずれか１項に記載のシステム。
前記プログラムは、遺伝子型尤度スコアに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む、請求項１１３〜１２１のいずれか１項に記載のシステム。
前記プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがｄｅｎｏｖｏ変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む、請求項１１３〜１２２のいずれか１項に記載のシステム。
バリアントをフィルタ処理することは、前記子サンプルに約３５未満の遺伝子型クオリティ（ＧＱ）アノテーションを有するバリアント、または前記サンプル全体にわたって１０以上の代替アレルカウント（ＡＣ）を有するバリアント、または前記子サンプルに、約７未満のリードデプス（ＤＰ）と約４未満の代替ＤＰとを有するバリアント、またはどちらか一方の前記親サンプルに約２％を超えるアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約１５％未満のアレルバランス（ＡＢ）を有するバリアント、または前記子サンプルに約９０％を超えるＡＢを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項１２２または請求項１２３に記載のシステム。
前記プログラムは、バリアントに品質管理メトリクスでアノテーションを付けるための命令を含む、請求項１１３〜１２４のいずれか１項に記載のシステム。
前記プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定ｄｅｎｏｖｏ変異が同定された後に、サンプルＢＡＭファイルデータに基づいてバリアントをフィルタ処理するための命令を含む、請求項１１３〜１２５のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、前記子サンプルで約０．１５以上の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１２６のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランスが、各前記親サンプルで約０．０２以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１２７のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のマッピングクオリティが約４０未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１２８のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１２９のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のＭＡＣが前記サンプル全体にわたって約２０未満の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１３０のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１３１のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１３２のいずれか１項に記載のシステム。
前記プログラムは、推定ｄｅｎｏｖｏ変異を、前記推定ｄｅｎｏｖｏ変異のアレルバランス（ＡＢ）が、前記子サンプルで約１５％以上、かつ各前記親サンプルで約２％以下の場合、及び前記推定ｄｅｎｏｖｏ変異のマッピングクオリティ（ＭＱ）が約４０未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のクオリティバイデプス（ｑｕａｌｉｔｙｂｙｄｅｐｔｈ）（ＱＤ）の値が約２未満ではない場合、及び前記推定ｄｅｎｏｖｏ変異のマイナーアレルカウント（ＭＡＣ）が前記サンプル全体にわたって約２０未満の場合、及び前記推定ｄｅｎｏｖｏ変異のソフトクリップリードが、前記推定ｄｅｎｏｖｏ変異のキャリアにおける前記バリアントサイトで約３以下の場合、及び前記推定ｄｅｎｏｖｏ変異が、約４を超えるモノポリマーランを持つＩＮＤＥＬではない場合に、中信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１１３〜１３３のいずれか１項に記載のシステム。
前記プログラムは、中信頼度ｄｅｎｏｖｏ変異を、前記中信頼度ｄｅｎｏｖｏ変異が、前記親サンプルにおいて約９０以上の遺伝子型クオリティ（ＧＱ）アノテーションを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、各前記親サンプルにおいて約１０以上のリードデプス（ＤＰ）を有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、前記子サンプルにおいて約７以上の代替ＤＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約３より大きいＱＤのＳＮＰを有する場合、及び前記中信頼度ｄｅｎｏｖｏ変異が、約５より大きいＱＤのＩＮＤＥＬを有する場合に、高信頼度ｄｅｎｏｖｏ変異として分類するための命令を含む、請求項１３４に記載のシステム。
ＤＮＡ配列サンプルはエクソーム配列を含む、請求項１１３〜１３５のいずれか１項に記載のシステム。
複数の前記ヒト被験者は、１０Ｋを超える被験者を含む、請求項１１３〜１３６のいずれか１項に記載のシステム。
低クオリティサンプルのＤ−ｓｔａｔは、Ｋｏｌｍｏｇｏｒｏｖ−Ｓｍｉｒｎｏｖ検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項１１８に記載のシステム。