JP2020532989A - ゲノムデータ解析に近縁性を活用するシステム及び方法 - Google Patents
ゲノムデータ解析に近縁性を活用するシステム及び方法 Download PDFInfo
- Publication number
- JP2020532989A JP2020532989A JP2020513709A JP2020513709A JP2020532989A JP 2020532989 A JP2020532989 A JP 2020532989A JP 2020513709 A JP2020513709 A JP 2020513709A JP 2020513709 A JP2020513709 A JP 2020513709A JP 2020532989 A JP2020532989 A JP 2020532989A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- variants
- novo mutation
- less
- variant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/60—ICT specially adapted for the handling or processing of medical references relating to pathologies
Abstract
Description
本出願は、2017年9月7日提出の米国仮特許出願第62/555,597号の利益を主張するものであり、この米国仮特許出願の内容は、その全体が、参照することにより本明細書に援用される。さらに、2018年9月7日提出の「System and Method for Predicting Relatedness in a Human Population」と題する同時係属出願もまた、その全体が、参照することにより援用される。
本開示は、一般に、ゲノムデータの分析のための方法及びシステム、ならびに大集団コホートにおける近縁性を利用して、稀少遺伝的バリエーションを疾患及び疾患感受性に結び付けることに関する。より詳細には、本開示は、同祖性を確立し、遺伝的バリアントを複合ヘテロ接合性変異またはde novo変異としてフェージングするためのシステム及び方法に関する。
いくつかの例示的な実施形態では、本方法は、被験者の第1の同祖性推定及び第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである。
いくつかの例示的な実施形態では、本方法は、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、本非一時的なコンピュータ実行方法は、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するために、データプロセッサを使用することをさらに含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、プログラムは、被験者の第1の同祖性推定及び第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである。
いくつかの例示的な実施形態では、プログラムは、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、本方法は、被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである。
いくつかの例示的な実施形態では、遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている。
いくつかの例示的な実施形態では、本方法は、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定de novo変異が同定された後に、サンプルBAMファイルデータに基づいてバリアントをフィルタ処理することをさらに含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、プログラムは、被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである。
いくつかの例示的な実施形態では、遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている。
いくつかの例示的な実施形態では、プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定de novo変異が同定された後に、サンプルBAMファイルデータに基づいてバリアントをフィルタ処理するための命令を含む。
いくつかの例示的な実施形態では、複数のヒト被験者は、10Kを超える被験者を含む。
いくつかの例示的な実施形態では、第1の集団のデータセットを確立することは、ゼロと最大受胎年齢との間の第1の集団データセット内の個人に年齢を割り当てることをさらに含む。
いくつかの例示的な実施形態では、バーンインフェーズを実行することは、第2の集団データセット内の個人の出生数及び死亡数を等しく保ち、個人の正味の移動率をゼロに保つことをさらに含む。
別の態様では、本開示は、予測モデルを使用する方法を提供し、個人の確認はランダムに行われる。
いくつかの例示的な実施形態では、個人を確認することは、確認された個人間の第一度または第二度の関係、またはその両方を含む、確認された個人に関する近縁性データ及び関連統計を収集することをさらに含む。
− シークエンシングの完了時に、各シークエンシングランからの生データがローカルバッファストレージに収集され、自動解析のために、DNAnexusプラットフォーム(Reid et al.(2014);BMC Bioinformatics 15,30)にアップロードされる。
図1は、集団の近縁性を活用することによって、集団における遺伝的バリアントのフェージング/同定が行われる例示的な実施形態のフローチャートである。複数のヒト被験者から得られた核酸配列サンプルのデータセットから、低クオリティの配列バリアントを、任意好適な手段によってステップ1で除去し得る。そのような手段の非限定的な例としては、PLINK(Chang et al.(2015);Gigascience 4,7)、及び本実施例に開示されているものが挙げられる。
本方法は、任意手段によって得られる任意の種類のヒト被験者に由来するあらゆる種類のDNA配列サンプルに適用し得る。バリアントの非限定的な例には、点突然変異、挿入、欠失、逆位、重複、及び多量体化が含まれる。ヒト被験者の種類の非限定的な例には、単一医療ネットワーク集団、複数医療ネットワーク集団、人種的、文化的、もしくは社会的に同種もしくは異種の集団、混合年齢集団もしくは年齢に関して均質な集団、地理的に集中した集団もしくは地理的に分散した集団、またはこれらの組み合わせからのヒト被験者が含まれる。DNA配列サンプルは、Dewey et al.(2016),Science 354,aaf6814−1〜aaf6814−10に開示されているものを含むが、これに限定されない多くの方法のいずれかで取得し得る。
図2は、集団における複合ヘテロ接合性変異(CHM)が同定される例示的な実施形態のフローチャートである。同定されたバリアントに基づく被験者の祖先スーパークラスの指定を、任意好適な手段によって、ステップ12で確立し得る。祖先スーパークラス内での被験者の第1の同祖性推定を、任意好適な手段によって、ステップ13で生成し得る。被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を、任意好適な手段によって、ステップ14で生成し得る。ステップ15で、第2の同祖性推定の1つ以上に基づいて、任意好適な手段によって、被験者を第1の第一度家族ネットワークにクラスタリングし得る。第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を、任意好適な手段によって、ステップ16で生成し得る。第1の同祖性推定と第3の同祖性推定とを、任意好適な手段によって、ステップ17で統合して、統合同祖性推定を取得し得る。ステップ18で、統合同祖性推定に基づいて、任意好適な手段によって、第2の第一度家族ネットワークを構築し得る。そのような手段の非限定的な例としては、PLINK(Chang et al.(2015);Gigascience 4,7)、及び本実施例に開示されているものが挙げられる。いくつかの例示的な実施形態では、同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む。
本方法は、任意手段によって得られる任意の種類のヒト被験者に由来するあらゆる種類のDNA配列サンプルに適用し得る。バリアントの非限定的な例には、点突然変異、挿入、欠失、逆位、重複、及び多量体化が含まれる。ヒト被験者の種類の非限定的な例には、単一医療ネットワーク集団、複数医療ネットワーク集団、人種的、文化的、もしくは社会的に同種もしくは異種の集団、混合年齢集団もしくは年齢に関して均質な集団、地理的に集中した集団もしくは地理的に分散した集団、またはこれらの組み合わせからのヒト被験者が含まれる。DNA配列サンプルは、Dewey et al.(2016),Science 354,aaf6814−1〜aaf6814−10に開示されているものを含むが、これに限定されない多くの方法のいずれかで取得し得る。
図3は、集団におけるde novo変異(DNM)が同定される例示的な実施形態のフローチャートである。同定されたバリアントに基づく被験者の祖先スーパークラスの指定を、任意好適な手段によって、ステップ23で確立し得る。祖先スーパークラス内での被験者の第1の同祖性推定を、任意好適な手段によって、ステップ24で生成し得る。被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を、任意好適な手段によって、ステップ25で生成し得る。ステップ26で、第2の同祖性推定の1つ以上に基づいて、任意好適な手段によって、被験者を第1の第一度家族ネットワークにクラスタリングし得る。第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を、任意好適な手段によって、ステップ27で生成し得る。第1の同祖性推定と第3の同祖性推定とを、任意好適な手段によって、ステップ28で統合して、統合同祖性推定を取得し得る。そのような手段の非限定的な例としては、PLINK(Chang et al.(2015);Gigascience 4,7)、及び本実施例に開示されているものが挙げられる。同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含み得る。
本明細書で使用される「D−stat」という用語は、低クオリティサンプルを同定するのに生成し使用し得るQCメトリクスを指す。サンプルのクオリティが低いのは汚染に起因する場合があり、下流の分析で問題を引き起こす場合がある。サンプルのD−statは、例えば、サンプルの実際のアレルバランスの分布を参照アレルバランスの分布(例えば、予想されるアレルバランスの分布)と比較することによって計算してもよい。この参照分布は、例えば、分析すべきサンプルをクエリするのに使用されるものと同じプラットフォームを使用してキャプチャされ配列決定される汚染の形跡が全くない複数のサンプルから計算してもよい。本明細書で使用されるD−statのQCメトリクス値は、p値の計算に先立ってK−S(Kolmogorov−Smirnov)検定から生成されるD統計値と同等である。D−statには単位がない。K−S検定のD統計値は、0と1との間の値になり、1は、参照分布及びサンプル分布の累積分布間の極大差を意味する。いくつかの例示的な実施形態では、サンプルの実際のアレルバランスの分布を、K−S検定に従って計算されたアレルバランスの予想される分布/参照分布と比較することによって、低クオリティサンプルが同定される。いくつかの例示的な実施形態では、特定のD−stat値を有すると判定されたサンプルは、低クオリティサンプルとみなされ、以降の分析から除外される。いくつかの例示的な実施形態では、低クオリティであるとみなされ、除外すべきサンプルのD−stat値は、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.11、または0.12よりも大きい。好ましい実施形態では、低クオリティであるとみなされ、除外すべきサンプルのD−stat値は、約0.12よりも大きい。さらに一層好ましい実施形態では、低クオリティであるとみなされ、除外すべきサンプルのD−stat値は、0.12よりも大きい。
61Kのヒトエクソームのコホートにおける関係の推定と近縁性の内容
61Kのヒトエクソームのコホートを分析した。このコホートは、2014年に開始されたRegeneron Genetics Center(RGC)及びGeisinger Health System(GHS)による研究を起源としている(Dewey et al.(2016),Science 354,aaf6814−aaf6814)。このDiscovEHR研究では、移住率の低い集団を扱う単一のヘルスケアシステムに属する患者を密にサンプリングした。この61Kのヒトエクソームコホートは、本明細書ではDiscovEHRデータセットと呼ぶ。膨大な量の家族構造をDiscovEHRデータセット内で同定し、本明細書に開示されたシミュレーションでは、本研究で250Kのターゲットを確認したときに、データセット内の個人の70%〜80%が、第一度または第二度の血縁者を持つであろうと見積もられた。
92Kのヒトエクソームのコホートにおける関係の推定と近縁性の内容
より大きな92,455のヒトエクソームの臨床コホートを分析した。このコホートは、2014年に開始されたRegeneron Genetics Center(RGC)及びGeisinger Health System(GHS)による進行中の研究を起源としている(Staples et al.(2018),Am.J.Hum.Genet.102(5):874−889)。同様に、この拡張されたDiscoverEHRコホートは、中央ペンシルベニアの移住率が低い大部分が農村の集団を扱う単一のヘルスケアシステムからの参加者を密にサンプリングしたものである。
SimProgenyを用いたシミュレーションと近縁性予想
DiscovEHR及び拡張DiscovEHRのデータセット内の関係ネットワークの成長のモデル化、理解、及び予測をしようとする試みで、シミュレーションフレームワーク(以下「SimProgeny」)を開発した。これは、複数のサブ集団にまたがって分散した数百年にわたる数百万人の血統をシミュレートすることが可能である。これらのシミュレートされた集団から、SimProgenyは、様々なサンプリングアプローチをモデル化し、研究者が、所与の集団及びサンプリングパラメータのセットに対して見出すことを期待するだろう近縁性の量を推定することができる(実施例17参照)。
近縁性をDicoverEHRデータセットの確率変数のように扱うことの代わりに、近縁性を活用すること
家系再構築ツールPRIMUS(Staples et al.(2014),Am.J.Hum.Genet.95,553−564.)を使用して、DiscovEHRデータセットにおいて、7,684の全ての第一度家族ネットワークを再構築し、IBD推定と報告された年齢とを考慮するとき、これらの家系の98.9%が一意に再構築されることが分かった。これらの家系には、1,081の核家族(925のトリオ、134のカルテット、19のクインテット、及び3つのセクステット)が含まれていた。以下の表3は、トリオの祖先別の内訳を示す。1,081の核家族を、それらの個々のトリオ構成要素に分割した。例えば、カルテットは、同じ親を持つ2つの別々のトリオに分けることになる。DiscovEHRコホートは、大半はヨーロッパ人であったため、トリオの大多数は、ヨーロッパ系の個人を含んでいた。不明の祖先を持つ個人は、概して、異なる系統を持つ親の子供であった。例えば、東アジア人−ヨーロッパ人−不明のトリオの3つ全ては、ヨーロッパ人の父親と東アジア人の母親とを含んでおり、混合された子供をもたらす。これらのヨーロッパ人−東アジア人の混合した個人に厳密に一致する参照集団がなかったため、これらは不明の祖先という結果となった。
人類遺伝学の主な目的は、ヒトゲノム中の全ての遺伝子の機能をより深く理解することである。ホモ接合性機能喪失型変異(LoF)は、これらの「ヒトノックアウト」(KO)の表現効果を分析することにより、遺伝子機能を洞察する力を得るための強力なツールである。最近の大規模シークエンシング研究では、稀少(MAF<1%)ホモ接合性LoFが特に注目されており、多くの遺伝子−表現型相互作用の同定において重要になっている(Lek et al.(2016),Nature Publishing Group 536,285−291、Dewey et al.(2016),Science 354,aaf6814−aaf6814、Saleheen et al.(2017),Nature Publishing Group 544,235−239、及びNarasimhan et al.(2016),Science 352,474−477)。2つのヘテロ接合性LoFの稀少複合ヘテロ接合性変異(CHM)は、機能的には稀少ホモ接合性KOと同等であるが、これらは、このような大規模シークエンシング研究ではめったに調査されない(Lek et al.(2016),Nature Publishing Group 536,285−291、Dewey et al.(2016),Science 354,aaf6814−aaf6814、及びSaleheen et al.(2017),Nature Publishing Group 544,235−239)。LoFの稀少CHMの正確な同定は、(1)稀少CHMがヒト遺伝子KO数を実質的に増加させ、統計的検出力を改善するため、(2)稀少CHMのKOが、ホモ接合性キャリアを欠き得る極めて稀少なヘテロ接合性変異を含む可能性があるため、及び(3)稀少CHMが、「ヒトKOプロジェクト」のためのより完全なKOセットを提供するため、価値がある(Saleheen et al.(2017),Nature Publishing Group 544,235−239、Perdigoto(2017),Nat.Rev.Genet.18,328−329)。
ヒトノックアウト遺伝子のよりロバストなセットを取得し、CHMの付加価値を実証するために、CHMを、61KのDiscovEHR参加者の間で見出された3,915のホモ接合性pLoFと組み合わせた。pLoF−pLoFのCHMは、推定KOを有する≧1及び≧10の個人の遺伝子数を、それぞれ15%及び54%だけ増加させた(上記の表6を参照)。KO分析にCHMを含めることの利点は、タンパク質の機能を混乱させると予測されるミスセンスバリアントを考慮した場合、さらに一層重要となった。つまり、CHMは、キャリアが1つ以上の遺伝子を28%増加させ、キャリアが10以上の遺伝子を246%増加させたが、この場合、遺伝子の両方のコピーは完全にノックアウトするかまたは攪乱されることが予測される。
de novo変異(DNM)は、純化淘汰の低減に起因して、ヒトにおいて極端な表現型を生成する可能性が高い稀少バリエーションのクラスである。最近のシークエンシング研究は、DNMがヒトの遺伝的疾患の大きな要因であることを示しており(de Ligt et al.(2012),N.Engl.J.Med.367,1921−1929、Deciphering Developmental Disorders Study(2017).Prevalence and architecture ofde novo mutations in developmental disorders.Nature Publishing Group 542,433−438、及びFromer et al.(2014),Publishing Group 506,179−184)、DNMが遺伝子機能をより深く理解するための有益なツールであることを示している。
DiscovEHRデータセットの中から再構築された家系データを使用して、新規/稀少な集団のバリエーションと家族性バリアントとを区別し、この家系データを活用して、集団全体の関連解析で正当に評価されていない、家族において分離する高浸透性疾患のバリアントを同定した。これは、これらの家系を介して伝わる全ての既知のメンデル遺伝病の原因となるバリエーションの調査を意図したものではないが、家族性大動脈瘤(図23、パネルA)、QT延長症候群(図23、パネルB)、甲状腺癌(図23、パネルC)、家族性高コレステロール血症(FH;図24)(Maxwell,E.K.,et al.(2017).Profiling copy number variation and disease associations from 50,726 DiscovEHR Study exomes)など、いくつかの説明に役立つ実例を確認した。FHの例は、LDLRの新規家族性高コレステロール血症を引き起こす縦列重複の27/29キャリアが再構築されたことから、特に興味深いものであった。5つのさらなるキャリア(描画せず)もこの家系に含まれていた。LDL及び総コレステロールの上昇、ならびに冠動脈疾患及び早期発症虚血性心疾患(「虚血性心疾患年齢」は男性では55歳未満、女性では65歳未満)の有病率の増加は、重複キャリアと分離する。彼らの共通の祖先の履歴は、彼ら全員が、この重複事象を、約6世代前の共通の祖先から継承したことを示している。残りの2つのサンプルは互いに第一度血縁者であったが、それらは正常に遺伝子型決定されず、より大きな家系に接続することができなかった。
近縁性を拡張DicoverEHRデータセットの確率変数のように扱うことの代わりに、近縁性を活用すること
拡張DiscovEHRデータセット内の12,574の第一度家族ネットワークの家系構造を、家系再構築ツールPRIMUSを使用して再構築した。LBD推定及び報告された参加者の年齢を考慮すると、これらの家系の98.9%が単一の家系構造に明確に再構築されることが分かった。これらの家系には、2,192の核家族(1,841のトリオ、297のカルテット、50のクインテット、3つのセクステット、及び1つのセプテット)が含まれる。表11は、トリオの祖先別の内訳を示す。図14、パネルCは、34のシークエンシングされた個人を含む最大の第一度家系を示す。
稀少ヘテロ接合変異のペアで構成される57,355の高クオリティpCHMは、推定LoF(pLoF、すなわち、ナンセンス変異、フレームシフト変異、またはスプライスサイト変異)、または有害である強い証拠を有するミスセンスバリアントであることを認めた。次に、EAGLEによるアレル頻度ベースのフェージングと、再構築された家系及び関係のデータによる家系ベースのフェージングとの組み合わせを使用することによるpCHMのフェージングを実行した(図25)。トリオ検証は、EAGLEが、平均89.1%の精度でpCHMをフェージングしたことを示した(以下の表12)。ただし、このコホートでは、広範な家系及び関係のデータのため、pCHMの25.2%をフェージングし、非常に正確なトリオ及び関係のフェージングデータ(R 98.0%;表12)を有するトランスCHMの33.8%が、トランスCHMの不正確なフェージングを約3分の1だけ減らした。フェージングされたpCHMは、シングルトンから1%MAFまでの全範囲に及んだ(以下の表13参照)。
遺伝子の両方のコピーが同じ個人でノックアウトまたは攪乱される、よりロバストな遺伝子セットを得るとともに、CHMの付加価値を実証するために、CHMを、92KのDiscovEHR参加者の間から見出した6,560の稀少(MAF<1%)ホモ接合性pLoFと組み合わせた。pLoF−pLoFのCHMは、R1及びR20の個人でノックアウトされた遺伝子の数を、それぞれ15%及び61%だけ増加させた(以下の表16を参照)。CHMをKO分析に含めることの利点は、タンパク質機能を攪乱させると予測されるミスセンスバリアントを考慮した場合、さらに一層重要になる。組み合わされた20,364の稀少ホモ接合性pLOFと、有害ミスセンスバリアントとが、92Kの参加者に見つかった。ホモ接合性pLoFまたは予測される有害ミスセンスバリアントのキャリアは、完全にノックアウトまたは攪乱されると予測される多数の遺伝子を提供した。ただし、CHMのキャリアを含めると、R1個人でノックアウトまたは攪乱される遺伝子が26%多く、R20個人でノックアウトまたは攪乱される遺伝子が397%多かった(表15)。
92Kの拡張DiscovEHR参加者から再構築された核家族は、トリオで2,602の有効な子供のうちの1,783に分布する3,415の中信頼度及び高信頼度エクソンDNMを内密にコールすることができた(平均約1.31;最大約48;図26、パネルC)。PolyPhen2は、DNMの29.1%(n〜995)を「ほぼ確実に損傷を与える(probably damaging)」と予測し、さらに9.2%(n〜316)を、損傷を与えるおそれがある(possibly damaging)と予測している。DNMは2,802の遺伝子にわたって分布しており(図26、パネルD)、TTNが最も多く(9)収容する。DNMの最も一般的なタイプは、非同義SNV(58.5%)であり、これに同義SNV(24.3%)が続く。表17は、DNMタイプの全内訳を提供し、様々な機能クラスに分類されるDNMの割合が、発育障害のある子供のDNMについての最近の研究で見出された割合とほぼ一致することを示す。図7に記載の通り、DNMのコール、フィルタリング、及び信頼度順位付けのワークフローに従った。シークエンシングされた92,455のGHSエクソームのコホートから、2,602トリオを同定した(図28)。低信頼度、中信頼度、及び高信頼度のDNMに基づいてソートしたトリオから、6,645のエクソンDNMを同定した。拡張DiscovEHRデータセットから再構築した家族を使用して、2,602の家族トリオから、3,409の中信頼度及び高信頼度のエクソンDNM、ならびに3,045の単一ヌクレオチドDNMを確信的にコールした(図29、パネルA及びB)。コホートのほとんどの個人は、DNMは5未満であった。さらに、シークエンシングした92,455のGHSエクソームのコホートから、2,602のトリオを同定し、これらを低信頼度、中信頼度、高信頼度のバリアントに基づいてソートして、10,000のランダムバリアントを生成する73、192の中信頼度/高信頼度バリアントを提供した。
92Kの拡張DiscovEHR参加者の中から再構築された家系データを使用して、稀少集団バリエーションと家族性バリアントとを区別し、これを活用して、家族において分離する高浸透性疾患のバリアントを同定した。これは、DiscoverEHRデータセットと同様に、これらの家系を介して伝わる全ての既知のメンデル遺伝病の原因となるバリエーションの調査を意図したものではないが、家族性大動脈瘤、QT延長症候群、甲状腺癌、家族性高コレステロール血症(FH[MLM:143890];図35)を同定している。CNVコールの更新時に、92Kのエクソーム間でFHを引き起こす縦列重複の37のキャリアを見つけている。これに基づいて、37のキャリアのうち30を単一の拡張家系に再構築した。キャリアの共通の祖先の履歴は、彼ら全員が、この重複事象を、約6世代前の共通の祖先から継承したことを示した。残りの7人のキャリアのうち2人は互いに第二度血縁者であるが、残りの7人のキャリアも図36の他のキャリアと遠縁であることを確認するために、遺伝子型決定の配列データを入手することはできなかった。図36に記載された家系では、キャリア及び非キャリアの状態は、各個人からのエクソームデータから決定され、最大LDLレベル(記号の下の値)の上昇、ならびに冠動脈疾患(CAD、赤い塗りつぶし)の有病率の増加及び重複キャリアで分離された純粋な高コレステロール血症(ICD 272.0;青)が見られた。5人のさらなるキャリア(描かれず)は、この家系の個人の遠縁の血縁者(第七度から第九度の血縁者)であることも判明した(図36)。
患者とサンプル
予測モデルを、コホート、(A)61,720人の匿名化された患者のエクソームを持つDicovEHRコホート、及び(B)92,455人の匿名化された患者のエクソームを持つ拡張DicovEHRコホートに適用することにより、2セットのデータを収集した。
サンプル準備、シークエンシング、バリアントコール、及びサンプルQC
サンプルの準備とシークエンシングは、Deweyら(Dewey et al.(2016),Science 354,aaf6814−aaf6814)で以前に記載されている。
主成分と祖先推定
PLINKv1.9を使用してデータセットをHapMap3(International HapMap 3 Consortium,Altshuler et al.(2010)、Nature Publishing Group 467,52−58)とマージし、両方のデータセットにあるSNPのみを保持した。また、次のPLINKフィルタを適用した。−−maf 0.1 −−geno 0.05 −−snps−only −−hwe 0.00001。HapMap3サンプルの主成分(PC)分析が計算され、PLINKを使用して各サンプルがデータセット内のそれらのPCに投入された。HapMap3サンプルのPCを使用して、5つの祖先スーパークラス、すなわち、アフリカ人(AFR)、混合アメリカ人(AMR)、東アジア人(EAS)、ヨーロッパ人(EUR)、南アジア人(SAS)のそれぞれのカーネル密度推定(KDE)を訓練した。KDEを使用して、各サンプルが各スーパークラスに属する尤度を計算した。各サンプルについて、祖先スーパークラスを尤度に基づいて割り当てた。サンプルが0.3を超える尤度を持つ2つの祖先グループを有する場合、AFRをEURに優先して割り当て、AMRをEURに優先して割り当て、AMRをEASに優先して割り当て、SASをEURに優先して割り当て、AMRをAFRに優先して割り当てた。それ以外の場合は「不明」になる(これは、EURとEASの集団の厳密な推定と、データセット内の混合の多い集団の包括的な推定とを提供するために行われた)。ゼロまたは3つ以上の祖先グループが十分に高い尤度を持っていた場合、サンプルに祖先の「不明」を割り当てた。祖先が不明なサンプルは、祖先ベースの同祖性(IBD)計算から除外した。
IBD推定
次のフラグを使用して全データセットに対してPLINKを実行することにより、高クオリティで一般的なバリアントをフィルタ処理した。−−maf 0.1 −−geno 0.05 −−snps−only −−hwe 0.00001。次に、エクソームデータから正確なIBD推定を取得するために、2つのアプローチを取った。最初に、個人間のIBD推定を、祖先分析から決定された祖先スーパークラス(例えば、AMR、AFR、EAS、EUR、及びSASなど)内で計算した。次のPLINKフラグを、第二度関係までのIBD推定を取得するために使用した。−−genome −−min 0.1875。全てのサンプルが同様の祖先アレルを共有したため、これにより、より正確な関係推定が可能になった。ただし、このアプローチでは、異なる系統の個人間の関係、例えば、ヨーロッパ人の父親とアジア人の母親との子供を予測できなかった。
家系再構築
DiscovEHR及び拡張DiscovEHRコホート内で同定した全ての第一度家族ネットワークをPRIMUSv1.9.0で再構築した。結合IBD推定は、遺伝的に得られた性別及びEHR報告年齢の範囲内でPRIMUSに提供された。PI_HAT>0.375の近縁性カットオフを、再構築が第一度家族ネットワークに制限されるように指定し、0.1875のカットオフを指定して、第二度ネットワークを定義した。
アレル頻度ベースのフェージング
EAGLEv2.3(Loh et al.(2016);Nat Genet 48,1443−1448)を用いて、61,019エクソーム由来の全ての両アレルバリアントをフェージングした。DNAnexus内の解析を並列化するために、ゲノムは、500のバリアントと250Kの塩基対との最小オーバーラップを有する約40Kのバリアントのオーバーラップセグメントに分割した。目標は、遺伝子内の推定複合ヘテロ接合性変異をフェージングすることであったため、セグメント切断点が遺伝子間領域に生じるように注意を払った。
−−maxMissingPerIndiv 1
−−genoErrProb 0.01
−−numThreads=16
実施例10
複合ヘテロ接合性コール
目的は、機能喪失(pLoF)と推定されるバリアントの高信頼度複合ヘテロ接合性変異(CHM)コールを取得して、ノックアウトまたは攪乱された可能性のある遺伝子の両方のコピーを有するヒトを同定することであった。フレームシフト、終止コドン獲得、終止コドン喪失、開始コドン獲得、開始コドン喪失、またはスプライシングアクセプタもしくはドナー変更バリアントが発生した場合に、バリアントをpLoFとして分類した。2番目の、潜在的に有害なバリアントの拡張されたセットを作成し、これには、pLOF及びおそらく攪乱ミスセンスバリアントが含まれ、以下の5つの方法の全てによって有害であると予測されることによって定義された。SIFT(Loh et al.(2016);Nat Genet 48,1443−1448)(損傷を与える(damaging))、PolyPhen2 HDIV(損傷を与える(damaging)、及び損傷を与えるおそれがある(possibly damaging))、PolyPhen2 HVAR(損傷を与える(damaging)、及び損傷を与えるおそれがある(possibly damaging))、LRT(有害(deleterious))、及びMutationTaster(Schwarz et al.(2014);Nat.Methods 11、361−362)(必然的に疾患を引き起こす(disease causing automatic)、及び疾患を引き起こす(disease causing))。
DiscovEHRデータセットの複合ヘテロ接合性変異検証
フェージングの精度は、フェージング予測をトリオ及びIlluminaのリードを用いて行ったフェージングと比較することによって評価した。まず、トリオのフェーズ済みのpCHMを真として使用して、pCHMのフェージング精度を評価した。各家族関係のフェージングアプローチは、トリオのフェージングとは独立して行われたため、pCHMキャリアがトリオの子供である限り、各関係クラスのフェージングの精度を適切に測定することができた。上記の表4及び表12は、これらの稀少pCHMについて、家族関係ベースのフェージングの精度が100%正確であったことを示している。EAGLEのフェージングは、DiscovEHR及び拡張DiscovEHRデータセットで、それぞれ91.4%及び89.1%と正確性が劣っていた。DiscovEHRデータセットの場合、フェージングpCHMでのEAGLEの精度が、異なるマイナーアレル頻度の範囲で評価され、MACが6より大きい場合に95%以上、MACが2〜6の場合、約77%の精度が一貫して得られた(上記の表19参照)。EAGLEフェージングは、予期したように、シングルトンでは機能しなかった。
拡張DiscovEHRデータセットの複合ヘテロ接合性変異検証
DiscovEHRデータセットの場合、上記の表12は、稀少pCHMの家族ベースのフェージングの精度が99.6%(1060/1064pCHM)であったことを示している。EAGLEのフェージングは、89.1%(766/860pCHM;上記の表12)であり、それほど正確ではなかった。マイナーアレル頻度の様々な範囲でのEAGLEのpCHM位相精度を評価して、MACが9を超える場合にEAGLEが一貫して90%を超える精度を達成し、MACが2から9の場合に約77%の精度を達成することを確認した(上記の表20を参照)。EAGLEフェージングは、シングルトンでは不十分に機能した。
de novo変異(DNM)検出
DNMを検出するための2つの異なるアプローチの結果を統合した。最初の方法はTrioDeNovo(Wei et al.(2015);Bioinformatics 31,1375−1381)であり、これは、子の変異性サイトごとに、子及び親の遺伝子型の尤度を読み取る。これらの尤度をベイジアンフレームワークに入力し、子供のバリアントがDNMであるという事後尤度を計算した。第2のプログラムはDeNovoCheck(https://sourceforge.net/projects/denovocheck)であり、これは、de Ligt,et al.の補足方法で説明されている(de Ligt et al.(2012);N.Engl.J.Med.367,1921−1929)。DeNovoCheckは、どちらの親にもなく、子でコールされていると識別された候補DNMのセットを取り込む。次に、BAMファイルを調べることによって、子にバリアントが存在するかどうか、及び両方の親にバリアントが存在しないかどうかを確認する。これらの潜在的DNMをフィルタリングし、結合セットにおける各DNMの信頼度レベルを種々のQCメトリクスを用いて評価した。図7は、このDNMコールプロセスを示し、適用したバリアントフィルタを示し、各DNMを低信頼度、中信頼度、または高信頼度のいずれかに分類するために使用した基準を提供する。
DiscovEHRデータセットでの受胎時の親の年齢と子供のDNMの数との相関関係のテスト
この分析では、10以上のDNMを持つサンプルを外れ値(N=6の除外されたサンプル)として除外した。それらは、技術上の人為結果、または体細胞変異を示している可能性が高い。母方と父方の年齢には高い相関がある(rho=0.78、p=1.2x10^−262);共同でモデル化した場合、共線性のためにどちらも有意ではなかった(0.0053母体DNM/年、p=0.48;0.0076父親DNM/年、p=0.26;ポアソン回帰)(図36A及び36B)。次に、両親の年齢差(父方と母方の年齢)を、出生時の母方または父方の年齢のいずれかと共にテストした。父方と母方の両方の年齢は、DNM数を等しく予測することが判明した(つまり、年齢差は、母方または父方の年齢を所与として、DNMの数と有意に関連しなかった)。
拡張DiscovEHRデータセットでの受胎時の親の年齢と子供のDNMの数との相関関係のテスト
拡張DiscoverEHRコホートは、受胎時の親の年齢と子供のDNMの数との相関関係をテストした結果、DiscovEHRコホートと同様の結果を示した。他の報告と一致して、出生時の母性(0.011DNM/年、p=7.3x10−4;ポアソン回帰;図37)及び父性(0.010DNM/年;p=5.6x10−4)の年齢の両方に関して、エクソンDNMの数の増加が観察された。特に、出産時の母方及び父方の年齢はデータセット(r=0.79;図39)で高度に相関して、したがって、比率は付加的ではなく、駆動因子としても区別される有意差はない。
LDLR縦列重複遠縁家系推定
本コホートでは匿名化された個人の真の家族歴を知ることは不可能であるが、PRIMUS再構成家系(Staples et al.(2014);Am.J.Hum.Genet.95,553−564.)、ERSA遠縁関係推定(Huff et al.(2011);GenomeRes.21,768−774.)、及び家系を接続するPADREの能力を用いて(Staples et al.(2016);The American Journal of Human Genetics 99,154−162)、LDLRにおける新規縦列重複の突然変異キャリアの最良の家系表現を同定した(Maxwell et al.(2017).Profiling copy number variation and disease associations from 50,726 DiscovEHR Study exomes)。HumanOmniExpress配列データは、以前はより遠い関係を推定するために使用されていた。
SimProgeny
SimProgenyは、1つ以上のサブ集団に分散した何百万もの人々の集団をシミュレートし、数百年にわたって彼らの子孫を追跡できる。単純性と現実性の間の良好なバランスを見つけるために、ユーザが調整できるいくつかの主要な集団レベルパラメータを選択した(下の表23を参照)。これらのパラメータは、シミュレーションツールを比較的単純に保ちながら、実際の集団と家族の家系構造とを適切に近似するために選択された。デフォルト値は、米国の人口統計に基づいている。デフォルト値は両方のコホートで機能するように設定されており、SimProgenyコード(Webリソース)に含まれている構成ファイルを変更することで、これらのパラメータを簡単にカスタマイズして、様々な集団をモデル化できる。集団シミュレーションプロセスの詳細については、例17を参照されたい。
基礎となるDiscovEHR集団のシミュレーションとその確認
シミュレーションモデルが過度に複雑にならないように、シミュレーションには、開始サイズが200K、300K、400K、450K、500K、550K、600K、及び1000Kの個々の集団が含まれていた。SimProgenyパラメータ(上記の表23を参照)は、公的に入手可能な国、州、及び郡レベルのデータと、GHSを通じて個人が確認された方法に関する我々自身の理解とに合わせて調整された。選択したパラメータの入手源は、補足ファイルSimulation_parameters.xlsで見ることができる。GHSは主に農村地域を対象としており、都市部より移住率が低い傾向があるため、ペンシルベニア州(PA)の平均的な移住率を減少させた。シミュレーションは120年のバーンイン期間で実行し、その後101年間継続した。シミュレートされた集団は約15%増加したが、これは、20世紀半ば以降のPAの成長と類似している。
SimProgeny集団及び確認シミュレーションプロセス
シミュレーションは、ユーザが指定した数のサブ集団及びサイズを初期化することによって開始させた。年齢は最初に0と最大繁殖年齢(デフォルトは49)との間に割り当てた。集団中の個人は、青年、繁殖力のある個人、高齢者という3つの年齢別プールのいずれかに存在していた。個人は、繁殖年齢(15のデフォルト)未満であればサブ集団の青年プールに割り当てられ、繁殖年齢の範囲内(デフォルトは15〜49)であればサブ集団の交配プールに割り当てられた。個人は最低生殖可能年齢以上になると幼体プールから交配プールに移動した。同様に、繁殖可能年齢を超えた時点で、交配プールから高齢者の集団に移した。移住または死亡した個人は、全ての年齢層から除外した。初期集団を確立した後、シミュレーションは120年のバーンイン段階を実施して、出生数と死亡数とが等しく、正味移動率がゼロであることを必要としながら、入力パラメータとより密接に一致する家族関係と年齢分布とを確立した。バーンイン後、シミュレーションを、与えられた個人群成長と移動速度とで特定の年数で実行した。シミュレーションは1年ずつ増加し、特に明記しない限り、各サブ集団内で実施された以下のステップを毎年実施した。
2.交際−一夫一婦の結婚に参加する独身男性と独身女性とをシミュレートする。このプロセスは、完全同胞関係の現実的な数を取得するために重要である。男性と女性のペアは、単一の生殖年齢の男女プールからランダムに選択され、彼らは、男性及び女性の「年齢別の結婚」パラメータで指定された年齢で結婚する可能性に基づいて正常に結婚する。ペアは、結婚率で定義された成功した結婚の数に達するまで引き出される。夫婦は、従兄弟よりも遠縁に限定される。バーンインフェーズ中は、ユーザが指定した初期の結婚率に達するまで、結婚率は2倍になる(デフォルトは、結婚している交配プールの66%である)。
4.交わり−1年間に集団内で発生する可能性のある全ての生殖をシミュレートする。母親と父親のペアは、単一の出生年齢プールまたは既婚プールのいずれかから無作為に完全同胞率で定義された比率で選択される(デフォルトは、全ての出産の88%が既婚カップルである)。ペアが引き出され、目標とする受胎成功数に到達するまで、生殖の試みが行われる(デフォルトの出生率は1人あたり0.0219出生である)。受胎が成功する可能性は、母親の年齢と対応する出生率とに基づいている。両親は従兄弟よりも遠縁に制限されており、全ての個人は年に1人の子供を持つことが制限されている。
ランダムの確認とクラスタ化された確認との両方を実行した。両確認アプローチに対して、集団の最初の5%の確認順序(ordered_sampling_proportanceパラメータで指定)を、共同研究の開始時にGHSバイオバンクの個人のランダムシークエンシング順序をモデル化するためにシャッフルした。このパラメータの選択は、ランダム確認には影響せず、クラスタリングされた確認でのペアワイズ関係の累増に対する影響は無視できたが、クラスタ化サンプリングで確認されたデータセットにおいて、変曲点(より高いラムダ値でより顕著である)を生じることにより、1つ以上の血縁者を持つ個人の割合には影響した。この変曲点は、実際のデータのフリーズプロセスをモデル化し、またバイオバンクからのシークエンシングサンプルと新しく確認された個人との間のよりスムーズな移行をモデル化したりする場合には、それほど顕著ではないであろう。ユーザは、次のサブ集団のセットに移動する前に、1つ以上のサブ集団から確認することをシミュレートしたい場合に、サブ集団確認順序を指定することができる。デフォルトでは、最初に全てのサブ個人群をグループ化し、それらのサブ個人群をあたかも単一の個人群であるかのように確認する。ユーザは、他のサブ集団または全集団に移る前に確認された集団の最初の割合を指定することもできる。このプログラムは、集団全体の出力をpedファイル形式で作成し、確認されたサンプルのリストを確認された順に作成し、有用な集団及び確認統計を要約したいくつかの結果ファイルを作成した。
所与の表現型の遺伝的原因の同定を補助するために家系構造を用いる方法は、典型的には、関連マッピング、連鎖解析、またはその両方に関する革新的なバリエーションを含む。このような方法には、MORGAN31、pVAAST15、FBAT(www.hsph.harvard.edu/fbat/fbat.htm)、QTDT(csg.sph.umich.edu/abecasis/qtdt/)、ROADTRIPS、rareIBD、及びRV−GDTが含まれる。使用する適切な方法は、表現型、遺伝様式、祖先、家系構造/サイズ、家系の数、及び非血縁関係のデータセットのサイズに依存する。関連性と家系を用いて遺伝子−表現型の関連性を直接調べることに加えて、それらは、追加のまたは改善されたデータを生成するための多くの他の方法、すなわち家系を認識した帰属、家系を認識したフェージング、メンデル式エラーチェック、複合ヘテロ接合性ノックアウト検出及びde novo変異コール、ならびにバリアントコール検証で使用することもできる。
Claims (138)
- 集団における遺伝的バリアントを、前記集団の近縁性を活用することによってフェージングする方法であって、
前記サンプルの1つ以上のそれぞれについて祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングすること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて被験者の第2の第一度家族ネットワークを構築すること、ならびに
バリアントを、統合同祖性推定及び第2の第一度家族ネットワークに応じて、複合ヘテロ接合性変異(CHM)であるかもしくはCHMではないものとしてフェージングする、またはバリアントを、統合同祖性推定及び第2の第一度家族ネットワークに応じて、de novo変異(DNM)として同定することを含む、前記方法。 - 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項1に記載の方法。
- バリアントを複合ヘテロ接合性変異(CHM)としてフェージングすることは、
集団アレル頻度に応じてバリアントをフェージングすること、
ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約2以下、またはリードデプス(DP)が約5未満、または代替アレルバランス(AB)が約10%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約2以下、またはDPが約5未満、またはABが約10%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去すること、
同じサンプル内及び同じ遺伝子内に1つ以上のバリアントの対が存在する潜在複合ヘテロ接合性変異(pCHM)として残りのバリアントを選択すること、ならびに
pCHMをシスpCHMまたはトランスpCHMとしてフェージングし、次いでトランスpCHMとしてフェージングされた前記pCHMをCHMとして分類することを含む、請求項1または請求項2に記載の方法。 - バリアントを複合ヘテロ接合性変異としてフェージングすることは、
ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約3以下、またはリードデプス(DP)が約7未満、または代替アレルバランス(AB)が約15%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約5以下、またはDPが約10未満、またはABが約20%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項3に記載の方法。 - 表現型の重症度に応じてCHMにスコアを付与すること、及び
サンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するCHMを選択し、前記ヒトが同一遺伝子内に複数のCHMを有する場合に、タンパク質機能抑制をもたらす可能性が最も高い前記CHMが同定されるようにすることをさらに含む、請求項3または請求項4に記載の方法。 - バリアントをde novo変異としてフェージングすることは、
第2の第一度家族ネットワーク及びそのトリオのサンプルの中のバリアントを同定すること、
遺伝子型尤度スコアを、トリオ内の親サンプル及び対応する子サンプルのバリアントに割り当て、前記バリアントがde novo変異である確率を計算し、計算した前記確率が統計的に有意な場合に、前記バリアントを推定de novo変異として同定すること、
トリオの子サンプルのバリアントを同定し、前記トリオのどちらの親サンプルにも前記バリアントが存在しない場合に、前記バリアントを推定de novo変異として同定すること、
前記子サンプルに約35未満の遺伝子型クオリティ(GQ)アノテーションを有する推定de novo変異、または前記サンプル全体にわたって10以上の代替アレルカウント(AC)を有する推定de novo変異、または前記子サンプルに、約7未満のリードデプス(DP)と約4未満の代替DPとを有する推定de novo変異、またはどちらか一方の前記親サンプルに約2%を超えるアレルバランス(AB)を有する推定de novo変異、または前記子サンプルに約15%未満のアレルバランス(AB)を有する推定de novo変異、または前記子サンプルに約90%を超えるABを有する推定de novo変異、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有する推定de novo変異、またはこれらの組み合わせの推定de novo変異を除去することによって同定される推定de novo変異をフィルタ処理すること、ならびに
フィルタ処理済みの同定された推定de novo変異を組み合わせて、それによって推定de novo変異データセットを形成することを含む、請求項1〜5のいずれか1項に記載の方法。 - 前記推定de novo変異データセット内の推定de novo変異を、前記推定de novo変異のアレルバランスが、前記子サンプルで約0.15以上、かつ各前記親サンプルで約0.02以下の場合、及び前記推定de novo変異のマッピングクオリティが約40未満ではない場合、及び前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合、及び前記推定de novo変異のMACが前記サンプル全体にわたって約20未満の場合、及び前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合、及び前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類することをさらに含む、請求項6に記載の方法。
- 中信頼度de novo変異を、前記中信頼度de novo変異が、前記親サンプルにおいて約90以上の遺伝子型クオリティアノテーションを有する場合、及び前記中信頼度de novo変異が、各前記親サンプルにおいて約10以上のリードデプスを有する場合、及び前記中信頼度de novo変異が、前記子サンプルにおいて約7以上の代替リードデプスを有する場合、及び前記中信頼度de novo変異が、約3より大きいQDのSNPを有する場合、及び前記中信頼度de novo変異が、約5より大きいQDのINDELを有する場合に、高信頼度de novo変異として分類することをさらに含む、請求項7に記載の方法。
- 低クオリティサンプルを前記データセットから除去することをさらに含み、前記低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項1〜8のいずれか1項に記載の方法。
- 集団における複合ヘテロ接合性変異(CHM)を同定する方法であって、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングすること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて第2の第一度家族ネットワークを構築すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングすること、
フェージングされたバリアントを、同じ被験者及び遺伝子における2つ以上のバリアントの存在に基づいて潜在CHMとして分類すること、ならびに
潜在CHMを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在CHMをCHMとして分類することを含む、前記方法。 - 被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項10に記載の方法。
- 被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項10に記載の方法。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項11または請求項12に記載の方法。
- 同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することをさらに含む、請求項11〜13のいずれか1項に記載の方法。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項14に記載の方法。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項10〜15のいずれか1項に記載の方法。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項10〜16のいずれか1項に記載の方法。
- バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理することをさらに含む、請求項10〜17のいずれか1項に記載の方法。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約2以下、またはリードデプス(DP)が約5未満、または代替アレルバランス(AB)が約10%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約2以下、またはDPが約5未満、またはABが約10%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項18に記載の方法。
- 集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のDNA配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項10〜19のいずれか1項に記載の方法。
- 潜在CHMは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント(MAC)に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項10〜20のいずれか1項に記載の方法。
- 表現型の重症度に応じてCHMにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するCHMを選択し、それによって医学的に重要な変異の集合を取得することをさらに含む、請求項10〜20のいずれか1項に記載の方法。
- DNA配列サンプルはエクソーム配列を含む、請求項10〜22のいずれか1項に記載の方法。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項10〜23のいずれか1項に記載の方法。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項15に記載の方法。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約3以下、またはリードデプス(DP)が約7未満、または代替アレルバランス(AB)が約15%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約5以下、またはDPが約10未満、またはABが約20%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項19に記載の方法。
- 集団における複合ヘテロ接合性変異(CHM)を同定する非一時的なコンピュータ実行方法であって、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、前記データプロセッサを使用すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成するために、前記データプロセッサを使用すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成するために、前記データプロセッサを使用すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングするために、前記データプロセッサを使用すること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成するために、前記データプロセッサを使用すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得するために、前記データプロセッサを使用すること、
統合同祖性推定に基づいて第2の第一度家族ネットワークを構築するために、前記データプロセッサを使用すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングするために、前記データプロセッサを使用すること、
フェージングされたバリアントを、同じ被験者及び遺伝子における2つ以上のバリアントの存在に基づいて潜在CHMとして分類するために、前記データプロセッサを使用すること、ならびに
潜在CHMを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在CHMをCHMとして分類するために、前記データプロセッサを使用することを含む、前記非一時的なコンピュータ実行方法。 - 被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項27に記載の非一時的なコンピュータ実行方法。
- 被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項27または請求項28に記載の非一時的なコンピュータ実行方法。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項28または請求項29に記載の非一時的なコンピュータ実行方法。
- 同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するために、前記データプロセッサを使用することをさらに含む、請求項28〜30のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項31に記載の非一時的なコンピュータ実行方法。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項27〜32のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項27〜31のいずれか1項に記載の非一時的なコンピュータ実行方法。
- バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項27〜32のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約2以下、またはリードデプス(DP)が約5未満、または代替アレルバランス(AB)が約10%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約2以下、またはDPが約5未満、またはABが約10%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項35に記載の非一時的なコンピュータ実行方法。
- 集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のDNA配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項27〜35のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 潜在CHMは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント(MAC)に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項27〜37のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 表現型の重症度に応じてCHMにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するCHMを選択し、それによって医学的に重要な変異の集合を取得するために、前記データプロセッサを使用することをさらに含む、請求項27〜38のいずれか1項に記載の非一時的なコンピュータ実行方法。
- DNA配列サンプルはエクソーム配列を含む、請求項27〜39のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項27〜39のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項32に記載の非一時的なコンピュータ実行方法。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約3以下、またはリードデプス(DP)が約7未満、または代替アレルバランス(AB)が約15%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約5以下、またはDPが約10未満、またはABが約20%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項36に記載の非一時的なコンピュータ実行方法。
- データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されたプログラムを備え、前記プログラムが、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングすること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて第2の第一度家族ネットワークを構築すること、
集団アレル頻度に応じて、サンプルの中のバリアントをフェージングすること、
フェージングされたバリアントを、同じ被験者及び遺伝子における2つ以上のバリアントの存在に基づいて潜在CHMとして分類すること、ならびに
潜在CHMを、同じ被験者及び遺伝子における別バリアントとシスであるまたはトランスであるとしてフェージングし、次いでトランスであるとしてフェージングされた前記潜在CHMをCHMとして分類するための命令を含む、システム。 - 前記プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項44に記載のシステム。
- 前記プログラムは、被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項44または請求項45に記載のシステム。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項44〜46のいずれか1項に記載のシステム。
- 前記プログラムは、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するための命令を含む、請求項45〜47のいずれか1項に記載のシステム。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項48に記載のシステム。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項44〜49のいずれか1項に記載のシステム。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項44〜50のいずれか1項に記載のシステム。
- 前記プログラムは、バリアントが集団アレル頻度に応じてフェージングされた後に、バリアントをフィルタ処理するための命令を含む、請求項44〜51のいずれか1項に記載のシステム。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約2以下、またはリードデプス(DP)が約5未満、または代替アレルバランス(AB)が約10%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約2以下、またはDPが約5未満、またはABが約10%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項52に記載のシステム。
- 集団アレル頻度に応じてバリアントをフェージングすることは、ヒト被験者のDNA配列サンプルを、遺伝子間領域において、近似的に等しいサイズであり、実質的なセグメントオーバーラップ及び切断点を有するゲノムセグメントに分割することを含む、請求項44〜53のいずれか1項に記載のシステム。
- 潜在CHMは、トリオのデータ、もしくは親子のデータ、もしくは完全同胞のデータ、もしくは遠縁の血縁者のデータ、もしくはそれらの組み合わせに基づいてフェージングされる、またはマイナーアレルカウント(MAC)に基づいてフェージングされる、または集団アレル頻度に基づいてフェージングされる、またはそれらの組み合わせである、請求項44〜53のいずれか1項に記載のシステム。
- 前記プログラムは、表現型の重症度に応じてCHMにスコアを付与すること、及びサンプル当たりの遺伝子ごとに最も高い表現型重症度スコアを有するCHMを選択し、それによって医学的に重要な変異の集合を取得するための命令を含む、請求項44〜55のいずれか1項に記載のシステム。
- DNA配列サンプルはエクソーム配列を含む、請求項44〜56のいずれか1項に記載のシステム。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項44〜57のいずれか1項に記載のシステム。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項49に記載のシステム。
- 集団アレル頻度に応じてフェージングされたバリアントをフィルタ処理することは、ハーディ・ワインベルグ平衡(HWE)から外れたバリアント、もしくは同じサンプル内の別のバリアントの10塩基対内のバリアント、またはその両方を除去すること、及びクオリティバイデプス(quality by depth)(QD)が約3以下、またはリードデプス(DP)が約7未満、または代替アレルバランス(AB)が約15%以下、またはこれらの組み合わせのSNPを除去すること、及びQDが約5以下、またはDPが約10未満、またはABが約20%以下、またはこれらの組み合わせの挿入または欠失(INDEL)を除去することを含む、請求項53に記載のシステム。
- 集団におけるde novo変異(DNM)を同定する方法であって、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングすること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得すること、
統合同祖性推定に基づいて核家族を構築すること、
核家族におけるバリアントを同定すること、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがde novo変異である確率を計算し、前記バリアントがde novo変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記de novo変異の2つのセットを組み合わせ、それによって推定de novo変異のデータセットを形成することを含む、前記方法。 - 被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項61に記載の方法。
- 被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理することをさらに含む、請求項61または請求項62に記載の方法。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項62または請求項63に記載の方法。
- 同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去することをさらに含む、請求項62〜64のいずれか1項に記載の方法。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項65に記載の方法。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項61〜65のいずれか1項に記載の方法。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項61〜66のいずれか1項に記載の方法。
- 前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている、請求項61〜68のいずれか1項に記載の方法。
- 遺伝子型尤度スコアに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む、請求項61〜68のいずれか1項に記載の方法。
- どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理することをさらに含む、請求項61〜70のいずれか1項に記載の方法。
- バリアントをフィルタ処理することは、前記子サンプルに約35未満の遺伝子型クオリティ(GQ)アノテーションを有するバリアント、または前記サンプル全体にわたって10以上の代替アレルカウント(AC)を有するバリアント、または前記子サンプルに、約7未満のリードデプス(DP)と約4未満の代替DPとを有するバリアント、またはどちらか一方の前記親サンプルに約2%を超えるアレルバランス(AB)を有するバリアント、または前記子サンプルに約15%未満のアレルバランス(AB)を有するバリアント、または前記子サンプルに約90%を超えるABを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項70または請求項71に記載の方法。
- バリアントに品質管理メトリクスでアノテーションを付けることをさらに含む、請求項61〜71のいずれか1項に記載の方法。
- どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定de novo変異が同定された後に、サンプルBAMファイルデータに基づいてバリアントをフィルタ処理することをさらに含む、請求項61〜73のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランスが、前記子サンプルで約0.15以上の場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜74のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランスが、各前記親サンプルで約0.02以下の場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜75のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のマッピングクオリティが約40未満ではない場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜76のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜77のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のMACが前記サンプル全体にわたって約20未満の場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜78のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜79のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜80のいずれか1項に記載の方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランス(AB)が、前記子サンプルで約0.15以上、かつ各前記親サンプルで約0.02以下の場合、及び前記推定de novo変異のマッピングクオリティ(MQ)が約40未満ではない場合、及び前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合、及び前記推定de novo変異のマイナーアレルカウント(MAC)が前記サンプル全体にわたって約20未満の場合、及び前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合、及び前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類することをさらに含む、請求項61〜81のいずれか1項に記載の方法。
- 中信頼度de novo変異を、前記中信頼度de novo変異が、前記親サンプルにおいて約90以上の遺伝子型クオリティ(GQ)アノテーションを有する場合、及び前記中信頼度de novo変異が、各前記親サンプルにおいて約10以上のリードデプス(DP)を有する場合、及び前記中信頼度de novo変異が、前記子サンプルにおいて約7以上の代替DPを有する場合、及び前記中信頼度de novo変異が、約3より大きいQDのSNPを有する場合、及び前記中信頼度de novo変異が、約5より大きいQDのINDELを有する場合に、高信頼度de novo変異として分類することをさらに含む、請求項82に記載の方法。
- DNA配列サンプルはエクソーム配列を含む、請求項61〜83のいずれか1項に記載の方法。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項61〜84のいずれか1項に記載の方法。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項66に記載の方法。
- 集団におけるde novo変異(DNM)を同定する非一時的なコンピュータ実行方法であって、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定するために、コンピューティングデバイスのデータプロセッサを使用すること、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立するために、データプロセッサを使用すること、
祖先スーパークラス内での被験者の第1の同祖性推定を生成するために、データプロセッサを使用すること、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成するために、データプロセッサを使用すること、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングするために、データプロセッサを使用すること、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成するために、データプロセッサを使用すること、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得するために、データプロセッサを使用すること、
統合同祖性推定に基づいて核家族を構築するために、データプロセッサを使用すること、
核家族におけるバリアントを同定するために、データプロセッサを使用すること、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがde novo変異である確率を計算し、前記バリアントがde novo変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記de novo変異の2つのセットを組み合わせ、それによって推定de novo変異のデータセットを形成することを含む、前記非一時的なコンピュータ実行方法。 - 被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項87に記載の非一時的なコンピュータ実行方法。
- 被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項87または請求項88に記載の非一時的なコンピュータ実行方法。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項88〜89のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するために、前記データプロセッサを使用することをさらに含む、請求項88〜90のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項91に記載の非一時的なコンピュータ実行方法。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項87〜92のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項87〜93のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている、請求項87〜94のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 遺伝子型尤度スコアに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項87〜95のいずれか1項に記載の非一時的なコンピュータ実行方法。
- どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項87〜96のいずれか1項に記載の非一時的なコンピュータ実行方法。
- バリアントをフィルタ処理することは、前記子サンプルに約35未満の遺伝子型クオリティ(GQ)アノテーションを有するバリアント、または前記サンプル全体にわたって10以上の代替アレルカウント(AC)を有するバリアント、または前記子サンプルに、約7未満のリードデプス(DP)と約4未満の代替DPとを有するバリアント、またはどちらか一方の前記親サンプルに約2%を超えるアレルバランス(AB)を有するバリアント、または前記子サンプルに約15%未満のアレルバランス(AB)を有するバリアント、または前記子サンプルに約90%を超えるABを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項96または請求項97に記載の非一時的なコンピュータ実行方法。
- バリアントに品質管理メトリクスでアノテーションを付けるために、前記データプロセッサを使用することをさらに含む、請求項87〜98のいずれか1項に記載の非一時的なコンピュータ実行方法。
- どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定de novo変異が同定された後に、サンプルBAMファイルデータに基づいてバリアントをフィルタ処理するために、前記データプロセッサを使用することをさらに含む、請求項87〜99のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランスが、前記子サンプルで約0.15以上の場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜100のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランスが、各前記親サンプルで約0.02以下の場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜101のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のマッピングクオリティが約40未満ではない場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜102のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜103のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のMACが前記サンプル全体にわたって約20未満の場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜104のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜105のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜106のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 推定de novo変異を、前記推定de novo変異のアレルバランス(AB)が、前記子サンプルで約0.15以上、かつ各前記親サンプルで約0.02以下の場合、及び前記推定de novo変異のマッピングクオリティ(MQ)が約40未満ではない場合、及び前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合、及び前記推定de novo変異のマイナーアレルカウント(MAC)が前記サンプル全体にわたって約20未満の場合、及び前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合、及び前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項87〜107のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 中信頼度de novo変異を、前記中信頼度de novo変異が、前記親サンプルにおいて約90以上の遺伝子型クオリティ(GQ)アノテーションを有する場合、及び前記中信頼度de novo変異が、各前記親サンプルにおいて約10以上のリードデプス(DP)を有する場合、及び前記中信頼度de novo変異が、前記子サンプルにおいて約7以上の代替DPを有する場合、及び前記中信頼度de novo変異が、約3より大きいQDのSNPを有する場合、及び前記中信頼度de novo変異が、約5より大きいQDのINDELを有する場合に、高信頼度de novo変異として分類するために、前記データプロセッサを使用することをさらに含む、請求項108に記載の非一時的なコンピュータ実行方法。
- DNA配列サンプルはエクソーム配列を含む、請求項87〜109のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項87〜110のいずれか1項に記載の非一時的なコンピュータ実行方法。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項92に記載の非一時的なコンピュータ実行方法。
- データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されたプログラムを備え、前記プログラムが、
複数のヒト被験者由来のDNA配列サンプルの中のバリアントを同定する、
同定されたバリアントに基づいて被験者の祖先スーパークラスの指定を確立する、
祖先スーパークラス内での被験者の第1の同祖性推定を生成する、
被験者の祖先スーパークラスから独立した被験者の第2の同祖性推定を生成する、
前記第2の同祖性推定の1つ以上に基づいて被験者を第1の第一度家族ネットワークにクラスタリングする、
第1の第一度家族ネットワーク内での被験者の第3の同祖性推定を生成する、
第1の同祖性推定と第3の同祖性推定とを統合して、統合同祖性推定を取得する、
統合同祖性推定に基づいて核家族を構築する、
核家族におけるバリアントを同定する、
構築された核家族のトリオの両親及び子に由来するサンプルのバリアントに遺伝子型尤度スコアを付与して、前記バリアントがde novo変異である確率を計算し、前記バリアントがde novo変異である確率が有意に高い前記バリアントを選択するとともに、独立して、トリオのどちらの親サンプルでもコールされない子サンプルでコールされたバリアントを単純に同定し、次いで前記de novo変異の2つのセットを組み合わせ、それによって推定de novo変異のデータセットを形成するための命令を含む、システム。 - 前記プログラムは、被験者の祖先スーパークラスの指定が確立される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項113に記載のシステム。
- 前記プログラムは、被験者の第2の同祖性推定が生成される前に、同定されたバリアントをフィルタ処理するための命令を含む、請求項113または請求項114に記載のシステム。
- バリアントをフィルタ処理することは、複数の前記ヒト被験者由来の前記サンプル全体にわたって約10%を超える代替アレル頻度を有するバリアントを除去すること、またはp値が約10−6超である、ハーディ・ワインベルグ平衡(HWE)に反するバリアントを除去すること、または複数の前記ヒト被験者由来の前記サンプルの約5%超でコールが欠損するバリアントを除去すること、またはこれらの組み合わせを含む、請求項114または請求項115に記載のシステム。
- 前記プログラムは、同定されたバリアントがフィルタ処理された後に、低クオリティサンプルを除去するための命令を含む、請求項114〜116のいずれか1項に記載のシステム。
- 低クオリティサンプルは、D−statが0.12を超えるか、もしくは20xのリードカバレッジが75%未満であるか、またはその両方であるサンプルである、請求項117に記載のシステム。
- 第1の同祖性推定と第3の同祖性推定とを統合することは、前記第3の同祖性推定に特有のペアワイズ同祖性推定を補って、前記第1の同祖性推定を増強することを含む、請求項113〜118のいずれか1項に記載のシステム。
- 同祖性推定は、サンプルペアの間のゲノム全域にわたる0、1、及び2のIBD値の計算を含む、請求項113〜119のいずれか1項に記載のシステム。
- 前記遺伝子型尤度スコアは、複数の核家族における複数のヒト被験者由来のDNA配列サンプルに基づいている、請求項113〜120のいずれか1項に記載のシステム。
- 前記プログラムは、遺伝子型尤度スコアに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む、請求項113〜121のいずれか1項に記載のシステム。
- 前記プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、バリアントがde novo変異である確率が計算された後に、バリアントをフィルタ処理するための命令を含む、請求項113〜122のいずれか1項に記載のシステム。
- バリアントをフィルタ処理することは、前記子サンプルに約35未満の遺伝子型クオリティ(GQ)アノテーションを有するバリアント、または前記サンプル全体にわたって10以上の代替アレルカウント(AC)を有するバリアント、または前記子サンプルに、約7未満のリードデプス(DP)と約4未満の代替DPとを有するバリアント、またはどちらか一方の前記親サンプルに約2%を超えるアレルバランス(AB)を有するバリアント、または前記子サンプルに約15%未満のアレルバランス(AB)を有するバリアント、または前記子サンプルに約90%を超えるABを有するバリアント、またはどちらか一方の前記親サンプルに代替アレルホモ接合性を有するバリアント、またはこれらの組み合わせのバリアントを除去することを含む、請求項122または請求項123に記載のシステム。
- 前記プログラムは、バリアントに品質管理メトリクスでアノテーションを付けるための命令を含む、請求項113〜124のいずれか1項に記載のシステム。
- 前記プログラムは、どちらの親サンプルにも存在しない子サンプルのバリアントを単純に同定することに基づいて、推定de novo変異が同定された後に、サンプルBAMファイルデータに基づいてバリアントをフィルタ処理するための命令を含む、請求項113〜125のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のアレルバランスが、前記子サンプルで約0.15以上の場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜126のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のアレルバランスが、各前記親サンプルで約0.02以下の場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜127のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のマッピングクオリティが約40未満ではない場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜128のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜129のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のMACが前記サンプル全体にわたって約20未満の場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜130のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜131のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜132のいずれか1項に記載のシステム。
- 前記プログラムは、推定de novo変異を、前記推定de novo変異のアレルバランス(AB)が、前記子サンプルで約15%以上、かつ各前記親サンプルで約2%以下の場合、及び前記推定de novo変異のマッピングクオリティ(MQ)が約40未満ではない場合、及び前記推定de novo変異のクオリティバイデプス(quality by depth)(QD)の値が約2未満ではない場合、及び前記推定de novo変異のマイナーアレルカウント(MAC)が前記サンプル全体にわたって約20未満の場合、及び前記推定de novo変異のソフトクリップリードが、前記推定de novo変異のキャリアにおける前記バリアントサイトで約3以下の場合、及び前記推定de novo変異が、約4を超えるモノポリマーランを持つINDELではない場合に、中信頼度de novo変異として分類するための命令を含む、請求項113〜133のいずれか1項に記載のシステム。
- 前記プログラムは、中信頼度de novo変異を、前記中信頼度de novo変異が、前記親サンプルにおいて約90以上の遺伝子型クオリティ(GQ)アノテーションを有する場合、及び前記中信頼度de novo変異が、各前記親サンプルにおいて約10以上のリードデプス(DP)を有する場合、及び前記中信頼度de novo変異が、前記子サンプルにおいて約7以上の代替DPを有する場合、及び前記中信頼度de novo変異が、約3より大きいQDのSNPを有する場合、及び前記中信頼度de novo変異が、約5より大きいQDのINDELを有する場合に、高信頼度de novo変異として分類するための命令を含む、請求項134に記載のシステム。
- DNA配列サンプルはエクソーム配列を含む、請求項113〜135のいずれか1項に記載のシステム。
- 複数の前記ヒト被験者は、10Kを超える被験者を含む、請求項113〜136のいずれか1項に記載のシステム。
- 低クオリティサンプルのD−statは、Kolmogorov−Smirnov検定を使用して、前記サンプルの実際のアレルバランスの分布を、予想されるアレルバランスの分布と比較することによって判定される、請求項118に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023076708A JP2023103325A (ja) | 2017-09-07 | 2023-05-08 | ゲノムデータ解析に近縁性を活用するシステム及び方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762555597P | 2017-09-07 | 2017-09-07 | |
US62/555,597 | 2017-09-07 | ||
PCT/US2018/049967 WO2019051238A1 (en) | 2017-09-07 | 2018-09-07 | SYSTEMS AND METHODS OF OPERATING PARENTAL IN GENOMIC DATA ANALYSIS |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023076708A Division JP2023103325A (ja) | 2017-09-07 | 2023-05-08 | ゲノムデータ解析に近縁性を活用するシステム及び方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020532989A true JP2020532989A (ja) | 2020-11-19 |
JP2020532989A5 JP2020532989A5 (ja) | 2021-10-14 |
JP7277438B2 JP7277438B2 (ja) | 2023-05-19 |
Family
ID=63684599
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020513709A Active JP7277438B2 (ja) | 2017-09-07 | 2018-09-07 | ゲノムデータ解析に近縁性を活用するシステム及び方法 |
JP2020513751A Pending JP2020533679A (ja) | 2017-09-07 | 2018-09-07 | ヒト集団における関連性を予測するシステム及び方法 |
JP2023076708A Pending JP2023103325A (ja) | 2017-09-07 | 2023-05-08 | ゲノムデータ解析に近縁性を活用するシステム及び方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020513751A Pending JP2020533679A (ja) | 2017-09-07 | 2018-09-07 | ヒト集団における関連性を予測するシステム及び方法 |
JP2023076708A Pending JP2023103325A (ja) | 2017-09-07 | 2023-05-08 | ゲノムデータ解析に近縁性を活用するシステム及び方法 |
Country Status (11)
Country | Link |
---|---|
US (3) | US11605444B2 (ja) |
EP (2) | EP3679575A1 (ja) |
JP (3) | JP7277438B2 (ja) |
KR (3) | KR20200050992A (ja) |
CN (3) | CN111247599A (ja) |
AU (3) | AU2018327331A1 (ja) |
CA (2) | CA3075266A1 (ja) |
IL (2) | IL272927A (ja) |
MX (2) | MX2020002665A (ja) |
SG (2) | SG11202001715YA (ja) |
WO (2) | WO2019051233A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL3207481T3 (pl) * | 2014-10-14 | 2020-05-18 | Ancestry.Com Dna, Llc | Redukowanie błędu w przewidywanych powiązaniach genetycznych |
JP2021536635A (ja) | 2018-09-07 | 2021-12-27 | リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. | 家系エンリッチメント及び家系内の家族ベース解析のための方法及びシステム |
CN110060737B (zh) * | 2019-04-30 | 2023-04-18 | 上海诚明融鑫科技有限公司 | 一种基于最大频率虚拟个体的str快速比对方法及系统 |
CN110974203B (zh) * | 2019-12-10 | 2020-12-04 | 电子科技大学 | 一种基于等值排列网络的心率非平衡性分析方法 |
CN111883207B (zh) * | 2020-07-31 | 2022-08-16 | 武汉蓝沙医学检验实验室有限公司 | 一种生物学亲缘关系的鉴定方法 |
CN116209777A (zh) * | 2020-10-27 | 2023-06-02 | 深圳华大基因股份有限公司 | 基于无创产前基因检测数据的亲缘关系判定方法和装置 |
WO2022109267A2 (en) | 2020-11-19 | 2022-05-27 | Regeneron Pharmaceuticals, Inc. | Genotyping by sequencing |
CN112863601B (zh) * | 2021-01-15 | 2023-03-10 | 广州微远基因科技有限公司 | 病原微生物耐药基因归属模型及其建立方法和应用 |
CN113380328B (zh) * | 2021-04-23 | 2023-06-20 | 中国人民大学 | 一种基于mRNA碱基的生物亲缘识别方法和系统 |
GB2621782A (en) * | 2021-05-05 | 2024-02-21 | Univ Leland Stanford Junior | Methods and systems for analyzing nucleic acid molecules |
CN115101130A (zh) * | 2022-06-30 | 2022-09-23 | 山东大学 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013067001A1 (en) * | 2011-10-31 | 2013-05-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1288835A1 (en) * | 2001-08-31 | 2003-03-05 | Hitachi, Ltd. | A method for defining gene hunting studies |
WO2006093879A2 (en) * | 2005-02-26 | 2006-09-08 | Coco Communications Corporation | Naming system layer |
US20080055049A1 (en) * | 2006-07-28 | 2008-03-06 | Weill Lawrence R | Searching methods |
US20090177496A1 (en) * | 2005-09-28 | 2009-07-09 | Tuck Edward F | Relationship prediction system |
CA2630070A1 (en) * | 2005-11-17 | 2007-05-31 | Motif Biosciences, Inc. | Systems and methods for the biometric analysis of index founder populations |
WO2008025093A1 (en) * | 2006-09-01 | 2008-03-06 | Innovative Dairy Products Pty Ltd | Whole genome based genetic evaluation and selection process |
JP4778876B2 (ja) * | 2006-11-02 | 2011-09-21 | 株式会社エー・アンド・デイ | エンジン計測装置 |
US20130080365A1 (en) * | 2011-04-13 | 2013-03-28 | The Board Of Trustees Of The Leland Stanford Junior University | Phased Whole Genome Genetic Risk In A Family Quartet |
WO2013112948A1 (en) * | 2012-01-26 | 2013-08-01 | Nodality, Inc. | Benchmarks for normal cell identification |
US9177098B2 (en) * | 2012-10-17 | 2015-11-03 | Celmatix Inc. | Systems and methods for determining the probability of a pregnancy at a selected point in time |
US20140222349A1 (en) * | 2013-01-16 | 2014-08-07 | Assurerx Health, Inc. | System and Methods for Pharmacogenomic Classification |
EP2949204B2 (en) * | 2013-06-14 | 2020-06-03 | Keygene N.V. | Directed strategies for improving phenotypic traits |
AU2014284180B2 (en) * | 2013-06-21 | 2020-03-19 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
US20150088541A1 (en) * | 2013-09-26 | 2015-03-26 | Univfy Inc. | System and method of using personalized outcome probabilities to support the consumer in comparing costs and efficacy of medical treatments and matching medical provider with consumer |
JP6399511B2 (ja) * | 2013-09-30 | 2018-10-03 | 学校法人近畿大学 | 家系図作成支援装置及びコンピュータプログラム |
US10468121B2 (en) | 2013-10-01 | 2019-11-05 | Complete Genomics, Inc. | Phasing and linking processes to identify variations in a genome |
US20150112706A1 (en) * | 2013-10-17 | 2015-04-23 | Ovuline, Inc. | System and Methods for Personal health Analytics Technical Field |
WO2015058093A1 (en) * | 2013-10-18 | 2015-04-23 | Seven Bridges Genomics Inc. | Methods and systems for genotyping genetic samples |
CA2937502A1 (en) * | 2014-01-27 | 2015-07-30 | Celmatix, Inc. | Methods for assessing whether a genetic region is associated with infertility |
US9670530B2 (en) | 2014-01-30 | 2017-06-06 | Illumina, Inc. | Haplotype resolved genome sequencing |
US9779460B2 (en) * | 2014-02-18 | 2017-10-03 | Marineh Tchakerian | Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships |
US20160042282A1 (en) * | 2014-08-11 | 2016-02-11 | Rashied Baradaran Amini | Relationship evaluator |
WO2016049878A1 (zh) * | 2014-09-30 | 2016-04-07 | 深圳华大基因科技有限公司 | 一种基于snp分型的亲子鉴定方法及应用 |
EP3216002A4 (en) * | 2014-11-06 | 2018-04-18 | Ancestryhealth.com, LLC | Predicting health outcomes |
CN106169034B (zh) * | 2016-05-26 | 2019-03-26 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择 |
-
2018
- 2018-09-07 EP EP18778766.8A patent/EP3679575A1/en active Pending
- 2018-09-07 CN CN201880063870.XA patent/CN111247599A/zh active Pending
- 2018-09-07 CN CN201880068979.2A patent/CN111279420B/zh active Active
- 2018-09-07 CA CA3075266A patent/CA3075266A1/en active Pending
- 2018-09-07 MX MX2020002665A patent/MX2020002665A/es unknown
- 2018-09-07 WO PCT/US2018/049960 patent/WO2019051233A1/en active Application Filing
- 2018-09-07 AU AU2018327331A patent/AU2018327331A1/en not_active Abandoned
- 2018-09-07 EP EP18779141.3A patent/EP3679576A1/en not_active Withdrawn
- 2018-09-07 JP JP2020513709A patent/JP7277438B2/ja active Active
- 2018-09-07 JP JP2020513751A patent/JP2020533679A/ja active Pending
- 2018-09-07 CA CA3075182A patent/CA3075182A1/en active Pending
- 2018-09-07 KR KR1020207009431A patent/KR20200050992A/ko not_active Application Discontinuation
- 2018-09-07 MX MX2020002664A patent/MX2020002664A/es unknown
- 2018-09-07 KR KR1020207009945A patent/KR102648634B1/ko active IP Right Grant
- 2018-09-07 CN CN202311788943.0A patent/CN117746978A/zh active Pending
- 2018-09-07 US US16/124,702 patent/US11605444B2/en active Active
- 2018-09-07 WO PCT/US2018/049967 patent/WO2019051238A1/en unknown
- 2018-09-07 SG SG11202001715YA patent/SG11202001715YA/en unknown
- 2018-09-07 US US16/124,647 patent/US20190074092A1/en not_active Abandoned
- 2018-09-07 SG SG11202001747XA patent/SG11202001747XA/en unknown
- 2018-09-07 KR KR1020247008421A patent/KR20240038142A/ko active Search and Examination
- 2018-09-07 AU AU2018327326A patent/AU2018327326A1/en not_active Abandoned
-
2020
- 2020-02-26 IL IL272927A patent/IL272927A/en unknown
- 2020-02-27 IL IL272963A patent/IL272963A/en unknown
-
2022
- 2022-07-05 US US17/857,258 patent/US20220336045A1/en active Pending
-
2023
- 2023-05-08 JP JP2023076708A patent/JP2023103325A/ja active Pending
- 2023-12-13 AU AU2023282218A patent/AU2023282218A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013067001A1 (en) * | 2011-10-31 | 2013-05-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
Non-Patent Citations (3)
Title |
---|
CHANG C C ET AL.: "Second-generation PLINK: rising to the challenge of larger and richer datasets", GIGASCIENCE, vol. Vol. 4:7, JPN6022044124, 2015, ISSN: 0004904440 * |
STAPLES J. ET AL.: "PRIMUS: improving pedigree reconstruction using mitochondrial and Y haplotypes", BIOINFORMATICS, vol. 32, JPN6022044126, 2016, pages 596 - 598, ISSN: 0004904442 * |
TEWHEY R. ET AL.: "The importance of phase information for human genomics", NAT REV GENET, vol. 12, JPN6022044125, 2011, pages 215 - 223, XP055524281, ISSN: 0004904441, DOI: 10.1038/nrg2950 * |
Also Published As
Publication number | Publication date |
---|---|
KR20200065000A (ko) | 2020-06-08 |
JP7277438B2 (ja) | 2023-05-19 |
WO2019051238A1 (en) | 2019-03-14 |
IL272927A (en) | 2020-04-30 |
AU2018327326A1 (en) | 2020-03-19 |
MX2020002665A (es) | 2020-10-05 |
US20190205502A1 (en) | 2019-07-04 |
SG11202001747XA (en) | 2020-03-30 |
CN111279420A (zh) | 2020-06-12 |
JP2020533679A (ja) | 2020-11-19 |
AU2023282218A1 (en) | 2024-01-04 |
CN111247599A (zh) | 2020-06-05 |
US20190074092A1 (en) | 2019-03-07 |
JP2023103325A (ja) | 2023-07-26 |
EP3679575A1 (en) | 2020-07-15 |
CN117746978A (zh) | 2024-03-22 |
CN111279420B (zh) | 2024-01-16 |
KR102648634B1 (ko) | 2024-03-19 |
MX2020002664A (es) | 2020-09-25 |
IL272963A (en) | 2020-04-30 |
WO2019051233A1 (en) | 2019-03-14 |
KR20240038142A (ko) | 2024-03-22 |
KR20200050992A (ko) | 2020-05-12 |
CA3075266A1 (en) | 2019-03-14 |
US11605444B2 (en) | 2023-03-14 |
EP3679576A1 (en) | 2020-07-15 |
AU2018327331A1 (en) | 2020-03-12 |
CA3075182A1 (en) | 2019-03-14 |
US20220336045A1 (en) | 2022-10-20 |
SG11202001715YA (en) | 2020-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7277438B2 (ja) | ゲノムデータ解析に近縁性を活用するシステム及び方法 | |
Gurdasani et al. | Uganda genome resource enables insights into population history and genomic discovery in Africa | |
Staples et al. | Profiling and leveraging relatedness in a precision medicine cohort of 92,455 exomes | |
Gaunt et al. | Systematic identification of genetic influences on methylation across the human life course | |
Wu et al. | A comparison of humans and baboons suggests germline mutation rates do not track cell divisions | |
Feng et al. | Incomplete lineage sorting and phenotypic evolution in marsupials | |
Dai et al. | Population histories of the United States revealed through fine-scale migration and haplotype analysis | |
García-Ortiz et al. | The genomic landscape of Mexican Indigenous populations brings insights into the peopling of the Americas | |
Vyas et al. | Bayesian analyses of Yemeni mitochondrial genomes suggest multiple migration events with Africa and Western Eurasia | |
Ribeiro-dos-Santos et al. | High-throughput sequencing of a South American Amerindian | |
Asare et al. | Genomic epidemiological analysis identifies high relapse among individuals with recurring tuberculosis and provides evidence of recent household-related transmission of tuberculosis in Ghana | |
CN113039606A (zh) | 用于在系谱内进行系谱富集和基于家族的分析的方法和系统 | |
Kerdoncuff et al. | 50,000 years of Evolutionary History of India: Insights from∼ 2,700 Whole Genome Sequences | |
Merle et al. | Genotyping-by-Sequencing and morphology revealed the role of polyploidization and hybridization in the diversification of the Centaurea aspera l. complex of section Seridia (Juss.) DC.(Asteraceae) | |
Saavedra et al. | Unravelling the population structure and transmission patterns of Mycobacterium tuberculosis in Mozambique, a high TB/HIV burden country | |
Al-Jumaan et al. | Low-pass Whole Genome Imputation Enables the Characterization of Polygenic Breast Cancer Risk in the Indigenous Arab Population | |
이선호 | New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data | |
Gauvin | The French Canadian founder population: lessons and insights for genetic epidemiological research | |
Shogren et al. | Recent secondary contact, genome-wide admixture, and limited introgression of neo-sex chromosomes between two Pacific island bird species | |
Vilar et al. | Chengzhen L. Dai, Mohammad M. Vazifeh, 2 Chen-Hsiang Yeang, 3 Remi Tachet, 2 R. Spencer Wells, 4 | |
Williams | Defining shared/distinct genetic mechanisms for respiratory infections and subsequent respiratory disease | |
Daya | Using bioinformatics and biostatistics to elucidate susceptibility to tuberculosis in an admixed population | |
Gopalan | Characterizing the natural genetic and epigenetic diversity of human populations | |
Harris et al. | The evolutionary genomic dynamics of Peruvians before, during, and after the Inca Empire | |
Foldager | A statistical perspective on association studies of psychiatric disorders: Genetic effects of single-markers, haplotypes, gene-environment interactions and gene-gene interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210903 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7277438 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |