JP2020533679A - ヒト集団における関連性を予測するシステム及び方法 - Google Patents

ヒト集団における関連性を予測するシステム及び方法 Download PDF

Info

Publication number
JP2020533679A
JP2020533679A JP2020513751A JP2020513751A JP2020533679A JP 2020533679 A JP2020533679 A JP 2020533679A JP 2020513751 A JP2020513751 A JP 2020513751A JP 2020513751 A JP2020513751 A JP 2020513751A JP 2020533679 A JP2020533679 A JP 2020533679A
Authority
JP
Japan
Prior art keywords
population
dataset
age
individuals
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020513751A
Other languages
English (en)
Other versions
JP2020533679A5 (ja
Inventor
ステープルズ、ジェフリー
ハベガー、ルーカス
リード、ジェフリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2020533679A publication Critical patent/JP2020533679A/ja
Publication of JP2020533679A5 publication Critical patent/JP2020533679A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Abstract

ヒト集団における関連性の予測モデルを作成する方法、コンピュータによって実装される方法、及びシステムが提供される。方法、コンピュータによって実装される方法、及びシステムによって作成される予測モデルを用いて、研究者が遺伝コホートにおいて期待する関連性の量を推定するための多様な調査対象集団及びサンプリング手法をモデリングすることができる。

Description

関連出願の相互参照
本出願は、2017年9月7日に出願された米国仮特許出願第62/555,597号の利益を主張し、この出願の内容は、その全体が参照により本明細書に援用される。さらに、2018年9月7日に出願された「ゲノムデータ分析において関連性を活用するシステム及び方法」と題された同時係属出願もまた、その全体が参照によって援用される。
本開示は、一般に、ヒト集団における関連性の予測モデルに関する。より詳細には、本開示は、ヒト集団における関連性モデルを作成しかつ遺伝学的調査において集団から個人のサブセットを選択するためのモデルを特定するシステム及び方法に関する。
人間の病状は、環境因子だけでなく遺伝因子によっても引き起こされかつ影響を受ける。したがって、ヒト集団における遺伝的変異の理解は、人間の疾病の病因及び進行を理解するにおいて、ならびに、これら疾病の治療のための新規の薬剤標的の同定において重要である。
ヘルスケア集団の遺伝学的調査はこの点に関して、広範なヘルスケアデータが利用可能なために特に有用であり、遺伝的変異が人間の病状にどのように寄与するかの研究を簡略化する。従来、そうした調査は、疾病の遺伝子座をマッピングするためのゲノムワイド遺伝的連鎖分析に基づくのが一般的であった。遺伝子座は特定されると、分子レベルで詳細がさらに分析され得た。ここ数年において、ハイスループットDNAシーケンシング技術の普及により、何十万人のヒトのゲノムの並列シーケンシングが可能となった。理論上、ハイスループットDNAシーケンシング技術から取得されたデータは、人間の疾病の遺伝的基礎を解明するのに用いることができる有力な情報源を表す。DiscovEHR(Deweyら(2016)Science、354、aaf6814)、UK Bio bank/米国政府のAll of Us(Precision Medicine Initiativeの一部)(Collins及びVarmus(2015)N.Engl.J.Med.372、793−795)、TOPMed、ExAC/gnomAD(Lekら(2016)Nature 536、285−291);及びその他多数を含む、係る大規模なヒトシーケンシングプロジェクトの数及び規模は、急速に発展している。これらの調査のうちの多くは、付随する表現型に富む電子カルテ(EHR)を有する統合されたヘルスケア集団から、EHRとゲノム配列データを組み合わせて橋渡し的発見及びプレシジョンメディスンを促進する目的で、サンプルを収集している(Deweyら(2016)Science、354、aaf6814)。
従来、大規模な遺伝的調査の高いコスト及び個人調査員らの限られるリソースにより、様々な地理的エリアからの個人の表面的な確認を示す調査集団が生み出されてきた。検定力を向上させるために、研究者らは、多数の異なる収集センターからサンプルを組み合わせて、より大きなコホートにし、これらコホートは、しばしば、何十人から何十万人の個人で構成される、より大きな共同体に統合される。サンプリングされる個人の総数は多いことがよくあるが、これら調査は、通常、任意の所与の地理的エリアにおいて個人らのうち相対的に小さな一部のみをサンプリングする。そうした従来の集団ベースの調査は一般に、複数の地理的エリアからサンプルを収集するものだったので、それらは、最も一般的には、最も広い関連性の「クラス」、すなわち集団構造を示す。遺伝学的調査における集団構造(「サブ構造」または「層別」と称されることが多い)が生じるのは、異なる先祖グループのアレル頻度すなわち「遺伝的デーム」が、デーム間におけるよりも類似しているときである。遺伝的デームは、より最近の遺伝的隔離、浮動、及び流動パターンの結果として発生する。遺伝的デーム内における個人の確認は、遠い潜在的関連性(Hennら(2012)PLoS ONE 7、e324267;Hanら(2017)Nat.Commun.8、14238)、本明細書で第三度〜第九度近親者として定義される、第2の関連性の「クラス」を生成し得る。これらの遠い近親者は、EHRから特定可能である可能性は低いが、通常彼らのゲノムの1つまたは複数の大きいセグメントは、それらの関連度ならびにアレルの組み換え及び分離に応じて同祖的であるので、重要である(Huffら(2011)Genome Res.21、768−774)。遠い潜在的関連性は、通常、大きな集団の小さなサンプリングから構成される調査コホートにおいて制限されるが、潜在的関連性のレベルは、有効な集団サイズが減少しサンプルサイズが増加するにつれて、実質的に増大する。最終的に、家族を収集するように設計されない限り、典型的な集団に基づく調査は、通常、極めて小さな家族構造、すなわち、第一度近親者及び第二度近親者からなる、第3の関連性の「クラス」を有する(Sudlowら PLoS Med.12、e1001779;Hanら(2017)Nat.Commun.8、14238;Fuchsbergerら(2016)Nature 536、41−47;Lockeら(2015)Nature 51、197−206;Surendranら(2016)Nat.Genet 48、1151−1161)。
コホートにおける家族構造の増加は、下流分析の選択及び実行に対して重要な意義を有し得、熟慮のもと検討されなければならない。任意の集団を分析するための統計ツールを選択するために、集団における関連性の量に関する知識は、重要な役割を果たす(Santoricoら(2014)Genet.Epidemiol.38(Suppl 1)、S92−S96;Huら(2014)Nat.Biotechnol.32、663−669;Priceら(2010)Nat.Rev.Genet.11、459−463;Kangら(2010)Nat.Genet.42、348−354;Sun及びDimitromanolakis(2012)Methods Mol.Biol 850、47−57;Devlin及びRoeder(1999)Biometrics 55、997−1004;ならびにVoight及びPritchard(2005)PLoS Genet.1、e32)。例えば、一部のツール(例えば、主成分[PC]分析)は、全ての個人が無関係であると仮定し、一部は(例えば、線形混合モデル)は、対関係の推定値を有効に処理し、一部は(例えば、連鎖及びTOT分析)は、血統構造を直接活用することができる。
家族構造の削除(すなわち、サンプルを選択的に除外して関連性を排除すること)により、サンプルのサイズ及び容量は低減されるが、一方、潜在的価値のある関係情報が破棄される。分析または視覚化に必要とされる血統構造において、PRIMUS(Staplesら(2014)Am.J.Hum.Genet.95、553−564)及びCLAPPER(Ko及びNeilsen(2017)PLoS Genet.95、553−564)などのツールを用いて、遺伝子データから直接的に血統構造を再建するのに、関連性を用いることができる。データセットにおける関連性及び家族構造の有用性は、関連性を有するデータセットにおける変異体の同定及び特徴付けについての見解を提供することができる。かくして、血統を再建し、複合ヘテロ接合性変異(CHM)をフェージングし、かつデノボ変異(DNM)を検出することによって、関連性を活用して遺伝子データをより良く分析して調査を行うために、その集団における関連性を有するデータセットが有用である。
しかしながら、今日、データセットのサイズの増大により、バイオインフォマティクスツール及びそれらの取扱いを効率的に続けるための分析パイプラインのたゆまぬ革新が必要とされる。データセットを選択する際、どれほどの関連性を目の当たりにすることを研究者らが期待するか及びその関連性が、以前の集団ベースのゲノム研究において見られた関連性のレベルに追随するかどうかは不明なことが多い。下流分析への関連性の影響を考えると、関連性のこの量が期待されるかどうか、この量がデータセットに一意なものかどうか、及びシーケンスされたコホートが拡大するにつれてこの量はどれくらい増大するかを判定する必要がある。本開示は、この需要に取り組む。
一態様において、開示の例示的な実施形態は、ヒト集団における関連性の予測モデルを提供する。予測モデルは、第1の集団データセットを確立することと;120年のバーンイン段階を行って第2の集団データセットを確立することと;以下のステップ:(a)第2の集団データセットにおける個人を、個人の年齢にしたがって年齢プールに移動させるステップ、(b)いとこよりも遠い関係にある未婚男性と未婚女性の対を、第2の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによって指定された婚姻率で婚姻させるステップであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、婚姻させるステップ、(c)夫婦を、指定された離婚率で離婚させるステップであって、夫婦は、第2の集団データセットからランダムで選ばれ、離婚すると未婚としてマークされる、離婚させるステップ、(d)第2の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とするステップであって、両親はいとこよりも遠い関係にあるように制限され、かつ、第2の集団データセットにおける全個人は、1年当たり有する子どもは1人であるように制限される、選びかつ可能とするステップ、(e)第2の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とするステップ、(f)第2の集団データセットにかつ第2の集団データセットから、個人が移住することを可能とするステップであって、それによって、集団の年齢及び性別の分布ならびに第2の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、個人が移住することを可能とするステップ、及び(g)第2の集団データセット内で個人が移動することを可能とするステップであって、それによって、サブ集団から個人がランダムに選択され、別のサブ集団に(存在する場合)、サブ集団間の指定された移動率が達成されるまでランダムに割り当てられる、第2の集団データセット内で個人が移動することを可能とするステップ;ステップ(a)〜(g)の1つまたは複数を、所定の年数、1年間隔で反復的に繰り返すステップであって、ステップ(a)〜(g)は、所定時間のヒト集団における関連性の予測モデルを表す最終集団データセットを生成するために、以前の反復によってもたらされた集団データセットに適用される、反復的に繰り返すステップ、のうち1つまたは複数のステップを実行することによって第2の集団データセットを修正することと、を含むプロセスによって作成され得る。
一部の例示的な実施形態において、第1の集団データセットを確立することは、さらに、サブ集団の数及びサイズを特定することを含む。
一部の例示的な実施形態において、第1の集団データセットを確立することは、さらに、第1の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを含む。
一部の例示的な実施形態において、妊孕性を有する最大年齢は49歳である。
一部の例示的な実施形態において、バーンイン段階を行うことは、さらに、第2の集団データセットにおける個人の出生と死の数を等しくかつ個人の純移住率をゼロに保つことを含む。
一部の例示的な実施形態において、バーンイン段階を行うことは、さらに、第2の集団データセットにおける個人を、個人が妊孕性を有する最小年齢を超える年齢になると、若年プールから交配プールに移動させることと;個人を、個人が妊孕性を有する最大年齢を超える年齢になると、交配プールから老年プールに移動させることと;個人が移住のため離れるまたは死去した場合、全ての年齢プールから個人を削除することとを含む。
一部の例示的な実施形態において、妊孕性を有する最小年齢は15歳であり、妊孕性を有する最大年齢は49歳である。
別の態様において、開示の例示的な実施形態は、個人の確認がランダムに行われる、予測モデルを用いる方法を提供する。
別の態様において、開示は、個人の確認が集落化されて行われる、予測モデルを用いる方法を提供する。
一部の例示的な実施形態において、個人の確認は、さらに、確認された個人において第一度近親者または第二度近親者、あるいは両方を含む、確認された個人に関する関連性データ及び関連統計を集めることを含む。
一部の例示的な実施形態において、予測モデルは、さらに、遺伝分析のためのヒト集団を、最終集団データセットに基づいて選択することを備え得る。遺伝分析は、血統を再建すること、複合ヘテロ接合性変異をフェージングすること、デノボ変異を検出すること、またはそれらの組み合わせを含み得る。
一部の例示的な実施形態において、ヒト集団は、複数のヒト集団を含み、最終集団データセットを生成することは、複数のヒト集団の各々に対する最終集団データセットを生成することを含み、遺伝分析のために複数のヒト集団のうち1つを、最終集団データセットに基づいて選択することをさらに備える。
例示的な一実施形態による、ヒト集団における関連性の予測モデルを作成する方法の流れ図である。 例示的な動作環境の図である。 開示された方法を行うように構成されている複数のシステム構成要素の図である。 開示の例示的な実施形態による、61K人のDiscovEHRの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルAは、第一度近親者対の確認を示す。 開示の例示的な実施形態による、61K人のDiscovEHRの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルBは、2人以上の第一度近親者を有する個人数の確認を示す。 開示の例示的な実施形態による、92K人の拡張DiscovEHRの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルAは、第一度近親者対の確認を示す。 開示の例示的な実施形態による、92K人の拡張DiscovEHRの参加者における第一度近親者の確認と、シミュレーションされた集団のランダムな確認との比較を示す。パネルBは、2人以上の第一度近親者を有する個人数の確認を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルAは、第一度近親者の対の確認を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルBは、1人または複数の第一度近親者を有する確認された参加者の割合を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルCは、第一度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルDは、1人または複数の第一度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルAは、第一度近親者の対の確認を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルBは、1人または複数の第一度近親者を有する確認された参加者の割合を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルCは、第一度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性の確認に対する集落化確認手法の適合とを示す。パネルDは、1人または複数の第一度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルAは、第一度近親者及び第二度近親者の対の確認を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルBは、1人または複数の第一度近親者及び第二度近親者を有する確認された参加者の割合を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルCは、第一度関係及び第二度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルDは、1人または複数の第一度近親者または第二度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルAは、第一度近親者及び第二度近親者の対の確認を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルBは、1人または複数の第一度近親者及び第二度近親者を有する確認された参加者の割合を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルCは、第一度関係及び第二度関係の数の上限及び下限を有するシミュレーションされた確認予測を示す。 開示の例示的な実施形態による、シミュレーションされた集団と、拡張DiscovEHRコホートにおける第一度関連性及び第二度関連性の確認に対する集落化確認手法の適合とを示す。パネルDは、1人または複数の第一度近親者または第二度近親者を有する確認された参加者の割合の上限及び下限を有するシミュレーションされた予測を示す。 開示の例示的な実施形態による、モデリングされた確認されたデータセットにおける関連性の量を推し進める要因の一部を示す。
「a」という用語は、「少なくとも1つ」を意味するとして理解されるべきであり、「約」及び「おおよそ」という用語は、当業者によって理解されるような標準的なばらつきを許容するとして理解されるべきであり、範囲が与えられる場合、端点が含まれる。
以前の大規模なヒトのゲノム研究は、通常、幾つもの異なる地理的エリア及び/またはヘルスケアシステムにわたってヒトサンプルを収集し、それらを組み合わせて、分析のためのコホートを生成するものであった。これらのコホートにおいてサンプリングされた個人の総数は多いことがよくあったが、これらのコホートにおける関連性及び家族構造の範囲は、比較的低い傾向にあった。関連性分析及び主成分分析を含むゲノム分析の文脈で慣用される多くの統計法は、全てのサンプルが無関係であることを必要とする。そうでない場合、これらのテストの統計的出力は偏り、p−値の暴騰及び偽陽性の所見の原因となる(Kangら(2010)、Nature Publishing Group 42、348−354;Sun及びDimitromanolakis(2012)、Methods Mol.Biol.850、47−57;Devlin及びRoeder(1999)、Biometrics 55、997−104;ならびにVoight及びPritchard(2005)、PLoS Genet 1、e32−10)。
データセットからの家族構造の削除は、データセットが有する密接に関連するサンプルがたった一握りである場合、実行可能なオプションである(Lekら(2016)、Nature Publishing Group 536、285−291;Fuchsbergerら(2016)、Nature Publishing Group 536、41−47;Lockeら(2015)、Nature 518、197−206;ならびにSurendranら(2016)Nat Genet 48、1151−1161)。家族構造の削除はまた、主成分(PC)を計算し次いで残りのサンプルをこれらPC上に投影するなどの統計分析に、データの無関係なサブセットが適している場合、可能なオプションである(Deweyら(2016)、Science 354、aaf6814−aaf6814)。研究者らが、最大サイズの無関係な個人のセットを保持することを支援するいくつかの方法が存在する(Staplesら(2013)、Genet.Epidemiol.37、136−141;Changら(2015)、Gigascience 4、7)。残念なことに、関連を有する個人の削除は、サンプルのサイズを低減させるのみならず、有用な関係性情報も破棄してしまう。実際、データセットが適度なレベルの家族構造を有する場合、そうした情報の損失は、多くの分析にとって受け入れがたい。
個人と個人の間の遺伝的関連性は、遺伝学の多くの分野において重要な役割を果たす。遺伝分析において、関連性の知識を用いて、遺伝性及び遺伝相関性などの遺伝的パラメータを推定する(Falconer及びMackay(1996)Introduction to Quantitative Genetics.Longmans Green、Harlow、Essex、UK)。進化生物学において、相互作用する個人間の関連性の知識は、社会的相互作用の進化の帰結を予測するのに必要とされる(Hamilton(1964)Theor.Biol.7、17−52)。保全遺伝学において、関連性の知識は、保存戦略を最適化するのに必要とされる。コホートにおける集団の関連性に関する情報は、量的遺伝学、保存遺伝学、法医学、進化及び生態学における多数の研究領域において重要な用途を有し得る。コホートにおける個人間の遺伝的関連性は、集団及び個人がどのようにその集団からサンプリングされるかに応じて、さまざまな形でコホート内において現れる連続体である。ヘルスケア集団ベースのゲノム(HPG)研究における関連性の増加は、下流分析を選択かつ実行する際に重要な意義を有し、熟慮のもと検討されなければならない(Santoricoら(2014)Genet.Epidemiol.38 Suppl 1、S92−S96;Huら(2014).Nat.Biotechnol.32、663−669;Priceら(2010)Nat.Rev.Genet.11、459−463;Kangら(2010).Nature Publishing Group 42、348−354;Sun及びDimitromanolakis(2012)Methods Mol.Biol.850、47−57;Devlin及びRoeder(1999)Biometrics 55、997−104;Voight及びPritchard(2005)PLoS Genet.1、e32−10)。関連性を活用する遺伝子データは、血統を再建し、複合ヘテロ接合性変異(CHM)をフェージングし、かつデノボ変異(DNM)を検出するのに用いることができる。さらに、データはまた、集団の成長を予測しかつ集団における疾病パターンを示すマーカを提供するのにも用いることができる。
そうしたデータを分析するために、関連性を有する個人を備えるデータセットが望ましい。さらに、データセットにおける個人間の関連度に基づいてデータセットに適用することができる様々な統計ツールが存在する。利用可能なデータセットまたは設計されるデータセットは、バイオインフォマティクスツール及びそれらの取扱いを効率的に続けるための分析パイプラインのたゆまぬ革新を必要とするだろう。
遺伝学研究または進化的研究または人口調査研究において、データセットを選択または設計するために、コホートにおける関連度を予測することができる方法またはモデルは存在せず、研究者らは、どれくらいの関連性を研究者が目の当たりにすることを期待するか及び関連レベルが以前の集団ベースのゲノム研究において見られた関連レベルと同様であるかどうかに関して不確かであることが多い。
本開示は、ヒト集団における関連性の予測モデルに少なくとも部分的に基づく。
開示の例示的な実施形態によるヒト集団における関連性の予測モデルを用いて、1つまたは複数のサブ集団にわたって分散した何百万の人々の集団を、指定された集団パラメータに基づいて予測することができる。モデルは、カップリング、誕生、離婚、移住、死亡及び/またはサブ集団間の移動を、指定されたパラメータに基づいて年々シミュレーションすることを進めて、HGP研究を含む幅広い集団ベースの研究を表す現実的な血統構造及び集団を生成する。異なる集団をモデリングするために、パラメータのカスタマイズは容易に行うことができる。
開示の例示的な実施形態はまた、ヒト集団における関連性の予測モデルを作成して、研究者らが所与の集団セット及びサンプリングパラメータに対して発見することを期待する関連性の量を推定するプロセスに少なくとも部分的に基づく。そうしたモデルを生成するプロセスの例を図1に記載する。
開示の例示的な実施形態によれば、ヒト集団における関連性の予測モデルを作成するプロセスは、ステップ100として、第1の集団データセットを確立することを含み得る。この第1の集団データセットは、ユーザによって定義され得る。
一部の例示的な実施形態において、ステップ120として、所定時間のバーンイン段階が行われて、第2の集団データセットを確立する。バーンイン段階は、調査に基づいて変わり得、かつ、ユーザによって選択され得る。具体的な例示的実施形態において、バーンイン段階は、90〜200年の範囲にあり得、範囲内の任意の所望の値を含む。別の具体的な例示的実施形態において、バーンイン段階は約120年である。
一部の例示的な実施形態において、第2の集団データセットにおける個人の初期年齢は、0〜49歳の範囲にあり得る。この第2の集団データセットにおける個人は、様々なプール、例えば、若年または妊孕性/交配または老年プールに割り当てられ得る。例えば、約15歳よりも下の年齢の個人は若年プールに割り当てられ得る。15〜49歳の間の年齢の個人は、妊孕性/交配プールに割り当てられ得る。さらに、個人は、15歳を超えたときに若年プールから妊孕性/交配プールに、49歳を超えたときに妊孕性/交配プールから老年プールに移動させることもできる。このデータセットにおける個人は、さらに、彼らが移住のために離れたまたは死亡した場合、削除することができる。ユーザは、プールが備えるこれらの年齢グループを、人口統計または地理的エリアの歴史または祖先クラスまたはグループに影響を及ぼし得る任意の他のパラメータに基づいて選択することができる。第2の集団データセットにおいて、ユーザは、さらに、出生率、死亡率、転入率、転出率、婚姻率、離婚率、妊孕性開始年齢、妊孕性終了年齢、年齢別の妊孕性に対する全血兄妹率範囲、年齢別の男性死亡率、年齢別の女性死亡率、年齢別の男性婚姻及び/または年齢別の女性婚姻を、人口統計または地理的エリアの歴史または祖先クラスまたはその率に影響を及ぼし得る任意の他のパラメータ(それらの対応する値及び率を有する)にしたがって設定することができる。例えば、パラメータを設定するのに、双子率、死産率、堕胎率、同性婚率、養子率、ポリアモリー関係率を用いることができる。さらに、パラメータはまた、集団内の人々の地理的な位置(例えば、彼らが互いに対して、暮らし働く場所)及び交配の機会を増加または減少させ得る地理的/社会的障壁(例えば、川、谷、山、祖先、及び地域)に基づいてモデリングすることができる。一部の例示的な実施形態において、第2の集団は、約0.0219の出生率または約0.0095の死亡率または約0.01168の婚姻率または約0.0028の離婚率または約0.88の全血兄妹率または約15歳の妊孕性開始年齢または約49歳の妊孕性終了年齢または約0.01の転入率または約0.021の転出率または0〜1の範囲の年齢別の妊孕性(0〜50歳の女性に対する重み付けベクトル)または0〜1の範囲の年齢別の男性死亡率(0〜120歳の男性に対する重み付けベクトル)または0〜1の範囲の年齢別の女性死亡率(0〜120歳の女性に対する重み付けベクトル)または0〜1の範囲の年齢別の男性婚姻率(0〜50歳の男性に対する重み付けベクトル)または0〜1の範囲の年齢別の女性婚姻率(0〜50歳の女性に対する重み付けベクトル)またはそれらの組み合わせを有し得る。
一部の例示的な実施形態において、確立された第2の集団は、ステップ130として、第2の集団データセットにおける個人を、個人の年齢−若年、妊孕性/交配または老年にしたがって年齢プールに移動させることによって修正することができる。
一部の例示的な実施形態において、確立された第2の集団は、さらに、ステップ140として、いとこよりも遠い関係にある未婚男性と未婚女性の対を、第2の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることによって、修正することができる。婚姻のため選ばれた対は、婚姻数が、設定済みの婚姻率パラメータによって指定される数に達するまで婚姻することが可能であり得る。ユーザは、年齢パラメータによる婚姻を、人口統計または地理的エリアの歴史または祖先クラスまたはそうした率に影響を及ぼし得る任意の他のパラメータ(それらの対応する値及び率を有する)に基づいて選択することができる。例えば、パラメータを設定するのに、双子率、死産率、堕胎率、同性婚率、養子率、ポリアモリー関係率を用いることができる。さらに、パラメータはまた、集団内の人々の地理的な位置(例えば、彼らが互いに対して、暮らし働く場所)及び交配の機会を増加または減少させ得る地理的/社会的障壁(例えば、川、谷、山、祖先、及び地域)に基づいてモデリングすることができる。
第2の集団データセットをさらに修正するのに、ユーザは、離婚率及び/または生殖率を、人口統計または地理的エリアの歴史または祖先クラスまたはそうした率に影響を及ぼし得る任意の他のパラメータに基づいて選択することができる。一部の例示的な実施形態において、確立された第2の集団は、ステップ150として、夫婦が、指定された離婚率で離婚することを可能とするように修正され得る。第2の集団データセットからランダムに選ばれた未婚男性と未婚女性の対または夫婦は、指定された率で選択され得、かつ、成功妊娠の標的数に達するまで、ステップ160として、指定された出生率にしたがって生殖することが可能であり得る。両親は、いとこより遠い関係であるように制限され得る。さらに、第2の集団データセットの交配/妊孕性年齢プールにおける全個人は、1年につき持つ子どもは1人であるように制限され得る。
さらに、第2の集団データセットは、人口統計または地理的エリアの歴史または祖先クラスまたは任意の他のパラメータ(それらの対応する値及び率を有し、そうした率に影響を及ぼし得る)に基づいて、死亡率及び/または移住を設定することによって修正され得る。
一部の例示的な実施形態において、確立された第2の集団データセットにおける個人は、ステップ170として、指定された死亡率でかつ年齢パラメータによる指定された死亡率で死去することが可能であり得る。さらに、第2の集団データセットにおける個人はまた、ステップ180として、第2の集団データセットにかつ第2の集団データセットから移住することも可能であり得る。そうした移住は、しかしながら、集団の年齢及び性別分布ならびに第2の集団データセットにおける既婚の妊孕性を有する年齢にある個人の割合を維持し得る。
一部の例示的な実施形態において、確立された第2の集団における個人は、ステップ190として、第2の集団データセット内で移動することが可能であり得、それによって、サブ集団から個人がランダムに選択され、別のサブ集団にランダムに割り当てられる。
一部の例示的な実施形態において、交配、婚姻、離婚、生殖、移住、死亡または第2の集団データセットにおける1つのサブ集団から別のサブ集団への移動のうちの1つまたは複数のステップは、以前の反復からもたらされる集団データセットにステップを適用することによって、所定の年数、1年間隔で繰り返すことができる(ステップ200として)。
このフレームワークは、より一時的な集団の表面的な確認のモデリングに適用するのに十分に柔軟である。第1の集団データセットに基づき、第2の集団データセットに対するパラメータは、任意の特定の地理的エリアまたはサブ集団に対する予測モデルをカスタマイズするように修正され得る。
一部の実施形態において、予測モデルは、集団からランダムに個人を確認することができる。ランダムな確認は、集団における各個人に、非復元で確認される等しい機会を与える。
一部の例示的な実施形態において、予測モデルは、個人を集団から集落化して確認することができる。集落化サンプリングは、個人を幾人かの第一度近親者及び第二度近親者とともにランダムに選択することによって、近親者に対して強化することができる。
開示によって説明または例示された方法のいずれも、コンピュータによって実装される方法としてかつ/またはシステムとして実施され得る。当業者によって知られている任意の適切なコンピュータシステムが、この目的に用いられ得る。
図2は、本方法及びシステムが動作することができる例示的な環境201の様々な態様を示す。本方法は、デジタル機器及びアナログ機器の両方を用いる様々なタイプのネットワーク及びシステムにおいて用いられ得る。本明細書中に提供されるのは、機能的説明と、それぞれの機能はソフトウェア、ハードウェアまたはソフトウェアとハードウェアの組み合わせによって行うことができるということである。
環境201は、ローカルデータ/処理センター210を備え得る。ローカルデータ/処理センター210は、1つまたは複数のコンピューティングデバイス間の通信を容易にするための、ローカルエリアネットワークなどの1つまたは複数のネットワークを備え得る。1つまたは複数のコンピューティングデバイスを用いて、生体データを格納、処理、分析、出力かつ/または視覚化することができる。環境201は、任意選択的に、医療データプロバイダー220を備え得る。医療データプロバイダー220は、生体データの1つまたは複数の源を備え得る。例えば、医療データプロバイダー220は、1人または複数の患者の医療情報にアクセスする1つまたは複数のヘルスシステムを備え得る。医療情報は、例えば、医療履歴、医療専門所見及びコメント、実験報告、診断、医者のオーダー、処方箋、バイタルサイン、体液平衡、呼吸機能、血液パラメータ、心電図、x線、CTスキャン、MRIデータ、臨床検査結果、診断、予後、評価、入退院ノート及び患者記録情報を備え得る。医療データプロバイダー220は、1つまたは複数のコンピューティングデバイス間の通信を容易にするための、ローカルエリアネットワークなどの1つまたは複数のネットワークを備え得る。1つまたは複数のコンピューティングデバイスを用いて、医療データを格納、処理、分析、出力かつ/または視覚化することができる。医療データプロバイダー220は、医療情報を匿名化し、匿名化された医療情報をローカルデータ/処理センター210に提供することができる。匿名化された医療情報は、医療情報を匿名化された状態に保ちつつ、1人の患者の医療情報を別の患者から区別するために患者ごとに一意の識別子を備え得る。匿名化された医療情報は、患者の身元が、その本人の特定の医療情報に結び付けられないようにする。ローカルデータ/処理センター210は、匿名化された医療情報を分析して、(例えば、国際疾病分類「ICD」及び/または現行医療行為用語「CPT」コードを割り当てることによって)1つまたは複数の表現型を各患者に割り当てることができる。
環境201は、NGSシーケンシング設備230を備え得る。NGSシーケンシング設備230は、1つまたは複数のシーケンサ(例えば、Illumina HiSeq 2500、Pacific Biosciences PacBio RS IIなど)を備え得る。1つまたは複数のシーケンサは、エクソームシーケンシング、全エクソームシーケンシング、RNA−seq、全ゲノムシーケンシング、ターゲットシーケンシングなどに対して構成され得る。例示的な態様において、医療データプロバイダー220は、匿名化された医療情報と関連付けられた患者からの生体サンプルを提供し得る。一意の識別子を用いて、生体サンプルと生体サンプルに対応する匿名化された医療情報の関連を維持することができる。NGSシーケンシング設備230は、各患者のエクソームを、生体サンプルに基づいてシーケンスすることができる。シーケンシングの前に生体サンプルを格納するために、NGSシーケンシング設備230は、(例えば、Liconic Instrument製の)バイオバンクを備え得る。生体サンプルはチューブにおいて受けることができ(各チューブは患者に関連する)、各チューブは、スキャンされてサンプルをローカルデータ/処理センター210内に自動的にログすることができるバーコード(または他の識別子)を備え得る。NGSシーケンシング設備230は、均一なデータ及び効果的なノンストップ動作を確保するためシーケンシングの1つまたは複数の段階で用いるための1つまたは複数のロボットを備え得る。このように、NGSシーケンシング設備230は、1年当たり何万ものエクソームをシーケンスすることができる。一態様において、NGSシーケンシング設備230は、1月当たり少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000または12,000の全エクソームをシーケンスする機能的能力を有する。
NGSシーケンシング設備230によって生成された生体データ(例えば、未加工のシーケンシングデータ)は、ローカルデータ/処理センター210に転送することができ、そして、ローカルデータ/処理センター210は、生体データをリモートデータ/処理センター240に転送することができる。リモートデータ/処理センター240は、クラウドベースのデータストレージ及び1つまたは複数のコンピューティングデバイスを備える処理センターを備え得る。ローカルデータ/処理センター210及びNGSシーケンシング設備230は、データを、1つまたは複数の大容量ファイバー線を介してリモートデータ/処理センター240にかつリモートデータ/処理センター240から直接通信し得るが、他のデータ通信システムが検討される(例えばインターネット)。例示的な態様において、リモートデータ/処理センター240は、サードパーティシステム、例えば、Amazon Web Services(DNAnexus)を備え得る。リモートデータ/処理センター240は、分析ステップの自動化を促進することができ、かつ、1つまたは複数のコラボレータ250と安全にデータを共有することを可能とする。ローカルデータ/処理センター210から生体データを受信すると、リモートデータ/処理センター240は、バイオインフォマティクスツールを用いて一次かつ二次データ分析のための自動化された一連のパイプラインステップを行うことができ、サンプルごとにアノテーション付きバリアントファイルをもたらす。そうしたデータ分析からもたらされる結果(例えば遺伝子型)は、ローカルデータ/処理センター210に通信して戻すことができ、例えば、各生体サンプルの状態を維持するように構成され得るラボラトリー情報管理システム(LIMS)に統合することができる。
そして、ローカルデータ/処理センター210は、NGSシーケンシング設備230及びリモートデータ/処理センター240を介して取得された生体データ(例えば遺伝子型)を、匿名化された医療情報(特定された表現型を含む)と組み合わせて利用して、遺伝子型と表現型の関連を特定することができる。例えば、ローカルデータ/処理センター210は、表現型ファースト手法を適用することができ、この手法では、特定の疾患領域、例えば心疾患に対する血中脂質の過多において治療可能性を有し得る表現型が定義される。別の例は、典型的な範囲の併存疾患から保護されているように見える個人を識別する、肥満患者の調査である。別の手法は、遺伝子型と仮説、例えば、遺伝子Xは、疾患Yを引き起こすことまたは疾患Yからの保護に関わるという仮説から始めるものである。
例示的な態様において、1つまたは複数のコラボレータ250は、生体データ及び/または匿名化された医療情報の一部またはすべてに、インターネット260などのネットワークを介してアクセスすることができる。
図3に示すような例示的な態様において、ローカルデータ/処理センター210及び/またはリモートデータ/処理センター240の1つまたは複数は、遺伝子データコンポーネント300、表現型データコンポーネント310、遺伝的変異体−表現型の関連データコンポーネント320及び/またはデータ分析コンポーネント330のうち1つまたは複数を備える1つまたは複数のコンピューティングデバイスを備え得る。遺伝子データコンポーネント300、表現型データコンポーネント310、及び/または遺伝的変異体−表現型の関連データコンポーネント320は、シーケンスデータの品質評価、参照ゲノムへのリードアライメント、変異同定、変異のアノテーション、表現型同定、変異体−表現型の関連特定、データ視覚化、それらの組み合わせなどの1つまたは複数のために構成され得る。
数及び/または文字付きの、本明細書中に提供される方法ステップの連続的なラベリングは、方法またはその任意の実施形態を、特定の示された順序に限定することを意味しない。
特許、特許出願、公開特許出願、アクセッション番号、技術記事及び学術記事を含む様々な刊行物が明細書全体で引用される。これら引用文献の各々は、参照によって、その全体があらゆる目的で本明細書中に組み込まれる。
開示は、開示をより詳細に説明するために提供される以下の例を参照することによって、より完全に理解されよう。それらの例は例示することが意図され、開示の範囲を限定するとして解釈されるべきでない。
実施例1
患者及びサンプル
2つのデータセットが、予測モデルをコホート‐(A)61,720人の匿名化された患者のエクソームを有するDicovEHRコホート及び(B)92,455人の匿名化された患者のエクソームを有する拡張DicovEHRコホートに適用することによって、収集された。
Geisinger Health System(GHS)から取得された両方のコホートにおける匿名化された被験者のすべてがシーケンスされた。全参加者は、MyCode(登録商標)Community Health Initiative(Careyら(2016)、Genet.Med.18、906−913)に参加することを承諾し、Regeneron−GHS DiscovEHR Study(Deweyら(2016)、Science 354、aaf6814−aaf6814)におけるゲノム分析のためにDNAサンプルを提供した。全患者は、対応する匿名化された電子カルテ(EHR)に結びつけられたエクソームを有していた。最初の50,726人のシーケンスされた個人のより詳細な説明は、以前に公開されている(Deweyら(2016)、Science 354、aaf6814−aaf6814;Abul−Husnら(2016)、Science 354、aaf7000−aaf7000)。
調査は、調査に参加するのに家族を具体的な標的としなかったが、調査は、ヘルスケアシステムと頻繁に相互作用する、慢性的な健康問題を抱える成人、ならびにCoronary Catheterization Laboratory及びBariatric Serviceからの参加者に対して強化されたものであった。
実施例2
SimProgenyを用いるシミュレーション及び関連性の予測
DiscovEHR及び拡張DiscovEHRデータセットにおける関係ネットワークの成長をモデリング、理解かつ予測するために、シミュレーションフレームワーク(本明細書中以下で「SimProgeny」)が開発された。これは、複数のサブ集団にわたって分散された何百年にわたる何百万の人々の系統をシミュレーションし得る。これらのシミュレーションされた集団から、様々なサンプリング手法をモデリングすることができ、かつ、研究者らが所与のセットの集団及びサンプリングパラメータに対して発見することを期待する関連性の量を推定することができる(実施例6を参照)。
SimProgenyを用いて、DiscovEHR及び拡張DiscovEHRの集団ならびにそれらそれぞれからの最初の61K及び最初の92Kの参加者の確認をシミュレーションした。シミュレーションでは、DiscovEHR及び拡張DiscovEHRの参加者は集団からランダムにサンプリングされたのではなく、データセットは近親者に対して強化されたものであったことが示される。図2A及び図2Bに示すように、実データは、薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。61K‐人のフリーズにおいて特定されたサンプル及び関係もまたとられ、そして確認順をシャッフルして、61KのDiscovEHRの参加者の前半は、後半に比べ第一度近親者に対して強化されたものであったことを示す。様々なサイズの集団が、DiscovEHRがそれから確認された実集団に類似のパラメータを用いてシミュレーションされた。次いで、これら集団の各々からのランダムな確認が行われて、いずれの集団サイズが実データに最も近く適合するかを確認した。重要なことは、これらの集団サイズのいずれも実データに適合せず、ランダムな確認手法の適合は不十分であるということである。ランダムな確認と比べて第一度近親者に対して強化された異なる確認手法は、より良好な適合を生じさせ得る。図4Aは、サイズ270Kの有効なサンプリング集団における第一度近親者対の確認が、実データのシャッフルされたバージョンに近く適合するが、61Kの確認された参加者を下回る近親者対の数を過小に見積もり、61Kの参加者を超える近親者対の数を、著しく過大に見積もることを示す。図4Bは、270Kの集団が、1人または複数の第一度近親者を有する個人の数に対して、シャッフルされた実データに最も近く適合するが、実データへの適合は不十分であることを示す。
拡張DiscovEHRデータセットを用いて同様の結果が観察された(図5A及び図5B)。92K−人のフリーズにおいて特定されたサンプル及び関係は、次いで、シャッフルされて、92K人の拡張DiscovEHRの参加者の前半は、後半に比べて第一度近親者に対して強化されたものであることを示した。次いで、これら集団の各々からのランダムな確認が行われて、いずれの集団サイズが実データに最も近く適合するかを確認した。図5Aは、サイズ403Kの有効なサンプリング集団における第一度近親者対の確認が、実データのシャッフルされたバージョンに近く適合するが、92Kの確認された参加者を下回る近親者対の数を過小に見積もり、92Kの参加者を超える近親者対の数を、著しく過大に見積もることを示す。図5Bは、403Kの集団が、1人または複数の第一度近親者を有する個人の数に対して、シャッフルされた実データに最も近く適合するが、実データへの適合は不十分であることを示す。
近親者の強化が、DiscovEHR(図6A及び図6B)及び拡張DiscovEHR(図7A及び図7B)において実データにより良好に適合するシミュレーションを生成する集落化確認手法を用いることによってモデリングされた(実施例6を参照)。図6及び図7の両方において、実データは、薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。大部分のシミュレーションパラメータは、実集団の人口統計に関する情報及びDiscovEHR確認手法に基づいて設定された。しかしながら、2つのパラメータ:1)サンプルがそれから確認された有効な集団サイズ、及び2)第一度近親者が以前に確認されたとして誰かが確認される機会の増大(「集落化確認」と称される)は、我々が利用できるものではなかったので、未知であり、したがって、実データへの適合性に基づいて推測された。図6及び図7における全てのパネルは、推定される有効集団サイズに及ぶ同一の3つのシミュレーションされた集団サイズを示す。集落化確認は、第一度近親者のポアソン分布による乱数(分布のラムダは、凡例に示される)とともに個人をランダムに確認することによってシミュレーションされた。これらのシミュレーション結果は、有効なサンプリング集団サイズは約475Kの個人であったこと、及び0.2のラムダを有するポアソン分布が第一度近親者の強化に最も近く合致したことを示唆する。これは、現在の参加者の過半数が、GHS通院区域(>2.5百万の個人)全体にわたって均等に分布するのではなく、この例ではDanville、Pa.区域(約500Kの個人)といった特定のローカルな地理的エリアに住んでいるという理解と一致した。
実データに合理的に適合するシミュレーションパラメータが特定された後、SimProgenyを用いて、DiscovEHR及び拡張DiscovEHR研究が250Kの参加者という目的にまで拡大するとき期待される第一度関係の量の予測を取得した。結果として、参加者の確認が同じ様に続いた場合、約150Kの第一度関係を取得することが、DiscovEHR(図6C)及び拡張DiscovEHR(図7C)に対して期待され、DiscovEHRの参加者の約60%を含み(図6D)かつ拡張DiscovEHRの参加者の約60%を含む(図7D)ことが示された。
シミュレーション分析は次いで、第二度関係を含むまでに拡大された。シミュレーション結果は、250Kの参加者の場合、DiscovEHR(図8)及び拡張DiscovEHR(図9)における個人の70%超えを含む、200Kをはるかに超える組み合わされた第一度関係及び第二度関係が期待されることを示唆した。この分析において、実データは、図において薄い線によってつなげられた句点で示される周期的な「フリーズ」において計算された。大部分のシミュレーションパラメータは、実集団の人口統計に関する情報及びDiscovEHR確認手法に基づいて設定された。しかしながら、2つのパラメータ:1)サンプルがそれから確認された有効な集団サイズ、及び2)第一度近親者または第二度近親者が以前に確認されたと仮定して誰かが確認される機会の増大(「集落化確認」と称される)は、未知であり、実データへの適合性に基づいて選択された。図8及び図9における全てのパネルは、推定された有効集団サイズに及ぶ同一の3つのシミュレーションされた集団サイズを示す。集落化確認は、第一度近親者のポアソン分布による乱数及び第二度近親者の別の乱数(どちらのポアソン分布も、図の凡例に示されるラムダを有する)とともにランダムに個人を確認することによってシミュレーションされた。
シミュレーション結果は、DiscovEHRのHPG研究における関連性の明確な強化を示し、ならびに、さらなる参加者の確認が続けられたときに把握されることが期待される、膨大な量の関連性についての極めて重要な洞察をもたらした。
実施例3
サンプルの準備、シーケンシング、バリアントコール、及びサンプルのQC
データサンプルの準備及びシーケンシングは、Deweyら(Deweyら(2016)、Science 354、aaf6814−aaf6814)に先に記載されている。
シーケンシングが完了すると、各Illumina Hiseq 2500ランからの未加工データが、ローカルバッファストレージに集められ、自動分析のためにDNAnexusプラットフォームにアップロードされた(Reidら(2014)15、30)。サンプルレベルのリードファイルが、CASAVA(Illumina Inc.、San Diego、CA)を用いて生成され、GRCh38に、BWA−mem(Li及びDurbin(2009);Bioinformatics 25、1754−1760;Li,H.(2013);arXiv q−bio.GN)を用いてアラインされた。結果として生じたBAMファイルは、GATK及びPicardを用いて処理されて、ソートを行い、重複をマークし、かつ推定インデルの周りのリードのローカルリアライメントを行った。シーケンスされた変異体は、Ensembl85遺伝子定義を用いてsnpEFF(Cingolaniら(2012);Fly(Austin)6、80−92)でアノテーションされて、転写産物及び遺伝子への機能的影響を判定した。遺伝子定義は、19,467の遺伝子に対応する、アノテーションされた開始及び終止を用いてたんぱく質をコードする54,214の転写産物に制限された。
高い率の同型接合性、低いシーケンスデータカバレッジ、または現実の一卵性双生児であると実証され得ない遺伝的に同定された重複によって示される低品質のDNAシーケンスデータを有する個人は除外された。すなわち、61,019のエクソームが分析のために残った。サンプル準備、シーケンシング、バリアントコール及びバリアントアノテーションに関するさらなる情報は、Deweyら(2016)、Science 354、aaf6814−1〜aaf6814−10に報告される。
実施例4
SimProgeny
SimProgenyは、大規模な集団ならびにその集団からの様々なサンプル確認方法をシミュレーションするために開発された。SimProgenyは、1つまたは複数のサブ集団にわたって分散された何百万の人々の集団をシミュレーションし、彼らの死亡を何百年にわたって追跡することができる。単純化と現実性の良好なバランスを見出すために、ユーザが調整することができるいくつかの極めて重要な集団レベルのパラメータが選択された(以下の表1を参照)。これらのパラメータは、シミュレーションツールを相対的に簡潔なままにしながら、実集団及び家系構造の良好な近似値を提供するように選択された。デフォルト値は、US人口統計に基づく(1960年からのUSの平均出生率:Department of Health and Human Services、National Center for Health Statistics;1960年からのUSの平均死亡率:National Center for Health Statistics、U.S.Census Bureau;1960年からのUSの平均婚姻率:100 years of marriage and divorce statistics United States、1867−1967;1960年からのUSの平均離婚率:100 years of marriage and divorce statistics United States、1867−1967;田舎と都会両方の移住を反映する2000年からのPAにおける転入率及び転出率;1970年からのUSの出生率:Hamilton、B.E.、Martin,J.A.、Osterman、M.J.K.、Curtin、S.C.、&Mathews、T.J.(2015)、Births:Final data for 2014.National Vital Statistics Reports,64(12)及びHyattsville、MD:National Center for Health Statistics;2005年からの女性死亡率;2005年7月1日時点で推定された2000年の国勢調査に基づいた死亡率の調査後推定;ならびに2009年からの年齢別の男性婚姻率及び女性婚姻率)。デフォルト値は、様々なコホートに対して機能するように設定され、これらのパラメータは、異なる集団をモデリングするために、SimProgenyコード(ウェブリソース)に包含される構成ファイルを修正することによって、容易にカスタマイズされ得る。集団シミュレーションプロセスの詳細な説明については、実施例6を参照。
DiscovEHRコホートに対して開発されたフレームワークにおいて、妊孕性終了は49歳であり、拡張DiscovEHRコホートに対して開発されたフレームワークにおいて、妊孕性終了は50歳であった。
集団をモデリングすることに加えて、SimProgenyは、遺伝学的調査のために、集団からの個人の選択のモデリングに対する2つの確認手法:ランダムな確認及び集落化サンプリングをシミュレーションする。ランダムな確認は、集団における各個人に、非復元で確認される等しい機会を与える。集落化サンプリングは、近親者に対して強化された手法であり、個人を、幾人かの彼らの第一度近親者及び第二度近親者とともにランダムに選択することによって行うことができる。第一度近親者の数は、ユーザによって指定された第一度の確認ラムダ(デフォルトは0.2)で分散されたポアソンからの値をサンプリングすることによって判定される。第二度近親者の数は同様に判定され、デフォルトの第二度の確認ラムダは0.03である。SimProgenyの確認オプションに関するさらなる情報については、実施例6を参照。
実施例5
基礎となるDiscovEHR集団及びその確認のシミュレーション
シミュレーションモデルを複雑にしすぎないように、シミュレーションは、開始サイズ200K、300K、400K、450K、500K、550K、600K及び1000Kの個人集団を含むものであった。SimProgenyのパラメータ(上記の表1を参照)は、公開されている国、州、及び国家レベルで調整された。ペンシルベニア(PA)からの移住率の平均は、GHSは主に田舎のエリアを供給し、それは、より都会のエリアよりも低い移住率を有する傾向があるので、低減された。シミュレーションは、120年のバーンイン期間をもって実行され、そして、101年間進められた。シミュレーションされた集団は、約15%成長しており、それは、20世紀半ばからのPAの成長に類似する。
ランダムな確認及び集落化確認の両方が行われた。両方の確認手法において、集団の最初の5%の確認順(ordered_sampling_proportionパラメータで指定される)は、コラボレーションの開始時、GHSバイオバンクにおける個人のランダムなシーケンシング順をモデリングするためにシャッフルされた。このパラメータの選択はランダムな確認に影響を及ぼさずかつ集落化確認における対関係の累積にほとんど影響を及ぼさないが、変曲点を生じさせることによって集落化サンプリングを用いて確認された、データセットにおける1人または複数の近親者を有する個人の割合には影響を及ぼす。それは、より高いラムダ値で表される。この変曲点は、実データのフリーズプロセスをモデリングすることによってまたはGHSバイオバンクからのシーケンシングサンプルと新しく確認された個人の間のより滑らかな移行をモデリングすることによって、より緩やかとなり得る。
実施例6
SimProgeny集団及び確認のシミュレーションプロセス
シミュレーションは、ユーザによって指定されたサブ集団の数及びサイズを初期化することによって開始した。年齢は、最初に、ゼロから最大妊孕性年齢(デフォルトは49歳)の間で割り当てられた。集団における個人は、3つの年齢ベースのプール:若年、妊孕性、または老年の1つに存在するものであった。個人は、彼らが妊孕性年齢(デフォルトは15歳)を下回る場合、サブ集団の若年プールに割り当てられ、または、妊孕性年齢範囲(デフォルトでは15〜49歳)内の場合、サブ集団の交配プールに割り当てられた。個人は、彼らが最小妊孕性年齢を超えたとき、若年プールから交配プールに移動された。同様に、彼らは、最大妊孕性年齢を超えたとき、交配プールから老年プールに移動された。個人は、彼らが移住して離れるまたは死去した場合、全年齢プールから削除された。初期集団を確立後、シミュレーションは、120年のバーンイン段階を行って、出生と死亡の等しい数及びゼロの純移住率を要しながら、入力パラメータにより近く合致する家族関係及び年齢分布を確立した。バーンイン後、シミュレーションは、与えられた集団成長及び移住率をもって、指定された年数の間実行された。シミュレーションは、1年単位で進んだ。各年は、別途記述がない限り、各サブ集団内で行われる以下のステップを有するものであった。
1.年齢‐年齢プールから外れる年齢になった個人を、次の年齢プールに移動させる。
2.交際‐ある未婚男性及びある未婚女性を一夫一婦の婚姻をするとしてシミュレーションする。このプロセスは、現実的な数の全血兄妹関係を得るのに重要である。男性と女性の対は、未婚の生殖可能年齢にある男性及び女性のプールからランダムに選ばれ、彼らの婚姻は、男性及び女性の「年齢別婚姻」パラメータによって指定された、彼らの年齢で婚姻する機会に基づいて、成功する。成功婚姻数が婚姻率によって定義される数に達するまで、対は引き出される。カップルは、いとこよりも遠い関係にあるように制限される。バーンイン段階中、婚姻率は、ユーザによって指定された初期婚姻率に達するまで(デフォルトは、婚姻予定の妊孕性プールのうち66%である)、2倍である。
3.別れ‐ある男性とある女性の婚姻の破綻を、指定された離婚率でシミュレーションする。カップルはランダムに選ばれ、両個人は未婚としてマークされる。
4.合体‐1年において集団内で発生し得る生殖の全てをシミュレーションする。父親/母親の対は、未婚の生殖可能年齢プールまたは既婚プールのいずれかから、全血兄妹率(デフォルトは、夫婦に対して全出生のうち88%)によって定義された比率で、ランダムに選ばれる。成功妊娠の標的数に達するまで(デフォルトの出生率は、一人当たり0.0219出生)、対は引き出され、かつ、生殖の試みがなされる。成功妊娠が起きる機会は、母親候補の年齢及び対応する妊孕率に基づく。両親は、いとこよりも遠い関係であるように制限され、全個人は、1年当たりに持つ子は1人であるように制限される。
5.除外‐個人の死去をシミュレーションする。死亡率(デフォルトは、一人当たり0.0095の死亡)を用いて、所与の年における集団内の予測される死亡数を判定する。年齢別の男性死亡率及び女性死亡率パラメータは、ランダムに選択された個人が死去する機会に重み付けするのに用いられる。0〜1の間のランダムな数が、個人の年齢におけるその人の死亡可能性を超える場合、個人は留保され、別の個人が選択される。不運な個人は、故人プールに追加され、任意の他の生存プールから削除される。120歳よりも年上の全個人は、自動的に逝去プールに追加され、その年の死亡の標的数に加算される。
6.移住‐集団へのかつ集団からの移住をシミュレーションする。移住して離れることは、集団から個人をランダムに選択し、個人を、既婚の場合、個人の配偶者とともに集団から削除することによって行われる。死去していく若年の個人及び老年の個人の割合は、妊孕性の年齢にある夫婦の数とともに記録される。移住して入ってくることは、年齢分布及び妊孕性の年齢にある夫婦の数を維持するように行われる。まず、若年が、既存の集団からランダムに選択され、同一の性別及び年齢の新しい個人が若年プールに追加され、このプロセスが、適切な割合の若年が追加され終わるまで繰り返される。移住ステップ中に人々が削除されるとき、削除された集団における若年の割合は記録された。削除されたのと同一の数の若年が、集団に追加されて戻された。例えば、100人(20人の若年を含む)が削除され、10人のみが追加された場合、それら10人のうち2人は若年となる。同一のプロセスが、老年の個人に対して繰り返される。次に、2人の妊孕性の年齢にある個人が既存の集団から選択され、対応する年齢の2人の新しい個人が追加される。1人は男性に割り当てられ、他方は女性に割り当てられ、2人の移住者は、その後結婚する。このステップは、夫婦の数が満たされるまで繰り返される。最後に、妊孕性の年齢にある個人が、新しい若年を追加するのに用いられるプロセスと同一のプロセスで追加され、移住者の標的数が達成されるまでそれは繰り返される。このプロセスは、集団の年齢及び性別分布ならびに既婚の妊孕性の年齢にある個人の割合を維持することを助ける。
7.移動‐人々がサブ集団内で移動することをシミュレーションする。サブ集団間の遺伝的隔離の欠如をシミュレーションするために、個人は、集団全体内でサブ集団間を移動することができる。単一の移動率が集団全体にわたって用いられる。個人が、サブ集団からランダムに選択され、所望の移動数が達成されるまで、他のサブ集団の1つにランダムに割り当てられる。このステップは、サブ集団が1つしか存在しない場合または移動率が0である場合(デフォルトは、各年、全体的な集団の移動の1%である)、発生しない。シミュレーションは、指定された時間の長さ進み、各始祖及びそれらの子孫の軌跡を保持する。
ランダムな確認及び集落化確認の両方が行われた。両方の確認手法において、集団の最初の5%の確認順(ordered_sampling_proportionパラメータで指定される)は、コラボレーションの開始時、GHSバイオバンクにおける個人のランダムなシーケンシング順をモデリングするために、シャッフルされた。このパラメータの選択はランダムな確認に影響を及ぼさずかつ集落化確認における対関係の累積にほとんど影響を及ぼさないが、変曲点を生じさせることによって集落化サンプリングを用いて確認された、データセットにおける1人または複数の近親者を有する個人の割合には影響を及ぼした。それは、より高いラムダ値で表された。この変曲点は、実データのフリーズプロセスをモデリングするのであればまたはバイオバンクからのシーケンシングサンプルと新しく確認された個人の間のより滑らかな移行をモデリングするのであれば、より緩やかとなり得た。例えば、ユーザは、次のセットのサブ集団に移動する前に1つまたは複数のサブ集団からの確認をシミュレーションしたい場合、サブ集団の確認順を指定し得た。デフォルトは、サブ集団全てを最初にグループ化し、それらから、それらをまるで単一の集団であるかのように確認をすることであった。ユーザはまた、他のサブ集団または全体的な集団に移動する前に確認された集団の初期割合を特定し得た。プログラムは、pedファイル形式での全体割合に対する出力、確認されたサンプルの、確認順でのリスト、並びに有用な集団及び確認統計を要約したいくつかの結果ファイルを成立させた。
そうした順シミュレーションフレームワーク(SimProgeny)は、GHS(上で例示したような)のようなヘルスケアシステムによって与えられた集団を含む広範な集団をシミュレーションするのに用いることができる。それはまた、HPG研究によって用いられるサンプル確認をシミュレーションすることもできる。確認されたデータセットにおける関連性の量を推し進めることができるいくつかの要因が存在する(図10)。
さらに、そうしたモデルは、ユーザによって指定された集団パラメータ(上記の表1を参照)に基づいて、1つまたは複数のサブ集団にわたって分散された何百万の人々の集団をシミュレーションすることができる。年々進みながら、シミュレーションは、指定されたパラメータに基づいて、カップリング、出生、離婚、移住、死亡及びサブ集団間の移動を生成する。このプロセスは、様々なHPG研究を表す現実の血統構造及び集団を生成する。デフォルト値は、シミュレーションされた集団がDiscovEHRコホート及び拡張DiscovEHRコホートをモデリングするように調整されているが、これらのパラメータは、異なる集団をモデリングするために、SimProgenyコードに包含される構成ファイルを修正することによって容易にカスタマイズすることができる。

Claims (42)

  1. ヒト集団における関連性を予測する方法であって、
    第1の集団データセットを確立することと、
    指定された年数、バーンイン段階を行って、前記第1の集団データセットから第2の集団データセットを確立することと、
    第2の集団データセットに対するシミュレーションを行うことであって、
    (a)前記第2の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
    (b)いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第2の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
    (c)夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第2の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
    (d)前記第2の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第2の集団データセットにおける全個人は、1年当たり持つ子どもは1人であるように制限される、前記選びかつ可能とすること、
    (e)前記第2の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
    (f)前記第2の集団データセットにかつ前記第2の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第2の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
    (g)前記第2の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
    (h)(a)〜(g)の1つまたは複数を、所定年数、1年間隔で反復的に繰り返すことであって、(a)〜(g)の1つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、のうち1つまたは複数を含む、
    前記第2の集団データセットに対するシ前記ミュレーションを行うことと
    を含む、前記方法。
  2. 遺伝分析のための前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに含む、請求項1に記載の方法。
  3. 前記遺伝分析が、血統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項2に記載の方法。
  4. 前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対して最終集団データセットを生成することを含み、
    遺伝分析のために前記複数のヒト集団の1つを前記最終集団データセットに基づいて選択することをさらに備える、請求項1に記載の方法。
  5. 前記第1の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項1に記載の方法。
  6. 前記第1の集団データセットを確立することが、さらに、前記第1の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項5に記載の方法。
  7. 妊孕性を有する前記最大年齢が49歳である、請求項5に記載の方法。
  8. 前記バーンイン段階を行うことが、さらに、前記第2の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項1〜7のいずれか1項に記載の方法。
  9. 前記バーンイン段階を行うことが、さらに、
    前記第2の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
    個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
    個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
    を備える、請求項8に記載の方法。
  10. 妊孕性を有する前記最小年齢が15歳であり、妊孕性を有する前記最大年齢が49歳である、請求項9に記載の方法。
  11. 個人の確認がランダムに行われる、請求項1〜10のいずれか1項に記載の前記予測モデルを用いる方法。
  12. 個人の確認が集落化されて行われる、請求項1〜10のいずれか1項に記載の前記予測モデルを用いる方法。
  13. 個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項11または12に記載の方法。
  14. 前記指定された年数が120年である、請求項1に記載の方法。
  15. ヒト集団における関連性を予測するシステムであって、
    データプロセッサ、前記データプロセッサに結合されたメモリ、及び前記メモリに格納されているプログラムを備え、
    前記プログラムは、前記データプロセッサによって実行されることが可能である命令を含み、
    前記プログラムは、
    第1の集団データセットを確立することと、
    指定された年数、バーンイン段階を行って、前記第1の集団データセットから第2の集団データセットを確立することと、
    第2の集団データセットに対するシミュレーションを行うことであって、
    (a)前記第2の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
    (b)いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第2の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
    (c)夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第2の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
    (d)前記第2の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第2の集団データセットにおける全個人は、1年当たり持つ子どもは1人であるように制限される、前記選びかつ可能とすること、
    (e)前記第2の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
    (f)前記第2の集団データセットにかつ前記第2の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第2の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
    (g)前記第2の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
    (h)(a)〜(g)の1つまたは複数を、所定年数、1年間隔で反復的に繰り返すことであって、(a)〜(g)の1つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、の1つまたは複数を含む、
    前記第2の集団データセットに対する前記シミュレーションを行うことと、
    を行う、前記システム。
  16. 遺伝分析のために前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに備える、請求項15に記載のシステム。
  17. 前記遺伝分析が、系統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項16に記載のシステム。
  18. 前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対する最終集団データセットを生成することを含み、
    遺伝子分析のために前記複数のヒト集団の1つを、前記最終集団データセットに基づいて選択することをさらに備える、請求項15に記載のシステム。
  19. 前記第1の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項15に記載のシステム。
  20. 前記第1の集団データセットを確立することが、さらに、前記第1の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項19に記載のシステム。
  21. 妊孕性を有する前記最大年齢が49歳である、請求項19に記載のシステム。
  22. 前記バーンイン段階を行うことが、さらに、前記第2の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項15〜21のいずれか1項に記載のシステム。
  23. 前記バーンイン段階を行うことが、さらに、
    前記第2の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
    個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
    個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
    を備える、請求項22に記載のシステム。
  24. 妊孕性を有する前記最小年齢が15歳であり、妊孕性を有する前記最大年齢が49歳である、請求項23に記載のシステム。
  25. 個人の確認がランダムに行われる、請求項15〜24のいずれか1項に記載の前記予測モデルを用いるシステム。
  26. 個人の確認が集落化されて行われる、請求項15〜24のいずれか1項に記載の前記予測モデルを用いるシステム。
  27. 個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項25または26に記載のシステム。
  28. 前記指定された年数が120年である、請求項15に記載のシステム。
  29. ヒト集団における関連性を判定する非一時的なコンピュータによって実装される方法であって、
    第1の集団データセットを確立するためにデータプロセッサを用いることと、
    指定された年数、バーンイン段階を行って、前記第1の集団データセットから第2の集団データセットを確立するために前記データプロセッサを用いることと、
    前記第2の集団データセットに対するシミュレーションを行うために前記データプロセッサを用いることであって、
    (a)前記第2の集団データセットにおける個人を、前記個人の年齢にしたがって年齢プールに移動させること、
    (b)いとこよりも遠い関係にある未婚男性と未婚女性の対を、前記第2の集団データセットにおける未婚男性及び未婚女性からランダムに選び、彼らを、年齢パラメータによる指定された婚姻率で婚姻させることであって、対は、婚姻数が婚姻率パラメータによって指定される数に達するまで選ばれる、前記婚姻させること、
    (c)夫婦を、指定された離婚率で離婚させることであって、夫婦は、前記第2の集団データセットからランダムに選ばれ、離婚すると未婚としてマークされる、前記離婚させること、
    (d)前記第2の集団データセットから未婚男性と未婚女性の対または夫婦を、指定された率でランダムに選び、彼らが、成功妊娠の標的数に達するまで、指定された出生率にしたがって生殖することを可能とすることであって、両親は、いとこよりも遠い関係にあるように制限され、前記第2の集団データセットにおける全個人は、1年当たり持つ子どもは1人であるように制限される、前記選びかつ可能とすること、
    (e)前記第2の集団データセットにおける個人が、指定された死亡率でかつ年齢パラメータ別の指定された死亡率で死去することを可能とすること、
    (f)前記第2の集団データセットにかつ前記第2の集団データセットから、個人が移住することを可能とすることであって、前記集団の年齢及び性別の分布ならびに前記第2の集団データセットにおける既婚で妊孕性の年齢にある個人の割合が維持される、前記可能とすること、
    (g)前記第2の集団データセット内で個人が移動することを可能とすることであって、サブ集団からの個人がランダムに選択され、かつ、存在する場合には別のサブ集団に、サブ集団間の指定された移動率が達成されるまで、ランダムに割り当てられる、前記可能とすること、
    (h)(a)〜(g)の1つまたは複数を、所定年数、1年間隔で反復的に繰り返すことであって、(a)〜(g)の1つまたは複数は、以前の反復によってもたらされた前記集団データセットに適用されて、最終集団データセットを生成して前記ヒト集団における関連性を予測する、前記繰り返すこと、のうち1つまたは複数を含む、
    前記第2の集団データセットに対するシミュレーションを行うために前記データプロセッサを用いることと
    を含む、前記方法。
  30. 遺伝分析のために前記ヒト集団を、前記最終集団データセットに基づいて選択することをさらに含む、請求項29に記載の非一時的なコンピュータによって実装される方法。
  31. 前記遺伝分析が、系統再建、複合へテロ接合変異のフェージング、またはデノボ変異の検出を含む、請求項30に記載のシステム。
  32. 前記ヒト集団が、複数のヒト集団を含み、前記最終集団データセットを生成することが、前記複数のヒト集団の各々に対する最終集団データセットを生成することを含み、
    遺伝分析のために前記複数のヒト集団の1つを、前記最終集団データセットに基づいて選択することをさらに備える、請求項29に記載の非一時的なコンピュータによって実装される方法。
  33. 前記第1の集団データセットを確立することが、さらに、サブ集団の数及びサイズを指定することを備える、請求項29に記載の非一時的なコンピュータによって実装される方法。
  34. 前記第1の集団データセットを確立することが、さらに、前記第1の集団データセットにおける個人に、ゼロから妊孕性を有する最大年齢の間の年齢を割り当てることを備える、請求項33に記載の非一時的なコンピュータによって実装される方法。
  35. 妊孕性を有する前記最大年齢が49歳である、請求項34に記載の非一時的なコンピュータによって実装される方法。
  36. 前記バーンイン段階を行うことが、さらに、前記第2の集団データセットにおける個人の出生と死亡の数を等しくかつ個人の純移住率をゼロに保つことを備える、請求項29〜35のいずれか1項に記載の非一時的なコンピュータによって実装される方法。
  37. 前記バーンイン段階を行うことが、さらに、
    前記第2の集団データセットにおける個人を、妊孕性を有する最小年齢を超えたとき、若年プールから交配プールに移動させること、
    個人を、妊孕性を有する最大年齢を超えたとき、前記交配プールから老年プールに移動させること、
    個人が移住するまたは死去した場合、前記個人を全年齢プールから削除すること
    を備える、請求項36に記載の非一時的なコンピュータによって実装される方法。
  38. 妊孕性を有する前記最小年齢が15歳であり、妊孕性を有する前記最大年齢が49歳である、請求項37に記載の非一時的なコンピュータによって実装される方法。
  39. 個人の確認がランダムに行われる、請求項29〜38のいずれか1項に記載の非一時的なコンピュータによって実装される方法。
  40. 個人の確認が集落化されて行われる、請求項29〜38のいずれか1項に記載の非一時的なコンピュータによって実装される方法。
  41. 個人の確認が、さらに、確認された個人における第一度関係または第二度関係、あるいは両方を含む確認された個人に関する関連性データ及び関連統計を集めることを含む、請求項39または40に記載の非一時的なコンピュータによって実装される方法。
  42. 前記指定された年数が120年である、請求項29に記載の非一時的なコンピュータによって実装される方法。
JP2020513751A 2017-09-07 2018-09-07 ヒト集団における関連性を予測するシステム及び方法 Pending JP2020533679A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762555597P 2017-09-07 2017-09-07
US62/555,597 2017-09-07
PCT/US2018/049960 WO2019051233A1 (en) 2017-09-07 2018-09-07 SYSTEM AND METHOD FOR PREDICTING PARENTALITY IN A HUMAN POPULATION

Publications (2)

Publication Number Publication Date
JP2020533679A true JP2020533679A (ja) 2020-11-19
JP2020533679A5 JP2020533679A5 (ja) 2021-10-07

Family

ID=63684599

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020513709A Active JP7277438B2 (ja) 2017-09-07 2018-09-07 ゲノムデータ解析に近縁性を活用するシステム及び方法
JP2020513751A Pending JP2020533679A (ja) 2017-09-07 2018-09-07 ヒト集団における関連性を予測するシステム及び方法
JP2023076708A Pending JP2023103325A (ja) 2017-09-07 2023-05-08 ゲノムデータ解析に近縁性を活用するシステム及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020513709A Active JP7277438B2 (ja) 2017-09-07 2018-09-07 ゲノムデータ解析に近縁性を活用するシステム及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023076708A Pending JP2023103325A (ja) 2017-09-07 2023-05-08 ゲノムデータ解析に近縁性を活用するシステム及び方法

Country Status (11)

Country Link
US (3) US11605444B2 (ja)
EP (2) EP3679576A1 (ja)
JP (3) JP7277438B2 (ja)
KR (3) KR20200050992A (ja)
CN (3) CN111279420B (ja)
AU (3) AU2018327331A1 (ja)
CA (2) CA3075266A1 (ja)
IL (2) IL272927A (ja)
MX (2) MX2020002665A (ja)
SG (2) SG11202001747XA (ja)
WO (2) WO2019051233A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3207481B1 (en) * 2014-10-14 2019-12-04 Ancestry.com DNA, LLC Reducing error in predicted genetic relationships
WO2020051445A1 (en) 2018-09-07 2020-03-12 Regeneron Pharmaceuticals, Inc. Methods and systems for pedigree enrichment and family-based analyses within pedigrees
CN110060737B (zh) * 2019-04-30 2023-04-18 上海诚明融鑫科技有限公司 一种基于最大频率虚拟个体的str快速比对方法及系统
CN110974203B (zh) * 2019-12-10 2020-12-04 电子科技大学 一种基于等值排列网络的心率非平衡性分析方法
CN111883207B (zh) * 2020-07-31 2022-08-16 武汉蓝沙医学检验实验室有限公司 一种生物学亲缘关系的鉴定方法
WO2022087839A1 (zh) * 2020-10-27 2022-05-05 深圳华大基因股份有限公司 基于无创产前基因检测数据的亲缘关系判定方法和装置
CA3193770A1 (en) 2020-11-19 2022-05-27 Regeneron Pharmaceuticals, Inc. Genotyping by sequencing
CN112863601B (zh) * 2021-01-15 2023-03-10 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN113380328B (zh) * 2021-04-23 2023-06-20 中国人民大学 一种基于mRNA碱基的生物亲缘识别方法和系统
WO2022236221A1 (en) * 2021-05-05 2022-11-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
CN115101130A (zh) * 2022-06-30 2022-09-23 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003070500A (ja) * 2001-08-31 2003-03-11 Hitachi Ltd 遺伝子探索計画方法及びシステム
JP2008116271A (ja) * 2006-11-02 2008-05-22 A & D Co Ltd エンジン計測装置
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
JP2015092334A (ja) * 2013-09-30 2015-05-14 学校法人近畿大学 家系図作成支援装置及びコンピュータプログラム
US20150207690A1 (en) * 2005-02-26 2015-07-23 Coco Communications Corp. Naming system layer
US20150235129A1 (en) * 2014-02-18 2015-08-20 Marineh Tchakerian Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships
US20160042282A1 (en) * 2014-08-11 2016-02-11 Rashied Baradaran Amini Relationship evaluator
JP2016521984A (ja) * 2013-06-14 2016-07-28 キージーン ナムローゼ フェンノートシャップ 表現形質改善のための制御された戦略
JP2017510250A (ja) * 2014-01-27 2017-04-13 セルマティックス, インコーポレイテッド 遺伝的領域が、不妊に関連するか評価するための方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080055049A1 (en) * 2006-07-28 2008-03-06 Weill Lawrence R Searching methods
US20090177496A1 (en) * 2005-09-28 2009-07-09 Tuck Edward F Relationship prediction system
WO2007061881A2 (en) * 2005-11-17 2007-05-31 Motif Biosciences, Inc. Systems and methods for the biometric analysis of index founder populations
US20150370959A9 (en) * 2011-04-13 2015-12-24 The Board Of Trustees Of The Leland Stanford Junior University Phased Whole Genome Genetic Risk In A Family Quartet
EP3514798A1 (en) 2011-10-31 2019-07-24 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20130218474A1 (en) * 2012-01-26 2013-08-22 Nodality, Inc. Benchmarks for Normal Cell Identification
US9177098B2 (en) * 2012-10-17 2015-11-03 Celmatix Inc. Systems and methods for determining the probability of a pregnancy at a selected point in time
ES2721051T3 (es) * 2013-06-21 2019-07-26 Sequenom Inc Método para la evaluación no invasiva de variaciones genéticas
CA2962006A1 (en) * 2013-09-26 2015-04-02 Univfy Inc. System and method of using personalized outcome probabilities to support the consumer in comparing costs and efficacy of medical treatments and matching medical provider with consumer
US10468121B2 (en) 2013-10-01 2019-11-05 Complete Genomics, Inc. Phasing and linking processes to identify variations in a genome
US20150112706A1 (en) * 2013-10-17 2015-04-23 Ovuline, Inc. System and Methods for Personal health Analytics Technical Field
JP2017500004A (ja) * 2013-10-18 2017-01-05 セブン ブリッジズ ジェノミクス インコーポレイテッド 遺伝子試料について遺伝子型解析するための方法およびシステム
US9670530B2 (en) 2014-01-30 2017-06-06 Illumina, Inc. Haplotype resolved genome sequencing
WO2016049878A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因科技有限公司 一种基于snp分型的亲子鉴定方法及应用
MX2017006028A (es) * 2014-11-06 2018-01-23 Ancestryhealth Com Llc Prediccion de resultados de salud.
CN106169034B (zh) * 2016-05-26 2019-03-26 中国农业科学院作物科学研究所 基因组信息辅助育种方法i-基于snp聚类信息和pav变异信息的育种亲本选择

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003070500A (ja) * 2001-08-31 2003-03-11 Hitachi Ltd 遺伝子探索計画方法及びシステム
US20150207690A1 (en) * 2005-02-26 2015-07-23 Coco Communications Corp. Naming system layer
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
JP2008116271A (ja) * 2006-11-02 2008-05-22 A & D Co Ltd エンジン計測装置
US20140222349A1 (en) * 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
JP2016521984A (ja) * 2013-06-14 2016-07-28 キージーン ナムローゼ フェンノートシャップ 表現形質改善のための制御された戦略
JP2015092334A (ja) * 2013-09-30 2015-05-14 学校法人近畿大学 家系図作成支援装置及びコンピュータプログラム
JP2017510250A (ja) * 2014-01-27 2017-04-13 セルマティックス, インコーポレイテッド 遺伝的領域が、不妊に関連するか評価するための方法
US20150235129A1 (en) * 2014-02-18 2015-08-20 Marineh Tchakerian Systems, methods and non-transitory computer readable storage media for tracking and evaluating predictions regarding relationships
US20160042282A1 (en) * 2014-08-11 2016-02-11 Rashied Baradaran Amini Relationship evaluator

Also Published As

Publication number Publication date
JP2020532989A (ja) 2020-11-19
CN117746978A (zh) 2024-03-22
WO2019051233A1 (en) 2019-03-14
MX2020002664A (es) 2020-09-25
CN111279420B (zh) 2024-01-16
KR20240038142A (ko) 2024-03-22
SG11202001747XA (en) 2020-03-30
KR102648634B1 (ko) 2024-03-19
KR20200050992A (ko) 2020-05-12
US20190205502A1 (en) 2019-07-04
JP7277438B2 (ja) 2023-05-19
MX2020002665A (es) 2020-10-05
JP2023103325A (ja) 2023-07-26
CN111279420A (zh) 2020-06-12
SG11202001715YA (en) 2020-03-30
AU2023282218A1 (en) 2024-01-04
US20220336045A1 (en) 2022-10-20
US11605444B2 (en) 2023-03-14
KR20200065000A (ko) 2020-06-08
CN111247599A (zh) 2020-06-05
CA3075182A1 (en) 2019-03-14
WO2019051238A1 (en) 2019-03-14
US20190074092A1 (en) 2019-03-07
EP3679576A1 (en) 2020-07-15
AU2018327331A1 (en) 2020-03-12
IL272927A (en) 2020-04-30
EP3679575A1 (en) 2020-07-15
CA3075266A1 (en) 2019-03-14
AU2018327326A1 (en) 2020-03-19
IL272963A (en) 2020-04-30

Similar Documents

Publication Publication Date Title
JP2020533679A (ja) ヒト集団における関連性を予測するシステム及び方法
JP7451587B2 (ja) 二次および/または三次処理を実行するためのバイオインフォマティクスシステム、装置、および方法
Gurdasani et al. Uganda genome resource enables insights into population history and genomic discovery in Africa
US20210257052A1 (en) Bioinformatics Systems, Apparatuses, and Methods for Performing Secondary and/or Tertiary Processing
Van der Loos et al. The molecular genetic architecture of self-employment
JP2021525927A (ja) スパースベクトルベースのマトリクス変換のための方法およびシステム
US11640859B2 (en) Data based cancer research and treatment systems and methods
Tallman et al. Whole-genome sequencing of Bantu-speakers from Angola and Mozambique reveals complex dispersal patterns and interactions throughout sub-Saharan Africa
US20230245788A1 (en) Data based cancer research and treatment systems and methods
RU2799750C9 (ru) Биоинформационные системы, устройства и способы для выполнения вторичной и/или третичной обработки
Liu Curating and combining big data from genetic studies
NZ789149A (en) Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
NZ789137A (en) Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
Kalita This volume contains the papers accepted for oral presentation at%, 27, The 1st Symposium on Bioinformatics and Biotechnology: A Community and Academic Forum held on the 24th of September in Colorado Springs, Colorado.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230606