JP2022549737A - In vitro受精に関する多遺伝子リスクスコア - Google Patents
In vitro受精に関する多遺伝子リスクスコア Download PDFInfo
- Publication number
- JP2022549737A JP2022549737A JP2022519991A JP2022519991A JP2022549737A JP 2022549737 A JP2022549737 A JP 2022549737A JP 2022519991 A JP2022519991 A JP 2022519991A JP 2022519991 A JP2022519991 A JP 2022519991A JP 2022549737 A JP2022549737 A JP 2022549737A
- Authority
- JP
- Japan
- Prior art keywords
- disease
- risk
- embryo
- genome
- maternal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Ecology (AREA)
- Data Mining & Analysis (AREA)
- Physiology (AREA)
- Biomedical Technology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
胚に関連する疾患リスクを決定するための方法であって、(i)胚における1つ以上の遺伝的バリアント、(ii)父方ハプロタイプ、(iii)母方ハプロタイプ、(iv)父方ハプロタイプの伝播確率、および(v)母方ハプロタイプの伝播確率に基づいて胚のゲノムを構築することと;胚の構築されたゲノムに基づいて、多遺伝子リスクスコアを胚に割り当てることと;多遺伝子リスクスコアに基づいて、胚に関連する疾患リスクを決定することと;父方ゲノムおよび/または母方ゲノムから胚への、疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播を決定することと;を含む方法が提供される。また、母親と将来の精子提供者との将来の複数の子供の疾患のリスクの範囲を決定する方法も提供される。また、個人における疾患のリスクを決定する方法も提供される。【選択図】図1
Description
関連出願との相互参照
本出願は、2019年9月30日に出願された米国仮出願第62/908,374号、および2020年8月6日に出願された米国仮出願第63/062,044号の利益を主張し、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
技術分野
本出願は、2019年9月30日に出願された米国仮出願第62/908,374号、および2020年8月6日に出願された米国仮出願第63/062,044号の利益を主張し、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
技術分野
疾患のリスクを決定する方法について記載する。
現在、IVF診療機関では、家族内で発生することが知られている異数性および単一遺伝子性障害について検査を行っている。しかし、2組に1組のカップルは、遺伝的、環境的、ライフスタイルのリスク因子の組み合わせによって影響を受ける一般的な疾患の家族歴を有する。さらに、現在、精子提供者診療機関は、単一遺伝子性障害によって引き起こされる疾患のサブセットを発症する傾向について検査を行っている。当技術分野では、個人および将来の予想される子供における遺伝性疾患のリスクを予測する能力を改善する必要がある。
胚に関連する疾患リスクを決定するための方法が提供され、本方法は、父方対象に関連するゲノムを特定するために、父方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと;母方対象に関連するゲノムを特定するために、母方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと;父方ハプロタイプを特定するために、父方対象に関連するゲノムのフェージングを行うことと;母方ハプロタイプを特定するために、母方対象に関連するゲノムのフェージングを行うことと;胚における1つ以上の遺伝的バリアントを特定するために、胚に対してスパース遺伝子型決定(sparse genotyping)を実施することと;(i)胚における1つ以上の遺伝的バリアント、(ii)父方ハプロタイプ、(iii)母方ハプロタイプ、(iv)父方ハプロタイプの伝播確率、および(v)母方ハプロタイプの伝播確率に基づいて胚のゲノムを構築することと;胚の構築されたゲノムに基づいて、多遺伝子リスクスコアを胚に割り当てることと;多遺伝子リスクスコアに基づいて、胚に関連する疾患リスクを決定することと;父方ゲノムおよび/または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播を決定することと;多遺伝子性疾患リスク、ならびに父方ゲノムおよび/または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播に基づいて、胚に関連する複合疾患リスクを決定することと、を含む。
胚に関連する疾患リスクスコアを出力するための方法も提供され、本方法は、父方ゲノムデータおよび母方ゲノムデータを含む第1のデータセットを受信することと;リファレンスゲノムに対して配列リードをアラインし、父方ゲノムデータおよび母方ゲノムデータを使用して、ゲノムの遺伝子型を決定することと;父方スパースゲノムデータおよび母方スパースゲノムデータを含む第2のデータセットを受信することと;父方ハプロタイプおよび母方ハプロタイプを特定するために、父方のゲノムデータおよび母方のゲノムデータのフェージングを行うことと;胚のスパースゲノムデータ、父方伝播確率および母方伝播確率を含む第3のデータセットを受信することと;胚再構築アルゴリズムを(i)父方ハプロタイプおよび母方ハプロタイプ、(ii)胚のスパースゲノムデータ、ならびに(iii)父方ハプロタイプおよび母方ハプロタイプのそれぞれの伝播確率に適用して、胚の構築されたゲノムを決定することと;胚の構築されたゲノムに、多遺伝子モデルを適用することと;胚に関連する疾患リスクを出力することと;父方ゲノムおよび/または母方ゲノムから胚への、疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播を決定することと;胚において疾患を引き起こすバリアントおよび/またはハプロタイプの有無を出力することと、を含む。いくつかの方法は、多遺伝子性疾患リスク、ならびに父方ゲノムおよび/または母方ゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播に基づいて、胚に関連する複合疾患リスクを出力することをさらに含む。
いくつかの態様では、本方法は、祖父方ゲノムデータおよび/または祖母方ゲノムデータを使用して、父方ハプロタイプおよび/または母方ハプロタイプを決定することをさらに含む。いくつかの態様では、本方法は、集団の遺伝子型データおよび/または集団の対立遺伝子頻度を使用して、胚の疾患リスクを決定することをさらに含む。いくつかの態様では、方法は、疾患の家族歴および/または他のリスク因子を使用して、疾患リスクを予測することをさらに含む。
いくつかの態様では、全ゲノム配列決定は、標準的な、PCRフリーの、リンクドリード(すなわち、合成ロングリード)、またはロングリードプロトコルを使用して実施される。いくつかの態様では、スパース遺伝子型決定は、マイクロアレイ技術、胚生検の次世代配列決定技術、または細胞培養培地の配列決定を使用して実施される。いくつかの態様では、フェージングは、集団ベースおよび/または分子ベースの方法(例えば、リンクドリード)を使用して実施される。いくつかの態様では、多遺伝子リスクスコアは、疾患モデルにおいて部位全体にわたる影響を合計することによって決定される。
いくつかの態様では、集団の遺伝子型データは、UK Biobankにおける少なくとも約300,000人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む。いくつかの態様では、集団の表現型データは、UK Biobankにおける少なくとも約300,000人の無関係な個人についての自己報告および臨床報告された(例えば、ICD-10コード)表現型の両方を含む。いくつかの態様では、集団の遺伝子型データは、UK Biobankにおける少なくとも約300,000人の無関係な個人の自己報告データ、およびUK Biobankにおけるそれらの個人の親族から得られた情報を含む集団の家族歴データを含む。いくつかの態様では、疾患リスクは、罹患した個人によって共有される遺伝情報の割合によってさらに決定される。
また、1人以上の将来の子供の疾患リスクを決定するための方法も提供され、本方法は、(i)予想される母親と1人以上の将来の精子提供者、または(ii)予想される父親と1人以上の将来の卵子提供者に対して全ゲノム配列決定を実施することと;(i)予想される母親と1人以上の将来の精子提供者、または(ii)予想される父親と1人以上の将来の卵子提供者のゲノムのフェージングを行うことと;組換え率の推定に基づいて配偶子をシミュレートすることと;シミュレートされた配偶子を組み合わせて、1人以上の将来の子供のゲノムを生成することと;多遺伝子リスクスコアを割り当てることと;多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することと、を含む。
将来の子供の疾患リスクの確率分布を出力するための方法も提供され、本方法は、予想される母親由来のゲノムデータを含む第1のデータセットを受信することと;1人以上の予想される精子提供者からのゲノムデータを含む1つ以上のデータセットを受信することと;(例えば、HapMapコンソーシアムから得られる)推定された組換え率を使用して、配偶子をシミュレートすることと;配偶子の将来の組み合わせを使用して、1人以上の将来の子供のゲノムを生成することと;1人以上の将来の子供のそれぞれのゲノムの多遺伝子リスクスコアを推定することと;多遺伝子リスクスコアに基づいて、疾患確率の分布を出力することと、を含む。
また、(i)予想される母親および将来の精子提供者、または(ii)予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を決定するための方法も提供され、本方法は、(a)(i)母方の遺伝子型と1人以上の精子提供者(複数可)の遺伝子型を得るために、予想される母親と1人以上の将来の精子提供者(複数可)に対して、または(ii)父方の遺伝子型と1人以上の卵子提供者(複数可)の遺伝子型を得るために、予想される父親と1人以上の将来の卵子提供者(複数可)に対して、全ゲノム配列決定を実施することと;(b)(i)母方の遺伝子型と将来の精子提供者の遺伝子型(複数可)、または(ii)予想される父方の遺伝子型と将来の卵子提供者の遺伝子型(複数可)を使用して、1人以上の将来の子供の可能性のある遺伝子型を推定することと;(c)将来の子供の可能性のある遺伝子型を使用して、将来の子供の可能性のある最も低い多遺伝子リスクスコアを推定することと;(d)将来の子供の可能性のある遺伝子型を使用して、将来の子供の可能性のある最も高い多遺伝子リスクスコアを推定することと、を含む。
また、(i)予想される母親および将来の精子提供者、または(ii)予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を出力するための方法も提供され、本方法は、(a)予想される母親のゲノムデータまたは予想される父親のゲノムデータを含む第1のデータセットを受信することと;(b)1人以上の予想される精子提供者または1人以上の予想される卵子提供者からのゲノムデータを含む1つ以上のデータセットを受信することと;(c)(i)予想される母親と将来の精子提供者(複数可)、または(ii)予想される父親と将来の卵子提供者(複数可)の遺伝子型を使用して、将来の子供の可能性のある遺伝子型を導出することと;(d)スコアを最小化するモデルにおいて、各部位で、遺伝子型((c)で導出されたものの)を選択することにより、将来の子供の最低の多遺伝子リスクスコアを推定することと;(e)スコアを最大化するモデルにおいて、各部位で、遺伝子型((c)で導出されたものの)を選択することにより、将来の子供の最高の多遺伝子リスクスコアを推定することと;(f)(d)および(e)で算出された最低スコアおよび最高スコアを使用して、疾患のリスクの範囲を出力することと、を含む。
いくつかの態様では、本方法は、精子提供者(複数可)に関して高密度の遺伝子型決定アレイを使用し、その後、直接遺伝子型決定されていない目的の部位に遺伝子型の補完を行う。いくつかの態様では、方法は、疾患の家族歴および他の関連するリスク因子を使用して、疾患リスクを決定する。
いくつかの態様では、全ゲノム配列決定は、標準的な、PCRフリーの、リンクドリード(すなわち、合成ロングリード)、またはロングリードプロトコルを使用して実施される。いくつかの態様では、フェージングは、集団ベースおよび/または分子ベースの方法(例えば、リンクドリード)を使用して実施される。いくつかの態様では、多遺伝子リスクスコアは、疾患モデルにおけるすべての部位全体にわたる影響を合計することによって決定される。
いくつかの態様では、集団の遺伝子型データは、UK Biobankにおける少なくとも約300,000人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む。いくつかの態様では、集団の表現型データは、UK Biobankにおける少なくとも約300,000人の無関係な個人についての自己報告および臨床報告された(例えば、ICD-10コード)表現型の両方を含む。いくつかの態様では、集団の家族歴は、UK Biobankの少なくとも約300,000人の無関係な個人の自己報告データと、UKバイオバンクのそれらの個人の親族から得られた情報を含む。
他に定義されない限り、本明細書で使用されるすべての技術用語および科学的用語は、本発明が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。以下の説明および実施例で参照されている材料は、特に明記されていない限り、販売元から入手可能である。
本明細書で使用される場合、単数形「a」、「an」、および「the」は、単数形のみを指定するように明示的に述べられていない限り、単数形および複数形の両方を示す。
「約」という用語は、理解される数が、本明細書に記載されるまさにその数に限定されないことを意味し、本発明の範囲から逸脱することなく、引用された数の実質的に周囲の数を指すことを意図する。本明細書で使用される場合、「約」は、当業者によって理解され、それが使用される文脈によってある程度変化するであろう。使用される文脈を考えたときに、当業者にとって明らかでない用語の使用がある場合、「約」は、特定の用語の最大±10%を意味する。
「遺伝子」という用語は、ポリペプチドをコードする、または生物において機能的な役割を果たす一連のDNAまたはRNAに関する。遺伝子は、野生型遺伝子、または野生型遺伝子のバリアントまたは突然変異であり得る。「目的の遺伝子」とは、特定の表現型、または特定の表現型のリスクに関連することが公知であってもなくてもよい遺伝子または遺伝子のバリアントを指す。
「発現」は、ポリヌクレオチドがDNA鋳型から(例えば、mRNAまたは他のRNA転写物に)転写されるプロセス、および/または転写されたmRNAがその後ペプチド、ポリペプチド、もしくはタンパク質に翻訳されるプロセスを指す。遺伝子の発現は、細胞の遺伝子発現のみでなく、クローニングシステムおよび他の任意の文脈における核酸(複数可)の転写および翻訳も包含する。核酸配列が、ペプチド、ポリペプチド、またはタンパク質をコードする場合、遺伝子発現は、核酸(例えば、mRNAなどのDNAまたはRNA)および/またはペプチド、ポリペプチド、もしくはタンパク質の産生に関連する。したがって、「発現レベル」は、サンプル中の核酸(例えば、mRNA)またはタンパク質の量を指すことができる。
「ハプロタイプ」とは、単一の祖先(父、母、祖父、祖母など)から一緒に受け継がれる、または一緒に受け継がれることが期待される遺伝子または対立遺伝子のグループを指す。「祖先」という用語は、対象がそこから伝わる人、または胚の場合は、将来の対象がそこから伝わる胚を指す。好ましい態様では、祖先は、ヒト対象などの哺乳動物対象を指す。
疾患および方法
遺伝学によって全体的または部分的に引き起こされた疾患、または疾患を有するかもしくは疾患を受け継ぐリスクを特定する方法が提供される。遺伝性障害は、1つの遺伝子の突然変異(単一遺伝子性障害)、複数の遺伝子の突然変異(多遺伝子性障害)、遺伝子突然変異と環境因子との組み合わせ(多因子性障害)、または染色体異常(染色体全体の数または構造の変化、遺伝子を保有する構造)によって引き起こされ得る。いくつかの態様では、疾患は、多遺伝子性障害、多因子性状態、またはまれな単一遺伝子性障害(例えば、家族において以前に特定されていない障害)である。
遺伝学によって全体的または部分的に引き起こされた疾患、または疾患を有するかもしくは疾患を受け継ぐリスクを特定する方法が提供される。遺伝性障害は、1つの遺伝子の突然変異(単一遺伝子性障害)、複数の遺伝子の突然変異(多遺伝子性障害)、遺伝子突然変異と環境因子との組み合わせ(多因子性障害)、または染色体異常(染色体全体の数または構造の変化、遺伝子を保有する構造)によって引き起こされ得る。いくつかの態様では、疾患は、多遺伝子性障害、多因子性状態、またはまれな単一遺伝子性障害(例えば、家族において以前に特定されていない障害)である。
いくつかの態様は、胚が遺伝性障害を保有しているかを決定することを含む。いくつかの態様は、胚が遺伝性障害を有する、または有する可能性がある対象に発達するか否かを決定することを含む。いくつかの態様は、胚が遺伝性障害に関連する1つ以上の表現型を有する、または有する可能性がある対象に発達するか否かを決定することを含む。
いくつかの態様は、胚の遺伝的構成に基づいて胚を選択することを含む。例えば、いくつかの態様は、遺伝性障害を保有しているリスクが低い胚を選択することを含む。いくつかの態様は、胚が子供または大人に成長した場合、遺伝性疾患を有するリスクが低い胚を選択することを含む。いくつかの態様は、選択された胚を対象の子宮に移植することを含む。そのような方法は、例えば、Balabanら、「Laboratory Procedures for Human In Vitro Fertilization」、Semin.Reprod.Med.,32(4):272-82(2014年)により詳細に記載され、これは、その全体が参照により本明細書に組み込まれる。
いくつかの態様は、1人以上の精子提供者を使用して形成された胚に関連する疾患リスクを評価することを含む。いくつかの態様は、疾患のリスクに基づいて精子提供者を選択することを含む。いくつかの態様は、選択された精子を用いてin vitroで卵子を受精させることを含む。
いくつかの態様は、例えば、多遺伝子またはまれな単一遺伝的バリアントの有無に基づいて、個人の健康報告を決定することを含む。いくつかの態様は、例えば、多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することを含む。
スクリーニングできる疾患は、限定されていない。いくつかの態様では、疾患は、自己免疫状態である。いくつかの態様では、疾患は、特定のHLA型に関連している。いくつかの態様では、疾患は、がんである。例示的な状態としては、冠動脈疾患、心房細動、II型糖尿病、乳がん、加齢黄斑変性症、乾癬、大腸がん、深部静脈血栓症、パーキンソン病、緑内障、関節リウマチ、セリアック病、白斑、潰瘍性大腸炎、クローン病、狼瘡、慢性リンパ性白血病、I型糖尿病、統合失調症、多発性硬化症、家族性高コレステロール血症、甲状腺機能亢進症、甲状腺機能低下症、黒色腫、子宮頸がん、うつ病、および片頭痛が挙げられる。いくつかの例示的な疾患は、単一遺伝子性障害(例えば、鎌状赤血球症、嚢胞性線維症)、染色体コピー数の障害(例えば、ターナー症候群、ダウン症候群)、リピート伸長障害(例えば、脆弱性X症候群)、またはより複雑な多遺伝子性障害(例えば、I型糖尿病、統合失調症、パーキンソン病など)を含む。他の例示的な疾患は、Physicians’Desk Reference(PRD Network 71st ed.2016年);およびThe Merck Manual of Diagnosis and Therapy(Merck第20版、2018年)に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。遺伝形質が定義上複雑である疾患は、疾患リスクの一因となる複数の遺伝子座を有する。これらの状況では、多遺伝子リスクスコアを計算し、これを使用して、胚を高リスクおよび低リスクのカテゴリに階層化することができる。
胚ゲノムの構築
胚ゲノムの構築に関連する新規の独創的方法が提供される。いくつかの態様では、構築は、染色体長の親のハプロタイプならびに親および胚のスパース遺伝子型決定を使用して(例えば、SNPアレイまたは低カバレッジDNA配列決定を使用して)、胚における全ゲノム予測を可能にする。このようなハイブリッドアプローチでは、分子法(例えば、Long Fragment Read technology,10X Chromium technology,Minion system)を使用して、親および可能であれば他の親族(例えば、祖父母および兄弟)からの遺伝情報、ならびにDNAから直接得たハプロタイプ(高密度ハプロタイプブロックなど)を組み合わせることができる。染色体長ハプロタイプを使用して、in-vitro受精の状況で胚のゲノムを予測することができる。このような予測されたゲノム配列を使用して、メンデル遺伝病を引き起こすバリアントの伝播を直接測定すること、および疾患のリスクを予測するための多遺伝子リスクスコアを構築することの両方によって、疾患のリスクを予測することができる。
胚ゲノムの構築に関連する新規の独創的方法が提供される。いくつかの態様では、構築は、染色体長の親のハプロタイプならびに親および胚のスパース遺伝子型決定を使用して(例えば、SNPアレイまたは低カバレッジDNA配列決定を使用して)、胚における全ゲノム予測を可能にする。このようなハイブリッドアプローチでは、分子法(例えば、Long Fragment Read technology,10X Chromium technology,Minion system)を使用して、親および可能であれば他の親族(例えば、祖父母および兄弟)からの遺伝情報、ならびにDNAから直接得たハプロタイプ(高密度ハプロタイプブロックなど)を組み合わせることができる。染色体長ハプロタイプを使用して、in-vitro受精の状況で胚のゲノムを予測することができる。このような予測されたゲノム配列を使用して、メンデル遺伝病を引き起こすバリアントの伝播を直接測定すること、および疾患のリスクを予測するための多遺伝子リスクスコアを構築することの両方によって、疾患のリスクを予測することができる。
いくつかの態様では、胚ゲノムは、2つ以上の祖先からのハプロタイプを使用して構築される。いくつかの態様では、胚ゲノムは、父方ハプロタイプおよび母方ハプロタイプの両方を使用して構築される。いくつかの態様では、ハプロタイプは、祖父方ハプロタイプである。いくつかの態様では、ハプロタイプは、祖母方ハプロタイプである。いくつかの態様では、胚ゲノムは、父方ハプロタイプ、母方ハプロタイプ、ならびに祖父方ハプロタイプおよび祖母方ハプロタイプの一方または両方を使用して構築される。いくつかの態様では、スパース胚遺伝子型は、胚培養培地、胞胚腔液内の無細胞DNA、または胚の栄養外胚葉細胞生検から得られたDNAの配列決定を行うことから得られる。
いくつかの態様は、胚ゲノムを構築するために使用される1つ以上のハプロタイプを決定することを含む。そのようなハプロタイプは、例えば、祖先対象のゲノム配列に基づいて決定することができる。いくつかの態様は、祖先対象に関連するゲノムを特定することを含む。いくつかの態様は、祖先対象のゲノムを特定するために、祖先対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することを含む。いくつかの態様には、1つ以上の兄弟胚を使用して、ハプロタイプを決定することが含まれる。このような全ゲノム配列決定は、標準、PCRフリー、リンクドリード(例えば、合成ロングリード)、またはロングリードプロトコルなどの様々な手法のいずれかを使用して実施できる。例示的な配列決定技術は、例えば、Huangら、「Recent Advances in Experimental Whole Genome Haplotyping Methods」Int’l.J.Mol.Sci.,18(1944年):1-15(2017年):1-15(2017);Goodwinら、「Coming of age:ten years of next-generation sequencing technologies」、Nat.Rev.Genet.,17:333-351 (2016年);Wangら、「Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing,haplotyping, and de novo assembly」、Genome Res.,29(5):798-808(2019年);およびChenら、「Ultralow-input single-tube linked-read library method enables short-read second-generation sequencing systems to routinely generate highly accurate and economical long-range sequencing information」、Genome Res.,30(6):898-909(2020年)に記載され、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
ゲノムフェージング
いくつかの態様は、1つ以上のハプロタイプを特定するために、祖先ゲノムのフェージングまたは推定を行うこと含む。そのようなフェージングは、例えば、集団ベースおよび/または分子ベースの方法(リンクドリード法など)を使用して実施することができる。例示的なフェージング技術は、例えば、Choiら、「Comparison of phasing strategies for whole human genomes」、PLoS Genetics,14(4):e1007308(2018年)Wangら「Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing,haplotyping,and de novo assembly」Genome Res.,29(5):798-808(2019);およびChenらm「Ultralow-input single-tube linked-read library method enables short-read second-generation sequencing systems to routinely generate highly accurate and economical long-range sequencing information」、Genome Res.,30(6):898-909(2020)に開示されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
いくつかの態様は、1つ以上のハプロタイプを特定するために、祖先ゲノムのフェージングまたは推定を行うこと含む。そのようなフェージングは、例えば、集団ベースおよび/または分子ベースの方法(リンクドリード法など)を使用して実施することができる。例示的なフェージング技術は、例えば、Choiら、「Comparison of phasing strategies for whole human genomes」、PLoS Genetics,14(4):e1007308(2018年)Wangら「Efficient and unique cobarcoding of second-generation sequencing reads from long DNA molecules enabling cost-effective and accurate sequencing,haplotyping,and de novo assembly」Genome Res.,29(5):798-808(2019);およびChenらm「Ultralow-input single-tube linked-read library method enables short-read second-generation sequencing systems to routinely generate highly accurate and economical long-range sequencing information」、Genome Res.,30(6):898-909(2020)に開示されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
いくつかの態様では、フェージングは、リンクドリード配列決定(linked-read sequencing)、ロングフラグメントリード(long fragment reads)、フォスミドプールベースのフェージング(fosmid-pool-based phasing)、隣接保存トランスポゾン配列決定(contiguity preserving transposon sequencing)、全ゲノム配列決定、Hi-C方法論、希釈ベース配列決定(dilution-based sequencing)、ターゲット配列決定(HLAタイピングなど)またはマイクロアレイから生成されたデータを使用する。
いくつかの態様には、フェージングを誘導するための足場を提供するために、独立して得られたスパースフェーズド遺伝子型を使用することが含まれる。HapCUT、SHAPEIT、MaCH、BEAGLE、またはEAGLEなどのコンピュータソフトウェアを使用して、祖先の遺伝子型をフェージングさせることができる。場合によっては、コンピュータプログラムは、1000人ゲノムまたはハプロタイプリファレンスコンソーシアムなどのリファレンスパネルを使用して、遺伝子型のフェージングを行う。場合によっては、祖父母、兄弟、または子供などの親族の遺伝子型データを追加することにより、フェージング精度が改善され得る。
胚のゲノム配列の予測
いくつかの態様は、胚のスパースフェーズド遺伝子型決定と組み合わせてフェージングされた親ゲノムを使用して、胚のゲノムを予測することを含み、これにより、親および胚で特定された臨床的に関連するバリアントの有無の決定が可能になる。これを拡張して、親およびHLA型において特定されたリスク/感受性対立遺伝子を含めることができる。いくつかの態様では、スパース遺伝子型決定は、次世代配列決定を使用して得られる。スパース遺伝子型決定は、Kumarら、「Whole genome prediction for preimplantation genetic diagnosis」、Genome Med.,7(1):Article 35,1-8ページ(2015年);Srebniakら、「Genomic SNP array as a gold standard for prenatal diagnosis of foetal ultrasound abnormalities」、Molceular Cytogenet.,5:Article 14,pages 1-4(2012年);およびBejjaniら、「Clinical Utility of Contemporary Molecular Cytogenetics」、Annu.Rev.Genomics Hum.Genet.,9:71-86(2008年)に詳細に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
いくつかの態様は、胚のスパースフェーズド遺伝子型決定と組み合わせてフェージングされた親ゲノムを使用して、胚のゲノムを予測することを含み、これにより、親および胚で特定された臨床的に関連するバリアントの有無の決定が可能になる。これを拡張して、親およびHLA型において特定されたリスク/感受性対立遺伝子を含めることができる。いくつかの態様では、スパース遺伝子型決定は、次世代配列決定を使用して得られる。スパース遺伝子型決定は、Kumarら、「Whole genome prediction for preimplantation genetic diagnosis」、Genome Med.,7(1):Article 35,1-8ページ(2015年);Srebniakら、「Genomic SNP array as a gold standard for prenatal diagnosis of foetal ultrasound abnormalities」、Molceular Cytogenet.,5:Article 14,pages 1-4(2012年);およびBejjaniら、「Clinical Utility of Contemporary Molecular Cytogenetics」、Annu.Rev.Genomics Hum.Genet.,9:71-86(2008年)に詳細に記載されており、これらのそれぞれは、参照によりその全体が本明細書に組み込まれる。
スパース遺伝子型決定は、胚の抽出部分で実施できる。したがって、いくつかの態様は、胚から1つ以上の細胞を抽出または得ることを含む(例えば、生検を介して)。いくつかの態様は、胚から、または胚の1つ以上の細胞から、核酸(例えば、DNA)を抽出または得ることを含む。いくつかの態様は、胚培養培地から胚材料を抽出することを含む。
いくつかの態様は、祖先対象ゲノムのフェージングのための足場として、スパース胚の遺伝子型を使用する。いくつかの態様は、1つ以上の祖父母対象(例えば、祖父母および/または祖母対象(複数))からの情報を使用して、親ゲノムのフェージングを行う。いくつかの態様は、大規模なリファレンスパネルからの情報(例えば、集団ベースのデータ)を使用して、親ゲノムのフェージングを行う。
いくつかの態様では、胚は、1つ以上の祖先対象(複数可)から得られた生物学的サンプル(複数可)を使用して再構築される。例示的な生物学的サンプルには、脳、心臓、肺、腎臓、肝臓、筋肉、骨、胃、腸、食道、および皮膚組織から選択される1つ以上の組織、ならびに/または尿、血液、血漿、血清、唾液、精液、痰、脳脊髄液、粘液、汗、硝子体液、および乳汁から選択される体液のうちの1つ以上が含まれる。いくつかの態様は、対象から生物学的サンプルを得ることを含む。
いくつかの態様は、1つ以上の祖先ハプロタイプの伝播確率を決定することを含む。いくつかの態様では、1つ以上の母方ヘテロ接合部位からのバリアントの伝播は、母方ゲノムの配列決定、胚からの1つ以上の生検の配列決定または遺伝子型決定、母方DNAサンプルのハプロタイプブロックへのアセンブルまたはフェージング、親の染色体長ハプロタイプを構築するために複数の胚からの情報(例えば、ペアレントサポート技術)の利用、およびHMMのような統計的方法を使用してこれらのハプロタイプブロックの受け継ぎまたは伝播の予測を含み得る。いくつかの態様では、HMMは、ハプロタイプブロック間の遷移を予測すること、または母方のフェージングでのエラーを修正することも可能である。
1つ以上の父方ヘテロ接合部位からのバリアントの伝播を予測するアプローチは、父方ゲノムの配列決定を行うことと;胚からの1つ以上の生検の配列決定または遺伝子型決定を行うことと;父方DNAサンプルのハプロタイプブロックへのアセンブルまたはフェージングを行うことと;ハプロタイプブロックの染色体長への隣接性を改善するために複数の胚からの情報を利用することと;HMMのような統計的方法を使用して、これらのハプロタイプブロックの受け継ぎまたは伝播を予測することと、を含み得る。いくつかの態様では、HMMは、ハプロタイプブロック間の遷移を予測すること、または母方のフェージングでのエラーを修正することも可能である。
母親および父親の両方がヘテロ接合である状況は、上記の方法で予測することができる。胚の遺伝子型は、両方の親が同じ対立遺伝子または異なる対立遺伝子のいずれかに関してホモ接合である場合に簡単に予測される。
いくつかの態様では、伝播確率は、米国特許出願第11/603,406号;同第12/076,348号;または同13/110,685号;または、PCT出願PCT/US09/52730号またはPCT/US10/050824号(これらのそれぞれは、参照によりその全体が本明細書に組み込まれる)に記載されている方法を使用して決定される。いくつかの態様では、95%以上の伝播確率を有する領域を、胚ゲノムを構築するために使用する。
いくつかの態様では、胚ゲノムは、胚における1つ以上の遺伝子または遺伝的バリアントを使用して構築される。いくつかの態様では、1つ以上の遺伝子または遺伝的バリアントは、胚でのスパース遺伝子型決定を使用して特定される。いくつかの態様では、スパース遺伝子型決定は、マイクロアレイ技術を使用して実施される。
いくつかの態様では、胚ゲノムは、(i)胚における1つ以上の遺伝的バリアント、(ii)1つ以上の祖先ハプロタイプ(複数可)(例えば、父方ハプロタイプおよび母方ハプロタイプ、ならびに(iii)1つ以上のハプロタイプ(例えば、父方ハプロタイプおよび母方ハプロタイプ)の伝播確率を使用して構築される。いくつかの態様では、スパース遺伝子型決定は、次世代配列決定を使用して実施される。
いくつかの態様は、1)家族のそれぞれの側の両方の祖父母の全ゲノム配列、2)各親からのフェージングされた全ゲノム配列、3)親のアレイによって測定されたスパース遺伝子型、および4)胚のスパース遺伝子型を使用する胚ゲノム予測を含む。理論に束縛されるものではないが、胚ゲノムの96.9%に対する99.8%という予測精度は、十分に研究されたCEPHファミリーに対してそのような方法を使用して達成できると考えられている。
いくつかの態様には、1)片方の祖父母のWGS、2)アレイによって測定されたスパース親遺伝子型、および3)ハプロタイプ分解リファレンスパネルを使用して、親ゲノムのフェージングを行うことが含まれる。いくつかの態様には、1)アレイによって測定されたスパース親遺伝子型、および2)ハプロタイプ分解リファレンスパネル(例えば1000人ゲノム)を使用して親ゲノムのフェージングを行うことが含まれる。いくつかの態様には、ハプロタイプ分解リファレンスパネル(1000人ゲノムなど)のみを使用して、親ゲノムのフェージングを行うことが含まれる。
リスクの決定
胚に関連する疾患リスクを決定する方法も提供される(例えば、胚に関して構築されたゲノムに基づいて)。いくつかの態様は、祖先ゲノムからの疾患を引き起こす遺伝的バリアントが胚に伝播されているか否かを決定することを含む。いくつかの態様は、ハプロタイプ(例えば、疾患を引き起こす遺伝的バリアントに関連する)が胚に伝播されているか否かを決定することを含む。いくつかの態様は、(これらに限定されないが、)一塩基多型(SNV)、小さい挿入/欠失、およびコピー数多型(CNV)を含む疾患を引き起こすまたは疾患感受性の増加を引き起こす遺伝的バリアントの有無を決定することを含む。いくつかの態様は、胚における疾患関連HLA型の有無を決定することを含む。
胚に関連する疾患リスクを決定する方法も提供される(例えば、胚に関して構築されたゲノムに基づいて)。いくつかの態様は、祖先ゲノムからの疾患を引き起こす遺伝的バリアントが胚に伝播されているか否かを決定することを含む。いくつかの態様は、ハプロタイプ(例えば、疾患を引き起こす遺伝的バリアントに関連する)が胚に伝播されているか否かを決定することを含む。いくつかの態様は、(これらに限定されないが、)一塩基多型(SNV)、小さい挿入/欠失、およびコピー数多型(CNV)を含む疾患を引き起こすまたは疾患感受性の増加を引き起こす遺伝的バリアントの有無を決定することを含む。いくつかの態様は、胚における疾患関連HLA型の有無を決定することを含む。
いくつかの態様では、胚における表現型リスクは、発症年齢および疾患の重症度に基づいてランク付けすることができる1つ以上の疾患(例えば、一連の疾患)を使用して決定することができる。いくつかの態様では、疾患のランク付けを多遺伝子リスク予測と組み合わせて、将来の疾患リスクによって胚をランク付けすることができる。
いくつかの態様は、胚が10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、またはそれ以上の疾患リスクを有すると決定することを含む。いくつかの態様は、胚が90%、80%、70%、60%、50%、40%、30%、20%、10%、5%、1%、またはそれ以下の疾患リスクを有すると決定することを含む。いくつかの態様は、疾患リスクに基づいて(例えば、比較的低い疾患リスクを有する胚を選択すること)、および/または特定の遺伝的バリアント(例えば、SNV、ハプロタイプ、挿入/欠失、および/またはCNV)の有無に基づいて、胚を選択することを含む。
いくつかの態様では、胚に関連する疾患リスクは、多遺伝子リスクスコアを使用して決定される。いくつかの態様では、多遺伝子リスクスコア(「PRS」とも呼ばれる)は、疾患モデルにおける部位全体の影響を合計することによって決定される。いくつかの態様では、多遺伝子リスクスコアは、集団データを使用して決定される。例えば、集団データは、対立遺伝子頻度、個人の遺伝子型、自己報告表現型、臨床報告表現型(例えば、ICD-10コード)、および/または家族歴(例えば、1つ以上の集団データベース内の親族の個人から得られる)情報を含み得る。このような集団データは、英国(UK)Biobank(約300,000人の無関係な個人に関する情報を有する)、National Center for Biotechnology Information(NCBI)、The European Genome-phenome Archive;OMIM;GWASdb;PheGenl;Genetic Association Database(GAD);およびPhenomicDBによって維持されている遺伝子型および表現型のデータベース(dbGaP)の一部である様々な遺伝子型-表現型データセットなど、様々なデータベースのいずれかから得ることができる。
いくつかの態様では、疾患リスクは、多遺伝子リスクスコアのカットオフ値に基づいて決定される。例えば、このようなカットオフには、PRS分布で最高約1%、PRS分布で最高約2%、PRS分布で最高約3%、PRS分布で最高約4%、またはPRS分布で最高4%が含まれ得る。好ましくは、カットオフは、PRS分布で最高3%に基づく。多遺伝子リスクスコアのカットオフは、例えば、約5%、約10%、または約15%の絶対リスクの増加に基づいて決定することもできる。好ましくは、多遺伝子リスクスコアのカットオフは、10%の絶対リスク増加に基づいて決定される。
いくつかの態様は、表現型のリスクを推定するために、予測された胚ゲノムを使用することを含む。いくつかの態様では、リスク推定は、1)胚の予測されたゲノム、2)胚では予測が行われない目的の部位(すなわち、多遺伝子リスクスコアに含まれるバリアント)における親の遺伝子型、および3)胚では予測が行われない目的の部位(例えば、多遺伝子リスクスコアに含まれるバリアント)におけるリファレンスコホート(例えば、UKBB)内の対立遺伝子頻度を使用する。
いくつかの態様は、1つ以上の遺伝的バリアントの伝播確率に基づいて(例えば、祖先ハプロタイプに基づいて)リスクを決定することを含む。いくつかの態様は、多遺伝子性疾患のリスクおよび1つ以上の遺伝的バリアントの伝播確率(例えば、父方のゲノムおよび/または母方のゲノムから胚への、単一遺伝子性疾患を引き起こす遺伝的バリアント(複数可)および/またはハプロタイプの伝播)に基づいて、胚に関連する複合リスクを決定することを含む。
疾患のリスクを予測および低減するための非限定的な例示的なシステムを図1に示す。非限定的な例示的な多遺伝子リスクスコアワークフローを図2に示す。
提供者の選択
精子および/または卵子提供者を選択する方法も提供される。対象が子孫に疾患を引き継ぐリスクの推定値は、仮想の子供たちのゲノムをシミュレートすることと、各子供の疾患リスクを算出することによってコンピュータで計算することができる。いくつかの態様は、予想される母親および1人以上の将来の精子提供者の疾患リスクを決定することを含む。いくつかの態様は、予想される父親および1人以上の将来の卵子提供者の疾患のリスクを決定することを含む。
精子および/または卵子提供者を選択する方法も提供される。対象が子孫に疾患を引き継ぐリスクの推定値は、仮想の子供たちのゲノムをシミュレートすることと、各子供の疾患リスクを算出することによってコンピュータで計算することができる。いくつかの態様は、予想される母親および1人以上の将来の精子提供者の疾患リスクを決定することを含む。いくつかの態様は、予想される父親および1人以上の将来の卵子提供者の疾患のリスクを決定することを含む。
いくつかの態様は、例えば、HapMapデータベースを使用して決定するとおり、フェージングされた親ゲノムおよびシミュレートされたハプロタイプ組換え部位を使用して、将来の母親および父親からの配偶子をシミュレートすることを含む。いくつかの態様は、これらの配偶子の生成における減数分裂中のそれぞれの組換え率を考慮に入れている。いくつかの態様では、これらのシミュレートされた配偶子は、互いに組み合わされて、将来の子供のゲノムの範囲を概算するための多数の組み合わせの可能性をもたらす。このような子供のゲノムのアレイを、疾患確率のアレイに転送して、各子供での疾患リスクの分布を予測することができる。図3を参照されたい。
本明細書に記載されているリスク推定値(例えば、胚ゲノム構築の節および/または実施例の節)は、IVFサイクル中の胚選択および/または精子提供者選択における家族計画の文脈で使用することができる。いくつかの実施形態では、将来の親は、利用可能なすべての胚における複数の表現型の個々のリスク推定値、または各将来の精子提供者のリスク値の範囲のいずれかを含むレポートを受け取る。いくつかの態様では、精子提供者は、ある状態または一連の状態の疾患リスクに基づいて、ランク付けされる。いくつかの態様では、提供者は、2020年8月6日に出願された米国仮出願第63/062,044号に開示されているpythonスクリプト、またはその修正を使用して選択される。
いくつかの態様は、リスクスコアに基づいて胚を選択することを含む。いくつかの態様は、リスクスコアに基づいて卵子提供者を選択することを含む。いくつかの態様は、リスクスコアに基づいて精子提供者を選択することを含む。
実装システム
本明細書で説明する方法は、様々なシステムに実装できる。例えば、いくつかの態様では、システム(例えば、ゲノム胚構築、提供者選択、リスク決定、および/または健康報告の実施のために)は、メモリに連結された1つ以上のプロセッサを備える。これらの方法は、1つ以上の電子デバイスに保存し、実施されるコードおよびデータを使用して実装できる。そのような電子デバイスは、非一時的コンピュータ可読記憶媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリデバイス、位相変更メモリ)、および一時的コンピュータ可読転送媒体(例えば、電気、光学、音響、または他の形式の伝搬信号(キャリア波、赤外線信号、デジタル信号など)などのコンピュータ可読媒体を使用して、コードおよびデータを保存し、(内部および/またはネットワークを介して他の電子デバイスと)通信することができる。
本明細書で説明する方法は、様々なシステムに実装できる。例えば、いくつかの態様では、システム(例えば、ゲノム胚構築、提供者選択、リスク決定、および/または健康報告の実施のために)は、メモリに連結された1つ以上のプロセッサを備える。これらの方法は、1つ以上の電子デバイスに保存し、実施されるコードおよびデータを使用して実装できる。そのような電子デバイスは、非一時的コンピュータ可読記憶媒体(例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリデバイス、位相変更メモリ)、および一時的コンピュータ可読転送媒体(例えば、電気、光学、音響、または他の形式の伝搬信号(キャリア波、赤外線信号、デジタル信号など)などのコンピュータ可読媒体を使用して、コードおよびデータを保存し、(内部および/またはネットワークを介して他の電子デバイスと)通信することができる。
必要に応じてモデルをトレーニングするために(例えば、疾患のリスクを特定するために)、メモリにコンピュータ命令をロードできる。いくつかの態様では、システムは、コンピュータ、例えば、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、スーパーコンピュータ、大規模並列コンピューティングプラットフォーム、テレビ、メインフレーム、サーバファームなどのコンピュータ、広く分散された緩いネットワークコンピュータのセット、または任意の他のデータ処理システムまたはユーザーデバイス上に実装される。
この方法は、ハードウェア(例えば、回路、専用ロジックなど)、ファームウェア、ソフトウェア(例えば、非一時的コンピュータ可読媒体上に具現化される)、または両方の組み合わせを含む論理を処理することによって実施され得る。説明されている操作は、任意の順序で実施することも、並行して実施することもできる。
一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信できる。コンピュータは一般に、命令に従ってアクションを実施できるプロセッサと、命令およびデータを保存するための1つ以上のメモリデバイスを備える。一般に、コンピュータはまた、データを受信するか、またはデータを転送するために、例えば、磁気ディスク、磁気光ディスク、光ディスク、またはソリッドステートドライブなど、データを保存するための1つ以上のマスストレージデバイスを備えるか、またはそれらのデバイスに動作可能に連結される。しかし、コンピュータはそのようなデバイスを有する必要はない。さらに、コンピュータを、別のデバイス、ほんの数例を挙げると、例えば、スマートフォン、モバイルオーディオまたはメディアプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)内に組み込むことができる。コンピュータプログラムの命令およびデータを保存するのに好適であるデバイスには、例えば、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク;光磁気ディスク;およびCDROMおよびDVD-ROMディスクなど、あらゆる形態の不揮発性メモリ、メディアおよびメモリデバイスが含まれる。プロセッサおよびメモリは、特別な目的の論理回路によって補充するかまたは組み込むことができる。
1台以上のコンピュータのシステムを、ソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムにインストールして、操作中にシステムにアクションを実施させることにより、特定の操作またはアクションを実施するように構成できる。データ処理装置によって実施されたときに、この装置にアクションを実施させる命令を含めることによって、特定の操作またはアクションを実施するように1つ以上のコンピュータプログラムを構成することができる。
例示的な実装システムを図21に示す。このようなシステムは、ここで説明する操作のうちの1つ以上を実施するために使用できる。コンピューティングデバイスは、LAN、イントラネット、エクストラネット、および/またはインターネット内の他のコンピューティングデバイスに接続されてもよい。コンピューティングデバイスは、クライアントサーバーネットワーク環境のサーバーマシンの容量内で、またはピアツーピアネットワーク環境のクライアントの容量内で動作し得る。
以下の実施例は、本発明を説明するために提供されているが、本発明は、これらの実施例の特定の条件または詳細に限定されないことを理解されたい。
実施例
実施例1:着床前の遺伝子検査のための胚における親の再発リスク評価および疾患予測のための親のゲノムのフェージング-in vitro受精(IVF)における胚のゲノム配列の予測での使用。
実施例1:着床前の遺伝子検査のための胚における親の再発リスク評価および疾患予測のための親のゲノムのフェージング-in vitro受精(IVF)における胚のゲノム配列の予測での使用。
胚のカバレッジおよび精度は、3つの異なるプロトコルを使用して計算した。第1のプロトコルに従って、胚ゲノム予測は、1)家族のそれぞれの側の両方の祖父母の全ゲノム配列、2)各親からのフェージングされたWGS、3)親のアレイによって測定されたスパース遺伝子型、および4)胚のスパース遺伝子型を使用した(図4)。このプロトコルは、十分に研究されたCEPHファミリーの胚ゲノムの96.9%において、予測精度99.8%を達成した(同様に、1)1人の祖父母のWGS、2)アレイによって測定された親のスパース遺伝子型、および3)ハプロタイプ分解リファレンスパネルを使用するプロトコルも企図されている)。
第2のプロトコルに従って、胚の予測は、1)アレイによって測定された親のスパース遺伝子型、および2)ハプロタイプ分解リファレンスパネル(例えば、1000人ゲノム)を使用した。
第3のプロトコルに従って、胚の予測は、ハプロタイプ分解リファレンスパネル(例えば、1000人ゲノム)のみを使用した。
実施例2:予測された胚ゲノムを使用して表現型のリスクを推定する
親の遺伝子型(M、D)が与えられた場合の可能性のある遺伝子型(AA、AB、BB)の確率は、胚のゲノム内で予測されていない部位で使用される(以下の式1を参照)。親の遺伝子型が利用できない場合、コホート影響対立遺伝子頻度(AFEA)を使用する(式2)
親の遺伝子型(M、D)が与えられた場合の可能性のある遺伝子型(AA、AB、BB)の確率は、胚のゲノム内で予測されていない部位で使用される(以下の式1を参照)。親の遺伝子型が利用できない場合、コホート影響対立遺伝子頻度(AFEA)を使用する(式2)
30のモデルのうち27(90%)のモデルで胚が真のスコアの3%以内に入るリスクスコアのパーセンタイルを予測した。
別のプロセスでは、1)胚の予測ゲノム、および2)胚では予測が行われない目的の部位(すなわち、多遺伝子リスクスコアに含まれるバリアント)でのリファレンスコホート(UKBBなど)内の対立遺伝子頻度を使用することを伴う。対立遺伝子頻度は、上記の式2で示したとおりに使用した。このプロセスを使用して、胚が30モデル中23(77%)モデル内に入るリスクスコアパーセンタイルを予測した。親の遺伝子型が組み込まれた場合、30の予測スコアはすべて真のスコアの5%以内に入る。
実施例3:多遺伝子リスクモデルを使用した表現型リスク推定の推定および改善
統計的枠組み
疾患シミュレーションおよび経験的分析の主力モデルは、閾値易罹病性モデルである。疾患は、遺伝的要素g~N(0,h2)を有すると考えられ、ここで、h2は、狭義の遺伝率およびエラー要素∈~N(0,1-h2)である。仮定された易罹病性lは、以下によって求められ、
これは、潜在的易罹病性と呼ばれ、サンプルは、潜在的易罹病性スケールにおいて、リスクを有すると仮定される。閾値Tは、P(l>T)=pなど、標準正規確率変数の分布から計算されるような、疾患有病率pから推定される。理論に束縛されるものではないが、この疾患に罹患しているすべての人々がl>Tを有すると考えられる。
統計的枠組み
疾患シミュレーションおよび経験的分析の主力モデルは、閾値易罹病性モデルである。疾患は、遺伝的要素g~N(0,h2)を有すると考えられ、ここで、h2は、狭義の遺伝率およびエラー要素∈~N(0,1-h2)である。仮定された易罹病性lは、以下によって求められ、
家族のシミュレーションは、次の3つの要素:2つの遺伝的要素-PRSによって測定される部分、単に残存する遺伝的リスクである「測定されない」部分、および既約の非遺伝的エラーの合計としてモデル化される遺伝的易罹病性のシミュレーションが含まれる。上記の潜在的遺伝的リスクgは、
まで分解することができ、
のように定義された。
この最後の要素は、家族メンバー間において相関はない。一方、易罹病性スケールでPRSによって説明される分散が、σ2であり、gR,iおよびgR,jが、2人の一親等親族の易罹病性のPRS要素であるとすると、共分散は、次式によって求められる;
gU,iおよびgU,jは、2人の一親等親族の易罹病性の残りの測定されていない要素であり、h2が、形質の遺伝率である場合、共分散は次式で求められる;
giが、g1およびg2の子供である場合は、
である。
IVF胚選択シミュレーション
IVFシミュレーションを、次の質問に回答するために実施した。n個の胚のセットと目的の臨床表現型が得られた場合、ランダムに選択された胚よりも、最小の多遺伝子リスクスコアを有する胚が、生涯にわたって疾患を発症する可能性はどれくらい低いか。換言すれば、選択の相対リスクが、どのぐらい減少するか。
IVFシミュレーションを、次の質問に回答するために実施した。n個の胚のセットと目的の臨床表現型が得られた場合、ランダムに選択された胚よりも、最小の多遺伝子リスクスコアを有する胚が、生涯にわたって疾患を発症する可能性はどれくらい低いか。換言すれば、選択の相対リスクが、どのぐらい減少するか。
この質問に回答するために、2段階の手順を使用して、親およびその後の子供のパラメータを生成した。この手順またはその修正は、提供者選択およびIVF胚選択の有効性を検査するシミュレーションにおいて使用される。
胚選択モデルでは、次の入力値を使用した:σ2、易罹病性スケールの多遺伝子リスクスコアによって説明される分散;h2、易罹病性スケールでの形質の相加的遺伝率;p、形質の生涯有病率。
このシミュレーションからの出力は、利用可能な様々な数の胚でのリスクの低減である。これにより、IVFを行う予想されるカップルが、いずれの疾患を有意義にスクリーニングできるかを標的にすることができる。
手順
ステップ1。各親について、家族歴からのリスクの上昇を表すために、一般集団から抽出した場合は分布N(0,σ2)、または平均のシフトもしくは切断正規など、いくつかの他の分布を有するPRSgRを生成する。残っている未測定の遺伝的リスクguは、分布N(0,h2-σ2)または上記の他のいずれかを伴う。
ステップ2。l1,…,lnのコンピュータによる計算によって、n人の子供をシミュレートする:
2人の親からの中間親(midparent)の平均PRS:
をコンピュータで計算する。
中間親の平均残留遺伝的リスク:
をコンピュータで計算する。
各子供について、分布N(0,1―h2)を用いて、独立したエラー∈iをコンピュータで計算する。
各子供について、以下の独立したPRS組換えをコンピュータで計算する。
各子供について、独立した測定されていない/残っているリスクを組換えにより、以下のように、コンピュータで計算する:
以下のように合計して、子供の易罹病性iをコンピュータで計算する。
ステップ1。各親について、家族歴からのリスクの上昇を表すために、一般集団から抽出した場合は分布N(0,σ2)、または平均のシフトもしくは切断正規など、いくつかの他の分布を有するPRSgRを生成する。残っている未測定の遺伝的リスクguは、分布N(0,h2-σ2)または上記の他のいずれかを伴う。
ステップ2。l1,…,lnのコンピュータによる計算によって、n人の子供をシミュレートする:
2人の親からの中間親(midparent)の平均PRS:
中間親の平均残留遺伝的リスク:
各子供について、分布N(0,1―h2)を用いて、独立したエラー∈iをコンピュータで計算する。
各子供について、以下の独立したPRS組換えをコンピュータで計算する。
ステップ3。リスクの低減を決定するために、何百万もの家族の範囲n=3,4,…,10においてシミュレートする。各家族について、最小のPRSを有する胚の易罹病性lminが、閾値t=Φ-1(1-p)を超えているかを確認する。ここで、Φは、標準正規分布の累積分布関数である。
統計的注記
補遺として、Rp,iおよびRU,iの形式を正当化することができる。兄弟間および子供と親との間の共分散が正確であることを示すために、次のことに留意されたい:
後の2つの項は、0である。同じ計算が、未測定遺伝的リスクに対しても機能する、すなわち、
であり、そのため、gi=gR,i+gU,iでは、
である。
補遺として、Rp,iおよびRU,iの形式を正当化することができる。兄弟間および子供と親との間の共分散が正確であることを示すために、次のことに留意されたい:
同様の一連の計算は、親‐子供の共分散も正しい方程式を満たすことを示している。
シミュレーションによる提供者家族
リスクの低い提供者を特定するために、以下を実施した。(1)予想される母親の多遺伝子リスクスコアを計算する、(2)N人の提供者における多遺伝子リスクスコアを計算する、および(3)最も低い多遺伝子リスクスコアを有する提供者を選択する。手順は、2つのステップが変更されていることを除いて、本質的に上記と同じある:最初に、提供者の数をシミュレートし(n=10、20、30、…、100)、組換えを最小化するのではなく、多遺伝子リスクスコアを提供者の多遺伝子リスクスコアよりも最小化させる。この方法のフローチャートを図7に示す。
リスクの低い提供者を特定するために、以下を実施した。(1)予想される母親の多遺伝子リスクスコアを計算する、(2)N人の提供者における多遺伝子リスクスコアを計算する、および(3)最も低い多遺伝子リスクスコアを有する提供者を選択する。手順は、2つのステップが変更されていることを除いて、本質的に上記と同じある:最初に、提供者の数をシミュレートし(n=10、20、30、…、100)、組換えを最小化するのではなく、多遺伝子リスクスコアを提供者の多遺伝子リスクスコアよりも最小化させる。この方法のフローチャートを図7に示す。
次の入力値を使用した:σ2、易罹病性スケールでPRSによって説明される分散;h2、易罹病性スケールでの形質の相加的遺伝率;p、形質の生涯有病率。このシミュレーションからの出力は、最小化するために利用可能である様々な数の提供者におけるリスクの低減であり、これにより、クライアントは精子または卵子提供者を使用して、いずれの疾患を有意義にスクリーニングできるかを目標にできる。上記と同じ入力例を使用して、いくつかの自己免疫障害の様々な数の提供者についてリスク低減曲線を作成した。これを図8に示す。
提供者選択後の追加の胚選択
提供者選択の追加の適用は、最初に提供者を選択し、その後疾患リスクの低い胚を選択することを含む。より具体的には、疾患リスク情報は、子供のために提供者精子を用いることに関心のある対象(例えば、女性対象)に提供される。第1に、この女性の遺伝子検査結果および家族歴を使用して、複数の配偶子をシミュレートし、シミュレートされた精子サンプルと組み合わせて、心臓病の既知の遺伝的原因のリスクを得る。これは、この状態を有する子供を有する女性の「個人リスク」であり、「ベースラインリスク」を細分したものである。第2に、様々な提供者からの遺伝情報、ならびにいずれのバリアントを互いにフェージングするかに関する情報を使用して、個々の提供者からの配偶子を想定した疾患確率の範囲が算出される。最後に、提供者が選択されたと想定すると、複数の胚(E1、E2、E3)が疾患リスクの分布内に入る。図9を参照されたい。
提供者選択の追加の適用は、最初に提供者を選択し、その後疾患リスクの低い胚を選択することを含む。より具体的には、疾患リスク情報は、子供のために提供者精子を用いることに関心のある対象(例えば、女性対象)に提供される。第1に、この女性の遺伝子検査結果および家族歴を使用して、複数の配偶子をシミュレートし、シミュレートされた精子サンプルと組み合わせて、心臓病の既知の遺伝的原因のリスクを得る。これは、この状態を有する子供を有する女性の「個人リスク」であり、「ベースラインリスク」を細分したものである。第2に、様々な提供者からの遺伝情報、ならびにいずれのバリアントを互いにフェージングするかに関する情報を使用して、個々の提供者からの配偶子を想定した疾患確率の範囲が算出される。最後に、提供者が選択されたと想定すると、複数の胚(E1、E2、E3)が疾患リスクの分布内に入る。図9を参照されたい。
この方法は、家族計画の文脈で精子提供者の選択時に使用することができる。将来の親は、彼らにとって特に関心のある表現型を示すことができ、それらの表現型のリスクスコアを、提供者の各々について生成することができる。これらのスコアは、精子提供者の各々の将来の子供たちにおける疾患のリスクを予測するために使用される。これらのリスク値を含むレポートを親に提供することで、親は関心のある表現型のリスクを低減する提供者を選択するという選択肢が可能となり得る。
家族歴
家族歴を、疾患のリスクの予測に組み込むことができる。UK Biobankには、糖尿病、心臓病、アルツハイマー病、パーキンソン病、乳がん、および他の様々なものなど、親および兄弟の自己報告によるいくつかの疾患の状態がある。さらに、10,000を超える兄弟ペアと、多数の半兄弟または他の二親等親族のペアがある。モデルを、家族歴のバイナリ変数を使用して構築し、これは、次のことを意味する:(i)自己報告による家族歴のあるUK Biobankの一連の疾患、その疾患を有する兄弟もしくは親;または(ii)任意の他の疾患の場合、UK Biobankの一親等親族のすべてのサンプル。適切なコホートの各状態について、「has_family_history」ダミーのこの定義を前提として、次式を使用してロジスティック回帰を実施した:
log(P/(1-P))=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history
家族歴を、疾患のリスクの予測に組み込むことができる。UK Biobankには、糖尿病、心臓病、アルツハイマー病、パーキンソン病、乳がん、および他の様々なものなど、親および兄弟の自己報告によるいくつかの疾患の状態がある。さらに、10,000を超える兄弟ペアと、多数の半兄弟または他の二親等親族のペアがある。モデルを、家族歴のバイナリ変数を使用して構築し、これは、次のことを意味する:(i)自己報告による家族歴のあるUK Biobankの一連の疾患、その疾患を有する兄弟もしくは親;または(ii)任意の他の疾患の場合、UK Biobankの一親等親族のすべてのサンプル。適切なコホートの各状態について、「has_family_history」ダミーのこの定義を前提として、次式を使用してロジスティック回帰を実施した:
log(P/(1-P))=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history
要約すると、入力には次のものが含まれる:自己報告による疾患の家族歴、および医療記録を有する一親等親族のペアを含むバイオバンクからのデータ。出力には次のものが含まれる:本発明者らの予測の精度を高めるためにPRSおよび家族歴を組み込んだロジスティック回帰モデル。モデルを使用して、いずれの患者が生涯において疾患を発症するリスクが高いか優先順位を付けた。以下の表3に例示的出力を示す。ここでは、beta_1(PRS)、beta_2(性別ダミー)、およびbeta_3(家族歴ダミー)がいくつかの状態で推定されている。
図10に示すとおり、has_family_historyダミーがロジスティック回帰に追加された場合の予測の改善を、前立腺がんのROC曲線で定量化した。
モデルの複雑化の向上
二親等および三親等の親族、より複雑な家系、および/または関連する表現型を組み込むことによって、モデルをより複雑化する。近親者をシミュレートする方法を上に示した。二親等の家族歴の組み込みを可能にするために、各親について2人の追加の家族メンバーをシミュレートすることもできる。P1が、親族R1,iを有する親である場合、次のように想定することにより、二親等家族メンバーを生成できる:
ここで、σ2は、PRSまたは未測定遺伝的リスクgUの潜在的易罹病性スケール分散要素である。
二親等および三親等の親族、より複雑な家系、および/または関連する表現型を組み込むことによって、モデルをより複雑化する。近親者をシミュレートする方法を上に示した。二親等の家族歴の組み込みを可能にするために、各親について2人の追加の家族メンバーをシミュレートすることもできる。P1が、親族R1,iを有する親である場合、次のように想定することにより、二親等家族メンバーを生成できる:
シミュレーションにさらに複雑なレイヤー、すなわち年齢および性別に基づく閾値を追加することもできる。この疾患の発生率がこれらの変数によって異なる場合、疾患を有する家族におけるサンプルが判断される閾値を調整することができる。例として、II型糖尿病を仮定する場合、80歳以上の男性の有病率は20%であるのに対し、55歳の女性の有病率は4%である。上記のモデルで疾患の経験的生涯リスクを置き換えることにより、生涯有病率を生涯リスクに置き換えることができる。このようなサンプルの閾値は、それぞれ1―Φ(0.20)および1―Φ(0.04)となり、ここで、Φは、標準正規ランダム変数の累積分布関数である。家系図に関して条件付けを行う場合、サンプルセットについての条件付けであり
となり、年齢および性別固有の閾値Tiを超える。
疾患を有する父親および父親の祖父、疾患を有さない3人の兄弟などの病歴に関する情報を有する家系図Pedが与えられる場合:以下をコンピュータで計算することができる;
目標は、量に関する理論的予測を検証することである:
これにより、オッズ比の計算が可能になる。
HLA表現型
リスクの決定は、強力なHLA成分を有し、関連するHLA対立遺伝子がSNVによって十分にタグ付けされていない表現型を含み得る。しかし、この方法は、有意な効果量のHLA対立遺伝子との既知の疾患関連があり、追加の遺伝子座が関係しているあらゆる状態に適用できる。HLAの関与を含む複雑な表現型の例としては、乾癬、多発性硬化症、I型糖尿病、炎症性腸疾患、クローン病、潰瘍性大腸炎、白斑、セリアック病、および全身性エリテマトーデスが挙げられる(しかし、これらに限定されない)。
リスクの決定は、強力なHLA成分を有し、関連するHLA対立遺伝子がSNVによって十分にタグ付けされていない表現型を含み得る。しかし、この方法は、有意な効果量のHLA対立遺伝子との既知の疾患関連があり、追加の遺伝子座が関係しているあらゆる状態に適用できる。HLAの関与を含む複雑な表現型の例としては、乾癬、多発性硬化症、I型糖尿病、炎症性腸疾患、クローン病、潰瘍性大腸炎、白斑、セリアック病、および全身性エリテマトーデスが挙げられる(しかし、これらに限定されない)。
この方法は、これらに限定されないが、個々の疾患リスク予測、胚の選択および精子提供者の選択の両方のシナリオでのリスクの低減、HLA型などの複数の遺伝的因子が応答の尤度または薬剤の副作用に影響を与える特定の医薬品の処方に関するガイダンスなど、複数の状況で適用できる。
HLAタイピングの結果は、サンガー配列決定ベースのタイピングなどのDNAベースの方法から得られるか、または全ゲノム配列決定(WGS)から導出される。第1に:多遺伝子リスクスコアは、例えば、ゲノムワイド関連解析(GWAS)の効果量を使用して決定される。一例は、MHC領域にはないすべての関連するバリアントの効果量および効果対立遺伝子の用量の積を合計することである。次に、関連するHLA対立遺伝子を、次の方法のいずれか1つを使用して、HLAタイピングの結果(タグSNPではない)に基づいて組み合わせるかまたは組み込む。
PRSとHLAとのORの組み合わせ:検証コホートのすべての個人について多遺伝子リスクスコアを計算し、メタデータ(例えば、平均、標準偏差など)を得る。オッズ比(OR)は、目的の表現型との関連が確立されているHLA対立遺伝子について得られる。検証コホートおよびHLAタイピングと比較した個人のPRSから導出されたORは、次のように組み合わされる:
リスク比(RR)は、上記で導出されたORおよび検証コホートにおける疾患の有病率を使用して算出される。次に、これを使用して、疾患の生涯リスクを推定する。
HLAをPRSに直接組み込む:HLA効果対立遺伝子は、効果量と各効果対立遺伝子の用量の積をベースPRSに追加することにより、多遺伝子リスクスコアに直接組み込む。これは、PRSHLA+と称する。PRSHLA+を、検証コホートのすべての個人について計算し、メタデータ(例えば、平均、標準偏差など)を得る。RRは、PRS HLA+モデルから導出されたOR、および検証コホートにおける疾患の有病率を使用して算出される。これは、疾患の生涯リスクを推定するために使用される。
実施例4:胚および精子提供者の選択への適用を伴う疾患リスクプロファイルをランク付けする方法
図11に示すような、疾患リスクプロファイルをランク付けする例示的な方法が提供される。最初に、重みwdが、一連の疾患dの各疾患について算出され、これは、発症年齢waおよび疾患重症度wsの重みの合計である。waは、冠状動脈疾患のように成人期まで一般的に現れない疾患よりも、例えばセリアック病などの出生時に発症する疾患の方が大きくなる。同様に、wsは、白斑のようなより軽度の表現型を有する疾患よりも、乳がんのようなより重症の疾患の方が大きくなる。
図11に示すような、疾患リスクプロファイルをランク付けする例示的な方法が提供される。最初に、重みwdが、一連の疾患dの各疾患について算出され、これは、発症年齢waおよび疾患重症度wsの重みの合計である。waは、冠状動脈疾患のように成人期まで一般的に現れない疾患よりも、例えばセリアック病などの出生時に発症する疾患の方が大きくなる。同様に、wsは、白斑のようなより軽度の表現型を有する疾患よりも、乳がんのようなより重症の疾患の方が大きくなる。
次に、家族歴と多遺伝子リスクスコアとを組み合わせて、各胚に関して目的の各状態の予測リスクを生成する。
最後に、疾患のランク付けとリスク予測とを組み合わせて、次式を使用して各胚の単一のスコアSTを生成する。ここでRRは、特定の疾患の家族歴と多遺伝子リスクスコアとの組み合わせから導出される相対リスクである。
成人期、小児期、または出生時の発症について、それぞれws=0.5、1、または2と想定する。同様に、軽度、中等度、または重度の疾患表現型に対してそれぞれwa=0.5、1、または2と想定し、これにより、多様な表現型を有する疾患の中間値を選択できる。次の表4に、これらの値に基づく小さいセット状態の重み付けを示す:
同じ手順が精子提供者の選択に適用され、各提供者は目的のすべての疾患でのランク付けを受ける。胚および提供者の選択の両方の文脈において、スコアは、疾患のサブセット(例えば、予想される親が家族歴を有する状態)について、または多遺伝子モデルが実装されているすべての疾患において計算する。
あるいは、この方法は、目的のすべての状態を合計することなく使用して、単一の胚/個人の結果に優先順位を付けることができる。各状態は、スコアを受け、最も高いスコア(複数可)を有する状態が優先されるであろう。上記の胚1を例として使用して、表6に示すスコアおよびランク付けを生成した。
実施例5:胚への疾患感受性バリアントの伝播の予測。
大腸がん感受性バリアント(APC c.3920T>A)(および/または挿入、欠失、および/またはコピー数バリアント)の1つのコピーが父親のWGSに見られる。対立遺伝子は、母親には存在しない。このバリアントは、胚のスパース遺伝子型決定では直接測定されない。親の全染色体のハプロタイプは、上記の方法の任意の1つまたはそれらの組み合わせから得られる。胚のゲノムの再構築により、リスク対立遺伝子を含むハプロタイプブロックが父親から胚の1つに伝播されることが決定する。リスク対立遺伝子は、胚内に「存在する」と記す。
大腸がん感受性バリアント(APC c.3920T>A)(および/または挿入、欠失、および/またはコピー数バリアント)の1つのコピーが父親のWGSに見られる。対立遺伝子は、母親には存在しない。このバリアントは、胚のスパース遺伝子型決定では直接測定されない。親の全染色体のハプロタイプは、上記の方法の任意の1つまたはそれらの組み合わせから得られる。胚のゲノムの再構築により、リスク対立遺伝子を含むハプロタイプブロックが父親から胚の1つに伝播されることが決定する。リスク対立遺伝子は、胚内に「存在する」と記す。
実施例6:胚予測を使用した一般的な疾患の多遺伝子リスク。
乳がんは、一般的な遺伝的要素を有する。遺伝的リスクスコアは、69のバリアントを使用して乳がんのリスクを評価する。これらのバリアントのうち、13%(9/69)のみが胚内で直接遺伝子型決定されている。これらのバリアントに基づく胚の遺伝的リスクスコアのパーセンタイルは、84.6%である。胚の再構築後、胚の遺伝子型の98.6%(68/69)が推定/推測され、胚の遺伝的リスクスコアの新しいパーセンタイルは77.7%である。胚が生まれた後、子供のDNAの遺伝子型が特定され、PRSパーセンタイルは76.2%であった。これは、全ゲノム胚再構築からの遺伝的リスクスコアが、追加のバリアントに関する情報により、より高い精度を有し、不確実性が低いことを示している。
乳がんは、一般的な遺伝的要素を有する。遺伝的リスクスコアは、69のバリアントを使用して乳がんのリスクを評価する。これらのバリアントのうち、13%(9/69)のみが胚内で直接遺伝子型決定されている。これらのバリアントに基づく胚の遺伝的リスクスコアのパーセンタイルは、84.6%である。胚の再構築後、胚の遺伝子型の98.6%(68/69)が推定/推測され、胚の遺伝的リスクスコアの新しいパーセンタイルは77.7%である。胚が生まれた後、子供のDNAの遺伝子型が特定され、PRSパーセンタイルは76.2%であった。これは、全ゲノム胚再構築からの遺伝的リスクスコアが、追加のバリアントに関する情報により、より高い精度を有し、不確実性が低いことを示している。
実施例7:胚への疾患関連HLA型の伝播の予測。
母親は、関節リウマチ(RA)に罹患している。HLAタイピングの結果(WGS、PCR+サンガー配列決定、または他の任意の適切な方法から)から、母親がこの状態のリスクの増加に関連するHLA-DRB1*01:02対立遺伝子の1つのコピーを保有していることが明らかになっている。父親は、HLA-DRB1*04:02のホモ接合体であり、これは、RAのリスク増加と関連していることが知られていない対立遺伝子である。各親の第6染色体の完全なフェージングおよび胚ゲノムの再構築に基づいて、母親のハプロタイプ2(HM2)および父親のハプロタイプ2(HF2)が胚に伝播されることが決定される。RAリスク対立遺伝子は、母親のハプロタイプ1(HM1)上で保有されるため、胚は、リスク対立遺伝子を保有しないことが予測される。例えば、図12を参照されたい。
母親は、関節リウマチ(RA)に罹患している。HLAタイピングの結果(WGS、PCR+サンガー配列決定、または他の任意の適切な方法から)から、母親がこの状態のリスクの増加に関連するHLA-DRB1*01:02対立遺伝子の1つのコピーを保有していることが明らかになっている。父親は、HLA-DRB1*04:02のホモ接合体であり、これは、RAのリスク増加と関連していることが知られていない対立遺伝子である。各親の第6染色体の完全なフェージングおよび胚ゲノムの再構築に基づいて、母親のハプロタイプ2(HM2)および父親のハプロタイプ2(HF2)が胚に伝播されることが決定される。RAリスク対立遺伝子は、母親のハプロタイプ1(HM1)上で保有されるため、胚は、リスク対立遺伝子を保有しないことが予測される。例えば、図12を参照されたい。
実施例8:家族に子供におけるある範囲の疾患のリスクを提供する。
2人の親が、予想される子供における様々な遺伝病のリスクに関心があることを医師に提示する。上記の方法を使用して、中間親(midparent)の平均値および組換えを具体的に算出して、2人の親のゲノムを考慮した場合の子供の疾患のリスクの範囲を予測し、予想されるIVF治療を導く。図9を参照されたい。
2人の親が、予想される子供における様々な遺伝病のリスクに関心があることを医師に提示する。上記の方法を使用して、中間親(midparent)の平均値および組換えを具体的に算出して、2人の親のゲノムを考慮した場合の子供の疾患のリスクの範囲を予測し、予想されるIVF治療を導く。図9を参照されたい。
同様に、精子提供の場合、母親と将来の精子提供者(複数可)のWGSに基づく多遺伝子リスクスコアの分布を、組換えによってシミュレートすることができる(図9を参照)。
実施例9:リスク推定を改善するための家族歴(FHx)の組み込み
乾癬を発症するリスクは、疾患の家族歴に基づいて10~30%と推定される。片方の親が乾癬に罹患している胚において、多遺伝子モデルを単独で使用すると、胚間のリスクに軽微な差のみを示す。表7に示すとおり、家族歴を組み込むことにより、胚1と胚2および3の分離が大幅に改善され、胚2および3が、FHx以外の追加のリスク因子を有することは明らかである。
乾癬を発症するリスクは、疾患の家族歴に基づいて10~30%と推定される。片方の親が乾癬に罹患している胚において、多遺伝子モデルを単独で使用すると、胚間のリスクに軽微な差のみを示す。表7に示すとおり、家族歴を組み込むことにより、胚1と胚2および3の分離が大幅に改善され、胚2および3が、FHx以外の追加のリスク因子を有することは明らかである。
同様に、家族歴を組み込んで、疾患に関連するHLA型の伝播を予測する際のリスク推定を改善することができる。
実施例10:乾癬疾患のリスク推定値へのHLAタイピングの組み込み
乾癬を発症するリスクに関連する2つのHLA型の有無は、胚に対する疾患リスク全体に明らかな影響を及ぼす。この例は、表8に示すとおり、精子提供者の選択または個人のゲノムレポートの文脈に拡張できる。
乾癬を発症するリスクに関連する2つのHLA型の有無は、胚に対する疾患リスク全体に明らかな影響を及ぼす。この例は、表8に示すとおり、精子提供者の選択または個人のゲノムレポートの文脈に拡張できる。
家族歴を組み込んで、疾患に関連するHLA型の伝番を予測する際のリスク推定をさらに改善することができる。この技術は、結果として生じる胎児のRh状態を含む胚ゲノムから血液型を予測するために拡張することができる。
実施例11:形質予測精度の改善
多遺伝子モデルでのバリアントの遺伝子型が胚内で不明である場合は、親の遺伝子型を使用して、形質予測の精度を改善することができる。集団の対立遺伝子頻度(AF)または推定遺伝子型の代わりに、その部位(複数可)での親遺伝子型を考慮して、可能性のある遺伝子型の確率を使用する。以下の表9の確率を使用して、可能性のある各遺伝子型の用量を、リスクスコアに追加する。実際には、4つのバリアントが胚では予測されなかったクローン病の多遺伝子モデルの予測の改善を示す以下の表10に示すとおり、これにより、多遺伝子リスクの予測パーセンタイルによって測定される予測精度が改善される。真の多遺伝子リスクスコアパーセンタイル(「真」)は、WGSからの直接遺伝子型決定を使用して決定される。
多遺伝子モデルでのバリアントの遺伝子型が胚内で不明である場合は、親の遺伝子型を使用して、形質予測の精度を改善することができる。集団の対立遺伝子頻度(AF)または推定遺伝子型の代わりに、その部位(複数可)での親遺伝子型を考慮して、可能性のある遺伝子型の確率を使用する。以下の表9の確率を使用して、可能性のある各遺伝子型の用量を、リスクスコアに追加する。実際には、4つのバリアントが胚では予測されなかったクローン病の多遺伝子モデルの予測の改善を示す以下の表10に示すとおり、これにより、多遺伝子リスクの予測パーセンタイルによって測定される予測精度が改善される。真の多遺伝子リスクスコアパーセンタイル(「真」)は、WGSからの直接遺伝子型決定を使用して決定される。
実施例12:ハプロタイプ疾患リスク
一部の疾患リスクは、個々のバリアントではなく、フェージングされたハプロタイプに基づく。形質リスクのより精度の高い予測を行うために、胚の再構築により、フェージングされたハプロタイプを生成する。以下の表11は、APOE遺伝子のハプロタイプおよびアルツハイマー病の関連リスクを示している(Corderら、1994年)。
一部の疾患リスクは、個々のバリアントではなく、フェージングされたハプロタイプに基づく。形質リスクのより精度の高い予測を行うために、胚の再構築により、フェージングされたハプロタイプを生成する。以下の表11は、APOE遺伝子のハプロタイプおよびアルツハイマー病の関連リスクを示している(Corderら、1994年)。
2つのバリアントは、APOE遺伝子内で、138bp離れている。胚内のスパース測定では、rs429358もrs7412も測定されていない。これは、胚におけるアルツハイマー病のリスクを推定することを含まない。しかし、胚再構築法は、親の遺伝子型を使用して、胚がε3/ε3であることを推測するために使用できる完全にフェージングされた胚ゲノムを予測する。この結果は、生まれた子供の全ゲノム配列決定によって後に検証される。
したがって、胚の再構築により、APOEハプロタイプおよびアルツハイマー病、一般に、ハプロタイプに基づく疾患状態のリスク予測が可能になる。
実施例13:スパース遺伝子型の足場
ゲノム全体のフェージングを行う際の足場としてスパース遺伝子型決定を使用することにより(例えば、図13を参照)、スイッチエラー率(SER)によって測定した場合、リファレンスパネルのみよりも成績が改善される。この手法を十分に研究されたサンプルNA12878に適用することにより、全体的なSERが、1000人ゲノムリファレンスパネルのみを使用した場合の0.6%から、リファレンスパネルと組み合わせた足場として約140kの高信頼性フェージング遺伝子型のセットを使用した場合の0.54%まで低下したことがわかった。この差は、主にロングスイッチエラーの減少によるものである。例えば、1番染色体では、ロングスイッチエラーの生の数データが60%より多く減少する(169対60)。全体として、組み合わせたアプローチ(足場+リファレンスパネル)により、ロングスイッチのエラー率が0.12%から0.04%に減少した。ロングスイッチエラーは、伝播されることが予測される誤ったブロックをもたらすため、胚の再構築において重要である。
ゲノム全体のフェージングを行う際の足場としてスパース遺伝子型決定を使用することにより(例えば、図13を参照)、スイッチエラー率(SER)によって測定した場合、リファレンスパネルのみよりも成績が改善される。この手法を十分に研究されたサンプルNA12878に適用することにより、全体的なSERが、1000人ゲノムリファレンスパネルのみを使用した場合の0.6%から、リファレンスパネルと組み合わせた足場として約140kの高信頼性フェージング遺伝子型のセットを使用した場合の0.54%まで低下したことがわかった。この差は、主にロングスイッチエラーの減少によるものである。例えば、1番染色体では、ロングスイッチエラーの生の数データが60%より多く減少する(169対60)。全体として、組み合わせたアプローチ(足場+リファレンスパネル)により、ロングスイッチのエラー率が0.12%から0.04%に減少した。ロングスイッチエラーは、伝播されることが予測される誤ったブロックをもたらすため、胚の再構築において重要である。
実施例14:多遺伝子リスクスコア
大規模なゲノムワイド関連解析(GWAS)により、幅広い様々な疾患に関連する遺伝的バリアントが特定されている。これらの関連性は、疾患生物学の機能研究、創薬ターゲットの発見、および疾患リスク予測の改善への道を開いた。個々の一般的な遺伝的バリアントは、ほとんど予測値を有さない可能性があるが、これらのバリアントを遺伝的リスクスコアに組み合わせることにより、疾患の遺伝的リスクのより大きな割合を説明できる。これらの多遺伝子座の遺伝的リスクスコアは、多遺伝子リスクスコア(PRS)とも呼ばれ、最も一般的には、疾患関連遺伝子型の加重和としてコンピュータで計算される。
ここで、PRSindは特定の個人およびn個の関連するバリアントを有する疾患の多遺伝子リスクスコアであり、Wiは通常、GWAS効果量から導き出される、i番目のバリアントの重みであり、Giは、i番目のバリアントのリスク対立遺伝子に対する個人の遺伝子型である。PRSは、近年、心血管疾患、乳がん、およびII型糖尿病など、様々な疾患のリスクを予測する可能性について調査されている。これらのアプローチは、これらの疾患のリスクによって個人を層別化する能力を実証した。
大規模なゲノムワイド関連解析(GWAS)により、幅広い様々な疾患に関連する遺伝的バリアントが特定されている。これらの関連性は、疾患生物学の機能研究、創薬ターゲットの発見、および疾患リスク予測の改善への道を開いた。個々の一般的な遺伝的バリアントは、ほとんど予測値を有さない可能性があるが、これらのバリアントを遺伝的リスクスコアに組み合わせることにより、疾患の遺伝的リスクのより大きな割合を説明できる。これらの多遺伝子座の遺伝的リスクスコアは、多遺伝子リスクスコア(PRS)とも呼ばれ、最も一般的には、疾患関連遺伝子型の加重和としてコンピュータで計算される。
多遺伝子モデルを検証し、実装し、消費者レポートでリスク推定値を可視化する方法について記載する。
多遺伝子リスクモデルの選択
幅広い集団からの少なくとも1000名の個人について検査が行われている目的の各状態について、以前に公開された多遺伝子モデルを優先した。これは、統計学的検出力が限られている小規模な研究、および他の集団に変換され得ない孤立した集団で試験を行った研究を除外した。UKBB研究環境での個人からのデータを使用したモデルも除外した。0.65を超える曲線下面積(AUC)、および/または上位分位数と下位分位数(詳細については以下を参照)の個人のオッズ比(OR)が2を超えることが報告されたモデルを選択した。公開モデルの特性およびその評価統計の一覧を表13に示す。
幅広い集団からの少なくとも1000名の個人について検査が行われている目的の各状態について、以前に公開された多遺伝子モデルを優先した。これは、統計学的検出力が限られている小規模な研究、および他の集団に変換され得ない孤立した集団で試験を行った研究を除外した。UKBB研究環境での個人からのデータを使用したモデルも除外した。0.65を超える曲線下面積(AUC)、および/または上位分位数と下位分位数(詳細については以下を参照)の個人のオッズ比(OR)が2を超えることが報告されたモデルを選択した。公開モデルの特性およびその評価統計の一覧を表13に示す。
公開モデルが利用できない場合、GWASカタログからゲノムワイドの有意なp値の閾値(p<5e-8)を満たすSNPを使用して、前述のとおりスコアを構築した(PMID:30309464)
UK Biobankでの各表現型の定義
UK Biobankコホートのデータを使用して、各モデルの検証および標準化を行った。このリソースには、500,000人の個人に関する遺伝情報および疾患情報が両方とも含まれている。以下の分析には、無関係の個人のみを使用した。表14に示すとおり、ICD-9コードとICD-10コードとの組み合わせ、ならびに自己報告による疾患、および目的の各表現型を定義するための手順コードを使用した。
UK Biobankコホートのデータを使用して、各モデルの検証および標準化を行った。このリソースには、500,000人の個人に関する遺伝情報および疾患情報が両方とも含まれている。以下の分析には、無関係の個人のみを使用した。表14に示すとおり、ICD-9コードとICD-10コードとの組み合わせ、ならびに自己報告による疾患、および目的の各表現型を定義するための手順コードを使用した。
個人を、多遺伝子リスクスコア(PGS)によって層別化し、この集団における疾患の発生率を調査した。
UKBBデータセットを使用したモデルの評価。
多遺伝子リスクスコアを、疾患に関連する遺伝子型の加重和として算出した。UKBBでの各個人のスコアを算出し、モデルの成績を評価するために様々なメトリクスを使用した。
多遺伝子リスクスコアを、疾患に関連する遺伝子型の加重和として算出した。UKBBでの各個人のスコアを算出し、モデルの成績を評価するために様々なメトリクスを使用した。
症例および対照全体におけるPRSの分布:
データセットを、各形質に関して症例および対照に分割し、スコアの分布を、症例および対照に対して別々に生成した。これらの分布の視覚的検査を行うことにより、各モデルが症例および対照をどのぐらい適切に区別できるかについての一般的な考えが得られた。例として、図14は、関節リウマチの症例および対照に関するPRSの分布(平均値を0に、標準偏差を1にスケーリングした)を示している。
データセットを、各形質に関して症例および対照に分割し、スコアの分布を、症例および対照に対して別々に生成した。これらの分布の視覚的検査を行うことにより、各モデルが症例および対照をどのぐらい適切に区別できるかについての一般的な考えが得られた。例として、図14は、関節リウマチの症例および対照に関するPRSの分布(平均値を0に、標準偏差を1にスケーリングした)を示している。
受信者動作曲線(ROC):
ROCおよび曲線下面積(AUC)は、様々なリスク閾値でのモデルの感度および特異度をプロットすることによって算出した。
ROCおよび曲線下面積(AUC)は、様々なリスク閾値でのモデルの感度および特異度をプロットすることによって算出した。
PRSの十分位数への階層化:
UK Biobankの個人を、異なる疾患のリスクプロファイルを有する群に階層化した。最も高いリスクの個人(PRSの上位10分の1)を、リスク中央値を有する個人(PRSが分布の中央の40~60パーセンタイルにある個人)と比較した。十分位数の各疾患の疾患有病率をプロットし、リスクの中央値に対する高リスクの比率を疾患全体で算出した。図15は、関節リウマチの十分位数あたりのORを示している。
UK Biobankの個人を、異なる疾患のリスクプロファイルを有する群に階層化した。最も高いリスクの個人(PRSの上位10分の1)を、リスク中央値を有する個人(PRSが分布の中央の40~60パーセンタイルにある個人)と比較した。十分位数の各疾患の疾患有病率をプロットし、リスクの中央値に対する高リスクの比率を疾患全体で算出した。図15は、関節リウマチの十分位数あたりのORを示している。
年齢および性別を組み込んだ回帰分析:
UK biobankデータセット内のすべての無関係な個人のPRSを算出後、ロジスティック回帰を各モデルに適用した。βPGSは、PRSの回帰係数であり、PRSを平均0および標準偏差1に標準化した場合のオッズ比に対応する。年齢および性別は、利用可能かつ適用可能な場合に組み込んだ。
UK biobankデータセット内のすべての無関係な個人のPRSを算出後、ロジスティック回帰を各モデルに適用した。βPGSは、PRSの回帰係数であり、PRSを平均0および標準偏差1に標準化した場合のオッズ比に対応する。年齢および性別は、利用可能かつ適用可能な場合に組み込んだ。
次に、オッズ比を使用して、報告することを目的として、高リスクおよび中間結果の閾値を決定した。
疾患ごとのOR/SD(平均中心対z変換)
上記のロジスティックモデルに従って、PRSのOR/SDは、効果量をコンピュータで計算する前にPRS変数(平均0、SD1)を標準化することによって得た。このプロセスは、2つの目標を達成するのに有用である。最初に、PRSのリスク層別化能力を疾患間で直接比較することができる。様々な疾患のPRSは、SNPの数およびそれぞれの効果量が異なるため、大きく異なるスケールである。それらの対応する効果量は、標準化されていない場合、直接比較することもできない。すべてのPRSを標準化することにより、モデルをOR/SDに基づいて直接ランク付けでき、これにより、疾患リスクに基づいて集団を分離する能力を反映したランク付けが得られる。第2に、米国の集団へのUKBB効果推定の統計的に正確な適用が可能になることである。UKBBを使用して効果量を推定し、それをオッズ比に変換した。これらのオッズ比から相対リスクを推定した場合(以下を参照)、米国での集団の疾患有病率を使用して、米国での特定のPRSを有する個人の相対リスクを正確に把握した。UKBB PRSの標準化(UKBB平均およびSDを使用)により、(米国のPRS平均およびSDで調整した後)米国の個人のPRSをモデルで使用できるようになる。遺伝学のランダムな組み合わせにより、少なくとも欧州の祖先を有する個人については、集団でのPRSの同様の平均およびSDが期待できる。分析結果を表16に示す。
上記のロジスティックモデルに従って、PRSのOR/SDは、効果量をコンピュータで計算する前にPRS変数(平均0、SD1)を標準化することによって得た。このプロセスは、2つの目標を達成するのに有用である。最初に、PRSのリスク層別化能力を疾患間で直接比較することができる。様々な疾患のPRSは、SNPの数およびそれぞれの効果量が異なるため、大きく異なるスケールである。それらの対応する効果量は、標準化されていない場合、直接比較することもできない。すべてのPRSを標準化することにより、モデルをOR/SDに基づいて直接ランク付けでき、これにより、疾患リスクに基づいて集団を分離する能力を反映したランク付けが得られる。第2に、米国の集団へのUKBB効果推定の統計的に正確な適用が可能になることである。UKBBを使用して効果量を推定し、それをオッズ比に変換した。これらのオッズ比から相対リスクを推定した場合(以下を参照)、米国での集団の疾患有病率を使用して、米国での特定のPRSを有する個人の相対リスクを正確に把握した。UKBB PRSの標準化(UKBB平均およびSDを使用)により、(米国のPRS平均およびSDで調整した後)米国の個人のPRSをモデルで使用できるようになる。遺伝学のランダムな組み合わせにより、少なくとも欧州の祖先を有する個人については、集団でのPRSの同様の平均およびSDが期待できる。分析結果を表16に示す。
疾患対年齢のPRS層別化:
個人を異なるリスク群に階層化した後、UKBBデータを使用して、これらの様々な群内で疾患と診断された集団の割合を推定した。この情報を、高リスク群(PRSによる個人の上位5%)および平均リスク群(集団全体)など、様々な層において視覚的にプロットした。目的の個人が75パーセンタイルにおいてPRSを有すると想定して、本発明者らの特定の目的の個人と類似の遺伝的リスクを有する個人の群について診断された予測パーセンテージを示した。
個人を異なるリスク群に階層化した後、UKBBデータを使用して、これらの様々な群内で疾患と診断された集団の割合を推定した。この情報を、高リスク群(PRSによる個人の上位5%)および平均リスク群(集団全体)など、様々な層において視覚的にプロットした。目的の個人が75パーセンタイルにおいてPRSを有すると想定して、本発明者らの特定の目的の個人と類似の遺伝的リスクを有する個人の群について診断された予測パーセンテージを示した。
このプロットは、疾患のリスクに基づいて個人を層別化する際のPRSの有用性を説明するのに有用である。異なるPRS層内で診断された集団の割合が明確に分離していることを確認することにより、リスクに基づいて個人を分離するモデルの能力が確認される。
個人の調整された生涯リスクのコンピュータによる計算:
米国での人々の性別の平均生涯リスクから開始できる。次に、ゲノム内のリスクマーカーを評価して、そのマーカーに基づいて、多遺伝子スコアを算出する。この情報を、上記のUKBBのデータを使用して「オッズ比」に変換する。最後に、式を使用してこのオッズ比と平均生涯リスクを因数分解し、この変化を伴う個人の生涯リスクを推定する:
米国での人々の性別の平均生涯リスクから開始できる。次に、ゲノム内のリスクマーカーを評価して、そのマーカーに基づいて、多遺伝子スコアを算出する。この情報を、上記のUKBBのデータを使用して「オッズ比」に変換する。最後に、式を使用してこのオッズ比と平均生涯リスクを因数分解し、この変化を伴う個人の生涯リスクを推定する:
ここで、P0は、UKBBにおける状態の有病率であり、C0は、米国の状態の平均生涯リスク、ORは、上記で計算されたオッズ比である。結果は、集団の平均と比較した個人自身の生涯リスクの推定値である。一部の状態では、平均生涯リスクは利用できない。これらの場合、分析された遺伝学がリスクの増加を示すか否かが示される。
「高リスク」の閾値の定義
場合によっては、既知のリスク因子に基づいて、高い遺伝的リスクの閾値を設定した。例えば、一親等親族が罹患している個人のI型糖尿病を発症する相対リスクは、6.6である。したがって、その相対リスクに対応するI型糖尿病のPRSに対する高リスク閾値を設定した。これを利用できない、またはこのモデルにより閾値を達成できなかった表現型については、相対リスクが2倍または絶対リスクが10%増加した個人を高リスクとして指定した。ライフスタイルまたは臨床的因子が高リスク閾値を示した表現型のサブセットの評価メトリクスを表17に示す。
場合によっては、既知のリスク因子に基づいて、高い遺伝的リスクの閾値を設定した。例えば、一親等親族が罹患している個人のI型糖尿病を発症する相対リスクは、6.6である。したがって、その相対リスクに対応するI型糖尿病のPRSに対する高リスク閾値を設定した。これを利用できない、またはこのモデルにより閾値を達成できなかった表現型については、相対リスクが2倍または絶対リスクが10%増加した個人を高リスクとして指定した。ライフスタイルまたは臨床的因子が高リスク閾値を示した表現型のサブセットの評価メトリクスを表17に示す。
実施例15:多因子状態(多遺伝子リスクスコア)
提出されたサンプルから得られたゲノムDNAを、IlluminaまたはBGI technologyのいずれかを使用して配列決定を行った。リードを、リファレンス配列(hg19)にアラインし、配列の変化を特定した。一部の遺伝子については、特定の変化のみを分析した。上記に別段の記載がない限り、欠失および重複については、調査しなかった。一部のシナリオでは、HLA型の独立した検証が外部研究所によって実施されていてもよい。選択されたバリアントを、ACMG(American College of Medical Genetics)ガイドラインに従って注釈を付け、解釈した。病原性または病原性の可能性のあるバリアントのみを報告する。胚および親の遺伝子型決定およびその後の「ペアレントサポート」分析を行った。胚のゲノムを、胚の遺伝子型を使用して再構築し、親の全ゲノム配列を、ゲノム再構築アルゴリズムを使用して再構築した。胚に影響を有することが予測される親のゲノムで観察されたバリアントのみを、再構築された胚のゲノムで調べた。状態のサブセットについて、多遺伝子リスクスコアを算出した。各状態のモデルを、UK Biobank集団で評価した。いくつかの多遺伝子リスクスコアを、HLA型を使用して精密化してもよい。個人の生涯リスクは、人口統計情報および多遺伝子リスクスコアに従ってベースラインリスク(米国の人口)を調整することによって計算した。上下の十分位数が10%の生涯リスクの差または生涯リスクの1.9倍の増加をもたらしたモデルをレポートに含めた。モデルおよびゲノム再構築の性能の利用可能なエビデンスに基づいて、研究者の裁量に従って、特定の状態(例えば、双極性障害)を実験の節で維持した。特定の胚の様々な状態の生涯リスクを図16A~Cに示す。
提出されたサンプルから得られたゲノムDNAを、IlluminaまたはBGI technologyのいずれかを使用して配列決定を行った。リードを、リファレンス配列(hg19)にアラインし、配列の変化を特定した。一部の遺伝子については、特定の変化のみを分析した。上記に別段の記載がない限り、欠失および重複については、調査しなかった。一部のシナリオでは、HLA型の独立した検証が外部研究所によって実施されていてもよい。選択されたバリアントを、ACMG(American College of Medical Genetics)ガイドラインに従って注釈を付け、解釈した。病原性または病原性の可能性のあるバリアントのみを報告する。胚および親の遺伝子型決定およびその後の「ペアレントサポート」分析を行った。胚のゲノムを、胚の遺伝子型を使用して再構築し、親の全ゲノム配列を、ゲノム再構築アルゴリズムを使用して再構築した。胚に影響を有することが予測される親のゲノムで観察されたバリアントのみを、再構築された胚のゲノムで調べた。状態のサブセットについて、多遺伝子リスクスコアを算出した。各状態のモデルを、UK Biobank集団で評価した。いくつかの多遺伝子リスクスコアを、HLA型を使用して精密化してもよい。個人の生涯リスクは、人口統計情報および多遺伝子リスクスコアに従ってベースラインリスク(米国の人口)を調整することによって計算した。上下の十分位数が10%の生涯リスクの差または生涯リスクの1.9倍の増加をもたらしたモデルをレポートに含めた。モデルおよびゲノム再構築の性能の利用可能なエビデンスに基づいて、研究者の裁量に従って、特定の状態(例えば、双極性障害)を実験の節で維持した。特定の胚の様々な状態の生涯リスクを図16A~Cに示す。
特定の例として、乾癬を使用して、図17A~Bは、3つの例示的な胚における乾癬の素因に関連するリスクスコアを示している。
実施例16:ハプロタイプ分解ゲノム配列決定を使用した胚の全ゲノム予測
ハプロタイプ分解ゲノム配列決定を、胚の全ゲノム配列を予測するために、胚からの単一または少数の細胞胚生検からの遺伝子型のスパースセットと組み合わせた。具体的には、stLFR技術を、父親のハプロタイプ分解ゲノム配列決定に使用した。成績を、まれなヘテロ接合体の位置(1%以下の対立遺伝子頻度として定義)で評価した。230,117の部位の遺伝は、胚において精度89.5%で予測された。
ハプロタイプ分解ゲノム配列決定を、胚の全ゲノム配列を予測するために、胚からの単一または少数の細胞胚生検からの遺伝子型のスパースセットと組み合わせた。具体的には、stLFR技術を、父親のハプロタイプ分解ゲノム配列決定に使用した。成績を、まれなヘテロ接合体の位置(1%以下の対立遺伝子頻度として定義)で評価した。230,117の部位の遺伝は、胚において精度89.5%で予測された。
この研究で使用された材料は、着床前遺伝子診断で以前にIVFのラウンドが成功している参加者から遡及的に入手した(表16)。合計10個の胚(5日目)からの栄養外胚葉生検を、迅速な24時間マイクロアレイプロトコルを使用して、300,000の一般的なSNPのパネルに対してそれぞれ遺伝子型を決定した。さらに、各親および4人の祖父母すべてを同じパネルで遺伝子型を決定した。
ゲノムDNAを、全血または唾液サンプルから抽出した。新生児および母方のDNAを、BGIプラットフォームで30XWGSを使用して処理した。父方のサンプルを、stLFRを使用して処理した。10個の5日目の胚からの栄養外胚葉生検を、すべてのサンプルにおいてIllumina CytoSNP-12チップを使用する高速マイクロアレイプロトコルを使用して、親および祖父母とのDNA抽出、増幅、および遺伝子型決定を行った。Kumarら2015に詳述されているとおり、兄弟胚および親SNPアレイの測定値は、「ペアレントサポート」(PS)法(図18、19)を使用して組み合わせた。胚の全ゲノム配列は、PS胚の遺伝子型を親のハプロタイプブロックと組み合わせることによって予測した(図18を参照)。
実施例17:ハプロタイプブロックおよび親情報からの全染色体のハプロタイプの構築
IVF設定で染色体長ハプロタイプを構築するために、両方の親のハプロタイプ分解ゲノム配列決定を、兄弟胚由来のスパース遺伝子型からの情報と組み合わせた。「ペアレントサポート」(PS)法の一部として、各親のヘテロ接合SNVの最大尤度推定値(Maximum Likelihood Estimate(MLE))フェーズを、HapMapデータベースからの組換え頻度を親からのSNPアレイ測定値および兄弟胚からのSNPアレイ測定値と組み合わせることによって作成する。このスパース染色体長のハプロタイプは、胚のゲノムの予測には十分ではなかったが、受け継がれるゲノム配列を予測するために、親サンプルから分子的に得られた高密度ハプロタイプ(例えば、ロングフラグメントリード技術、10xゲノミクス、CPT-seq、Pacific Biosciences、Hi-Cを使用する)と組み合わせることができる。
IVF設定で染色体長ハプロタイプを構築するために、両方の親のハプロタイプ分解ゲノム配列決定を、兄弟胚由来のスパース遺伝子型からの情報と組み合わせた。「ペアレントサポート」(PS)法の一部として、各親のヘテロ接合SNVの最大尤度推定値(Maximum Likelihood Estimate(MLE))フェーズを、HapMapデータベースからの組換え頻度を親からのSNPアレイ測定値および兄弟胚からのSNPアレイ測定値と組み合わせることによって作成する。このスパース染色体長のハプロタイプは、胚のゲノムの予測には十分ではなかったが、受け継がれるゲノム配列を予測するために、親サンプルから分子的に得られた高密度ハプロタイプ(例えば、ロングフラグメントリード技術、10xゲノミクス、CPT-seq、Pacific Biosciences、Hi-Cを使用する)と組み合わせることができる。
いくつかのデータストリームを使用して情報を得た。高密度ハプロタイプブロックを生成するために、最初のショットガン配列決定を、母親および父親のそれぞれ中央値34xおよび30xのカバレッジで実施した。次に、in vitro希釈プール増幅によって得られたゲノムDNAの半数体サブセットの配列決定を行うことにより、母親の194万のヘテロ接合SNVの94.2%および父親の189万のヘテロ接合SNVの92.4%を長いハプロタイプブロックに直接フェージングさせた。これらの分子的に得られた「高密度ハプロタイプブロック」を、スパースであるが染色体長のハプロタイプと組み合せて、親の染色体長ハプロタイプ分解ゲノム配列を構築させた。この配列情報は、その後、胚の受け継がれるゲノム配列を予測するために使用されたが、2人の親の将来の子孫を予測するためにも使用できるであろう(例えば、将来の子供をもたらす将来の卵子および精子をシミュレートすることによって)。
胚の全ゲノム予測の将来のワークフローを図19に示す。最初の訪問時に、患者の採血を行い、この血液は、各親の全ゲノム配列を生成するために使用され、かつカップルがそのリスクにある可能性のある障害を予測するために使用される。カウンセリング後、親はIVFを受け、従来のIVF PGD技術を使用して胚の遺伝子型を決定し、この情報を親の全ゲノム配列情報(ハプロタイプ分解)と組み合わされて、胚の受け継がれるゲノムを予測し、疾患リスクを評価する。
兄弟の胚および親の遺伝子型は、染色体長の親のハプロタイプを構築するために使用される。統計的アプローチ(最尤推定など)を使用して、各兄弟胚から得られたノイズの多い情報および減数分裂組換え頻度のデータベースから親フェーズを決定する。
全染色体ハプロタイプの構築
全染色体ハプロタイプは、親、祖父母、または子供を含むがこれらに限定されない、個人の親族のゲノムを配列決定することによって構築される。同じ人の子供を2人以上有する個人の場合は、個人、そのパートナー、および2人以上の子供の全ゲノム配列決定を実施することによって、ならびに各子供によって受け継がれた遺伝子座を決定することによって、個人の全染色体のフェーズを得ることができる(図20)。これにより、DNA配列決定プロセスを変更することなく、全染色体ベースのハプロタイプ情報が提供される。これは、例えば、カップルがすでに2人の子供を有し、もう1人の子供を求めていて、いかなる祖父母のDNAサンプルもない場合に行う例では適切であろう。
全染色体ハプロタイプは、親、祖父母、または子供を含むがこれらに限定されない、個人の親族のゲノムを配列決定することによって構築される。同じ人の子供を2人以上有する個人の場合は、個人、そのパートナー、および2人以上の子供の全ゲノム配列決定を実施することによって、ならびに各子供によって受け継がれた遺伝子座を決定することによって、個人の全染色体のフェーズを得ることができる(図20)。これにより、DNA配列決定プロセスを変更することなく、全染色体ベースのハプロタイプ情報が提供される。これは、例えば、カップルがすでに2人の子供を有し、もう1人の子供を求めていて、いかなる祖父母のDNAサンプルもない場合に行う例では適切であろう。
個々の精子からの染色体ハプロタイプ
実施例17の方法は、個々の精子から得られたDNAを配列決定することによって得られた全染色体ハプロタイプを用いて実施される。
実施例17の方法は、個々の精子から得られたDNAを配列決定することによって得られた全染色体ハプロタイプを用いて実施される。
実施例18:胚ゲノム予測を使用して、遺伝的に複雑な疾患の多遺伝子リスクスコアを算出する。
ゲノムワイド関連研究により、I型糖尿病、統合失調症、クローン病、セリアック病、アルツハイマー病などの状態の多遺伝子リスクスコアモデルの構築が可能になった。これらのアプローチには、疾患に関連付けられたSNPの観察されたオッズ比を含むゲノムワイドの有意なSNPのリストを取得することと、その個人に見られるSNPの配位に応じて、各個人の「リスクスコア」を算出することとを含む。このアプローチを使用して、兄弟の多遺伝子リスクスコアを算出し、IVFサイクルで兄弟胚を比較する際に見られる多遺伝子リスクスコアをシミュレートした。12人の兄弟、2人の親、4人の祖父母の、公的に利用可能な家系からのゲノム配列を使用した。各ゲノムバリアントファイル(VCFファイル)を、PLINKファイルに変換し、plink‐スコアコマンドをバリアントの表で使用し、家族における各個人の多遺伝子リスクスコアを算出した。多遺伝子リスクスコアを、兄弟のそれぞれおよび2人の親について算出した。多遺伝子リスクスコアは、1000人ゲノムコホートの各個人(約2500人)、および白人である個人のサブセット(約200~300人)についても算出した。家族の各メンバーの多遺伝子リスクスコアを、集団が一致した(欧州の)個人グループの多遺伝子リスクスコアと比較して、その個人が高リスクか低リスクかを判断した。
ゲノムワイド関連研究により、I型糖尿病、統合失調症、クローン病、セリアック病、アルツハイマー病などの状態の多遺伝子リスクスコアモデルの構築が可能になった。これらのアプローチには、疾患に関連付けられたSNPの観察されたオッズ比を含むゲノムワイドの有意なSNPのリストを取得することと、その個人に見られるSNPの配位に応じて、各個人の「リスクスコア」を算出することとを含む。このアプローチを使用して、兄弟の多遺伝子リスクスコアを算出し、IVFサイクルで兄弟胚を比較する際に見られる多遺伝子リスクスコアをシミュレートした。12人の兄弟、2人の親、4人の祖父母の、公的に利用可能な家系からのゲノム配列を使用した。各ゲノムバリアントファイル(VCFファイル)を、PLINKファイルに変換し、plink‐スコアコマンドをバリアントの表で使用し、家族における各個人の多遺伝子リスクスコアを算出した。多遺伝子リスクスコアを、兄弟のそれぞれおよび2人の親について算出した。多遺伝子リスクスコアは、1000人ゲノムコホートの各個人(約2500人)、および白人である個人のサブセット(約200~300人)についても算出した。家族の各メンバーの多遺伝子リスクスコアを、集団が一致した(欧州の)個人グループの多遺伝子リスクスコアと比較して、その個人が高リスクか低リスクかを判断した。
セリアック病の多遺伝子リスクスコアは、複数のSNPを組み込んだ白人集団内で開発されている(Abrahamら、2014;PMC PMC3923679)。このモデルは、セリアック病に対する感度が高く、特定のPRS閾値でこのアプローチの負の予測値を算出できる。セリアック病の家族歴を想定して、本発明者らは、特定のPRS(-1未満)で99.4%の負の予測値を推定する。各個人のPRSを算出した後、2人の個人のPRSは、この閾値未満であった。IVFの文脈では、本発明者らは、これらの2つの胚を、着床のために選択でき、疾患のリスクが約10分の1減少すると推定する。
アルツハイマー病の多遺伝子リスクスコアは、以前に開発されており、アルツハイマー病の早期発症と関連していることがわかっている(Desikanら、2017年;PMC5360219;表2)。親のPRSは、濃青色の破線で示されている。胚PRSの各々は、灰色の破線で示されている。各個人のPRSを算出した後、最も低い多遺伝子リスクスコアを有する個人は、最も高い多遺伝子リスクスコアを有する胚と比較して、アルツハイマー病のリスクが低下していると予測される(発症年齢中央値は、80歳ではなく87歳)。
実施例19:関連性の計算
胚の遺伝子型を使用して、望ましくない遺伝的性質を有する個人との関連性指数を算出する。例えば、統合失調症の母方の祖父母を考える。ステップ1:実施例1および実施例2から胚のゲノムを推測した後、各胚と罹患した個人のゲノムとの関連性を算出する。ステップ2:罹患した個人と最も低い関連性を有する胚を選択する。
胚の遺伝子型を使用して、望ましくない遺伝的性質を有する個人との関連性指数を算出する。例えば、統合失調症の母方の祖父母を考える。ステップ1:実施例1および実施例2から胚のゲノムを推測した後、各胚と罹患した個人のゲノムとの関連性を算出する。ステップ2:罹患した個人と最も低い関連性を有する胚を選択する。
実施例20:家系による同一性(Identity by Descent)を介して算出された遺伝的関連性を使用して、疾患リスクを予測する
実施例3の拡張型であり、疾患予測において、罹患した個人との遺伝的関連性の代わりに、家系による同一性(IBD)を使用する。様々な兄弟胚は、罹患した家族の親族とは異なるIBDを有するため、PRSスコアに加えてこの情報を使用して、胚の疾患リスクの確率をさらに高めることができる。以下の例では、疾患のリスクが罹患した個人のゲノム全体に均等に広がっていることを前提としている。したがって、リスクは、罹患した個人のIBDの程度に比例する。
log(P/(1-P))=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history+beta_4*IBD_affected_individual.
実施例3の拡張型であり、疾患予測において、罹患した個人との遺伝的関連性の代わりに、家系による同一性(IBD)を使用する。様々な兄弟胚は、罹患した家族の親族とは異なるIBDを有するため、PRSスコアに加えてこの情報を使用して、胚の疾患リスクの確率をさらに高めることができる。以下の例では、疾患のリスクが罹患した個人のゲノム全体に均等に広がっていることを前提としている。したがって、リスクは、罹患した個人のIBDの程度に比例する。
log(P/(1-P))=beta_1*PRS+beta_2*sex_male+beta_3*has_family_history+beta_4*IBD_affected_individual.
実施例21:共有ゲノム情報の領域
2人の個人間での共有される遺伝情報の領域を特定し、メンデルの法則の可能性を高め得るホモ接合性の領域を含まない胚を選択する。近親のカップルまたは遺伝的背景を共有しているカップルでは、子孫が、疾患を引き起こす領域に対してホモ接合である可能性がある。既知の疾患関連性を有する遺伝子は、ゲノム全体に不均一に広がっているため、既知の疾患を引き起こすゲノム領域内のホモ接合性の領域を回避することにより、疾患を最小限に抑えることができる。ステップ1:2人の親の間で共有される遺伝情報の領域を決定する。ステップ2:各胚のホモ接合領域の割合を算出する。ステップ3:疾患を引き起こすことが知られている領域の合計または領域全体でホモ接合性の最も低い領域を有する胚を選択する。
2人の個人間での共有される遺伝情報の領域を特定し、メンデルの法則の可能性を高め得るホモ接合性の領域を含まない胚を選択する。近親のカップルまたは遺伝的背景を共有しているカップルでは、子孫が、疾患を引き起こす領域に対してホモ接合である可能性がある。既知の疾患関連性を有する遺伝子は、ゲノム全体に不均一に広がっているため、既知の疾患を引き起こすゲノム領域内のホモ接合性の領域を回避することにより、疾患を最小限に抑えることができる。ステップ1:2人の親の間で共有される遺伝情報の領域を決定する。ステップ2:各胚のホモ接合領域の割合を算出する。ステップ3:疾患を引き起こすことが知られている領域の合計または領域全体でホモ接合性の最も低い領域を有する胚を選択する。
Claims (26)
- 胚に関連する疾患リスクを決定するための方法であって、
(a)父方対象に関連するゲノムを特定するために、前記父方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと;
(b)母方対象に関連するゲノムを特定するために、前記母方対象から得られた生物学的サンプルに対して全ゲノム配列決定を実施することと;
(c)父方ハプロタイプを特定するために、前記父方対象に関連するゲノムのフェージングを行うことと;
(d)母方ハプロタイプを特定するために、前記母方対象に関連するゲノムのフェージングを行うことと;
(e)前記胚内の1つ以上の遺伝的バリアントを特定するために、前記胚に対してスパース遺伝子型決定(sparse genotyping)を実施することと;
(f)(i)前記胚における前記1つ以上の遺伝的バリアント、(ii)前記父方ハプロタイプ、(iii)前記母方ハプロタイプ、(iv)前記父方ハプロタイプの伝播確率、および(v)前記母方ハプロタイプの伝播確率に基づいて、前記胚の前記ゲノムを構築することと;
(g)前記胚の前記構築されたゲノムに基づいて、多遺伝子リスクスコアを前記胚に割り当てることと;
(h)前記多遺伝子リスクスコアに基づいて、前記胚に関連する前記疾患リスクを決定することと;
(i)前記父方ゲノムおよび/または前記母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播を決定することと;
(j)前記多遺伝子性疾患リスク、ならびに前記父方ゲノムおよび/または母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの前記伝播に基づいて、前記胚に関連する複合疾患リスクを決定することと、を含む、方法。 - 胚に関連する疾患リスクを出力するための方法であって、
(a)父方ゲノムデータおよび母方ゲノムデータを含む第1のデータセットを受信することと;
(b)リファレンスゲノムに対して配列リードをアラインし、前記父方ゲノムデータおよび前記母方ゲノムデータを使用して、前記ゲノムの遺伝子型を決定することと;
(c)父方スパースゲノムデータおよび母方スパースゲノムデータを含む第2のデータセットを受信することと;
(d)父方ハプロタイプおよび母方ハプロタイプを特定するために、前記父方のゲノムデータおよび前記母方のゲノムデータのフェージングを行うことと;
(e)前記胚の父方伝播確率および母方伝播確率のスパースゲノムデータを含む第3のデータセットを受信することと;
(f)胚再構築アルゴリズムを(i)前記父方ハプロタイプおよび前記母方ハプロタイプ、(ii)前記胚のスパースゲノムデータ、ならびに(iii)前記父方ハプロタイプおよび前記母方ハプロタイプのそれぞれの伝播確率に適用して、前記胚の構築されたゲノムを決定することと;
(g)前記胚の前記構築されたゲノムに、多遺伝子モデルを適用することと;
(h)前記胚に関連する前記疾患リスクを出力することと;
(i)前記父方ゲノムおよび/または前記母方ゲノムから前記胚への、疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの伝播を決定することと;
(j)前記胚において疾患を引き起こすバリアントおよび/またはハプロタイプの有無を出力することと、を含む、方法。 - 前記多遺伝子性疾患リスク、ならびに前記父方ゲノムおよび/または母方ゲノムから前記胚への、単一遺伝子性疾患を引き起こす遺伝的バリアントおよび/またはハプロタイプの前記伝播に基づいて、前記胚に関連する複合疾患リスクを出力することをさらに含む、請求項2に記載の方法。
- 祖父母方のゲノムデータおよび/または祖母方のゲノムデータを使用して、父方ハプロタイプおよび/または母方ハプロタイプを決定することをさらに含む、請求項1~3のいずれか一項に記載の方法。
- 集団の遺伝子型データおよび/または集団の対立遺伝子頻度をさらに使用して、前記胚の前記疾患リスクを決定する、請求項1~4のいずれか一項に記載の方法。
- 疾患の家族歴および/または他のリスク因子をさらに使用して、疾患リスクを予測する、請求項1~5のいずれか一項に記載の方法。
- 前記全ゲノム配列決定が、標準的な、PCRフリーの、リンクドリード(例えば、合成ロングリード)、またはロングリードプロトコルを使用して実施される、請求項1または4~6のいずれか一項に記載の方法。
- 前記スパース遺伝子型決定が、マイクロアレイ技術、胚生検の次世代配列決定技術、または細胞培養培地の配列決定を使用して実施される、請求項1または4~7のいずれか一項に記載の方法。
- 前記フェージングが、集団ベースおよび/または分子ベースの方法(例えば、リンクドリード)を使用して実施される、請求項1~8のいずれか一項に記載の方法。
- 前記多遺伝子リスクスコアが、疾患モデルにおいて部位全体にわたる影響を合計することによって決定される、請求項1~9のいずれか一項に記載の方法。
- 前記集の団表現型データが、UK Biobankにおける少なくとも約300,000人の無関係な個人についての対立遺伝子頻度および個人の遺伝子型を含む、請求項4~11のいずれか一項に記載の方法。
- 前記集団の表現型データが、UK Biobankにおける少なくとも約300,000人の無関係な個人についての自己報告および臨床報告された(例えば、ICD-10コード)表現型の両方を含む、請求項4~11のいずれか一項に記載の方法。
- 前記集団の遺伝子型データが、UK Biobankにおける少なくとも約300,000人の無関係な個人についての自己報告データ、およびUK Biobankにおけるそれらの個人の親族から得られた情報を含む集団の家族歴データを含む、請求項4~11のいずれか一項に記載の方法。
- 前記疾患リスクが、罹患した個人によって共有される遺伝情報の割合によってさらに決定される、請求項13に記載の方法。
- 1人以上の将来の子供たちの疾患のリスクを決定するための方法であって、
(a)(i)予想される母親と1人以上の将来の精子提供者、または(ii)予想される父親と1人以上の将来の卵子提供者に対して全ゲノム配列決定を実施することと;
(b)(i)前記予想される母親と前記1人以上の将来の精子提供者、または(ii)前記予想される父親と前記1人以上の将来の卵子提供者の前記ゲノムのフェージングを行うことと;
(c)組換え率の推定に基づいて配偶子をシミュレートすることと;
(d)前記シミュレートされた配偶子を組み合わせて、1人以上の将来の子供のゲノムを生成することと;
(e)多遺伝子リスクスコアを前記1人以上の将来の子供のそれぞれに割り当てることと;
(f)前記多遺伝子リスクスコアに基づいて、疾患確率の分布を決定することと、を含む、方法。 - 将来の子供の疾患リスクの確率分布を出力するための方法であって、
(a)予想される母親のゲノムデータを含む第1のデータセットを受信することと;
(b)1人以上の予想される父親(例えば、精子提供者(複数可))からのゲノムデータを含む1つ以上のデータセットを受信することと;
(c)(例えば、HapMapコンソーシアムから得られる)推定された組換え率を使用して、配偶子をシミュレートすることと;
(d)配偶子の将来の組み合わせを使用して、1人以上の将来の子供のゲノムを生成することと;
(e)前記1人以上の将来の子供のそれぞれの前記ゲノムの多遺伝子リスクスコアを推定することと;
(f)前記多遺伝子リスクスコアに基づいて、疾患確率の分布を出力することと、を含む、方法。 - (i)予想される母親および将来の精子提供者、または(ii)予想される父親および将来の卵子提供者の将来の子供の疾患リスクの範囲を決定するための方法であって、
(a)(i)母親の遺伝子型と1人以上の精子提供者の遺伝子型を得るために、前記予想される母親と前記1人以上の将来の精子提供者に対して、または(ii)父親の遺伝子型と1人以上の卵子提供者の遺伝子型を得るために、前記予想される父親と前記1人以上の将来の卵子提供者に対して、全ゲノム配列決定を実施することと;
(b)(i)前記母方の遺伝子型と前記将来の精子提供者の遺伝子型(複数可)、または(ii)前記予想される父方の遺伝子型と前記将来の卵子提供者の遺伝子型(複数可)を使用して、1人以上の将来の子供の可能性のある遺伝子型を推定することと;
(c)前記将来の子供の前記可能性のある遺伝子型を使用して、前記将来の子供の可能性のある最も低い多遺伝子リスクスコアを推定することと;
(d)前記将来の子供の前記可能性のある遺伝子型を使用して、前記将来の子供の可能性のある最も高い多遺伝子リスクスコアを推定することと、を含む、方法。 - (i)予想される母親および1人以上の将来の精子提供者、または(ii)予想される父親および1人以上の将来の卵子提供者の将来の子供の疾患リスクの範囲を出力するための方法であって、
(a)予想される母親のゲノムデータまたは予想される父親のゲノムデータを含む第1のデータセットを受信することと;
(b)前記1人以上の予想される精子提供者または前記1人以上の予想される卵子提供者からのゲノムデータを含む1つ以上のデータセットを受信することと;
(c)(i)前記予想される母親と前記将来の精子提供者(複数可)、または(ii)前記予想される父親と前記将来の卵子提供者(複数可)の前記遺伝子型を使用して、将来の子供の可能性のある遺伝子型を導出することと;
(d)前記スコアを最小化するモデルにおいて、各部位で、前記遺伝子型((c)で導出されたもの)を選択することにより、前記将来の子供の最も低い多遺伝子リスクスコアを推定することと;
(e)前記スコアを最大化するモデルにおいて、各部位で、前記遺伝子型((c)で導出されたもの)を選択することにより、前記将来の子供の最も高い多遺伝子リスクスコアを推定することと;
(f)(d)および(e)で算出された前記最も低いスコアおよび前記最も高いスコアを使用して、疾患のリスクの範囲を出力することと、を含む、方法。 - 前記精子提供者(複数可)のために高密度の遺伝子型決定アレイを使用し、その後、直接遺伝子型決定されていない目的の部位に遺伝子型の補完を行う、請求項15~18のいずれか一項に記載の方法。
- 疾患の家族歴および/または他の関連するリスク因子をさらに使用して、疾患リスクを決定する、請求項15~19のいずれか一項に記載の方法。
- 前記全ゲノム配列決定が、標準的な、PCRフリーの、リンクドリード(すなわち、合成ロングリード)、またはロングリードプロトコルを使用して実施される、請求項15、17、19、または20のいずれか一項に記載の方法。
- 前記フェージングが、集団ベースおよび/または分子ベースの方法(例えば、リンクドリード)を使用して実施される、請求項15、19~21のいずれか一項に記載の方法。
- 前記多遺伝子リスクスコアが、前記疾患モデルにおいてすべての部位全体にわたる影響を合計することによって決定される、請求項15~22のいずれか一項に記載の方法。
- 前記集団の遺伝子型データが、UK Biobankにおける少なくとも約300,000人の無関係な個人の対立遺伝子頻度および個人の遺伝子型を含む、請求項22または23に記載の方法。
- 前記集団の表現型データが、UK Biobankにおける少なくとも約300,000人の無関係な個人についての自己報告および臨床報告された(例えば、ICD-10コード)表現型の両方を含む、請求項22~24のいずれか一項に記載の方法。
- 前記集団の家族歴が、UK Biobankの少なくとも約300,000人の無関係な個人の自己報告データ、およびUK Biobankのそれらの個人の親族から得られた情報を含む、請求項22~25のいずれか一項に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962908374P | 2019-09-30 | 2019-09-30 | |
US62/908,374 | 2019-09-30 | ||
US202063062044P | 2020-08-06 | 2020-08-06 | |
US63/062,044 | 2020-08-06 | ||
PCT/US2020/053514 WO2021067417A1 (en) | 2019-09-30 | 2020-09-30 | Polygenic risk score for in vitro fertilization |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022549737A true JP2022549737A (ja) | 2022-11-28 |
Family
ID=75338602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022519991A Pending JP2022549737A (ja) | 2019-09-30 | 2020-09-30 | In vitro受精に関する多遺伝子リスクスコア |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220367063A1 (ja) |
EP (1) | EP4041307A4 (ja) |
JP (1) | JP2022549737A (ja) |
CN (1) | CN114728069A (ja) |
WO (1) | WO2021067417A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114531916A (zh) * | 2019-06-21 | 2022-05-24 | 酷博尔外科器械有限公司 | 确定精子提供者、卵母细胞提供者和对应受孕体之间的遗传关系的系统和方法 |
AU2020369151A1 (en) * | 2019-10-22 | 2022-06-09 | Genembryomics Pty. Ltd. | Method for screening IVF embryos |
WO2023049941A1 (en) * | 2021-09-27 | 2023-03-30 | Myome, Inc. | Methods to simulate prospective embryo genotypes and approximate disease occurence risk |
WO2024092138A1 (en) * | 2022-10-27 | 2024-05-02 | Myome, Inc. | Approach for early detection of disease combining multiple data sources |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20041340A0 (fi) * | 2004-10-15 | 2004-10-15 | Jurilab Ltd Oy | Menetelmä ja testipakkaus äkillisen sydäninfarktin riskin havaitsemiseksi |
DK2557517T3 (da) * | 2007-07-23 | 2022-11-28 | Univ Hong Kong Chinese | Bestemmelse af ubalance i nukleinsyresekvens |
EP2227780A4 (en) * | 2008-03-19 | 2011-08-03 | Existence Genetics Llc | GENETIC ANALYSIS |
ES2640776T3 (es) * | 2009-09-30 | 2017-11-06 | Natera, Inc. | Métodos para denominar de forma no invasiva ploidía prenatal |
US8700338B2 (en) * | 2011-01-25 | 2014-04-15 | Ariosa Diagnosis, Inc. | Risk calculation for evaluation of fetal aneuploidy |
AU2016313506A1 (en) * | 2015-08-21 | 2018-03-08 | The Children's Hospital Of Philadelphia | Methods of treating autoimmune conditions in patients with genetic variations in DcR3 or in a DcR3 network gene |
-
2020
- 2020-09-30 JP JP2022519991A patent/JP2022549737A/ja active Pending
- 2020-09-30 CN CN202080080085.2A patent/CN114728069A/zh active Pending
- 2020-09-30 WO PCT/US2020/053514 patent/WO2021067417A1/en unknown
- 2020-09-30 US US17/765,073 patent/US20220367063A1/en active Pending
- 2020-09-30 EP EP20871833.8A patent/EP4041307A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4041307A4 (en) | 2023-10-18 |
US20220367063A1 (en) | 2022-11-17 |
WO2021067417A1 (en) | 2021-04-08 |
EP4041307A1 (en) | 2022-08-17 |
CN114728069A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schaid et al. | From genome-wide associations to candidate causal variants by statistical fine-mapping | |
Werling et al. | An analytical framework for whole-genome sequence association studies and its implications for autism spectrum disorder | |
Dewey et al. | Phased whole-genome genetic risk in a family quartet using a major allele reference sequence | |
Rosenberg et al. | Genome-wide association studies in diverse populations | |
JP2022549737A (ja) | In vitro受精に関する多遺伝子リスクスコア | |
US20190065670A1 (en) | Predicting disease burden from genome variants | |
Liu et al. | Replication strategies for rare variant complex trait association studies via next-generation sequencing | |
JP2014140387A (ja) | 遺伝子分析系および方法 | |
EA038117B1 (ru) | Мультиплексный параллельный анализ целевых геномных областей с целью неинвазивного пренатального тестирования | |
TW201823472A (zh) | 基於單倍型之通用非侵入性單基因疾病產前檢測 | |
Tremblay et al. | Genes to diseases (G2D) computational method to identify asthma candidate genes | |
Yorgov et al. | Use of admixture and association for detection of quantitative trait loci in the Type 2 Diabetes Genetic Exploration by Next-Generation Sequencing in Ethnic Samples (T2D-GENES) study | |
CN116469552A (zh) | 一种用于乳腺癌多基因遗传风险评估的方法和系统 | |
US20180276337A1 (en) | Method for identifying radiation induced genes and long non-coding RNAs and Application Thereof | |
Boulesteix et al. | Multiple testing for SNP-SNP interactions | |
Kachuri et al. | Leveraging genetic determinants of prostate-specific antigen levels towards improving prostate cancer screening | |
Tsalenko et al. | Analysis of SNP-expression association matrices | |
Manipur et al. | CoPheScan: phenome-wide association studies accounting for linkage disequilibrium | |
WO2023049941A1 (en) | Methods to simulate prospective embryo genotypes and approximate disease occurence risk | |
Vince Jr et al. | Assessing the Clinical Utility of Published Prostate Cancer Polygenic Risk Scores in a Large Biobank Data Set | |
Fummey | Exploiting large-scale exome sequence data to study the genotype-phenotype relationship | |
Li | Genetic Association Studies: Concepts and Applications | |
Zhou et al. | CORE GREML: Estimating covariance between random effects in linear mixed models for genomic analyses of complex traits | |
Liu | Development of network-based analysis methods with application to the genetic component of asthma | |
Kraven | Understanding the genetic basis of disease endotypes in idiopathic pulmonary fibrosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230928 |