JP7311934B2 - 妊娠中の無細胞断片を使用する分子分析 - Google Patents

妊娠中の無細胞断片を使用する分子分析 Download PDF

Info

Publication number
JP7311934B2
JP7311934B2 JP2022547772A JP2022547772A JP7311934B2 JP 7311934 B2 JP7311934 B2 JP 7311934B2 JP 2022547772 A JP2022547772 A JP 2022547772A JP 2022547772 A JP2022547772 A JP 2022547772A JP 7311934 B2 JP7311934 B2 JP 7311934B2
Authority
JP
Japan
Prior art keywords
cell
dna molecules
dna
free dna
maternal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022547772A
Other languages
English (en)
Other versions
JP2023504939A (ja
Inventor
ユク-ミン デニス ロー
ロッサ ワイ クン チウ
クワン チー チャン
ペイヨン チアン
スク ハン チョン
チョク イン ユイ
イェー ティン チョン
ウェンレイ ポン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong CUHK
Original Assignee
Chinese University of Hong Kong CUHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong CUHK filed Critical Chinese University of Hong Kong CUHK
Publication of JP2023504939A publication Critical patent/JP2023504939A/ja
Priority to JP2023107998A priority Critical patent/JP7416501B2/ja
Application granted granted Critical
Publication of JP7311934B2 publication Critical patent/JP7311934B2/ja
Priority to JP2023216655A priority patent/JP2024045112A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Cell Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

関連出願の相互参照
本出願は、2020年2月5日に出願された米国仮特許出願第62/970,634号、および2021年1月8日に出願された米国仮特許出願第63/135,486号の優先権の利益を主張し、これらの両方の全容は、すべての目的のために本明細書に組み込まれる。
妊娠中の循環遊離DNAのモーダルサイズは、約166bpであると報告されている(Lo et al.Sci Transl Med.2010;2:61ra91)。600bpよりも大きい断片に関する公開データはほとんどない。一例は、母体血漿からのY染色体由来の塩基性タンパク質Y2遺伝子(BPY2)からの8kb断片のPCRを使用して増幅を報告したAmicucci et alによる研究である(Amicucci et al.Clin Chem 2000;40:301-2)。そのようなデータがゲノムにわたって一般化され得るかどうかは不明である。実際、超並列ショートリード配列決定技術を使用して、例えば、Illuminaプラットフォームを使用して、例えば600bp超のような長いDNA断片を検出するには多くの課題がある(Lo et al.Sci Transl Med.2010;2:61ra91、Fan et al,Clin Chem.2010;56:1278-86)。これらの課題には、以下が含まれる:(1)Illumina配列決定プラットフォームの推奨サイズ範囲は通常、100~300bpである(De Maio et al.Micob Genom.2019;5(9))。(2)DNA増幅は、配列決定ライブラリ調製(PCRを介した)またはフローセル上でのブリッジ増幅を介した配列決定クラスター生成に関与する。そのような増幅プロセスは、部分的に、長いDNA鋳型(例えば、600bp超)が、短いDNA鋳型(例えば、200bp未満)と比較して娘鎖の合成を完了するのに比較的長い時間を必要とするという事実により、より短いDNA断片を増幅することを好み得る。したがって、Illuminaプラットフォーム上の配列決定の前または最中のこれらのPCRプロセスについての固定時間枠内で、娘鎖がPCRプロセス中に完全に生成されなかったそれらの長いDNA分子は、下流分析において利用可能ではない。(3)長いDNA分子は、増幅を妨げる二次構造を形成する可能性がより高くなる。(4)Illumina配列決定技術を使用すると、ライブラリが二次元表面上で変性、希釈、拡散され、続いてブリッジが増幅されるため、長いDNA分子は、短いDNA分子と比較して、2つ以上のクローンDNA分子を含有するクラスターを引き起こす可能性がより高くなる(Head et al.Biotechniques.2014;56:61-4)。
本明細書に記載の方法およびシステムは、長い無細胞DNA断片を使用して、生物学的試料を分析することを含む。これらの長い無細胞DNA断片を使用すると、より短い無細胞DNA断片では企図されないか、または不可能な分析が可能になる。メチル化CpG部位および一塩基多型(SNP)の状態は、生物学的試料のDNA断片を分析するためによく使用される。CpG部位およびSNPは典型的には、最も近いCpG部位またはSNPから数百または数千の塩基対だけ分離されている。生物学的試料中の無細胞DNA断片のほとんどの長さは通常、200bp未満である。結果として、ほとんどの無細胞DNA断片上で2つ以上の連続したCpG部位またはSNPを見つけることは、起こりそうにもないかまたは不可能である。600bpまたは1kbよりも長いものを含む、200bpよりも長い無細胞DNA断片は、複数のCpG部位および/またはSNPを含み得る。長い無細胞DNA断片上の複数のCpG部位および/またはSNPの存在は、短い無細胞DNA断片のみの場合よりも効率的かつ/または正確な分析を可能にし得る。長い無細胞DNA断片は、起源組織を特定するため、および/または妊娠中の女性の胎児に関する情報を提供するために使用され得る。さらに、長い無細胞DNA断片を使用して妊娠中の女性からの試料を正確に分析することは、そのような長い無細胞DNA断片が主に起源が母体であると期待されるため、驚くべきことである。胎児起源の長い無細胞DNA断片が、胎児に関する情報を提供するのに十分な量で存在することは期待されない。
SNPが存在する長い無細胞DNA断片は、胎児によって受け継がれたハプロタイプを決定するために使用され得る。長い無細胞DNA断片は、複数のCpG部位を有することによって、起源組織を示すメチル化パターンを有し得る。さらに、トリヌクレオチド反復および他の反復配列が、長い無細胞DNA断片上に存在し得る。これらの反復は、胎児または胎児の父における遺伝性障害の尤度を決定するために使用され得る。長い無細胞DNA断片の量は、在胎期間を決定するために使用され得る。同様に、長い無細胞DNA断片の末端のモチーフもまた、在胎期間を決定するために使用され得る。長い無細胞DNA断片(例えば、そのような断片の量、長さ分布、ゲノム位置、メチル化状態などを含む)が、妊娠関連障害を決定するために使用され得る。
本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法と関連付けられたシステム、デバイス、およびコンピュータ可読媒体を対象とする。
本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。
本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)線形スケールで0~20kb、(B)対数スケールで0~20kb。 本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)線形スケールで0~20kb、(B)対数スケールで0~20kb。 本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~5kb。(B)y軸の対数スケールで0~5kb。 本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~5kb。(B)y軸の対数スケールで0~5kb。 本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~400bp。(B)y軸の対数スケールで0~400bp。 本発明の実施形態に従って決定された無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~400bp。(B)y軸の対数スケールで0~400bp。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~20kb。(B)y軸の対数スケールで0~20kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~20kb。(B)y軸の対数スケールで0~20kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~5kb。(B)y軸の対数スケールで0~5kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~5kb。(B)y軸の対数スケールで0~5kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~1kb。(B)y軸の対数スケールで0~1kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~1kb。(B)y軸の対数スケールで0~1kb。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~400bp。(B)y軸の対数スケールで0~400bp。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態に従って決定された共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。(A)y軸の線形スケールで0~400bp。(B)y軸の対数スケールで0~400bp。青色の線は、(母体起源の優勢な)共有対立遺伝子を担持する断片を示し、赤色の線は、(胎盤起源の)胎児特異的対立遺伝子を担持する断片を示す。 本発明の実施形態による、母体特異的対立遺伝子を担持する断片と胎児特異的対立遺伝子を担持する断片との間の単一分子、二本鎖DNAメチル化レベルを示す。 本発明の実施形態による、(A)母体特異的対立遺伝子を担持する断片と胎児特異的対立遺伝子を担持する断片との間の単一分子、二本鎖DNAメチル化レベルの適合分布、および(B)単一分子、二本鎖DNAメチル化レベルを使用した受信者動作特性(ROC)分析を示す。 本発明の実施形態による、(A)母体特異的対立遺伝子を担持する断片と胎児特異的対立遺伝子を担持する断片との間の単一分子、二本鎖DNAメチル化レベルの適合分布、および(B)単一分子、二本鎖DNAメチル化レベルを使用した受信者動作特性(ROC)分析を示す。 本発明の実施形態による、単一分子、二本鎖DNAメチル化レベルと血漿DNAの断片サイズとの間の相関関係を示す。(A)0~20kbのサイズ範囲。(B)0~1kbのサイズ範囲。 本発明の実施形態による、単一分子、二本鎖DNAメチル化レベルと血漿DNAの断片サイズとの間の相関関係を示す。(A)0~20kbのサイズ範囲。(B)0~1kbのサイズ範囲。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された長い胎児特異的DNA分子の一例を示す。(A)黒色の棒は、ヒト参照ゲノムの第10染色体中の領域にアラインメントされた長い胎児特異的DNA分子を示す。(B)本開示に従ってPacBio配列決定を使用して決定された遺伝子およびエピジェネティックの詳細な図。(矢印で印された)黄色で強調表示された塩基は、いくつかの実施形態において補正され得る配列誤差が原因である可能性が高い。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された長い胎児特異的DNA分子の一例を示す。(A)黒色の棒は、ヒト参照ゲノムの第10染色体中の領域にアラインメントされた長い胎児特異的DNA分子を示す。(B)本開示に従ってPacBio配列決定を使用して決定された遺伝子およびエピジェネティックの詳細な図。(矢印で印された)黄色で強調表示された塩基は、いくつかの実施形態において補正され得る配列誤差が原因である可能性が高い。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された共有対立遺伝子を担持する長い母体DNA分子の一例を示す。(A)黒色の棒は、ヒト参照の第6染色体中の領域にアラインメントされた長い母体特異的DNA分子を示す。(B)本発明の実施形態に従ってPacBio配列決定を使用して決定された遺伝子情報およびエピジェネティック情報の詳細な図。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された共有対立遺伝子を担持する長い母体DNA分子の一例を示す。(A)黒色の棒は、ヒト参照の第6染色体中の領域にアラインメントされた長い母体特異的DNA分子を示す。(B)本発明の実施形態に従ってPacBio配列決定を使用して決定された遺伝子情報およびエピジェネティック情報の詳細な図。 本発明の実施形態による、1kb~20kbの異なる分解能でのメチル化レベルに応じた胎盤(赤色)および母体血球(青色)からのDNAについての頻度分布を示す。 本発明の実施形態による、16kbおよび24kbウィンドウ内のメチル化レベルに応じた胎盤(赤色)および母体血球(青色)からのDNAについての頻度分布を示す。 本発明の実施形態による、16kbおよび24kbウィンドウ内のメチル化レベルに応じた胎盤(赤色)および母体血球(青色)からのDNAについての頻度分布を示す。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された長い母体特異的DNA分子の一例を示す。(A)黒色の棒は、ヒト参照の第8染色体中の領域にアラインメントされた長い母体特異的DNA分子を示す。(B)本発明の実施形態に従ってPacBio配列決定を使用して決定された遺伝子およびエピジェネティックの詳細な図。 本発明の実施形態による、妊娠中の女性の母体血漿DNAにおいて特定された長い母体特異的DNA分子の一例を示す。(A)黒色の棒は、ヒト参照の第8染色体中の領域にアラインメントされた長い母体特異的DNA分子を示す。(B)本発明の実施形態に従ってPacBio配列決定を使用して決定された遺伝子およびエピジェネティックの詳細な図。 本発明の実施形態による、胎児の母性遺伝を推定する図を示す。 本発明の実施形態による、母体および胎児起源の情報を用いた血漿DNA分子における遺伝性/エピジェネティック障害の決定を示す。 本発明の実施形態による、胎児異常断片の特定を示す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。「.」は、ワトソン鎖内の参照塩基と同一の塩基を表す。「,」は、クリック鎖内の参照塩基と同一の塩基を表す。「アルファベット文字」は、参照対立遺伝子とは異なる代替の対立遺伝子を表す。「*」は、挿入を表す。「^」は、欠失を表す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析する方法を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、ハプロタイプの遺伝を決定する方法を示す。 本発明の実施形態による、血漿中の長いDNA分子の起源組織を決定するためのメチル化パターンを示す。 本発明の実施形態による、胎児および母体起源の決定のための受信者動作特性(ROC)曲線を示す。 本発明の実施形態による一対メチル化パターンを示す。 本発明の実施形態による、異なる染色体間の選択されたマーカー領域の分布の表である。 本発明の実施形態による、マーカー領域の選択基準として、0.3よりも大きい不一致スコア有するバフィーコートDNA分子の異なるパーセンテージを使用した、単一分子のメチル化パターンに基づく血漿DNA分子の分類の表である。 本発明の実施形態による、胎盤特異的メチル化ハプロタイプを使用して、非侵襲的方法で胎児遺伝を決定するためのプロセスフローを示す。 本発明の実施形態による、母体血漿中の長い無細胞DNAを使用した脆弱X症候群の非侵襲的出生前検出の原理を示す。 本発明の実施形態による、メチル化パターンに基づく胎児の母性遺伝を示す。 本発明の実施形態による、血漿DNA分子の遺伝子情報およびエピジェネティック情報を使用した胎児の母性遺伝の定性分析を示す。 本発明の実施形態による、相対ハプロタイプ投与量(RHDO)分析と比較した、血漿DNA分子の遺伝子情報およびエピジェネティック情報を使用したゲノムワイドな方法における胎児の母性遺伝についての定性分析の検出率を示す。 本発明の実施形態による、ゲノムワイドな方法における父性特異的バリアントの検出率と、分析に使用された異なるサイズを有する配列決定された血漿DNA分子の数との間の関係を示す。 本発明の実施形態による、脆弱X症候群の非侵襲的検出のためのワークフローを示す。 本発明の実施形態による、胎盤およびバフィーコートDNAのメチル化プロファイルと比較した血漿DNAのメチル化パターンを示す。 本発明の実施形態による、ヒトゲノムにわたる500bp領域内のCpG部位の分布を示す表である。 本発明の実施形態による、ヒトゲノムにわたる1kb領域内のCpG部位の分布を示す表である。 本発明の実施形態による、ヒトゲノムにわたる3kb領域内のCpG部位の分布を示す表である。 本発明の実施形態による、メチル化状態マッチング分析を使用した、母体血漿中の異なる組織からのDNA分子の比例的寄与を示す表である。 本発明の実施形態による、胎盤寄与とSNPアプローチによって推定された胎児DNA画分との間の関係を示す。 本発明の実施形態による、胎盤寄与とSNPアプローチによって推定された胎児DNA画分との間の関係を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、メチル化パターン分析を使用して起源組織を決定する方法を示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布を示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布を示す。 発明の実施形態による、異なる妊娠期における長い血漿DNA分子の割合を示す表である。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。 発明の実施形態による、異なる妊娠期における長い胎児および母体血漿DNA分子の割合の表である。 本発明の実施形態による、異なる妊娠期にわたる特定のサイズ範囲の胎児特異的血漿DNA断片の割合のプロットを示す。 本発明の実施形態による、異なる妊娠期にわたる特定のサイズ範囲の胎児特異的血漿DNA断片の割合のプロットを示す。 本発明の実施形態による、異なる妊娠期にわたる特定のサイズ範囲の胎児特異的血漿DNA断片の割合のプロットを示す。 本発明の実施形態による、0~3kbの断片サイズの範囲にわたる、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの無細胞DNA分子の5’末端の塩基含有量の割合のグラフを示す。 本発明の実施形態による、0~3kbの断片サイズの範囲にわたる、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの無細胞DNA分子の5’末端の塩基含有量の割合のグラフを示す。 本発明の実施形態による、0~3kbの断片サイズの範囲にわたる、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの無細胞DNA分子の5’末端の塩基含有量の割合のグラフを示す。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの胎児特異的対立遺伝子をカバーする短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。 本発明の実施形態による、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの母体特異的対立遺伝子をカバーする短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。 本発明の実施形態による、256個の末端モチーフを使用した短いおよび長い血漿無細胞DNA分子の階層的クラスタリング分析を示す。 本発明の実施形態による、4mer末端モチーフプロファイルの主成分分析を示す。 本発明の実施形態による、妊娠初期の母体血漿からの短い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、妊娠中期の母体血漿からの短い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、妊娠後期の母体血漿からの短い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、妊娠初期の母体血漿からの長い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、妊娠中期の母体血漿からの長い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、妊娠後期の母体血漿からの長い血漿DNA分子間で最も頻度が高い25個の末端モチーフの表である。 本発明の実施形態による、(A)妊娠初期、(B)妊娠中期、および(C)妊娠後期の母体血漿中の短いおよび長い血漿DNA分子間の16個のNNXYモチーフのモチーフ頻度の散布図を示す。 本発明の実施形態による、(A)妊娠初期、(B)妊娠中期、および(C)妊娠後期の母体血漿中の短いおよび長い血漿DNA分子間の16個のNNXYモチーフのモチーフ頻度の散布図を示す。 本発明の実施形態による、(A)妊娠初期、(B)妊娠中期、および(C)妊娠後期の母体血漿中の短いおよび長い血漿DNA分子間の16個のNNXYモチーフのモチーフ頻度の散布図を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、在胎期間を決定する方法を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、妊娠関連障害の尤度を分類する方法を示す。 本発明の実施形態による、4つの子癇前症の症例の臨床情報を示す表である。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、子癇前症および正常血圧の妊娠後期の母体血漿試料からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布のグラフである。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の胎児特異的対立遺伝子および母体特異的対立遺伝子をカバーする短いDNA分子の割合のグラフである。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の胎児特異的対立遺伝子および母体特異的対立遺伝子をカバーする短いDNA分子の割合のグラフである。 本発明の実施形態による、PacBio SMRT配列決定およびIllumina配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の短いDNA分子の割合のグラフである。 本発明の実施形態による、PacBio SMRT配列決定およびIllumina配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の短いDNA分子の割合のグラフである。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の、短いDNA分子および長いDNA分子の相対的割合を示すサイズ比のグラフである。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の血漿DNA分子の異なる末端の割合を示す。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の血漿DNA分子の異なる末端の割合を示す。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の血漿DNA分子の異なる末端の割合を示す。 本発明の実施形態による、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の血漿DNA分子の異なる末端の割合を示す。 本発明の実施形態による、4タイプの断片末端(各鎖の5’末端の第1のヌクレオチド)、すなわちC末端、G末端、T末端、およびA末端の各々を有する血漿DNA分子の頻度を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。 本発明の実施形態による、16個の2ヌクレオチドモチーフXYNN(5’末端からの第1および第2のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。 本発明の実施形態による、16個の2ヌクレオチドモチーフNNXY(5’末端からの第3および第4のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。 本発明の実施形態による、256個の4ヌクレオチドモチーフ(5’末端からの第1~第4のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。 本発明の実施形態による、子癇前症および正常血圧の母体血漿DNA試料中の4タイプの断片末端間のT細胞の寄与を示す。 本発明の実施形態による、子癇前症および正常血圧の母体血漿DNA試料中の4タイプの断片末端間のT細胞の寄与を示す。 本発明の実施形態による、子癇前症および正常血圧の母体血漿DNA試料中の4タイプの断片末端間のT細胞の寄与を示す。 本発明の実施形態による、子癇前症および正常血圧の母体血漿DNA試料中の4タイプの断片末端間のT細胞の寄与を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、妊娠関連障害の尤度を決定する方法を示す。 本発明の実施形態による、反復関連疾患についての胎児の母性遺伝を推定する図を示す。 本発明の実施形態による、反復関連疾患についての胎児の父性遺伝を推定する図を示す。 反復伸長病の例を示す表である。 反復伸長病の例を示す表である。 反復伸長病の例を示す表である。 本発明の実施形態による、胎児における反復伸長検出および反復関連メチル化決定の例を示す表である。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、胎児における遺伝性障害の尤度を決定する方法を示す。 本発明の実施形態による、胎児を妊娠中の女性から取得された生物学的試料を分析して、父子関係を決定する方法を示す。 サイズ選択後の2つの代表的な血漿DNA分子についてのメチル化パターンを示す。 本発明の実施形態による、サイズ選択ありおよびなしの試料についての配列決定情報の表である。 本発明の実施形態による、ビーズベースのサイズ選択ありおよびなしの試料についての血漿DNAサイズプロファイルのグラフを示す。 本発明の実施形態による、ビーズベースのサイズ選択ありおよびなしの試料についての血漿DNAサイズプロファイルのグラフを示す。 本発明の実施形態による、サイズ選択ありの試料中の胎児DNA分子と母体DNA分子との間のサイズプロファイルを示す。 本発明の実施形態による、サイズ選択ありの試料中の胎児DNA分子と母体DNA分子との間のサイズプロファイルを示す。 本発明の実施形態による、サイズ選択ありおよびなしの試料間の有益なSNPを担持する血漿DNA分子の数についての統計表である。 本発明の実施形態による、サイズ選択された、およびサイズ選択されていない血漿DNA試料中のメチル化レベルの表である。 本発明の実施形態による、母体または胎児特異的無細胞DNA分子のメチル化レベルの表である。 本発明の実施形態による、サイズ選択ありおよびなしの試料中の上位10個の末端モチーフの表である。 本発明の実施形態による、長い血漿DNA分子が起源組織分析の性能を増強することを示す受信者動作特性(ROC)グラフである。 本発明の実施形態による、血漿DNA分子についてのエアポート配列決定の原理を示す。 本発明の実施形態による、特定のサイズ範囲内の血漿DNA分子のパーセンテージおよびそれらの対応するメチル化レベルの表である。 本発明の実施形態による、異なるサイズにわたるサイズ分布およびメチル化パターンのグラフである。 本発明の実施形態による、ナノポア配列決定を使用して決定された胎児DNA画分の表である。 本発明の実施形態による、胎児特異的DNA分子と母体特異的DNA分子との間のメチル化レベルの表である。 本発明の実施形態による、胎児および母体DNA分子についての特定のサイズ範囲内の血漿DNA分子のパーセンテージおよびそれらの対応するメチル化レベルの表である。 本発明の実施形態による、ナノポア配列決定によって決定された胎児および母体DNA分子のサイズ分布のグラフである。 本発明の実施形態による、ナノポア配列決定によって決定された胎児および母体DNA分子のサイズ分布のグラフである。 本発明の実施形態による、単一の有益なSNPおよび2つの有益なSNPに基づく、胎児DNA分子と母体DNA分子との間のメチル化レベルの差を示すグラフである。 本発明の実施形態による、胎児DNA分子と母体DNA分子との間のメチル化レベルの差の表である。 本発明の実施形態による測定システムを示す。 本発明の実施形態によるコンピュータシステムを示す。
用語
「組織」は、妊娠中の対象またはその胎児における機能単位としてともに群化する細胞の群に対応する。2つ以上のタイプの細胞が、単一の組織内に見出され得る。異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞、または血球)からなり得るが、異なる生物由来の組織(母体対胎児、移植を受けた妊娠中の対象の組織、微生物またはウイルスに感染した妊娠中の生物またはその胎児の組織)にも対応し得る。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応し得る。異なる妊娠中の個体またはその胎児由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定し得る。
「生物学的試料」は、妊娠中の対象(例えば、妊娠中の女性、障害を有する人、もしくは障害を有する疑いがある妊娠中の人、妊娠中の臓器移植レシピエント、または臓器が関与する疾患プロセス(例えば、心筋梗塞における心臓、脳卒中における脳、もしくは貧血における造血系)を有する疑いがある妊娠中の対象などのヒト(または他の動物))から採取され、目的の1つ以上の核酸分子を含有する任意の試料を指す。生物学的試料は、血液、血漿、血清、尿、膣液、膣洗浄液体、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、身体の異なる部分(例えば、甲状腺、乳腺)からの吸引液、眼内液(例えば、房水)などの体液であり得る。便試料もまた、使用され得る。様々な実施形態において、無細胞DNAのために濃縮された生物学的試料(例えば、遠心分離プロトコルを介して取得された血漿試料)におけるDNAの大部分は、無細胞であり得、例えば、DNAの50%超、60%超、70%超、80%超、90%超、95%超、または99%超は、無細胞であり得る。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を取得することと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。生物学的試料の分析の一部として、統計的に有意な数の無細胞DNA分子が、生物学的試料について分析され得る(例えば、正確な測定値を提供するために)。いくつかの実施形態において、少なくとも1,000個の無細胞DNA分子が分析される。他の実施形態において、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い無細胞DNA分子が分析され得る。少なくとも同数の配列リードが分析され得る。
「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド(例えば、約20~150ヌクレオチド)、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生物学的試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した様々な方法で、例えば、ハイブリダイゼーションアレイもしくはマイクロアレイで使用され得るような捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技術で、取得することができる。生物学的試料の分析の一部として、統計的に有意な数の配列リードが分析され得、例えば、少なくとも1,000個の配列リードが、分析され得る。他の例として、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い配列リードが分析され得る。
「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、または相関する塩基位置の群、例えば、CpG部位、または相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ1つの部位を含み得る。
「メチル化状態」とは、所与の部位でのメチル化の状態を指す。例えば、ある部位は、メチル化されているか、メチル化されていないか、または場合によっては未決定であるかのいずれかである。
各ゲノム部位(例えば、CpG部位)に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリードの総数にわたって示す、(例えば、配列リードまたはプローブから決定されるような)DNA断片の割合を指し得る。「リード」は、DNA断片から取得された情報(例えば、部位のメチル化状態)に対応することができる。リードは、1つ以上の部位における特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマーまたはプローブ)を使用して、取得することができる。典型的には、このような試薬は、それらのメチル化状態に応じて、DNA分子を示差的に修飾するかまたは認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、あるいはメチルシトシンおよびヒドロキシメチルシトシンを認識する単一分子配列決定技術(例えば、単一分子リアルタイム配列決定およびナノポア配列決定(例えば、Oxford Nanopore Technologiesから))で処理した後で適用される。
領域の「メチル化密度」は、この領域における部位をカバーするリードの総数で割った、メチル化を示す領域内の部位でのリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。したがって、領域の「CpGメチル化密度」は、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内またはそれより大きい領域のCpG部位)をカバーするリードの総数で割ったCpGメチル化を示すリード数を指す。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域へマッピングされた配列リードによってカバーされたすべてのCpG部位の割合として、CpG部位のバイサルファイト処理後に変換されていないシトシン(メチル化されたシトシンに対応する)の総数から決定され得る。この分析はまた、500bp、5kb、10kb、50kb、もしくは1Mbなどの他のビンサイズに対して実施され得る。領域は、全ゲノム、または染色体、または染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、領域において分析されたシトシン残基の総数、すなわちCpGの文脈外のシトシンを含む、に対する、メチル化されていることが示されている(例えば、バイサルファイト変換後に変換されていない)シトシン部位「C」の数を指し得る。「メチル化レベル」の例としては、メチル化指数、メチル化密度、1つ以上の部位でメチル化された分子の数、および1つ以上の部位でメチル化された分子(例えば、シトシン)の割合がある。バイサルファイト変換とは別に、当業者に既知の他のプロセスを使用してDNA分子のメチル化状態を調べることができ、限定されないが、メチル化状態に感受性の酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のプラットフォームを使用した単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al.Proc Natl Acad Sci 2013;110:18910-18915)、および単一分子リアルタイム配列決定(例えば、Pacific Biosciencesによる)(Flusberg et al.Nat Methods 2010;7:461-465))が含まれる。
「メチローム」は、ゲノムにおける複数の部位または遺伝子座のDNAメチル化の量の尺度を提供する。メチロームは、ゲノムの全部、ゲノムの実質的な部分、またはゲノムの比較的わずかな箇所に対応し得る。
「メチル化プロファイル」には、複数の部位または領域のDNAまたはRNAのメチル化に関連する情報が含まれる。DNAメチル化に関連する情報は、CpG部位のメチル化指数、領域中のCpG部位のメチル化密度(略称MD)、連続した領域にわたるCpG部位の分布、2つ以上のCpG部位を含有する領域内の各個々のCpG部位のメチル化のパターンまたはレベル、および非CpGメチル化を含み得るが、これらに限定されない。一実施形態では、メチル化プロファイルは、2つ以上のタイプの塩基(例えば、シトシンまたはアデニン)のメチル化または非メチル化のパターンを含み得る。ゲノムの実質的な部分のメチル化プロファイルは、メチロームと等価とみなすことができる。哺乳動物ゲノムにおける「DNAメチル化」とは、典型的には、CpGジヌクレオチド間でシトシン残基の5’炭素へのメチル基の付加(すなわち、5-メチルシトシン)を指す。DNAメチル化は、他の文脈、例えば、CHGおよびCHHにおいてシトシンで生じ得、ここで、Hは、アデニン、シトシン、またはチミンである。シトシンのメチル化は、5-ヒドロキシメチルシトシンの形態でもあり得る。N-メチルアデニンなどの非シトシンメチル化もまた、報告されている。
「メチル化パターン」とは、メチル化塩基と非メチル化塩基の順序を指す。例えば、メチル化パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上のメチル化塩基の順序であり得る。一例として、3つの連続するCpG部位は、以下のメチル化パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非メチル化部位を示し、「M」はメチル化部位を示す。限定されないが、この概念をメチル化を含む塩基修飾に拡張する場合、修飾塩基と非修飾塩基の順序を指す「修飾パターン」という用語を使用するであろう。例えば、修飾パターンは、単一のDNA鎖、単一の二本鎖DNA分子、または別のタイプの核酸分子上の修飾された塩基の順序であり得る。一例として、3つの連続する潜在的に修飾可能な部位は、以下の修飾パターン:UUU、MMM、UMM、UMU、UUM、MUM、MUU、またはMMU、のいずれかを有し得る。ここで、「U」は非修飾部位を示し、「M」は修飾部位を示す。メチル化に基づかない塩基修飾の一例は、8-オキソグアニンなどの酸化的変化である。
「高メチル化」および「低メチル化」という用語は、その単一分子のメチル化レベルによって測定される単一のDNA分子のメチル化密度、例えば、その分子内のメチル化された塩基またはヌクレオチドの数を、その分子内のメチル化可能な塩基またはヌクレオチドの総数で割ったものを指し得る。高メチル化分子は、単一分子のメチル化レベルが閾値以上である分子であり、用途ごとに定義され得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。低メチル化分子は、単一分子のメチル化レベルが閾値以下である分子であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。
「高メチル化」および「低メチル化」という用語はまた、これらの分子の複数の分子のメチル化レベルによって測定される、DNA分子の集団のメチル化レベルを指してもよい。分子の高メチル化集団は、複数の分子のメチル化レベルが閾値以上である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。分子の低メチル化集団は、複数の分子のメチル化レベルが閾値以下である集団であり、用途ごとに定義され得、用途ごとに変化し得る。この閾値は、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または95%であり得る。一実施形態では、分子の集団は、1つ以上の選択されたゲノム領域に整列され得る。一実施形態において、選択されたゲノム領域は、遺伝性障害、インプリンティング障害、代謝障害、または神経障害などの疾患に関連し得る。選択されたゲノム領域は、50ヌクレオチド(nt)、100nt、200nt、300nt、500nt、1000nt、2knt、5knt、10knt、20knt、30knt、40knt、50knt、60knt、70knt、80knt、90knt、100knt、200knt、300knt、400knt、500knt、または1Mntの鎖長を有し得る。
「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアラインメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体腕の大きさ、またはゲノム全体の大きさであり得る。配列決定深度は、50x、100xなどと表され、「x」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、xはそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。
「較正試料」は、臨床的関連DNAの画分濃度(例えば、組織特異的DNA画分)が既知であるか、または較正方法を介して、例えば、ドナーのゲノムには存在するがレシピエントのゲノムには存在しない対立遺伝子を移植臓器のマーカーとして使用し得る妊娠中の対象における移植など、組織に特異的な対立遺伝子を使用して決定される生物学的試料に対応し得る。別の例として、較正試料は、末端モチーフを決定し得る試料に対応し得る。較正試料は、両方の目的に使用され得る。
「較正データ点」は、「較正値」および臨床的関連DNA(例えば、特定の組織タイプのDNA)の測定されたまたは既知の画分濃度を含む。較正値は、臨床的関連DNAの画分濃度が既知である較正試料について決定された相対頻度(例えば、集計値)から決定され得る。較正データ点は、様々な方法で、例えば、離散点として、または較正関数(検量線または較正面とも呼ばれる)として定義され得る。較正関数は、較正データ点の追加の数学的変換から導出され得る。
「分離値」は、2つの値を包含する差または比、例えば、2つの画分寄与または2つのメチル化レベルに相当する。分離値は、単純な差または比であり得る。例として、x/yの直接比は、x/(x+y)と同様に分離値である。分離値は、他の因子、例えば、乗法的因子を含み得る。他の例として、値の関数の差または比、例えば、2つの値の自然対数(ln)の差または比が使用され得る。分離値には、差および比を含み得る。
「分離値」および「集計値」(例えば、相対頻度)は、異なる分類(状態)間で変化する試料の測定値を提供するパラメータ(メトリックとも呼ばれる)の2つの例であり、したがって様々な分類を決定するために使用され得る。集計値は、例えば、クラスタリングで行われるように、試料の相対頻度のセットと相対頻度の参照セット間で差が取られる場合の分離値であり得る。
本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数または他の特徴を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二者択一(例えば、陽性もしくは陰性)であり得、またはより多くのレベルの分類(例えば、1~10もしくは0~1のスケール)を有し得る。
本明細書で使用される場合、「パラメータ」という用語は、定量的データセットを特徴付ける数値、および/または定量的データセット間の数的関連性を意味する。例えば、第1の核酸配列の第1の量と第2の核酸配列の第2の量との比率(またはある比率の関数)は、パラメータである。
「サイズプロファイル」という用語は一般に、生物学的試料中のDNA断片のサイズに関する。サイズプロファイルは、様々なサイズのある量のDNA断片の分布を提供するヒストグラムであり得る。様々な統計パラメータ(サイズパラメータまたは単にパラメータとも呼ばれる)を使用して、あるサイズプロファイルを別のサイズプロファイルと区別することができる。1つのパラメータは、すべてのDNA断片に対する、または他のサイズもしくは範囲のDNA断片に対する、特定のサイズもしくはサイズ範囲のDNA断片の割合である。
「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回るまたは下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、もしくは2つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、異なる既知の分類を有する対象の2つの異なるコホートについて、メトリックを決定することができ、参照値を1つの分類(例えば、平均)の代表として、またはメトリックの2つのクラスター間の値(例えば、所望の感度と特異度を取得するために選択される)として選択し得る。別の例として、参照値は、統計分析または試料のシミュレーションに基づいて決定することができる。カットオフ、閾値、参照などの特定の値は、所望の精度(例えば、感度および特異度)に基づいて決定され得る。
「妊娠関連障害」には、母体および/もしくは胎児組織における遺伝子の異常な相対的発現レベルによって、ならびに/または母体および/もしくは胎児における異常な臨床特性によって特徴付けられる任意の障害が含まれる。これらの障害としては、子癇前症(Kaartokallio et al.Sci Rep.2015;5:14107、Medina-Bastidas et al.Int J Mol Sci.2020;21:3597)、子宮内胎児発育遅延(Faxen et al.Am J Perinatol.1998;15:9-13、Medina-Bastidas et al.Int J Mol Sci.2020;21:3597)、侵襲的胎盤形成、早産(Enquobahrie et al.BMC Pregnancy Childbirth.2009;9:56)、新生児溶血性疾患、胎盤機能不全(Kelly et al.Endocrinology.2017;158:743-755)、胎児水腫(Magor et al.Blood.2015;125:2405-17)、胎児奇形(Slonim et al.Proc Natl Acad Sci USA.2009;106:9425-9)、HELLP症候群(Dijk et al.J Clin Invest.2012;122:4003-4011)、全身性エリテマトーデス(Hong et al.J Exp Med.2019;216:1154-1169)、および他の母親の免疫疾患が挙げられるが、これらに限定されない。
略語「bp」は、塩基対を指す。場合によっては、「bp」は、DNA断片が一本鎖であり、塩基対を含まない場合でも、DNA断片の鎖長を示すために使用され得る。一本鎖DNAの文脈では、「bp」は、ヌクレオチドの鎖長を提供すると解釈される場合がある。
略語「nt」は、ヌクレオチドを指す。場合によっては、「nt」を使用して、塩基単位で一本鎖DNAの長さを示し得る。また、「nt」は、分析される遺伝子座の上流または下流などの相対位置を示すために使用され得る。二本鎖DNAの場合、「nt」はそれでもなお、文脈上明らかに他の指示がない限り、2本の鎖のヌクレオチドの総数ではなく単一の鎖の長さを指し得る。技術的概念化、データ表示、処理、および分析に関する一部の文脈では、「nt」と「bp」は互換的に使用される場合がある。
「機械学習モデル」という用語には、試料データ(例えば、訓練データ)を使用して試験データを予測することに基づくモデルが含まれる場合があり、したがって、教師あり学習が含まれ得る。機械学習モデルは、しばしば、コンピュータまたはプロセッサを使用して開発される。機械学習モデルには、統計モデルが含まれ得る。
「データ分析フレームワーク」という用語は、データを入力として受け取り、次に予測結果を出力することができるアルゴリズムおよび/またはモデルを含み得る。「データ分析フレームワーク」の例には、統計モデル、数学的モデル、機械学習モデル、その他の人工知能モデル、およびそれらの組み合わせが含まれる。
「リアルタイム配列決定」という用語は、配列決定に関与する反応の進行中にデータ収集または監視を伴う技術を指す場合がある。例えば、リアルタイム配列決定は、新しい塩基を組み込むDNAポリメラーゼの光学的監視または撮影を伴う場合がある。
「部分配列」という用語は、核酸分子に対応する完全な配列よりも少ない一連の塩基を指し得る。例えば、核酸分子の完全な配列が5つ以上の塩基を含む場合、部分配列は、1、2、3、または4つの塩基を含み得る。いくつかの実施形態において、部分配列は、単位を形成する一連の塩基を指し得、単位は、タンデムに連続して複数回反復される。例としては、トリヌクレオチド反復障害と関連する遺伝子座で反復される3nt単位もしくは部分配列、マイクロサテライトとして5~50回反復される1nt~6nt単位もしくは部分配列、マイクロサテライトとして、またはAlu反復などの他の遺伝子要素において5~50回反復される10nt~60nt単位もしくは部分配列が挙げられる。
「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
値の範囲が提供される場合、文脈が明確に別段に示さない限り、その範囲の上限と下限との間の各介在する値も、下限の10分の1まで具体的に開示されていると理解される。記載された範囲における任意の記載された値または介在する値と、その記載された範囲における任意の他の記載された値または介在する値との間の各より小さい範囲が、本開示の実施形態内に包含される。これらのより小さい範囲の上限および下限は、範囲に独立して含まれるか除外されてもよく、どちらか一方、両方の限度がより小さい範囲に含まれるか、またはどちらも含まれない各範囲も、記載された範囲における任意の具体的に除外された限度を条件として、本開示内に包含される。記載された範囲が一方または両方の限度を含む場合、それらの含まれた限度のいずれかまたは両方を除外する範囲も、本開示に含まれる。
標準的な略語、例えば、bp:塩基対、kb:キロベース、pi:ピコリットル、sまたはsec:秒、min:分、hまたはhr:時間、aa:アミノ酸、nt:ヌクレオチドなどが使用され得る。
別段の定義がない限り、本明細書で使用される技術用語および科学用語はすべて、本開示が属する技術の分野における当業者によって一般に理解されているのと同じ意味を有する。本開示の実施形態の実施または試験には、本明細書に記載されているものと類似または同等の任意の方法および材料が使用され得るが、いくつかの潜在的かつ例示的な方法および材料が、ここで説明され得る。
無細胞DNA分子の分析は、多くの場合、分析技術の限界の結果として、主に短い無細胞DNA断片を伴う。Illumina配列決定技術を使用して長いDNA分子から配列情報を取得する能力が限られていることは、マウス無細胞DNAの近年の配列決定の結果で実証された(Serpas et al.,Proc Natl Acad Sci USA.2019;116:641-649)。野生型マウスにおいてIllumina配列決定を使用した場合、配列決定されたDNA分子の0.02%のみが、600bp~2000bpの範囲内にあった。Pacific Biosciencesからの単一分子リアルタイム(SMRT)技術(すなわち、PacBio SMRT配列決定)を使用して、Illumina配列決定用に元々調製されたDNAライブラリを配列決定した場合でも、配列決定されたDNA分子の0.33%のみが、600bp~2000bpの範囲内にあった。これらの報告されたデータは、配列決定ステップが、元のDNAライブラリに存在する600bp~2000bpの範囲内の長いDNA分子の93%を失うことを示唆した。
上記の長いDNA分子の増幅におけるPCRの制限により、DNAライブラリ調製のステップでもかなりの割合の長い無細胞DNA分子が失われると推測した。Jahr et alは、ゲル電気泳動を使用して、多くのキロベース、例えば約10,000の大きいサイズの断片の存在を報告した(Jahr et al.Cancer Res.2001;61:1659-65)。しかしながら、ゲル電気泳動画像に示されるバンドは、エピジェネティック情報の提供は言うまでもなく、ゲル内のこれらの分子の配列情報を容易には提供しない。
以前に、Oxford Nanopore Technologies配列決定プラットフォームを使用して、母体血漿から抽出された無細胞DNAを研究した(Cheng et al Clin Chem.2015;61:1305-6)。1kbを超える非常に小さい割合の長い血漿DNAが観察された(0.06%~0.3%)。そのような低いパーセンテージは、このプラットフォームの低い配列決定精度の結果である可能性があると仮定した。
無細胞DNAのこの分野では、ほとんどの研究が短いDNA分子(例えば、600bp未満)に焦点を当てた。長い無細胞DNA分子の遺伝子情報およびエピジェネティック情報を含む特性は、調査されていない。本開示は、長い無細胞DNA分子を分析する(その遺伝子情報およびエピジェネティック情報、ならびに単一遺伝子障害の非侵襲的検出、胎児ゲノムの解明(例えば、非侵襲的な全胎児ゲノム配列決定)、ゲノムワイドレベルでのデノボ変異の検出、ならびに子癇前症および早期陣痛などの妊娠関連障害の検出/監視などであるが、これらに限定されない非侵襲的出生前検査におけるその臨床的有用性の解読を含む)ための体系的な方法を提供した。
I.無細胞DNAサイズ分析
妊娠中の女性から取得された無細胞DNA試料を配列決定し、DNA断片のかなりの部分が長いことがわかった。長い無細胞DNA断片の正確な配列決定を実証した。これらの長い無細胞DNA分子のサイズプロファイルを分析した。胎児および母体の長い無細胞DNA分子の量を比較した。長い無細胞DNA分子は、参照ゲノムにより正確にアライメントされ得る。長い無細胞DNA分子は、ハプロタイプの遺伝を決定するために使用され得る。
妊娠後期の妊娠中の女性の1つの血漿DNA試料を、PacBio SMRT配列決定を使用して分析した。二本鎖無細胞DNA分子をヘアピンアダプターと連結ライゲーションし、ゼロモード導波路および単一ポリメラーゼ分子を利用した単一分子リードタイム配列決定に供した(Eid et al.Science.2009;323:133-8)。
11億個のサブリードを配列決定し、そのうち6億5,930万個のサブリードをヒト参照ゲノム(hg19)にアラインメントすることができた。サブリードを、460万個のPacBio Single Molecular Real-Time(SMRT)配列決定ウェルから生成し、ウェルは、ヒト参照ゲノムにアラインメントされ得る少なくとも1つのサブリードを含有した。平均して、SMRTウェル内の各分子を平均143回配列決定した。この例では、450万個の循環コンセンサス配列(CCS)があり、下流分析に使用され得る450万個の無細胞DNA分子を示唆している。各無細胞DNAのサイズを、特定された塩基の数をカウントすることによってCCSから決定した。
図1Aおよび1Bは、0~20kbの無細胞DNAのサイズ分布を示す。y軸は、頻度を示す。x軸は、線形スケール(図1A)または対数スケール(図1B)での0~20kbの塩基対のサイズを示す。配列決定をDNA分子の全長にわたって実施したため、各DNA分子のサイズは、サブリードまたはCCSのヌクレオチド数をカウントすることによって直接決定され得る。DNA断片サイズの測定は、DNA断片の全長を読み取ることができ、単一分子シーケンサーの使用に限定されない任意の配列決定プラットフォームを使用して達成され得る。例えば、Sangerシーケンサーは、800bpまで読み取ることができる。Illuminaプラットフォームなどによるショートリード配列決定は、250bpまで読み取ることができる。Pacific BiosciencesおよびOxford Nanoporeなどの単一分子シーケンサーは、10,000bpを超えるまで読み取ることができる。DNA断片のサイズはまた、参照ゲノム、例えばヒト参照ゲノムにアラインメントした後に決定され得る。DNA断片のサイズは、対末端配列決定、それに続く参照ゲノムへのアラインメントによって決定され得る。図1Bは、長い裾パターンを示す。450万個のCCSの間で、200bpよりも大きい無細胞DNAが22.5%、300bpよりも大きいものが19.0%、400bpよりも大きいものが11.8%、500bpよりも大きいものが10.6%、600bpよりも大きいものが8.9%、1kbよりも大きいものが6.4%、2kbよりも大きいものが3.5%、3kbよりも大きいものが1.9%、4kbよりも大きいものが0.9%、および10kbよりも大きいものが0.04%あった。現在のPacBio SMRTの結果で観察された最長のものは、29,804bpであった。
妊娠中の対象の1つの血漿DNAを、PCRベースのライブラリ調製プロトコルを使用してIllumina配列決定プラットフォームでも配列決定した(Lun et al.Clin Chem.2013;59:1583-94)。1,820万個の対末端リードの間で、200bpよりも大きい無細胞DNAが5.3%、300bpよりも大きいものが2.0%、400bpよりも大きいものが0.3%、500bpよりも大きいものが0.2%、600bpよりも大きいものが0.2%あった(表1)。比較として、5人の妊娠中の対象からの単一分子リアルタイム配列決定データ(すなわち、合計440万個のCCS)を集計することによって、サイズプロファイルを分析した。Illumina配列決定プラットフォームによって取得された対応物(0.2%)と比較して、600bpよりも大きい血漿DNA分子がより多く観察された(28.56%)。これらの結果は、PacBio SMRT配列決定が、143倍長いDNA分子(600bpよりも長い)を実現することを可能にし得ることを示唆した。Illumina配列決定プラットフォームでは読み出しがなかったが、単一分子リアルタイム配列決定を使用して、3kbよりも大きい血漿DNA分子を4.77%取得することができる。
Oxford Nanopore Technologies配列決定プラットフォームを使用して、1kbを超える非常に小さい割合の長い血漿DNA分子(0.06%~0.3%)を示した以前の報告(Cheng et al Clin Chem.2015;61:1305-6)とは対照的に、1kbを超える21倍多い血漿DNA(6.4%)を取得することができ、PacBio SMRT配列決定が長いDNA集団から配列情報を取得するのにはるかにより効率的であったことを実証している。
Illumina配列決定プラットフォームなどの対末端ショートリード配列決定と比較して、PacBio SMRT技術などのロングリード配列決定技術は、長いDNA断片の特性(例えば、長さ)を決定する上で多くの利点を有する。例えば、ロングリードは概して、より正確にヒト参照ゲノム(例えば、hg19)にアラインメントすることを可能にする。ロングリード技術はまた、配列決定されたヌクレオチドの数を直接カウントすることによって、血漿DNA分子の長さを正確に決定することも可能にする。対照的に、対末端ショートリードベースの血漿DNAサイズ推定は、アラインメントされた対末端リードの最も外側の座標を使用して血漿DNA分子のサイズを推定する間接的な方法である。そのような間接的なアプローチの場合、アラインメンの誤差が、正確なサイズ推定をもたらす。この点で、対末端リード間のサイズ範囲が大きくなると、アライメント誤差の可能性が高くなる。
表1無細胞DNAのPacBio配列決定とIllumina配列決定との間のサイズ分布の比較。
図2Aおよび2Bは、0~5kbの無細胞DNAのサイズ分布を示す。y軸は、頻度を示す。x軸は、線形スケール(図2A)または対数スケール(図2B)での0~5kbの塩基対のサイズを示す。周期的なパターンで生じる一連の主要なピークがあった。そのような周期的なパターンは、1kb~2kbの範囲内の分子にさえ広がっていた。最高頻度(2.6%)のピークは166bpであり、これは、Illumina技術を使用した以前の発見と一致していた(Lo et al.Sci Transl Med.2010;2:61ra91)。図2B中の隣接する主要なピーク間の距離は約200bpであり、長い無細胞DNA生成がヌクレオソーム構造も伴うことを示唆している。
図3Aおよび3Bは、0~400bpの無細胞DNAのサイズ分布を示す。y軸は、頻度を示す。x軸は、線形スケール(図3A)または対数スケール(図3B)での0~400bpの塩基対のサイズを示す。以前に報告された(Lo et al.Sci Transl Med.2010;2:61ra91)、166bpでの最も顕著なピークおよび166bp未満の分子中に生じる10bpの周期性を有する特徴的な特性はまた、本開示による新しい方法を使用して再現可能であった。これらの結果は、本開示に従って単一分子から配列決定された塩基数をカウントすることによる分子のサイズ決定が信頼できることを示唆した。
A.胎児および母体DNAについてのサイズ分析
母体および胎児DNA断片のサイズを分析および比較した。一例として、1人の妊娠中の女性のバフィーコートDNAおよび対応する胎盤DNAを配列決定して、それぞれ、59倍および58倍のハプロイドゲノムカバレッジを取得した。母親がホモ接合であり、胎児がヘテロ接合であった合計822,409個の有益な一塩基多型(SNP)を特定した。胎児特異的対立遺伝子は、胎児ゲノムには存在するが母体ゲノムには存在しない対立遺伝子として定義される。PacBio配列決定を通して、母体血漿(M13160)において、2,652個の胎児特異的断片および24,837個の共有断片(すなわち、共有対立遺伝子を担持する断片、主に母体起源)を特定した。胎児DNA画分は、21.8%であった。
図4Aおよび4Bは、共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。x軸は、線形スケール(図4A)または対数スケール(図4B)での0~20kbの塩基対のサイズを示す。共有対立遺伝子(主に母体起源)および胎児特異的対立遺伝子(胎盤起源)を担持する両方の断片は、長い裾の分布を示し、胎児源および母体源の両方に由来する長いDNA分子の存在を示唆している。主に母体起源の断片について、サイズが2kbよりも大きい血漿DNA分子が22.6%あった一方で、胎児起源の断片について、サイズが2kbよりも大きい血漿DNA分子は、8.5%あった。これらの結果は、胎児DNA分子がより少ない長いDNA分子を含有していたことを示唆した。血漿DNAの胎児および母体起源に関するこのSNPベースの分析において存在する長いDNAのパーセンテージは、一見したところ、全体的サイズ分析で観察されたものよりもはるかに高かった。そのような相違は、長いDNA分子が短いものよりも1つ以上のSNPをカバーする可能性が高く、したがって、長いDNAがSNPベースの分析に有利に選択されるという事実が原因である可能性が高かった。元のプール内の対応する長いDNAの割合からスキューされたSNPによってタグ付けされた長いDNA分子の相対的割合は、それらの分子のサイズによって支配される。それらの胎児特異的DNA断片の間で、最長のものが16,186bpであった一方で、共有対立遺伝子を担持する断片の間では、最長のものは24,166bpであった。
図5Aおよび5Bは、共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。x軸は、線形スケール(図5A)または対数スケール(図5B)での0~5kbの塩基対のサイズを示す。胎児特異的DNA断片および共有DNA断片の両方について、2kb未満の断片に対して周期的に生じる一連の主要なピークがあった。主要なピークは、ヌクレオソーム構造と合致する可能性が高かった。
図6Aおよび6Bは、共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。x軸は、線形スケール(図6A)または対数スケール(図6B)での0~1kbの塩基対のサイズを示す。胎児特異的DNA断片および共有DNA断片の両方について、1kb未満の断片に対して周期的に生じる一連の主要なピークがあった。主要なピークは、ヌクレオソーム構造と合致する可能性が高かった。共有DNA断片のサイズプロファイルの左側への胎児DNAサイズプロファイルの観察可能なシフトがあるように思われ、胎児DNAが母体DNAよりも短いDNA分子を含むことを示唆している。
図7Aおよび7Bは、共有対立遺伝子(共有)および胎児特異的対立遺伝子(胎児特異的)を担持する断片間の無細胞DNAのサイズ分布を示す。x軸は、線形スケール(図7A)または対数スケール(図7B)での0~400bpの塩基対のサイズを示す。以前に報告された(Lo et al.Sci Transl Med.2010;2:61ra91)、166bpでの最も顕著なピークおよび166bp未満の胎児および母体の両方の分子中に生じる10bpの周期性を有する特徴的な特性はまた、本開示による新しい方法を使用して再現可能であった。これらの結果は、本開示に従って単一分子から配列決定された塩基数をカウントすることによる分子のサイズ決定が信頼できることを示唆した。
B.サイズおよびメチル化分析
長い無細胞の母体および胎児DNA分子のメチル化レベルを分析した。胎児DNA分子のメチル化レベルは、母体DNA分子のメチル化レベルよりも低いことがわかった。
PacBio SMRT配列決定において、DNAポリメラーゼは、蛍光標識されたヌクレオチドの相補鎖への取り込みを媒介する。パルス間持続時間およびパルス幅を含む、DNA合成中に生成される蛍光パルスの特性は、我々の以前の開示(「DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS」と題する2020年8月17日出願の米国出願第16/995,607号)(その内容全体は、すべての目的で参照により本明細書に組み込まれる)に記載されるアプローチを使用して、5-メチルシトシンなどであるがこれに限定されない、ヌクレオチド修飾を決定するために使用され得るポリメラーゼ動態を反映する。
実施形態において、母体特異的対立遺伝子を担持する95,210個の断片および胎児特異的対立遺伝子を担持する2,652個の断片をそれぞれ特定した。母体特異的対立遺伝子は、本明細書において、母体ゲノムには存在するが胎児ゲノムには存在しない対立遺伝子として定義され、これは、母体がヘテロ接合であり、胎児がホモ接合であるSNPから特定され得る。この例において、合計677,375個のそのような有益なSNPを特定した。各無細胞DNA分子のサイズを決定した。一実施形態において、ゲノム中のメチル化状態が可変であり、例えば、CpGアイランドのメチル化レベルが概して、CpGアイランドのない領域よりも低いため、ゲノムコンテキストによって導入される変動を最小限に抑えるために、インシリコで、1kbよりも大きく、少なくとも5つのCpG部位を含有し、5%未満のCpG密度(すなわち、0.05未満の分子中のCpG部位の数をその分子の全長で割ったもの)に対応する断片を選択することができ、下流分析に使用した。
図8は、母体特異的対立遺伝子を担持する断片と胎児特異的対立遺伝子を担持する断片との間の単一分子、二本鎖DNAメチル化レベルを示す。y軸は、単一分子、二本鎖DNAメチル化レベルをパーセントで示す。x軸は、母体特異的対立遺伝子を担持する断片および胎児特異的対立遺伝子を担持する断片の両方を示す。胎児特異的対立遺伝子を担持する断片の単一分子、二本鎖DNAメチル化レベル(平均:62.7%、四分位範囲、IQR:50.0%~77.2%)は、母体特異的対立遺伝子を担持する断片の対応物(平均:72.7%、IQR:60.6%~83.3%)よりも低い(P<0.0001)。
図9Aは、Rパッケージ(r-project.org/)で実装されたカーネル密度推定によって適合された断片の単一分子、二本鎖DNAメチル化レベルの経験分布を示す。周波数は、y軸上に示される。x軸は、単一分子、二本鎖DNAメチル化レベルをパーセントで示す。胎児特異的な長いDNA断片の分布は、母体特異的断片の分布の左側にあり、胎児DNA分子中に存在するより低い単一分子、二本鎖DNAメチル化レベルを示唆している。
図9Bは、単一分子、二本鎖DNAメチル化レベルを使用した受信者動作特性(ROC)分析を示す。y軸は、感度を示す。x軸は、特異度を示す。単一分子、二本鎖DNAメチル化レベルを使用してROC分析を実施して、単一分子、二本鎖DNAメチル化レベルを使用して胎児DNA断片と母体DNA断片とを区別する能力を調査すると、ROC曲線下面積(AUC)は、0.62であることがわかり、これは、0.5のランダムな推測結果よりも大きかった。実施形態において、単一分子中でメチル化状態の配列などのメチル化状態の空間パターン、または修飾塩基とゲノム座標との間の相対もしくは絶対距離を利用して、血漿中の断片について胎児/母体起源の決定をさらに改善することができる。実施形態において、メチル化パターンを、好ましい末端(Chan et al.Proc Natl Acad Sci USA.2016;113:E8159-8168)、末端モチーフ(Serpas et al.Proc Natl Acad Sci USA.2019;116:641-649)、サイズ(Lo et al.Sci Transl Med.2010;2:61ra)、配向認識(すなわち、ゲノム内の特定の要素、例えば、オープンクロマチン領域、断片化パターンに関する配向(Sun et al.Genomes Res.2019;29:418-427))、トポロジー型(例えば、線状対円形DNA分子(Ma et al.Clin Chem.2019;65:1161-1170))を含むがこれらに限定されない他の断片化測定基準(すなわち、DNAの断片化に関するパラメータ)と組み合わせて、胎盤起源(胎児起源)の断片を区別する分類力を改善することができる。
図10Aおよび10Bは、胎児および母体の両方のDNA断片の単一分子、二本鎖DNAメチル化レベルが断片サイズによって変動したことを示す。y軸は、単一分子、二本鎖DNAメチル化レベルをパーセントで示す。x軸は、0~20kb超(図10A)および0~1kb超(図10B)のサイズを示す。一方、胎児特異的DNA分子の単一分子、二本鎖DNAメチル化レベルは概して、長い範囲(図10A)および短い範囲(図10B)の両方において、母体特異的DNA分子よりも低かった。この発見は、短いDNA分子についての、胎児DNAのメチル化レベルが妊娠中の女性の血漿中の母体DNAよりも低いという現在の知見と一致していた(Lun et al.Clin Chem.2013;59:1583-94)。
実施形態において、胎児DNA分子のメチル化レベルが母体DNA分子よりも比較的低いため、単一分子、二本鎖DNAメチル化レベルが、80%、70%、60%、50%、40%、30%、20%、10%、および5%などであるがこれらに限定されない、特定の閾値未満である分子を選択して、血漿DNAプール中の胎児起源の無細胞DNA分子を濃縮する。例えば、胎児DNA画分は、1kb超の断片について2.6%である。50%未満の単一分子、二本鎖メチル化レベルを有する断片(1kb超)を選択した場合、1kb超のそれらのさらに選択された断片の胎児DNA画分は、5.6%に増加する(すなわち、115.4%の増加)。別の例において、胎児DNA画分は、200bp未満の断片について26.2%である。50%未満の単一分子、二本鎖メチル化レベルを有する断片(200bp未満)を選択した場合、200bp超のそれらのさらに選択された断片の胎児DNA画分は、41.6%に増加する(すなわち、58.8%)。したがって、胎児DNAを濃縮するための閾値化単一分子、二本鎖DNAメチル化レベルの使用は、特定の状況下で長いDNA分子に対してより有効である。
C.長い無細胞DNAのハプロタイプおよびメチル化
実施形態において、本開示に記載の方法を使用して、各単一DNA分子についての塩基組成、サイズ、および塩基修飾を取得することができる。長い無細胞DNA分子のSNPおよびメチル化情報は、ハプロタイプ決定に使用され得る。本開示で明らかにされた無細胞DNAプール中に存在する長いDNA分子の使用は、限定されないが、公開された方法(Edge et al.Genome Res.2017;27:801-812、Wenger et al.Nat Biotechnol.2019;37:1155-1162)に従って、各コンセンサス配列に存在するハプロタイプ情報を利用することによって、ゲノム中のバリアントのフェージングを可能にする。組織DNAから調製された長いDNAに依存しなければならない以前の研究とは異なる、無細胞DNAの配列情報に従ってハプロタイプを決定する実装。ゲノム領域内のハプロタイプは、時にハプロタイプブロックと称され得る。ハプロタイプブロックは、段階化された染色体上の対立遺伝子のセットとみなすことができる。いくつかの実施形態において、ハプロタイプブロックは、染色体上で物理的に連結された2つの対立遺伝子を支持する配列情報のセット、ならびに異なる配列間の対立遺伝子重複情報に従って、可能な限り長く延長される。
図11Aおよび11Bは、妊娠中の女性の母体血漿DNAにおいて特定された長い胎児特異的DNA分子の一例を示す。それらの胎児特異的DNA断片の間で、16,186bpであった1つの分子を使用した本発明の実施形態をここに示し、この断片は、ヒト参照ゲノムの第10染色体の領域(chr10:56282981~56299166)にアラインメントされた(図11A)、および7つの胎児特異的対立遺伝子を担持した(図11B)。(Illuminaプラットフォームを使用して)母体および胎児ゲノムの深度配列決定から推定された対立遺伝子情報と一致した胎児特異的対立遺伝子は、7つのうち6つであった(図11B)。そのメチル化レベルは、本開示に記載の方法に従って27.1%であると決定され(図11B)、これは、母体特異的断片の平均レベル(72.7%)よりもはるかに低かった。これらの結果は、単一分子、二本鎖DNAメチル化パターンが、胎児および母体起源の無細胞DNA分子を区別するためのマーカーとしての役割を果たすことを示唆した。
図12Aおよび12Bは、妊娠中の女性の母体血漿DNAにおいて特定された共有対立遺伝子を担持する長い母体特異的DNA分子の一例を示す。共有対立遺伝子を担持するそれらの断片の間で、最長のものは24,166bpであり、これは、ヒト参照の第6染色体の領域(chr6:111074371~111098536)にアラインメントされた(図12A)、および18個の共有対立遺伝子を担持した(図12B)。それらのすべての共有対立遺伝子が、(Illuminaプラットフォームを使用して)母体および胎児ゲノムの深度配列決定から推定された対立遺伝子情報と一致していた(図12B)。そのメチル化レベルは、本開示に記載の方法に従って66.9%であると決定された(図12B)。数キロベースほどの長さの無細胞DNA分子の遺伝子情報およびエピジェネティック情報を、バイサルファイト配列決定(Illumina)などのショートリード配列決定を使用して簡単に特定することはできなかった。
ここで、分子が妊娠中の女性または胎児に由来する相対尤度を決定する方法を説明する。妊娠中の女性において、胎児の遺伝子型を担持するDNA分子が実際に胎盤に由来する一方で、母体の遺伝子型を担持するDNA分子のほとんどは、母体の血球に由来する。本方法において、最初に、胎盤および母体の両方の血球についてのメチル化レベルに応じて、DNA分子の頻度分布曲線を構築する。これを実現するために、ヒトゲノムを異なるサイズの瓶に分割した。
図13は、1kb~20kbの異なる分解能でのメチル化レベルに応じた胎盤(赤色)および母体血球(青色)からのDNAについての頻度分布を示す。周波数は、y軸上に示される。メチル化レベルは、x軸上に示される。瓶のサイズの例としては、1kb、2kb、5kb、10kb、15kb、および20kbが挙げられるが、これらに限定されない。各瓶のメチル化レベルを、メチル化されたCpG部位の数をCpG部位の総数で割ったものに基づいて決定した。すべての瓶のメチル化レベルを決定した後、異なる瓶サイズについて、胎盤ゲノムおよび母体血球ゲノムの各々に対して頻度分布曲線が構築され得る。
長いDNA分子のメチル化レベルに基づいて、それが胎盤または母体の血球に由来する尤度は、そのようなメチル化レベルでの2タイプのDNA分子の相対存在量、ならびに試料中の胎児DNAの画分濃度によって決定され得る。
xおよびyをそれぞれ、特定のメチル化レベルでの胎盤および母体血球に由来するDNA分子の頻度とし、fを試料中の胎児DNAの画分濃度とする。
DNA分子が胎児に由来する確率(P)は、以下のように計算され得る:
以前の例から、16kbの血漿DNA分子および27.1%のメチル化レベルが考慮される。
図14Aおよび14Bは、16kb(図14A)および24kb(図14B)ウィンドウ内のメチル化レベルに応じた胎盤(赤色)および母体血球(青色)からのDNAについての頻度分布を示す。周波数は、y軸上に示される。メチル化レベルは、x軸上に示される。16kbの断片についての頻度分布プロット(図14A)に基づいて、胎盤および母体血球に由来するDNA分子についての頻度はそれぞれ、0.6%および0.08%である。胎児DNA画分は21.8%であるため、このDNA断片が胎盤に由来する確率は64%であり、胎盤起源の可能性が高いことを示唆している。
DNA分子が胎児組織に由来する確率は、24kbの血漿DNA分子および66.9%のメチル化レベルについても計算され得る。24kbの断片についての頻度分布プロットに基づいて、胎盤および母体血球に由来するDNA分子についての頻度はそれぞれ、0.05%および0.16%である(図14B)。このDNA断片が胎盤に由来する確率は0.8%であり、それが胎盤起源である可能性が非常に低いことを示唆している。言い換えれば、分子が母体起源である尤度が高い。
この計算は、胎児および母体DNAについてのサイズ分布曲線を参照することによって、DNA分子のサイズをさらに考慮することができる。そのような分析は、例えば限定されないが、ベイズの定理、ロジスティック回帰、重回帰およびサポートベクターマシン、ランダムフォレスト分析、分類および回帰ツリー(CART)、K近傍アルゴリズムを使用して実施され得る。
図15Aおよび15Bは、血漿中の長いDNA断片が、サイズが18,896bpであることを示し、これは、ヒト参照の第8染色体の領域(chr8:108694010~108712904)にアラインメントされた(図15A)、および7つの母体特異的対立遺伝子を担持した(図15B)。それらのすべての母体特異的対立遺伝子が、母体および胎児ゲノムの深度配列決定(Illumina技術)から推定された対立遺伝子情報と一致していた(図15B)。そのメチル化レベルは、本開示に記載の方法に従って72.6%であると決定され(図15B)、母体特異的断片のプールされたメチル化レベル(72.7%)に匹敵することを示している。したがって、そのような分子は、母体起源の断片として分類される可能性がより高くなる。数キロベースほどの長さの無細胞DNA分子の遺伝子情報およびエピジェネティック情報を、バイサルファイト配列決定(Illumina)などのショートリード配列決定を使用して簡単に特定することはできなかった。
上記の方法を使用して、この分子が胎盤に由来する確率が計算され得る。19kbの断片についての頻度分布プロットに基づいて、胎盤および母体血球に由来するDNA分子についての頻度はそれぞれ、0.65%および0.23%である。このDNA断片が胎盤に由来する確率は43%であり、それが母体起源である尤度が高いことを示唆している。
D.臨床的ハプロタイプ決定用途
実施形態において、妊娠中の女性の血漿DNA中の短いDNA分子および長いDNA分子の両方を分析する能力は、組織から取得された以前の父性または母体または胎児の遺伝子型情報を必要とすることなく、相対ハプロタイプ投与量(RHDO)分析を実行することを可能にする(Lo et al.Sci Transl Med.2010;2:61ra91、Hui et al.Clin Chem.2017;63:513-524)。この能力は、以前可能であったよりも費用効果が高く、臨床的に適用可能である。
図16は、妊娠中の無細胞DNAを使用してRHDO分析を実行する方法に関するこの原理を示す。無細胞DNAは、妊娠中の女性から単離され、段階1605でSMRT配列決定に供される。長いおよび短いDNA分子を含む各分子についてのサイズ、対立遺伝子情報、およびメチル化状態は、本開示に記載の方法に従って決定され得る。段階1610では、サイズ情報に従って、配列決定された分子を2つのカテゴリー、すなわち、長いDNA分子および短いDNA分子に分割することができる。長いおよび短いDNAカテゴリーを決定するために使用されるカットオフには、150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、1.6kb、1.7kb、1.8kb、1.9kb、2kb、2.5kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、または1Mbが含まれ得るが、これらに限定されない。段階1615では、実施形態において、長いDNA分子中に存在する対立遺伝子情報は、母体ハプロタイプ、すなわち、Hap IおよびHap IIを構築するために使用され得る。短いDNA分子は、対立遺伝子情報に従って母体ハプロタイプにアラインメントすることができる。したがって、母体Hap IおよびHap IIに由来する無細胞DNA分子(例えば、短いDNA)の数が決定され得る。
段階1620では、ハプロタイプの不均衡が分析され得る。不均衡は、分子数、分子サイズ、または分子メチル化状態であり得る。段階1625では、胎児の母性遺伝が推定され得る。母体血漿DNA中のHap Iの投与量が過剰表現されている場合、胎児は、母体Hap Iを受け継ぐ可能性が高い。そうでない場合、胎児は、母体Hap IIを受け継ぐ可能性が高い。逐次確率比検定(SPRT)、二項検定、カイ二乗検定、スチューデントのt検定、ノンパラメトリック検定(例えば、ウイルコクソン検定)、および隠れマルコフモデルが挙げられるがこれらに限定されない異なる統計的アプローチが、どの母体ハプロタイプが過剰表現されているかを決定するために使用される。
計数分析に加えて、実施形態において、短いDNA分子のメチル化およびサイズも決定され、母体ハプロタイプに割り当てられる。2つのハプロタイプ(すなわち、Hap IとHap II)間のメチル化不均衡を使用して、胎児に受け継がれた母体ハプロタイプを決定することができる。胎児がHap Iを受け継いだ場合、Hap Iの対立遺伝子を担持する断片は、Hap IIの対立遺伝子を担持するものと比較して、母体血漿中により多く存在する。胎児に由来するDNA断片の低メチル化は、Hap IIのメチル化レベルと比較して、Hap Iのメチル化レベルを低下させる。言い換えれば、Hap Iのメチル化がHap IIよりも低いメチル化レベルを示した場合、胎児は、母性Hap Iを受け継ぐ可能性がより高くなる。そうでない場合、胎児は、母性Hap IIを受け継ぐ可能性がより高くなる。別の実施形態において、個々の断片が胎児または母親に由来する確率は、上記のように計算され得る。Hap Iにアラインメントするすべての断片について、これらの断片が胎児に由来する集計された確率は、ベイズの定理に基づいて決定され得る。同様に、これらの断片が胎児に由来する集計された確率は、Hap IIについて演算され得る。次いで、Hap IまたはHap IIが胎児によって受け継がれる尤度は、2つの集計された確率に基づいて推定され得る。
実施形態において、2つのハプロタイプ(すなわち、Hap IとHap II)間のサイズ延長または短縮を使用して、胎児に受け継がれた母体ハプロタイプを決定することができる。胎児がHap Iを受け継いだ場合、Hap Iの対立遺伝子を担持する断片は、Hap IIの対立遺伝子を担持するものと比較して、母体血漿中により多く存在する。胎児に由来するDNA断片は、Hap IIに由来するものよりも比較的短くなる。言い換えれば、Hap Iに由来する分子がHap IIよりも短いDNAを多く含む場合、胎児は、母性Hap Iを受け継ぐ可能性がより高くなる。そうでない場合、胎児は、母性Hap IIを受け継ぐ可能性がより高くなる。
いくつかの実施形態において、母体のHap IとHap IIとの間のカウント、サイズ、およびメチル化の複合分析を実行して、胎児の母性遺伝を推定することができる。例えば、ロジスティック回帰を使用して、カウント、サイズ、メチル化状態を含む3つの測定基準を組み合わせることができる。
臨床試験において、カウント、サイズ、およびメチル化状態に関するハプロタイプベースの分析は、胎児が遺伝性障害、例えば限定されないが、脆弱X症候群、筋ジストロフィー、ハンチントン病、またはベータ-サラセミアと関連する母体ハプロタイプを受け継いでいるかどうかを決定することを可能にする。長い無細胞リードにおけるDNA配列の反復を含む障害の検出は、本開示において別個に記載される。
E.長い無細胞DNA分子の標的化配列決定
本開示に記載の方法は、1つ以上の選択された長いDNA断片を分析するために適用され得る。実施形態において、目的の1つ以上の長いDNA断片は、最初に、目的の領域由来のDNA分子が相補的配列を有する合成オリゴヌクレオチドにハイブリダイズすることを可能にするハイブリダイゼーション法によって濃縮され得る。本明細書に記載の方法を使用して、サイズ、遺伝子情報、およびエピジェネティック情報をすべて一体になって解読するために、標的DNA分子は、元のDNA分子の塩基修飾情報がPCR産物に伝達されないため、配列決定に供される前にPCRによって増幅されないことが好ましい。
PCR増幅を行わずにこれらの標的領域を濃縮するために、いくつかの方法が開発されている。別の実施形態において、1つ以上の標的の長いDNA分子は、クラスター化して規則的な配置の短い回文配列反復(CRISPR)-CRISPR関連タンパク質9(Cas9)系の使用を通して濃縮され得る(Stevens et al.PLOS One 2019;14(4):e0215441、Watson et al.Lab Invest 2020;100:135-146)。そのようなCRISPR-Cas9による切断が、元の長いDNA分子のサイズを変化させるにもかかわらず、それらの遺伝子情報およびエピジェネティック情報は、依然として保存されており、本開示に記載の方法を使用して取得されることが可能であり、塩基含有量、ハプロタイプ(すなわち、位相)情報、デノボ変異、塩基修飾(例えば、4mC(N4-メチルシトシン)、5hmC(5-ヒドロキシメチルシトシン)、5fC(5-ホルミルシトシン)、5caC(5-カルボキシルシトシン)、1mA(N1-メチルアデニン)、3mA(N3-メチルアデニン)、7mA(N7-メチルアデニン)、3mC(N3-メチルシトシン)、2mG(N2-メチルグアニン)、6mG(O6-メチルグアニン)、7mG(N7-メチルグアニン)、3mT(N3-メチルチミン)、4mT(O4-メチルチミン)、および8oxoG(8-オキソ-グアニン)が挙げられるが、これらに限定されない。実施形態において、DNA試料中のDNA分子の末端は、最初に脱リン酸化され、そのためそれらを配列決定アダプターに直接連結しにくい状態にする。次いで、目的の長いDNA分子は、ガイドRNA(crRNA)を伴うCas9タンパク質によって誘導されて、二本鎖切断を作成する。次いで、両側で二本鎖切断と隣接する目的の長いDNA分子は、選択した配列決定プラットフォームによって指定された配列決定アダプターに連結される。別の実施形態では、Cas9タンパク質と結合していないDNA分子が分解されるように、DNAをエキソヌクレアーゼで処理することができる(Stevens et al.PLOS One 2019;14(4):e0215441)。これらの方法は、PCR増幅を伴わないため、塩基修飾を含む元のDNA分子の配列を決定し、塩基修飾を決定することができる。
実施形態において、これらの方法を使用して、ヒト参照ゲノム(hg19)などの参照ゲノム、例えば、長鎖散在核要素(LINE)反復を参照してガイドRNAを設計することによって、相同配列を共有する多数の長いDNA分子を標的にすることができる。一実施例では、そのような分析は、胎児の異数性の検出のために、母体血漿中の循環無細胞DNAの分析に使用することができる(Kinde et al.PLOS One 2012;7(7):e41162)。実施形態において、非活性型または「死んだ」Cas9(dCas9)およびそれに関連する一本鎖ガイドRNA(sgRNA)が、二本鎖DNA分子を切断することなく標的の長いDNAを濃縮するために使用され得る。例えば、sgRNAの3’末端は、余分な普遍的な短い配列を有するように設計され得る。その普遍的な短い配列に相補的なビオチン化一本鎖オリゴヌクレオチドを使用して、dCas9によって結合されたそれらの標的の長いDNA分子を捕捉することができる。別の実施形態において、ビオチン化dCas9タンパク質もしくはsgRNA、または両方を使用して、濃縮を容易にすることができる。
実施形態において、化学的、物理的、酵素的、ゲルベース、および磁気ビーズベースの方法、または2つ以上のそのようなアプローチを組み合わせた方法を含むがこれらに限定されないアプローチを使用して、目的の1つ以上の特定のゲノム領域に限定することなく、長いDNA断片を濃縮するためにサイズ選択を実施し得る。他の実施形態において、免疫沈降は、抗メチルシトシン抗体およびメチル結合タンパク質の使用によって媒介されるように、特定のメチル化プロファイルのDNA断片を濃縮するために使用され得る。結合または捕捉されたDNAのメチル化プロファイルは、非メチル化認識配列決定を使用して決定され得る。
F.長い血漿DNA分子に基づく胎児遺伝分析の一般的な概念
図17は、母体および胎児起源の情報を用いた血漿DNA分子における遺伝性/エピジェネティック障害の決定を示す。長い血漿DNA分子は、分子の全体または一部のCpG部位の遺伝子および/またはエピジェネティックプロファイルに従って、妊娠中の女性において胎児または母体起源であると決定され得る[すなわち、領域(a)]。遺伝子情報は、配列情報、一塩基多型、挿入、欠失、タンデム反復、サテライトDNA、マイクロサテライト、ミニサテライト、逆位などであり得るが、これらに限定されない。エピジェネティック情報は、血漿DNA分子中の1つ以上のCpG部位のメチル化状態、ならびにそれらの相対的順序であり得る。他の実施形態において、エピジェネティック情報は、A、C、G、またはTのいずれかの修飾であり得る。組織起源情報を有する長い血漿DNAは、そのような長い血漿DNA分子中の遺伝性/エピジェネティック障害の存在を決定することによって、非侵襲的出生前検査のために使用され得る[すなわち、領域(b)]。
図18は、胎児の異常な断片の特定を示す。一例として、本開示に従って、領域(a)のメチル化パターンに基づいて、長いDNA断片が胎児起源であることが特定された。そのような胎児起源の分子に基づいて、胎児が遺伝性またはエピジェネティック障害によって影響を受ける尤度を決定することができる。遺伝性障害は、一塩基バリアント、挿入、欠失、タンデム反復、サテライトDNA、マイクロサテライト、ミニサテライト、逆位などを含み得る。遺伝性障害の例としては、ベータ-サラセミア、アルファ-サラセミア、鎌状赤血球症、嚢胞性線維症、性関連遺伝性障害(例えば、血友病、デュシェンヌ型筋ジストロフィー)、脊髄性筋萎縮症、先天性副腎過形成などが挙げられるが、これらに限定されない。エピジェネティック障害は、異常なレベルのDNAメチル化、例えば、メチル化の上昇(すなわち、高メチル化)または喪失(低メチル化)であり得る。エピジェネティック障害の例としては、脆弱X症候群、アンジェルマン症候群、プラダー・ウィリ症候群、顔面肩甲上腕型筋ジストロフィー(FSHD)、免疫不全、セントロメア不安定性および顔面異常(ICF)症候群などが挙げられたが、これらに限定されない。遺伝性またはエピジェネティック障害は、領域(b)内に存在することがわかる場合がある。
G.配列決定精度の改善
配列決定精度は、長い無細胞DNA断片の配列リードによって改善し得る。図11B中、長い胎児特異的DNA分子中の7つの対立遺伝子の間で、PacBio配列決定とIllumina配列決定との間で一貫していないように思われた対立遺伝子が1つあった。
図19A~19Gは、PacBio配列決定を使用した無細胞DNA遺伝子型決定の誤差補正の図を示す。図11Bのそれらの7つの部位についてのサブリードアライメントの結果を視覚化した。1行目は、ゲノム座標を示し、2行目は、参照配列である。3行目以降は、アラインメントされたサブリードを示す。例えば、図19A中、その領域を横切る8つのサブリードが存在する。「.」は、ワトソン鎖内の参照塩基と同一であることを表す。「,」は、クリック鎖内の参照塩基と同一であることを表す。「アルファベット文字」は、代替の対立遺伝子を表す。「*」は、挿入欠失を表す。図19Fに示される一貫性のない部位、主要な塩基が、コンセンサス配列において「T」と呼ばれたことがわかる。しかしながら、その部位(図19F)の9つのサブリードの間で、9つのサブリードのうち5つ(すなわち、56%の主要な対立遺伝子画分(MAF))のみが、「T」であると決定された一方で、他は、「C」であると決定された。この部位(図19F)の主要な対立遺伝子画分は、他の部位(図19A~Eおよび図19G)(MAFの範囲:67~89%)よりも低かった。したがって、例えば、少なくとも60%のMAFを使用して、コンセンサス配列における各部位についての塩基組成を決定するための厳格な基準を設定した場合、この誤差部位は、下流解釈から除外される。一方、そのような誤った部位は、ホモポリマー(すなわち、一連の連続した同一の塩基、「TTTTTTT」)内に偶然入った。実施形態において、ホモポリマー内のバリアントがQC不合格としてフラグ付けされ、一時的に下流分析に使用されない基準を設定することができる。実施形態において、異なるマッピング品質および塩基品質を適用して、低品質の塩基またはサブリードを補正またはフィルタリングして、塩基組成分析を改善することができる。
ナノポア配列決定の配列決定精度がさらに改善されると、本発明の実施形態は、そのような改善された配列決定プラットフォームとともに使用され、それによって改善された精度をもたらすことができる。
H.例示的な方法
長い無細胞DNA断片は、無細胞DNA断片を有する妊娠中の女性から取得された生物学的試料から配列決定され得る。これらの長い無細胞DNA断片は、胎児によるハプロタイプの遺伝を決定するために使用され得る。
1.長い無細胞DNA断片の配列決定
図20は、妊娠中の生物の生物学的試料を分析する方法2000を示す。生物学的試料は、複数の無細胞核酸分子を含み得る。生物学的試料は、本明細書に記載の任意の生物学的試料であり得る。生物学的試料中の無細胞核酸分子の20%超は、200nt(ヌクレオチド)よりも大きいサイズを有する。
ブロック2010では、複数の複数の無細胞核酸分子が配列決定される。配列決定は、単一分子リアルタイム技術によるものであり得る。いくつかの実施形態において、配列決定は、ナノポアを使用することによるものであり得る。
配列決定された複数の無細胞核酸分子の20%超は、200ntよりも大きい長さを有し得る。いくつかの実施形態において、配列決定された複数の無細胞核酸分子の15~20%、20~25%、25~30%、30~35%、または35%超は、200ntよりも大きい長さを有し得る。
いくつかの実施形態では、配列決定された複数の無細胞核酸分子の11%超は、400ntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の5~10%、10~15%、15~20%、20~25%、または25%超は、400ntよりも大きい長さを有し得る。
いくつかの実施形態において、配列決定された複数の無細胞核酸分子の10%超は、500ntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の5~10%、10~15%、15~20%、20~25%、または25%超は、500ntよりも大きい長さを有し得る。
実施形態において、配列決定された複数の無細胞核酸分子の8%超は、600ntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の5~10%、10~15%、15~20%、20~25%、または25%超は、600ntよりも大きい長さを有し得る。
いくつかの実施形態において、配列決定された複数の無細胞核酸分子の6%超は、1kntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の3~5%、5~10%、10~15%、15~20%、20~25%、または25%超は、1kntよりも大きい長さを有し得る。
実施形態において、配列決定された複数の無細胞核酸分子の3%超は、2kntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の1~5%、5~10%、10~15%、15~20%、20~25%、または25%超は、2kntよりも大きい長さを有し得る。
実施形態において、配列決定された複数の無細胞核酸分子の1%超は、3kntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の1~5%、5~10%、10~15%、15~20%、20~25%、または25%超は、3kntよりも大きい長さを有し得る。
いくつかの実施形態において、配列決定された複数の無細胞核酸分子の少なくとも0.9%は、4kntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の0.5~1%、1~5%、5~10%、10~15%、15~20%、または20%超は、4kntよりも大きい長さを有し得る。
いくつかの実施形態において、配列決定された複数の無細胞核酸分子の少なくとも0.04%は、10kntよりも大きい長さを有し得る。実施形態において、配列決定された複数の無細胞核酸分子の0.01~0.1%、0.1%~0.5%、0.5~1%、1~5%、5~10%、10~15%、または15%超は、4kntよりも大きい長さを有し得る。
複数の第1の核酸分子は、少なくとも10、50、100、または200個の無細胞核酸分子を含み得る。複数の無細胞核酸分子は、複数の異なるゲノム領域からのものであり得る。例えば、複数の染色体腕または染色体は、無細胞核酸分子によってカバーされ得る。複数の無細胞核酸分子のうちの少なくとも2つは、重複しない領域に対応し得る。
長い無細胞DNA断片を配列決定する方法は、本明細書に記載の任意の方法によって使用され得る。配列決定からのリードを使用して、胎児異数性、異常(例えば、コピー数異常)、遺伝子変異もしくは変化、または親のハプロタイプの遺伝を決定し得る。配列リードの量は、無細胞DNA断片の量を表し得る。
2.ハプロタイプの遺伝
図21は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法2100を示す。女性は、第1の染色体領域内に第1のハプロタイプおよび第2のハプロタイプを有し得る。生物学的試料には、胎児および女性からの複数の無細胞DNA分子を含み得る。生物学的試料は、本明細書に記載の任意の生物学的試料であり得る。
ブロック2105では、複数の無細胞DNA分子に対応するリードが受け取られ得る。リードは、配列リードであり得る。いくつかの実施形態において、方法は、配列決定を実施することを含み得る。
ブロック2110では、複数の無細胞DNA分子のサイズが測定され得る。サイズは、DNA分子の末端に対応する1つ以上の配列リードを参照ゲノムにアラインメントすることによって測定され得る。サイズは、DNA分子の完全長配列決定、および完全長配列のヌクレオチド数のカウントによって測定され得る。最も外側のヌクレオチドのゲノム座標を使用して、DNA分子の長さを決定し得る。
ブロック2115では、複数の無細胞DNA分子からの無細胞DNA分子の第1のセットが、カットオフ値以上のサイズを有するものとして特定され得る。カットオフ値は、長いDNAと関連する任意のカットオフであり得る。例えば、カットオフは、150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kb、1.5kb、2kb、2.5kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、15kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、または1Mbを含み得る。
ブロック2120では、無細胞DNA分子の第1のセットに対応するリードからの第1のハプロタイプの配列および第2のハプロタイプの配列が、決定され得る。第1のハプロタイプの配列および第2のハプロタイプの配列を決定することは、無細胞DNA分子の第1のセットに対応するリードを参照ゲノムに対応するリードを参照ゲノムにアラインメントすることを含み得る。
いくつかの実施形態において、第1のハプロタイプの配列および第2のハプロタイプの配列を決定することは、参照ゲノムを含まない場合がある。配列を決定することは、リードの第1のサブセットをリードの第2のサブセットにアラインメントして、リード内の遺伝子座において異なる対立遺伝子を特定することを含み得る。方法は、リードの第1のサブセットが遺伝子座に第1の対立遺伝子を有すると決定することを含み得る。方法はまた、リードの第2のサブセットが遺伝子座に第2の対立遺伝子を有すると決定することを含み得る。方法は、リードの第1のサブセットが第1のハプロタイプに対応すると決定することをさらに含み得る。さらに、方法は、リードの第2のサブセットが第2のハプロタイプに対応すると決定することを含み得る。アラインメントは、図16で説明されるアラインメントと同様であり得る。
ブロック2125では、複数の無細胞DNA分子からの無細胞DNA分子の第2のセットは、第1のハプロタイプの配列にアラインメントされ得る。無細胞DNA分子の第2のセットは、カットオフ値よりも小さいサイズを有し得る。無細胞DNA分子の第2のセットは、第1のハプロタイプの短いDNA分子であり得る。
ブロック2130では、複数の無細胞DNA分子からの無細胞DNA分子の第3のセットは、第2のハプロタイプの配列にアラインメントされ得る。無細胞DNA分子の第3のセットは、カットオフ値よりも小さいサイズを有し得る。無細胞DNA分子の第3のセットは、第2のハプロタイプの短いDNA分子であり得る。
ブロック2135では、パラメータの第1の値が、無細胞DNA分子の第2のセットを使用して測定され得る。パラメータは、無細胞DNA分子のカウント、無細胞DNA分子のサイズプロファイル、または無細胞DNA分子のメチル化レベルであり得る。値は、生の値または統計値(例えば、平均、中央値、最頻値、パーセンタイル、最小、最大)であり得る。いくつかの実施形態において、値は、参照試料、別の領域、両方のハプロタイプ、または他のサイズ範囲についてのパラメータの値に正規化され得る。
ブロック2140では、パラメータの第2の値が、無細胞DNA分子の第3のセットを使用して測定され得る。このパラメータは、無細胞DNA分子の第2のセットと同じパラメータである。
ブロック2145では、第1の値は、第2の値と比較され得る。比較は、分離値を使用し得る。分離値は、第1の値および第2の値を使用して計算され得る。分離値は、カットオフ値と比較され得る。第1の分離値は、本明細書に記載の任意の分離値であり得る。カットオフ値は、正倍数性胎児を妊娠中の女性からの参照試料から決定され得る。他の実施形態において、カットオフ値は、異数性胎児を妊娠中の女性からの参照試料から決定され得る。いくつかの実施形態において、カットオフ値は、異数性胎児を仮定して決定され得る。例えば、正倍数性胎児を妊娠中の女性からの参照試料からのデータは、異数性についての染色体領域のコピー数の増加または減少を説明するために調整され得る。カットオフ値は、データを調整することから決定され得る。
2150では、胎児が第1のハプロタイプを遺伝する尤度は、第1の値と第2の値との比較に基づいて決定され得る。尤度は、分離値とカットオフ値との比較に基づいて決定され得る。パラメータが無細胞DNA分子のサイズプロファイルであるとき、方法は、第1の値が第2の値よりも小さい場合、胎児が第2のハプロタイプよりも第1のハプロタイプを遺伝する尤度が高いと決定することを含み得、無細胞DNA分子の第2のセットが無細胞DNA分子の第3のセットよりも小さいサイズプロファイルによって特徴付けられることを示している。パラメータが無細胞DNA分子のメチル化レベルであるとき、方法は、第1の値が第2の値よりも小さい場合、胎児が第2のハプロタイプよりも第1のハプロタイプを遺伝する尤度が高いと決定することを含み得る。
いくつかの実施形態において、方法は、無細胞DNA分子の第1のセットに対応するリードの1つのリードにおける部分配列の反復数を特定することを含み得る。第1のハプロタイプの配列を決定することは、配列が部分配列の反復数を含むと決定することを含み得る。第1のハプロタイプは、本明細書に記載のいずれかであり得る反復関連疾患を含み得る。胎児が反復関連疾患を受け継ぐ尤度が決定され得る。胎児が反復関連疾患を受け継ぐ尤度は、胎児が第1のハプロタイプを受け継ぐ尤度に等しいか、またはそれと同様であり得る。配列の反復を特定することは、図16を含む本開示の後半で説明される。
II.メチル化を使用した起源組織の分析
長い無細胞DNA分子は、いくつかのメチル化部位を有し得る。本開示で考察されるように、妊娠中の女性における長い無細胞DNA分子のメチル化レベルは、起源組織を決定する際に使用され得る。さらに、長い無細胞DNA分子上に存在するメチル化パターンを使用して、起源組織を決定し得る。
胎盤組織からの細胞は、白血球、および肝臓、肺、食道、心臓、膵臓、結腸、小腸、脂肪組織、副腎、脳などの組織からの細胞と比較して、独特のメチロームパターンを有する。(Sun et al.,Proc Natl Acad Sci USA.2015;112:E5503-12)。妊娠中の母親の血液中の循環胎児DNAのメチル化プロファイルは、胎盤のメチル化プロファイルに類似している可能性があり、したがって胎児の性別または遺伝子型に依存しない非侵襲的な胎児特異的バイオマーカーを開発する手段を模索する可能性を提供する。しかしながら、妊娠中の女性の母体血漿DNAのバイサルファイト配列決定(例えば、Illumina配列決定プラットフォームを使用)は、胎児起源と分子と母体起源の分子とを区別する能力を欠いている可能性があり、これは、多数の制限があるためである:(1)血漿NDAがバイサルファイト処理中に分解され得る、典型的には、長いDNA分子がより短い分子に分解される、(2)500bpよりも大きいDNA分子が、下流分析用のIllumina配列決定プラットフォームで効果的に配列決定されない場合がある(Tan et al,Sci Rep.2019;9:2856)。
メチル化に基づく起源組織に関する分析の場合、いくつかのメチル化可変領域(DMR)に焦点を当て、単一分子のメチル化パターンの代わりに、DMRとなる組織関連する複数の分子からの集計されたメチル化シグナルを使用し得る(Sun et al,Proc Natl Acad Sci USA.2015;112:E5503-12)。多数の研究が、メチル化感受性制限酵素ベース(Chan et al,Clin Chem.2006;52:2211-8)またはメチル化特異的PCRベースのアプローチ(Lo et al,Am J Hum Genet.1998;62:768-75)を使用して、胎盤から血漿DNAプールへの寄与を評価することを試みた。しかしながら、それらの研究は、1つまたはいくつかのマーカーの分析にのみ適しており、ゲノムワイドなスケールで分子を分析するために使用するのは困難であり得る。しかしながら、それらのリードは、増幅されたシグナル(すなわち、DNAライブラリ調製中のPCRベースの増幅、およびフローセルでの配列決定クラスター生成中のブリッジ増幅)から推定された。そのような増幅ステップは、短いDNA分子を好むバイアスを生み出す可能性があり得、長いDNA分子に関連する情報の損失をもたらす。さらに、Li et al.は、事前にマイニングされたDMRに関連するリードのみを分析した(Li et al.,Nuclei Acids Res.2018;46:e89)。
本開示において、バイサルファイト処理およびDNA増幅なしの単一DNA分子のメチル化パターンに基づいて、妊娠中の女性の血漿中の胎児DNA分子と母体DNA分子とを区別するための新しいアプローチを説明する。実施形態において、1つ以上の長い血漿DNA分子が分析に使用される(例えば、サイズ選択のためのバイオインフォマティクスおよび/または実験的アッセイを使用する)。長いDNA分子は、少なくとも100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kbなどであるがこれらに限定されないサイズを有するDNA分子として定義され得る。母体血漿中のより長い無細胞DNA分子の存在およびメチル化状態に関するデータは不足している。例えば、そのようなより長い無細胞DNA分子のメチル化状態が、起源組織の細胞DNAのメチル化状態を反映するかどうかは不明であり、これは例えば、そのような長い断片が、体内で断片化後にメチル化状態が変化し得る部位をより多く有するためであり、そのような変化は、断片が血漿中を循環している間に生じ得る。例えば、ある研究は、循環DNAのメチル化状態がDNA断片のサイズと相関することを示している(Lun et al.Clin Chem.2013;59:1583-94)。したがって、そのようなより長い無細胞DNA分子から起源組織を推測するための実現可能性は不明である。したがって、組織関連のメチル化シグネチャーを特定するためにとられるアプローチ、ならびにそのような組織特異的なより長い無細胞DNA分子の存在を決定および解釈するためにとられる方法論は、短い無細胞DNA分析に適用されるものとは実質的に異なる。
本開示の実施形態によると、短いDNA分子および長いDNA分子を特定し、メチル化パターン、断片末端、サイズ、および塩基組成を含むがこれらに限定されない、それらの生物学的特性を決定することができる。短いDNA分子は、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp未満などであるがこれらに限定されないサイズを有するDNA分子として定義され得る。短いDNA分子は、長いとみなされる範囲内にないDNA分子であり得る。妊娠中の女性の血漿中の循環DNA分子について起源組織を推定するための新しいアプローチを説明する。この新しいアプローチは、血漿中の1つ以上の長いDNA分子のメチル化パターンを利用する。DNA分子が長いほど、それが含有する可能性が高いCpG部位の数は大きくなる。血漿DNA分子上の複数のCpG部位の存在は、任意の単一のCpG部位のメチル化状態が起源組織を決定するために有益ではない場合でも、起源組織情報を提供する。長いDNA分子中のそのようなメチル化パターンは、各CpG部位についてのメチル化状態、メチル化状態の順序、および任意の2つのCpG部位間の距離を含み得る。2つのCpG部位間のメチル化状態は、2つのCpG部位間の距離に依存し得る。分子中の特定の距離内のCpG部位(例えば、CpGアイランド)が組織特異的パターンを示す場合、統計モデルは、起源組織分析中にそれらのシグナルにより多くの重みを割り当て得る。
図22は、この原理を概略的に示す。図22は、DNA分子についてのメチル化パターンを示す。異なる組織(胎盤、肝臓、血球、結腸)についての7つのCpG部位、および6つの血漿DNA断片A~Eが示される。メチル化CpG部位は赤色で示され、非メチル化CpG部位は緑色で示される。一例として、胎盤、肝臓、血球、および結腸組織にわたって様々なメチル化状態を有する7つのCpG部位を考慮してみる。他の組織と比較して、単一のCpG部位が胎盤に特異的なメチル化状態を示さないというシナリオを考慮してみる。したがって、異なるサイズを有する血漿DNA分子A、B、C、D、およびEについての起源組織を、単一のCpG部位でのメチル化状態のみに基づいて決定することができない。血漿DNA分子AおよびBの場合、それら2つの分子のサイズが比較的短いため、それぞれ3つおよび4つのCpG部位のみ含有している。実施形態において、2つ以上のCpG部位を含有するDNA分子中のメチル化パターンは、メチル化ハプロタイプとして定義され得る。図22に示されるように、血漿DNA分子AおよびBは、胎盤および肝臓が分子A(位置1、2、および3)ならびにB(位置1、2、3、および4)に対応するそれらのゲノム位置において同じメチル化ハプロタイプを共有したため、それらのメチル化ハプロタイプに基づいて胎盤または肝臓のいずれかによって寄与され得る。しかしながら、分子C、D、およびEなどの血漿中の長いDNA分子を取得することができる場合、それらの分子C、D、およびEは、メチル化ハプロタイプに基づいて胎盤に由来すると明確に決定され得る。
組織についての参照パターンは、参照組織からのメチル化パターンに基づき得る。いくつかの実施形態において、メチル化パターンは、いくつかのリードおよび/または試料に基づき得る。各CpG部位についてのメチル化レベル(メチル化指数、MIとも呼ばれ、以下で説明される)を使用して、部位がメチル化されているかどうかを決定し得る。
A.メチル化パターンについての統計モデル
実施形態において、血漿DNA分子が胎盤に由来する尤度は、単一DNA分子のメチル化ハプロタイプを多数の参照組織におけるメチル化パターンと比較することによって決定され得る。長い血漿DNA分子が、そのような分析に好まれ得る。長いDNA分子は、少なくとも100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kbなどであるがこれらに限定されないサイズを有するDNA分子として定義され得る。参照組織としては、胎盤、肝臓、肺、食道、心臓、膵臓、結腸、小腸、脂肪組織、副腎、脳、好中球、リンパ球、好塩基球、好酸球などが挙げられ得るが、これらに限定されない。実施形態において、単一分子リアルタイム配列決定によって決定された血漿DNAのメチル化ハプロタイプ、および参照組織の全ゲノムバイサルファイト配列決定に基づくメチロームデータを相乗的に分析することによって、血漿DNA分子が胎盤に由来する尤度を決定し得る。一例として、全ゲノムバイサルファイト配列決定を使用して、胎盤およびバフィーコート試料を、それぞれ、ハプロイドゲノムの平均94倍および75倍のゲノムカバレッジに配列決定した。各CpG部位のメチル化レベル(メチル化指数、MIとも呼ばれる)を、以下の式を使用して、配列決定されたシトシン数(すなわち、メチル化、Cによって示される)および配列決定されたチミン数(すなわち、非メチル化、Tによって示される)に基づいて計算した:
CpG部位を、胎盤DNAから推定されたMI値に基づいて、3つのカテゴリーに階層化した:
1.MI値が70以上であったカテゴリーA CpG部位。
2.MI値が30~70であったカテゴリーB CpG部位。
3.MI値が30以下であったカテゴリーC CpG部位。
同様に、バフィーコートDNAから推定されたCpG部位のMI値を使用して、CpG部位を3つのカテゴリーに分類した:
1.MI値が70以上であったカテゴリーA CpG部位。
2.MI値が30~70であったカテゴリーB CpG部位。
3.MI値が30以下であったカテゴリーC CpG部位。
カテゴリーは、30および70のMIカットオフを使用した。カットオフは、10、20、40、50、60、80、または90を含む他の数値を含み得る。いくつかの実施形態において、これらのカテゴリーを使用して、参照組織の参照メチル化パターンを決定し得る(例えば、図22で説明されるような使用のため)。カテゴリーA部位は、メチル化とみなされ得る。カテゴリーC部位は、非メチル化とみなされ得る。カテゴリーB部位は、無情報とみなされ、参照パターンに含まれない場合がある。
n個のCpG部位を有する血漿DNA分子の場合、各CpG部位についてのメチル化状態を、我々の以前の開示(米国出願第16/995,607号)に記載されるアプローチによって決定した。いくつかの実施形態において、メチル化状態は、バイサルファイト配列決定またはナノポア配列決定によって決定され得る。血漿DNA分子が胎盤または母体背景に由来する尤度を決定するために、その分子のメチル化パターンを、胎盤および母体バフィーコートDNAの以前のメチル化情報と併せて分析した。実施形態において、血漿DNA断片においてメチル化されている(M)と決定されたCpG部位が胎盤におけるより高いメチル化指数と一致した場合、そのような観察が、この分子が胎盤に由来する可能性がより高かったことを示すという原理を利用した。血漿DNA分子においてメチル化されている(M)と決定されたCpG部位が胎盤におけるより低いメチル化指数と一致した場合、そのような観察は、この分子が胎盤に由来する可能性がより低かったことを示し、血漿DNAにおいてメチル化されていない(U)と決定されたCpG部位が、胎盤におけるより低いメチル化指数と一致した場合、そのような観察は、この分子が胎盤に由来する可能性がより高かったことを示す。血漿DNAにおいてメチル化されていない(U)と決定されたCpG部位が胎盤におけるより高いメチル化指数と一致した場合、そのような観察は、この分子が胎盤に由来する可能性がより低かったことを示す。
以下のスコアリングスキームを実行した。血漿DNA断片についての胎児起源の尤度を反映する初期スコア(S)を0に設定した。血漿DNA分子のメチル化状態を胎盤DNAの以前のメチル化情報と比較した場合、
a.血漿DNA分子上のCpG部位が「M」であると決定され、胎盤におけるその対応物がカテゴリーAに属した場合、1のスコアがSに追加される(すなわち、スコア単位が1増加する)。
b.血漿DNA分子上のCpG部位が「U」であると決定され、胎盤におけるその対応物がカテゴリーAに属した場合、1のスコアがSから差し引かれる(すなわち、スコア単位が1減少する)。
c.血漿DNA分子上のCpG部位が「M」であると決定され、胎盤におけるその対応物がカテゴリーBに属した場合、0.5のスコアがSに追加される。
d.血漿DNA分子上のCpG部位が「U」であると決定され、胎盤におけるその対応物がカテゴリーBに属した場合、0.5のスコアがSに追加される。
e.血漿DNA分子上のCpG部位が「M」であると決定され、胎盤におけるその対応物がカテゴリーCに属した場合、1のスコアがSから差し引かれる。
f.血漿DNA分子上のCpG部位が「U」であると決定され、胎盤におけるその対応物がカテゴリーCに属した場合、1のスコアがSに追加される。
上記のプロセスを「メチル化状態マッチング」と呼ぶ。
血漿DNA分子中のすべてのCpG部位を処理した後、その血漿DNA分子について最終的な集計スコアS(胎盤)を取得した。実施形態において、CpG部位の数は、少なくとも30である必要があり、血漿DNA分子の長さは、少なくとも3kbである必要があった。本明細書に記載のいずれかを含むがこれらに限定されない、CpG部位の他の数および長さが使用され得る。
血漿DNA分子のメチル化状態を対応する部位のバフィーコートDNAのメチル化レベルと比較した場合、同様のスコアリングスキームが適用される。血漿DNA分子中のすべてのCpG部位が処理した後、その血漿DNA分子について最終的な集計スコアS(バフィーコート)を取得した。
S(胎盤)がS(バフィーコート)よりも大きい場合、血漿DNA分子を胎児起源であると決定した。そうでない場合、血漿DNA分子を母体起源であると決定した。
血漿DNA分子についての胎児-母体起源を推定する性能を評価するために使用された胎児特異的DNA分子および母体特異的DNA分子は、17個および405個あった。胎児特異的分子が、胎児特異的SNP対立遺伝子を担持する血漿DNA分子である一方で、母体特異的DNA分子は、母体特異的SNP対立遺伝子を担持するものであった。
図23は、胎児起源および母体起源を決定するための受信者動作特性曲線(ROC)を示す。y軸は感度を示し、x軸は特異度を示す。赤色の線は、本開示に存在するメチル化状態マッチングに基づいた方法を使用して、胎児起源および母体起源の分子を区別する性能を表す。青色の線は、単一分子のメチル化レベル(すなわち、DNA分子においてメチル化されていると決定されたCpG部位の割合)を使用して、胎児起源および母体起源の分子を区別する性能を表す。図23は、メチル化状態マッチングプロセスについての受信者動作特性曲線(AUC)下面積(0.94)が、単一分子のメチル化レベルに基づくもの(0.86)よりも有意に高かったことを示す(P値<0.0001、DeLong検定)。長いDNA分子のメチル化パターンの分析が、胎児/母体の起源の決定に有用であることが示唆される。
実施形態において、血漿DNAが胎児起源であるか母体起源であるかを決定するとき、S(胎盤)とS(バフィーコート)との間の差の大きさ(ΔS)が考慮され得る。ΔSの絶対値は、例えば、5、10、20、30、40、50などであるがこれらに限定されない特定の閾値を超える必要がある場合がある。一例として、ΔSの閾値として10を使用した場合、胎児DNA分子の検出における正の予測値(PPV)は、14.95%から91.67%に改善された。
実施形態において、CpG部位のメチル化状態は、その隣接するCpG部位のメチル化状態によって影響を受けるであろう。DNA分子上の任意の2つのCpG部位間のヌクレオチド距離が近いほど、2つのCpG部位が同じメチル化状態を共有する可能性が高くなる。この現象は、共メチル化と称されている。多数の組織特異的なCpGアイランドのメチル化が報告されている。したがって、起源組織分析のためのいくつかの統計モデルにおいて、同じメチル化状態を共有するCpG部位(例えば、CpGアイランド)の密集したクラスターに、より多くの重みが割り当てられる。シナリオ「a」および「f」の場合、調査中の現在のCpG部位が前のCpG部位と比較して100bp以下のゲノム距離内に位置し、メチル化状態マッチングプロセスの結果がこれら2つの連続したCpG部位について同一であった場合、さらなる1点が現在のCpG部位についてのスコアSに追加される。シナリオ「b」および「e」の場合、調査中の現在のCpG部位が前のCpG部位と比較して100bp以下のゲノム距離内に位置し、メチル化状態マッチングプロセスの結果がこれら2つの連続したCpG部位について同一であった場合、さらなる1点が現在のCpG部位についてのスコアSから差し引かれる。しかしながら、調査中の現在のCpG部位が前のCpG部位と比較して100bp以下のゲノム距離内に位置し、これら2つの連続したCpG部位についてのメチル化状態マッチングプロセスの結果が一貫していなかった場合、上記のデフォルトスコアリングスキームが使用される。一方、調査中の現在のCpG部位が前のCpG部位と比較して100bpよりも大きいゲノム距離内に位置する場合、デフォルトパラメータを用いた上記のスコアリングスキームが使用される。本明細書に記載のいずれかを含む1以外の点および100bp以外の距離が使用され得る。
他の実施形態において、CpG部位を、胎盤およびバフィーコートDNAから推定されたMI値に基づいて、4つ以上のカテゴリーに階層化した。参照組織の以前のメチル化情報は、単一分子リアルタイム配列決定(すなわち、ナノポア配列決定および/またはPacBio SMRT配列決定)から推定され得る。血漿DNA分子の長さは、少なくとも100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、10kb、20kb、30kb、40kb、50kb、100kb、200kbなどである必要があり得るが、これらに限定されない。CpG部位の数は、少なくとも3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100などである必要があり得るが、これらに限定されない。
実施形態において、確率モデルを使用して、血漿DNA分子のメチル化パターンを特徴付け得る。血漿DNA分子上のk個のCpG部位(k≧1)のメチル化状態を、M=(m、m、…、m)として示し、ここで、mは、血漿DNA分子上のCpG部位iにおいて0(非メチル化状態の場合)または1(メチル化の場合)であった。実施形態において、胎盤に由来する血漿DNA分子に関連するMの確率は、胎盤組織における参照メチル化パターンに依存し得る。1、2、…、kのそれらの対応するCpG部位についての胎盤組織における参照メチル化パターンは、ベータ分布に従う。ベータ分布は、Beta(α,β)によって示される2つの正のパラメータαおよびβによってパラメータ化される。ベータ分布から導出された値は、0~1の範囲である。目的の組織についての高深度バイサルファイト配列決定データに基づいて、パラメータαおよびβを、それぞれ、その特定の組織についての各CpG部位において配列決定されたシトシン(メチル化)およびチミン(非メチル化)の数によって決定した。胎盤の場合、そのようなベータ分布をBeta(α,β)として示した。胎盤に由来する血漿DNA分子の確率、P(M|胎盤)は、以下によってモデル化される:
ここで、「i」は、i番目のCpG部位を示し、
は、胎盤におけるi番目のCpG部位のメチル化パターンに関連するベータ分布を示し、Pは、k個のCpG部位にわたって所与のメチル化パターンを有する観察された血漿DNA分子の同時確率であった。
バフィーコート(すなわち、白血球)に由来する血漿DNA分子の確率、P(M|バフィーコート)は、以下によってモデル化される:
ここで、「i」は、i番目のCpG部位を示し、
は、バフィーコートDNAにおけるi番目のCpG部位のメチル化パターンに関連するベータ分布を示した。Pは、k個のCpG部位にわたって所与のメチル化パターンを有する観察された血漿DNA分子の同時確率であった。
は、それぞれ、胎盤DNAおよびバフィーコートDNAの全ゲノムバイサルファイト配列決定の結果から決定され得る。
血漿DNA分子について、P(M|胎盤)がP(M|バフィーコート)よりも大きいことが観察された場合、そのような血漿DNA分子は、胎盤に由来する可能性が高い。そうでない場合、それはバフィーコートに由来する可能性が高い。このモデルを使用して、0.79のAUCを達成した。
B.機械学習モデル
さらに他の実施形態において、機械学習アルゴリズムを使用して、特定の血漿DNA分子の胎児/母体起源を決定することができる。妊娠中の女性における胎児および母体のDNA分子を分類するための機械学習ベースのアプローチを使用することの実現可能性を試験するために、血漿DNA分子についてのメチル化パターンのグラフ表示を開発した。
図24は、一対メチル化パターンについての定義を示す。血漿DNA分子上に9つのCpG部位が示されるメチル化CpG部位は赤色で示され、非メチル化CpG部位は緑色で示される。対の2つのCpG部位が同じメチル化状態を共有した場合(例えば、1番目のCpGおよび5番目のCpG)、矢印「a」によって示される位置に示されるように、対は1としてコード化される。対の2つのCpG部位が異なるメチル化状態を有した場合(例えば、1番目のCpGおよび2番目のCpG)、矢印「b」によって示される位置に示されるように、対は0としてコード化される。DNA分子上の任意の2つのCpG部位のすべての対に同じコード化規則が適用された。
一例として、9つのCpG部位を含有する血漿DNA分子を使用した。この血漿DNA分子についてのメチル化パターン、すなわち、U-M-M-M-U-U-U-M-M(UおよびMは、それぞれ非メチル化CpGおよびメチル化CpGを表した)を、我々の以前の開示(米国出願第16/995,607号)に記載されるアプローチによって決定した。任意の2つのCpG部位間のメチル化状態の一対比較は、機械学習または深層学習ベースの分析に有用であり得る。この例では、同じ規則が合計36個の対に適用された。血漿DNA分子上に合計n個のCpG部位があった場合、n*(n-1)/2個の対の比較がある。5、6、7、8、10、11、12、13など、異なる数のCpG部位が使用され得る。分子が機械学習モデルで使用される部位の数よりも大きい部位の数を含む場合、スライディングウィンドウを使用して、それらの部位を適切な数の部位に分割することができる。
胎盤DNA試料およびバフィーコートDNA試料から、それぞれ1つ以上の分子を取得した。それらのDNA分子についてのメチル化パターンを、我々の以前の開示(米国出願第16/995,607号)に記載されるアプローチに従って、Pacific Bioscience(PacBio)Single-Molecule Real-Time(SMRT)配列決定によって決定した。それらのメチル化パターンを、一対メチル化パターンに変換した。
胎盤DNAと関連する一対メチル化パターンおよびバフィーコートDNAと関連する一対メチル化パターンを、胎児起源および母体起源である可能性がある分子を区別するための畳み込みニューラルネットワーク(CNN)を訓練するために使用した。胎盤からのDNA断片についての各目標出力(すなわち、従属変数値に類似)を「1」として割り当てた一方で、バフィーコートからのDNA断片についての各目標出力を「0」として割り当てた。一対メチル化パターンを、CNNモデルのためのパラメータ(多くの場合、重みと呼ばれる場合が多い)を決定するように訓練するために使用した。シグモイド関数によって計算された出力スコアと所望の目標出力との間の全体的な予測誤差(2進値:0または1)が、モデルパラメータを反復的に調整することによって最小に達したとき、DNA断片の胎児-母体起源を区別するためのCNNの最適なパラメータが取得された。全体的な予測誤差を、深層学習アルゴリズム(https://keras.io/)におけるシグモイドクロスエントロピー損失関数によって測定した。訓練データセットから学習したモデルパラメータを、DNA分子(血漿DNA分子など)を分析して、DNA分子が胎盤またはバフィーコートに由来する尤度を示す確率スコアを出力するために使用した。血漿DNA断片の確率スコアが特定の閾値を超えた場合、そのような血漿DNA分子は、胎児起源であるとみなされた。そうでない場合、それは、母性起源であるとみなされる。閾値は、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95、0.99などを含むが、これらに限定されない。一例では、このCNNモデルを使用して、血漿DNA分子が胎児起源であるか母体起源であるかを決定するための0.63のAUCを達成し、深層学習アルゴリズムを使用して母体血漿からDNA分子の起源組織を推定することが可能であることを示す。より多くの単一分子リアルタイム配列決定の結果を取得することによって、深層学習アルゴリズムの性能がさらに改善される。
いくつかの他の実施形態において、統計モデルとしては、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長・短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、サポートベクトルマシン(SVM)などが挙げられ得るが、これらに限定されない。二項分布、ベルヌーイ分布、ガンマ分布、正規分布、ポアソン分布などが挙げられるがこれらに限定されない異なる統計的分布が含まれる。
C.胎盤に特異的なメチル化ハプロタイプ
単一DNA分子上の各CpG部位のメチル化状態は、我々の以前の開示(米国出願第16/995,607号)に記載されるアプローチまたは本明細書に記載の任意の技術を使用して決定され得る。単一分子、二本鎖DNAメチル化レベルに加えて、各DNA分子の単一分子のメチル化パターンを決定することができ、これは、単一DNA分子に沿った隣接するCpG部位のメチル化状態の配列であり得る。
異なるDNAメチル化シグネチャーが、異なる組織および細胞型に見られ得る。実施形態において、単一分子のメチル化パターンに基づいて、個々の血漿DNA分子の起源組織を推定することができる。
10個のバフィーコート試料および6つの胎盤組織試料からのゲノムDNAを、SMRT配列決定(PacBio)を使用して配列決定した。各試料タイプからマッピングされた高品質の円形コンセンサス配列決定(CCS)リードを一緒にプールすることによって、バフィーコートDNAおよび胎盤DNAについて、それぞれ、58.7倍および28.7倍のカバレッジを達成することができた。
スライディングウィンドウアプローチを使用することによって、ゲノムを5つのCpG部位の約2,820万個の重複ウィンドウに分割した。他の実施形態において、2、3、4、5、6、7、および8個のCpG部位などであるがこれらに限定されない異なるウィンドウサイズが使用され得る。非重複ウィンドウアプローチを使用することができる。各ウィンドウを潜在的なマーカー領域とみなした。各潜在的なマーカー領域について、そのマーカー領域内の5つのCpG部位すべてをカバーするすべての配列決定された胎盤DNA分子の間で、顕著な単一分子のメチル化パターンを特定した。血漿DNA分子のCpG部位と参照組織の個々のDNA分子の対応するCpG部位との間で比較が行わる。次いで、その単一分子のメチル化パターンを胎盤における顕著な単一分子のメチル化パターンと比較することによって、同じマーカー領域内のすべてのCpG部位をカバーする各バフィーコートDNA分子の不一致スコアを計算した。
ここで、不一致のCpG部位の数は、胎盤における顕著な単一分子のメチル化パターンと比較して、バフィーコートDNA分子において異なるメチル化状態を示すCpG部位の数を指す。
より高い不一致スコアは、バフィーコートDNA分子のメチル化パターンが、胎盤における顕著な単一分子のメチル化パターンとはより異なることを示す。2,820万個の潜在的なマーカー領域から、以下の基準を使用して、胎盤およびバフィーコートからのDNA分子のプール間で単一分子のメチル化パターンの実質的な差を示した領域を選択した:a)胎盤DNA分子の50%超が、顕著な単一分子のメチル化パターンを有した、およびb)バフィーコートDNA分子の80%超が、0.3よりも大きい不一致スコアを有した。これらの基準に基づいて、下流分析用に281,566個のマーカー領域を選択した。
図25は、異なる染色体間の選択されたマーカー領域の分布の表である。1列目は、染色体番号を示す。2列目は、染色体内のマーカー領域の数を示す。
本開示で前述されたように胎児特異的対立遺伝子または母体特異的対立遺伝子のいずれかをカバーするSMRT配列決定で配列決定された血漿DNA分子を使用した、単一分子のメチル化パターンに基づく個々の血漿DNA分子についての起源組織分類の概念をここに示す。胎盤における顕著な単一分子のメチル化パターンと同一のメチル化パターンを有する選択されたマーカー領域をカバーする任意の血漿DNA分子は、胎盤特異的(すなわち胎児特異的)DNA分子として分類される。対照的に、血漿DNA分子の単一分子のメチル化パターンが胎盤における顕著な単一分子のメチル化パターンと同一ではない場合、この分子を胎盤に特異的ではないと分類する。この分析における正しい分類を、胎盤特異的メチル化ハプロタイプがその分子中に存在したかどうかによって、胎児特異的DNA分子を胎児由来(すなわち、胎盤に特異的)であると特定し、母体DNA分子を非胎児由来(すなわち、胎盤に非特異的)であると特定した方法で定義した。起源組織分析のための以前のメチル化ベースの方法は、典型的には、生物学的試料内の無細胞DNAの組織寄与因子の範囲のパーセンテージまたは比例寄与をデコンボリューションすることを含んだ。以前の方法に対する本方法の利点は、生物学的試料への組織の無細胞DNA寄与の証拠、例えば、母体血漿中の胎盤由来DNAが、他の組織からの寄与の有無に関係なく決定され得ることである。さらに、任意の1つの無細胞DNA分子の胎盤起源は、その組織からの無細胞DNA分子の画分寄与に関係なく本方法で決定され得る。
胎児特異的対立遺伝子をカバーする28個のDNA分子の間で、17個(61%)は、胎盤特異的と分類され、11個(39%)は、胎盤に特異的ではないと分類された。一方、母体特異的対立遺伝子をカバーする467個のDNA分子の間で、433個(93%)は、胎盤に特異的ではないと分類され、34個(7%)は、胎盤特異的と分類された。
実施形態において、閾値として0.3よりも大きい不一致スコアを有する異なるパーセンテージのバフィーコートDNA分子を使用することができ、60%、70%、75%、80%、85%、および90%よりも大きいものなどを含むがこれらに限定されない。マーカー領域の選択で使用される基準を調整することによって、妊娠中の対象における血漿DNAの胎盤起源または非胎盤起源についての全体的な分類精度を改善することができる。これは、疾患を引き起こす変異またはコピー数異常が胎児に存在するかどうかを決定しようとする非侵襲的出生前検査の設定において特に重要である。
図26は、マーカー領域の選択基準として、0.3よりも大きい不一致スコア有するバフィーコートDNA分子の異なるパーセンテージを使用した、単一分子のメチル化パターンに基づく血漿DNA分子の分類の表である。1列目は、0.3%よりも大きい不一致スコアを有するバフィーコートDNA分子のパーセンテージを示す。2列目は、DNA分子を、胎児特異的対立遺伝子をカバーする分子および母体特異的対立遺伝子をカバーする分子に分割する。3列目および4列目は、単一分子のメチル化パターンに基づいた、DNA分子の胎盤特異的または胎盤に特異的ではないとの分類を示す。5列目は、2列目の特異的対立遺伝子と同じく分類されたDNA分子のパーセンテージを示す。
図27は、胎盤特異的メチル化ハプロタイプを使用して、非侵襲的方法で胎児遺伝を決定するためのプロセスフローを示す。図27に示されるように、妊娠中の女性の血漿からの無細胞DNAを、単一分子リアルタイム配列決定のために抽出した。長い血漿DNA分子を、本開示の実施形態に従って特定した。各長い血漿DNA分子についての各CpG部位でのメチル化状態を、本開示の実施形態に従って決定した。各長い血漿DNA分子のメチル化ハプロタイプを、本開示の実施形態に従って決定した。長い血漿DNA分子を、胎盤特異的メチル化ハプロタイプを担持するものとして特定した場合、その分子に関連する遺伝子情報およびエピジェネティック情報は、胎児によって受け継がれているとみなされる。実施形態において、妊娠中の女性によって担持される疾患を引き起こす変異と同じである疾患を引き起こす変異を含有する1つ以上の長い血漿DNA分子を、本開示の実施形態によるメチル化ハプロタイプ情報に基づいて胎児起源であると決定した場合、胎児が母親からの変異を受け継いだことを示唆する。
実施形態は、ベータ-サラセミア、鎌状赤血球症、アルファ-サラセミア、嚢胞性線維症、血友病A、血友病B、先天性副腎過形成、デュシェンヌ型筋ジストロフィー、ベッカー型筋ジストロフィー、軟骨無形成症、タナトフォリック骨異形成症、フォン・ヴィレブランド病、ヌーナン症候群、遺伝性難聴および聾唖、様々な先天性代謝異常(例えば、シトルリン血症I型、プロピオン酸血症、グリコーゲン蓄積症Ia型(フォン・ギールケ病)、グリコーゲン蓄積症Ib/c型(フォン・ギールケ病)、グリコーゲン蓄積症II型(ポンペ病)、ムコ多糖症(MPS)I型(ハーラー/ハーラー-シャイエ/シャイエ)、MPS II型(ハンター症候群)、MPS、IIIA型(サンフィリポ症候群A)、MPS IIIB型(サンフィリポ症候群B)、MPS IIIC型(サンフィリポ症候群C)、MPS IIID型(サンフィリポ症候群D)、MPS IVA型(モルキオ症候群A)、MPS IVB型(モルキオ症候群B)、MPS VI型(マロトー・ラミー症候群)、MPS VII型(スライ症候群)、ムコリピドーシスII(I-細胞病)、異染性白質ジストロフィー、GM1ガングリオシドーシス、OTC欠損症(X連鎖性オルニチントランスカルバミラーゼ欠損症)、副腎白質ジストロフィー(X連鎖性ALD)、クラッベ病(グロボイド細胞白質ジストロフィー))などが挙げられるが、これらに限定されない遺伝性疾患に適用され得る。
他の実施形態において、胎児における遺伝性疾患は、親ゲノムには存在しなかった胎児ゲノム中のデノボDNAメチル化と関連している可能性がある。一例は、脆弱X症候群を有する胎児におけるFMRP翻訳調節因子1(FMR1)遺伝子の高メチル化である。脆弱X症候群は、FMR1遺伝子の5’非翻訳領域内のCGGトリヌクレオチド反復の伸長によって引き起こされる。正常な対立遺伝子は、CGG反復の約5~44コピーを含有する。前変異対立遺伝子は、CGG反復の55~200コピーを含有する。完全変異対立遺伝子は、CGG反復の200超のコピーを含有する。
図28は、正常な対立遺伝子または前変異の対立遺伝子のいずれかを担持する罹患していない妊娠中の女性の男性胎児における脆弱X症候群の非侵襲的出生前検出の原理を示す。図28中、「n」は、母体ゲノム中のCGGのコピーの数を表し、「m」は、胎児ゲノム中のCGGのコピー数を表す。罹患していない妊娠中の女性のゲノムは、200コピー以下(すなわち、n≦200)のCGG反復を有し、メチル化されていないFMR1遺伝子を有する。対照的に、脆弱X症候群に罹患した男性胎児のゲノムは、CGG反復の200を超えるコピー(m>200)を有し、メチル化されているFMR1遺伝子を有する。母体血漿DNAの単一分子配列決定を実施することによって、反復数およびメチル化状態が同時に決定され得る目的のゲノム領域(例えば、FMR1遺伝子)から多数の長いDNA分子を特定することができる。罹患していない女性の血漿中で、CGG反復の200を超えるコピーを含有し、メチル化されているFMR1遺伝子をカバーする1つ以上のDNA分子を特定した場合、胎児が脆弱X症候群を有する可能性が高いことを示す。さらに別の実施形態において、本開示の実施形態による胎盤特異的メチル化ハプロタイプを使用して、そのような血漿DNA分子の胎児起源をさらに確認することができる。胎盤特異的メチル化ハプロタイプを担持した分子内の1つ以上の領域を含有する1つ以上の分子を特定し、そのような分子が、CGG反復の200を超えるコピーを含有し、メチル化されていたFMR1遺伝子をカバーした場合、胎児が脆弱X症候群を有するとより確信を持って結論付けることができる。逆に、胎盤特異的メチル化ハプロタイプを有した1つ以上の分子を特定し、そのような分子が、CGG反復の200未満のコピーを含有し、メチル化されていなかったFMR1遺伝子をカバーした場合、胎児が罹患していない可能性が高いことを示す。脆弱X症候群では、完全変異(200超の反復)により、実際には遺伝子全体がメチル化され、遺伝子機能がオフになる。したがって、特に脆弱Xの場合、(胎盤メチル化プロファイルを示すのではなく)メチル化された長い対立遺伝子の検出は、胎児がその疾患を有することを強く示唆する。
遺伝性障害の検出は、母親の以前の状態を知っているかどうかに関係なく実施され得る。前変異を有する女性は、任意の症状を有しない場合もあるが、軽度の症状を有する場合があり、多くの場合、後からしかわからない。母体の変異状態がわからない場合、1つのアプローチは、疾患を有するように思われない女性からの血漿中の長い対立遺伝子を検出することか、または母体のバフィーコートを分析し、そのような長い対立遺伝子を示さないと決定することである。別のアプローチとして、反復の長さとcfDNA分子のメチル化状態とを組み合わせることができる。メチル化状態が胎児パターン(メチル化ハプロタイプ)を示唆し、長い対立遺伝子を示す場合、胎児は、罹患している可能性が高い。このアプローチは、多くのトリヌクレオチド障害、例えば、ハンチントン病に適用できる。
D.長い血漿DNA分子による胎児ゲノムの非侵襲的構築
メチル化パターンは、ハプロタイプの遺伝を決定するために使用され得る。メチル化パターンを用いた定性的アプローチを使用したハプロタイプ遺伝の決定は、特定の断片の量を特徴付ける定量的方法よりも効率的であり得る。メチル化パターンは、ハプロタイプの母性および父性遺伝を決定するために使用され得る。
1.胎児の母性遺伝
Lo et al.は、親のハプロタイプの情報を使用して、ゲノムワイドな遺伝子マップを構築し、母体血漿DNA配列から胎児の変異状態を決定する実現可能性を実証した(Lo et al.Sci Transl Med.2010;2:61ra91)。この技術は、相対ハプロタイプ投与量(RHDO)分析と呼ばれ、胎児の母性遺伝を解決するための1つのアプローチである。この原理は、胎児によって受け継がれた母体ハプロタイプが、胎児に受け継がれない他の母体ハプロタイプと比較して、妊娠中の女性の血漿DNAにおいて比較的過剰に表現されるという事実に基づいていた。したがって、RHDOは、定量分析法である。
本開示に存在する実施形態は、その血漿DNA分子の起源組織を決定するために、長い血漿DNA分子におけるメチル化パターンを利用する。一実施形態において、本明細書の開示は、胎児の母性遺伝の定性分析を可能にする。
図29は、胎児の母性遺伝を決定する一例を示す。ゲノム位置Pは、母体ゲノムにおいてヘテロ接合であった(A/G)。塗りつぶされた丸は、メチル化部位を示し、塗りつぶされていない丸は、非メチル化部位を示す。胎盤におけるメチル化パターンは「-M-U-M-M-」であり、ここで、「M」は、CpG部位でのメチル化シトシンを表し、「U」は、非メチル化シトシンを表す。一実施形態において、胎盤および関連する参照組織におけるメチル化パターンは、以前に配列決定(例えば、単一分子リアルタイム配列決定および/またはバイサルファイト配列決定)から生成されたデータから取得され得る。血漿DNA中、その特定のゲノム遺伝子座にAの対立遺伝子を担持する1つの非父性血漿DNA(Zによって示される)が、他の組織のメチル化パターンとは対照的に、胎盤におけるメチル化パターンと適合するメチル化パターン(「-M-U-M-M-」)を示すことがわかった。胎盤におけるメチル化パターンと適合するメチル化パターンを示すGの対立遺伝子を担持する分子は見つからなかった。したがって、対立遺伝子Aおよび「-M-U-M-M-」メチル化パターンの存在に基づいて、胎児は、母体対立遺伝子Aを受け継ぐと決定され得る。
図30は、血漿DNA分子の遺伝子情報およびエピジェネティック情報を使用した胎児の母性遺伝の定性分析を示す。図30の上の分岐に示されるように、本開示の実施形態に従って、血漿DNAを抽出し、続いて長いDNAのサイズ選択を行った。サイズ選択された血漿DNA分子を、単一分子リアルタイム配列決定に供した(例えば、Pacific Biosciencesによって製造されたシステムを使用して)。遺伝子情報およびエピジェネティック情報を、本開示の実施形態に従って決定した。例示目的で、分子(X)を、染色体位置a(chr1:a)にGの対立遺伝子、および染色体位置e(chr1:e)にAの対立遺伝子を含有するヒト1番染色体にアラインメントした。分子Xは、染色体位置dにCの対立遺伝子を有する。
この分子XのCpGメチル化状態は、「-M-U-M-M-」であると決定され、ここで、「M」は、CpG部位でのメチル化シトシンを表し、「U」は、非メチル化シトシンを表す。塗りつぶされた丸は、メチル化部位を示し、塗りつぶされていない丸は、非メチル化部位を示す。参照試料の分析の結果として、胎盤DNAは、位置aとeとの間の領域ないに「-M-U-M-M-」のメチル化パターンを有することがわかっている。胎盤DNAのメチル化パターンに一致する分子Xのメチル化パターンに基づいて、分子Xは、本開示の実施形態に従って胎盤起源であると決定された。
図30の下の分岐に示されるように、母体白血球からのDNAを単一分子リアルタイム配列決定に供した。母体白血球のエピジェネティック情報および遺伝子情報を、本開示の実施形態に従って取得した。遺伝子の対立遺伝子を、WhatsHap(Patterson et al.J Comput Biol.2015;22:498-509)、HapCUT(Bansal et al.Bioinformatics.2008;24:i153-9)、HapCHAT(Beretta et al.BMC bioinformatics.2018;19:252)などが挙げられるがこれらに限定されない方法を使用して、2つのハプロタイプ、すなわち、母体ハプロタイプI(Hap I)および母体ハプロタイプII(Hap II)に段階化させた。ここで、母体ゲノム中の2つのハプロタイプ、すなわち、「-A-C-G-T-」(Hap I)および「-G-T-A-C-」(Hap II)を取得した。Hap Iが野生型バリアントと関連していた一方で、Hap IIは、疾患関連バリアントに関連していた。疾患関連バリアントとしては、一塩基バリアント、挿入、欠失、転座、逆位、反復伸長、および/または他の遺伝的構造変化が挙げられ得るが、これらに限定されない。
ゲノム位置eについて、母体遺伝子型は、AAであると決定され、父性遺伝子型は、GGであると決定された。メチル化パターンのため、血漿DNA分子Xは、胎盤起源であると決定された。母体特異的対立遺伝子Aが存在するが、父性特異的対立遺伝子Gが存在しないため、分子Xは、母体ハプロタイプのうちの1つから受け継がれると推定された。
どの母体ハプロタイプが胎児に受け継がれたかをさらに決定するために、この胎盤由来分子Xの位置chr1:e以外のゲノム位置での対立遺伝子情報を母体ハプロタイプと比較した。一例として、分子Xは、位置aに対立遺伝子G、および位置dに対立遺伝子Cを有する。分子Xにこれらの対立遺伝子のいずれかが存在することは、分子Xが同じ対立遺伝子を含む母体Hap IIに割り当てられるべきであることを示す。
したがって、疾患関連バリアントに関連した母体ハプロタイプIIが胎児につけ継がれたと結論付けることができる。まだ生まれていない胎児は、この疾患に罹患するリスクがあると決定された。
胎児の母性遺伝についてのメチル化パターンベースの定性分析は、定量分析に基づくアプローチであったRHDOと比較して、どの母体ハプロタイプが胎児によって受け継がれたかについて結論を出すために必要な血漿DNA分子がより少ない可能性がある。コンピューターシミュレーション分析を実施して、異なる数の血漿DNA分子を分析に使用したゲノムワイドな方法で、胎児の母性遺伝の検出率を評価した。
RHDOシミュレーション分析では、N個の血漿DNA分子を、母体ゲノムのハプロタイプブロック内のM個のヘテロ接合SNPに集合的にアラインメントした。胎児DNA画分は、fであった。それらの対応するSNPの父性遺伝子型は、ホモ接合であり、胎児に受け継がれた母性Hap Iと同一であった。N個の血漿DNA分子の間で、母体Hap Iにアラインメントされた血漿DNA分子の平均が、N×(0.5+f/2)であった一方で、母体Hap IIにアラインメントされた血漿DNA分子の平均は、N×(0.5-f/2)であった。ハプロタイプからサンプリングされた血漿DNA分子が二項分布に従うと仮定した。
血漿DNA分子の数を、以下の分布に従ってHap I(すなわち、X)に割り当てた:
X~Bin(N,0.5+f/2)(1)、
ここで、「Bin」は、二項分布を示した。
血漿DNA分子の数を、以下の分布に従ってHap II(すなわち、Y)に割り当てた:
Y~Bin(N,0.5-f/2)(2)。
したがって、母体Hap Iに割り当てられた血漿DNA分子は、母体Hap IIと比較して、母体血漿中で比較的過剰に表現される。過剰表現が統計的に有意であったかどうかを決定するために、2つの母体ハプロタイプ間の血漿DNAカウントの差を、2つのハプロタイプ(X’およびY’によって示される)が血漿中で等しく表現されたという帰無仮説を用いて比較した。
X’~Bin(N,0.5)(3)、
Y’~Bin(N,0.5)(4)。
2つのハプロタイプ間の相対投与量の差を以下のようにさらに定義した:
D=(X-Y)/N(5)、
D’=(X’-Y’)/N(6)。
一例では、相対ハプロタイプ投与量を反映する統計量Dを、以下のようにD’(SD)の標準偏差によって正規化されたD’(M)の平均(すなわち、z-スコア)と比較した:
z-スコア=(D-M)/SD(7)。
3を超えるz-スコアは、Hap Iが胎児に受け継がれたことを示した。
RHDO分析の場合、式(1)~(7)に基づいて、Hap Iが胎児に受け継がれた全ゲノムにわたって30,000個のハプロタイプブロックをシミュレートした。ハプロタイプブロックの平均長は、100kbであった。各ハプロタイプブロックは、平均100個のSNPを含有し、そのうち10個のSNPは、ハプロタイプの不均衡に寄与するのに有益である。一例では、胎児のDNA画分は、10%であり、断片サイズの中央値は、150bpであった。RHDO分析に使用される血漿DNA分子の数を100万個~3億個の範囲で変化させることによって、本明細書において検出率と称される、3を超えるz-スコアを有するハプロタイプブロックのパーセンテージを計算した。本明細書の血漿DNA分子の数を、ポアソン分布に従って、血漿DNAが有益なSNP部位をカバーする確率によって調整した。
胎児の母性遺伝についてのメチル化パターンベースの定性分析に関連するコンピューターシミュレーションの場合、例示目的で以下のように仮定した:
1)分析に使用された母体ゲノム中のハプロタイプブロックをカバーする血漿DNA分子は、N個あった。
2)長さが少なくとも3kbの起源組織分析に使用される血漿DNA断片の確率をaによって示した。
3)10を超えるCpG部位を担持する血漿DNA分子の確率をbによって示した。
4)3kbを超えるそれらの断片の胎児DNA画分をfによって示した。
本開示の一実施形態に示されるように、少なくとも10個のCpG部位を有する3kbよりも大きいそれらの血漿DNA分子についての起源組織の正確な推定を達成することができる。上記の基準(Z)を満たす血漿DNA分子の数を、λの平均値(すなわち、N×a×b×f)でポアソン分布に従うと仮定した。
Z~Poisson(λ)(8)。
一例では、式(8)に基づいて、Hap Iが胎児に受け継がれた30,000個のハプロタイプブロックをシミュレートした。各ハプロタイプブロックの平均長は、100kbであった。各ハプロタイプブロックは、平均100個のSNPを含有し、そのうち20個のヘテロ接合SNPは、2つの母体ハプロタイプに段階化される。胎児のDNA画分は、1%であった。サイズ選択後、3kbを超えるサイズの血漿DNA分子は、40%存在した。少なくとも10個のCpG部位を有する3kbを超えるサイズの血漿DNA分子は、87.1%存在した。1以上のZ値のハプロタイプブロックのパーセンテージは、検出率を示した。メチル化パターンによる起源組織分析に使用される血漿DNA分子の数(N)を、100万個~3億個の範囲で変化させることによって、コンピューターシミュレーションを複数回繰り返した。本明細書の血漿DNA分子の数を、ポアソン分布に従って、血漿DNAがヘテロ接合SNPをカバーする確率によってさらに調整した。
図31は、相対ハプロタイプ投与量(RHDO)分析と比較した、血漿DNA分子の遺伝子情報およびエピジェネティック情報を使用したゲノムワイドな方法における胎児の母性遺伝についての定性分析の検出率を示す。分析に使用された分子の数は、x軸上に示される。パーセントとしての児の母性遺伝の検出率は、y軸上に示される。胎児の母性遺伝の検出率を、RHDOと比較して、メチル化パターンに基づくアプローチを使用してより高かった。例えば、1億個の断片を使用して、メチル化パターンに基づく検出率が100%であった一方で、RHDOに基づく検出率は、わずか55%であった。これらの結果は、メチル化パターンベースの方法を使用した胎児の母性遺伝の推定が、RHDOに基づくものよりも優れていることを示唆した。
2.胎児の父性遺伝
分析のために長い血漿DNA分子を取得する能力は、長いDNA分子の使用が、同数の短いDNA分子の使用と比較して全体的なゲノムカバレッジを増加させるため、妊娠中の女性の血漿DNA中の父性特異的バリアントの検出率を改善するのに役立ち得る。以下の仮定に基づいてコンピューターシミュレーションをさらに実施した:
1)胎児DNA画分は、血漿DNAの長さLに応じてfであった。これはfとして書き直され、下付き文字Lは、Lbpの長さを有する血漿DNA分子が分析に使用されたことを示した。
2)母体血漿DNAにおいて特定される必要があった父性特異的バリアントの数は、Vであった。
3)分析に使用された血漿DNA分子の数は、Nであった。
4)特定のゲノム遺伝子座または領域に由来する血漿DNA分子の数は、ポアソン分布に従った。
一例では、150bp、1kb、および3kbのサイズを有するそれらの血漿DNA分子の胎児DNA画分は、それぞれ、10%(f150bp=0.1)、2%(f1kb=0.02)、および1%(f3kb=0.01)であった。父性特異的バリアントの数は、ゲノムにおいて250,000個(V=250,000)であった。分析に使用された血漿DNA分子の数(N)は、5,000万個~5億個の範囲であった。
図32は、ゲノムワイドな方法における父性特異的バリアントの検出率と、分析に使用された異なるサイズを有する配列決定された血漿DNA分子の数との間の関係を示す。百万単位の分析に使用された配列決定された分子の数は、x軸上に示される。検出された父性特異的バリアントのパーセンテージは、y軸上に示される。異なる曲線は、分析に使用された異なるサイズのDNA断片を示し、上が3kb、中央が1kb、および下が150bpである。分析に使用される血漿DNA分子が長いほど、父性特異的バリアントのより高い検出率が達成され得る。例えば、4億個の血漿DNA分子を使用すると、検出率は、150bp、1kb、および3kbのサイズを有する分子に焦点を当てた場合、それぞれ86%、93%、および98%であった。
他の実施形態において、ベルヌーイ分布、ベータ-正規分布、正規分布、コンウェイ-マクスウェル-ポアソン分布、幾何分布などが挙げられるがこれらに限定されない他の分布が使用され得る。いくつかの実施形態において、ギブスサンプリングおよびベイズの定理が、母体および父性遺伝分析に使用される。
3.脆弱X遺伝分析
実施形態において、胎児の母性遺伝のメチル化パターンベースの決定は、母体血漿DNAの単一分子リアルタイム配列決定を使用した脆弱X症候群の非侵襲的検出を容易にし得る。脆弱X症候群は、典型的には、X染色体上のFMR1(脆弱X精神遅滞1)遺伝子内のCGGトリヌクレオチド反復の伸長によって引き起こされる遺伝性障害である。反復の伸長によって引き起こされる脆弱X症候群および他の障害は、本出願の他の箇所に記載されている。胎児における脆弱X症候群を検出するための方法は、本明細書に開示される反復の他の任意の伸長にも適用され得る。
FMR1遺伝子においてCGG反復の55~200コピーを有すると定義される前変異を有する女性対象は、脆弱X症候群を有する子供を産むリスクがある。脆弱X症候群を有する胎児を妊娠する尤度は、FMR1遺伝子に存在するCGG反復の数に依存する。母親における反復数が多いほど、胎児に受け継がれる際に前変異から完全変異に拡大するリスクが高くなる。115±2CGG反復の脆弱X前変異対立遺伝子を担持することが以前に確認され、脆弱X症候群を有すると診断された息子(発端者)がいた女性から、12週の在胎期間で母体漿試料を採取した。次いで、母体血漿を単一分子リアルタイム配列決定に供した。一例では、単一分子リアルタイム配列決定を使用して、ヒト参照ゲノムにアラインメントされた330万個の円形コンセンサス配列(CCS)を取得し、サブリード深度の中央値は、CCS当たり75倍であった(四分位範囲:14~237倍)。配列決定された各血漿DNAについての遺伝子情報およびエピジェネティック情報は、本開示の実施形態に従って決定され得る。X染色体の2つの母体ハプロタイプを取得するために、マイクロアレイ技術であるiScan System上のInfinium Omni2.5Exome-8 Beadchip(Illumina)を使用して、母体バフィーコートおよび発端者の口腔スワブから抽出された両方のDNAについての染色体X上の2,000個のSNPの遺伝子型を決定した。2つの母体ハプロタイプ、すなわち、Hap IおよびHap IIは、母体および発端者のゲノムの遺伝子型情報に基づいて推定され得る。
図33は、脆弱X症候群の非侵襲的検出のワークフローを示す。母体バフィーコートDNAのヘテロ接合SNP部位にわたって、発端者の遺伝子型と同一の対立遺伝子を使用して、次の世代における完全変異の潜在的な前駆体である前変異対立遺伝子(すなわち、Hap I)に関連したハプロタイプを定義した。一方、発端者の遺伝子型とは異なる対立遺伝子を使用して、対応する野生型対立遺伝子(Hap II)に関連したハプロタイプを定義した。胎児を妊娠中の発端者の母親からの母体血漿DNAを、単一分子リアルタイム配列決定に供した。配列決定リードを、取得された遺伝子情報が調査中のそれらのゲノム遺伝子座にわたってHap IまたはHap IIの対立遺伝子と同一であったかどうかに応じて、母体Hap IおよびHap IIに割り当てた。本開示の実施形態に従って、血漿DNA分子のメチル化パターンを使用して、特定の数のCpG部位を含有するそれらの血漿DNA分子の起源組織を決定した(すなわち、メチル化パターン分析に基づいて胎盤起源であると特定されたDNA分子は、胎児由来であると決定される)。
シナリオAにおいて、胎児(すなわち、胎盤)DNA分子が、母体Hap Iに割り当てられたそれらの血漿DNA分子から検出可能であったが、母体Hap IIに割り当てられたそれらの血漿DNA分子では検出できなかった場合、Hap Iは、まだ生まれていない胎児に受け継がれると決定される。胎児は、脆弱X症候群に罹患するリスクが高いと決定される。血漿DNA分子の胎盤起源は、以下に考察されるように、分子のメチル化状態に基づいている。
シナリオBにおいて、胎児DNA分子が、母体Hap IIに割り当てられたそれらの血漿DNA分子から検出可能であったが、母体Hap Iに割り当てられたそれらの血漿DNA分子では検出できなかった場合、Hap IIは、まだ生まれていない胎児に受け継がれると決定される。胎児は、脆弱X症候群に罹患していないと決定される。
実施形態において、胎児DNA分子についての「検出可能」および「検出不能」の定義は、胎児(すなわち、胎盤)起源であると特定された血漿DNA分子のパーセンテージのカットオフに依存し得る。「検出可能」のカットオフとしては、1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%超などが挙げられるが、これらに限定されない。「検出不能」のカットオフとしては、1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%未満などが挙げられるが、これらに限定されない。いくつかの実施形態において、Hap IとHap IIとの間の胎児起源であると決定された血漿DNA分子のパーセンテージの差は、1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%よりも大きいものなどである必要があり得るが、これらに限定されない。他のいくつかの実施形態において、ハプロタイプ情報は、ロングリード配列決定技術(例えば、PacBioまたはナノポア配列決定)(Edge et al.Nat Commun.2019;10:4660)、合成ロングリード(例えば、10X Genomicsからのプラットフォームを使用)(Hui et al.Clin Chem.2017;63:513-14)、標的遺伝子座増幅(TLA)ベースのフェージング(Vermeulen et al.Am J Hum Genet.2017;101:326-39)、および統計的フェージング(例えば、Shape-IT)(Delaneau et al.Nat Method.2011;9:179-81)から取得され得る。
実施形態において、本出願に開示されるメチル化状態マッチングアプローチに従って、少なくとも200bpであり、少なくとも5つのCpG部位(または長いDNA分子の場合、任意の他のカットオフ)を含有したそれらの血漿DNA分子の母体および胎児起源を決定し得る。ゲノム位置chrX:143,782,245~143,782,786(FMR1遺伝子から3.2Mb離れている)に位置し、対立遺伝子(位置:chrX:143782434、SNPアクセッション番号:rs6626483、対立遺伝子の遺伝子型:C)が母体Hap II上の対応する対立遺伝子と同一であるが、母体Hap Iとは異なる、1つの血漿DNA分子を特定した。
図34は、胎盤およびバフィーコートDNAのメチル化プロファイルと比較した血漿DNAのメチル化パターンを示す。血漿DNA分子は、5つのCpG部位を含有した。メチル化パターンは、「M-U-U-U-U」であると決定された。単一分子リアルタイム配列決定から取得されたこのメチル化パターンを、本開示に記載のメチル化状態マッチングアプローチに従って、バイサルファイト配列決定から取得された胎盤組織およびバフィーコートDNA試料の参照メチル化プロファイルと比較した。胎盤に由来するこの分子についてのスコア[すなわち、S(胎盤)]は、2であり、-3のバフィーコート由来のスコア[すなわち、S(バフィーコート)]よりも大きかった。したがって、そのような血漿DNA分子(chrX:143,782,245~143,782,786)は、胎児起源であると決定された。しかしながら、胎児由来である母体Hap Iからの対立遺伝子を担持する血漿DNA分子は観察されなかった。したがって、胎児が母体Hap IIを受け継ぎ、脆弱X症候群に罹患していなかったと結論付けた。
本明細書に記載のアプローチの性能は、以下の要因により、X染色体不活性化によって大きな影響を受けない可能性があると想定した。
1)X-不活性化は、ヒトにおいて完全ではない。X染色体上の遺伝子の1/3ほど多くが、X不活性化からの可変脱出を示した(Cotton et al.Hum Mol Genet.2015;25:1528-1539)。CpGアイランド外のCpG部位(すなわち、CpG部位の大部分)は、両方の性別において同程度メチル化されており、X染色体におけるCpG部位のほとんどについてのメチル化状態が、X不活性化によって影響を受けない可能性があることを示唆している(Yasukochi et al.Proc Natl Acad Sci USA.2010;107:3704-9)。
2)まだ生まれていない胎児に関して性別が一致した胎盤組織のメチル化プロファイルを使用した。この戦略は、男性の胎児を妊娠中の女性についての血漿DNAメチル化パターンを使用して、胎児の母性遺伝を検出するのに有用であり、これは、X-不活性化の影響を受けないはずであった男性の胎児を含む胎盤組織が、特定の領域についてX不活性化を多かれ少なかれ伴った他の母体組織とは異なる独特のメチル化パターンを有するためである。
単一分子リアルタイム配列決定を使用して、母体バフィーコート試料から抽出されたDNAをさらに配列決定した。サブリード深度の中央値がCCS当たり5倍で、230万個のCCSを取得した。結果は、母体Hap Iが124個のCGG反復を有する前変異対立遺伝子を担持し、母体Hap IIが43個のCGG反復を有する野生型対立遺伝子を担持したことを確認した。さらに、胎児の絨毛膜絨毛サンプリングから抽出されたDNAを、単一分子リアルタイム配列決定でさらに配列決定した。サブリード深度の中央値がCCS当たり4倍で、110万個のCCSを取得した。結果は、まだ生まれていない胎児が野生型対立遺伝子を担持したことを確認した。
E.ヒトゲノム中のCpG部位の分布
DNA断片が長いほど、断片が複数のCpG部位を有する確率は高くなる。これらの複数のCpG部位は、メチル化パターンまたは他の分析に使用され得る。
図35は、ヒトゲノムにわたる500bp領域内のCpG部位の分布を示す。1列目は、CpG部位の数を示す。2列目は、CpG部位の数を有する500bp領域の数を示す。3列目は、特定の数のCpG部位を有する領域によって表されるすべての領域の割合を示す。例えば、500bp領域の86.14%は、少なくとも1つのCpG部位を有する。さらに、500bp領域の11.08%は、少なくとも10個のCpG部位を有する。
図36は、ヒトゲノムにわたる1kb領域内のCpG部位の分布を示す。1列目は、CpG部位の数を示す。2列目は、CpG部位の数を有する1kb領域の数を示す。3列目は、特定の数のCpG部位を有する領域によって表されるすべての領域の割合を示す。例えば、500bp領域の91.67%は、少なくとも1つのCpG部位を有する。また、500bp領域の32.91%は、少なくとも10個のCpG部位を有する。
図37は、ヒトゲノムにわたる3kb領域内のCpG部位の分布を示す。1列目は、CpG部位の数を示す。2列目は、CpG部位の数を有する3kb領域の数を示す。3列目は、特定の数のCpG部位を有する領域によって表されるすべての領域の割合を示す。例えば、3kb領域の92.45%は、少なくとも1つのCpG部位を有する。さらに、3kb領域の87.09%は、少なくとも10個のCpG部位を有する。
いくつかの実施形態において、異なる数のCpG部位および異なるサイズのカットオフは、胎盤特異的マーカーの特定および起源組織分析の感度および特異度を最大化するために使用される。概して、CpG部位は、SNPよりも頻繁に出現する。所与のサイズのDNA断片は、SNPよりも多くのCpG部位を有する可能性が高い。上に示された表は、同じサイズの領域内でCpG部位よりもSNPが少ないため、CpG部位と同じ数のSNPを有する領域について、より低い割合を示し得る。結果として、CpG部位を使用すると、SNPのみを使用するよりも多くの断片が使用されることを可能にし、より優れた統計を提供する。
F.起源組織分析の例
実施形態において、母体血漿中の起源組織分析を、T細胞、B細胞、好中球、肝臓、および胎盤を含む2つ以上の臓器/組織まで拡大し得る。単一分子リアルタイム配列決定を使用して、9つの母体DNA試料を配列決定した。本開示に記載のメチル化状態マッチングアプローチに従って、血漿DNAメチル化パターンを使用して、母体血漿DNAへの胎盤の寄与を推定した。このメチル化状態マッチング分析の場合、一実施形態において、母体血漿DNA試料における少なくとも500bpの長さで、少なくとも5つのCpG部位を含有した各DNA分子のメチル化パターンを、バイサルファイト配列決定から取得された参照組織メチル化プロファイルと比較した。好中球、T細胞、B細胞、肝臓、および胎盤を含む5つの組織を参照組織として使用した。血漿DNA分子は、その血漿DNA分子についての最大メチル化状態マッチングスコアに対応する組織に割り当てられる。他の組織と比較した組織に割り当てられた血漿DNA分子のパーセンテージは、その試料の母体血漿DNAに対するその組織の比例寄与とみなされる。実施形態において、母体血漿中の好中球、T細胞、およびB細胞の比例寄与の合計は、造血細胞の比例寄与の代用を提供した。
図38は、メチル化状態マッチング分析を使用した、母体血漿中の異なる組織からのDNA分子の比例寄与を示す。1列目は、試料識別を示す。2列目は、造血細胞寄与をパーセントとして示す。3列目は、肝臓寄与をパーセントとして示す。4列目は、胎盤寄与をパーセントとして示す。図38は、母体血漿DNAの主な寄与因子が造血細胞であることを示し(中央値:55.9%)、これは、以前の報告(Sun et al.Proc Natl Acad Sci USA.2015;112:E5503-12、Zheng et al.Clin Chem.2012;58:549-58)と一致していた。
図39Aおよび39Bは、胎盤寄与とSNPアプローチによって推定された胎児のDNA画分との間の関係を示す。x軸は、SNPアプローチによって決定された胎児画分を示す。y軸は、メチル化状態マッチング分析を使用することによって、母体血漿中の決定された胎盤寄与をパーセントとして示す。図39Aは、メチル化状態マッチング分析によって決定された胎盤寄与と、SNPによって推定された胎児DNA画分との間の良好な相関関係を示す(ピアソンのr=0.95、P値<0.0001)。二次計画法(Sun et al.Proc Natl Acad Sci USA.2015;112:E5503-12)に従って、単一分子リアルタイム配列決定によって決定された血漿DNAメチル化密度を、バイサルファイト配列決定から取得された様々な参照組織メチル化プロファイルと比較することによって、母体血漿DNAの組織デコンボリューション分析をさらに実施した。図39Bは、メチル化密度ベースのアプローチを使用すると、胎盤寄与(Sun et al.Proc Natl Acad Sci USA.2015;112:E5503-12)と胎児DNA画分との間の相関関係が、メチル化状態マッチング分析を使用した場合と比較して低減されたことを示す(ピアソンのr=0.65、P値=0.059)。
これらのデータは、母体血漿DNA試料中の異なる組織によって寄与されたDNA分子の割合を推定することが実現可能であったことを示唆した。別の実施形態において、この方法を使用して、侵襲的固形組織生検後に取得された試料中の異なる細胞型もしくは組織からの、または手術後に取得された固形組織からのDNA分子を測定することもできる。いくつかの実施形態において、母体血漿DNAへの異なる組織の比例寄与を推定するために、単一DNA分子レベルでのメチル化パターンを使用することは、ゲノムにわたるすべての配列決定された血漿DNA分子からの集計されたメチル化密度に基づくアプローチよりも優れている。
G.例示的な方法
図40は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法4000を示す。生物学的試料には、胎児および女性からの複数の無細胞DNA分子を含み得る。
ブロック4010では、複数の無細胞DNA分子に対応する配列リードが受け取られ得る。いくつかの実施形態において、方法4000は、無細胞DNA分子の配列決定を実施することを含み得る。
ブロック4020では、複数の無細胞DNA分子のサイズが測定され得る。測定は、配列リードを参照ゲノムにアライメントすることを含み得る。いくつかの実施形態において、測定は、完全長配列決定および完全長配列中のヌクレオチドの数のカウントを含み得る。いくつかの実施形態において、測定は、生物学的試料からの複数の無細胞DNA分子を、生物学的試料中の他の無細胞DNA分子から物理的に分離することを含み得、他の無細胞DNA分子は、カットオフ値よりも小さいサイズを有する。物理的分離には、ビーズの使用を含む本明細書に記載の任意の技術が含まれ得る。
ブロック4030では、複数の無細胞DNA分子からの無細胞DNA分子のセットが、カットオフ値以上のサイズを有するものとして特定され得る。カットオフ値は、200nt以上であり得る。カットオフ値は、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt、または2kntを含み、少なくとも500ntであり得る。カットオフ値は、長い無細胞DNA分子について本明細書に記載の任意のカットオフ値であり得る。サイズは、分子の長さではなくCpG部位の数であり得る。例えば、カットオフ値は、3、4、5、6、7、8、9、10、11、12、13、14、15、またはそれ以上のCpG部位であり得る。
ブロック4040では、無細胞DNA分子のセットの1つの無細胞DNA分子について、複数の部位の各部位でのメチル化状態が決定され得る。複数の部位は、少なくとも5、6、7、8、9、10、11、12、13、14、15、またはそれ以上のCpG部位を含み得る。複数の部位のうちの少なくとも1つは、メチル化され得る。複数の部位の2つの部位は、少なくとも160nt、170nt、180nt、190nt、200nt、250nt、または500ntだけ分離し得る。方法は、複数の無細胞DNA分子を配列決定して、配列リードを取得することと、部位のヌクレオチドおよび部位に隣接するヌクレオチドに対応する特性を測定することによって、部位のメチル化状態を決定することと、を含み得る。例えば、メチル化は、米国出願第16/995,607号にあるように決定され得る。
ブロック4050では、メチル化パターンが決定され得る。メチル化パターンは、複数の部位の各部位でのメチル化状態を示し得る。
ブロック4060では、メチル化パターンが、1つ以上の参照パターンと比較され得る。1つ以上の参照パターンの各々は、特定の組織型について決定され得る。いくつかの実施形態において、比較は、参照パターンに一致する部位の数を決定することを含み得る。
1つ以上の参照パターンの参照パターンは、参照組織からのDNA分子を使用して、複数の参照部位の各参照部位のメチル化密度を測定することによって決定され得る。複数の参照部位の各参照部位のメチル化密度は、1つ以上の閾値メチル化密度と比較され得る。複数の参照部位の各参照部位は、メチル化密度を1つ以上の閾値メチル化密度と比較することに基づいて、メチル化、非メチル化、または無情報として特定され得、複数の部位は、メチル化または非メチル化として特定される複数の参照部位である。無情報部位は、メチル化密度が2つの閾値メチル化密度の間にあるものを含み得る。例えば、無情報部位のメチル化指数は、本明細書に記載されるように、30~70または他の任意の範囲であり得る。
ステップ4070では、無細胞DNA分子の起源組織が、メチル化パターンを使用して決定され得る。起源組織は、胎盤であり得る。起源組織は、胎児または母体であり得る。方法が、図22を用いた説明と同様に、メチル化パターンが参照パターンに一致する場合、起源組織が参照組織であると決定することをさらに含み得る。一致は、完全な一致を指し得る。いくつかの実施形態において、起源組織を参照組織であると決定することは、メチル化パターンが参照パターンの部位の特定のパーセンテージに一致する場合であり得る。例えば、メチル化パターンは、参照パターンの部位の少なくとも60%、70%、80%、85%、90%、95%、97%、またはそれ以上に一致し得る。
方法は、メチル化パターンを複数の参照組織の第1の参照組織からの第1の参照メチル化パターンと比較することによって類似性スコアを決定することによって、起源組織を決定することを含み得る。類似性スコアは、本明細書に記載のメチル化状態マッチングプロセスまたはベータ分布確率モデルを用いて計算され得る。類似性スコアは、閾値と比較され得る。類似性スコアが閾値を超えた場合、起源組織は、第1の参照組織であると決定され得る。類似性スコアは、第1の類似性スコアであり得る。方法は、メチル化パターンを複数の参照組織の第2の参照組織からの第2の参照メチル化パターンと比較することによって第2の類似性スコアを決定することによって、閾値を計算することをさらに含み得る。第1の参照組織および第2の参照組織は、異なる組織であり得る。閾値は、第2の類似性スコアであり得る。第1の参照組織は、すべての他の参照組織と比較して最高の類似性スコアを有し得る。
第1の参照メチル化パターンは、第1の参照組織についてメチル化されている少なくとも第1の確率を有する部位の第1のサブセットを含み得る。例えば、部位の第1のサブセットは、メチル化されているか、または通常はメチル化されているとみなされる部位であり得る。第1の参照メチル化パターンは、第1の参照組織についてメチル化されている最大で第2の確率を有する部位の第2のサブセットを含み得る。例えば、部位の第2のサブセットは、メチル化されていないか、または通常はメチル化されていないとみなされる部位であり得る。類似性スコアを決定することは、複数の部位の1つの部位がメチル化され、複数の部位のその部位が、部位の第1のサブセット内にある場合、類似性スコアを増加させることと、複数の部位の1つの部位がメチル化され、複数の部位のその部位が、部位の第2のサブセット内にある場合、類似性スコアを減少させることと、を含み得る。類似性スコアは、本明細書に記載のメチル化状態マッチングアプローチと同様に決定され得る。
第1の参照メチル化パターンは、複数の部位を含み、複数の部位の各部位は、第1の参照組織についてメチル化されている確率およびメチル化されていない確率によって特徴付けられる。類似性スコアは、複数の部位の各部位について、無細胞DNA分子中の部位のメチル化状態に対応する参照組織中の確率を決定することによって決定され得る。類似性スコアは、複数の確率の積を計算することによって決定され得る。積は、類似性スコアであり得る。確率は、本明細書に記載のアプローチと同様に、ベータ分布によって決定され得る。
方法4000は、無細胞DNA分子のセットの各無細胞DNA分子についての起源組織を決定することをさらに含み得る。この決定は、複数のそれぞれの部位の各部位のメチル化状態を決定することを含み、複数のそれぞれの部位は、無細胞DNA分子に対応する。起源組織の決定は、メチル化パターンを決定することをさらに含み得る。さらに、起源組織の決定はまた、メチル化パターンを、1つ以上の参照パターンの少なくとも1つの参照パターンと比較することを含み得る。いくつかの実施形態において、メチル化パターンの比較は、図22および付随する説明と同様であり得る。図22中、胎盤、肝臓、血球、および結腸は、示された参照パターンを有する参照組織の例である。図38は、参照組織の別の例として造血細胞を示す。
いくつかの実施形態において、各起源組織に対応する無細胞DNA分子の量が決定され得る。各起源組織は、複数の参照組織の各参照組織を含み得る。起源組織の画分寄与は、各起源組織に対応する無細胞DNA分子の量を使用して決定され得る。例えば、起源組織は、胎盤であり得る。他の起源組織は、造血細胞および肝臓を含み得る。例えば、胎盤の画分寄与は、無細胞DNA分子の量を、すべての起源組織に対応する無細胞DNA分子の合計で割ったものから決定され得る。いくつかの実施形態において、無細胞DNA分子の量を無細胞DNA分子の合計で割ったものから計算された画分は、関数または較正データ点のセットを介した画分寄与に関連し得る。関数および較正データ点のセットは両方とも、起源組織の既知の画分寄与を有する複数の較正試料から決定され得る。各較正データ点は、画分の較正値に対応する画分寄与を指定し得る。関数は、較正データ点の線形または非線形の適合を表し得、画分寄与を起源組織の画分または起源組織を含む他のパラメータと関連付け得る。画分寄与を決定する実施形態は、図39Aおよび39Bで説明されるものと同様であり得る。
機械学習モデルを使用して、起源組織を決定し得る。モデルは、複数の訓練メチル化パターンを受け取ることによって訓練され得、各訓練メチル化パターンは、複数の部位の1つ以上の部位にメチル化状態を有し、各訓練メチル化パターンは、既知の組織からのDNA分子から決定される。既知の組織からの各分子は、細胞DNAであり得る。訓練は、複数の訓練試料を保存することを含み得、各訓練試料は、複数の訓練メチル化パターンのうちの1つ、および訓練メチル化パターンに対応する既知の組織を示すラベルを含む。訓練は、複数の訓練試料を使用して、複数の訓練メチル化パターンがモデルに入力されたときに対応するラベルと一致するかまたは一致しないモデルの出力に基づいて、モデルのパラメータを最適化することを含み得る。パラメータは、複数の部位の1つの部位が複数の部位の別の部位と同じメチル化状態を有するかどうかを示す第1のパラメータを含み得る。例えば、モデルは、図24の一対比較と同様であり得る。パラメータは、複数の部位の部位間の距離を示す第2のパラメータを含み得る。いくつかの実施形態において、機械学習モデルは、メチル化部位の参照ゲノムへのアラインメントを必要としない場合がある。モデルの出力は、入力されたメチル化パターンに対応する組織を指定し得る。
機械学習モデルは、畳み込みニューラルネットワーク(CNN)または本明細書に記載の任意のモデルであり得る。モデルには、線形回帰、ロジスティック回帰、深層再帰型ニューラルネットワーク(例えば、長短期記憶、LSTM)、ベイズ分類器、隠れマルコフモデル(HMM)、線形判別分析(LDA)、k平均クラスタリング、ノイズを伴う用途の密度ベースの空間クラスタリング(DBSCAN)、ランダムフォレストアルゴリズム、およびサポートベクトルマシン(SVM)が含まれ得るが、これらに限定されない。
父子関係は、方法4000によって決定され得る。起源組織は、胎児であり得る。方法は、複数の配列リードの1つの配列リードを参照ゲノムの第1の領域にアラインメントすることであって、第1の領域が対立遺伝子に対応する複数の部位を含み、複数の部位が閾値数の部位を含む、アラインメントすることと、複数の部位の各部位に存在するそれぞれの対立遺伝子を使用して、第1のハプロタイプを決定することと、第1のハプロタイプを、男性対象に対応する第2のハプロタイプと比較することと、比較を使用して、男性対象が胎児の父親である尤度の分類を決定することと、をさらに含み得る。男性対象は、ハプロタイプが一致する場合に父親である可能性が高い、またはハプロタイプが一致しない場合に父親である可能性が低いとみなされ得る。いくつかの実施形態において、第1のハプロタイプは、男性対象の両方のハプロタイプと比較され得る。
実施形態において、父子関係は、複数の配列リードの1つの配列リードを参照ゲノムの第1の領域にアラインメントすることによって、起源組織が胎児である場合に試験され得る。第1の領域は、対立遺伝子に対応する第1の複数の部位を含み得る。複数の部位は、閾値数の部位を含み得る。部位の閾値数は、3、4、5、6、7、8、9、10、11、12、13、14、15、またはそれ以上の部位であり得る。複数の部位の各部位の対立遺伝子は、男性対象のゲノム中の対応する部位の対立遺伝子と比較され得る。男性対象が胎児の父親である尤度の分類は、比較を使用して決定され得る。男性対象は、対立遺伝子の特定の数またはパーセンテージが一致する場合に父親である可能性が高い、またはその数またはパーセンテージ未満が一致する場合に父親である可能性が低いとみなされ得る。カットオフパーセンテージは、100%、90%、80%、または70%であり得る。
いくつかの実施形態において、ハプロタイプが決定され得る。方法は、無細胞DNA分子のセットの各無細胞DNA分子について、無細胞DNA分子に対応する配列リードを参照ゲノムにアラインメントすることを含み得る。配列リードは、女性に存在するハプロタイプに対応するものとして特定され得る。女性に存在するハプロタイプは、女性の遺伝子型決定から知られ得る。いくつかの実施形態において、女性のハプロタイプは、女性からの生物学的試料中のハプロタイプのDNA断片の濃度を分析することによって知られ得る。起源組織は、メチル化パターンを使用して胎児として決定され得る。ハプロタイプは、母性遺伝の胎児ハプロタイプであると決定され得る。
ハプロタイプの遺伝は、インプリンティング遺伝子座と関連するような既知のメチル化プロファイルを使用するのではなく、参照組織のメチル化を使用して決定され得る。メチル化パターンと参照パターンに対する一致または類似性スコアは、所与の対立遺伝子または部位が、それが受け継がれた親に基づいてメチル化されているかどうかの知見を除外し得る。
ハプロタイプは、病気を引き起こす遺伝子変異または変化を担持するものとして特定され得る。疾患を引き起こす遺伝子変異を担持するものとしてハプロタイプを特定することは、第1の配列リードにおける遺伝子変異または変化を特定することを含み得る。遺伝子変異には、一塩基差異、欠失、または挿入が含まれ得る。第1の配列リードの第1の距離内の第1のゲノム位置に対応する、第2の配列リードにおける第1のメチル化レベルが測定され得る。第1の配列リードの第2の距離内の第2のゲノム位置に対応する、第3の配列リードにおける第2のメチル化レベルも測定され得る。第1の距離は、100nt、200nt、300nt、400nt、500nt、600nt、700nt、800nt、900nt、1knt、2knt、5knt、または10kntであり得る。第2の配列リードおよび第3の配列リードは、第1の配列リードと同じ染色体腕上にあり得る。第1のメチル化レベルおよび第2のメチル化レベルは、遺伝子変異または変化と関連し得る。第1のメチル化レベルおよび第2のメチル化レベルは、遺伝子変異または変化と関連した1つまたは2つの閾値レベルよりも大きくなり得る。閾値レベルは、遺伝子変異または変化を有するか、または有しないことが知られている対象を使用して決定され得る。方法は、胎児が遺伝子変異または変化によって引き起こされる疾患を有する可能性が高いとを分類することを含み得る。
胎児特異的メチル化パターンが決定され得る。方法は、無細胞DNA分子のセットの各無細胞DNA分子について、無細胞DNA分子に対応する配列リードを参照ゲノムにアラインメントすることを含み得る。方法は、領域に対応するものとして配列リードを特定することを含み得る。領域は、胎児組織からの複数の胎児DNA分子に対応する複数の胎児配列リードを受け取ることによって決定され得る。方法は、複数の母体DNA分子に対応する複数の母体配列リードを受け取ることを含み得る。方法は、複数の胎児配列リードの各胎児配列リードについて、領域内の複数のメチル化部位の各メチル化部位の胎児メチル化状態を決定することを含み得る。方法は、複数の母体配列リードの各母体配列リードについて、複数のメチル化部位の各メチル化部位の母体メチル化状態を決定することを含み得る。
胎児特異的メチル化パターンを決定するための方法は、胎児メチル化状態が母体メチル化状態と異なる部位の量を特徴付けるパラメータの値を決定することを含み得る。方法は、パラメータの値を閾値と比較することを含み得る。パラメータは、胎児DNA分子と母体DNA分子との間で異なる部位の割合であり得る。割合は、本明細書に記載の不一致スコアであり得る。閾値は、不一致スコアの最小レベルを示し得、0.3、0.4、0.5、0.6、0.7、0.8、0.9、またはそれ以上であり得る。いくつかの実施形態において、閾値は、母体または胎児DNA分子の平均不一致スコアを表し得る。方法は、パラメータの値が閾値を超えると決定することを含み得る。いくつかの実施形態において、母体または胎児DNA分子の特定のパーセンテージが、閾値を超えるパラメータの値を有する必要があり得る。例えば、パーセンテージは、50%、60%、70%、80%、90%、またはそれ以上であり得る。いくつかの実施形態において、領域に対応する胎児DNA分子の特定のパーセンテージが、胎児特異的メチル化パターンを有する必要があり得る。例えば、パーセンテージは、40%、50%、60%、70%、80%、またはそれ以上であり得る。この方法は、図25で説明される方法と同様であり得る。
方法は、起源組織からの無細胞DNA分子のために生物学的試料を濃縮することを含み得る。生物学的試料を濃縮することは、無細胞DNA分子のセットを選択および増幅することを含み得る。本明細書に記載されるように、濃縮は、サイズベースの選択を含み得る。いくつかの実施形態において、濃縮は、メチル化パターンベースの選択を含み得る。例えば、メチル-CpG結合ドメイン(MBD)ベースの捕捉および配列決定が使用され得る。無細胞DNAは、メチル化シトシンに結合することができるタグ付けされたMBDタンパク質とインキュベートされ得る。次いで、タンパク質-DNA複合体を、抗体結合磁気ビーズで沈殿させ得る。より多くのメチル化CpG部位を有するDNA分子は、下流分析のために優先的に濃縮され得る。
III.在胎期間に伴う長い無細胞DNA断片の変化
長い無細胞DNA断片の量は、在胎期間とともに変化し得る。長い無細胞DNA断片は、在胎期間を決定するために使用され得る。さらに、長い無細胞DNA断片は、短い無細胞DNA断片と比較して、特定の末端モチーフにおいてより豊富であり得、特定の末端モチーフの相対量は、在胎期間とともに変化し得る。末端モチーフの量は、在胎期間を決定するためにも使用され得る。長い無細胞DNA断片を使用して決定された在胎期間および他の臨床技術によって決定された在胎期間の偏差は、妊娠関連障害を示し得る。いくつかの実施形態において、長い無細胞DNA断片を使用して、必ずしも在胎期間を決定することなく妊娠関連障害の尤度を決定し得る。
A.胎児および母体DNAについてのサイズ分析
妊娠初期(在胎期間:13週)の2人の妊娠中の女性、妊娠中期(在胎期間:21~22週)の2人、および妊娠後期(在胎期間:38週)の5人の血漿DNAを、単一分子リアルタイム(SMRT)配列決定(PacBio)を使用して配列決定した。各症例について、1億7,600万の中央値(範囲:49~6億8,500万)のサブリードが取得され、そのうち1億2,800万個(範囲:35~5億700万)のサブリードが、ヒト参照ゲノム(hg19)にアラインメントされ得る。SMRTウェル内の各分子を平均して107回配列決定した。965,308の中央値(範囲:251,686~2,871,525)の高品質循環コンセンサス配列(CCS)リードは、少なくとも3つのサブリードを有するCCSリードとして定義され、下流分析に使用され得る。
各妊娠期から取得された試料からのすべての配列決定された分子を、サイズ分析のために一緒にプールした。妊娠初期、妊娠中期、および妊娠後期の母体血漿試料について、それぞれ、合計194万個、509万個、および445万個の無細胞DNA分子があった。
図41Aおよび41Bは、0~5kbのサイズ範囲内の妊娠初期、妊娠中期、および妊娠後期の母体血漿試料からの無細胞DNA分子のサイズ分布を示す。x軸は、サイズを示す。y軸は、頻度を示す。サイズ分布は、図41Aの場合、y軸の線形スケールで0~5kb、および図41Bの場合、y軸の対数スケールで0~5kbの範囲でプロットされる。3つすべての妊娠期からの血漿DNAは、図41Aに示されるような166bpでの期待された主要なピーク、および図41Bに示されるような1kb~2kbの範囲内の分子に及んだ周期的なパターンで生じる一連の主要なピークを示した。
図42は、異なる妊娠期における長い血漿DNA分子の割合を示す表である。1列目は、血漿試料と関連する在胎期間を示す。2列目は、500bpよりも長いDNA分子の割合を示す。3列目は、1kbよりも長いDNA分子の割合を示す。妊娠初期および妊娠中期と比較して、妊娠後期は、500bp以上の血漿DNA分子の頻度の増加があった。500bpを超える長い血漿DNA分子の割合は、妊娠初期、妊娠中期、および妊娠後期について、それぞれ15.8%、16.1%、および32.3%であった。1kbを超える長い血漿DNA分子の割合は、妊娠初期、妊娠中期、および妊娠後期について、それぞれ11.3%、10.6%、および21.4%であった。妊娠初期および妊娠中期の母体血漿は、同様の割合の長い無細胞DNA分子を示したが、妊娠後期の母体血漿は、約2倍の割合の長いDNA分子を有した。
本開示のために分析されたすべての母体血漿DNA試料について、それらの対の母体バフィーコートおよび胎児試料から抽出されたDNAの遺伝子型を、アレイハイブリダイゼーションに基づく遺伝子型決定法であるiScan System上のInfinium Omni2.5Exome-8 Beadchip(Illumina)で決定した。胎児試料を、症例がそれぞれ妊娠初期、妊娠中期、または妊娠後期であったかに応じて、絨毛膜絨毛サンプリング、羊水穿刺、または胎盤のサンプリングによって取得した。母親がホモ接合であり、胎児がヘテロ接合であった203,647の中央値の有益な一塩基多型(SNP)を、各症例について特定した。各妊娠期からのすべての症例についての配列決定されたDNA分子を一緒にプールした場合、妊娠初期、妊娠中期、および妊娠後期について、それぞれ、胎児特異的対立遺伝子をカバーする合計1,362個、2,984個、および6,082個のDNA分子を特定した。一方、母親がヘテロ接合であり、胎児がホモ接合体であった210,820の中央値の有益なSNPを、各症例について特定した。妊娠初期、妊娠中期、および妊娠後期について、それぞれ、母体特異的対立遺伝子をカバーする合計30,574個、65,258個、および78,346個のDNA分子を特定した。すべての母体血漿試料の間で、600bp以下のDNA分子の配列決定データから決定された胎児DNA画分の中央値は、15.6%(範囲、7.6~26.7%)であった。
図43Aおよび43Bは、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。x軸は、サイズを示す。y軸は、頻度を示す。サイズ分布は、図43Aの場合、y軸の線形スケールで0~3kb、および図43Bの場合、y軸の対数スケールで0~3kbの範囲でプロットされる。
図44Aおよび44Bは、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの母体特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。x軸は、サイズを示す。y軸は、頻度を示す。サイズ分布は、図44Aの場合、y軸の線形スケールで0~3kb、および図44Bの場合、y軸の対数スケールで0~3kbの範囲でプロットされる。
図43A~44Bに示されるように、3つすべての妊娠期からの胎児および母体特異的対立遺伝子をカバーする血漿DNA分子は、長い裾の分布を示し、3つすべての妊娠期における、胎児源および母体源の両方に由来する長いDNA分子の存在を示唆している。
図45は、異なる妊娠期における長い胎児および母体血漿DNA分子の割合の表である。1列目は、血漿試料と関連する在胎期間を示す。2列目は、500bpよりも長い胎児DNA分子の割合を示す。3列目は、500bpよりも長い母体DNA分子の割合を示す。4列目は、1kbよりも長い胎児DNA分子の割合を示す。5列目は、1kbよりも長い母体DNA分子の割合を示す。母体血漿中のDNA分子のプールの間で、胎児特異的対立遺伝子(胎盤起源)をカバーするものは、母体特異的対立遺伝子をカバーするものと比較して、長いDNA分子の割合がより小さかった。500bpを超えるサイズを有する胎児特異的対立遺伝子をカバーする長い血漿DNA分子の割合は、妊娠初期、妊娠中期、および妊娠後期について、それぞれ19.8%、23.2%、および31.7%であった。1kbを超えるサイズを有する胎児特異的対立遺伝子をカバーする長い血漿DNA分子の割合は、妊娠初期、妊娠中期、および妊娠後期について、それぞれ15.2%、16.5%、および19.9%であった。
妊娠後期と比較して、妊娠初期および妊娠中期の母体血漿に存在する長い血漿DNA分子の割合がより小さく、胎児DNA分子が3つすべての妊娠期においてより少ない長いDNA分子を含有したという事実にもかかわらず、我々の以前の開示および本開示に記載の方法により、以前はショートリード配列決定技術で不可能であったかなりの割合の長い血漿DNA分子の分析が可能になった。さらに、電気泳動、クロマトグラフィー、およびビーズベースの方法が挙げられるがこれらに限定されない異なるサイズ選択戦略を使用して、血漿試料中の長いDNA断片を濃縮することができる。
図46A、46B、および46Cは、異なる妊娠期にわたる特定のサイズ範囲の胎児特異的血漿DNA断片の割合のプロットを示す。評価された妊娠症例の在胎期間を、週齢を確定する超音波検査によって検証した。図46Aは、150bp以下のDNA断片についての結果を示す。図46Bは、150~600bpのDNA断片についての結果を示す。図46Cは、600以上のDNA断片についての結果を示す。グラフは、y軸上に胎児特異的断片の割合、およびx軸上に在胎期間を有する。グラフに示されるように、150bpよりも短い(図46A)および600bpよりも長い(図46C)胎児特異的断片の割合は両方とも、150~600bpの範囲(図46B)の胎児特異的断片の割合と比較して、妊娠後期試料と妊娠初期および妊娠中期試料とを区別する特定の識別力を達成する。600bpよりも長い胎児特異的断片の割合は、最良の識別力を提供し得る。この結論は、妊娠後期群と妊娠初期および妊娠中期の混合群との間の絶対最小距離が、150bpよりも短い胎児特異的断片の割合を使用した場合に0.38であった一方で、対応する値が、600bpよりも大きい胎児特異的断片の割合を使用した場合に3.76であったという事実によって証明された。これらの結果は、病態生理学的状態を反映するための長いDNA分子の使用が、短いDNA分子の使用よりも優れていることを示唆した。
B.血漿DNA末端分析
サイズに加えて、配列決定された各DNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端の第1のヌクレオチドを別々に決定した。この分析は、4タイプの末端、すなわち、A末端、C末端、G末端、およびT末端からなった。各妊娠期から取得された母体血漿試料からの特定の末端を有する血漿DNA分子のパーセンテージを計算した。各断片サイズでのA末端、C末端、G末端、およびT末端のパーセンテージをさらに分析した。
図47A、47B、および47Cは、0~3kbの断片サイズの範囲にわたる、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの無細胞DNA分子の5’末端の塩基含有量の割合のグラフを示す。図47Aは、妊娠初期の母体血漿を示す。図47Bは、妊娠中期の母体血漿を示す。図47Cは、妊娠後期の母体血漿を示す。パーセンテージとしての塩基含有量は、y軸上に示される。塩基対の断片のサイズは、x軸上に示される。グラフに見られるように、C末端は多くのサイズ範囲(ほとんどが1kb未満)で過剰に表現されており、妊娠初期、妊娠中期、および妊娠後期の試料について異なるサイズ範囲に応じて変化した。妊娠後期試料の血漿DNA末端パターンは、妊娠初期および妊娠中期試料とは異なるように思えた。例えば、T末端曲線およびG末端曲線は、105~172bpの範囲のサイズで混合されたが、妊娠初期および妊娠中期試料中では発散していた。より長い断片(例えば、約1kb超)の場合、C末端断片は、最も豊富な断片ではない。G末端断片は、約1kbでC末端断片を追い越し、次いで、A末端断片は、約2kbでG末端断片よりも豊富になる。
図48は、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。1列目は、分子の末端の塩基を示す。2列目は、期待される割合の点および種を示す。3列目は、妊娠初期の母体血漿についての500bp以下の断片間の末端種の割合を示す。4列目は、妊娠初期の母体血漿についての500bpよりも大きい断片間の末端種の割合を示す。5列目および6列目は、妊娠中期の母体血漿を除いて、また妊娠初期の母体血漿の代わりに、それぞれ、3列目および4列目と同様である。7列目および8列目は、妊娠後期の母体血漿を除いて、また妊娠初期の母体血漿の代わりに、それぞれ、3列目および4列目と同様である。
無細胞DNA断片化が完全にランダムであった場合、末端ヌクレオチド塩基の割合は、ヒトゲノムの組成を反映するはずであり、これは、図48の2列目に示されるように、Aが29.5%、Tが29.5%、Cが20.5%、およびGが20.5%である。ランダム断片化とは対照的に、500bp以下の短い無細胞DNA分子の5’末端は、C末端の実質的な過剰発現(妊娠初期、妊娠中期、および妊娠後期の母体血漿について、それぞれ30.4%、30.4%、および31.3%)、G末端のわずかな過剰表現(妊娠初期、妊娠中期、および妊娠後期について、それぞれ27.4%、26.9%、および25.3%)、ならびにA末端の過小表現(妊娠初期、妊娠中期、および妊娠後期について、それぞれ19.8%、19.4%、および19.3%)、およびT末端の過小表現(妊娠初期、妊娠中期、および妊娠後期について、それぞれ22.4%、23.3%、および24.1%)を示した。
しかしながら、短い無細胞DNA分子と比較して、500bpを超える長い無細胞DNA分子は、A末端の割合の大幅な増加(妊娠初期、妊娠中期、および妊娠後期の母体血漿について、それぞれ29.6%、26.0%、および26.7%)、G末端の割合のわずかな増加(妊娠初期、妊娠中期、および妊娠後期について、それぞれ31.0%、29.5%、および29.9%)、T末端の割合の大幅な減少(妊娠初期、妊娠中期、および妊娠後期について、それぞれ13.9%、16.9%、および16.4%)、ならびにC末端の割合のわずかな減少(妊娠初期、妊娠中期、および妊娠後期について、それぞれ25.5%、27.5%、および27.1%)を示した。
図49は、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの胎児特異的対立遺伝子をカバーする短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。図50は、妊娠初期、妊娠中期、および妊娠後期の母体血漿からの母体特異的対立遺伝子をカバーする短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合の表である。1列目は、分子の末端の塩基を示す。2列目は、期待される割合の点および種を示す。3列目は、妊娠初期の母体血漿についての500bp以下の断片間の末端種の割合を示す。4列目は、妊娠初期の母体血漿についての500bpよりも大きい断片間の末端種の割合を示す。5列目および6列目は、妊娠中期の母体血漿を除いて、また妊娠初期の母体血漿の代わりに、それぞれ、3列目および4列目と同様である。7列目および8列目は、妊娠後期の母体血漿を除いて、また妊娠初期の母体血漿の代わりに、それぞれ、3列目および4列目と同様である。図49および50は、胎児および母体特異的対立遺伝子をカバーするDNA分子を別々に調べた場合でも、短い無細胞DNA分子および長い無細胞DNA分子間での末端ヌクレオチド塩基の割合のそのような差が変わらないままであったことを示す。
図51は、256個の4mer末端モチーフを使用した短い血漿無細胞DNA分子および長い血漿無細胞DNA分子の階層的クラスタリング分析を示す。各列は、それぞれ、短い断片(1行目にシアン色によって示される)および長い断片(1行目に黄色によって示される)に基づいて、末端モチーフの頻度を分析するために使用される試料を示す。2行目から始まり、各行は、末端モチーフのタイプを示す。末端モチーフの頻度を、行で正規化された頻度(z-スコア)に応じた一連のカラーグラデーションで示した(すなわち、試料にわたる平均頻度よりも下または上の標準偏差の数)。より赤い色は、末端モチーフの頻度がより高いことを示し、より青い色は、末端モチーフの頻度がより低いことを示す。
図51中、4mer末端モチーフプロファイルを分析することによって、短い無細胞DNA分子および長い無細胞DNA分子を特徴付けた。各配列決定されたDNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端の第1の4-ヌクレオチド配列(4merモチーフ)を別々に決定した。各母体血漿試料について、各血漿DNA末端モチーフの頻度を、短い(500bp以下)および長い(500bp超)血漿DNA分子について別々に計算した。256個の4mer末端モチーフの頻度に基づく階層的クラスタリング分析は、異なる母体血漿試料にわたる長いDNA分子の末端モチーフプロファイルが、短いDNA分子とは異なったクラスターを形成したことを示した。これらの結果は、長いDNAおよび短いDNAが異なる断片化特性を有したことを示唆した。実施形態において、長いDNA分子と短いDNA分子との間のこれらの末端モチーフの相対摂動を使用して、アポトーシスおよび壊死などであるがこれらに限定されない細胞死経路に由来する無細胞DNAの寄与を示す。これらの細胞死経路からの活性の増加は、妊娠関連および他の障害に関連し得る。
図52Aおよび52Bは、分類分析のための4mer末端モチーフプロファイルを使用した主成分分析(PCA)を示す。図52Aは、異なる妊娠期からの短い無細胞DNA分子(500bp以下)を示す。図52Bは、異なる妊娠期からの母体血漿試料の長い無細胞DNA分子(500bp超)を示す。x軸およびy軸上の括弧内のパーセンテージは、対応する成分によって説明される変動の量を表す。各青色の点は、妊娠初期の母体血漿試料を表す。各黄色の点は、妊娠中期の母体血漿試料を表す。各赤色の点は、妊娠後期の母体血漿試料を表す。楕円は、特定の妊娠期からのデータ点を群化するための95%信頼水準を表す。短い無細胞DNA分子(図52A)(米国出願第15/787,050号にも記載される)と比較して、長い無細胞DNA分子(図52B)の4mer末端モチーフプロファイルは、妊娠初期、妊娠中期、および妊娠後期の母体血漿試料間でより明確な分離をもたらした。実施形態において、分子的在胎期間評価のために、長い血漿DNA分子の末端モチーフプロファイルを単独で、またはメチル化レベルおよびサイズを含むがこれらに限定されない他の母体血漿DNA特性と組み合わせて利用することができる。
例えば、ニューラルネットワークを使用して、256個の末端モチーフ、全体的なメチル化レベル、およびサイズが600bp以上の断片の割合に基づいて在胎期間を予測するようにモデルを訓練した。出力変数は、1、2、および3であり、妊娠初期、妊娠中期、および妊娠後期を表す。入力変数は、256個の末端モチーフ、全体的なメチル化レベル、およびサイズが600bp以上の断片の割合を含んだ。リーブワンアウトアプローチを使用して、在胎期間を予測する性能を評価した。9つの試料を含むデータセットの場合、リーブワンアウトアプローチを、1つの試料をテスト試料として選択し、残りの8つの試料をニューラルネットワークに基づくモデルを訓練するために使用する方法で実行した。そのようなテスト試料は、確立されたモデルに基づいて1、2、または3であると決定された。次いで、まだテストされていない他の試料に対してこのプロセスを繰り返した。そのような訓練およびテストのプロセスを合計9回繰り返した。それらのテスト結果を在胎期間に関する臨床情報と比較することによって、9つの試料のうち8つ(89%)が、在胎期間に関して正しく予測された。別の実施形態において、そのような分析は、例えば限定されないが、ベイズの定理、ロジスティック回帰、重回帰およびサポートベクターマシン、ランダムフォレスト分析、分類および回帰ツリー(CART)、K近傍アルゴリズムを使用して実施され得る。
次に、各妊娠期から取得された試料からのすべての配列決定された分子を、下流末端モチーフ分析のために一緒にプールした。256個の末端モチーフを、短い血漿DNA分子および長い血漿DNA分子間でのそれらの頻度に従ってランク付けした。
図53~58は、特定の長さのDNA断片(500bpよりも短いまたは長い)についての、および異なる妊娠期についての、最高頻度を有する25個の末端モチーフの表である。図53、54、および55は、短い断片(500bp未満)のそれらのランクでソートされた末端モチーフを含む表である。図53~55中、1列目は、末端モチーフを示す。2列目は、短い断片のモチーフの頻度ランクを示す。3列目は、長い断片のモチーフの頻度ランクを示す。4列目は、短い断片のモチーフの頻度を示す。5列目は、長い断片のモチーフの頻度を示す。6列目は、倍率変化(短い断片のモチーフの頻度を長い断片のモチーフの頻度で割ったもの)を示す。
図56、57、および58は、長い断片(500bp超)のそれらのランクでソートされた末端モチーフを含む表である。図56~58中、1列目は、末端モチーフを示す。2列目は、長い断片のモチーフの頻度ランクを示す。3列目は、短い断片のモチーフの頻度ランクを示す。4列目は、長い断片のモチーフの頻度を示す。5列目は、短い断片のモチーフの頻度を示す。6列目は、倍率変化(長い断片のモチーフの頻度を短い断片のモチーフの頻度で割ったもの)を示す。
図53および56は、妊娠初期試料からのものである。図54および57は、妊娠中期試料からのものである。図55および58は、妊娠後期試料からのものである。
短い血漿DNA分子の間で最高頻度を有する上位25個の末端モチーフの間で、そのうち11個は、CCジヌクレオチドで始まった。CCで始まる末端モチーフは全体で、妊娠初期、妊娠中期、および妊娠後期の母体血漿中で、それぞれ短い血漿DNA末端モチーフの14.66%、14.66%、および15.13%を占めた。長い血漿DNA分子の間で最高頻度を有する上位25個の末端モチーフの間で、TTジヌクレオチドで終わる4merモチーフは、妊娠中期および妊娠後期の母体血漿中でそれらのうち9つ、ならびに妊娠初期の母体血漿中でそれらのうち10つを占めた。
配列決定された各DNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端から第3のヌクレオチド(X)および第4のヌクレオチド(Y)のジヌクレオチド配列を別々に決定した。XおよびYは、DNAにおける4つのヌクレオチド塩基のうちの1つである。16個の可能なNNXYモチーフ、すなわち、NNAA、NNAT、NNAG、NNAC、NNTA、NNTT、NNTG、NNTC、NNGA、NNGT、NNGG、NNGC、NNCA、NNCT、NNCG、およびNNCCがあった。
図59A、59B、および59Cは、短い血漿DNA分子および長い血漿DNA分子間での、16個のNNXYモチーフのモチーフ頻度の散布図を示す。図59Aは、妊娠初期についての結果を示す。図59Bは、妊娠中期についての結果を示す。図59Cは、妊娠後期についての結果を示す。長い断片のモチーフ頻度は、y軸上に示される。短い断片のモチーフ頻度は、x軸上に示される。各円は、16個のNNXYモチーフのうちの1つを表す。各散布図の点線の対は、短い血漿DNA分子(500bp以下)と比較した、長い血漿DNA分子(500bp超)のモチーフ頻度の1.5倍の増加(上の線)および減少(下の線)を示す。影付きの領域の外側に位置する円は、倍率変化が1.5を超えるモチーフを表す。
短い血漿DNA分子の末端が、CCジヌクレオチドで始まる4merモチーフ(CCNN)の高い頻度を示した(Jiang et al.Cancer Discov 2020;10(5):664-673、Chan et al.Am J Hum Genet 2020;107(5):882-894)一方で、長い血漿DNA分子の末端は、3つすべての妊娠期にわたってTTで終わる4マーモチーフ(NNTT)の頻度の1.5倍を超える増加を示した(図11)。NNTTモチーフは、妊娠初期、妊娠中期、および妊娠後期の母体血漿中で、それぞれ長い血漿DNA末端モチーフの18.94%、15.22%、および15.30%を占めた。対照的に、NNTTモチーフは、妊娠初期、妊娠中期、および妊娠後期の母体血漿中で、それぞれ短い血漿DNA末端モチーフの9.53%、9.29%、および8.91%しか占めなかった。
Han et al.によって以前に報告されたように、死にかけている細胞から血漿に新たに放出された無細胞DNAは、150bpを超えるA末端断片が濃縮されていた。アポトーシス中のDNA断片化に関与する主要な細胞内ヌクレアーゼであるDNA断片化因子ベータ(DFFB)は、そのような断片の生成に関与していることがわかった(Han et al.Am J Hum Genet 2020;106:202-214)。本開示では、500bpを超える長い無細胞DNA分子が、A末端断片も濃縮されていることを示し、DFFBがこれらの断片の生成にも関与している可能性があることを示唆している。正常な妊娠において、栄養膜アポトーシスは、在胎が進むにつれて増加する(Sharp et al.Am J Reprod Immuno 2010;64(3):159-69)。実際に、妊娠期が進むにつれて胎児特異的対立遺伝子をカバーする長いDNA分子の割合が増加するという我々の発見は、妊娠期が進むにつれて栄養膜アポトーシスが増加することを反映している可能性がある。
実施形態において、本明細書に記載の方法を使用して、子癇前症、子宮内胎児発育遅延(IUGR)、早期陣痛、および妊娠性絨毛性疾患を含むがこれらに限定されない胎盤関連妊娠合併症の予測、スクリーニング、および進行監視のために、母体血漿中の長い無細胞DNA分子を分析することができる。子癇前症(Leung et al.Am J Obstet Gynecol 2001;184:1249-1250)、IUGR(Smith et al.Am J Obstet Gynecol 1997;177:1395-1401、Levy et al.Am J Obstet Gynecol 2002;186:1056-1061)、および妊娠性絨毛性疾患などの胎盤関連妊娠合併症では、栄養膜アポトーシスのレベルの上昇が報告されている。さらに、子癇前症(Lo et al.Clin Chem 1999;45(2):184-8、Smid et al.Ann N Y Acad Sci 2001;945:132-7)、IUGR(Sekizawa et al.Am J Obstet Gynecol 2003;188:480-4)、および早期陣痛(Leung et al.Lancet 1998;352(9144):1904-5)では、母体血漿中の胎児DNAレベルの上昇が報告されている。胎盤関連妊娠合併症において、胎盤アポトーシスの増加により、母体血漿試料中の胎盤起源の長い無細胞DNA分子の割合が増加すると仮定した。したがって、胎盤起源の長い無細胞DNA分子自体、ならびにA末端断片およびNNTTモチーフを含むがこれらに限定されない長いDNAシグネチャーは、胎盤アポトーシスのバイオマーカーとして役立つ可能性がある。
上記の分析では1-ヌクレオチドおよび4-ヌクレオチドのモチーフが使用されるが、他の実施形態において、他の長さ、例えば2、3、5、6、7、8、9、10、またはそれ以上のモチーフが使用され得る。
C.例示的な方法
長い無細胞DNA断片は、胎児を妊娠中の女性の在胎期間を決定するために使用され得る。長い無細胞DNA断片の量は、在胎期間とともに変化し、在胎期間を決定するために使用され得る。無細胞DNA断片の末端モチーフも、在胎期間とともに変化し、在胎期間を決定するために使用され得る。長い無細胞DNA断片を使用して決定された在胎期間が、他の臨床技術によって決定された在胎期間から大幅に逸脱している場合、妊娠中の女性および/または胎児は、妊娠関連障害を有するとみなされる可能性がある。いくつかの実施形態において、妊娠関連障害の尤度を決定するために在胎期間を決定する必要がない場合がある。
1.在胎期間
図60は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法6000を示す。在胎期間が決定され得、妊娠関連障害の尤度を分類するために使用され得る。生物学的試料には、胎児および女性からの複数の無細胞DNA分子を含み得る。
複数の無細胞DNA分子に対応する配列リードが受け取られ得る。いくつかの実施形態において、配列リードを取得するための配列決定が実施され得る。
ブロック6020では、複数の無細胞DNA分子のサイズが測定され得る。サイズは、図21で説明されるのと同様の方法で測定され得る。サイズは、配列リードを使用して測定され得る。
ブロック6030では、カットオフ値よりも大きいサイズを有する無細胞DNA分子の第1の量が測定され得る。量は、無細胞DNA分子の数、全長、または質量であり得る。
ブロック6040では、第1の量を使用した正規化パラメータの値が生成され得る。正規化パラメータの値は、無細胞DNA分子の総数、胎児もしくは母親からの無細胞DNA分子の数、または特定の領域からのDNA分子の数によって正規化された第1の量であり得る。例えば、正規化パラメータは、図46A~Cで説明されるように、胎児特異的断片の割合であり得る。
ブロック6050では、正規化パラメータの値は、1つ以上の較正データ点と比較され得る。各較正データ点は、正規化パラメータの較正値に対応する在胎期間を指定し得る。例えば、特定の妊娠期または特定の週数の在胎期間は、正規化パラメータの較正値に対応し得る。1つ以上の較正データ点は、既知の在胎期間を有し、カットオフ値よりも大きいサイズを有する無細胞DNA分子を含む複数の較正試料から決定され得る。いくつかの実施形態において、較正データ点は、在胎期間を正規化パラメータの値と相関させる関数から決定される。
ブロック6060では、比較を使用した在胎期間が決定され得る。在胎期間は、正規化パラメータの値に最も近い較正値に対応する期間とみなされ得る。いくつかの実施形態において、在胎期間は、正規化パラメータの値が超える較正値に対応するための最も進んだ期間であるとみなされ得る。
方法は、超音波または女性の最後の月経期間の日を使用して、胎児の参照在胎期間を決定することをさらに含み得る。方法はまた、在胎期間を参照在胎期間と比較することを含み得る。方法はまた、在胎期間と参照在胎期間との比較を使用して、妊娠関連障害の尤度の分類を決定することをさらに含み得る。例えば、在胎期間と参照在胎期との間の相違は、妊娠関連障害を示し得る。相違は、異なる妊娠期、または最小の週数(例えば、1、2、3、4、5、6、7、もしくはそれ以上の週)だけの在胎期間の差であり得る。
方法は、末端モチーフを使用することをさらに含み得る。例えば、方法は、カットオフ値よりも大きいサイズを有する無細胞DNA分子の少なくとも1つの末端に対応する第1の部分配列を決定することをさらに含み得る。第1の量は、カットオフ値よりも大きいサイズを有し、それぞれの無細胞DNA分子の1つ以上の末端に第1の部分配列を有する無細胞DNA分子のものであり得る。第1の部分配列は、1、2、3、4、5、または6ヌクレオチドであり得るか、またはそれらを含み得る。図52Aおよび52Bで説明されるように、末端モチーフを使用して、PCA分析を通して在胎期間を決定し得る。較正試料は、異なる末端モチーフおよび既知の在胎期間とともに使用され、PCA分析に供され得る。線形判別分析、ロジスティック回帰、サポートベクターマシン、線形回帰、非線形回帰など、他の分類および回帰アルゴリズムが末端モチーフに使用され得る。分類および回帰アルゴリズムは、在胎期間を特定の末端モチーフおよび/または特定のサイズの断片に関連付け得る。
末端モチーフは、図47~59または94で考察される任意のモチーフであり得る。末端モチーフのランクまたは頻度は、既知の在胎期間の対象からの較正試料における末端モチーフのランクまたは頻度と比較され得る。次いで、末端モチーフのランクまたは頻度を使用して、在胎期間を決定することができる。同じ在胎期間の参照試料から決定されたランクまたは頻度から逸脱しているランクまたは頻度に存在する末端モチーフは、妊娠関連障害を示し得る。
正規化パラメータの値を生成することは、(a)カットオフ値よりも大きいサイズを有する無細胞DNA分子の総量によって、第1の量を正規化すること、(b)カットオフ値よりも大きいサイズを有し、第2の部分配列で終わる無細胞DNA分子の第2の量によって、第1の量を正規化することであって、第2の部分配列が、第1の部分配列とは異なる、正規化すること、または(c)カットオフ値よりも小さいサイズを有する無細胞DNA分子の第3の量によって、第1の量を正規化することを含み得る。
2.妊娠関連障害
図61は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法6100を示す。実施形態は、必ずしも在胎期間を決定することなく、妊娠関連障害の尤度を分類することを含み得る。生物学的試料には、胎児および女性からの複数の無細胞DNA分子を含み得る。
複数の無細胞DNA分子に対応する配列リードが受け取られ得る。いくつかの実施形態において、配列リードを取得するための配列決定が実施され得る。
ブロック6120では、複数の無細胞DNA分子のサイズが測定され得る。サイズは、図21で説明されるのと同様の方法で取得され得る。サイズを測定することは、受け取られた配列リードを使用し得る。
ブロック6130では、カットオフ値よりも大きいサイズを有する無細胞DNA分子の第1の量が測定され得る。カットオフ値は、200nt以上であり得る。カットオフ値は、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt、または2kntを含み、少なくとも500ntであり得る。カットオフ値は、長い無細胞DNA分子について本明細書に記載の任意のカットオフ値であり得る。第1の量は、数値または頻度であり得る。
ブロック6140では、第1の量を使用した正規化パラメータの第1の値が生成され得る。正規化パラメータの値を生成することは、カットオフ値よりも小さいサイズを含む無細胞DNA分子の第2の量を測定することと、第1の量および第2の量の比率を計算することと、を含み得る。カットオフ値は、第1のカットオフ値であり得る。第2のカットオフ値は、第1のカットオフ値よりも小さくなり得る。第2の量は、第2のカットオフ値よりも小さいサイズを有する無細胞DNA分子を含み得るか、または第2の量は、複数の無細胞DNA分子中のすべての無細胞DNA分子を含み得る。正規化パラメータは、長い無細胞DNA分子の頻度の尺度であり得る。
ブロック6150では、健康な妊娠のための正規化パラメータの期待値に対応する第2の値が取得され得る。第2の値は、胎児の在胎期間に依存し得る。第2の値は、期待値であり得る。いくつかの実施形態において、第2の値は、異常値と区別するカットオフ値であり得る。
第2の値を取得することは、妊娠中の女性の測定値を正規化パラメータの較正値と関連付ける較正表から第2の値を取得することを含み得る。較正表は、在胎期間を妊娠中の女性対象の測定値と関連付ける第1の表を取得することによって生成され得る。在胎期間を正規化パラメータの較正値と関連付ける第2の表が取得され得る。第1および第2の表のデータは、同じ対象または異なる対象からのものであり得る。測定値を較正値と関連付ける較正表は、第1の表および第2の表から作成され得る。較正表は、較正値を測定値に関連付ける関数を含み得る。
妊娠中の女性対象の測定値は、最後の月経期間からの時間、または妊娠中の女性対象の画像の特性(例えば、超音波)であり得る。妊娠中の女性対象の測定値は、妊娠中の女性対象の画像の特性であり得る。例えば、画像の特性は、女性対象の胎児の長さ、サイズ、外観、または解剖学的構造を含み得る。特性は、生体測定値、例えば、頭殿長または大腿骨長を含み得る。四腔心臓または脊髄の椎骨の外観を含む、特定の臓器の外観が使用され得る。在胎期間は、医師によって超音波画像から決定され得る(例えば、Committee on Obstetric Practice et al.,“Methods for estimating the due date,”Committee Opinion,No.700,May 2017)。
いくつかの実施形態において、機械学習モデルは、1つ以上の較正データ点を画像の特性と関連付け得る。モデルは、複数の訓練画像を受信することによって訓練され得る。各訓練画像は、妊娠関連障害がないことがわかっているか、または妊娠関連障害を有していないことがわかっている女性対象からのものであり得る。女性対象は、様々な在胎期間を有し得る。訓練は、女性対象からの複数の訓練試料を保存することを含み得る。各訓練試料は、訓練画像と関連付けられた正規化パラメータの既知の値を含み得る。モデルは、複数の訓練試料を使用して、画像を正規化パラメータの既知の値と一致させるかまたは一致させないモデルの出力に基づいて、モデルのパラメータを最適化することによって訓練され得る。モデルの出力は、画像に対応する正規化パラメータの値を指定し得る。正規化パラメータの第2の値は、女性の画像を機械学習モデルに入力することによって生成され得る。
ブロック6160では、正規化パラメータの第1の値と正規化パラメータの第2の値との間の偏差が決定され得る。偏差は、分離値であり得る。
ブロック6170では、妊娠関連障害の尤度の分類が、偏差を使用して決定され得る。偏差が閾値を超える場合、妊娠関連障害が起こり得る。閾値は、統計的に有意な差を示し得る。閾値は、10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%の差を示し得る。
妊娠関連障害は、子癇前症、子宮内胎児発育遅延、侵襲的胎盤形成、早産、新生児溶血性疾患、胎盤機能不全、胎児水腫、胎児奇形、溶血、肝酵素の上昇、および低血小板数(HELLP)症候群、または全身性エリテマトーデスを含み得る。
IV.妊娠関連障害についてのサイズおよび末端分析
長いDNA分子のサイズおよび/または末端分析を使用して、子癇前症の尤度を決定した。そのような方法は、他の妊娠関連障害にも適用され得る。子癇前症と診断された4人の妊娠中の女性の母体血漿試料から抽出されたDNAを、単一分子リアルタイム(SMRT)配列決定(PacBio)に供した。
図62は、4つの子癇前症の症例の臨床情報を示す表である。1列目は、症例番号を示す。2列目は、採血時の在胎期間を週単位で示す。3列目は、胎児の性別を示す。4列目は、子癇前症(PET)に関する臨床情報を示す。
M12804は、重度の子癇前症(PET)および既存のIgA腎症の症例であった。M12873は、混合型の軽度PETを伴う慢性高血圧の症例であった。M12876は、重度の遅発性PETの症例であった。M12903は、子宮内胎児発育遅延(IUGR)を伴う重度の遅発性PETの症例であった。本開示における後続の分析のための対照として、5つの正常血圧の妊娠後期の母体血漿試料を使用した。
本開示のために分析された4つの子癇前症および5つの正常血圧の妊娠後期の母体血漿DNA試料について、それらの対の母体バフィーコートおよび胎盤試料から抽出されたDNAの遺伝子型を、iScan System上のInfinium Omni2.5Exome-8 Beadchip(Illumina)で決定した。
各試料の血漿DNA濃度を、Qubit Fluorometer(ThermoFisher Scientific)を用いたQubit dsDNA高感度アッセイによって定量化した。子癇前症および妊娠後期の症例についての平均血漿DNA濃度は、それぞれ95.4ng/mL(範囲、52.1~153.8ng/mL)の血漿および10.7ng/mL(6.4~19.1ng/mL)の血漿であった。子癇前症の症例の平均血漿DNA濃度は、妊娠後期の症例よりも約9倍高かった。
母親がホモ接合であり、胎児がヘテロ接合であった有益な一塩基多型(SNP)をカバーする600bp以下のDNA分子の配列決定データから決定された平均胎児DNA画分は、子癇前症および正常血圧の妊娠後期の母体血漿試料について、それぞれ22.6%(範囲、16.6~25.7%)および20.0%(範囲、15.6~26.7%)であった。
A.サイズ分析
本開示の実施形態に従って、子癇前症および正常血圧の妊娠後期の母体血漿試料に対して、サイズ分析を実施した。図63A~63Dおよび図64A~64Dは、子癇前症および正常血圧の妊娠後期の症例からの血漿DNA分子のサイズ分布を示す。x軸は、サイズを示す。y軸は、頻度を示す。サイズ分布は、図63A~63Dの場合、x軸の線形スケールで0~1kb、および図64A~64Dの場合、x軸の対数スケールで0~5kbの範囲でプロットされる。図63Aおよび64Aは、試料M12804を示す。図63Bおよび64Bは、試料M12873を示す。図63Cおよび64Cは、試料M12876を示す。図63Dおよび64Dは、試料M12903を示す。
青色の線は、5つの正常血圧の妊娠後期の症例からプールされたすべての配列決定された血漿DNA分子のサイズ分布を表す。赤色の線は、個々の子癇前症の症例からの配列決定された血漿DNA分子のサイズ分布を表す。図63A~63D中、青色の線は、200bp未満のより短いピークの線および300~400bpのより高いピークの線である。図64A~64D中、青色の線は、1kbでのより高い線に対応する。
概して、子癇前症患者の血漿DNAサイズプロファイルは、正常血圧の妊娠後期の妊娠中の女性よりも短く、166bpのピークの高さの増加があり、166bpよりも短いDNA分子の割合の増加があった(図63A~63D)。これらの変化は、2つの重度の子癇前症の症例、M12876およびM12903でより顕著であった。子宮内胎児発育遅延(IUGR)を伴う子癇前症の症例M12903では、変化はさらに劇的であった。
4つの子癇前症の血漿試料のうち3つは、200~5000bpのサイズを有する長い血漿DNA分子の割合の低減を示した(図64B~64D)。M12873、M12876、およびM12903における500bpを超える長い血漿DNA分子の割合は、それぞれ11.7%、8.9%、および4.5%であったが、5つの正常血圧の妊娠後期症例からのプールされた配列決定データにおける長い血漿DNA分子の割合は、32.3%であった。既存のIgA腎症を伴う重度の子癇前症(PET)の症例(M12804)からの血漿試料は、5つの正常血圧の妊娠後期症例からのプールされた配列決定データと比較して、2000bp未満のより短いDNA分子の割合が減少したが、2000bpよりも大きいより長いDNA分子の割合が増加したことを示した(図2A)。M12804の長い血漿DNA分子の割合は、34.9%であった。
図65A~65Dおよび図66A~66Dは、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。A~Dの図面の各々は、異なる子癇前症試料を示す。x軸は、サイズを示す。y軸は、図65A~65Dの頻度および図66A~66Dの累積頻度を示す。図66A~66D中、サイズは、0~35kbになる。
各グラフの青色の線は、5つの正常血圧の妊娠後期の症例からプールされた胎児特異的対立遺伝子をカバーするすべての配列決定された血漿DNA分子のサイズ分布を表す。各グラフの赤色の線は、個々の子癇前症の症例からの配列決定された胎児特異的対立遺伝子をカバーする血漿DNA分子のサイズ分布を表す。図65A~65D中、青色の線は、200bp未満のより短いピークの線および300~400bpのより高いピークの線である。図66A~66D中、青色の線は、100~1000bpのより低い線に対応する。
図67A~67Dおよび図68A~68Dは、子癇前症および正常血圧の妊娠後期の母体血漿試料からの胎児特異的対立遺伝子をカバーするDNA分子のサイズ分布を示す。A~Dの図面の各々は、異なる子癇前症試料を示す。x軸は、サイズを示す。y軸は、図67A~67Dの頻度および図68A~68Dの累積頻度を示す。図68A~68D中、サイズは、0~35kbになる。
各グラフの青色の線は、5つの正常血圧の妊娠後期の症例からプールされた母体特異的対立遺伝子をカバーするすべての配列決定された血漿DNA分子のサイズ分布を表す。各グラフの赤色の線は、個々の子癇前症の症例からの配列決定された母体特異的対立遺伝子をカバーする血漿DNA分子のサイズ分布を表す。図67A中、青色の線は、200bp未満のより高いピークおよび300~400bpのより高いピークの線である。図67B~67D中、青色の線は、200bp未満のより短いピークの線である。図68A中、青色の線は、1000~10000bpのより高い線に対応する。図68B~68D中、青色の線は、100~1000bpのより低い線に対応する。
血漿DNA短縮の現象は、正常血圧の妊娠後期の母体血漿試料と比較して、4つの子癇前症の血漿試料のうちの3つにおいて、胎児特異的対立遺伝子をカバーするDNA分子(図65B~65Dおよび図66B~66D)ならびに母体特異的対立遺伝子をカバーするDNA分子(図67B~67Dおよび図68B~68D)の両方で観察された。例外は、既存のIgA腎症を伴う重症PETの症例M12804であり、これは、胎児特異的対立遺伝子をカバーするそれらの血漿DNA分子の間で、1kb未満のより短いDNA分子の割合が増加し、1kbを超えるより長いDNA分子の割合が減少したことを示した(図65Aおよび66A)。実際に、症例M12804における母体特異的対立遺伝子をカバーする血漿DNA分子は、長くなったサイズプロファイルを示した(図67Aおよび68A)。
図69Aおよび69Bは、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の(A)胎児特異的対立遺伝子および(B)母体特異的対立遺伝子をカバーする短いDNA分子の割合のグラフである。y軸は、150bp未満の短いDNA断片の割合を示す。x軸は、正常な試料およびPET試料を示す。
実施形態において、短いDNA分子の割合を、150bp未満のサイズを有する母体血漿DNA分子のパーセンテージとして定義した。M12804は既存のIgA腎症を有したが、他の試料は有しなかったため、この症例をこの分析から除外した。子癇前症の血漿試料の群は、胎児特異的対立遺伝子(P=0.036、ウィルコクソンの順位和検定)および母体特異的対立遺伝子(P=0.036、ウィルコクソンの順位和検定)をカバーする短いDNA分子の割合が、正常血圧の対照血漿試料の群と比較して有意に増加したことを示した。
図70Aおよび70Bは、(A)PacBio SMRT配列決定および(B)Illumina配列決定で配列決定された子癇前症および正常血圧の母体血漿試料中の短いDNA分子の割合のグラフである。y軸は、150bp未満の短いDNA断片の割合を示す。
実施形態において、短いDNA分子の割合を、150bp未満のサイズを有する母体血漿DNA分子のパーセンテージとして定義した。M12804は、おそらくこの症例に既存のIgA腎症があったため、このコホートの他の子癇前症の症例と比較して異なるサイズプロファイルを示したため、この症例をこの分析から除外した。子癇前症の血漿試料の群は、正常血圧の対照血漿試料の群(中央値:12.1%、範囲:8.5~15.8%)と比較して、短いDNA分子の割合が有意に増加したことを示した(中央値:28.0%、範囲:25.8~35.1%)(P=0.036、ウィルコクソンの順位和検定)。対照的に、バイサルファイト変換およびIllumina配列決定に供された4つの子癇前症および4つの在胎期間が一致した正常血圧の母体血漿DNA試料の以前のコホートでは、子癇前症の血漿試料および対照血漿試料における短いDNA分子の割合に有意差はなかった(P=0.340、ウィルコクソンの順位和検定)(図70B)。
いくつかの実施形態において、妊娠が子癇前症を発症するリスクが高いか低いかを決定するために、PacBio SMRT配列決定で配列決定された母体血漿試料中の短いDNA分子の割合に20%のカットオフを使用することができる。短いDNA分子の割合が20%を超える母体血漿試料が、子癇前症を発症するリスクが高いと決定される一方で、短いDNA分子の割合が20%未満の母体血漿試料は、子癇前症を発症するリスクが低いと決定される。このカットオフを使用すると、感度および特異度の両方が100%であった。いくつかの他の実施形態において、使用される短いDNA分子の割合のカットオフは、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%などを含み得るが、これらに限定されない。別の実施形態において、母体血漿試料中の短いDNA分子の割合は、妊娠中の子癇前症の重症度を監視および評価するために使用される。
実施形態において、短いDNA分子および長いDNA分子の相対的割合を示すサイズ比を、以下の方程式を使用して各試料について計算した。
式中、P(50-150)は、50bp~150bpの範囲のサイズを有する配列決定された血漿DNA分子の割合を示し、P(200-1000)は、200bp~1000bpの範囲のサイズを有する配列決定された血漿DNA分子の割合を示す。
図71は、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の、短いDNA分子および長いDNA分子の相対的割合を示すサイズ比のグラフである。y軸は、サイズ比を示す。x軸は、正常な試料およびPET試料を示す。子癇前症の血漿試料の群は、正常血圧の対照血漿試料の群と比較して、有意により高いサイズ比を示した(P=0.016、ウィルコクソンの順位和検定)。
実施形態において、妊娠中の子癇前症の発症および重症度を予測するために、PacBio SMRT配列決定およびOxford Nanopore配列決定を含むがこれらに限定されない、ロングリード配列決定プラットフォームから生成されたサイズプロファイルを利用し得る。いくつかの実施形態において、血漿DNA分子のサイズプロファイルを分析することによって、子癇前症の進行、ならびに肝障害および腎障害を含むがこれらに限定されない重度の子癇前症の特徴の発症を監視し得る。いくつかの実施形態において、分析で使用されるサイズパラメータは、短いまたは長いDNA分子の割合、ならびに短いDNA分子および長いDNA分子の相対的割合示したサイズ比を含み得るが、これらに限定されない。短いDNAカテゴリーおよび長いDNAカテゴリーを決定するために使用されるカットオフ、150bp、180bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp、550bp、600bp、650bp、700bp、750bp、800bp、850bp、900bp、950bp、1kbなどを含み得るが、これらに限定されない。短い分子および長い分子のサイズ比を決定する際に使用されるサイズ範囲は、50~150bp、50~166bp、50~200bp、200~400bp、200~1000bp、200~5000bp、または他の組み合わせを含み得るが、これらに限定されない。
サイズ末端分析は、図61の方法6100で説明される方法を使用することを含み得る。
B.断片末端分析
本開示の実施形態に従って、子癇前症および正常血圧の妊娠後期の母体血漿試料に対して、断片末端分析を実施した。配列決定された各血漿DNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端の第1のヌクレオチドを決定した。T末端、C末端、A末端、およびG末端断片の割合を、各血漿DNA試料について決定した。
図72A~72Dは、PacBio SMRT配列決定を用いて配列決定された子癇前症および正常血圧の母体血漿試料中の血漿DNA分子の異なる末端の割合を示す。x軸は、正常な妊娠後期試料およびPET試料を示す。y軸は、所与の末端の割合を示す。図72Aは、T末端の割合を示す。図72Bは、C末端の割合を示す。図72Cは、A末端の割合を示す。図72Dは、G末端の割合を示す。子癇前症の血漿試料の群は、正常血圧の対照血漿試料の群と比較して、T末端血漿DNA分子の割合が有意に増加し(P=0.016、ウィルコクソンの順位和検定)、G末端血漿DNA分子の割合が有意に低減されたことを示した(P=0.016、ウィルコクソンの順位和検定)。
図73は、4タイプの断片末端(各鎖の5’末端の第1のヌクレオチド)、すなわちC末端、G末端、T末端、およびA末端を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。各列は、血漿DNA試料を示す。1行目は、各試料がどの群に属しているかを示し、シアン色は、正常血圧の妊娠後期の母体血漿DNA試料を示し、オレンジ色は、子癇前症の血漿DNA試料を示す。シアン色は、最初の5列をカバーする。オレンジ色は、最後の4列をカバーする。
2行目から始まり、各行は、断片末端のタイプを示す。末端モチーフの頻度を、行で正規化された頻度(z-スコア)に応じた一連のカラーグラデーションで示した(すなわち、試料にわたる平均頻度よりも下または上の標準偏差の数)。より赤い色は、末端モチーフの頻度がより高いことを示し、より青い色は、末端モチーフの頻度がより低いことを示す。4タイプの断片末端の頻度に基づく階層的クラスタリング分析は、子癇前症の血漿DNA試料の断片末端プロファイルが、正常血圧の妊娠後期の血漿DNA試料とは異なるクラスターを形成したことを示した。
実施形態において、配列決定された各DNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端から第1のヌクレオチド(X)および第2のヌクレオチド(Y)のジヌクレオチド配列を別々に決定し得る。XおよびYは、DNAにおける4つのヌクレオチド塩基のうちの1つである。16個の可能な2-ヌクレオチド末端モチーフXYNN、すなわち、AANN、ATNN、AGNN、ACNN、TANN、TTNN、TGNN、TCNN、GANN、GTNN、GGNN、GCNN、CANN、CTNN、CGNN、およびCCNNがある。本開示の実施形態に従って、配列決定された各DNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端から第3のヌクレオチド(X)および第4のヌクレオチド(Y)のジヌクレオチド配列を別々に決定することができる。16個の可能な2-ヌクレオチドNNXYモチーフがある。各配列決定されたDNA分子について、ワトソン鎖およびクリック鎖の両方の5’末端の第1の4-ヌクレオチド配列(4merモチーフ)を別々に決定することもできる。
図74は、16個の2ヌクレオチドモチーフXYNN(5’末端からの第1および第2のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。図75は、16個の2ヌクレオチドモチーフNNXY(5’末端からの第3および第4のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。図76は、256個の4ヌクレオチドモチーフ(5’末端からの第1~第4のヌクレオチドのジヌクレオチド配列)を使用した、子癇前症および正常血圧の妊娠後期の母体血漿DNA試料の階層的クラスタリング分析を示す。
図74~76中、1行目は、各試料がどの群に属しているかを示し、シアン色は、正常血圧の妊娠後期の母体血漿DNA試料を示し、オレンジ色は、子癇前症の血漿DNA試料を示す。シアン色は、最初の5列をカバーする。オレンジ色は、最後の4列をカバーする。2行目から始まり、各行は、断片末端のタイプを示す。末端モチーフの頻度を、行で正規化された頻度(z-スコア)に応じた一連のカラーグラデーションで示した(すなわち、試料にわたる平均頻度よりも下または上の標準偏差の数)。より赤い色は、末端モチーフの頻度がより高いことを示し、より青い色は、末端モチーフの頻度がより低いことを示す。
これらの結果は、子癇前症試料および非子癇前症試料中の血漿DNAが異なる断片化特性を有したことを示唆した。一実施形態において、妊娠中の子癇前症の発症を予測するために、PacBio SMRT配列決定およびOxford Nanopore配列決定を含むがこれらに限定されない、ロングリード配列決定プラットフォームから生成された末端モチーフプロファイルを利用し得る。上記の分析では1-ヌクレオチド、2-ヌクレオチド、および4-ヌクレオチドのモチーフを使用したが、他の実施形態において、他の長さ、例えば3、5、6、7、8、9、10、またはそれ以上のモチーフが使用され得る。
いくつかの実施形態において、子癇前症を含むがこれに限定されない妊娠関連状態の予測、検出、および監視の性能を改善するために、断片末端分析および起源組織分析を組み合わせることができる。最初に、各母体血漿試料の断片末端分析を実施して、血漿DNA分子を4つの断片末端カテゴリー、すなわち、T末端、C末端、A末端、およびG末端断片に分離することができる。次いで、本開示の実施形態によるメチル化状態マッチング分析を使用して、各母体血漿DNA試料についての各断片末端カテゴリーからの血漿DNA分子を使用して、起源組織分析を別々に実施することができる。断片末端カテゴリーの1つの間での異なる組織の比例寄与を、他の組織と比較して、対応する組織に割り当てられた対応する断片末端カテゴリーの血漿DNA分子のパーセンテージとして定義した。
子癇前症があるおよびない妊娠中の女性からの3つおよび5つの血漿DNA試料を、単一分子リアルタイム配列決定を使用して分析した。A末端、C末端、G末端、およびT末端を有する血漿断片の658,722、889,900、851,501、および607,554の中央値を取得した。A末端を有する断片について、本開示に記載のメチル化状態マッチングアプローチに従って、少なくとも10個のCpG部位を有する任意の断片のメチル化パターンを、好中球、T細胞、B細胞、肝臓、および胎盤の参照メチル化プロファイルと比較した。血漿DNA断片は、それらの組織間で一致するメチル化状態の最大スコアに対応した組織に割り当てられる。この方法を使用して、分析されたすべての試料の間で、中央値2.43%(範囲:0.73~5.50%)のA末端断片をT細胞に割り当てた(すなわち、T細胞寄与)。同様の方法で、それぞれC末端、G末端、およびT末端を有するそれらの断片をさらに分析した。C末端、G末端、およびT末端を有するそれらの断片について、それぞれ3.20%(範囲:1.55~5.19%)、3.52%(範囲:1.53~6.27%)、および2.22%(0~7.79%)のT細胞寄与の中央値が観察された。
図77A~77Dは、子癇前症および正常血圧の母体血漿DNA試料中の異なる断片末端カテゴリー、すなわち、(A)T末端、(B)C末端、(C)A末端、および(D)G末端に属するDNA分子間のT細胞寄与を示す。x軸は、正常な妊娠後期試料およびPET試料を示す。y軸は、パーセントとしてのT細胞寄与を示す。結果は、G末端断片間で、T細胞寄与が、正常血圧の妊娠後期の血漿試料と比較して、子癇前症の血漿試料中で有意に低減されたことを示した(P=0.036、ウィルコクソンの順位和検定)。実施形態において、母体血漿DNA試料中のすべてのG末端断片間のT細胞寄与に3%のカットオフを使用して、妊娠が子癇前症を発症するリスクが高いか低いかを決定し得る。
C.例示的な方法
図78は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法7800を示す。生物学的試料には、胎児および女性からの複数の無細胞DNA分子を含み得る。方法は、妊娠関連障害の尤度の分類を生成し得る。妊娠関連障害は、子癇前症または本明細書に記載の任意の妊娠関連障害であり得る。
複数の無細胞DNA分子に対応する配列リードが受け取られ得る。
ブロック7810では、複数の無細胞DNA分子のサイズが測定され得る。サイズは、アラインメントもしくはヌクレオチド数のカウント、または図21を含む本明細書に記載の任意の技術によって測定され得る。
ブロック7820では、カットオフ値よりも大きいサイズを有する無細胞DNA分子のセットが特定され得る。カットオフ値は、500nt、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt、または2kntを含む、長い無細胞DNA断片についての任意のカットオフ値であり得る。カットオフ値は、長い無細胞DNA分子について本明細書に記載の任意のカットオフ値であり得る。
ブロック7830では、第1の量を使用した末端モチーフパラメータの値が生成され得る。セット内の無細胞DNA分子の1つ以上の末端に第1の部分配列を有するセット内の無細胞DNA分子の第1の量が、測定され得る。いくつかの実施形態において、末端モチーフパラメータは、末端のすべての部分配列の総量によって正規化された第1の量であり得る。いくつかの実施形態において、末端は、3’末端であり得る。いくつかの実施形態において、末端は、5’末端であり得る。
第1の部分配列は、1、2、3、4、5、6、7、8、9、10、またはそれ以上のヌクレオチド長であり得る。第1の部分配列は、それぞれの無細胞DNA分子の末端に最後のヌクレオチドを含み得る。例えば、第1の部分配列は、図74に示されるXYNNパターンであり得る。いくつかの実施形態において、第1の部分配列は、それぞれの無細胞DNA分子の末端に最後のヌクレオチド(複数可)を含まない場合がある。例えば、第1の部分配列は、図75のNNXYパターンを含み得る。
無細胞DNA分子の1つ以上の末端に第1の部分配列とは異なる部分配列を有する無細胞DNA分子の第2の量が、測定され得る。末端モチーフパラメータの値は、第2の量および第3の量の比率を使用して生成され得る。例えば、第2の量を第3の量で割ってもよいか、または第3の量を第2の量で割ってもよい。
ブロック7840では、末端モチーフパラメータの値が、参照値と比較され得る。閾値は、妊娠関連障害がない対象についての関連パラメータの値との統計的に有意な差を表す値であり得る。閾値は、正常な妊娠をしている1人以上の参照対象、または妊娠関連障害がある1人以上の参照対象から決定され得る。
いくつかの実施形態において、末端モチーフパラメータの値は、閾値と比較され得、第2の末端モチーフパラメータの値は、第2の閾値と比較され得る。無細胞DNA分子の1つ以上の末端に第1の部分配列とは異なる第2の部分配列を有する無細胞DNA分子の第2の量が、測定され得る。したがって、異なる末端モチーフの量が決定され得る。第2の量を使用した第2の末端モチーフパラメータの値が生成され得る。第2の末端モチーフパラメータの値は、第2の閾値と比較され得る。第2の閾値は、第1の閾値と同じであっても異なっていてもよい。追加の部分配列は、第1および第2の部分配列と同じ方法で使用され得る。いくつかの実施形態において、すべての可能な部分配列が、閾値との比較に使用され得る。
ブロック7850では、妊娠関連障害の尤度の分類が、比較を使用して決定され得る。サイズパラメータの値または末端モチーフパラメータの値が閾値を超える場合、妊娠関連障害が起こり得る。
いくつかの実施形態において、妊娠関連障害の尤度の分類を決定することは、第2の末端モチーフパラメータの値と第2のカットオフ値との比較を使用し得る。第1の末端モチーフパラメータの値が第1の閾値を超え、第2の末端モチーフパラメータの値が第2の閾値を超える場合、妊娠関連障害が起こり得る。
方法は、末端モチーフパラメータに加えてサイズパラメータを使用することを含み得る。第1のサイズ範囲のサイズを有する無細胞DNA分子の第2のセットが特定され得る。第1のサイズ範囲は、カットオフ値よりも大きいサイズを含み得る。第1のサイズ範囲は、カットオフ値よりも大きくてもよいサイズを含む。第1のサイズ範囲は、550nt、600nt、650nt、700nt、750nt、800nt、850nt、900nt、950nt、1nt、1.5knt、2knt、3knt、5knt未満、またはそれ以上であってもよい。第2のセット内の無細胞DNA分子の第2の量を使用したサイズパラメータの値が生成され得る。サイズパラメータの値は、第2の閾値と比較され得る。妊娠関連障害の尤度の分類を決定することは、サイズパラメータの値と第2の閾値との比較を使用し得る。第1の閾値および第2の閾値の一方または両方を超えると、分類は、妊娠関連障害を有する可能性が高くなり得る。
サイズパラメータは、正規化パラメータであり得る。例えば、第2のサイズ範囲の無細胞DNA分子の第3の量が測定され得る。第2のサイズ範囲は、第1のカットオフ値未満のサイズを含み得る。第2のサイズ範囲は、すべてのサイズを含み得る。第2のサイズ範囲は、50~150nt、50~166nt、50~200nt、200~400ntを含み得る。第2のサイズ範囲は、本明細書に記載の短い無細胞DNA断片の任意のサイズを含み得る。第2のサイズ範囲は、第1のサイズ範囲のサイズを除外し得る。サイズパラメータの値は、第2の量および第3の量の比率を決定することによって生成され得る。例えば、第2の量を第3の量で割ってもよいか、または第3の量を第2の量で割ってもよい。
無細胞DNA分子の量のいずれも、特定の起源組織からの無細胞DNA分子であり得る。例えば、起源組織は、T細胞または本明細書に記載の別の起源組織であり得る。第2の量は、図77A~77Dで説明されるT細胞寄与に類似し得る。起源組織からの寄与は、本開示に記載されるようなメチル化状態またはパターンを使用して決定され得る。
V.反復伸長関連疾患
妊娠中の女性から取得された長い無細胞DNA断片は、遺伝子における反復の伸長を特定するために使用され得る。遺伝子における反復の伸長は、神経筋疾患をもたらし得る。タンデム反復の伸長は、脆弱X症候群、ハンチントン病、および脊髄小脳失調症などの神経変性障害を含むがこれらに限定されないヒトの疾患と関連している。これらのタンデム反復伸長は、遺伝子のタンパク質コード領域(マチャド・ジョセフ病、ホーリバー症候群、ハンチントン病)、または非コード領域(フリードリッヒ運動失調、筋強直性ジストロフィー、脆弱X症候群のいくつかの形態)で生じ得る。ミニサテライト、ペンタヌクレオチド、テトラヌクレオチド、および多数のトリヌクレオチド反復を含む伸長は、脆弱部位と関連している。これらの疾患と関連する伸長は、複製のずれ、非対称組換え、またはエピジェネティック異常によって引き起こされ得る。配列における反復の数は、部分配列が出現する合計回数を指す。例えば、「CAGCAG」には、2つの反復を含む。反復は、部分配列の少なくとも2つのインスタンスを含むため、反復の数は、1にはなり得ない。部分配列は、反復単位であると理解され得る。
実施形態において、妊娠中の女性における長い無細胞DNA分析は、反復関連疾患の検出を容易にし得る。例えば、トリヌクレオチド反復は、DNA配列における3bpモチーフの反復ストレッチを表す。一例は、配列「CAGCAGCAG」が3つの3bp「CAG」モチーフを含むことである。マイクロサテライトの伸長、典型的には、トリヌクレオチド反復伸長は、神経障害において重要な役割を果たすことが報告されている(Kovtun et al.Cell Res.2008;18:198-213、McMurray et al.Nat Rev Genet.2010;11:786-99)。一例は、ATXN3遺伝子における55を超えるCAG反復(合計165bp)が病原性であり、進行性の運動の問題を特徴とする脊髄小脳失調症3型(SCA3)疾患をもたらすことである。この状態は、常染色体優性パターンで受け継がれる。したがって、変化した遺伝子の1つのコピーは、障害を引き起こすのに十分である。マイクロサテライトの反復数を決定するために、典型的には、ポリメラーゼ連鎖反応(PCR)を使用して、目的のゲノム領域を増幅し、次いで、PCR産物をキャピラリー電気泳動(Lyon et al.J Mol Diagn.2010;12:505-11)、サザンブロット分析(Hsiao et al.J Clin Lab Anal.1999;13:188-93)、融解曲線分析(Lim et al.J Mol Diagn.2014;17:302-14)、および質量分析(Zhang et al.Anal Methods.2016;8:5039-44)などの多数の異なる技術に供する。しかしながら、これらの方法は、労働集約的で時間がかかり、出生前検査などの実際の臨床診療におけるハイスループットスクリーニングに適用することは困難であった。サンガー配列決定は、手動検査を通して複雑な配列トレースから長い反復を推測することが非常に困難である。Illumina配列決定技術およびIon Torrentは、それらの反復を有するGCリッチ(またはGCプア)領域の配列決定が非常に困難であることがよく知られており(Ashely et al.2016;17:507-22)、伸長したDNAを含むDNAの長さは、配列リードの長さを容易に超える(Loomis et al.Genome Res.2013;23:121-8)。
別の例は、DMPK遺伝子の近くにある50~4000のCTG反復の範囲のCTG反復の伸長によって引き起こされる筋強直性ジストロフィー、および常染色体優性障害でもある。DMの分子診断は、胎児ゲノムDNA上のCTG数を侵襲的に分析することによって、出生前診断で日常的に実施される。
ショートリード配列決定(数百個の塩基)とは対照的に、本開示に記載の方法は、母体血漿DNAから長いDNA分子を取得することができる(数キロベース)。本開示に記載の方法を使用して、胎児が罹患した母親からこの疾患を受け継ぐかどうかを非侵襲的に決定し得る。
図79は、リピート関連疾患についての胎児の母性遺伝を推定する図を示す。段階7905では、妊娠中の無細胞DNAを、単一分子リアルタイム(例えば、PacBio SMRT)配列決定に供した。段階7910では、配列決定された結果を、本開示に従って長いDNAカテゴリーおよび短いDNAカテゴリーに分割した。段階7915では、長いDNA分子中に存在する対立遺伝子情報は、母体ハプロタイプ、すなわち、Hap IおよびHap IIを構築するために使用され得る。Hap IおよびHap IIは各々、トリヌクレオチド部分配列(例えば、CTG)の伸長した反復を含み得る。段階7920では、図16で説明されるのと同様に、ハプロタイプの不均衡が分析され得る。段階7925では、胎児の母性遺伝が推定され得る。本明細書に記載の方法は、本開示による長いDNA分子の配列情報を使用して、ハプロタイプ(例えば、Hap IおよびHap II)を決定することだけでなく、障害を引き起こす伸長した反復(例えば、罹患したHap I)を有するハプロタイプを決定することも可能にする。本明細書に記載の方法に従って、母体Hap IおよびHap IIにわたって分布する短いDNA分子からのカウント、サイズ、またはメチル化状態を使用して、胎児がこの例において母体Hap I(罹患)またはHap II(非罹患)を受け継ぐかどうかを決定し得る。
図80は、リピート関連疾患についての胎児の父性遺伝を推定する図を示す。妊娠中の無細胞DNAを使用して、胎児が罹患した父性ハプロタイプを受け継ぐかどうかを決定し得る。図80に示されるように、夫が反復伸長病に罹患している(例えば、70個のCTG反復)、罹患していない女性の妊娠中の無細胞DNA(例えば、Hap Iについては5つのCTG反復、およびHap IIについては6つのCTG反復)を、PacBio SMRT配列決定に供し、配列決定された長いDNA分子を特定し、ハプロタイプおよび反復数を決定するために使用した。CTG反復の長いストレッチ(例えば、この例では70個のCTG反復)を有するハプロタイプが、罹患していない妊娠中の女性の母体血漿中に存在する場合、胎児が罹患した父性ハプロタイプを受け継いだことを示唆する。いくつかの実施形態において、伸長した反復を含有するDNAはまた、母体ゲノムには存在しない1つ以上の別の父性特異的対立遺伝子を担持する。この状況は、父性遺伝を確認するのに有用である。
別の実施形態において、妊娠中の無細胞DNAを使用して、胎児が罹患した父性ハプロタイプを受け継ぐかどうかを決定し得る。図80に示されるように、夫が反復伸長病に罹患している(例えば、70個のCTG反復)、罹患していない女性の妊娠中の無細胞DNA(例えば、Hap Iについては5つのCTG反復、およびHap IIについては6つのCTG反復)を、PacBio SMRT配列決定に供し、配列決定された長いDNA分子を特定し、ハプロタイプおよび反復数を決定するために使用した。CTG反復の長いストレッチ(例えば、この例では70個のCTG反復)を有するハプロタイプが、罹患していない妊娠中の女性の母体血漿中に存在する場合、胎児が罹患した父性ハプロタイプを受け継いだことを示唆する。いくつかの実施形態において、伸長した反復を含有するDNAはまた、母体ゲノムには存在しない1つ以上の別の父性特異的対立遺伝子を担持する。この状況は、父性遺伝を確認するのに有用である。
図81、82、および83は、反復伸長病の例を示す表である。1列目は、反復伸長関連疾患を示す。2列目は、反復部分配列を示す。3列目は、正常な対象における反復数を示す。4列目は、罹患した対象における反復数を示す。5列目は、反復に関連する遺伝的位置を示す。6列目は、遺伝子名を列挙する。7列目は、遺伝のパターンを列挙する。表は、omicslab.genetics.ac.cn/dred/index.phpから得られる。
A.反復伸長検出の例
父性遺伝の伸長したCAG反復は、PCRによる直接アプローチ、および後続の3130XL Genetic Analyzer上での断片分析を使用して、母体血漿中で検出され得ることが報告された(Oever et al.Prenat Diagn.2015;35:945-9)。伸長した対立遺伝子のサイズが、35トリヌクレオチド超の反復[すなわち、反復に及ぶ長さが105bp(35×3)以上のDNA領域]からのみ始まるため、ハンチントンの非侵襲的出生前検査は、PCRによって達成可能であった。多くの伸長した反復、特にほとんどのトリヌクレオチド反復障害(Orr et al.Annu.Rev.Neurosci.2007;30:575-621)は、短い胎児DNA分子のサイズを超える長さが300bp以上の反復を伴いまい、これは、以前の報告で文書化されている。大きい伸長した反復を有するDNAは、PCRを困難にする(Orr et al.Annu.Rev.Neurosci.2007;30:575-621)。Oever et al.の研究によって示唆されるように、長いCAG反復のシグナル強度は、より小さい反復のシグナルと比較してはるかに低いことが多く、この現象は、ゲノムDNAおよび血漿DNAの両方で観察され、それらの長いCAG反復を検出するための感度をより低くする(Oever et al.Prenat Diagn.2015;35:945-9)。PCRのもう1つの制限は、増幅中にメチル化シグナルを保存することができないことである。一実施形態において、長いDNA分子の単一分子リアルタイム配列決定は、1つ以上の領域にわたるタンデム反復多型およびそれらに関連するメチル化レベルの決定を可能にする。
図84は、胎児における反復伸長検出および反復関連メチル化決定の例を示す表である。1列目は、塩基対の数で反復のタイプを示す。2列目は、反復単位を示す。3列目は、ゲノム位置を示す。4列目は、参照塩基、ヒト参照ゲノムに存在する配列を示す。5列目は、父性遺伝子型を示す。6列目は、母体遺伝子型を示す。7列目は、胎児遺伝子型を示す。8列目は、父性対立遺伝子に関連した胎児DNAメチル化レベルを示す。9列目は、母体対立遺伝子に関連した胎児DNAメチル化レベルを示す。
図84は、1bp、2bp、3bp、および4bpのタンデム反復の多数の例を示す。例えば、chr3:192384705-192384706のゲノム位置では、「GATA」タンデム反復が特定された。この遺伝子座での父親の遺伝子型は、T(GATA)/T(GATA)であり、対立遺伝子1は、3つの反復単位を有し、対立遺伝子2は、5つの反復単位を有した。参照対立遺伝子T(GATA)と比較して、父性対立遺伝子2は、反復伸長を伴う遺伝的事象を示唆した。この遺伝子座での母親の遺伝子型は、T/Tであり、反復収縮を伴う遺伝的事象を示している。この遺伝子座での胎児の遺伝子型は、T(GATA)/Tであり、胎児が父性対立遺伝子2(すなわち、T(GATA))および母体対立遺伝子Tを受け継いだことを示唆している。父性対立遺伝子および母体対立遺伝子と関連するメチル化レベルは、それぞれ50.98および62.8であった。これらの結果は、タンデム反復多型の使用が胎児の母性および父性遺伝の決定を可能にすることを示唆した。この技術により、2つの対立遺伝子と関連する異なるメチル化パターンの特定が可能になる。別の例は、chr4:73237157-73237158のゲノム位置で、胎児が母親から反復伸長[(TAAA)]を受け継いだことを示す。母親から受け継いだ反復伸長を含有する胎児分子は、父性対立遺伝子を含有する胎児分子(62.84%)と比較して、より高いメチル化レベル(95.65%)を示した。これらのデータは、反復、反復構造、および関連するメチル化の変化を検出し得ることを示唆した。一実施形態において、母性遺伝と父性遺伝との間のメチル化の差が有意であったかどうかを決定するために、特定のカットオフを使用し得る。カットオフは、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、または90%よりも大きいものなどであるがこれらに限定されない、メチル化レベルの絶対差である。母性遺伝の決定は、図21の方法2100で説明される方法と同様であり得る。
B.例示的な方法
部分配列反復を使用して、胎児の情報を決定し得る。例えば、部分配列反復の存在を使用して、分子が胎児起源であることを決定し得る。さらに、部分配列の反復は、遺伝性障害の尤度を示し得る。部分配列反復を使用して、母体および/または父性ハプロタイプの遺伝を決定することができる。さらに、胎児の父子関係は、部分配列反復を使用して決定され得る。
1.部分配列反復を使用した胎児起源分析
図85は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法8500を示し、生物学的試料は、胎児および女性からの無細胞DNA分子を含む。胎児における遺伝性障害の尤度が決定され得る。
ブロック8510では、無細胞DNA分子の1つの無細胞DNA分子に対応する第1の配列リードが受け取られ得る。無細胞DNA分子は、カットオフ値よりも大きい長さを有し得る。カットオフ値は、200nt以上であり得る。カットオフ値は、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt、または2kntを含み、少なくとも500ntであり得る。カットオフ値は、長い無細胞DNA分子について本明細書に記載の任意のカットオフ値であり得る。
ステップ8520では、第1のリードは、参照ゲノムの領域にアラインメントされ得る。領域は、部分配列の反復を含む可能性があることが知られ得る。領域は、図81~83の位置または遺伝子のいずれかに対応し得る。部分配列は、本明細書に記載のいずれかを含むトリヌクレオチド配列であり得る。
ブロック8530では、無細胞DNA分子に対応する第1の配列リードにおける部分配列の反復数が特定され得る。
ブロック8540では、部分配列の反復数が、閾値数と比較され得る。閾値数は、55、60、75、100、150、またはそれ以上であり得る。閾値数は、異なる遺伝性障害について異なり得る。例えば、閾値は、罹患した対象における最小反復数、正常な対象における最大反復数、またはこれらの2つの数の間の数を反映し得る(図81~83を参照)。
ブロック8550では、胎児が遺伝性障害を有する尤度の分類が、反復数と閾値数との比較を使用して決定され得る。反復数が閾値を超える場合、胎児が遺伝性障害を有する可能性が高いと決定され得る。遺伝性障害は、脆弱X症候群または図81~83に列挙される任意の障害であり得る。
いくつかの実施形態において、方法は、各々が部分配列の反復を有する可能性があることが知られている、いくつかの異なる標的遺伝子座について分類を繰り返すことを含み得る。無細胞DNA分子に対応する複数の配列リードが受け取られ得る。複数の配列リードは、参照ゲノムの複数の領域にアラインメントされ得る。複数の領域は、部分配列の反復を含む可能性があることが知られ得る。複数の領域は、重複していない領域であり得る。複数の領域の各領域は、異なるSNPを有し得る。複数の領域は、異なる染色体腕または染色体に由来し得る。複数の領域は、参照ゲノムの少なくとも0.01%、0.1%、または1%をカバーし得る。部分配列の反復数は、複数の配列リードにおいて特定され得る。部分配列の反復数は、複数の閾値数と比較され得る。各閾値は、異なる遺伝性障害の存在または尤度を示し得る。複数の遺伝性障害の各々について、胎児がそれぞれの遺伝性障害を有する尤度の分類が、複数の閾値数の1つの閾値数との比較を使用して決定され得る。
無細胞DNA分子は、胎児起源であると決定され得る。胎児起源の決定は、バフィーコートまたは妊娠前の女性の試料から取得された母体起源の無細胞DNA分子に対応する第2の配列リードを受け取ることを含み得る。第2の配列リードは、参照ゲノムの領域にアラインメントされ得る。部分配列の第2の反復数は、第2の配列リードにおいて特定され得る。第2の反復数は、第1の反復数よりも少ないと決定され得る。
胎児起源の決定は、無細胞DNA分子のメチル化および非メチル化部位を使用して、無細胞DNA分子のメチル化レベルを決定することを含み得る。メチル化レベルは、参照レベルと比較され得る。方法は、メチル化レベルが参照レベルを超えると決定することを含み得る。メチル化レベルは、メチル化されている部位の数または割合であり得る。
胎児起源の決定は、無細胞分子の複数の部位のメチル化パターンを決定することを含み得る。類似性スコアは、メチル化パターンを母体または胎児組織からの参照パターンと比較することによって決定され得る。類似性スコアは、1つ以上の閾値と比較され得る。類似性スコアは、例えば、方法4000で説明されるものを含む本明細書に記載の任意の類似性スコアであり得る。
2.部分配列反復を使用した父子関係分析
図86は、胎児を妊娠中の女性から取得された生物学的試料を分析する方法8600を示し、生物学的試料は、胎児および女性からの無細胞DNA分子を含む。生物学的試料を分析して、胎児の父親を決定し得る。
ブロック8610では、無細胞DNA分子の1つの無細胞DNA分子に対応する第1の配列リードが受け取られ得る。方法は、無細胞DNA分子が胎児起源であると決定することを含み得る。無細胞DNA分子は、例えば、方法8500で説明されるものを含む本明細書に記載の任意の方法によって、胎児起源であると決定され得る。無細胞DNA分子は、カットオフ値よりも大きいサイズを有し得る。カットオフ値は、200nt以上であり得る。カットオフ値は、600nt、700nt、800nt、900nt、1knt、1.1knt、1.2knt、1.3knt、1.4knt、1.5knt、1.6knt、1.7knt、1.8knt、1.9knt、または2kntを含み、少なくとも500ntであり得る。カットオフ値は、長い無細胞DNA分子について本明細書に記載の任意のカットオフ値であり得る。
ブロック8620では、第1のリードは、参照ゲノムの第1の領域にアラインメントされ得る。第1の領域は、部分配列の反復を有することが知られ得る。
ブロック8630では、無細胞DNA分子に対応する第1の配列リードにおける第1の部分配列の第1の反復数が特定され得る。第1の部分配列は、対立遺伝子を含み得る。
ブロック8640では、男性対象から取得された配列データを分析して、第1の部分配列の第2の反復数が第1の領域内に存在するかどうかを決定し得る。第2の反復数は、第1の部分配列の少なくとも2つのインスタンスを含む。配列データは、男性対象から生物学的試料を抽出し、生物学的試料中のDNAに対して配列決定を実施することによって取得され得る。
ブロック8650では、男性対象が胎児の父親である尤度の分類が、第1の部分配列の第2の反復数が存在するかどうかの決定を使用して決定され得る。分類は、第1の部分配列の第2の反復数が存在すると決定された場合、男性対象が父親である可能性が高いということであり得る。分類は、第1の部分配列の第2の反復数が存在しないと決定された場合、男性対象が父親ではない可能性が高いということであり得る。
方法は、第1の反復数を第2の反復数と比較することを含み得る。男性対象が父親である尤度の分類を決定することは、第1の反復数と第2の反復数との比較を使用することを含み得る。分類は、第1の反復数が第2の反復数の閾値内にある場合、男性対象が父親である可能性が高いということであり得る。閾値は、第2の反復数の10%、20%、30%、または40%以内であり得る。
方法は、反復の複数の領域を使用することを含み得る。例えば、無細胞DNA分子は、第1の無細胞DNA分子である。方法は、無細胞DNA分子の第2の無細胞DNA分子に対応する第2の配列リードを受け取ることを含み得る。方法はまた、第2の配列リードを参照ゲノムの第2の領域にアラインメントすることを含み得る。方法は、第2の無細胞DNA分子に対応する第2の配列リードにおける第2の部分配列の第1の反復数を特定することをさらに含み得る。方法は、男性対象から取得された配列データを分析して、第2の部分配列の第2の反復数が第2の領域内に存在するかどうかを決定することを含み得る。男性対象が胎児の父親である尤度の分類を決定することは、第2の部分配列の第2の反復数が第2の領域内に存在するかどうかの決定を使用することをさらに含み得る。尤度の分類は、反復が男性対象の配列データにおける第1領域および第2領域の両方に存在する場合、男性対象が胎児の父親であるより高い尤度であり得る。
VI.長い血漿DNA分子を濃縮するためのサイズ選択
実施形態において、分析(例えば、単一分子リアルタイム配列決定)の前に、1つ以上の所望のサイズ範囲を有するDNA分子を物理的に選択することができる。一例として、サイズ選択は、固相可逆的固定化技術を使用して実施され得る。他の実施形態において、サイズ選択は、電気泳動を使用して(例えば、Coastal GenomicシステムまたはPippinサイズ選択システムを使用して)実施され得る。我々のアプローチは、胎児DNAが母体DNAよりも短いことが当技術分野で知られているため(Chan et al.Clin Chem 2004;50:88-92)、より短いDNAに主に焦点を当てた以前の研究(Li et al.JAMA 2005;293:843-9)とは異なる。
サイズ選択技術は、本明細書に記載の方法のいずれかおよび本明細書に記載の任意のサイズに適用され得る。例えば、無細胞DNA分子は、電気泳動、磁気ビーズ、ハイブリダイゼーション、免疫沈降、増幅、またはCRISPRによって濃縮され得る。得られた濃縮試料は、濃縮前の生物学的試料よりも高い濃度または高い割合の特定のサイズの断片を有し得る。
A.電気泳動によるサイズ選択
実施形態において、DNAサイズに応じてDNAの電気泳動移動度を利用して、ゲル電気泳動ベースのアプローチを使用して、例えば、100bp以上、200bp以上、300bp以上、400bp以上、500bp以上、600bp以上、700bp以上、800bp以上、900bp以上、1kb以上、2kb以上、3kb以上、4kb以上、5kb以上、6以上kb、7kb以上、8kb以上、9kb以上、10kb以上、20kb以上、30kb以上、40kb以上、50kb以上、60kb以上、70kb以上、80kb以上、90kb以上、100kb以上、200kb以上、または本明細書に記載の任意のカットオフよりも大きいものを含むその他であるが、これらに限定されない、望ましいサイズ範囲を有する標的DNA分子を選択し得る。例えば、DNAサイズ選択用の自動ゲル電気泳動システムであるLightBench(Coastal Genomics)を使用した。原則として、ゲル電気泳動中、より短いDNAがより長いDNAよりも速く移動する。このサイズ選択技術を1つの血漿DNA試料(M13190)に適用し、500bpよりも大きいDNA分子を選択することを目標とした。「In-Channel-Filter」(ICF)収集デバイスを有する3%サイズ選択カセット、およびサイズ選択用の内部サイズマーカーを有するローディング緩衝液を使用した。DNAライブラリをゲルに装填し、電気泳動を開始した。目標サイズに達すると、500bp未満の第1の画分をICFから回収した。実行を再開し、電気泳動を完了させて、500bp以上の第2の画分を取得した。単一分子リアルタイム配列決定(PacBio)を使用して、分子サイズが500bp以上の第2の画分を配列決定した。1,434個の高品質の円形コンセンサス配列(CCS)(すなわち、1,434個の分子)を取得した。それらの間で、配列決定された分子の97.9%は、500bpよりも大きかった。500bpよりも大きいDNA分子のそのような割合は、サイズ選択なしの対応物(10.6%)よりもはるかに高かった。これらの分子の全体的なメチル化は、75.5%であると決定された。
図87は、(I)分子Iおよび(II)分子IIにおけるサイズ選択後の2つの代表的な血漿DNA分子についてのメチル化パターンを示す。分子I(chr21:40,881,731-40,882,812)は、1.1kbの長さであり、25個のCpG部位を有した。分子Iの単一分子のメチル化レベル(すなわち、メチル化部位の数を部位の総数で割ったもの)は、我々の以前の開示(米国出願第16/995,607号)に記載されたアプローチを使用して72.0%であると決定された。分子II(chr12:63,108,065-63,111,674)は、3.6kbの長さであり、34個のCpG部位を有した。分子IIの単一分子のメチル化レベルは、94.1%であると決定された。サイズ選択ベースのメチル化分析により、長いDNA分子のメチル化を効率的に分析し、2つ以上の分子間のメチル化状態を比較することが可能になったことが示唆された。
B.ビーズによるサイズ選択
固相可逆的固定化技術は、常磁性ビーズを使用して、DNA分子サイズに応じて核酸に選択的に結合した。そのようなビーズには、ポリスチレンコア、マグネタイト、およびカルボキシレート修飾ポリマーコーティングが含まれる。DNA分子は、反応中のポリエチレングリコール(PEG)および塩の濃度に応じて、PEGおよび塩の存在下でビーズに選択的に結合する。PEGにより、負に帯電したDNAがビーズ表面上のカルボキシル基と結合し、これは、磁場の存在下で収集される。所望のサイズを有する分子を、溶出緩衝液、例えば、10mM Tris-HCl、pH8緩衝液、または水を使用して磁気ビーズから溶出した。PEG対DNAの体積比は、取得し得るDNA分子のサイズを決定する。PEG:DNAの比率が低いほど、ビーズ上に保持される長い分子は多くなる。
1.試料処理
2人の妊娠後期の妊娠中の女性からの末梢血試料をEDTA血液チューブに採取した。末梢血試料を採取し、1,600×gで4℃において10分間遠心分離した。血漿部分をさらに16,000×gで4℃において10分間遠心分離して、残留細胞および破片を除去した。バフィーコート部分を5,000×gで室温において5分間遠心分離して、残留血漿を除去した。分娩直後に胎盤組織を採取した。血漿DNA抽出を、QIAamp Circulating Nucleic Acid Kit(Qiagen)を使用して実施した。バフィーコートおよび胎盤組織DNA抽出を、QIAamp DNA Mini Kit(Qiagen)を使用して実施した。
2.血漿DNAサイズ選択
抽出後の血漿DNA試料を2つのアリコートに分割した。各患者からの1つのアリコートを、AMPure XP SPRIビーズ(Beckman Coulter,Inc.)を用いたサイズ選択に供した。抽出された各血漿DNA試料50μLを、25μLのAMPureXP溶液と完全に混合し、室温で5分間インキュベートした。ビーズを、磁石を用いて溶液から分離し、180μLの80%エタノールで洗浄した。次いで、ビーズを50μLの水に再懸濁し、1分間ボルテックスして、サイズ選択されたDNAをビーズから溶出した。続いてビーズを除去して、サイズ選択されたDNA溶液を取得した。
3.一塩基多型の特定
胎児および母体ゲノムDNA試料の遺伝子型を、iScan System(Illumina)を用いて決定した。一塩基多型(SNP)と呼んだ。胎盤の遺伝子型を母親の遺伝子型と比較して、胎児特異的対立遺伝子および母体特異的対立遺伝子を特定した。胎児特異的対立遺伝子を、胎児ゲノムには存在するが母体ゲノムには存在しなかった対立遺伝子として定義した。一実施形態において、それらの胎児特異的対立遺伝子は、母親がホモ接合性であり、胎児がヘテロ接合性であったそれらのSNP部位を分析することによって決定され得る。母体特異的対立遺伝子を、母体ゲノムには存在するが胎児ゲノムには存在しなかった対立遺伝子によって定義した。一実施形態において、それらの胎児特異的対立遺伝子は、母親がヘテロ接合性であり、胎児がホモ接合性であったそれらのSNP部位を分析することによって決定され得る。
4.単一分子リアルタイム配列決定
2つのサイズ選択された試料を、それらの対応する選択されていない試料とともに、SMRTbell Template Prep Kit 1.0-SPv3(Pacific Biosciences)を使用して単一分子リアルタイム(SMRT)配列決定鋳型構築に供した。DNAを1.8×AMPure PBビーズで精製し、TapeStation機器(Agilent)を使用してライブラリサイズを推定した。配列決定プライマーのアニーリングおよびポリメラーゼ結合の条件を、SMRT Link v5.1.0ソフトウェア(Pacific Biosciences)を使用して計算した。簡単に、配列決定プライマーv3を配列決定鋳型にアニーリングし、次いでSequel Binding and Internal Control Kit 2.1(Pacific Biosciences)を使用して、ポリメラーゼを鋳型に結合させた。配列決定を、Sequel SMRT Cell 1M v2上で実施した。配列決定の動画を、Sequel Sequencing Kit 2.1(Pacific Biosciences)を用いて、Sequelシステム上で20時間収集した。
5.サイズ分析
図88は、サイズ選択ありおよびなしの試料についての配列決定情報の表である。1列目は、試料識別子である。2列目は、サイズ選択ありおよびなしの試料の群を列挙する。3列目は、配列決定された分子の数を列挙する。4列目は、平均サブリード深度を列挙する。5列目は、断片サイズの中央値を列挙する。6列目は、500bp以上の断片の割合を示す。
ビーズベースのサイズ選択ありおよびなしの2つの試料(299および300)を分析した。図88に示されるように、単一分子リアルタイム配列決定(例えば、PacBio SMRT配列決定)を使用して、サイズ選択なしの試料299および300について、それぞれ250万個および310万個の配列決定された分子を取得した。平均サブリード深度は、91倍および67倍であった。断片サイズの中央値は、176および512bpであった。
500bp以上のDNA断片を選択することを目標とした固相可逆的固定化ベースのサイズ選択を用いた対の試料(B299およびB300)について、平均サブリード深度が18倍および19倍の、それぞれ410万個および200万個の配列決定された分子を取得した。断片サイズの中央値は、試料B299およびB300について、それぞれ2.5kbおよび2.2kbであることがわかった。平均断片サイズは、サイズ選択なしの場合の対応する試料よりも4~14倍長かった。サイズ選択後の500bp以上の断片の割合は、試料B299について27.3%から97.6%に、および試料B300について50.5%から97.4%に増加した。
図89Aおよび89Bは、ビーズベースのサイズ選択ありおよびなしの妊娠中の女性からのDNA試料についてのサイズ分布を示す。図89Aは、試料299を示し、図89Bは、試料300を示す。x軸は、断片のサイズを示す。y軸は、各断片サイズについての頻度を対数スケールで示す。ビーズベースのサイズ選択後、DNA試料中の1kbを超える長いDNA分子にわたってより高い頻度が存在した。これらのデータは、ビーズベースのサイズ選択が、下流分析のためにより多くの長いDNA分子を濃縮し得ることを示唆した。そのような濃縮は、配列決定実行ごとに配列決定される長いDNA分子の数を最大化することによって、分析をより費用効果が高いものにする。メチル化パターンマッチング分析のための各血漿DNA分子のより多くのアクセス可能なCpG部位があるため、長いDNA分子のそのような濃縮は、各DNA分子についての起源組織を分析する場合の有益性も改善する。一実施形態において、メチル化分析は、米国特許出願第16/995,607号に記載の方法を使用して実施され得る。ヌクレオソームパターンは、サイズ選択ありの試料中で保存され、サイズ選択された血漿DNA分子がヌクレオソーム構造の研究に適していることを示唆している。
試料299について、マイクロアレイ技術(Infinium Omni2.5)を使用して、母体バフィーコートDNAおよび胎盤DNAについての遺伝子型情報を取得した。配列決定された血漿DNA分子を、遺伝子型情報に従って母体特異的DNA分子および胎児特異的DNA分子に区別した。
図90Aおよび90Bは、胎児特異的DNA分子と母体特異的DNA分子との間のサイズ分布を示す。サイズは、x軸上に示される。図90A中、頻度は、y軸上に示される。図90B中、累積頻度は、y軸上に示される。図90A中、胎児DNAサイズ分布は、母体DNAサイズ分布と比較して、比較的より小さい分子においてより高い頻度を示した。図90B中、胎児DNA分子のそのようなサイズ短縮は、累積頻度プロットに示され、すなわち、胎児DNA累積サイズ分布は、母体の左側に位置した。
C.サイズ選択ありの血漿DNAの有益性の強化。
実施形態において、有益なSNPは、胎児または母体ゲノムに特異的な対立遺伝子を含有するそれらのSNPによって定義され得る。それらのSNPは、胎児DNA分子と母体DNA分子とを区別するための手段を提供した。419,539個の有益なSNPを特定した。他の実施形態において、有益なSNPは、母体ゲノム中でヘテロ接合であったそれらのSNPによって定義され得る。他の実施形態において、有益なSNPは、ヘテロ接合性であり、ハプロタイプの形態で一緒に群化された母体ゲノム中のそれらのSNPによって定義され得る。
図91は、サイズ選択ありおよびなしの試料間の有益なSNPを担持する血漿DNA分子の数についての統計表である。1列目は、試料識別および群を示す。2列目は、分析される血漿DNA分子の総数を示す。3列目は、有益なSNPを担持する血漿DNA分子の数を示す。4列目は、有益なSNPを担持する血漿DNA分子のパーセンテージを示す。
図91に示されるように、サイズ選択なしの試料中で有益なSNPを担持する血漿DNA分子が、わずか6.5%であったのに対して、有益なSNPを担持する血漿DNA分子の割合は、20.6%まで増加した。したがって、サイズ選択を利用することは、本開示に存在する有用性に好適な長いDNA分子の収率を大幅に改善する。サイズ選択なしの試料299中で500bpを超える260個の胎児DNA分子を同定したのに対して、サイズ選択ありの試料B299中では、500bpを超える918個の胎児DNA分子を同定した。配列決定スループットを正規化することによって、これらのデータは、ビーズベースのサイズ選択を利用することによって、500bpを超える胎児特異的DNA分子の取得において約3倍の濃縮があったことを示唆した。サイズ選択を通して、分析用の長い胎児DNA分子の数を有意に増加させる。
D.メチル化
図92は、サイズ選択された、およびサイズ選択されていない血漿DNA試料中のメチル化レベルの表である。1列目は、試料識別を示す。2列は、群を示す。3列目は、メチル化CpG部位の数を示す。4列目は、非メチル化CpG部位の数を示す。5列目は、メチル化部位の数および部位の総数に基づくメチル化レベルを示す。図92に示されるように、全体的なメチル化レベルは、対応する選択されていない試料と比較して、サイズ選択された試料中でより高いことが示された(すべてのCpG部位中の試料299およびB299について71.5%対69.1%、試料300およびB300について71.4%対69.3%)。
図93は、母体または胎児特異的無細胞DNA分子のメチル化レベルの表である。1列目は、試料識別を示す。2列は、群を示す。3列目は、メチル化CpG部位の数を示す。4列目は、非メチル化CpG部位の数を示す。5列目は、メチル化部位の数および部位の総数に基づくメチル化レベルを示す。
図93に示されるように、メチル化レベルの増加が、サイズ選択なしの試料と比較して、サイズ選択ありの試料中で、胎児特異的血漿DNA分子および母体特異的血漿DNA分子の両方においても観察された。これらの胎児特異的断片は、サイズ選択された試料およびサイズ選択されていない試料の両方において、血漿中の母体特異的DNA分子と比較して低メチル化される傾向がある。
E.末端モチーフ
図94は、サイズ選択ありおよびなしの試料中の上位10個の末端モチーフの表である。1列目は、ランクを示す。2列目~5列目は、サイズ選択なしの試料についてである。6列目~9列目は、サイズ選択ありの試料についてである。2行目は、試料識別を列挙する。2列目、4列目、6列目、および8列目は、末端モチーフを列挙する。3列目、5列目、7列目、および9列目は、末端モチーフの頻度を列挙する。
図94に示されるように、サイズ選択がない場合、単一分子リアルタイム配列決定によって配列決定された血漿DNA分子は、優先的にCで始まる末端モチーフを提示し、ヌクレアーゼDNASE1L3の切断シグネチャーを示唆している(Han et al.,Am J Hum Genet 2020;106:202-214)。対照的に、サイズ選択ありのそれらの試料について、単一分子リアルタイム配列決定によって配列決定された血漿DNAは、主にAまたはGで始まる末端モチーフを担持し、ヌクレアーゼDFFBの切断シグネチャーを示唆している(Han et al.Am J Hum Genet 2020;106:202-214)。これらのデータは、サイズ選択により、無細胞DNAの断片化における異なる酵素プロセスに由来する血漿DNA分子を選択的に濃縮することが可能になることを示唆した。そのような選択的標的化は、1つ以上のヌクレアーゼの異常なレベルと関連する障害の分析、検出、または監視に有用である。一実施形態において、血漿DNAのサイズ選択は、DFFB活性またはDFFB媒介性DNA分解速度を監視するための性能を強化する。
いくつかの実施形態において、長い血漿DNAを濃縮するビーズに結合したDNA、および短い血漿DNAを濃縮する上清中に保持されたDNAを配列決定した。長いDNAは、ハプロタイプ情報を構築するのに有用である。短い血漿DNAは、DNASE1L3活性を監視するのに有用である。実施形態において、長いDNA分子および短いDNA分子の相乗的な組み合わせ分析を実施する。例えば、短いDNA血漿DNAを母体ハプロタイプ(すなわち、Hap IおよびHap II)にアラインメントすると、より短いDNA、および/または、より多くの低メチル化、および/または比較的より高い投与量を示す1つの母体ハプロタイプが、他のハプロタイプと比較して胎児によって受け継がれる可能性が高い。
いくつかの実施形態において、サイズ選択は、PippinHT DNA Size selection、BluePippin DNA Size Selection、Pippin Prep DNA Size Selection System、SageELF Whole Sample Fractionation System、Pippin Pulse Electrophoresis、SageHLS HMW Library Systemなどのゲル電気泳動ベースの技術に基づき得るが、これらに限定されない。
F.長い血漿DNA分子は、起源組織分析の性能を強化する。
図95は、長い血漿DNA分子が起源組織分析の性能を増強することを示す受信者動作特性(ROC)グラフである。y軸は、感度を示す。x軸は、特異度を示す。異なる線は、異なるサイズの断片についての結果を示す。曲線下面積(AUC)が最も高い赤色の線は、3,000bpよりも大きい断片についてである。
図95に示されるように、妊娠中の女性の血漿中の胎児DNA分子と母体DNA分子とを区別する場合、本開示の実施形態による長い血漿DNA分子(例えば3000bp超)に基づく性能(AUC:0.94)は、100~200bp(AUC:0.66)および200~500bp(AUC:0.67)などの比較的短いDNA分子に基づく分析よりもはるかに高かった。これらのデータは、長い血漿DNAを使用すると、胎児DNA分子と母体DNA分子とを区別する際の精度が大幅に強化され、したがって非侵襲的方法で胎児の遺伝を決定する際の性能が高まることを示唆した。
VII.母体血漿DNAの長いDNA分析のためのナノポア配列決定
単一分子リアルタイム配列決定技術を使用することに加えて、ナノポア配列決定を使用して、母体血漿からの長い無細胞DNA断片を配列決定し得る。メチル化およびSNP情報は、長い無細胞DNA断片のナノポア配列決定の精度を改善し得る。
図96は、妊娠中の女性から取得された血漿DNAのナノポア配列決定についての原理を示し、単一のDNA分子がナノメートルサイズの孔を通過する際の膜にわたるイオン電流の変化から核酸の配列が推測される。そのような孔は、例えば、タンパク質(例えば、アルファ溶血素、エロリジン、およびMycobacterium smegmatisポリンA(MspA))、またはシリコンもしくはグラフェンなどの合成材料によって作られ得るが、これらに限定されない(Magi et al,Brief Bioinform.2018;19:1256-1272)。実施形態において、二本鎖血漿DNA分子は、末端修復プロセスに供される。そのようなプロセスは、血漿DNAを平滑末端DNAに変換し、続いて、Aテールを付加する。図96に示されるように、各々がモータータンパク質を担持する配列アダプター(すなわち、モーターアダプター)は、血漿DNA分子のいずれかの末端に連結される。配列決定のプロセスは、モータータンパク質が二本鎖DNAをほどくと開始し、第1の鎖がナノポアを通過することを可能にする。DNA鎖がナノポアを通過するとき、センサーは、配列コンテキストおよび関連する塩基修飾(1Dリードと呼ばれる)に応じて、経時的なイオン電流の変化(pA)を測定する。他の実施形態において、ヘアピン配列アダプターが、第1の鎖および相補鎖を一緒に共有結合的に連結するために使用される。配列決定中に、二本鎖DNA分子の鎖が配列決定され、続いて相補鎖(1Dまたは2Dリードと呼ばれる)が配列決定され、これにより、配列決定の精度が改善する可能性があり得る。生の電流信号は、塩基呼び出しおよび塩基修飾分析に使用される。他の実施形態において、塩基呼び出しおよび塩基修飾分析は、例えば、リカレントニューラルネットワーク(RNN)または隠れマルコフモデル(HMM)であるがこれらに限定されない機械学習アプローチによって実行される。本開示において、ナノポア配列決定を使用して、分子カウント、塩基組成、分子サイズ、末端モチーフ、および塩基修飾を含むがこれらに限定されない、血漿DNA分子の特性を特徴付けるための方法を提示した。
例示目的で、ナノポア配列決定(Oxford Nanopore Technologies)を使用して、38週の在胎期間の妊娠中の女性の3つの母体血漿DNA試料(M12970、M12985、およびM12969)を配列決定した。4mLの母体血漿から抽出された血漿DNAを、Ligation Sequencing Kit(Oxford Nanopore)を使用してライブラリ調製に供した。簡潔に、DNAをFFPE Repair Mix(NEB)で修復し、次いで、NEBNext End Prepモジュール(NEB)で末端修復およびAテール化した。次いで、アダプターミックスを修復されたDNAに添加し、平滑/TAマスターミックスで連結した。AMPure XPビーズ(Beckman)で浄化した後、アダプターが連結されたライブラリを配列決定緩衝液およびローディングビーズと混合し、PromethION R9フローセル上に装填した。フローセルを、PromethIONベータデバイス(Oxford Nanopore)上で64時間配列決定した。
A.アラインメント
配列決定されたリードを、Minimap2(Li H,Bioinformatics.2018;34(18):3094-3100)を使用してヒト参照ゲノム(hg19)にアラインメントした。いくつかの実施形態において、BLASR(Mark J Chaisson et al,BMC Bioinformatics.2012;13:238)、BLAST(Altschul SF et al,J Mol Biol.1990;215(3):403-410)、BLAT(Kent WJ,Genome Res.2002;12(4):656-664)、BWA(Li H et al,Bioinformatics.2010;26(5):589-595)、NGMLR(Sedlazeck FJ et al,Nat Methods.2018;15(6):461-468)、およびLAST(Kielbasa SM et al,Genome Res.2011;21(3):487-493)が、配列決定されたリードを参照ゲノムにアラインメントするために使用され得る。試料M12970、M12985、およびM12969について、それぞれ1,131万個、1,230万個、および2,128万個の配列決定された分子を取得した。その間で、マッピングされた断片の数は、それぞれ367万個、263万個、および433万個であった。
B.サイズおよびメチル化
ナノポア配列決定によって決定された血漿DNA分子のヌクレオチド数を、そのDNA分子のサイズを推定するために使用した。DNA分子の電流信号は、塩基修飾を決定するために使用され得る。実施形態において、各CpG部位についてのメチル化状態を、オープンソースソフトウェアNanopolish(Simpson et al,Nat Methods.2017;14:407-410)によって決定した。別の実施形態において、メチル化状態は、DeepMod(Liu et al,Nat Commun.2019;10:2449)、Tomo(Stoiber et al,BioRxiv.2017:p.094672)、DeepSignal(Ni et al,Bioinformatics.2019;35:4586-4595)、Guppy(github.com/nanoporetech)、Megalodon(github.com/nanoporetech/megalodon)などを含むがこれらに限定されない、他のソフトウェアを使用することによって決定され得る。
図97は、特定のサイズ範囲内の血漿のパーセンテージおよびそれらの対応するメチル化レベルの表である。3つの試料:M12970、M12985、およびM12969が示される。1列目は、断片サイズを示す。2列目は、その断片サイズの断片の数を示す。3列目は、断片サイズの頻度を示す。4列目は、断片サイズのメチル化CpG部位の数を示す。5列目は、断片サイズの非メチル化CpG部位の数を示す。6列目は、メチル化レベルをパーセンテージとして示す。
図97に示されるように、500bp以上のサイズを有するDNA分子の割合は、試料M12970、M12985、およびM12969について、それぞれ16.6%、7.6%、および12.6%であった。500bp以上のサイズを有するDNA分子の割合は、Illumina配列決定によって生成されたデータ(0.2%)よりもはるかに高かった。500bp以上のサイズを有するDNA分子のメチル化レベルは、試料M12970、M12985、およびM12969について、それぞれ64.12%、65.05%、および63.30%であった。さらに、メチル化レベルは、より多くの長い血漿DNAを有する集団において増加した。一例として、試料M12970について、メチル化レベルは、2000bp以上のサイズを有するそれらの分子において70.7%であり、これは、500bp以上のサイズを有するものと比較してメチル化レベルの10.3%の増加に相当した。より多くの長いDNAを有する集団における同様の増加傾向が、試料M12985およびM12969でも観察された。異なるサイズを有する血漿DNA分子は、老化、アポトーシス、壊死、活発な分泌などであるがこれらに限定されない、無細胞DNAを血液循環に提供する異なる経路を反映する。長いDNA分子のメチル化状態により、それらの長いDNA分子の起源組織を推測することがさらに可能になる。したがって、長いDNA分子の断片化パターンおよびメチル化パターンの組み合わせ分析により、特定の臓器の老化、アポトーシス、壊死、および活発な分泌の相対比率を推測することが可能になる。異なる経路による無細胞DNA生成の相対比率は、妊娠、子癇前症、早産、子宮内胎児発育遅延などの根本的な病態生理学的状態を反映する。
図98は、異なるサイズにわたるサイズ分布およびメチル化パターンのグラフである。サイズは、x軸上に示される。周波数は、左のy軸上に示される。メチル化レベルは、右のy軸上に示される。サイズ分布(頻度)データは、黒色の線として示される。示されるメチル化レベルは、黄色の線として示される。
図98は、異なる断片サイズにわたるサイズ分布およびメチル化レベルを示す。サイズ分布は、164bp、313bp、および473bpに複数のピークを有し、平均間隔は154bpであった。サイズ分布のそのようなパターンは、ヌクレアーゼ切断されたヌクレオソームとよく似ており、血漿DNA断片化の非ランダムプロセスがナノポア配列決定によって特定され得ることを示唆している。Illumina配列決定データに基づく166bpに主要なピークがある血漿DNAサイズパターンとは対照的に、主要なピークは、380bpにあった。これらのデータは、ナノポア配列決定がより多くの長いDNA断片を濃縮することを示した。血漿DNAのナノポア配列決定のそのような特徴は、ショートリード配列決定技術によって解決が困難であったそれらのバリアントを検出するのに特に有用である。実施形態において、ナノポア配列決定は、トリヌクレオチド反復伸長を分析するために有用である。トリヌクレオチド反復の数は、脆弱X症候群、ハンチントン病、脊髄小脳失調症、筋強直性ジストロフィー、およびフリードライヒ運動失調症などのトリヌクレオチド反復障害の進行、重症度、および発症年齢を予測するために使用される。図98は、異なるサイズに応じて変化するメチル化レベルも示す。一連のメチル化ピーク値は、サイズ分布のピークと一致した。
C.胎児および母体DNA
iScanプラットフォーム(Illumina)を使用して母体バフィーコートおよび胎盤から抽出されたDNAの遺伝子型を決定することによって、母親がホモ接合(AA)であり、胎児がヘテロ接合(AB)であった204,410の中央値の有益なSNP(範囲:199,420~205,597)を特定し、これを、胎児特異的対立遺伝子(B)および共有対立遺伝子(A)を決定するために使用した。
図99は、ナノポア配列決定を使用して決定された胎児DNA画分の表である。1列目は、試料識別子を示す。2列目は、共有対立遺伝子を担持する分子の数を示す。3列目は、胎児特異的対立遺伝子を担持する分子の数を示す。4列目は、3列目の値に2を掛け、2列目および3列目の合計で割ったものによって計算された胎児DNA画分を示す。図99に示されるように、試料M12970、M12985、およびM12969について、それぞれ、共有対立遺伝子を担持する84,911個、52,059個、および95,273個の分子、ならびに胎児特異的対立遺伝子を担持する17,776個、7,385個、および17,007個の分子を特定した。胎児DNA画分は、試料M12970、M12985、およびM12969について、それぞれ34.6%、24.9%、および30.3%であると決定された。さらに、母親がヘテロ接合体(AB)であり、胎児がホモ接合体(AA)であった212,330の中央値の有益なSNP(範囲:210,411~214,744)を特定し、これを、母体特異的対立遺伝子(B)を決定するために使用した。試料M12970、M12985、およびM12969について、それぞれ、共有対立遺伝子を担持する65,349個、34,017個、および65,481個の分子、ならびに母体特異的対立遺伝子を担持する43,594個、26,704個、および48,337個の分子を特定した。
図100は、胎児特異的DNA分子と母体特異的DNA分子との間のメチル化レベルの表である。1列目は、試料識別子を示す。2列目、3列目、および4列目は、胎児特異的DNAについての結果を示す。5列目、6列目、および7列目は、母体特異的DNAについての結果を示す。2列目および5列目は、メチル化CpG部位の数を示す。3列目および6列目は、非メチル化CpG部位の数を示す。4列目および7列目は、メチル化部位のパーセンテージに基づくメチル化レベルを示す。
本開示の実施形態によると、各胎児特異的DNA分子についてのメチル化パターンを決定した。図100に示されるように、メチル化されていると決定された、配列決定されたCpG部位の割合(すなわち、全体的なメチル化レベル)は、試料M12970、M12985、およびM12969について、それぞれ62.43%、62.39%、および61.48%であった。胎児特異的DNAのそのような全体的なメチル化レベルは、母体特異的DNAの対応物よりも平均して8%低かった。これらの結果は、ナノポア配列決定の結果を使用した本開示の実施形態に従って、胎児DNA分子と母体DNA分子との間の異なるメチル化パターンに基づいて、胎児DNA分子と母体DNA分子とを区別することができることを示唆した。
図101は、胎児および母体DNA分子についての特定のサイズ範囲内の血漿DNA分子のパーセンテージおよびそれらの対応するメチル化レベルの表である。3つの試料:M12970、M12985、およびM12969が示される。1列目は、断片サイズを示す。2列目~6列目は、胎児特異的DNAについての結果を示す。7列目~11列目は、母体特異的DNAについての結果を示す。2列目および7列目は、その断片サイズの断片の数を示す。3列目および8列目は、断片サイズの頻度を示す。4列目および9列目は、断片サイズのメチル化CpG部位の数を示す。5列目および10列目は、断片サイズの非メチル化CpG部位の数を示す。6列目および11列目は、メチル化レベルをパーセンテージとして示す。
図101に見られるように、胎児特異的および母体特異的DNA分子の特性を、500bp以上、600bp以上、1000bp以上、および2000bp以上を含むがこれらに限定されない異なるサイズ範囲で分析した。母体DNA分子と比較して、サイズが1kbを超える比較的より小さい割合の胎児DNA分子が得られた。しかしながら、妊娠中の女性の血漿中のそのような長い胎児DNA分子(例えば、1000bp以上)の量(範囲:4.9%~9.3%)は、Illumina配列決定による期待値(0.2%未満)よりも有意に高かった。そのような長い胎児DNA断片は、Illumina配列決定プラットフォーム(例えば、MiSeq、NextSeq、HiSeq、NovaSeqなどであるが、これらに限定されない)などの従来のショートリード配列決定技術では、DNAライブラリの挿入サイズが550bp未満に制限されているため、容易に明らかにされない(例えば、Illumina NextSeqシステム、support.illumina.com/sequencing/sequencing_instruments/nextseq-550/questions.html)。実施形態において、サイズおよびメチル化プロファイルを含むがこれらに限定されない、長い胎児DNA断片および母体DNA断片の分析は、異なる疾患を評価するための新しいツールを提供し得る。例えば、DNASE1L3欠損症は、単一遺伝子全身性エリテマトーデスを引き起こす。そのようなDNASE1L3欠損症は、より多くの長いDNA分子の生成をもたらす(Chan et al,Am J Hum Genet.2020;107:882-894)。したがって、本明細書に記載の実施形態は、それらの長いDNA分子の特性を分析することによって、妊娠中のそれらの患者の疾患重症度を監視し、胎児が同じ状態に罹患するかどうかを評価するのに特に高感度である。
図102Aおよび102Bは、ナノポア配列決定によって決定された胎児および母体DNA分子のサイズ分布のグラフである。断片のサイズは、x軸上に示される。頻度は、図102Aにおいて線形スケールで、図102Bにおいて対数スケールで、y軸上に示される。母体DNAは、青色の線で示される。胎児DNAは、赤色の線で示される。
図102Aおよび102Bに示されるように、母体および胎児の両方のDNA分子が、Illuminaショートリード配列決定プラットフォームで以前に報告されたもの(Lo et al,Sci Transl Med.2020;2:61ra91)よりも多くの長いDNA分子を含有した。これらの結果は、ナノポア配列決定による血漿DNAの分析が、これまで評価されていなかった無細胞DNAの新しい特性のセットを明らかにしたことを示唆した。そのような特性は、非侵襲的出生前検査で使用され得る。
D.胎児および母体DNA分子の決定のための精度の改善
ナノポア配列決定は、より高い配列決定誤差(約5%~40%)を伴うため(Goodwin et al,Genome Res.2015;25:1750-1756)、SNP遺伝子型情報に基づく胎児および母体のDNA分子の不正確な分類を引き起こす可能性がある。実施形態において、2つ以上の有益なSNPを使用して、断片をスコアリングし、その断片が胎盤に由来するかどうかを決定することができる。例えば、母親がホモ接合(AA)であり、胎児がヘテロ接合(AB)であった2つの有益なSNPを担持する断片について、2つの有益なSNPの両方が、そのような断片が胎児に由来するという結論を支持した場合のみ、それが胎児起源であると決定される。同様に、2つの有益なSNPを担持する断片について、2つの有益なSNPの両方が、そのような断片が母親に由来することを支持した場合のみ、それが母体起源であると決定される。
図103は、単一の有益なSNPおよび2つの有益なSNPに基づく、胎児DNA分子と母体DNA分子との間のメチル化レベルの差を示すグラフである。y軸は、胎児DNA分子と母体DNA分子との間のメチル化レベルの差をパーセンテージとして示す。x軸は、メチル化レベルの差について、単一の有益なSNPを使用する場合および2つの有益なSNPを使用する場合を示す。
図103に示されるように、胎児DNA分子と母体DNA分子とを区別するために2つの有益なSNPを使用すると、胎児DNA分子と母体DNA分子との間のメチル化レベルの差は、1つの有益なSNPに基づく結果よりもはるかに大きかった。胎児特異的分子と母体特異的分子との間のメチル化レベルの平均差は、5.4%から11.3%に増加し、109%の増分に相当する。これらの結果は、複数のSNPを使用すると、胎児特異的DNA分子と母体特異的DNA分子とを区別するための精度が大幅に改善されることを示唆した。
図104は、胎児DNA分子と母体DNA分子との間のメチル化レベルの差の表である。1列目は、試料識別子を示す。2列目、3列目、および4列目は、胎児特異的DNAについての結果を示す。5列目、6列目、および7列目は、母体特異的DNAについての結果を示す。2列目および5列目は、メチル化CpG部位の数を示す。3列目および6列目は、非メチル化CpG部位の数を示す。4列目および7列目は、メチル化部位のパーセンテージに基づくメチル化レベルを示す。
図104に見られるように、胎児特異的DNAのそのような全体的なメチル化レベルは、母体特異的DNAの対応物よりも平均して16.3%低かった。実施形態において、メチル化シグナルの使用は、次に、胎児および母体DNA分類の精度を強化する。例えば、推定上の胎児特異的対立遺伝子を担持する断片について、その断片のメチル化レベルが閾値よりも低いと決定された場合、そのような断片は、胎児に由来する尤度がより高くなる。そのような閾値は、60%、50%、40%、30%、20%、10%などであり得るが、これらに限定されない。推定上の母体特異的対立遺伝子を担持する断片について、その断片のメチル化レベルが閾値よりも高いと決定された場合、そのような断片は、母親に由来する尤度がより高くなる。そのような閾値は、90%、80%、70%、60%、50%、40%などであり得るが、これらに限定されない。
いくつかの他の実施形態において、有益なSNPの総数は、少なくとも、例えば、3、4、5、6、7、8、9、10などである必要があるが、これらに限定されない。胎児に由来する断片を支持する有益なSNPの数は、少なくとも、例えば、3、4、5、6、7、8、9、10などである必要があるが、これらに限定されない。母親に由来する断片を支持する有益なSNPの数は、少なくとも、例えば、3、4、5、6、7、8、9、10などである必要があるが、これらに限定されない。実施形態において、胎児に由来する断片を支持する有益なSNPのパーセンテージは、特定の閾値、例えば、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に達する必要がある。母親に由来する断片を支持する有益なSNPのパーセンテージは、特定の閾値、例えば、1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に達する必要がある。
他のいくつかの実施形態において、血漿DNA分子を円形化し、続いてローリングサークル増幅を行うことができる。増幅されたDNAは、ナノポア配列決定によって配列決定され得、したがって、鋳型DNA情報は、複数回配列決定され得る。コンセンサス配列は、繰り返し配列決定された情報から推定され得る。
VIII.例示的なシステム
図105は、本開示の実施形態による、測定システム10500を例示する。示されるようなシステムは、アッセイデバイス10510内に無細胞DNA分子などの試料10505を含み、アッセイ10508は、試料10505に対して実施され得る。例えば、試料10505をアッセイ10508の試薬と接触させて、物理的特性10515の信号を提供することができる。アッセイデバイスの一例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの物理的特性10515(例えば、蛍光強度、電圧、または電流)は、検出器10520によって検出される。検出器10520は、データ信号を構成するデータ点を取得するために、間隔をおいて(例えば、周期的な間隔)測定し得る。一実施形態において、アナログ-デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。アッセイデバイス10510および検出器10520は、アッセイシステム、例えば、本明細書に記載の実施形態に従って配列決定を実施する配列決定システムを形成し得る。データ信号10525は、検出器10520から論理システム10530へ送信される。一例として、データ信号10525を使用して、DNA分子の参照ゲノムにおける配列および/または位置を決定することができる。データ信号10525は、同時に行われる様々な測定、例えば、試料10505の異なる分子について異なる色の蛍光染料または異なる電気信号を含むことができ、したがって、データ信号10525は、複数の信号に対応することができる。データ信号10525は、ローカルメモリ10535、外部メモリ10540、またはストレージデバイス10545に記憶され得る。
論理システム10530は、コンピュータシステム、ASIC、マイクロプロセッサ、グラフィックスプロセッシングユニット(GPU)などであり得るか、またはそれらを含み得る。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム10530および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であり得るか、または検出器10520および/またはアッセイデバイス10510を含むデバイス(例えば、配列決定デバイス)に直接取り付けられ得るか、もしくは組み込まれ得る。論理システム10530はまた、プロセッサ10550において実行するソフトウェアを含み得る。論理システム10530は、本明細書に説明される方法のいずれかを実施するようにシステム10500を制御するための命令を保存するコンピュータ可読媒体を含み得る。例えば、論理システム10530は、配列決定または他の物理的操作が実施されるように、アッセイデバイス10510を含むシステムにコマンドを提供し得る。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、実施され得る。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。
測定システム10500はまた、対象に治療を提供することができる治療デバイス10560を含み得る。治療デバイス10560は、治療を決定し得る、および/または治療を実施するために使用され得る。そのような治療の例には、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、および幹細胞移植が含まれ得る。論理システム10530は、例えば、本明細書に記載の方法の結果を提供するために、治療デバイス10560に接続され得る。治療デバイスは、画像化デバイスおよびユーザ入力などの他のデバイスからの入力を受け取り得る(例えば、ロボットシステムの制御など、治療を制御するために)。
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム10においてこのようなサブシステムの例を図106に示す。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯装置を含み得る。
図106に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶デバイス79、ディスプレイアダプター82に接続されたモニタ76(例えば、LEDなどのディスプレイスクリーン)、およびその他などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム10を接続し得る。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72または記憶デバイス79(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ72および/または記憶デバイス79は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集デバイス85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または1つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶デバイスを介して、ともに接続された、複数の同じ構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。
実施形態の態様は、制御ロジックの形態で、ハードウェア回路(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含み得る。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、ならびにハードウェアおよびソフトウェアの組み合わせを使用して、本開示の実施形態を実装するための他の手段および/または方法を認識および理解するであろう。
本出願で説明されるソフトウェアコンポーネントまたは関数のうちのいずれも、例えば、Java(登録商標)、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくは物体指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、記憶および/または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、リード専用メモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスク等)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)等)、またはブルーレイディスクおよびフラッシュメモリ等を含み得る。コンピュータ可読媒体は、そのようなストレージまたは伝送デバイスの任意の組み合わせであってもよい。
そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した伝送に適合した搬送波信号を使用して伝送され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、もしくはコンピュータシステム全体)上もしくはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在し得る。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。
本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施され得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なるコンポーネントがそれぞれのステップまたはそれぞれのステップの群を実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または論理的に可能である異なる順序で実施され得る。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用され得る。また、あるステップのすべてまたは部分は、任意選択的であり得る。加えて、本方法のうちのいずれかの任意のステップは、これらのステップを実行するためのシステムのモジュール、ユニット、回路、または他の手段で実行することができる。
本開示を読むと当業者には明らかになるように、本明細書に記載および図示される個々の実施形態の各々は、本開示の範囲または趣旨から逸脱することなく、他のいくつかの実施形態のいずれかの特徴から容易に分離され得るか、またはそれと組み合わされ得る、別個の構成要素および特徴を有する。
本開示の例示的な実施形態の上の説明は、例示および説明の目的で提示されており、本開示の実施形態の作製および使用方法の完全な開示および説明を当業者に提供するために記載される。網羅的であること、もしくは本開示を記載された正確な形式に限定することを意図するものではなく、また、実験が実施されるすべてまたは唯一の実験であることを表すことを意図するものでもない。本開示は、理解を明確にする目的で例示および実施例によってある程度詳細に説明されてきたが、本開示の教示に照らして、添付の特許請求の範囲の趣旨または範囲から逸脱することなく、特定の変更および修正が本開示に行われ得ることが、当業者には容易に明らかである。
したがって、上記は単に、本発明の原理を例示しているにすぎない。当業者が、本明細書で明示的に説明または図示されていないが、本発明の原理を具現化し、その趣旨および範囲内に含まれる様々な配置を考案することができることが理解されるであろう。さらに、本明細書に列挙されるすべての実施例および条件付き言語は、主に、読者が、本開示の原理がそのような具体的に列挙された実施例および条件に限定されないことを理解するのを助けることを意図している。さらに、本発明の原理、態様、および実施形態、ならびにその具体的な実施例を列挙する本明細書のすべての記述は、その構造的および機能的等価物の両方を包含することを意図している。さらに、そのような等価物には、現在知られている等価物および将来開発される等価物の両方、すなわち、構造に関係なく同じ機能を実施する開発された任意の要素が含まれることが意図されている。したがって、本発明の範囲は、本明細書で図示および説明される例示的な実施形態に限定されることを意図するものではない。むしろ、本発明の範囲および趣旨は、添付の特許請求の範囲によって具現化される。
「a」、「an」、または「the」の記述は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「排他的なまたは」ではなく「包括的なまたは」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1」または「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。
請求項は、任意選択的であり得るいかなる要素も除外するように起草され得る。したがって、この記述は、請求項要素の列挙に関連する「単独で」、「のみ」などの排他的な用語の使用、または「否定的な」限定の使用についての先行詞として機能することを意図している。
本明細書で言及されるすべての特許、特許出願、刊行物、および説明は、あたかも各個々の刊行物または特許が参照により組み込まれることが具体的かつ個別に示されているかのように、あらゆる目的でそれらの全体が参照により本明細書に組み込まれ、かつ刊行物が引用されているものと関連する方法および/または材料を開示および説明するために、参照により本明細書に組み込まれる。いかなるものも、先行技術であるとは認められていない。

Claims (22)

  1. 胎児を妊娠中の女性から取得された生物学的試料を分析する方法であって、前記女性が、第1の染色体領域内に第1のハプロタイプおよび第2のハプロタイプを有し、前記生物学的試料が、前記胎児および前記女性からの複数の無細胞DNA分子を含み、前記方法が、
    前記複数の無細胞DNA分子に対応するリードを受け取ることと、
    前記複数の無細胞DNA分子のサイズを測定することと、
    前記複数の無細胞DNA分子からの無細胞DNA分子の第1のセットを、カットオフ値以上のサイズを有するものとして特定することと、ここで、前記カットオフ値は少なくとも500ntである、
    前記無細胞DNA分子の第1のセットに対応するリードから、前記第1のハプロタイプの配列および前記第2のハプロタイプの配列を決定することと、
    前記複数の無細胞DNA分子からの無細胞DNA分子の第2のセットを、前記第1のハプロタイプの前記配列にアラインメントすることであって、前記無細胞DNA分子の第2のセットが、前記カットオフ値よりも小さいサイズを有する、アラインメントすることと、
    前記複数の無細胞DNA分子からの無細胞DNA分子の第3のセットを、前記第2のハプロタイプの前記配列にアラインメントすることであって、前記無細胞DNA分子の第3のセットが、前記カットオフ値よりも小さいサイズを有する、アラインメントすることと、
    前記無細胞DNA分子の第2のセットを使用して、パラメータの第1の値を測定することと、
    前記無細胞DNA分子の第3のセットを使用して、前記パラメータの第2の値を測定することと、
    前記第1の値を前記第2の値と比較することと、
    前記第1の値と前記第2の値との前記比較に基づいて、前記胎児が前記第1のハプロタイプを受け継ぐ尤度を決定することと、を含む、方法。
  2. 前記カットオフ値が、600ntである、請求項1に記載の方法。
  3. 前記カットオフ値が、1kntである、請求項1に記載の方法。
  4. 前記無細胞DNA分子の第1のセットに対応する前記リードから、前記第1のハプロタイプの前記配列および前記第2のハプロタイプの前記配列を決定することが、
    前記無細胞DNA分子の第1のセットに対応するリードを参照ゲノムにアラインメントすることを含む、請求項に記載の方法。
  5. 前記無細胞DNA分子の第1のセットに対応する前記リードから、前記第1のハプロタイプの前記配列および前記第2のハプロタイプの前記配列を決定することが、
    前記リードの第1のサブセットを前記リードの第2のサブセットにアラインメントして、前記リード内の遺伝子座において異なる対立遺伝子を特定することと、
    前記リードの前記第1のサブセットが前記遺伝子座に第1の対立遺伝子を有すると決定することと、
    前記リードの前記第2のサブセットが前記遺伝子座に第2の対立遺伝子を有すると決定することと、
    前記リードの前記第1のサブセットが前記第1のハプロタイプに対応すると決定することと、
    前記リードの前記第2のサブセットが前記第2のハプロタイプに対応すると決定することと、を含む、請求項1に記載の方法。
  6. 前記パラメータが、無細胞DNA分子のカウント、無細胞DNA分子のサイズプロファイル、または無細胞DNA分子のメチル化レベルである、請求項に記載の方法。
  7. 前記パラメータが、無細胞DNA分子の前記カウントであり、
    前記方法は、
    前記第1の値が前記第2の値よりも大きい場合、前記胎児が前記第2のハプロタイプよりも前記第1のハプロタイプを受け継ぐ尤度が高いと決定することをさらに含む、請求項6に記載の方法。
  8. 前記パラメータが、無細胞DNA分子の前記サイズプロファイルであり、
    前記方法は、
    前記第1の値が前記第2の値よりも小さい場合、前記胎児が前記第2のハプロタイプよりも前記第1のハプロタイプを受け継ぐ尤度が高いと決定することをさらに含み、前記無細胞DNA分子の第2のセットが前記無細胞DNA分子の第3のセットよりも小さいサイズプロファイルによって特徴付けられることを示す、請求項6に記載の方法。
  9. 前記パラメータが、無細胞DNA分子の前記メチル化レベルであり、
    前記方法は、
    前記第1の値が前記第2の値よりも小さい場合、前記胎児が前記第2のハプロタイプよりも前記第1のハプロタイプを受け継ぐ尤度が高いと決定することをさらに含む、請求項6に記載の方法。
  10. 前記第1の値および前記第2の値を使用して、分離値を計算することと、
    前記分離値をカットオフ値と比較することと、
    前記分離値と前記カットオフ値との前記比較に基づいて、胎児異数性の尤度を決定することと、をさらに含む、請求項に記載の方法。
  11. 前記カットオフ値が、正倍数性胎児を妊娠中の女性からの参照試料から決定されるか、
    前記カットオフ値が、異数性胎児を妊娠中の女性からの参照試料から決定されるか、または
    前記カットオフ値が、異数性胎児を仮定して計算される、請求項10に記載の方法。
  12. 前記無細胞DNA分子の第1のセットに対応する前記リードの1つのリードにおける部分配列の反復数を特定することをさらに含み、
    前記第1のハプロタイプの前記配列を決定することは、前記第1のハプロタイプの前記配列が前記部分配列の前記反復数を含むと決定することを含む、請求項に記載の方法。
  13. 前記部分配列の前記反復が、反復関連疾患と関連しており、
    前記方法は、前記胎児が前記反復関連疾患を受け継ぐ尤度を決定することをさらに含む、請求項12に記載の方法。
  14. 妊娠中の生物の生物学的試料を分析する方法であって、前記生物学的試料が、複数の無細胞核酸分子を含み、前記方法が、
    前記複数の無細胞核酸分子を配列決定することを含み、配列決定された前記複数の無細胞核酸分子の20%超が、200ntよりも大きい長さを有する、請求項1に記載の方法。
  15. 電気泳動を用いて前記複数の無細胞DNA分子を濃縮することを更に含む、請求項14に記載の方法。
  16. サイズに基づいて無細胞DNA分子に選択的に結合するために、磁性ビーズを用いて前記複数の無細胞DNA分子を濃縮することを更に含む、請求項14に記載の方法。
  17. ハイブリダイゼーション、免疫沈降、増幅またはCRISPRを用いて前記複数の無細胞DNA分子を濃縮することを更に含む、請求項14に記載の方法。
  18. 濃縮が、600nt、700nt、800nt、900nt、または1kntよりも大きいサイズのためのものである、請求項16に記載の方法。
  19. 前記複数の無細胞DNA分子が、前記生物学的試料と比較してメチル化プロファイルのために濃縮され、
    前記方法が、
    免疫沈降を使用して、前記複数の無細胞DNA分子を濃縮することをさらに含む、請求項1に記載の方法。
  20. 前記複数の無細胞DNA分子に対応するリードが、単一分子配列決定法によって得られる、請求項1に記載の方法。
  21. 前記単一分子配列決定法が、新規塩基を、前記複数の無細胞DNA分子のうちの無細胞DNA分子の相補鎖に組み込むDNAポリメラーゼの光学的監視を含む、請求項20に記載の方法。
  22. 請求項1~21のいずれか1項に記載の方法を実施するコンピュータシステムを制御するための指示を保存するコンピュータ可読媒体。
JP2022547772A 2020-02-05 2021-02-05 妊娠中の無細胞断片を使用する分子分析 Active JP7311934B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023107998A JP7416501B2 (ja) 2020-02-05 2023-06-30 妊娠中の無細胞断片を使用する分子分析
JP2023216655A JP2024045112A (ja) 2020-02-05 2023-12-22 妊娠中の無細胞断片を使用する分子分析

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202062970634P 2020-02-05 2020-02-05
US62/970,634 2020-02-05
US202163135486P 2021-01-08 2021-01-08
US63/135,486 2021-01-08
PCT/CN2021/075394 WO2021155831A1 (en) 2020-02-05 2021-02-05 Molecular analyses using long cell-free fragments in pregnancy

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023107998A Division JP7416501B2 (ja) 2020-02-05 2023-06-30 妊娠中の無細胞断片を使用する分子分析

Publications (2)

Publication Number Publication Date
JP2023504939A JP2023504939A (ja) 2023-02-07
JP7311934B2 true JP7311934B2 (ja) 2023-07-20

Family

ID=77199166

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2022547772A Active JP7311934B2 (ja) 2020-02-05 2021-02-05 妊娠中の無細胞断片を使用する分子分析
JP2023107998A Active JP7416501B2 (ja) 2020-02-05 2023-06-30 妊娠中の無細胞断片を使用する分子分析
JP2023216655A Pending JP2024045112A (ja) 2020-02-05 2023-12-22 妊娠中の無細胞断片を使用する分子分析

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2023107998A Active JP7416501B2 (ja) 2020-02-05 2023-06-30 妊娠中の無細胞断片を使用する分子分析
JP2023216655A Pending JP2024045112A (ja) 2020-02-05 2023-12-22 妊娠中の無細胞断片を使用する分子分析

Country Status (14)

Country Link
US (3) US20210265007A1 (ja)
EP (1) EP4069864A4 (ja)
JP (3) JP7311934B2 (ja)
KR (2) KR102662186B1 (ja)
CN (2) CN116004786A (ja)
AU (3) AU2021216616B2 (ja)
BR (2) BR122022015680A2 (ja)
CA (1) CA3164433A1 (ja)
GB (3) GB2605736B (ja)
IL (3) IL303888A (ja)
MX (2) MX2022009582A (ja)
NZ (1) NZ790326A (ja)
TW (1) TWI784407B (ja)
WO (1) WO2021155831A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ790326A (en) 2020-02-05 2023-07-28 Univ Hong Kong Chinese Molecular analyses using long cell-free fragments in pregnancy
US20230279498A1 (en) * 2021-11-24 2023-09-07 Centre For Novostics Limited Molecular analyses using long cell-free dna molecules for disease classification
WO2023147783A1 (en) * 2022-02-07 2023-08-10 Centre For Novostics Limited Fragmentation for measuring methylation and disease
WO2023217101A1 (en) * 2022-05-10 2023-11-16 Centre For Novostics Analysis of nucleic acids associated with extracellular vesicles
KR20230172174A (ko) * 2022-06-15 2023-12-22 주식회사 지씨지놈 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법
CN114898802B (zh) * 2022-07-14 2022-09-30 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
WO2024044749A1 (en) * 2022-08-26 2024-02-29 Fred Hutchinson Cancer Center Cell-free dna sequence data analysis techniques for estimating fetal fraction and predicting preeclampsia
WO2024049915A1 (en) * 2022-08-30 2024-03-07 The General Hospital Corporation High-resolution and non-invasive fetal sequencing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013509884A (ja) 2009-11-05 2013-03-21 ザ チャイニーズ ユニバーシティ オブ ホンコン 母親生物試料の胎児ゲノム分析
JP2015510757A (ja) 2012-03-08 2015-04-13 ザ チャイニーズ ユニバーシティー オブ ホンコン 母体血漿における胎児dna分画についてのサイズに基づく解析
US20180142300A1 (en) 2016-11-18 2018-05-24 The Chinese University Of Hong Kong Universal haplotype-based noninvasive prenatal testing for single gene diseases

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070111233A1 (en) * 2003-10-30 2007-05-17 Bianchi Diana W Prenatal diagnosis using cell-free fetal DNA in amniotic fluid
EP3406737B1 (en) * 2009-11-06 2023-05-31 The Chinese University of Hong Kong Size-based genomic analysis
AU2010336017B2 (en) * 2009-12-23 2016-04-28 Genetic Technologies Limited Methods of enriching and detecting fetal nucleic acids
US9323888B2 (en) * 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
AU2015203579B2 (en) * 2010-01-19 2017-12-21 Verinata Health, Inc. Sequencing methods and compositions for prenatal diagnoses
CN106795562B (zh) * 2014-07-18 2022-03-25 香港中文大学 Dna混合物中的组织甲基化模式分析
EP4092680A1 (en) * 2014-09-12 2022-11-23 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
WO2016049877A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因股份有限公司 无创产前亲子鉴定中基于str分型技术的检测方法和系统
US10319463B2 (en) * 2015-01-23 2019-06-11 The Chinese University Of Hong Kong Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations
WO2017012544A1 (en) 2015-07-20 2017-01-26 The Chinese University Of Hong Kong Methylation pattern analysis of haplotypes in tissues in dna mixture
HUE064231T2 (hu) * 2015-07-23 2024-02-28 Univ Hong Kong Chinese Sejtmentes DNS fragmentációs mintázatának elemzése
US10095831B2 (en) * 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
IL265769B2 (en) * 2016-10-19 2023-12-01 Univ Hong Kong Chinese Estimation of gestational age using methylation and size profile of maternal plasma DNA
US10858691B2 (en) * 2017-04-18 2020-12-08 Covaris, Inc. Differential shearing of nucleic acids
US11168356B2 (en) * 2017-11-02 2021-11-09 The Chinese University Of Hong Kong Using nucleic acid size range for noninvasive cancer detection
TW202012636A (zh) * 2018-05-03 2020-04-01 香港中文大學 用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析
US11926821B2 (en) * 2018-10-22 2024-03-12 The Chinese University Of Hong Kong Cell-free DNA quality
CN109402247B (zh) * 2018-11-06 2020-04-07 苏州首度基因科技有限责任公司 一种基于dna变异计数的胎儿染色体检测系统
NZ790326A (en) 2020-02-05 2023-07-28 Univ Hong Kong Chinese Molecular analyses using long cell-free fragments in pregnancy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013509884A (ja) 2009-11-05 2013-03-21 ザ チャイニーズ ユニバーシティ オブ ホンコン 母親生物試料の胎児ゲノム分析
JP2015510757A (ja) 2012-03-08 2015-04-13 ザ チャイニーズ ユニバーシティー オブ ホンコン 母体血漿における胎児dna分画についてのサイズに基づく解析
US20180142300A1 (en) 2016-11-18 2018-05-24 The Chinese University Of Hong Kong Universal haplotype-based noninvasive prenatal testing for single gene diseases

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Clinical Chemistry,2004年,Vol.50, No.1, pp.88-92

Also Published As

Publication number Publication date
EP4069864A4 (en) 2023-01-25
IL298811B2 (en) 2023-11-01
MX2022009820A (es) 2022-09-05
US11371084B2 (en) 2022-06-28
IL298811A (en) 2023-02-01
BR122022015680A2 (pt) 2022-12-06
GB2620304A (en) 2024-01-03
GB2605736A (en) 2022-10-12
IL294431B1 (en) 2023-01-01
AU2021216616B2 (en) 2023-04-20
IL294431B2 (en) 2023-05-01
US20210254142A1 (en) 2021-08-19
BR112022015073A2 (pt) 2022-11-16
CN116004786A (zh) 2023-04-25
IL294431A (en) 2022-09-01
AU2021216616A1 (en) 2022-07-21
US11591642B2 (en) 2023-02-28
GB202313363D0 (en) 2023-10-18
US20210265007A1 (en) 2021-08-26
US20220275433A1 (en) 2022-09-01
JP2024045112A (ja) 2024-04-02
GB202305176D0 (en) 2023-05-24
KR20230113840A (ko) 2023-08-01
JP7416501B2 (ja) 2024-01-17
JP2023504939A (ja) 2023-02-07
IL303888A (en) 2023-08-01
GB202209581D0 (en) 2022-08-10
NZ790326A (en) 2023-07-28
GB2605736B (en) 2023-05-24
EP4069864A1 (en) 2022-10-12
JP2023123759A (ja) 2023-09-05
TW202142696A (zh) 2021-11-16
WO2021155831A1 (en) 2021-08-12
CA3164433A1 (en) 2021-08-12
TWI784407B (zh) 2022-11-21
AU2023204613B2 (en) 2023-11-23
IL298811B1 (en) 2023-07-01
CN115066504A (zh) 2022-09-16
KR102662186B1 (ko) 2024-05-07
AU2023204613A1 (en) 2023-08-03
GB2614994A (en) 2023-07-26
GB2614994B (en) 2023-10-18
AU2024201092A1 (en) 2024-03-14
MX2022009582A (es) 2022-08-25
TW202307216A (zh) 2023-02-16
KR20220118551A (ko) 2022-08-25

Similar Documents

Publication Publication Date Title
JP7311934B2 (ja) 妊娠中の無細胞断片を使用する分子分析
JP6525434B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
CN105555968B (zh) 遗传变异的非侵入性评估方法和过程
US8467976B2 (en) Fetal genomic analysis from a maternal biological sample
AU2012318371B2 (en) Methods and processes for non-invasive assessment of genetic variations
GB2615272A (en) Determination of base modifications of nucleic acids
TWI835367B (zh) 使用獲自懷孕女性之長游離片段進行之分子分析
KR102665592B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
KR20240068794A (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220825

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230630

R150 Certificate of patent or registration of utility model

Ref document number: 7311934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150