JP2023544720A - Dnaメチル化分配アッセイのシグナル対ノイズ比を改善するための方法およびシステム - Google Patents

Dnaメチル化分配アッセイのシグナル対ノイズ比を改善するための方法およびシステム Download PDF

Info

Publication number
JP2023544720A
JP2023544720A JP2023519657A JP2023519657A JP2023544720A JP 2023544720 A JP2023544720 A JP 2023544720A JP 2023519657 A JP2023519657 A JP 2023519657A JP 2023519657 A JP2023519657 A JP 2023519657A JP 2023544720 A JP2023544720 A JP 2023544720A
Authority
JP
Japan
Prior art keywords
nucleic acid
acid molecules
methylation
distribution
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023519657A
Other languages
English (en)
Inventor
アンドリュー ケネディ,
ウィリアム ジェイ. グリーンリーフ,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2023544720A publication Critical patent/JP2023544720A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6804Nucleic acid analysis using immunogens
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • C12Q1/683Hybridisation assays for detection of mutation or polymorphism involving restriction enzymes, e.g. restriction fragment length polymorphism [RFLP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/166Oligonucleotides used as internal standards, controls or normalisation probes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一態様では、本開示は、メチル化状態を決定するための方法であって、核酸分子の生体試料を提供するステップ;核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;および分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップを含む方法を提供する。

Description

関連出願への相互参照
本出願は、その各々の全体が全ての目的に関して参照により本明細書に組み込まれる、2020年9月30日に出願された米国仮特許出願第63/086,000号、および2020年10月23日に出願された米国仮特許出願第63/105,183号に基づく優先権の利益を主張する。
発明の分野
本開示は、核酸、例えばDNA、例えば無細胞DNAを解析することに関連する組成物および方法を提供する。一部の実施形態では、無細胞DNAは、がんを有するもしくは有することが疑われる対象に由来し、および/または無細胞DNAは、がん細胞からのDNAを含む。一部の実施形態では、DNAは、核酸分子のメチル化状態に基づいて、複数の分配セットに分配され、少なくとも1つの分配セットの少なくとも1つのサブセットは、少なくとも1つのメチル化感受性制限酵素によって消化される。
背景
無細胞核酸(例えば、無細胞DNAまたは無細胞RNA)のがん診断アッセイに関する現在の方法は、単一ヌクレオチド変異体(SNV)、コピー数変異(CNV)、融合、およびインデル(すなわち、挿入または欠失)を含む腫瘍関連体細胞変異体の検出に重点を置いている可能性があり、これらは全てリキッドバイオプシーの主な標的である。無細胞DNAにおけるメチル化状態およびフラグメントームシグナルのような非配列改変は、無細胞DNAの起源および疾患レベルに関する情報を提供することができるという証拠が増えつつある。無細胞DNAの非配列改変を体細胞突然変異コールと組み合わせると、いずれかのアプローチ単独から得られるより包括的な腫瘍状態の評価を生じることができる。
しかし、無細胞DNAが低濃度かつ不均一であることを考慮すると、核酸塩基の改変に関する詳細な情報を提供するリキッドバイオプシー材料を解析するための正確かつ感度のよい方法を開発することは難題であった。リキッドバイオプシー手順におけるさらなる解析にとって有用である無細胞DNAの分画を単離およびプロセシングすることは、これらの方法の重要な部分である。したがって、例えばリキッドバイオプシーにおいて無細胞DNAを解析するための改善された方法および組成物が必要である。
要旨
本開示は、無細胞DNAの改善された解析のための必要性を満たすこと、および/または他の利益を提供することを目的とする。本開示は、核酸を解析するための方法、組成物、およびシステムを提供する。したがって、以下の例示的な実施形態を提供する。実施形態1は、生体試料中の核酸分子を解析するための方法であって:
a)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、生体試料が、メチル化核酸分子および非メチル化核酸分子を含む、ステップ;
b)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに
c)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ
を含む方法である。
実施形態2は、核酸分子のメチル化状態を決定するための方法であって:
a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;
b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;
c)複数の分配セット中の1つまたは複数の分配セット中の少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;
d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中で消化された核酸分子を含む、ステップ;ならびに
e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でメチル化状態を決定するステップ
を含む方法である。
実施形態3は、生体試料中の核酸分子を解析する方法であって:
a)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、生体試料がメチル化核酸分子および非メチル化核酸分子を含み、複数の分配セットが、第1の分配セットおよび第2の分配セットを含み、メチル化核酸分子が、第2の分配セットと比較して第1の分配セットにおいて過剰発現する、ステップ;
b)複数の分配セット中の第1の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに
c)第1の分配セットの少なくとも一部からエピジェネティック標的領域を含む第1の標的領域セットを捕捉するステップ、および第2の分配セットの少なくとも一部からエピジェネティック標的領域を含む第2の標的領域セットを捕捉するステップ
を含む方法である。
実施形態4は、第1の標的領域セットを捕捉するステップが、第1の分配セットのDNAを標的特異的プローブの第1のセットと接触させることを含み、第2の標的領域セットを捕捉するステップが、第2の分配セットのDNAを標的特異的プローブの第2のセットと接触させることを含む、実施形態3に記載の方法である。
実施形態5は、分配セットまたは標的領域セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップをさらに含む、実施形態3または4に記載の方法である。
実施形態6は、目的のゲノム領域、第1の標的領域セット、および/または第2の標的領域セットが、配列可変標的領域を含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態7は、消化するステップの前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも一部の少なくとも1つの末端に付着させるステップをさらに含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態8は、核酸分子のメチル化状態を決定するための方法であって:
a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;
b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;
c)1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップ;
d)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;
e)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに
f)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ
を含む方法である。
実施形態9は、アダプターが、複数の分配セット中の核酸分子の少なくとも一部の両方の末端に付着している、実施形態7または8に記載の方法である。
実施形態10は、c)の前に、複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップをさらに含み、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、実施形態1に記載の方法である。
実施形態11は、生体試料中のがんの存在または非存在を検出するステップをさらに含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態12は、生体試料中のがんのレベルを決定するステップをさらに含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態13は、メチル化状態を決定するステップが、消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態14は、1つまたは複数のアダプターが少なくとも1つのタグを含む、実施形態7~13のいずれか1つに記載の方法である。
実施形態15は、メチル化感受性制限酵素が、メチル化感受性制限酵素の認識部位で非メチル化である核酸分子を選択的に消化する、上記の実施形態のいずれか1つに記載の方法である。
実施形態16は、核酸分子の少なくとも一部が、消化ステップの後に増幅および/またはシーケンシングされ、メチル化感受性制限酵素によって消化された核酸分子が増幅されないおよび/またはシーケンシングされない、上記の実施形態のいずれか1つに記載の方法である。
実施形態17は、複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも2つのメチル化感受性制限酵素によって消化するステップを含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態18は、少なくとも2つのメチル化感受性制限酵素が、2つのメチル化感受性制限酵素からなる、実施形態17に記載の方法である。
実施形態19は、メチル化感受性制限酵素が、BstUIおよびHpaIIを含むかまたはそれからなる、実施形態17または18に記載の方法である。
実施形態20は、メチル化感受性制限酵素が、HhaIおよびAccIIを含むかまたはそれからなる、実施形態17または18に記載の方法である。
実施形態21は、少なくとも2つのメチル化感受性制限酵素が、3つのメチル化感受性制限酵素を含むかまたはそれからなる、実施形態17または18に記載の方法である。
実施形態22は、メチル化感受性制限酵素が、BstUI、HpaII、およびHin6Iを含むかまたはそれからなる、実施形態17または21に記載の方法である。
実施形態23は、メチル化感受性制限酵素が、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される、上記の実施形態のいずれか1つに記載の方法である。
実施形態24は、1つまたは複数のアダプターが、メチル化感受性制限酵素による消化に対して抵抗性である、実施形態7~23のいずれか1つに記載の方法である。
実施形態25は、1つまたは複数の抵抗性アダプターが、1つまたは複数のメチル化ヌクレオチドを含み、必要に応じてメチル化ヌクレオチドが、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンを含む、実施形態24に記載の方法である。
実施形態26は、1つまたは複数の抵抗性アダプターが、メチル化感受性制限酵素に対して抵抗性である1つまたは複数のヌクレオチドアナログを含む、実施形態24に記載の方法である。
実施形態27は、1つまたは複数の抵抗性アダプターが、メチル化感受性制限酵素によって認識されないヌクレオチド配列を含む、実施形態24に記載の方法である。
実施形態28は、タグが分子バーコードを含む、実施形態14~27のいずれか1つに記載の方法である。
実施形態29は、複数の分配セットの第1の分配セット中の核酸分子に付着した分子バーコードが、複数の分配セットの第2の分配セット中の核酸分子に付着した分子バーコードとは異なる、実施形態28に記載の方法である。
実施形態30は、複数の分配セットの第1の分配セットが、複数の分配セットの第2の分配セットとは差次的にタグ付けされている、実施形態1~29に記載の方法である。
実施形態31は、第1の分配タグが第1の分配セット中の核酸分子に付着し、第2の分配タグが第2の分配セット中の核酸分子に付着している、実施形態30に記載の方法である。
実施形態32は、メチル化核酸分子が、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンを含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態33は、シーケンシングすることが、次世代シーケンサーによって実施される、実施形態13~32のいずれか1つに記載の方法である。
実施形態34は、生体試料が、DNA試料、RNA試料、ポリヌクレオチド試料、無細胞DNA試料、および無細胞RNA試料からなる群から選択される、先行する実施形態のいずれか1つに記載の方法である。
実施形態35は、生体試料が無細胞DNA試料である、先行する実施形態のいずれか1つに記載の方法である。
実施形態36は、無細胞DNAが1ng~500ngの間である、実施形態35に記載の方法である。
実施形態37は、分配するステップが、メチル化ヌクレオチドを含む核酸分子に優先的に結合する結合剤に対する核酸分子の差次的結合親和性に基づいて核酸分子を分配するステップを含む、先行する実施形態のいずれか1つに記載の方法である。
実施形態38は、結合剤が、メチル結合ドメイン(MBD)タンパク質である、実施形態37に記載の方法である。
実施形態39は、結合剤が、1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体である、実施形態37に記載の方法である。
実施形態40は、目的のゲノム領域またはエピジェネティック標的領域が、がん検出のために差次的にメチル化された領域を含む、実施形態2~39のいずれか1つに記載の方法である。
実施形態41は、シーケンシングすることの前に、核酸分子の少なくとも一部を増幅するステップをさらに含む、実施形態13~40のいずれか1つに記載の方法である。
実施形態42は、増幅に使用されるプライマーが、少なくとも1つの試料インデックスを含む、実施形態41に記載の方法である。
実施形態43は、1つまたは複数の遺伝子座が複数の遺伝子座を含む、上記の実施形態のいずれか1つに記載の方法である。
実施形態44は、複数の遺伝子座が1つまたは複数のゲノム領域を含む、実施形態43に記載の方法である。
前述の実施形態のいずれかでは、エピジェネティック標的領域は、分配セットの1つもしくは複数または各々から捕捉され得る。いずれかの方法は、例えばシーケンシングまたは定量的PCRによって、捕捉されたエピジェネティック標的領域を定量することをさらに含み得る。一部の実施形態では、方法は、第1の分配セットの少なくとも一部からエピジェネティック標的領域を含む第1の標的領域セットを捕捉するステップ、および第2の分配セットの少なくとも一部からエピジェネティック標的領域を含む第2の標的領域セットを捕捉するステップを含む。第1および第2の標的領域セットは、同じであっても異なっていてもよい。
エピジェネティック標的領域は、例えば、健康な対象からの無細胞DNA中のメチル化の程度よりも、少なくとも1つのタイプの組織において高いメチル化の程度を有する領域を含む高メチル化可変標的領域セットを含み得る。いずれかの方法は、高メチル化可変標的領域セット中の領域の配列または数量に少なくとも部分的に基づいて、がんの存在、非存在、または可能性を決定するステップをさらに含み得る。いずれかの方法は、高メチル化可変標的領域セット中の領域の配列または数量に少なくとも部分的に基づいて、試料中の腫瘍DNAを定量するステップをさらに含み得る。
エピジェネティック標的領域は、例えば、健康な対象からの無細胞DNA中のメチル化の程度よりも、少なくとも1つのタイプの組織において低いメチル化の程度を有する領域を含む低メチル化可変標的領域セットを含み得る。いずれかの方法は、低メチル化可変標的領域セット中の領域の配列または数量に少なくとも部分的に基づいて、がんの存在、非存在、または可能性を決定するステップをさらに含み得る。いずれかの方法は、低メチル化可変標的領域セット中の領域の配列または数量に少なくとも部分的に基づいて、試料中の腫瘍DNAを定量するステップをさらに含み得る。
前述の実施形態のいずれかでは、配列可変標的領域は、分配セットの1つもしくは複数、または各々から捕捉され得る。いずれかの方法は、例えばシーケンシングまたは定量的PCRによって、捕捉されたエピジェネティック標的領域を定量するステップをさらに含み得る。配列可変標的領域セットに対応するDNA分子は、エピジェネティック標的領域セットに対応するDNA分子よりも大きいシーケンシング深度までシーケンシングされ得る。
前述の実施形態のいずれかでは、標的領域セットを捕捉するステップは、捕捉されるDNAを標的特異的プローブのセットと接触させ、それによって標的特異的プローブとDNAとの複合体が形成されるステップを含み得る。捕捉するステップは、複合体を、標的特異的プローブに結合していないDNAから分離し、それによって捕捉されたDNAを提供するステップをさらに含み得る。
前述の実施形態のいずれかでは、DNAはシーケンシングステップの前に増幅されてもよく、またはDNAは捕捉するステップの前に増幅されてもよい。
前述の実施形態のいずれかでは、DNAは、体液から得られたDNAを含んでもよく、必要に応じて体液は、血漿、尿、リンパ、または脊髄液である。例えば、DNAは、試験対象から得られた無細胞DNA(cfDNA)を含み得る。
前述の実施形態のいずれかでは、メチル化感受性制限酵素は、非メチル化CpG配列を切断し得る。前述の実施形態のいずれかでは、メチル化感受性制限酵素は、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIのうちの1つまたは複数であり得る。
前述の実施形態のいずれかでは、方法は、対象ががんを有する可能性を決定するステップをさらに含み得る。例えば、シーケンシングすることが、複数のシーケンシング読み取りデータを生成し得る場合、方法は、複数の配列読み取りデータを1つまたは複数の参照配列にマッピングして、マッピングされた配列読み取りデータを生成するステップ、ならびに配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するマッピングされた配列読み取りデータをプロセシングして、対象ががんを有する可能性を決定するステップをさらに含み得る。
前述の実施形態のいずれかでは、試験対象は、がんを有すると以前に診断されており、1つまたは複数の以前のがん処置を受けていてもよく、必要に応じてcfDNAは、1つまたは複数の以前のがん処置後の1つまたは複数の事前に選択された時点で得られ、cfDNA分子の捕捉されたセットをシーケンシングして、それによって配列情報のセットが産生される。そのような方法は、配列情報のセットを使用して、事前に選択された時点で腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を検出するステップをさらに含み得る。そのような方法は、試験対象の腫瘍細胞を起源とするまたはそれに由来するDNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含んでもよく、必要に応じてがん再発スコアに基づいてがん再発ステータスを決定するステップをさらに含み、試験対象のがん再発ステータスは、がん再発スコアが既定の閾値もしくはそれより上であると決定される場合にがん再発のリスクがあると決定され、または試験対象のがん再発ステータスは、がん再発スコアが既定の閾値より下である場合にがん再発のリスクが低いと決定される。そのような方法は、試験対象のがん再発スコアを、既定のがん再発閾値と比較するステップをさらに含んでもよく、試験対象は、がん再発スコアががん再発閾値より上である場合、その後のがん処置の候補であると分類され、がん再発スコアががん再発閾値より下である場合、その後のがん処置の候補ではないと分類される。
別の態様では、本開示は、少なくとも1つの電子プロセッサーによって実行される場合に、(a)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、生体試料がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに(c)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ、を含む方法を実施する非一時的コンピュータ実行可能命令を含むコンピュータ可読媒体を含むまたはそれにアクセスすることが可能なコントローラーを含むシステムを提供する。一部の実施形態では、方法は、(c)の前に、複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップをさらに含む。一部の実施形態では、方法は、(b)の前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップをさらに含む。一部の実施形態では、方法は、メチル化状態を決定するステップの前に、複数の分配セット中の核酸分子の少なくとも一部を富化するステップであって、核酸分子の少なくとも1つの部分が1つまたは複数の分配セット中に消化された核酸分子を含む、ステップをさらに含む。
別の態様では、本開示は、少なくとも1つの電子プロセッサーによって実行される場合に、a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ、を含む方法を実施する非一時的コンピュータ実行可能命令を含むコンピュータ可読媒体を含むまたはそれにアクセスすることが可能なコントローラーを含むシステムを提供する。一部の実施形態では、方法は、(b)の前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップをさらに含む。
別の態様では、本開示は、少なくとも1つの電子プロセッサーによって実行される場合に、a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップ;(d)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(e)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(f)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ、を含む方法を実施する非一時的コンピュータ実行可能命令を含むコンピュータ可読媒体を含むまたはそれにアクセスすることが可能なコントローラーを含むシステムを提供する。
別の態様では、本開示は、核酸分子のメチル化状態を決定するための方法であって、(a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップ;(d)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(e)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(f)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ、を含む方法を提供する。
別の態様では、本開示は、核酸分子のメチル化状態を決定するための方法であって、(a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ、を含む方法を提供する。一部の実施形態では、方法は、(b)の前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップをさらに含む。
一部の実施形態では、方法は、生体試料中のがんの存在または非存在を検出するステップをさらに含む。一部の実施形態では、方法は、例えば生体試料中のがん細胞からのDNAのレベルを決定することによって、生体試料中のがんのレベルを決定するステップをさらに含む。一部の実施形態では、メチル化状態を決定するステップは、消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む。一部の実施形態では、シーケンシングすることは、次世代シーケンサーによって実施される。一部の実施形態では、1つまたは複数のアダプターは少なくとも1つのタグを含む。一部の実施形態では、アダプターは、メチル化感受性制限酵素による消化に対して抵抗性である。一部の実施形態では、アダプターは、1つまたは複数のメチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含む。一部の実施形態では、アダプターは、メチル化感受性制限酵素に対して抵抗性である1つまたは複数のヌクレオチドアナログ(例えば、ホスホロチオエートなどの、連結の修飾を有するヌクレオチドアナログ)を含む。一部の実施形態では、アダプターは、メチル化感受性制限酵素によって認識されないヌクレオチド配列を含む。一部の実施形態では、アダプターは、方法に使用されるメチル化感受性制限酵素によって認識されるいかなる配列も含まない。一部の実施形態では、タグは分子バーコードを含む。一部の実施形態では、第1の分配セット中の核酸分子に付着した分子バーコードは、第2の分配セット中の核酸分子に付着した分子バーコードとは異なる。一部の実施形態では、第1の分配セットは、第2の分配セットに関して差次的にタグ付けされる。一部の実施形態では、第1の分配タグは、第1の分配セット中の核酸分子に付着し、第2の分配タグは、第2の分配セット中の核酸分子に付着している。
一部の実施形態では、方法は、複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも2つのメチル化感受性制限酵素(MSRE)によって消化するステップを含む。本明細書で使用される場合、2つの(またはそれより多くの)MSREへの言及は、異なる特性(例えば異なる認識配列)を有する2つ(またはそれより多くの)異なるMSREを使用することを意味する。一部の実施形態では、少なくとも2つのメチル化感受性制限酵素は、2つのメチル化感受性制限酵素からなる。一部の実施形態では、2つのメチル化感受性制限酵素は、BstUIおよびHpaIIを含む。一部の実施形態では、2つのメチル化感受性制限酵素は、HhaIおよびAccIIを含む。一部の実施形態では、少なくとも2つのメチル化感受性制限酵素は、3つのメチル化感受性制限酵素を含む。一部の実施形態では、3つのメチル化感受性制限酵素は、BstUI、HpaII、およびHin6Iを含む。一部の実施形態では、メチル化感受性制限酵素は、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される。一部の実施形態では、少なくとも1つのMSREは、非メチル化核酸分子を選択的に消化する。一部の実施形態では、少なくとも1つのMSREは、メチル化核酸分子を選択的に消化する。
一部の実施形態では、メチル化ヌクレオチドは、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンを含む。一部の実施形態では、生体試料は、DNA試料、RNA試料、ポリヌクレオチド試料、無細胞DNA試料、および無細胞RNA試料からなる群から選択される。一部の実施形態では、生体試料は無細胞DNA試料である。一部の実施形態では、無細胞DNAは、1ng~500ngの間である。
一部の実施形態では、分配するステップは、メチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含む核酸分子に優先的に結合する結合剤に対する核酸分子の差次的結合親和性に基づいて核酸分子を分配するステップを含む。一部の実施形態では、結合剤は、メチル結合ドメイン(MBD)タンパク質である。一部の実施形態では、結合剤は、1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体である。一部の実施形態では、目的のゲノム領域は、がん検出のために差次的にメチル化された領域を含む。
一部の実施形態では、方法は、シーケンシングすることの前に、核酸分子の少なくとも一部を増幅するステップをさらに含む(例えば、消化するステップの後、または富化もしくは捕捉するステップの後)。一部の実施形態では、増幅に使用されるプライマーは、少なくとも1つの試料インデックスを含む。一部の実施形態では、MSREによって消化された核酸分子は増幅されない。一部のそのような実施形態では、MSREによって消化された核酸を除く、試料中の本質的に全ての核酸分子が増幅される。
一部の実施形態では、1つまたは複数の遺伝子座は、複数の遺伝子座を含む。一部の実施形態では、複数の遺伝子座は、1つまたは複数のゲノム領域を含む。
一部の実施形態では、方法は、複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも2つのメチル化感受性制限酵素によって消化するステップを含む。一部の実施形態では、少なくとも2つのメチル化感受性制限酵素は、2つのメチル化感受性制限酵素からなる。一部の実施形態では、2つのメチル化感受性制限酵素は、BstUIおよびHpaIIを含む。一部の実施形態では、2つのメチル化感受性制限酵素は、HhaIおよびAccIIを含む。一部の実施形態では、少なくとも2つのメチル化感受性制限酵素は、3つのメチル化感受性制限酵素を含む。一部の実施形態では、3つのメチル化感受性制限酵素は、BstUI、HpaII、およびHin6Iを含む。一部の実施形態では、メチル化感受性制限酵素は、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される。一部の実施形態では、少なくとも1つのMSREは、非メチル化核酸分子を選択的に消化する。一部の実施形態では、少なくとも1つのMSREは、メチル化核酸分子を選択的に消化する。
本発明の各々およびあらゆる態様の一部の実施形態では、本明細書に開示されるシステムおよび/または方法の結果は、報告書を作成するための入力として使用される。報告書は、書面であっても電子フォーマットであってもよい。例えば、本明細書に開示される方法またはシステムによって決定されたがんの存在または非存在に関する情報を、そのような報告書に表示することができる。あるいはまたはさらに、報告書は、エピジェネティック特色のエピジェネティック率、例えばそれらが、調整されたエピジェネティック率閾値より上であるかまたは下であるかに関する情報を含み得る。本明細書に開示される方法またはシステムは、試料が由来する対象または医療従事者などの第三者に報告書を伝達するステップをさらに含み得る。
本明細書に開示される方法の様々なステップまたは本明細書に開示されるシステムによって実行されるステップは、同じ時間もしくは異なる時間、および/または同じ地理的場所もしくは異なる地理的場所、例えば国で実行され得る。本明細書に開示され方法の様々なステップは、同じ人または異なる人々によって実施され得る。
本開示の追加の態様および利点は、本開示の単なる例証的な実施形態が示され、説明される以下の詳細な説明から当業者に容易に明らかとなるであろう。認識されるように、本開示は、他のおよび異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく様々な明白な点で改変することが可能である。したがって、図面および説明は、本質的に例証的であり、限定的ではないとみなされるべきである。
本明細書に組み込まれ、一部を構成する添付の図面は、ある特定の実施形態を例証し、書面での説明と共に、本明細書に開示される方法、コンピュータ可読媒体、およびシステムのある特定の原理を説明するために役立つ。本明細書に提供される説明は、例として含まれ、決して限定的ではない添付の図面と併せて読むと、よりよく理解される。類似の参照数字は、文脈が特に示していない限り、図面全体を通して類似の構成要素を同定すると理解される。同様に、図の一部または全ては、例証目的のための概略図であり得、示される要素の実際の相対的なサイズまたは場所を必ずしも描写していないことも理解される。
図1は、制限酵素(RE)認識部位が非メチル化ヌクレオチドを含有する場合に、DNAを消化/切断するメチル化感受性制限酵素(MSRE)の概略図(上)、および制限酵素(RE)認識部位がメチル化ヌクレオチドを含有する場合に、DNAを切断しないメチル化感受性制限酵素(MSRE)の概略図(下)である。このように、図1は、非メチル化ヌクレオチドを含む認識部位を選択的に消化するが、一般的にメチル化ヌクレオチドを含む認識部位を消化しない1つのタイプのMSREを示す。
図2は、本開示の実施形態に従う、対象から得られたポリヌクレオチド試料中の核酸分子のメチル化状態を決定するための方法のフローチャート表示である。
図3は、本開示の実施形態に従う、対象におけるがんの存在または非存在を検出するための方法のフローチャート表示である。
図4は、本開示のある特定の実施形態に従う、対象におけるがんの存在または非存在を検出するための方法の概略図である。
本開示の一部の実施形態による使用にとって好適なシステムの例の概略図。
図6は、正常試料および希釈したCRC試料におけるMSRE処置ありおよびなしでの3つの分配中の分子数を示す。
図7は、初期結腸直腸がんを有する対象からの3つの試料(「初期CRC」)および3人の健康な対象(「正常」)に関する、実施例3に記載したように得られたCpGメチル化定量結果を示す。初期CRCプロットに関して、MAFは、変異型アレル分画を示す。
図8A~Dは、実施例4に記載したように、表記の酵素および緩衝液条件に関するFspEIパリンドローム部位を有する陽性および陰性対照分子の数を示す。図8Aおよび8Cは、第1のドナーに対応し、図8Bおよび8Dは第2のドナーに対応する。データ点を、読みやすいように水平軸に沿って分布させる。 図8A~Dは、実施例4に記載したように、表記の酵素および緩衝液条件に関するFspEIパリンドローム部位を有する陽性および陰性対照分子の数を示す。図8Aおよび8Cは、第1のドナーに対応し、図8Bおよび8Dは第2のドナーに対応する。データ点を、読みやすいように水平軸に沿って分布させる。
図9A~Dは、実施例4に記載されるように消化効率および陽性対照分子数を示す。 図9A~Dは、実施例4に記載されるように消化効率および陽性対照分子数を示す。
図10A~Jは、実施例5に記載されるように表記の条件に関する低メチル化可変標的領域(「低VTR」)分子数(10A~E)または低VTR/陰性対照分子比(10F~J)を示す。データ点を、読みやすいように水平軸に沿って分布させる。三角、丸、プラス記号、および四角は、正常なcfDNAの起源が、それぞれ4人の健康なドナーの1番目、2番目、3番目、または4番目の人であったことを示す。 図10A~Jは、実施例5に記載されるように表記の条件に関する低メチル化可変標的領域(「低VTR」)分子数(10A~E)または低VTR/陰性対照分子比(10F~J)を示す。データ点を、読みやすいように水平軸に沿って分布させる。三角、丸、プラス記号、および四角は、正常なcfDNAの起源が、それぞれ4人の健康なドナーの1番目、2番目、3番目、または4番目の人であったことを示す。
定義
本開示がより容易に理解されるように、ある特定の用語を以下にまず定義する。以下の用語および他の用語の追加の定義は、本明細書を通して記載され得る。以下に記載した用語の定義が、参照により組み込まれる出願または特許における定義と一致しない場合は、本出願に記載した定義を使用して、用語の意味を理解すべきである。
本明細書および添付の特許請求の範囲に使用される場合、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈が特に明白に指示していない限り、複数の参照物を含む。このように、例えば、「1つの方法」への言及は、1つまたは複数の方法、本明細書に記載されるタイプのステップおよび/または本開示などを読むことによって明らかとなるステップを含む。
本明細書で使用される用語法は、単に特定の実施形態を記載する目的のためであり、限定することが意図されないこともまた、理解される。さらに、特に定義していない限り、本明細書で使用される全ての技術用語および化学用語は、本開示が属する技術分野の当業者によって一般的に理解される意味と同じ意味を有する。方法、コンピュータ可読媒体、およびシステムを説明および特許請求する場合、以下に記載される定義に従って以下の用語法およびその文法的変化形が使用される。
約:本明細書で使用される場合、目的の1つまたは複数の値または要素に適用される場合の「約」または「およそ」は、記載される参照値または要素と類似である値または要素を指す。ある特定の実施形態では、「約」または「およそ」という用語は、特に記載されていないか、または文脈から特に明白でない限り(そのような数が、可能性がある値または要素の100%を超える場合を除き)、記載の参照値または要素のいずれかの方向(より大きいまたはより小さい)の25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%またはそれ未満の範囲内に入る値または要素の範囲を指す。
アダプター:本明細書で使用される場合、「アダプター」は、典型的に少なくとも部分的に二本鎖であり、所定の試料核酸分子のいずれかの1つの末端または両方の末端に付着している(すなわち、2つのアダプターが核酸の両方の末端に付着しており、つまり1つのアダプターが核酸の1つの末端に付着する)短い核酸(例えば、長さが約500ヌクレオチド未満、約100ヌクレオチド未満、または約50ヌクレオチド未満)を指す。アダプターは、両方の末端でアダプターに隣接する核酸分子の増幅を可能にする核酸プライマー結合部位、および/または様々な次世代シーケンシング(NGS)応用などのシーケンシング応用のためのプライマー結合部位を含む、シーケンシングプライマー結合部位を含み得る。アダプターはまた、捕捉プローブの結合部位、例えばフローセル支持体などに結合したオリゴヌクレオチドも含み得る。アダプターはまた、本明細書に記載される核酸タグも含み得る。核酸タグは典型的に、核酸タグが、所定の核酸分子のアンプリコンおよび配列読み取りデータに含まれるように、増幅プライマーおよびシーケンシングプライマー結合部位に対して配置される。同じまたは異なる配列のアダプターを、核酸分子のそれぞれの末端に連結することができる。一部の実施形態では、同じ配列のアダプターが、核酸タグが異なる場合を除き、核酸分子のそれぞれの末端に連結する。一部の実施形態では、アダプターは、一方の末端が、やはり平滑末端化されるかまたは1つもしくは複数の相補的ヌクレオチドでテールを付加された核酸分子に接合するために、本明細書に記載されるように平滑末端化されるかまたはテールを付加されたY字形状アダプターであり、Y字形状アダプターの他方の末端は、ハイブリダイズして二本鎖を形成しない非相補配列を含む。なお他の例としての実施形態では、アダプターは、解析される核酸分子に接合するために平滑末端またはテールを付加された末端を含むベル形状アダプターである。アダプターの他の例は、TテールおよびCテールアダプターを含む。
増幅する:本明細書で使用される場合、核酸の文脈における「増幅する」、または「増幅」は、増幅生成物またはアンプリコンが一般的に検出可能である、典型的にポリヌクレオチド(例えば、単一のポリヌクレオチド分子)の少量から開始するポリヌクレオチドまたはポリヌクレオチドの一部の複数のコピーの産生を指す。ポリヌクレオチドの増幅は、多様な化学および酵素プロセスを包含する。増幅は、これに限定されないがポリメラーゼ連鎖反応(PCR)を含む。
バーコード:本明細書で使用される場合、核酸の文脈における「バーコード」は、識別子として役立ち得る配列を含む核酸分子を指す。例えば、バーコードは、分子の識別子(すなわち、分子バーコード)、試料の識別子(すなわち、試料バーコード)、または分配の識別子(すなわち、分配バーコード)として役立ち得る。個々の「バーコード」配列は、典型的に、最終データ解析の前に各読み取りデータが同定および選別され得るように、次世代シーケンシング(NGS)ライブラリー調製の間に各DNA断片に付加される。
がんのタイプ:本明細書で使用される場合、「がんのタイプ」は、例えば組織病理学によって定義されるがんのタイプまたはサブタイプを指す。がんのタイプは、任意の従来の基準によって、例えば所定の組織での発生に基づいて(例えば、血液のがん、中枢神経系(CNS)、脳がん、肺がん(小細胞および非小細胞)、皮膚がん、鼻のがん、喉のがん、肝臓がん、骨がん、リンパ腫、膵臓がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、乳がん、前立腺がん、卵巣がん、肺がん、腸管がん、軟部組織がん、神経内分泌がん、胃食道がん、頭頸部がん、婦人科がん、結腸直腸がん、尿路上皮がん、固形状態のがん、不均一ながん、均一ながん)、原発不明など、および/もしくは同じ細胞系列のもの(例えば、癌腫、肉腫、リンパ腫、胆管癌、白血病、中皮腫、黒色腫、または神経膠芽腫)、ならびに/またはがんマーカー、例えばこれらに限定されないがHer2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、ホルモン受容体、およびNMP-22を示すがんによって定義され得る。がんはまた、ステージ(例えば、ステージ1、2、3、または4)、および起源が原発性であるか二次性であるかによっても分類され得る。
捕捉されたセット:本明細書で使用される場合、核酸の「捕捉されたセット」は、捕捉を受けている核酸を指す。
捕捉すること:本明細書で使用される場合、1つまたは複数の標的核酸を「捕捉すること」または「富化すること」は、1つまたは複数の標的核酸を非標的核酸から優先的に単離または分離することを指す。
無細胞核酸:本明細書で使用される場合、「無細胞核酸」は、細胞内に含有されてもそれ以外の方法で細胞に結合してもいない核酸を指し、または一部の実施形態では、インタクトな細胞の除去後に試料に残存している核酸を指す。無細胞核酸は、例えば対象からの体液(例えば、血液、血漿、血清、尿、脳脊髄液(CSF)など)を起源とする全ての非封入核酸を含み得る。無細胞核酸は、DNA(cfDNA)、RNA(cfRNA)、およびそのハイブリッドを含み、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖非コードRNA(長鎖ncRNA)、および/またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またはそのハイブリッドであり得る。無細胞核酸は、分泌または細胞死のプロセス、例えば細胞の壊死、アポトーシスなどを通して体液中に放出され得る。一部の無細胞核酸は、がん細胞から体液中に放出される、例えば循環腫瘍DNA(ctDNA)である。他は、健康な細胞から放出される。CtDNAは、非封入腫瘍由来断片化DNAであり得る。無細胞核酸は、1つまたは複数のエピジェネティック改変を有し得、例えば無細胞核酸はアセチル化、5-メチル化、および/またはヒドロキシメチル化され得る。
細胞核酸:本明細書で使用される場合、「細胞核酸」は、たとえそれらの核酸が所定の解析プロセスの一部としてその後に除去されたとしても(例えば、細胞溶解を介して)、少なくとも試料が対象から採取または収集された時点で、核酸が起源とする1つまたは複数の細胞内に配置されている核酸を意味する。
標的領域セットに対応する:本明細書で使用される場合、「標的領域セットに対応する」は、cfDNAなどの核酸が、標的領域セットの座を起源とするか、または標的領域セットの1つもしくは複数のプローブに特異的に結合することを意味する。
カバレッジ:本明細書で使用される場合、「カバレッジ」、「総分子数」、または「総対立遺伝子数」という用語は、互換的に使用される。それらは、所定の試料中の特定のゲノム位置でのDNA分子の総数を指す。
デオキシリボ核酸またはリボ核酸:本明細書で使用される場合、「デオキシリボ核酸」または「DNA」は、糖部分の2’位で水素基を有する天然または改変ヌクレオチドを指す。DNAは、典型的に4つのタイプのヌクレオチド塩基;アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)を含むヌクレオチドの鎖を含む。本明細書で使用される場合、「リボ核酸」または「RNA」は、糖部分の2’位でヒドロキシル基を有する天然または改変ヌクレオチドを指す。RNAは、典型的に4つのタイプのヌクレオチド塩基;A、ウラシル(U)、G、およびCを含むヌクレオチドの鎖を含む。本明細書で使用される場合、「ヌクレオチド」という用語は、天然のヌクレオチドまたは改変ヌクレオチドを指す。ある特定のヌクレオチド対は、相補的に互いに特異的に結合する(相補的塩基対形成と呼ばれる)。DNAでは、アデニン(A)はチミン(T)と対を形成し、シトシン(C)はグアニン(G)と対を形成する。RNAでは、アデニン(A)はウラシル(U)と対を形成し、シトシン(C)はグアニン(G)と対を形成する。第1の核酸鎖が、第1の鎖のヌクレオチドと相補的であるヌクレオチドで構成される第2の核酸鎖に結合する場合、2つの鎖は結合して二本鎖を形成する。本明細書で使用される場合、「シーケンシングデータ」「核酸シーケンシング情報」、「配列情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「配列読み取りデータ」、または「シーケンシング読み取りデータ」は、核酸、例えばDNAまたはRNAの分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序および同一性を示す任意の情報またはデータを示す。本教示は、これらに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的ヌクレオチド同定システム、パイロシーケンシング、イオンまたはpHに基づく検出システム、および電子シグネチャーに基づくシステムを含む、全ての利用可能な多様な技術、プラットフォーム、またはテクノロジーを使用して得られた配列情報を企図すると理解すべきである。
消化効率:本明細書で使用される場合、「消化効率」、または「切断効率」は、制限酵素消化の効率を指す。消化効率は、制限酵素によって消化された場合に観察される対照分子の数および制限酵素消化の非存在下で観察された対照分子の数に基づいて計算することができる。MSRE消化効率は、以下によって計算することができる:効率=1-(陰性対照分子[MSRE]の数/陰性対照分子[Mock]の数)。MDRE(メチル化DNAを優先的に切断するMSRE、メチル化依存性制限酵素とも呼ばれる)の消化効率は以下によって計算することができる:効率=1-(陽性対照分子[MDRE]の数/陽性対照分子[Mock]の数]。
DNA配列:本明細書で使用される場合、「DNA配列」、または「配列」は、「生の配列読み取りデータ」、および/または「コンセンサス配列」を指す。生の配列読み取りデータは、DNAシーケンサーの出力であり、典型的に例えば増幅後に同じ親分子の重複配列を含む。「コンセンサス配列」は、元の親分子の配列を表すことが意図される親分子の重複配列に由来する配列である。コンセンサス配列は、単一の位置での塩基同一性を含む。一部の実施形態では、コンセンサス配列は、特定のゲノム位置で単一のヌクレオチド塩基を表すことができる。一部の実施形態では、コンセンサス配列は、複数のゲノム位置で一連のヌクレオチド塩基を表すことができる。コンセンサス配列は、投票(各々の大多数のヌクレオチド、例えば配列中の所定の塩基位置で最も一般的に観察されるヌクレオチドがコンセンサスヌクレオチドである)、または他のアプローチ、例えば参照ゲノムと比較することによって産生することができる。コンセンサス配列は、タグを追跡することおよび/または配列読み取りデータ内部情報の使用によって子孫配列の追跡を可能にする(例えば、増幅後)一意的または非一意的分子タグによって、元の親分子をタグ付けすることによって産生することができる。タグ付けまたはバーコード化の例およびタグまたはバーコードの使用の例は、例えば、その各々の全体が参照により本明細書に組み込まれる、米国特許出願公開第2015/0368708号、第2015/0299812号、第2016/0040229号、および第2016/0046986号に提供される。
富化試料:本明細書で使用される場合、「富化試料」は、目的の特定の領域に関して富化されている試料を指す。試料は、目的の領域を増幅することによって、または目的の核酸分子にハイブリダイズすることができる一本鎖DNA/RNAプローブもしくは二本鎖DNAプローブ(例えば、SureSelect(登録商標)プローブ、Agilent Technologies)を使用することによって富化することができる。一部の実施形態では、富化試料は、富化されるプロセシングされた試料のサブセットまたは一部を指し、富化されるプロセシングされた試料のサブセットまたは一部は、無細胞ポリヌクレオチドまたはポリヌクレオチドの試料からの核酸分子を含有する。
エピジェネティック特徴:本明細書で使用される場合、「エピジェネティック特徴」は、そのDNA分子のエピジェネティック特色の解析において使用することができるDNA分子の任意の直接観察可能な測定を指す。例えば、エピジェネティック特色がメチル化である場合には、DNA分子のエピジェネティック特徴は、これらに限定されないが、DNA分子の分配、DNA分子中のCpG残基の数、およびDNA分子の場所(またはオフセット)を指すことができる。例えば、エピジェネティック特色がフラグメントームシグナルである場合には、エピジェネティック特徴は、これらに限定されないが、cfDNA分子の長さ、cfDNA分子の場所(またはオフセット)-cfDNA分子の開始および/または終止位置であり得る。
エピジェネティック特色:本明細書で使用される場合、「エピジェネティック特色」は、核酸の非配列改変を表し得、同様にクロマチン改変も含む任意のパラメーターを指す。これらの改変は、DNAの配列を変化させない。エピジェネティック特色は、これらに限定されないが、メチル化状態;フラグメントームシグナル;ヌクレオソームの位置/分布、CTCFタンパク質、転写開始部位、調節タンパク質、およびDNAに結合し得る任意の他のタンパク質を含み得る。
エピジェネティック標的領域セット:本明細書で使用される場合、「エピジェネティック標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)および非腫瘍細胞(例えば、免疫細胞、腫瘍微小環境からの細胞)における非配列改変を表し得る標的領域のセットを指す。これらの改変は、DNAの配列を変化させない。非配列改変変化の例としては、これらに限定されないが、メチル化の変化(増加または減少)、ヌクレオソーム分布、CTCF結合、転写開始部位、調節タンパク質結合領域、およびDNAに結合し得る任意の他のタンパク質が挙げられる。本目的に関して、新生物、腫瘍、もしくはがん関連局所増幅および/または遺伝子融合を受けやすい座もまた、エピジェネティック標的領域セットに含まれ得るが、その理由は、シーケンシングによるコピー数の変化または参照ゲノムにおける1つより多くの座にマッピングされる融合配列の検出が、例えば、局所増幅および/または遺伝子融合がその検出が1つまたは少数の個々の位置でのベースコールの精度に依存しないために比較的浅いシーケンシング深度で検出され得るという点で、ヌクレオチド置換、挿入、または欠失の検出よりも、上記で考察される例示的なエピジェネティック変化の検出に類似する傾向があるためである。例えば、エピジェネティック標的領域セットは、断片の長さまたは断片のエンドポイントの場所の分布を解析するための標的領域のセットを含み得る。一部の実施形態では、エピジェネティック標的領域セットは、これらの領域におけるcfDNA分子のエピジェネティック状態(例えば、メチル化状態)ががんにおいて不変であるが、血液中のその存在/数量が、ある特定の組織(例えば、がんの起源)から循環中へのcfDNAの異常な提示の増加を示す、1つまたは複数のゲノム領域を含む。「エピジェネティック」および「エピゲノム」という用語は、本明細書で互換的に使用される。
フラグメントームシグナル:本明細書で使用される場合、「フラグメントームシグナル」は、特定のゲノム領域でのcfDNA断片サイズおよびcfDNA断片位置の分布を指す。フラグメントームシグナルは、これらに限定されないが、cfDNA断片長、cfDNA分子の開始および/または終止位置(断片のサイズカバレッジ)を含み得る。フラグメントームシグナルはまた、DNA分子エンドポイントがゲノムの場所(特定の位置周辺の目的の特定の位置または領域)で起こる頻度も含み得る。フラグメントームシグナルはまた、DNA分子のヌクレオソームの位置付けも含み得る。一部の実施形態では、フラグメントームシグナルは、DNA分子のエンドポイント情報を含むが、DNA分子の長さのパラメーターを必ずしも含む必要はない。
ゲノム領域:本明細書で使用される場合、「ゲノム領域」は、ゲノム、例えば染色体、染色体アーム、遺伝子、またはエクソンの任意の領域(例えば、塩基対の場所の範囲)を指す。ゲノム領域は、連続領域であっても不連続領域であってもよい。「遺伝子座」(または「座」)は、ゲノム領域(例えば遺伝子、遺伝子の一部、または遺伝子の単一のヌクレオチド)の一部または全体であり得る。一部の実施形態では、ゲノム領域のサイズは、最大で染色体/染色体アームまたは位相幾何学的に関連するドメイン(TAD)の長さを含む。一部の実施形態では、ゲノム領域のサイズは、領域(例えば、転写単位または調節単位)の生物活性に限定され得る。
高メチル化:本明細書で使用される場合、「高メチル化」は、核酸分子の集団(例えば、試料)内の他の核酸分子と比較した、増加したレベルまたは程度の核酸分子のメチル化を指す。一部の実施形態では、高メチル化は、非腫瘍試料中の同じゲノム領域からの核酸分子のメチル化の程度と比較した腫瘍試料中の特定のゲノム領域からの核酸分子のメチル化のレベルまたは程度の増加を指す。一部の実施形態では、高メチル化DNAは、少なくとも1個のメチル化された残基、少なくとも2個のメチル化された残基、少なくとも3個のメチル化された残基、少なくとも5個のメチル化された残基、少なくとも10個のメチル化された残基、少なくとも20個のメチル化された残基、少なくとも25個のメチル化された残基、または少なくとも30個のメチル化された残基を含むDNA分子を含み得る。
低メチル化:本明細書で使用される場合、「低メチル化」は、核酸分子の集団(例えば、試料)内の他の核酸分子と比較した、減少したレベルまたは程度の核酸分子のメチル化を指す。一部の実施形態では、低メチル化DNAは、非メチル化DNA分子を含む。一部の実施形態では、低メチル化は、非腫瘍試料中の同じゲノム領域からの核酸分子のメチル化の程度と比較した腫瘍試料中の特定のゲノム領域からの核酸分子のメチル化のレベルまたは程度の減少を指す。一部の実施形態では、低メチル化DNAは、0個のメチル化された残基、多くて1個のメチル化された残基、多くて2個のメチル化された残基、多くて3個のメチル化された残基、多くて4個のメチル化された残基、または多くて5個のメチル化された残基を含むDNA分子を含み得る。
メチル化:本明細書で使用される場合、「メチル化」または「DNAメチル化」は、CpG部位(シトシン-リン酸-グアニン部位、すなわち核酸配列の5’→3’方向にシトシンの後にグアニン)でのシトシンに対するメチル基の存在を指すことができる。一部の実施形態では、DNAメチル化は、アデニンに対するメチル基の付加、例えばN-メチルアデニンにおけるものを含む。一部の実施形態では、DNAメチル化は、5-メチル化(シトシンの6-炭素環の5番目の炭素の改変)である。一部の実施形態では、5-メチル化は、5-メチルシトシン(m5c)を作製するためのシトシンの5C位へのメチル基の付加を含む。一部の実施形態では、メチル化は、m5cの誘導体を含む。m5cの誘導体としては、これらに限定されないが、5-ヒドロキシメチルシトシン(5-hmC)、5-ホルミルシトシン(5-fC)、および5-カルボキシルシトシン(caryboxylcytosine)(5-caC)が挙げられる。一部の実施形態では、DNAメチル化は、3Cメチル化(シトシンの6-炭素環の3番目の炭素の改変)である。一部の実施形態では、3Cメチル化は、3-メチルシトシン(3mC)を生成するためのシトシンの3C位へのメチル基の付加を含む。メチル化はまた、非CpG部位でも起こり得、例えばメチル化は、CpA、CpT、またはCpC部位で起こり得る。DNAメチル化は、メチル化DNA領域の活性を変化させることができる。例えば、プロモーター領域のDNAがメチル化されると、遺伝子の転写は抑制され得る。DNAメチル化は、正常な発達にとって極めて重要であり、メチル化の異常は、エピジェネティック調節を破壊し得る。エピジェネティック調節の破壊、例えば抑制は、がんなどの疾患を引き起こし得る。DNAにおけるプロモーターのメチル化は、がんを示し得る。
メチル化感受性制限酵素(MSRE):本明細書で使用される場合、「メチル化感受性制限酵素」または「MSRE」は、DNAのメチル化状態(例えば、シトシンメチル化)に対して感受性である、すなわちヌクレオチド塩基におけるメチル基の存在または非存在が、酵素が標的DNAを切断する速度を変更する、制限酵素を指す。一部の実施形態では、メチル化感受性制限酵素は、特定のヌクレオチド塩基が認識配列でメチル化されている場合、DNAを切断しない。例えば、HpaIIは、認識配列「CCGG」を有するメチル化感受性制限酵素であり、認識配列中の第2のシトシンがメチル化されている場合、DNAを切断しない。一部の実施形態では、メチル化感受性制限酵素は、特定のヌクレオチド塩基が認識配列でメチル化されている場合、DNAを切断する。例えば、SgeIは、認識配列「5mCNNG(N)」を有するメチル化感受性制限酵素であり、認識配列中のシトシンがメチル化されている場合(5mC)、DNAを切断する。別の例として、FspEIは、認識配列「C5mC(N)12」を有するメチル化感受性制限酵素であり、認識配列中の表記のシトシンがメチル化されている場合(5mC)、DNAを切断する。図1は、制限酵素(RE)認識部位が非メチル化ヌクレオチドを含有する場合に、DNAを消化/切断するメチル化感受性制限酵素(MSRE)の概略図(上)、および制限酵素(RE)認識部位(破線の枠)がMSREの活性に影響を及ぼす位置でメチル化ヌクレオチドを含有する場合に、DNAを切断しないメチル化感受性制限酵素(MSRE)の概略図(下)である。一部の実施形態では、MSREの酵素活性は、同じ認識部位の非メチル化型と比較してメチル化認識部位に対して少なくとも10、20、50、または100倍高い。一部の実施形態では、MSREの酵素活性は、同じ認識部位のメチル化型と比較して非メチル化認識部位に対して少なくとも10、20、50、または100倍高い。
メチル化状態:本明細書で使用される場合、「メチル化状態」は、核酸分子中の特定のゲノム位置のDNA塩基(例えばシトシン)上のメチル基の存在または非存在を指すことができる。これはまた、核酸配列中のメチル化の程度(例えば、高メチル化、低メチル化、中間メチル化、または非メチル化核酸分子)も指し得る。メチル化状態はまた、特定の核酸分子においてメチル化されたヌクレオチドの数も指し得る。
突然変異:本明細書で使用される場合、「突然変異」は、公知の参照配列からの変異を指し、例えば単一ヌクレオチド変異体(SNV)、および挿入または欠失(インデル)などの突然変異を含む。突然変異は、生殖系列または体細胞突然変異であり得る。一部の実施形態では、比較目的のための参照配列は、試験試料を提供する対象の種の野生型ゲノム配列、典型的にヒトゲノムである。
新生物:本明細書で使用される場合、「新生物」および「腫瘍」という用語は、互換的に使用される。それらは、対象における細胞の異常な成長を指す。新生物または腫瘍は、良性、おそらく悪性、または悪性であり得る。悪性腫瘍は、がんまたはがん様腫瘍と呼ばれる。
次世代シーケンシング:本明細書で使用される場合、「次世代シーケンシング」または「NGS」は、従来のサンガーおよびキャピラリー電気泳動に基づくアプローチと比較して増加した処理能力を有する、例えば一度に何十万もの比較的小さい配列読み取りデータを生成する能力を有するシーケンシングテクノロジーを指す。次世代シーケンシング技術の一部の例としては、これらに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが挙げられる。一部の実施形態では、次世代シーケンシングは、単一の分子をシーケンシングすることが可能な機器の使用を含む。次世代シーケンシングを実施するための市販の機器の例としては、これらに限定されないが、NextSeq、HiSeq、NovaSeq、MiSeq、Ion PGM、およびIon GeneStudio S5が挙げられる。
核酸タグ:本明細書で使用される場合、「核酸タグ」は、異なる試料からの核酸(例えば、試料インデックスを表す)を識別するため、異なる分配からの核酸(例えば、分配タグを表す)、または異なるタイプのもしくは異なるプロセシングを受けている同じ試料中の異なる核酸分子(例えば、分子バーコードを表す)を識別するために使用される短い核酸(例えば、長さが約500ヌクレオチド未満、約100ヌクレオチド未満、約50ヌクレオチド未満、または約10ヌクレオチド未満)を指す。核酸タグは、既定の、固定された、非ランダム、ランダム、または半ランダムオリゴヌクレオチド配列を含む。そのような核酸タグは、異なる核酸分子または異なる核酸試料もしくは部分試料を標識するために使用され得る。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。核酸タグは、必要に応じて同じ長さまたは多様な長さを有する。核酸タグはまた、1つもしくは複数の平滑末端を有する二本鎖分子を含み、5’もしくは3’一本鎖領域(例えば、オーバーハング)を含み、および/または所定の分子内の他の場所で1つもしくは複数の他の一本鎖領域を含み得る。核酸タグは、他の核酸(例えば、増幅および/またはシーケンシングされる試料核酸)の1つの末端または両方の末端に付着させることができる。核酸タグは、所定の核酸の起源の試料、形態、またはプロセシングなどの情報を明らかにするために復号することができる。例えば、核酸タグはまた、核酸タグを検出する(例えば、読み取る)ことによって核酸がその後にデコンボリュートされる、異なる分子バーコードおよび/または試料インデックスを有する核酸を含む複数の試料のプールおよび/または並列プロセシングを可能にするためにも使用することができる。核酸タグはまた、識別子(例えば、分子識別子、試料識別子)とも呼ばれ得る。さらに、またはあるいは、核酸タグは分子識別子(例えば、異なる分子、または同じ試料もしくは部分試料中の異なる親分子のアンプリコンの間を識別するために)として使用することができる。これは、例えば、所定の試料中の異なる核酸分子を一意的にタグ付けすること、またはそのような分子を非一意的にタグ付けすることを含む。非一意的タグ付け応用の場合、限定数のタグ(すなわち、分子バーコード)を使用して、異なる分子を、少なくとも1つの分子バーコードと組み合わせてその内因性の配列情報(例えば、それらが選択された参照ゲノムにマッピングされる開始および/もしくは終止位置、配列の一方もしくは両方の末端の部分配列、ならびに/または配列の長さ)に基づいて識別することができるように、各核酸分子をタグ付けしてもよい。典型的に、任意の2つの分子が同じ内因性の配列情報(例えば、開始および/もしくは終止位置、配列の一方もしくは両方の末端の部分配列、ならびに/または長さ)を有し得る確率、同様に同じ分子バーコードを有し得る確率が低くなるように(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の見込み)、十分数の異なる分子バーコードを使用する。
分配すること:本明細書で使用される場合、「分配すること」は、核酸分子の特徴に基づいて試料中の核酸分子の混合物を物理的に分離、または分画することを指す。分配は、分子の物理的分配であり得る。分配は、エピジェネティック特色(例えば、メチル化に関する)レベルに基づいて、核酸分子を群またはセットに分離することを伴い得る。例えば、核酸分子を、核酸分子のメチル化のレベルに基づいて分配することができる。一部の実施形態では、分配に使用される方法およびシステムは、その全体がこれにより参照により本明細書に組み込まれる、PCT特許出願第PCT/US2017/068329号に見出され得る。分配後、分離または分画された核酸分子の群またはセットもまた、本明細書において分画、分配、または分配セットと呼ばれる。
分配セット:本明細書で使用される場合、「分配セット」または「分配」は、核酸分子または核酸分子と会合したタンパク質の結合剤に対する差次的結合親和性に基づいてセットまたは群に分配された核酸分子のセットを指す。結合剤は、エピジェネティック改変を有するヌクレオチドを含む核酸分子に優先的に結合する。例えば、エピジェネティック改変がメチル化である場合、結合剤は、メチル結合ドメイン(MBD)タンパク質であり得る。一部の実施形態では、分配セットは、エピジェネティック特色(例えば、メチル化に関する)の特定のレベルまたは程度に属する核酸分子を含み得る。例えば、核酸分子を、3つのセット、すなわち高メチル化核酸分子の1つのセット(高分配セットまたは高メチル化分配セット)、低メチル化核酸分子の第2のセット(低分配セットまたは低メチル化分配セット)、および中間メチル化核酸分子の第3のセット(中間分配セットまたは中間メチル化分配セット)に分配することができる。別の例では、核酸分子を、メチル化ヌクレオチドの数に基づいて分配することができ、1つの分配セットは、9個のメチル化ヌクレオチドを有する核酸分子を有し得、別の分配セットは、非メチル化核酸分子(ゼロメチル化ヌクレオチド)を有し得る。
ポリヌクレオチド:本明細書で使用される場合、「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の連結によって接合したヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはそのアナログを含む)の線形ポリマーを指す。典型的に、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドはしばしば、少数の単量体単位、例えば3~4から数百もの単量体単位のサイズの範囲である。ポリヌクレオチドが文字の配列、例えば「ATGCCTG」によって表される場合は必ず、ヌクレオチドは、左から右に5’→3’の順であり、DNAの場合、特に記載されていない限り、「A」はデオキシアデノシンを示し、「C」は、デオキシシチジンを示し、「G」は、デオキシグアノシンを示し、「T」は、デオキシチミジンを示す。文字A、C、G、およびTは、塩基そのもの、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用され得る。
プロセシング:本明細書で使用される場合、「プロセシング」は、シーケンシングにとって好適である核酸のライブラリーを生成するために使用されるステップのセットを指す。ステップのセットは、これらに限定されないが、分配するステップ、末端修復するステップ、シーケンシングアダプターの付加、タグ付けするステップ、および/または核酸のPCR増幅を含み得る。
定量的測定:本明細書で使用される場合、「定量的測定」は、絶対的または相対的測定を指す。定量的測定は、これらに限定されないが、数、統計学的測定(例えば、頻度、平均値、中央値、標準偏差、または分位数)、または程度もしくは相対的数量(例えば、高、中、および低)であり得る。定量的測定は、2つの定量的測定の比であり得る。定量的測定は、定量的測定の線形の組合せであり得る。定量的測定は正規化した測定であり得る。
参照配列:本明細書で使用される場合、「参照配列」は、実験によって決定した配列と比較する目的のために使用される公知の配列を指す。例えば、公知の配列は、全ゲノム、染色体、またはその任意のセグメントであり得る。参照配列は、ゲノム、もしくは染色体、もしくは染色体アームの単一の連続する配列と整列することができるか、またはゲノムもしくは染色体の異なる領域と整列する非連続セグメントを含み得る。参照配列の例としては、例えばヒトゲノム、例えばhg19およびhg38が挙げられる。
制限酵素:本明細書で使用される場合、「制限酵素」は、特異的認識部位またはその付近でDNAを認識し、切断する酵素である。
試料:本明細書で使用される場合、「試料」は、本明細書に開示される方法および/またはシステムによって解析されることが可能な任意のものを意味する。
シーケンシング:本明細書で使用される場合、「シーケンシング」は、生体分子、例えばDNAまたはRNAなどの核酸の配列(例えば、同一性および単量体単位の順序)を決定するために使用されるいくつかのテクノロジーのいずれかを指す。シーケンシング方法の例としては、これらに限定されないが、標的化シーケンシング、一分子リアルタイムシーケンシング、エクソンまたはエクソームシーケンシング、イントロンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスタ媒介シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガージデオキシターミネーションシーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、二重鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、超並列シグネチャーシーケンシング、エマルジョンPCR、より低い変性温度での同時増幅-PCR(COLD-PCR)、マルチプレックスPCR、可逆的色素ターミネーターによるシーケンシング、ペアードエンドシーケンシング、ニアターム(near-term)シーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバースターミネーターシーケンシング、ナノポアシーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS-PETシーケンシング、およびそれらの組合せが挙げられる。一部の実施形態では、シーケンシングは、遺伝子アナライザー、数ある中でも例えばIllumina,Inc.、Pacific Biosciences,Inc.、またはApplied Biosystems/Thermo Fisher Scientificなどから市販されている遺伝子アナライザーによって実施され得る。
配列情報:本明細書で使用される場合、核酸ポリマーの文脈における「配列情報」は、そのポリマーにおける単量体単位(例えば、ヌクレオチドなど)の順序および同一性を意味する。
配列可変標的領域セット:本明細書で使用される場合、「配列可変標的領域セット」は、新生物細胞(例えば、腫瘍細胞およびがん細胞)におけるヌクレオチド置換、挿入、欠失、または遺伝子融合もしくは転位などの配列の変化を示し得る標的領域のセットを指す。一部の実施形態では、ヌクレオチド置換は、単一ヌクレオチド変異である。
体細胞突然変異:本明細書で使用される場合、「体細胞突然変異」または「体細胞変異」という用語は、互換的に使用される。それらは、受胎後に起こるゲノムの突然変異を指す。体細胞突然変異は、生殖細胞を除く体の任意の細胞で起こり得、したがって子孫に受け継がれない。
特異的に結合する:本明細書で使用される場合、プローブまたは他のオリゴヌクレオチドおよび標的配列の文脈における「特異的に結合する」は、適切なハイブリダイゼーション条件下で、オリゴヌクレオチドまたはプローブがその標的配列またはその複製物にハイブリダイズして安定なプローブ:標的ハイブリッドを形成するが、同時に安定なプローブ:非標的ハイブリッドの形成は最小限であることを意味する。このように、プローブは、非標的配列に対してよりも十分に大きい程度に標的配列またはその複製物にハイブリダイズして、標的配列の捕捉または検出を可能にする。適切なハイブリダイゼーション条件は、当技術分野で周知であり、配列組成に基づいて予測され得るか、または通常の試験方法を使用することにより決定され得る(例えば、参照により本明細書に組み込まれる、Sambrook et al., Molecular Cloning, A Laboratory Manual, 2nd ed.(Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989)§§ 1.90-1.91, 7.37-7.57, 9.47-9.51および11.47-11.57、特に§§ 9.50-9.51, 11.12-11.13, 11.45-11.47および11.55-11.57を参照されたい)。
対象:本明細書で使用される場合、「対象」は、動物、例えば哺乳動物種(例えば、ヒト)、または鳥類(例えば、鳥)種、または他の生物、例えば植物を指す。より具体的には、対象は脊椎動物、例えば哺乳動物、例えばマウス、霊長類、サル、またはヒトであり得る。動物は、農場動物(例えば、肉牛、乳牛、家禽、ウマ、ブタなど)、競技用動物、およびコンパニオン動物(例えば、ペットまたは介助動物)を含む。対象は、健康な個体、疾患もしくは疾患に対する素因を有するもしくは有することが疑われる個体、または治療を必要とするもしくは治療を必要とすることが疑われる個体であり得る。「個体」または「患者」という用語は、「対象」と互換的であると意図される。例えば、対象は、がんを有すると診断されている、がん治療を受ける予定である、および/または少なくとも1つのがん治療を受けたことがある個体であり得る。対象はがんの寛解期にあり得る。別の例として、対象は、自己免疫疾患を有すると診断された個体であり得る。別の例として、対象は、疾患、例えばがん、自己免疫疾患を有すると診断されているまたは有することが疑われ得る、妊娠中であるまたは妊娠を計画している女性個体であり得る。
標的領域セット:本明細書で使用される場合、「標的領域セット」または「標的領域のセット」、または「標的領域」、または「目的の標的領域」、または「目的の領域」、または「目的のゲノム領域」は、捕捉のために標的化されるおよび/またはプローブのセットによって標的化される(例えば、配列相補性を通して)複数のゲノム座または複数のゲノム領域を指す。
腫瘍分画:本明細書で使用される場合、「腫瘍分画」は、所定の試料または試料-領域対に関する、腫瘍細胞を起源とするcfDNA分子の割合を指す。
「またはその組合せ」(単数および複数)という用語は、本明細書で使用される場合、用語の前に列挙される用語のあらゆる全ての順列および組合せを指す。例えば、「A、B、C、またはそれらの組合せ」は、A、B、C、AB、AC、BC、またはABCのうちの少なくとも1つを含むと意図され、特定の文脈において順序が重要である場合、BA、CA、CB、ACB、CBA、BCA、BAC、またはCABも含むと意図される。この例を続けると、1つまたは複数の項目または用語の反復、例えばBB、AAA、AAB、BBC、AAABCCCC、CBBAAA、CABABBなどを含有する組合せが明白に含まれる。当業者は、文脈から特に明白でない限り、典型的に任意の組合せにおける項目または用語の数に制限はないことを理解するであろう。
「または」は、包括的な意味で使用され、すなわち文脈が特に必要としていない限り、「および/または」と等価である。
詳細な説明
本発明のある特定の実施形態を、本明細書で記載する。本発明は、そのような実施形態と併せて説明されるが、それらは本発明をそれらの実施形態に限定すると意図されないことが理解される。逆に、本発明は、添付の特許請求の範囲によって定義される本発明内に含まれ得る全ての代替物、改変、および等価物を網羅することが意図される。
数値範囲は、範囲を定義する数値を含む。測定されたおよび測定可能な値は、その有効数字および測定に関連する誤差を考慮に入れて、近似値であると理解される。同様に、「含む(comprise)」、「含む(comprises)」、「含むこと(comprising)」、「含有する(contain)」、「含有する(contains)」、「含有すること(containing)」、「含む(include)」、「含む(includes)」、および「含むこと(including)」の使用は、限定することを意図しない。前述の一般的な説明および詳細な説明は共に単に例示的で説明的であり、教示を制限するものではないことを理解されたい。
上記の明細書に具体的に記載していない限り、様々な構成要素を「含む」ことを列挙する本明細書における実施形態もまた、列挙された構成要素「からなる」、または「から本質的になる」と企図され、様々な構成要素「からなる」ことを列挙する本明細書における実施形態もまた、列挙される構成要素を「含む」、またはそれ「から本質的になる」と企図され、ならびに様々な構成要素「から本質的になる」ことを列挙する本明細書中の実施形態もまた、列挙された構成要素「からなる」またはそれを「含む」と企図される(この互換性は、特許請求の範囲におけるこれらの用語の使用には当てはまらない)。
本明細書で使用されるセクションの見出しは、構成目的のためであり、開示された主題をいかなるようにも制限すると解釈されるべきではない。参照により本明細書に組み込まれるいずれかの文書または他の材料が、本明細書のいずれかの明白な内容と矛盾する場合、定義を含む本明細書が優先する。
I.概要
がんの形成および進行は、デオキシリボ核酸(DNA)の遺伝子改変およびエピジェネティック特色の両方から生じ得る。本開示は、無細胞DNA(cfDNA)などのDNAを解析するための方法およびシステムを提供する。本開示は、メチル化分配アッセイのシグナル対ノイズ比を低減するための方法およびシステムを提供する。
いかなる特定の理論にも拘束されることを望まないが、がんまたは新生物におけるまたはその周囲の細胞は、健康な対象における同じ組織タイプの細胞よりも多くのDNAを脱落させ得る。そのため、ある特定のDNA試料、例えばcfDNAの起源の組織の分布は、発癌の際に変化し得る。このため、例えば、少なくとも1つの他の組織タイプよりも健康なcfDNAにおいて低いメチル化を示す高メチル化可変標的領域のレベルの増加は、がんの存在(または対象の既往に応じて再発)の指標であり得る。同様に、試料中の低メチル化可変標的領域のレベルの増加は、がんの存在(または対象の既往に応じて再発)の指標であり得る。
さらに、がんは、メチル化などの非配列改変によって示され得る。がんにおけるメチル化変化の例としては、正常な成長の制御、DNA修復、細胞周期調節、および/または細胞分化に関係する遺伝子のTSSでCpGアイランドにおけるDNAメチル化の局所増加が挙げられる。この高メチル化は、関係する遺伝子の転写能の異常な喪失に関連し得、変更された遺伝子発現の原因としての点突然変異および欠失と少なくとも同程度の頻度で起こる。DNAメチル化プロファイリングを使用して、異なる程度のメチル化、例えば発達の間にまたは疾患、例えばがんもしくは任意のがん関連疾患によって生じる異常なメチル化を有するゲノムの領域(「差次的にメチル化された領域」または「DMR」)を検出することができる。例えば、所定の試料タイプにおいて通常高メチル化または低メチル化されるが、例えば試料のタイプに対する組織の関与の異常な増加(例えば、新生物もしくはがんにおけるまたはその周囲でのDNAの脱落の増加により)のためおよび/またはメチル化の程度により、新生物またはがんと相関する異常なメチル化の程度を示し得る領域(例えば、血流からのcfDNA)を、DNAメチル化プロファイリングを使用して検出することができる。
一部の実施形態では、DNAメチル化は、CpG部位(シトシン-リン酸-グアニン部位(すなわち、核酸配列の5’→3’方向にシトシンの後にグアニン)でのシトシン残基へのメチル基の付加を含む。一部の実施形態では、DNAメチル化は、例えばN-メチルアデニンの場合のように、アデニン残基へのメチル基の付加を含む。一部の実施形態では、DNAメチル化は5-メチル化(シトシンの6-炭素環の5番目の炭素の改変)である。一部の実施形態では、5-メチル化は、5-メチルシトシン(m5cまたは5-mCまたは5mC)を作製するためのシトシン残基の5C位へのメチル基の付加を含む。一部の実施形態では、メチル化は、m5cの誘導体を含む。m5cの誘導体としては、これらに限定されないが、5-ヒドロキシメチルシトシン(5-hmCまたは5hmC)、5-ホルミルシトシン(5-fC)、および5-カルボキシルシトシン(5-caC)が挙げられる。一部の実施形態では、DNAメチル化は3Cメチル化(シトシン残基の6-炭素環の3番目の炭素の改変)である。一部の実施形態では、3Cメチル化は、3-メチルシトシン(3mC)を生成するためのシトシン残基の3C位へのメチル基の付加を含む。メチル化はまた、非CpG部位でも起こり得、例えばメチル化は、CpA、CpT、またはCpC部位で起こり得る。DNAメチル化は、メチル化DNA領域の活性を変化させることができる。例えば、プロモーター領域のDNAがメチル化される場合、遺伝子の転写は抑制され得る。DNAメチル化は、正常な発達にとって極めて重要であり、メチル化の異常はエピジェネティック調節を破壊し得る。エピジェネティック調節の破壊、例えば抑制は、がんなどの疾患を引き起こし得る。DNAにおけるプロモーターのメチル化はがんを示し得る。
メチル化プロファイリングは、ゲノムの異なる領域にわたるメチル化パターンを決定することを含み得る。例えば、メチル化の程度(例えば、分子あたりのメチル化ヌクレオチドの相対数)に基づいて分子を分配およびシーケンシングした後、異なる分配中の分子の配列を参照ゲノムにマッピングすることができる。これは、他の領域と比較してより高度にメチル化されるか、またはあまり高度にメチル化されないゲノムの領域を示すことができる。このようにして、ゲノム領域は、個々の分子と対比するとメチル化の程度が異なり得る。
メチル化プロファイリングから得られたシグナルを、体細胞変異(例えば、SNV、インデル、CNV、および遺伝子融合)から得られたシグナルと組み合わせると、がんの検出が容易となる。
試料中の核酸分子は、核酸分子のメチル化状態に基づいて、分画または分配され得る。試料中の核酸分子を分配することは、まれなシグナルを増加させることができる。例えば、高メチル化DNAに存在するが、低メチル化DNAにはあまり存在しない(または存在しない)遺伝的変異を、試料を高メチル化および低メチル化核酸分子に分配することによってより容易に検出することができる。試料の複数の分画を解析することによって、単一の分子の多次元解析を実施することができ、したがってより高い感度を達成することができる。分配するステップは、1つまたは複数のメチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)の存在または非存在に基づいて、核酸分子をサブセットまたは群に物理的に分配することを含み得る。試料は、差次的遺伝子発現または疾患状態を示す特徴に基づいて、1つまたは複数の分配セットに分画または分配され得る。試料は、核酸、例えば無細胞DNA(「cfDNA」)、非cfDNA、腫瘍DNA、循環腫瘍DNA(「ctDNA」)、および無細胞核酸(「cfNA」)の解析の間に、正常および病的状態の間のシグナルの差を提供する特徴またはその組合せに基づいて分画され得る。
一部の実施形態では、試料を、結合剤(すなわち、メチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)に結合する結合剤)に対するメチル化核酸分子の差次的結合親和性に基づいて2つまたはそれより多くの分配セット(例えば、少なくとも3、4、5、6、または7個の分配セット)に分配することができる。結合剤の例としては、これらに限定されないが、メチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。本明細書で企図されるMBPの例としては、これらに限定されないが、以下が挙げられる:
(a)MeCP2およびMBD2は、非改変シトシンよりも5-メチル-シトシンに優先的に結合するタンパク質である;
(b)RPL26、PRP8およびDNAミスマッチ修復タンパク質MHS6は、非改変シトシンよりも5-ヒドロキシメチル-シトシンに優先的に結合する;
(c)FOXK1、FOXK2、FOXP1、FOXP4、およびFOXI3は、非改変シトシンよりも5-ホルミル-シトシンに優先的に結合する(Iurlaro et al., Genome Biol. 14, R119 (2013));ならびに
(d)1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体。
そのような実施形態では、改変が過剰発現する核酸は、改変が過少発現する核酸よりも大きい程度に作用剤に結合する。あるいは、改変を有する核酸は、全てか無かの様式で結合し得る。しかし、その場合、様々なレベルの改変は、結合剤から逐次的に溶出され得る。
例えば、一部の実施形態では、分配するステップは、バイナリであるか、またはメチル化の程度/レベルに基づき得る。例えば、全てのメチル化断片を、メチル結合ドメインタンパク質(例えば、MethylMiner Methylated DNA Enrichment Kit(ThermoFisher Scientific))を使用して、非メチル化断片から分配することができる。次に、追加の分配するステップは、メチル結合ドメインおよび結合断片を有する溶液中で塩濃度を調整することによって、異なるレベルのメチル化を有する断片を溶出させることを伴い得る。塩濃度が増加すると、より大きいメチル化レベルを有する断片が溶出する。
標準的なメチル化解析方法(例えば、バイサルファイトシーケンシング)と比較して、メチル化分配法は、検体分子の回収において非常に効率的であり、体細胞の変更の同時検出を可能にする。しかし、方法は、分配するステップにより分子のメチル化レベルを同定することから、方法の感度および特異度は、メチル化/非メチル化分子を誤って分配する(例えば、非メチル化分子を高分配セットに分配する)という課題がある。メチル化分配アッセイの分子誤分配によるこの技術的ノイズは、アッセイの性能を制限する。メチル化分配アッセイのシグナル対ノイズ比を増加させるために、特定の分配セットを、メチル化感受性制限酵素(RE)消化反応に供して、誤って分配された分子を特異的に除去することができる。例えば、RE認識部位を有する非メチル化分子のみを切断するメチル化感受性制限酵素(MSRE)を高分配セットに適用して、誤って分配された非メチル化分子のみを選択的に切断および除去(アッセイプロセスから)することができる。このように、高分配セット中の非メチル化分子の数を低減させることによって、アッセイの感度および特異度が改善し、これはさらに、循環腫瘍DNA(ctDNA)の存在または非存在を検出する能力を改善する。
本開示は、DNAメチル化分配アッセイの感度および特異度を改善するための方法およびシステムを提供する。これらの方法およびシステムは、様々な応用、がんの予後、診断、モニタリング、再発、および/または再燃を予測するためなどの様々な用途において使用することができる。
したがって、一態様では、本開示は、生体試料中の核酸分子を解析するための方法であって、(a)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、生体試料がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに(c)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップを含む方法を提供する。
一部の実施形態では、方法は、生体試料中のがんの存在または非存在を検出するステップをさらに含む。一部の実施形態では、方法は、例えば生体試料中のがん細胞からのDNAのレベルを決定することによって、生体試料中のがんのレベルを決定するステップを含む。一部の実施形態では、方法は、消化するステップの前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の末端の少なくとも1つ(すなわち、5’および/または3’末端)に付着させるステップをさらに含む。一部の実施形態では、メチル化状態を決定するステップは、消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む。一部の実施形態では、方法は、メチル化状態を決定するステップの前に、複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップをさらに含む。一部のそのような実施形態では、目的のゲノム領域は、エピジェネティック標的領域セットを含む。一部のそのような実施形態では、方法は、第1の分配セットの少なくとも一部から第1のエピジェネティック標的領域セットを富化または捕捉するステップ、および第2の分配セットの少なくとも一部から第2のエピジェネティック標的領域セットを富化または捕捉するステップを含む。
別の態様では、本開示は、核酸分子のメチル化状態を決定するための方法であって、(a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップを含む方法を提供する。一部のそのような実施形態では、目的のゲノム領域は、エピジェネティック標的領域セットを含む。一部のそのような実施形態では、方法は、第1の分配セットの少なくとも一部から第1のエピジェネティック標的領域セットを富化または捕捉するステップ、および第2の分配セットの少なくとも一部から第2のエピジェネティック標的領域セットを富化または捕捉するステップを含む。
一部の実施形態では、方法は、生体試料中のがんの存在または非存在を検出するステップをさらに含む。一部の実施形態では、方法は、例えば生体試料中のがん細胞からのDNAのレベルを決定することによって、生体試料中のがんのレベルを決定するステップを含む。一部の実施形態では、方法は、消化するステップの前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の末端の少なくとも1つ(すなわち、5’および/または3’末端)に付着させるステップをさらに含む。一部の実施形態では、メチル化状態を決定するステップは、消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む。
図2は、対象から得られたポリヌクレオチド試料中の核酸分子のメチル化状態を決定するための方法200の例としての実施形態を例証する。202では、ポリヌクレオチド試料は、対象から得られる。一部の実施形態では、ポリヌクレオチド試料は、腫瘍組織生検から得られるDNA試料である。一部の実施形態では、ポリヌクレオチド試料は、血液から得られた無細胞DNA(cfDNA)試料である。204では、ポリヌクレオチド試料は、少なくとも2つの分配セットに分配される。一部の実施形態では、分配するステップは、メチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含むポリヌクレオチドに優先的に結合する結合剤に対するポリヌクレオチドの差次的結合親和性に基づいて核酸分子を分配するステップを含む。結合剤の例としては、これらに限定されないが、メチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。本明細書において企図されるMBPの例は、上に列挙されている。
(e)1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体。
分配するステップは、核酸分子の特徴に基づいて核酸分子を物理的に分離または分画するステップを指し得る。分配するステップは、分子の物理的分配であり得る。分配するステップは、核酸分子のメチル化のレベルに基づいて核酸分子を群またはセットに分離するステップを伴い得る。一部の実施形態では、分配するために使用される方法およびシステムは、その全体がこれにより参照により本明細書に組み込まれる、PCT特許出願WO2018/119452号に記載されるように実施され得る。それらの実施形態では、核酸は、異なるレベルのメチル化(例えば、メチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)の異なる数または頻度)に基づいて分配される。一部の実施形態では、核酸は、2つまたはそれより多くの分配セット(例えば、少なくとも3、4、5、6、または7個の分配セット)に分配され得る。例えば、核酸分子を、3つのセット、すなわち高メチル化核酸分子の1つのセット(高分配セットまたは高メチル化分配セット)、低メチル化核酸分子の第2のセット(低分配セットまたは低メチル化分配セット)、および中間メチル化核酸分子の第3のセット(中間分配セットまたは中間メチル化分配セット)に分配することができる。一部の実施形態では、分配セットは、異なるレベルのメチル化(改変の過剰発現または過少発現)を有する核酸を表す。過剰発現および過少発現は、集団中の鎖あたりのメチル化ヌクレオチドの中央値数と比較したDNA分子(例えば、cfDNA分子)中に存在するメチル化ヌクレオチドの数によって定義することができる。例えば、試料中の核酸分子中の5-メチルシトシンヌクレオチドの中央値数が2である場合、2つより多くの5-メチルシトシン残基を含む核酸分子は過剰発現し、1またはゼロ個の5-メチルシトシン残基を含む核酸は過少発現する。親和性分離の効果は、結合相において改変(すなわちメチル化レベル)が過剰発現する核酸に関して、および非結合相において(すなわち、溶液中)改変が過少発現する核酸に関して富化することである。結合相における核酸を、その後のプロセシングの前に溶出させることができる。
206では、少なくとも1つの分配セット中の核酸分子は、少なくとも1つのメチル化感受性制限酵素(MSRE)によって消化される。一部の実施形態では、少なくとも1つの分配セット中の核酸は、少なくとも2つのMSREによって消化される。一部の実施形態では、2つのMSREが、少なくとも1つの分配セット中の核酸分子を消化するために使用される。一部の実施形態では、2つのMSREは、BstUIおよびHpaIIである。一部の実施形態では、2つのMSREは、HhaIおよびAccIIである。一部の実施形態では、3つのMSREが、少なくとも1つの分配セット中の核酸分子を消化するために使用される。一部の実施形態では、3つのMSREは、BstUI、HpaII、およびHin6Iである。一部の実施形態では、MSREは、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される。一部の実施形態では、任意の市販のMSREを使用することができる(Takara Bio USA Inc.、New England Biolabs(登録商標)Inc.および/またはThermo Fisher Scientific Inc.によって提供されるMSREを使用することができる)。
一部の実施形態では、FspEIが、少なくとも1つの他の分配セット(例えば、低メチル化分配)中の核酸分子を消化するために使用される。一部の実施形態では、BstUI、HpaII、およびHin6Iが、少なくとも1つの分配セット(例えば、高メチル化分配)中の核酸分子を消化するために使用され、FspEIが、少なくとも1つの他の分配セット(例えば、低メチル化分配)中の核酸分子を消化するために使用される。中間メチル化分配を伴う実施形態では、その中の核酸分子を、メチル化または非メチル化DNAを優先的に切断する少なくとも1つのメチル化感受性制限酵素によって消化してもよい。一部の実施形態では、中間メチル化分配中の核酸分子は、高メチル化分配と同じMSREによって消化される。例えば、中間メチル化分配を、高メチル化分配と共にプールしてもよく、次にプールした分配を消化に供してもよい。一部の実施形態では、中間メチル化分配中の核酸分子は、低メチル化分配と同じMSREによって消化される。例えば、中間メチル化分配を、低メチル化分配と共にプールしてもよく、次にプールした分配を消化に供してもよい。
一部の実施形態では、MSREによる制限酵素消化の前に、少なくとも1つのアダプターを、核酸分子の少なくとも1つの末端(すなわち、DNA分子の5’および/または3’末端)に付着させる。一部のそのような実施形態では、アダプターは、核酸分子の両方の末端に付着している。他の実施形態では、208における消化後で富化前、少なくとも1つのアダプターを、核酸分子の少なくとも1つの末端に付着させる。一部の実施形態では、アダプターは、メチル化感受性制限酵素による消化に対して抵抗性である。一部の実施形態では、アダプターは、1つまたは複数のメチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含む。一部の実施形態では、メチル化ヌクレオチドは、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンであり得る。一部の実施形態では、アダプターは、メチル化感受性制限酵素に対して抵抗性である1つまたは複数のヌクレオチドアナログを含む。一部の実施形態では、アダプターは、メチル化感受性制限酵素によって認識されないヌクレオチド配列を含む。一部の実施形態では、タグは、アダプターの構成要素として提供され得る。一部の実施形態では、タグは、分子バーコード(すなわち、分子識別子)を含む。一部の実施形態では、1つの分配セット中の核酸分子に付着したタグは、他の分配セット中の核酸分子に付着したタグとは異なる。一部の実施形態では、1つの分配セットは、他の分配セットとは差次的にタグ付けされる。分配セットを差次的にタグ付けすることは、特定の分配セットに属する核酸分子を追跡し続けるために役立つ。異なる分配セット中の核酸分子は、1つの分配セットのメンバーを別のメンバーと識別することができる異なるタグを与えられる。同じ分配セットの核酸分子に連結したタグは互いに同じであっても異なっていてもよい。しかし互いに異なる場合、タグは、それらが付着する分子を特定の分配セットの分子であると同定するために、それらの配列の一部を共通に有し得る。例えば、試料の分子が、2つの分配セット、すなわちP1およびP2に分配される場合には、P1の分子を、A1、A2、A3などによってタグ付けすることができ、P2の分子を、B1、B2、B3などによってタグ付けすることができる。そのようなタグ付けシステムは、分配セットおよび分配セット内の分子間の識別を可能にする。一部の実施形態では、タグは、分配タグ(すなわち、分配識別子)を含む。そのような実施形態では、分配セット内の核酸分子は、同じ分配タグを与えられ、他の分配セットの核酸分子に付着した分配タグとは異なる。
208では、MSRE消化後、1つまたは複数の分配セット中の核酸分子を、目的のゲノム領域に関して富化することができる。一部の実施形態では、目的のゲノム領域は、がん検出のために差次的にメチル化された領域を含み得る。210では、富化した分子の少なくとも1つのサブセットを、次世代シーケンサーによってシーケンシングする。212では、次いで、シーケンサーによって生成されたシーケンシング読み取りデータを、バイオインフォマティックツール/アルゴリズムを使用して解析して、1つまたは複数の分配セット中の分子の数を決定し、次にこれを使用して、少なくとも1つの分配セット中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定する。一部の実施形態では、1つまたは複数の遺伝子座は、複数の遺伝子座を含み得る。一部の実施形態では、1つまたは複数の遺伝子座は、1つまたは複数のゲノム領域を含み得る。一部の実施形態では、ゲノム領域は、遺伝子のプロモーター領域であり得る。一部の実施形態では、シーケンシングの前に、核酸分子を、PCR増幅を介して増幅することができる。一部の実施形態では、増幅に使用されるプライマーは、少なくとも1つの試料インデックスを含み得る。
一部の実施形態では、方法は、少なくとも1つの分配セット中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態に基づいて、対象におけるがんの存在または非存在を検出するステップをさらに含み得る。一部の実施形態では、方法は、例えばポリヌクレオチド試料中のがん細胞からのDNAのレベルを決定することによって、ポリヌクレオチド試料中のがんのレベルを決定するステップをさらに含む。
別の態様では、本開示は、核酸分子のメチル化状態を決定するための方法であって、(a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)1つまたは複数のアダプターを、複数の分配セット中の核酸分子の少なくとも1つの末端に付着させるステップ;(d)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップを含む方法を提供する。一部のそのような実施形態では、目的のゲノム領域は、エピジェネティック標的領域セットを含む。一部のそのような実施形態では、方法は、第1の分配セットの少なくとも一部から第1のエピジェネティック標的領域セットを富化または捕捉するステップ、および第2の分配セットの少なくとも一部から第2のエピジェネティック標的領域セットを富化または捕捉するステップを含む。
一部の実施形態では、方法は、生体試料中のがんの存在または非存在を検出するステップをさらに含む。一部の実施形態では、方法は、例えば生体試料中のがん細胞からのDNAのレベルを決定することによって、生体試料中のがんのレベルを決定するステップを含む。一部の実施形態では、方法は、消化するステップの前に、1つまたは複数のアダプターを、複数の分配セット中の核酸分子の末端の少なくとも1つ(すなわち、5’および/または3’末端)に付着させるステップをさらに含む。一部の実施形態では、メチル化状態を決定するステップは、消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む。
図3は、本開示の実施形態に従う、対象におけるがんの存在または非存在を検出するための方法300の例としての実施形態を例証する。302では、ポリヌクレオチド試料は、対象から得られる。一部の実施形態では、ポリヌクレオチド試料は、腫瘍組織生検から得られるDNA試料である。一部の実施形態では、ポリヌクレオチド試料は、血液から(例えば、血漿から)得られた無細胞DNA(cfDNA)試料である。304では、ポリヌクレオチド試料は、少なくとも2つの分配セットに分配される。一部の実施形態では、分配するステップは、メチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含むポリヌクレオチドに優先的に結合する結合剤に対するポリヌクレオチドの差次的結合親和性に基づいて核酸分子を分配するステップを含む。結合剤の例としては、これらに限定されないが、メチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。本明細書で企図されるMBPの例は、上に列挙されている。
一部の実施形態では、核酸を、2つまたはそれより多くの分配セット(例えば、少なくとも3、4、5、6、または7個の分配セット)に分配することができる。一部の実施形態では、分配セットは、異なるレベルのメチル化(改変の過剰発現または過少発現)を有する核酸を表す。例えば、核酸分子を、3つのセット、すなわち、高メチル化核酸分子の1つのセット(高分配セットまたは高メチル化分配セット)、低メチル化核酸分子の第2のセット(低分配セットまたは低メチル化分配セット)、および中間メチル化核酸分子の第3のセット(中間分配セットまたは中間メチル化分配セット)に分配することができる。
306では、1つまたは複数の分配セット中の核酸分子を、アダプターと付着させ、アダプターは、少なくとも1つのタグを含み、核酸分子の少なくとも1つの末端(すなわち、DNA分子の5’および/または3’末端)に付着する。一部の実施形態では、アダプターは、メチル化感受性制限酵素による消化に対して抵抗性である。一部の実施形態では、アダプターは、1つまたは複数のメチル化ヌクレオチド(例えば、メチル化塩基を含むヌクレオチド)を含む。一部の実施形態では、メチル化ヌクレオチドは、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンであり得る。一部の実施形態では、アダプターは、メチル化感受性制限酵素に抵抗性である1つまたは複数のヌクレオチドアナログを含む。一部の実施形態では、アダプターは、メチル化感受性制限酵素によって認識されないヌクレオチド配列を含む。一部の実施形態では、アダプターは、方法に使用されるメチル化感受性制限酵素によって認識されるヌクレオチド配列を含まない。一部の実施形態では、アダプターは、メチル化感受性制限酵素による切断を阻害する1つまたは複数の改変(例えば、連結の改変、例えばホスホロチオエート)を含む。一部の実施形態では、タグは、アダプターの構成要素として提供され得る。一部の実施形態では、タグは分子バーコード(すなわち、分子識別子)を含む。一部の実施形態では、1つの分配セット中の核酸分子に付着したタグは、他の分配セット中の核酸分子に付着したタグとは異なる。一部の実施形態では、1つの分配セットは、他の分配セットとは差次的にタグ付けされる。分配セットの差次的タグ付けは、特定の分配セットに属する核酸分子を追跡し続けるために役立つ。異なる分配セット中の核酸分子は、1つの分配セットのメンバーを別のメンバーと識別することができる異なるタグを与えられる。同じ分割セットの核酸分子に連結されたタグは、互いに同じであっても異なっていてもよい。しかし、互いに異なる場合、タグは、それらが付着する分子を特定の分配セットの分子であると同定するために、それらの配列の一部を共通に有し得る。例えば、試料の分子が、2つの分配セット、すなわちP1およびP2に分配される場合には、P1の分子を、A1、A2、A3などによってタグ付けすることができ、P2の分子を、B1、B2、B3などによってタグ付けすることができる。そのようなタグ付けシステムは、分配セットおよび分配セット内の分子間の識別を可能にする。一部の実施形態では、タグは、分配タグ(すなわち、分配識別子)を含む。そのような実施形態では、分配セット内の核酸分子は、同じ分配タグを与えられ、他の分配セットの核酸分子に付着した分配タグとは異なる。一部の実施形態では、使用されるタグ配列は、方法に使用されるメチル化感受性制限酵素によって認識されるヌクレオチド配列を含まない。
308では、少なくとも1つの分配セット中の核酸分子は、少なくとも1つのメチル化感受性制限酵素(MSRE)によって消化される。一部の実施形態では、少なくとも1つの分配セット中の核酸は、少なくとも2つのMSREによって消化される。一部の実施形態では、2つのMSREが、少なくとも1つの分配セット中の核酸分子を消化するために使用される。一部の実施形態では、2つのMSREは、BstUIおよびHpaIIである。一部の実施形態では、2つのMSREは、HhaIおよびAccIIである。一部の実施形態では、3つのMSREが、少なくとも1つの分配セット中の核酸分子を消化するために使用される。一部の実施形態では、3つのMSREは、BstUI、HpaII、およびHin6Iである。一部の実施形態では、MSREは、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される。一部の実施形態では、任意の市販のMSREを使用することができる(Takara Bio USA Inc.、New England Biolabs(登録商標)Inc.および/またはThermo Fisher Scientific Inc.によって提供されるMSREを使用することができる)。
310では、MSRE消化後、1つまたは複数の分配セット中の核酸分子を目的のゲノム領域に関して富化することができる。一部の実施形態では、目的のゲノム領域は、がん検出のために差次的にメチル化された領域を含み得る。312では、富化した分子の少なくとも1つのサブセットを、次世代シーケンサーによってシーケンシングする。314では、次いで、シーケンサーによって生成されたシーケンシング読み取りデータを、バイオインフォマティックツール/アルゴリズムを使用して解析して、1つまたは複数の分配セット中の分子の数を決定し、次にこれを使用して、少なくとも1つの分配セット中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定する。一部の実施形態では、1つまたは複数の遺伝子座は、複数の遺伝子座を含み得る。一部の実施形態では、1つまたは複数の遺伝子座は、1つまたは複数のゲノム領域を含み得る。一部の実施形態では、ゲノム領域は、遺伝子のプロモーター領域であり得る。一部の実施形態では、シーケンシングの前に、核酸分子を、PCR増幅を介して増幅することができる。一部の実施形態では、増幅に使用されるプライマーは、少なくとも1つの試料インデックスを含み得る。一部の実施形態では。MSREによって消化された核酸分子は増幅されない。一部のそのような実施形態では、MSREによって消化された核酸分子を除く、試料中の本質的に全ての核酸分子が増幅される。
一部の実施形態では、方法は、少なくとも1つの分配セット中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態に基づいて、対象におけるがんの存在または非存在を検出するステップをさらに含み得る。一部の実施形態では、方法は、例えばポリヌクレオチド試料中のがん細胞からのDNAのレベルを決定することによって、ポリヌクレオチド試料中のがんのレベルを決定するステップをさらに含む。
図4は、cfDNA試料から始まる本開示のある特定の実施形態に従う、がんの存在または非存在を検出するための例示的なワークフローを例証し、この中でcfDNAは、血液試料から単離され、cfDNA試料は、がん高メチル化DMR領域および非メチル化対照領域に属するcfDNA分子を含み;cfDNAは、メチル結合ドメインタンパク質(MBD)を使用して低メチル化、残留(すなわち、中間メチル化)、および高メチル化分配セットに分配され;各分配セットを分子バーコード化に供して、低、残留、および高分配セットからのDNAを識別可能にタグ付けする;高分配セットは2つのMSRE、すなわちHhaIおよびAccIによって消化され、非メチル化cfDNAをRE認識部位で切断し;次いで分配セット(MSRE消化高分配セットを含む)をプールし、捕捉し、増幅し、シーケンシングする。一部の実施形態では、MSREによって消化された核酸分子は増幅されない。一部のそのような実施形態では、MSREによって消化された核酸分子を除く、試料中の本質的に全ての核酸分子が増幅される。
一部の実施形態では、MSREは、標的化されるメチル化バイオマーカー配列(すなわち、DMR)の数を最大にするように選択される。一部の実施形態では、2つまたはそれより多くのMSREを1回の消化で使用する場合、酵素緩衝液は適合性(販売元によって確認されたおよび/または経験的に試験された)でなければならない。加えて、MSREは、下流のアッセイプロセシングと適合性であるその活性を不活化するための機構を有しなければならない。例えば、MSRE消化をライゲーションの前に実施する場合、MSREの熱不活化(>65℃)は、これがdsDNAを変性させ、dsDNAをアダプターライゲーション反応と不適合にすることから適切ではないであろう。
一部の実施形態では、特定のヌクレオチド塩基が認識配列でメチル化されている場合にDNAを切断しないメチル化感受性制限酵素を使用することができる。そのようなMSREは、誤って高分配へと分配された非メチル化分子を除去するためにのみ、高分配において使用することができ、それによってメチル化核酸分子の検出特異性を改善する。一部の実施形態では、特定のヌクレオチド塩基が認識部位でメチル化されている場合にDNAを切断するメチル化感受性制限酵素を使用することができる。そのようなMSREは、誤って低分配へと分配されたメチル化分子を除去するために、低分配において使用することができ、それによって、非メチル化核酸分子の検出特異性を改善する。一部の実施形態では、高(および残留)分配および低分配の両方が、(i)認識部位で非メチル化ヌクレオチドが存在する場合にDNAを切断するMSREが、高(および残留)分配において使用されるように、および(ii)認識部位でメチル化ヌクレオチドが存在する場合にDNAを切断するMSREが、低分配において使用されるように、MSREによって消化される。
一部の実施形態では、アダプターライゲーション後、1つより多くの分配(例えば、高および残留)を同じMSREによって消化する場合、消化は、各分配について個別に実施することができ、または分配を組み合わせ、1つの反応で消化することができる。一部の実施形態では、各分配について個別に消化を実施することは、必要な酵素の性能(効率、特異性)が個別の反応を使用する場合に限って達成され得る場合に有利であり得る。一部の実施形態では、分配を組み合わせて、次いでMSRE消化を実施することは、アッセイの商品購入費用COGS(SPRIビーズ、酵素、PCRプレート、ピペッティングチップなど)を低減するために、および規模を拡大した自動アッセイを合理化するために(すなわち、試料あたり単一の消化反応)有益であり得る。
一部の実施形態では、MSRE消化(MSREが認識部位で非メチル化DNAを切断する)が、アダプターのライゲーションの前に実施される場合、分子の切断された断片を保持することができ、RE認識部位に一致する分子の末端を使用して高分配中の非メチル化分子を同定する。そのような実施形態では、cfDNA試料を解析する場合、ゲノムDNAの夾雑物が存在する場合には、ゲノムDNAはMSRE(アダプターライゲーションの前)によって切断されることがあり、ゲノムDNA夾雑をもたらし得る。これは、MSRE消化の前にアダプターライゲーションを実施することによって回避することができる。
一部の実施形態では、全ての分配セットまたは全ての分配セットのサブセットをシーケンシングすることができる。一部の実施形態では、MSRE消化を実施した1つまたは複数の分配セットのみをシーケンシングして、がんDMR中の核酸分子を解析することができる。
一部の実施形態では、ポリヌクレオチド試料は、2つの分配セットに分配される。一部の実施形態では、ポリヌクレオチド試料は、3つの分配セットに分配される。一部の実施形態では、MSRE消化は、高分配および低分配中の核酸分子に対して実施され、高分配中で使用されるMSREは、認識部位が非メチル化ヌクレオチドを有する場合にDNAを切断し、低分配中で使用されるMSREは、認識部位がメチル化ヌクレオチドを有する場合にDNAを切断する。これは、高DMRおよび低DMRの同時の感度のよい検出を可能にする。
一部の実施形態では、ポリヌクレオチド試料は、1ng~500ngの間である。一部の実施形態では、ポリヌクレオチド試料は、500ng未満である。一部の実施形態では、ポリヌクレオチド試料は、DNA試料、RNA試料、無細胞DNA試料、および無細胞RNA試料からなる群から選択される。一部の実施形態では、ポリヌクレオチド試料は、対象の血液から得られたcfDNA試料である。一部の実施形態では、ポリヌクレオチド試料は、腫瘍組織生検から得られたDNA試料である。
II.方法の全般的特色
A.試料
試料は、対象から単離された任意の生体試料であり得る。試料は、体組織、全血、血小板、血清、血漿、糞便、赤血球、白血球(white blood cell)または白血球(leucocyte)、内皮細胞、組織生検(例えば、既知のまたは疑われる固形腫瘍からの生検)、脳脊髄液、滑液、リンパ液、腹水、間質液または細胞外液(例えば、細胞間空隙からの液体)、歯肉液、歯肉溝浸出液、骨髄、胸水、脳脊髄液、唾液、粘液、喀痰、精液、汗、および尿を含み得る。このように、試料は、体液、例えば血液およびその分画、ならびに尿であり得る。そのような試料は、腫瘍から脱落した核酸を含み得る。核酸は、DNAおよびRNAを含み得、二本鎖および一本鎖形態であり得る。一部の実施形態では、試料は、無細胞DNAを含む。試料は、当初対象から単離された形態であってもよく、または構成要素、例えば細胞を除去もしくは付加する、別の構成要素と比較して1つの構成要素に関して富化する、もしくは1つの形態の核酸を別の形態の核酸、例えばRNAをDNAに、もしくは一本鎖核酸を二本鎖核酸に変換するさらなるプロセシングに供されていてもよい。このように、例えば、解析のための体液は、無細胞核酸、例えば無細胞DNA(cfDNA)を含有する血漿または血清であり得る。
試料は、対象から単離または得、試料解析の現場へと輸送することができる。試料は、望ましい温度、例えば、室温、4℃、-20℃、および/または-80℃で保存および発送され得る。試料は、試料解析の現場で対象から単離または得ることができる。対象はヒト、哺乳動物、動物、コンパニオン動物、介助動物、または愛玩動物であり得る。対象は、がんを有し得る。対象は、がんまたは検出可能ながんの症状を有しなくてもよい。対象は、1つまたは複数のがん治療、例えば化学療法の任意の1つまたは複数によって処置されていてもよい。対象は寛解期にあってもよい。対象は、がんまたは任意のがん関連遺伝的突然変異/障害に罹りやすい診断されていても、診断されていなくてもよい。
一部の実施形態では、対象から採取された体液の試料体積は、シーケンシングされる領域の所望の読み取り深度に依存する。体積の例は、約0.4~40ミリリットル(mL)、約5~20mL、約10~20mLである。例えば、体積は、約0.5mL、約1mL、約5mL、約10mL、約20mL、約30mL、約40mL、またはそれよりも多いミリリットルであり得る。試料採取した血漿の体積は典型的に、約5mL~約20mLの間である。
試料は、様々な量の核酸を含み得る。典型的に、所定の試料中の核酸の量は、複数のゲノム等価物に等しい。例えば、約30ナノグラム(ng)のDNA試料は、約10,000(10)個の半数体ヒトゲノム等価物を含有し、cfDNAの場合、約2000億(2×1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、DNAの約100ngの試料は、約30,000個の半数体ヒトゲノム等価物を含有し、cfDNAの場合、約6000億個の個々の分子を含有し得る。
一部の実施形態では、試料は、異なる起源から、例えば細胞からおよび無細胞起源(例えば、血液試料など)からの核酸を含む。典型的に、試料は、突然変異を有する核酸を含む。例えば、試料は、必要に応じて生殖系列突然変異および/または体細胞突然変異を有するDNAを含む。典型的に、試料は、がん関連突然変異(例えば、がん関連体細胞突然変異)を有するDNAを含む。
増幅前の試料中の無細胞核酸の例としての量は、典型的に約1フェムトグラム(fg)~約1マイクログラム(μg)、例えば、約1ピコグラム(pg)~約200ナノグラム(ng)、約1ng~約100ng、約10ng~約1000ngの範囲である。一部の実施形態では、試料は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子を含む。必要に応じて、量は、少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngの無細胞核酸分子である。一部の実施形態では、量は、最大約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ng、または約200ngの無細胞核酸分子である。一部の実施形態では、方法は、約1fg~約200ngの間の無細胞核酸分子を試料から得るステップを含む。
無細胞核酸は、典型的に長さ約100ヌクレオチド~長さ約500ヌクレオチドの間のサイズ分布を有し、長さ約110ヌクレオチド~長さ約230ヌクレオチドの分子が試料中の分子の約90%を表し、最頻値は長さ約168ヌクレオチド(ヒト対象からの試料中で)であり、第2の小さいピークが長さ約240ヌクレオチド~約440ヌクレオチドの間に存在する。一部の実施形態では、無細胞核酸は、長さ約160ヌクレオチド~約180ヌクレオチド、または長さ約320ヌクレオチド~約360ヌクレオチド、または長さ約440ヌクレオチド~約480ヌクレオチドである。
一部の実施形態では、無細胞核酸は、溶液中で見出される無細胞核酸がインタクトな細胞および体液の他の不溶性構成要素から分離される、分配ステップを通して体液から単離される。一部の実施形態では、分配するステップは、遠心分離または濾過などの技術を含む。あるいは、体液中の細胞を溶解してもよく、無細胞核酸および細胞核酸を共にプロセシングしてもよい。一般的に、緩衝液の添加および洗浄ステップの後、無細胞核酸を、例えばアルコールによって沈殿させてもよい。一部の実施形態では、追加のクリーンアップステップ、例えばシリカに基づくカラムを使用して、夾雑物または塩を除去する。非特異的バルク担体核酸を、例えば必要に応じて反応全体を通して添加して、収量などの例としての手順の態様を最適にする。そのようなプロセシング後、試料は典型的に、二本鎖DNA、一本鎖DNA、および/または一本鎖RNAを含む核酸の様々な形態を含む。必要に応じて、一本鎖DNAおよび/または一本鎖RNAを、それらがその後のプロセシングおよび解析ステップに含まれるように、二本鎖形態に変換する。
試料中の二本鎖DNA分子、および二本鎖DNA分子に変換されている一本鎖核酸分子を、いずれか一方の末端または両方の末端でアダプターに連結することができる。典型的には、二本鎖分子は、4つ全ての標準的なヌクレオチドの存在下で5’-3’ポリメラーゼおよび3’-5’エキソヌクレアーゼ(またはプルーフリーディング機能)によるポリメラーゼによる処置によって平滑末端化される。クレノウラージ断片およびT4ポリメラーゼは、好適なポリメラーゼの例である。平滑末端化したDNA分子を、少なくとも部分的に二本鎖のアダプター(例えば、Y字形状またはベル形状のアダプター)とライゲーションすることができる。あるいは、相補的ヌクレオチドを試料核酸の平滑末端およびアダプターに付加して、ライゲーションを容易にすることができる。平滑末端ライゲーションおよび付着末端ライゲーションの両方が、本明細書において企図される。平滑末端ライゲーションでは、核酸分子およびアダプタータグの両方が平滑末端を有する。付着末端ライゲーションでは、典型的に核酸分子は、「A」オーバーハングを有し、アダプターは「T」オーバーハングを有する。
B.分配、アダプターの付加、タグ付け
別の実施形態では、分配スキームを、以下の例としての手順を使用して実施することができる。核酸を、両方の末端で、プライマー結合部位およびタグを含むY字形状アダプターに連結する。分子を増幅する。次いで、増幅された分子を、5-メチルシトシンに優先的に結合する抗体と接触させることによって分画して、2つの分配を産生する。一方の分配はメチル化を欠如する元の分子およびメチル化を失っている増幅コピーを含む。他方の分配は、メチル化を有する元のDNA分子を含む。メチル化を有する元のDNA分子を含む分配を、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供し、第1の核酸塩基は改変または非改変核酸塩基であり、第2の核酸塩基は第1の核酸塩基とは異なる改変または非改変核酸塩基であり、第1の核酸塩基および第2の核酸塩基は同じ塩基対形成特異性を有する。次いで、2つの分配をプロセシングし、個別にシーケンシングし、メチル化分配をさらに増幅する。次いで、2つの分配の配列データを比較することができる。この例では、タグは、メチル化および非メチル化DNAの間を識別するために使用されないが、同じ開始および終始点を有する読み取りデータが、同じ分子に基づくか異なる分子に基づくかを決定することができるように、これらの分配内で異なる分子間を識別する。
タグは、他の方法の中でも化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によってアダプターに組み込まれるか、またはそれ以外の方法で接合され得る。そのようなアダプターを、最終的に標的核酸分子に接合してもよい。他の実施形態では、1つまたは複数ラウンドの増幅サイクル(例えば、PCR増幅)を一般的に適用して、従来の核酸増幅方法を使用して核酸分子に試料インデックスを導入する。増幅は1つまたは複数の反応混合物(例えば、アレイにおける複数のマイクロウェル)において行われ得る。分子バーコードおよび/または試料インデックスは、同時に、または任意の順番で導入されてもよい。一部の実施形態では、分子バーコードおよび/または試料インデックスは、配列を捕捉するステップを実施する前および/または後に導入される。一部の実施形態では、分子バーコードのみがプローブを捕捉するステップの前に導入され、試料インデックスは、配列を捕捉するステップが実施された後に導入される。一部の実施形態では、分子バーコードおよび試料インデックスの両方がプローブに基づく捕捉するステップを実施する前に導入される。一部の実施形態では、試料インデックスは、配列を捕捉するステップが実施された後に導入される。一部の実施形態では、分子バーコードは、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)を介してアダプターを通して試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。一部の実施形態では、試料インデックスは、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)を通して試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。典型的に、配列捕捉プロトコールは、標的化核酸配列、例えばゲノム領域のコード配列と相補的である一本鎖核酸分子を導入するステップを伴い、そのような領域の突然変異は、がんのタイプに関連する。
一部の実施形態では、タグは、試料核酸分子の一方の末端または両方の末端に位置し得る。一部の実施形態では、タグは、既定のまたはランダムまたは半ランダム配列オリゴヌクレオチドである。一部の実施形態では、タグは、長さが約500ヌクレオチド未満もしくはそれに等しい、200ヌクレオチド未満もしくはそれに等しい、100ヌクレオチド未満もしくはそれに等しい、50ヌクレオチド未満もしくはそれに等しい、20ヌクレオチド未満もしくはそれに等しい、10ヌクレオチド未満もしくはそれに等しい、9ヌクレオチド未満もしくはそれに等しい、8ヌクレオチド未満もしくはそれに等しい、7ヌクレオチド未満もしくはそれに等しい、6ヌクレオチド未満もしくはそれに等しい、5ヌクレオチド未満もしくはそれに等しい、4ヌクレオチド未満もしくはそれに等しい、3ヌクレオチド未満もしくはそれに等しい、2ヌクレオチド未満もしくはそれに等しい、または1ヌクレオチド未満もしくはそれに等しくあり得る。タグは、試料核酸にランダムまたは非ランダムに連結され得る。
一部の実施形態では、各試料は、試料インデックスまたは試料インデックスの組合せによって一意的にタグ付けされる。一部の実施形態では、試料または部分試料の各核酸分子は、分子バーコードまたは分子バーコードの組合せによって一意的にタグ付けされる。他の実施形態では、複数の分子バーコードは、分子バーコードが、複数の中で互いに必ずしも一意的ではない(例えば、非一意的分子バーコード)ように使用され得る。これらの実施形態では、分子バーコードは、一般的に、分子バーコードおよび配列の組合せを結合させて、個々に追跡され得る一意的配列を作製し得るように、個々の分子に付着(例えば、ライゲーションによって)する。内因性の配列情報(例えば、試料中の元の核酸分子の配列に対応する始まり(開始)および/または終わり(終止)のゲノム場所/位置、試料中の元の核酸分子の配列に対応する開始および終止ゲノム位置、参照配列にマッピングされる配列読み取りデータの始まり(開始)および/または終わり(終止)のゲノム場所/位置、参照配列にマッピングされる配列読み取りデータの開始および終止ゲノム位置、一方もしくは両方の末端での配列読み取りデータの部分配列、配列読み取りデータの長さ、ならびに/または試料中の元の核酸分子の長さ)と組み合わせた非一意的分子バーコードの検出は、典型的に特定の分子に対して一意的同一性の割当てを可能にする。一部の実施形態では、始まりの領域は、参照配列と整列するシーケンシング読み取りデータの5’末端の最初の1塩基位置、最初の2塩基位置、最初の5塩基位置、最初の10塩基位置、最初の15塩基位置、最初の20塩基位置、最初の25塩基位置、最初の30塩基位置、または少なくとも最初の30塩基位置を含む。一部の実施形態では、末端領域は、参照配列と整列するシーケンシング読み取りデータの3’末端の最後の1塩基位置、最後の2塩基位置、最後の5塩基位置、最後の10塩基位置、最後の15塩基位置、最後の20塩基位置、最後の25塩基位置、最後の30塩基位置、または少なくとも最後の30塩基位置を含む。個々の配列読み取りデータの塩基対の長さまたは数もまた、必要に応じて所定の分子に対して一意的同一性を割り当てるために使用される。本明細書で記載される場合、一意的同一性を割り当てられている核酸の一本鎖からの断片はそれによって、親の鎖および/または相補鎖からのその後の断片の同定を可能にし得る。
一部の実施形態では、分子バーコードは、予想される、識別子のセット(例えば、一意的または非一意的分子バーコードの組合せ)の試料中の分子に対する比で導入される。1つの例としてのフォーマットは、標的分子の両方の末端にライゲーションされた約2~約1,000,000個の異なる分子バーコード配列、または約5~約150個の異なる分子バーコード配列、または約20~約50個の異なる分子バーコード配列を使用する。あるいは、約25~約1,000,000個の異なる分子バーコード配列を使用してもよい。例えば、20~50×20~50個の分子バーコード配列を使用することができる(すなわち、20~50個の異なる分子バーコード配列の1つを標的分子の各末端に付着させることができる)。そのような識別子の数は典型的に、同じ開始および終止点を有する異なる分子が異なる組合せの識別子を与えられる高い確率(例えば、少なくとも94%、99.5%、99.99%、または99.999%)を有するために十分である。一部の実施形態では、分子の約80%、約90%、約95%、または約99%が分子バーコードの同じ組合せを有する。
一部の実施形態では、反応における一意的または非一意的分子バーコードの割当ては、例えば、その各々がその全体がこれにより参照により本明細書に組み込まれる、米国特許出願第20010053519号、第20030152490号、および第20110160078号、ならびに米国特許第6,582,908号、第7,537,898号、第9,598,731号、および第9,902,992号に記載される方法およびシステムを使用して実施される。あるいは、一部の実施形態では、試料の異なる核酸分子は、内因性の配列情報(例えば、開始および/もしくは終止位置、配列の一方もしくは両方の末端の部分配列、ならびに/または長さ)のみを使用して同定され得る。
本明細書に記載されるある特定の実施形態では、核酸の異なる形態の集団(例えば、試料中の高メチル化および低メチル化DNA)を、解析、例えばシーケンシング、またはタグ付けおよびシーケンシングの前に物理的に分配することができる。例えば、一部の実施形態では、分配するステップは、核酸分子を、メチル化ヌクレオチドを含む核酸分子に優先的に結合する結合剤に対する核酸分子の差次的結合親和性に基づいて分配セットに分離するステップを含む。一部の実施形態では、分配セットは、例えば少なくとも1つの分配セットの少なくとも1つのサブセットをMSREによって消化するステップによって改変される。このアプローチを使用して、例えば、高メチル化可変エピジェネティック標的領域が腫瘍細胞の高メチル化特徴を示すか、または低メチル化可変エピジェネティック標的領域が腫瘍細胞の低メチル化特徴を示すかを決定することができる。さらに、不均一な核酸集団を分配することによって、例えば集団の1つの分画(または分配)中でより量が多いまれな核酸分子を富化することによって、まれなシグナルを増加させてもよい。例えば、高メチル化DNAに存在するが、低メチル化DNAにはあまり存在しない(または存在しない)遺伝的変異は、試料を高メチル化および低メチル化核酸分子に分配することによってより容易に検出され得る。試料の複数の分画を解析することによって、ゲノムの単一の座または核酸の種の多次元解析を実施することができ、よって、より高い感度を達成することができる。
一部の例では、不均一な核酸試料を、2つまたはそれより多くの分配(例えば、少なくとも3、4、5、6、または7個の分配)に分配する。一部の実施形態では、各分配は、差次的にタグ付けされ、すなわち各分配は、分子バーコードの異なるセットを有し得る。次いで、タグ付けされた分配を、集合的試料調製および/またはシーケンシングのために共にプールすることができる。分配-タグ付け-プーリングステップは、1回より多く行うことができ、分配の各ラウンドは、異なる特徴(本明細書に提供される例)に基づいて行われ、他の分配および分配手段とは識別される差次的タグを使用してタグ付けされる。
分配のために使用することができる特徴の例は、配列の長さ、メチル化レベル、ヌクレオソーム結合、配列ミスマッチ、免疫沈降、および/またはDNAに結合するタンパク質を含む。得られた分配は、以下の核酸形態のうちの1つまたは複数を含み得る:一本鎖DNA(ssDNA)、二本鎖DNA(dsDNA)、より短いDNA断片、およびより長いDNA断片。一部の実施形態では、シトシン改変(例えば、シトシンメチル化)またはメチル化に基づいて分配するステップを一般的に実施し、これを必要に応じてDNAの前述の特徴または形態のいずれかに基づき得る少なくとも1つの追加の分配ステップと組み合わせる。一部の実施形態では、不均一な核酸集団を、1つまたは複数のエピジェネティック改変を有する核酸と、1つまたは複数のエピジェネティック改変を有しない核酸とに分配する。エピジェネティック改変の例としては、メチル化の存在または非存在;メチル化のレベル;メチル化のタイプ(例えば、5-メチルシトシンと、他のタイプのメチル化、例えばアデニンメチル化および/またはシトシンヒドロキシメチル化との比較);ならびに1つまたは複数のタンパク質、例えばヒストンとの会合および会合のレベルが挙げられる。あるいはまたはさらに、核酸の不均一な集団を、ヌクレオソームと会合した核酸分子およびヌクレオソームを欠く核酸分子に分配することができる。あるいはまたはさらに、核酸の不均一な集団を、一本鎖DNA(ssDNA)および二本鎖DNA(dsDNA)に分配してもよい。あるいはまたはさらに、核酸の不均一な集団を、核酸の長さ(例えば、最大160bpの分子および160bpより長い長さを有する分子)に基づいて分配してもよい。
一部の実施形態では、核酸の集団は、2つまたはそれより多くの異なる分配に分配される。各分配は、異なる核酸形態を表し、第1の分配は第2の分配よりも大きい割合でシトシン改変を有するDNAを含む。各分配は、明確にタグ付けされる。第1の分配は、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供され、第1の核酸塩基は、改変または非改変核酸塩基であり、第2の核酸塩基は、第1の核酸塩基とは異なる改変または非改変核酸塩基であり、第1の核酸塩基および第2の核酸塩基は、同じ塩基対形成特異性を有する。タグ付けされた核酸は、シーケンシングの前に共にプールされる。配列読み取りデータを得、例えば、第1の分配のDNA中の第1の核酸塩基を第2の核酸塩基と識別するために、in silicoで解析する。タグを使用して、異なる分配からの読み取りデータを選別する。遺伝的変異体を検出するための解析を、分配毎のレベル、ならびに全核酸集団レベルで実施することができる。例えば、解析は、各分配中の核酸における遺伝的変異体、例えばCNV、SNV、インデル、融合を決定するためのin silico解析を含み得る。一部の例では、in silico解析は、クロマチン構造を決定するステップを含み得る。例えば、配列読み取りデータのカバレッジを使用して、クロマチンにおけるヌクレオソームの位置付けを決定することができる。より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得るが、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
試料は、ヌクレオチドに対する複製後改変を含む改変、および通常は非共有結合による1つまたは複数のタンパク質に対する結合が異なる核酸を含み得る。
一実施形態では、核酸の集団は、新生物、腫瘍、もしくはがんを有することが疑われるか、または新生物、腫瘍、もしくはがんを有すると以前に診断された対象由来の血清、血漿、または血液試料から得られるものである。核酸の集団は、様々なメチル化のレベルを有する核酸を含む。メチル化は、任意の1つまたは複数の複製後または転写による改変によって起こり得る。複製後改変は、特に核酸塩基の5位でのヌクレオチドシトシンの改変、例えば5-メチルシトシン、5-ヒドロキシメチルシトシン、5-ホルミルシトシン、および5-カルボキシルシトシンを含む。
分配において使用される作用剤、例えば結合剤は、所望の特異性を有する抗体、その天然の結合パートナーもしくは変異体(Bock et al., Nat Biotech 28: 1106-1114 (2010); Song et al., Nat Biotech 29: 68-72 (2011))、または例えばファージディスプレイによって所定の標的に対して特異性を有するように選択された人工ペプチドであり得る。
本明細書において企図される結合剤の例としては、MeCP2などのタンパク質および5-メチルシトシンに優先的に結合する抗体を含めた、本明細書に記載されるメチル結合ドメイン(MBD)およびメチル結合タンパク質(MBP)が挙げられる。抗体を使用してメチル化DNAを免疫沈降させる場合、メチル化DNAは、一本鎖形態で回収され得る。そのような実施形態では、第2の鎖を合成することができる。次いで、高メチル化(および必要に応じて中間メチル化)分配を、半メチル化DNAを切断しないが非メチル化DNAを切断するMSRE、例えばHpaII、BstUI、またはHin6iと接触させてもよい。あるいはまたは加えて、次いで、低メチル化(および必要に応じて中間メチル化)分配を、半メチル化DNAを切断するが、非メチル化DNAを切断しないMSREと接触させてもよい。
同様に、異なる形態の核酸の分配は、遊離または非結合核酸から、ヒストンに結合した核酸を分離することができるヒストン結合タンパク質を使用して実施することができる。本明細書に開示される方法に使用することができるヒストン結合タンパク質の例としては、RBBP4、RbAp48、およびSANTドメインペプチドが挙げられる。
一部の結合剤および一部の核酸改変に関して、作用剤に対する結合は、核酸が改変を有するか否かに応じて本質的に全か無かの様式で起こり得るが、分離は程度に応じた分離であり得る。そのような例では、改変が過剰発現する核酸は、改変が過少発現する核酸より大きい程度に作用剤に結合する。あるいは、改変を有する核酸は、全か無かの様式で結合し得る。しかし、その場合、様々なレベルの改変を、結合剤から逐次的に溶出させてもよい。
例えば、一部の実施形態では、分配するステップは、バイナリであるか、または改変の程度/レベルに基づき得る。例えば、全てのメチル化断片を、メチル結合ドメインタンパク質(例えば、MethylMinder Methylated DNA Enrichment Kit(ThermoFisher Scientific)を使用して非メチル化断片から分配することができる。その後の追加の分配は、メチル結合ドメインおよび結合断片を有する溶液中で塩濃度を調整することによって異なるレベルのメチル化を有する断片を溶出するステップを伴い得る。塩濃度が増加すると、より大きいメチル化レベルを有する断片が溶出する。
一部の例では、最終の分配は、異なる程度の改変(改変の過剰発現または過少発現)を有する核酸を表す。過剰発現および過少発現は、集団における鎖あたりの改変の中央値数と比較した、核酸が有する改変の数によって定義することができる。例えば、試料中の核酸における5-メチルシトシン残基の中央値数が2である場合、2つより多くの5-メチルシトシン残基を含む核酸はこの改変が過剰発現し、1またはゼロ個の5-メチルシトシン残基を含む核酸は過少発現する。親和性分離の効果は、結合相において改変が過剰発現した核酸分子に関して、および非結合相(すなわち溶液中)において改変が過少発現した核酸分子に関して富化することである。結合相の核酸分子は、その後のプロセシングの前に溶出させることができる。
MethylMiner Methylated DNA Enrichment Kit(ThermoFisher Scientific)を使用する場合、様々なレベルのメチル化を含むDNAを、逐次溶出を使用して分配することができる。例えば、低メチル化分配(非メチル化)を、核酸集団を磁気ビーズに付着したキットからのMBDと接触させることによって、メチル化分配から分離することができる。ビーズを使用して、メチル化核酸を非メチル化核酸から分離する。次に、1つまたは複数の溶出ステップを逐次的に実施して、異なるレベルのメチル化を有する核酸を溶出させる。例えば、メチル化核酸の第1のセットを、160mMまたはそれより高い、例えば、少なくとも150mM、少なくとも200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1000mM、または2000mMの塩濃度で溶出させることができる。そのようなメチル化核酸を溶出させた後、もう一度磁気分離を使用して、より高いレベルのメチル化核酸を、より低いレベルのメチル化を有する核酸から分離する。溶出および磁気分離ステップ自体を繰り返して、低メチル化分配(非メチル化を表す)、メチル化分配(低いレベルのメチル化を表す)、および高メチル化分配(高いレベルのメチル化を表す)などの様々な分配を作製することができる。
一部の方法では、分配のために使用される作用剤に結合した核酸は、洗浄ステップに供される。洗浄ステップは、結合剤に弱く結合した核酸を洗い流す。そのような核酸を、改変を有する核酸において平均値または中央値(すなわち、試料の作用剤との初回接触時に、固相に結合して残存する核酸と、固相に結合していない核酸との間の中間値)に近い程度まで富化することができる。
分配するステップは、異なる程度の改変を有する核酸の少なくとも2つ、時に3つまたはそれより多くの分配をもたらす。分配はなおも個別であるが、少なくとも1つの分配の核酸、および通常2つまたは3つの(またはそれより多くの)分配を、通常、アダプターの構成要素として提供される核酸タグに連結し、異なる分配中の核酸は、1つの分配のメンバーを別の分配のメンバーと識別する異なるタグを与えられる。同じ分配の核酸分子に連結されたタグは、互いに同じであっても異なっていてもよい。しかし互いに異なる場合、タグは、それらが付着する分子を特定の分配の分子であると同定するためにそれらのコードの一部を共通に有し得る。
メチル化などの特徴に基づいて核酸試料を分配することに関するさらなる詳細に関しては、参照により本明細書に組み込まれる、WO2018/119452を参照されたい。
一部の実施形態では、核酸分子は、特定のタンパク質またはその断片に結合した核酸分子およびその特定のタンパク質またはその断片に結合していない核酸分子に基づいて異なる分配に分配され得る。
核酸分子は、DNA-タンパク質結合に基づいて分配され得る。タンパク質-DNA複合体は、タンパク質の特異的特性に基づいて分配することができる。そのような特性の例としては、様々なエピトープ、改変(例えば、ヒストンメチル化またはアセチル化)または酵素活性が挙げられる。DNAに結合し、分配のための結合剤として役立ち得るタンパク質の例としては、これらに限定されないが、プロテインAおよびプロテインGが挙げられ得る。任意の好適な方法を使用して、タンパク質結合領域に基づいて核酸分子を分配することができる。タンパク質結合領域に基づいて核酸分子を分配するために使用される方法の例としては、これらに限定されないが、SDS-PAGE、クロマチン免疫沈降(ChIP)、ヘパリンクロマトグラフィー、および非対称流れ流動場分離法(AF4)が挙げられる。
一般的に、溶出は、核酸分子あたりのメチル化部位の数の関数であり、より多くのメチル化を有する分子は、塩濃度が増加すると溶出する。DNAを、メチル化の程度に基づいて別個の集団または分配に溶出させるために、増加するNaCl濃度の一連の溶出緩衝液を使用することができる。塩濃度は、約100nm~約2500mM NaClの範囲であり得る。一実施形態では、プロセスは、3つの分配をもたらす。分子を、メチル結合ドメインを含む分子を含む第1の塩濃度の溶液と接触させ、分子をストレプトアビジンなどの捕捉部分に付着させることができる。第1の塩濃度では、分子のある集団はMBDに結合し、ある集団は非結合のままである。非結合集団を、「低メチル化」集団として分離することができる。例えば、DNAの低メチル化形態を表す第1の分配は、低い塩濃度、例えば100mMまたは160mMで非結合のままである分配である。中間メチル化DNAを表す第2の分配は、中間の塩濃度、例えば100mM~2000mMの間の濃度を使用して溶出される。これもまた、試料から分離される。DNAの高メチル化形態を表す第3の分配は、高い塩濃度、例えば少なくとも約2000mMを使用して溶出される。
分配手順は、得られた分配または分画の中でDNA分子の不完全な選別をもたらし得る。例えば、低メチル化分配における少数の分子が高度に改変されてもよく(例えば、高メチル化)、および/または高メチル化分配における少数の分子が、非改変であっても、大部分が非改変(例えば、非メチル化またはほとんどが非メチル化)であってもよい。そのような分子は、非特異的に分配されると考えられる。本明細書に記載される方法は、非特異的に分配されたDNAからの技術的ノイズを、例えばそれを分解することによって、および/または非特異的に分配されたDNAがシーケンシング後に同定され得るようにある特定の塩基に変換することによって、低減することができるステップを含む。このように、本明細書に記載される方法は、改善された感度および/または合理化された解析を提供することができる。
一部の例では、各分配セット(異なる核酸形態を表す)は、分子バーコードによって差次的にタグ付けされ、分配セットは、シーケンシングの前に共にプールされる。他の例では、異なる形態は、個別にシーケンシングされる。
一部の実施形態では、核酸分子(例えば、分配後のポリヌクレオチドの試料から)は、試料インデックスおよび/または分子バーコード(一般的に「タグ」と呼ばれる)によってタグ付けされ得る。タグを使用して、タグ(または複数のタグ)を特定の分配と相関させるように分配の核酸を標識することができる。あるいは、タグを、分配ステップを用いない本発明の実施形態において使用することができる。タグまたはインデックスは、タグが会合する分子の特色を示す情報を含有する分子、例えば核酸であり得る。例えば、分子は、試料タグまたは試料インデックス(1つの試料中の分子を異なる試料中の分子と識別する)、分配タグ(1つの分配中の分子を異なる分配中の分子と識別する)、または分子タグ/分子バーコード/バーコード(異なる分子を互いに識別する(一意的および非一意的タグ付けシナリオの両方において))を有し得る。ある特定の実施形態では、タグは、バーコードの1つまたは組合せを含み得る。一部の実施形態では、バーコードは、例えば10~100個の間のヌクレオチドを有する。バーコードのコレクションは、縮重配列を有し得るか、または特定の目的にとって望ましいある特定のハミング距離を有する配列を有し得る。そのため、例えば分子バーコードは、1つのバーコードまたは各々が分子の異なる末端に付着する2つのバーコードの組合せから構成され得る。さらにまたはあるいは、異なる分配および/または試料に関して、バーコードがその個々の配列を通して分子タグとして役立つように、同様にそれらがメンバーであるセットに基づいてそれらが対応する分配および/または試料を同定するために役立つように、異なるセットの分子バーコード、分子タグ、または分子インデックスを使用することができる。
タグ付け戦略は、一意的タグ付けおよび非一意的タグ付け戦略に分けることができる。一意的タグ付けでは、試料中の全てまたは実質的に全ての分子が異なるタグを有し、それによって読み取りデータを、タグ情報のみに基づいて元の分子に割り当てることができる。そのような方法で使用されるタグは、時に「一意的タグ」と呼ばれる。非一意的タグ付けでは、同じ試料中の異なる分子が、同じタグを有することができ、それによってタグ情報に加えて他の情報を使用して、配列読み取りデータを元の分子に割り当てる。そのような情報は、開始および終止座標、分子がマッピングされる座標、開始または終止座標のみなどを含み得る。そのような方法において使用されるタグは時に、「非一意的タグ」と呼ばれる。したがって、試料中のあらゆる分子を必ずしも一意的にタグ付けする必要はない。試料内の同定可能なクラス内に入る分子を一意的にタグ付けすることで十分である。このように、異なる同定可能なファミリー中の分子は、タグ付けされた分子の同一性に関する情報を失うことなく、同じタグを有することができる。
非一意的タグ付けのある特定の実施形態では、使用される異なるタグの数は、特定の群の全ての分子が異なるタグを有する非常に高い可能性(例えば、少なくとも99%、少なくとも99.9%、少なくとも99.99%、または少なくとも99.999%)であれば、十分であり得る。バーコードをタグとして使用する場合、およびバーコードが例えばランダムに分子の両方の末端に付着している場合、バーコードの組合せは共にタグを構成し得ることに留意されたい。この数は、明確にコールに入る分子の数の関数である。例えば、クラスは、参照ゲノム上の同じ開始-終止位置にマッピングされる全ての分子であり得る。クラスは、特定の遺伝子座、例えば特定の塩基または特定の領域(例えば、最大100塩基または遺伝子または遺伝子のエクソン)にわたってマッピングされる全ての分子であり得る。ある特定の実施形態では、クラスにおける分子の数zを一意的に同定するために使用される異なるタグの数は、2*z、3*z、4*z、5*z、6*z、7*z、8*z、9*z、10*z、11*z、12*z、13*z、14*z、15*z、16*z、17*z、18*z、19*z、20*z、または100*zのいずれか(例えば、下限)と、100,000*z、10,000*z、1000*z、または100*zのいずれか(例えば、上限)との間であり得る。
例えば、約5ng~30ngの無細胞DNAの試料において、およそ3000個の分子が特定のヌクレオチド座標にマッピングされ、任意の開始座標を有する約3~10個の間の分子が同じ終止座標を共有すると予想される。したがって、約50~約50,000個の異なるタグ(例えば、約6~220個の間のバーコードの組合せ)は、全てのそのような分子を一意的にタグ付けするために十分であり得る。ヌクレオチド座標にわたってマッピングされる全ての3000個の分子を一意的にタグ付けするためには、約100万個~約2000万個の異なるタグが必要であろう。
一般的に、反応における一意的または非一意的タグバーコードの割当ては、米国特許出願第20010053519号、第20030152490号、第20110160078号、および米国特許第6,582,908号および米国特許第7,537,898号および米国特許第9,598,731号に記載される方法およびシステムに従う。タグは、試料核酸にランダムまたは非ランダムに連結することができる。
一部の実施形態では、タグ付けした核酸を、マイクロウェルプレートにロードした後、シーケンシングする。マイクロウェルプレートは、96、384、または1536マイクロウェルを有し得る。一部の例では、それらは、予想される一意的タグのマイクロウェルに対する比で導入される。例えば、一意的タグは、約1個より多く、2個より多く、3個より多く、4個より多く、5個より多く、6個より多く、7個より多く、8個より多く、9個より多く、10個より多く、20個より多く、50個より多く、100個より多く、500個より多く、1000個より多く、5000個より多く、10000個より多く、50,000個より多く、100,000個より多く、500,000個より多く、1,000,000個より多く、10,000,000個より多く、50,000,000個より多く、または1,000,000,000個より多くの一意的タグが、ゲノム試料あたりにロードされるようにロードされ得る。一部の例では、一意的タグは、約2個未満、3個未満、4個未満、5個未満、6個未満、7個未満、8個未満、9個未満、10個未満、20個未満、50個未満、100個未満、500個未満、1000個未満、5000個未満、10000個未満、50,000個未満、100,000個未満、500,000個未満、1,000,000個未満、10,000,000個未満、50,000,000個未満、または1,000,000,000個未満の一意的タグがゲノム試料あたりにロードされるようにロードされ得る。一部の例では、試料ゲノムあたりにロードされる一意的タグの平均数は、ゲノム試料あたり約1個未満もしくはそれより多くの、2個未満もしくはそれより多くの、3個未満もしくはそれより多くの、4個未満もしくはそれより多くの、5個未満もしくはそれより多くの、6個未満もしくはそれより多くの、7個未満もしくはそれより多くの、8個未満もしくはそれより多くの、9個未満もしくはそれより多くの、10個未満もしくはそれより多くの、20個未満もしくはそれより多くの、50個未満もしくはそれより多くの、100個未満もしくはそれより多くの、500個未満もしくはそれより多くの、1000個未満もしくはそれより多くの、5000個未満もしくはそれより多くの、10000個未満もしくはそれより多くの、50,000個未満もしくはそれより多くの、100,000個未満もしくはそれより多くの、500,000個未満もしくはそれより多くの、1,000,000個未満もしくはそれより多くの、10,000,000個未満もしくはそれより多くの、50,000,000個未満もしくはそれより多くの、または1,000,000,000個未満もしくはそれより多くの一意的タグである。
好ましいフォーマットは、標的核酸の両方の末端にライゲーションされた20~50個の異なるタグ(例えば、バーコード)を使用する。例えば、35個の異なるタグ(例えば、バーコード)が標的分子の両方の末端にライゲーションすると、35×35個の順列を作製し、これは35個のタグに関して1225個に等しい。そのような数のタグは、同じ開始および終止点を有する異なる分子が、高い確率(例えば、少なくとも94%、99.5%、99.99%、99.999%)で異なる組合せのタグを受容するために十分である。他のバーコードの組合せは、10~500個の間の任意の数、例えば、約15×15、約35×35、約75×75、約100×100、約250×250、約500×500個を含む。
一部の例では、一意的タグは、既定の、またはランダムもしくは半ランダム配列を有し得る。他の例では、バーコードが複数の中で必ずしも互いに一意的ではないように、複数のバーコードを使用してもよい。この例では、バーコードは、バーコードとそれがライゲーションされ得る配列の組合せが、個々に追跡され得る一意的配列を作製するように、個々の核酸分子にライゲーションされ得る。本明細書で記載される場合、配列読み取りデータの始まり(開始)および終わり(終止)の部分の配列データと組み合わせた非一意的バーコードの検出は、特定の分子に対する一意的同一性の割当てを可能にし得る。個々の配列読み取りデータの塩基対の長さまたは数もまた使用して、そのような分子に一意的同一性を割り当ててもよい。本明細書に記載されるように、一意的同一性が割り当てられている核酸の一本鎖からの断片はそれによって、親の鎖からの断片のその後の同定を可能にし得る。
一部の実施形態では、アダプター、例えばタグを含むアダプターを、核酸を分配した後に核酸に付加し、他の実施形態では、アダプターを、核酸を分配する前に核酸に付加してもよい。一部のそのような方法では、異なる程度に改変(例えば、核酸分子あたり0、1、2、3、4、5個またはそれより多くのメチル基)を有する核酸の集団を、改変の程度に応じて集団の分配前に、アダプターと接触させる。アダプターを、集団における核酸分子の一方の末端または両方の末端のいずれかに付着させる。一部の実施形態では、アダプターは、タグの組合せの数が、同じ組合せのタグを与えられる同じ開始および終止点を有する2つの核酸の低い確率、例えば、95、99、または99.9%をもたらすように十分数の異なるタグを含む。同じタグを有するか異なるタグを有するかによらず、アダプターは、同じまたは異なるプライマー結合部位を含み得るが、好ましくは、アダプターは同じプライマー結合部位を含む。一部の実施形態では、核酸は、分配後にアダプター内のプライマー結合部位に結合するプライマーから増幅される。増幅後、次いで異なる分配を、さらなる(例えば、クローン性の)増幅、および配列解析を並列してしかし個別に含み得るさらなるプロセシングステップに供することができる。次いで、異なる分配からの配列データを比較することができる。
一部の実施形態では、単一のタグを使用して、特定の分配を標識することができる。一部の実施形態では、複数の異なるタグを使用して、特定の分配セットを標識することができる。特定の分配を標識するために複数の異なるタグを用いる実施形態では、1つの分配を標識するために使用されるタグのセットは、他の分配を標識するために使用されるタグのセットとは容易に区別することができる。一部の実施形態では、タグは多機能であり得る、すなわちタグは同時に分子識別子(すなわち、分子バーコード)、分配識別子(すなわち、分配タグ)、および試料識別子(すなわち、試料インデックス)として作用することができる。例えば、4つのDNA試料が存在し、各DNA試料が3つの分配に分配される場合には、12個の分配の各々におけるDNA分子(すなわち、全体で4つのDNA試料に関して12個の分配)を、DNA分子に付着したタグ配列が、DNA分子の同一性、それが属する分配、およびそれが起源とする試料を明らかにするように個別のタグのセットによってタグ付けすることができる。一部の実施形態では、タグは、分子バーコードとしておよび分配タグとしての両方で使用することができる。例えば、DNA試料が3つの分配に分配される場合には、各分配中のDNA分子は、DNA分子に付着したタグ配列が、DNA分子の同一性、およびそれが属する分配を明らかにするように、分離したタグのセットによってタグ付けされる。一部の実施形態では、タグは、分子バーコードとしておよび試料インデックスとしての両方で使用することができる。例えば、4つのDNA試料が存在する場合には、各試料中のDNA分子は、DNA分子に付着したタグ配列が分子識別子としておよび試料識別子として役立つように、各試料を識別可能であり得る個別のタグのセットによってタグ付けされる。
一部の実施形態では、タグは、追加の機能を有し得、例えばタグを、試料の起源に索引を付けるために使用するか、または一意的分子識別子(例えば、Kinde et al., Proc Nat'l Acad Sci USA 108: 9530-9535 (2011), Kou et al., PLoS ONE,11: e0146638 (2016)にあるように、シーケンシングエラーを突然変異から区別することによってシーケンシングデータの品質を改善するために使用することができる)として使用するか、または例えば、米国特許第9,598,731号に記載されるように、非一意的分子識別子として使用することができる。同様に、一部の実施形態では、タグは、追加の機能を有してもよく、例えばタグは、試料の起源に索引を付けるために使用するか、または非一意的分子識別子(シーケンシングエラーを突然変異から区別することによってシーケンシングデータの品質を改善するために使用することができる)として使用することができる。
一実施形態では、分配タグ付けステップは、各分配中の分子を分配タグによってタグ付けするステップを含む。分配を再組み換えし(例えば、必要なシーケンシング実行数を低減させ、不要な費用を回避するため)、分子をシーケンシングした後、分配タグは、起源の分配を同定する。別の実施形態では、異なる分配を、例えばバーコード対から構成される分子タグの異なるセットによってタグ付けする。このようにして、各分子バーコードは、起源の分配ならびに分配内の分子を識別するために有用であることを示す。例えば、35個のバーコードの第1のセットを使用して、第1の分配中の分子をタグ付けすることができ、35個のバーコードの第2のセットを使用して、第2の分配中の分子をタグ付けすることができる。
一部の実施形態では、分配するステップおよび分配タグによってタグ付けするステップの後、分子を、1回の実行でシーケンシングするためにプールしてもよい。一部の実施形態では、試料タグを、例えば分配タグの付加およびプーリングの後のステップで分子に付加する。試料タグは、単一のシーケンシング実行でのシーケンシングのために複数の試料から生成された材料をプールすることを容易にし得る。
あるいは、一部の実施形態では、分配タグを、試料ならびに分配と相関させてもよい。単純な例として、第1のタグは、第1の試料の第1の分配を示すことができ、第2のタグは第1の試料の第2の分配を示すことができ、第3のタグは、第2の試料の第1の分配を示すことができ、第4のタグは、第2の試料の第2の分配を示すことができる。
タグを、1つまたは複数のエピジェネティック特徴に基づいて既に分配された分子に付着させてもよいが、ライブラリー中の最終のタグ付けされた分子は、そのエピジェネティック特徴をもはや保有しなくてもよい。例えば、一本鎖DNA分子が分配およびタグ付けされ得るが、ライブラリー中の最終のタグ付けされた分子は、二本鎖である可能性が高い。同様にDNAを、異なるレベルのメチル化に基づいて分配に供してもよいが、最終ライブラリー中、これらの分子に由来するタグ付けされた分子は非メチル化である可能性が高い。したがって、ライブラリー中の分子に付着するタグは典型的に、最終的なタグ付けされた分子が由来する「親分子」の特徴を示し、タグ付けされた分子そのものの特徴を必ずしも示さない。
一例として、バーコード1、2、3、4などを使用して、第1の分配中の分子をタグ付けおよび標識する;バーコードA、B、C、Dなどを使用して、第2の分配中の分子をタグ付けおよび標識する;ならびにバーコードa、b、c、dなどを使用して、第3の分配中の分子をタグ付けおよび標識する。差次的にタグ付けされた分配を、シーケンシングの前にプールすることができる。差次的にタグ付けされた分配を、例えばIlluminaシーケンサーの同じフローセルにおいて個別にシーケンシングするか、または共に同時にシーケンシングすることができる。
シーケンシング後、遺伝的変異体を検出するための読み取りデータの解析を、分配毎のレベルならびに全核酸集団のレベルで実施することができる。タグを使用して、異なる分配からの読み取りデータを選別する。解析は、配列情報、ゲノム座標の長さ、カバレッジおよびコピー数を使用して、遺伝的変異およびエピジェネティック変異(メチル化、クロマチン構造などのうちの1つまたは複数)を決定するためのin silico解析を含み得る。一部の実施形態では、より高いカバレッジは、ゲノム領域におけるより高いヌクレオソーム占有率と相関し得るが、より低いカバレッジは、より低いヌクレオソーム占有率またはヌクレオソーム枯渇領域(NDR)と相関し得る。
C.制限酵素により核酸分子を消化する
一部の実施形態では、分配または分配セット(例えば、シトシン改変、例えばメチル化、例えば5-メチル化のレベルに基づいて、本明細書に記載されるように試料を分配することによって調製された、例えば第1、第2、または第3の分配セット)は、分配または分配セットを、メチル化感受性制限酵素(MSRE)と接触させることによって消化される。分配が、シトシン改変に基づいて実施される一部の実施形態では、第1の分配はより高いレベルの改変を有する分配であり、第2の分配はより低いレベルの改変を有する分配であり、存在する場合、第3の分配は第1の分配と第2の分配との間の中間のレベルの改変を有する。
上記で考察したように、分配する手順は、分配の間でDNA分子の不完全な選別をもたらし得る。MSREの選択は、非特異的に分配されたDNAを分解するように行うことができる。例えば、第2の分配を、メチル化核酸分子を選択的に消化するMSREと接触させることができる。これは、第2の分配中の非特異的に分配されたDNA(例えば、メチル化DNA)を分解して、処置された第2の分配を生じることができる。あるいはまたはさらに、第1の分配を、非メチル化核酸分子を選択的に消化するMSREと接触させて、それによって第1の分配中の非特異的に分配されたDNAを分解して、処置された第1の分配を生じることができる。第1または第2の分配のいずれかまたは両方における非特異的に分配されたDNAの分解が、例えば試料中の異常に改変されたDNAの存在を検出するために、DNAの起源の組織を決定するために、および/または対象ががんを有するか否かを決定するために、シトシン改変に基づくDNAの正確な分配に依存する方法の性能に対する改善として提唱されている。例えば、そのような分解は改善された感度を提供する、および/または下流の解析を単純にし得る。
分配をヌクレアーゼ、例えばMSREと接触させる場合、1つまたは複数のヌクレアーゼを使用することができる。一部の実施形態では、分配を複数のヌクレアーゼと接触させる。分配を、ヌクレアーゼと逐次的または同時に接触させてもよい。ヌクレアーゼの同時使用は、試料の不要な取り扱いを回避するために、ヌクレアーゼが類似の条件(例えば、緩衝液組成)下で活性である場合に有利であり得る。第2の分配を1つより多くのMSREと接触させることにより、非特異的に分配された高メチル化DNAをより完全に分解することができる。同様に、第1の分配を1つより多くのMSREと接触させることにより、非特異的に分配された低メチル化および/または非メチル化DNAをより完全に分解することができる。
一部の実施形態では、メチル化核酸分子を選択的に消化するMSREは、MspJI、LpnPI、FspEI、またはMcrBCのうちの1つまたは複数を含む。一部の実施形態では、メチル化核酸分子を選択的に消化する少なくとも2つのMSREが使用される。一部の実施形態では、メチル化核酸分子を選択的に消化する少なくとも3つのMSREが使用される。
一部の実施形態では、非メチル化核酸分子を選択的に消化するMSREは、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIのうちの1つまたは複数を含む。一部の実施形態では、非メチル化核酸分子を選択的に消化する少なくとも2つのMSREが使用される。一部の実施形態では、非メチル化核酸分子を選択的に消化する少なくとも3つのMSREが使用される。一部の実施形態では、MSREは、BstUIおよびHpaIIを含む。一部の実施形態では、2つのMSREは、HhaIおよびAccIIを含む。一部の実施形態では、MSREは、BstUI、HpaII、およびHin6Iを含む。
一部の実施形態では、分配を、タグ付けするステップまたはDNAの両方の末端にアダプターを付着させるステップの後に、上記のようにヌクレアーゼと接触させる。タグまたはアダプターは、上記のアプローチのいずれかを使用するヌクレアーゼによる切断に対して抵抗性であり得る。このアプローチでは、切断生成物が両方の末端でタグまたはアダプターを欠如することから、切断により、非特異的に分配された分子が、解析まで持ち込まれることが防止され得る。
あるいは、タグ付けするまたはアダプターを付着させるステップは、上記のようにヌクレアーゼによる消化後に実施することができる。次いで、切断された分子を、ヌクレアーゼ認識部位に対応する末端(タグまたはアダプターに対する付着点)を有することに基づいて、配列読み取りデータにおいて同定することができる。このようにして分子をプロセシングすることはまた、切断された分子からの情報の獲得、例えば体細胞突然変異の観察を可能にし得る。分配をヌクレアーゼと接触させた後にタグ付けするまたはアダプターを付着させる場合、およびcfDNAなどの低分子量DNAを解析する場合、接触させることの前に、高分子量DNA(例えば、混入しているゲノムDNA)を試料から除去することが望ましい場合がある。同様に、変性がその後のライゲーションステップを妨害し得るという点で、DNAの変性を回避するために比較的低温(例えば、65℃もしくはそれ未満、または60℃もしくはそれ未満)で熱不活化することができるヌクレアーゼを使用することが望ましい場合がある。
試料が、中間メチル化分子を含有する第3の分配を含む3つの分配に分配される場合、第3の分配を、一部の実施形態では、MSRE、例えば非メチル化核酸分子を選択的に消化するMSREと接触させる。そのようなステップは、接触させることに関して本明細書の他所で記載する特色のいずれかを有してもよく、上記で考察したようにタグ付けするまたはアダプターを付着させるステップの前または後に実施してもよい。一部の実施形態では、第1および第3の分配を、MSREと接触させる前に組み合わせる。そのようなステップは、接触させることに関して本明細書の他所で記載する特色のいずれかを有してもよく、または上記で考察したようにタグ付けするまたはアダプターを付着させるステップの前または後に実施してもよい。一部の実施形態では、第1および第3の分配は、組み合わせる前に差次的にタグ付けされる。
一部の実施形態では、試料が、中間メチル化分子を含有する第3の分配を含む3つの分配に分配される場合、第3の分配を、一部の実施形態では、メチル化核酸分子を選択的に消化するMSREと接触させる。そのようなステップは、接触させることに関して本明細書の他所で記載する特色のいずれかを有してもよく、上記で考察したようにタグ付けするまたはアダプターを付着させるステップの前または後に実施してもよい。一部の実施形態では、第2および第3の分配を、MSREと接触させる前に組み合わせる。そのようなステップは、接触させることに関して本明細書の他所で記載する特色のいずれかを有してもよく、または上記で考察したようにタグ付けするまたはアダプターを付着させるステップの前または後に実施してもよい。一部の実施形態では、第2および第3の分配は、組み合わせる前に差次的にタグ付けされる。
一部の実施形態では、DNAは、例えばSPRIビーズを使用して、ヌクレアーゼと接触させた後に精製される。そのような精製は、ヌクレアーゼの熱不活化後に行ってもよい。あるいは、精製を省略することができ、このように、例えば増幅などのその後のステップを、熱不活化ヌクレアーゼを含有する分配について実施することができる。別の実施形態では、接触させることは、例えばチューブ移送に関連する損失を最小限にするために、SPRIビーズなどの精製試薬の存在下で行われ得る。切断および熱不活化後、分子クラウディング試薬(例えば、PEG)および塩を添加することによって、SPRIビーズをクリーンアップのために再利用することができる。
D.増幅
試料核酸は、アダプターに隣接し、PCR、および増幅されるDNA分子に隣接するアダプターにおけるプライマー結合部位に結合する核酸プライマーを使用する他の増幅方法によって増幅され得る。一部の実施形態では、増幅方法は、サーモサイクリングに起因する伸長、変性、およびアニーリングのサイクルを伴うか、または例えば転写媒介増幅におけるように等温であり得る。必要に応じて利用され得る増幅方法の他の例としては、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自家持続配列に基づく複製法が挙げられる。
典型的に、増幅反応は、約150ヌクレオチド(nt)~約700nt、250nt~約350nt、または約320nt~約550ntの範囲のサイズの、分子バーコードおよび試料インデックスを有する複数の非一意的または一意的にタグ付けされた核酸アンプリコンを生成する。一部の実施形態では、アンプリコンは、約180ntのサイズを有する。一部の実施形態では、アンプリコンは、約200ntのサイズを有する。
一部の実施形態では、本方法は、TテールおよびCテールアダプターによるdsDNAライゲーションを含み、これはアダプターへの連結前に二本鎖核酸の少なくとも50、60、70、または80%の増幅をもたらす。好ましくは、本方法は、Tテールアダプター単独によって実施した対照方法と比較して増幅された分子の量または数を少なくとも10、15、または20%増加させる。
一部の実施形態では、MSREによって消化された核酸分子は、増幅されない。一部のそのような実施形態では、MSREによって消化された核酸分子を除く、試料中の本質的に全ての核酸分子が増幅される。
E.富化/捕捉
一部の実施形態では、本明細書に開示される方法は、核酸分子の1つまたは複数の標的領域を捕捉または富化するステップを含む。捕捉は、当技術分野で公知の任意の好適なアプローチを使用して実施され得る。一部の実施形態では、捕捉するステップは、捕捉されるDNAを、標的特異的プローブのセット、例えば本明細書に記載されるプローブと接触させることを含む。捕捉するステップは、本明細書に開示される方法の際に調製される1つまたは複数の分配について実施され得る。一部の実施形態では、DNAは、少なくとも第1の分配または第2の分配、例えば少なくとも第1の分配および第2の分配から捕捉される。捕捉するステップは、分配または分配セットのいずれか、いずれか2つ、または全てのサブセットについて実施され得る。一部の実施形態では、分配は、差次的にタグ付けされ(例えば、本明細書に記載されるように)、次いで捕捉を受ける前にプールされる。
捕捉するステップは、一般的に長さ、塩基組成などのプローブの特色にある程度依存する特異的核酸ハイブリダイゼーションにとって好適な条件を使用して実施され得る。当業者は、核酸ハイブリダイゼーションに関して当技術分野で一般的な知識を考慮して適切な条件を熟知している。一部の実施形態では、標的特異的プローブおよびDNAの複合体が形成される。
一部の実施形態では、本明細書に記載される方法は、複数の標的領域のセットに関して試験対象から得られたcfDNAを捕捉するステップを含む。標的領域は、エピジェネティック標的領域を含み、それらは、腫瘍を起源とするかまたは健康な細胞を起源とするかに応じて、メチル化レベルおよび/または断片化パターンの差を示し得る。標的領域はまた、配列可変標的領域も含み、それらは、腫瘍を起源とするかまたは健康な細胞を起源とするかに応じて、配列の差を示し得る。捕捉するステップは、cfDNA分子の捕捉されたセットを生じる。一部の実施形態では、配列可変標的領域セットに対応するcfDNA分子は、エピジェネティック標的領域セットに対応するcfDNA分子よりもcfDNA分子の捕捉されたセットにおいて高い捕捉収率で捕捉される。捕捉するステップ、捕捉収率、および関連する態様の追加の考察に関しては、全ての目的に関して参照により本明細書に組み込まれる、WO2020/160414を参照されたい。
一部の実施形態では、本明細書に記載される方法は、試験対象から得られたcfDNAを、標的特異的プローブのセットと接触させることを含み、標的特異的プローブのセットは、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で配列可変標的領域セットに対応するcfDNAを捕捉するように構成される。
配列可変標的領域を十分な信頼度または精度で解析するためには、エピジェネティック標的領域を解析するために必要であり得るよりも大きい深度のシーケンシングが必要であり得ることから、配列可変標的領域セットに対応するcfDNAを、エピジェネティック標的領域セットに対応するcfDNAよりも高い捕捉収率で捕捉することは有益であり得る。断片化パターン(例えば、転写開始部位またはCTCF結合部位の乱れに関して試験するために)または断片の存在量(例えば、高メチル化および低メチル化分配における)を決定するために必要なデータ量は、一般的に、がん関連配列突然変異の存在または非存在を決定するために必要なデータ量よりも少ない。異なる収率で標的領域セットを捕捉することは、同じシーケンシングの実行においてシーケンシングの異なる深度まで標的領域をシーケンシングすることを容易にし得る(例えば、プールした混合物を使用しておよび/または同じシーケンシングセル中で)。
様々な実施形態では、方法は、本明細書における考察と一貫して、捕捉されたcfDNAを、例えば、エピジェネティックおよび配列可変標的領域セットに関して様々な程度のシーケンシング深度までシーケンシングするステップをさらに含む。
一部の実施形態では、標的特異的プローブおよびDNAの複合体を、標的特異的プローブに結合していないDNAから分離する。例えば、標的特異的プローブが共有結合または非共有結合によって固体支持体に結合している場合、洗浄または吸引ステップを使用して非結合材料を分離することができる。あるいは、複合体が、非結合材料とは別個のクロマトグラフィー特性を有する場合(例えば、プローブが、クロマトグラフィー樹脂に結合するリガンドを含む場合)、クロマトグラフィーを使用することができる。
本明細書において他所で詳細に考察するように、標的特異的プローブのセットは、配列可変標的領域セットのプローブおよびエピジェネティック標的領域セットのプローブなどの複数のセットを含み得る。一部のそのような実施形態では、捕捉するステップは、同じ容器で同時に、配列可変標的領域セットのプローブおよびエピジェネティック標的領域セットのプローブについて実施され、例えば配列可変標的領域セットおよびエピジェネティック標的領域セットのプローブは、同じ組成物中にある。このアプローチは、比較的合理化されたワークフローを提供する。一部の実施形態では、配列可変標的領域セットのプローブの濃度は、エピジェネティック標的領域セットのプローブの濃度よりも高い。
あるいは、捕捉するステップは、第1の容器中で配列可変標的領域プローブセットについて、および第2の容器中でエピジェネティック標的領域プローブセットについて実施されるか、または接触させることは、第1の時間および第1の容器で配列可変標的領域プローブセットについて、ならびに第1の時間の前もしくは後の第2の時間でエピジェネティック標的領域プローブセットについて実施される。このアプローチは、配列可変標的領域セットに対応する捕捉されたDNAおよびエピジェネティック標的領域セットに対応する捕捉されたDNAを含む個別の第1および第2の組成物の調製を可能にする。組成物を、所望のように個別にプロセシングし(例えば、本明細書において他所で記載されるようにメチル化に基づいて分画するために)、適切な割合で組み換えて、さらなるプロセシングおよびシーケンシングなどの解析のための材料を提供することができる。
一部の実施形態では、DNAは増幅される。一部の実施形態では、増幅は、捕捉するステップの前に実施される。一部の実施形態では、増幅は、捕捉するステップの後に実施される。
一部の実施形態では、アダプターは、DNAに含まれる。これは、例えば上記のように、例えばプライマーの5’部分にアダプターを提供することによって、増幅手順と同時に行われ得る。あるいは、アダプターは、ライゲーションなどの他のアプローチによって付加され得る。
一部の実施形態では、バーコードであり得るまたはバーコードを含み得るタグは、DNAに含まれ、例えばDNAに付加されるアダプターに含まれる。タグは、核酸の起源の同定を容易にし得る。例えば、バーコードを使用して、並列シーケンシングのために複数の試料のプール後にDNAが由来する起源(例えば、対象)を同定することができる。これは、例えば上記のように、例えばプライマーの5’部分にバーコードを提供することによって増幅手順と同時に行われ得る。一部の実施形態では、アダプターおよびタグ/バーコードは、同じプライマーまたはプライマーセットによって提供される。例えば、バーコードは、アダプターの3’およびプライマーの標的にハイブリダイズする部分の5’に位置し得る。あるいは、バーコードは、他のアプローチ、例えば、ライゲーションによって、必要に応じて同じライゲーション基質においてアダプターと共に付加することができる。
増幅、タグ、およびバーコードに関する追加の詳細は、本明細書における他の節で考察され、これらは、本明細書に記載される実施形態のいずれかと実践可能な程度に組み合わせることができる。
一部の実施形態では、配列は、核酸をシーケンシングする前に富化される。富化は、必要に応じて特異的標的領域に関して実施され得るか、または非特異的に実施され得る(「標的配列」)。一部の実施形態では、目的の標的化領域は、標的領域プローブセットなどの核酸捕捉プローブ(「ベイト」)によって濃縮/捕捉され、差次的タイリングおよび捕捉スキームを使用して1つまたは複数のベイトセットパネルに関して選択され得る。差次的タイリングおよび捕捉スキームは一般的に、異なる相対的濃度のベイトセットを使用して、ベイトに関連するゲノム領域にわたって差次的にタイリングし(例えば、異なる「解」で)、拘束のセット(例えば、シーケンシングロードなどのシーケンサーの拘束、各ベイトの有用性など)に供され、下流のシーケンシングのために所望のレベルで標的化核酸を捕捉する。これらの目的の標的化ゲノム領域は、必要に応じて、核酸構築物の天然または合成のヌクレオチド配列を含む。一部の実施形態では、目的の1つまたは複数の領域に対するプローブを有するビオチン標識ビーズを使用して、標的配列を捕捉した後、必要に応じてそれらの領域の増幅を行って目的の領域に関して富化することができる。一部の実施形態では、核酸捕捉用プローブは、一本鎖RNAまたは二本鎖DNA分子であり得る。
配列捕捉は典型的に、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を伴う。一部の実施形態では、プローブセット戦略は、目的の領域にわたってプローブをタイリングすることを伴う。そのようなプローブは、例えば、長さが約60~約120ヌクレオチドであり得る。セットは、約2×、3×、4×、5×、6×、7×、8×、9×、10×、15×、20×、50×、または50×より高い深度(例えば、カバレッジの深さ)を有し得る。配列捕捉の有効性は一般的に、部分的にプローブの配列と相補的である(またはほぼ相補的である)標的分子中の配列の長さに依存する。
一部の実施形態では、第1の標的領域セットは、少なくともエピジェネティック標的領域を含む第1の分配から捕捉される。第1の分配から捕捉されるエピジェネティック標的領域は、高メチル化可変標的領域を含み得る。一部の実施形態では、高メチル化可変標的領域は、健康な対象からのcfDNAが非メチル化であるか、またはcfDNAの低メチル化(例えば、バルクcfDNAと比較して平均未満のメチル化)を有するCpG含有領域である。一部の実施形態では、高メチル化可変標的領域は、少なくとも1つの他の組織タイプにおけるよりも健康なcfDNAにおいて低いメチル化を示す領域である。いかなる特定の理論にも拘束されることを望まないが、がん細胞は、同じ組織タイプの健康な細胞よりも多くのDNAを血流に脱落させ得る。そのため、cfDNAの起源の組織の分布は、発癌の際に変化し得る。このように、第1の分配中の高メチル化可変標的領域のレベルの増加は、がんの存在(または対象の既往に応じて再発)の指標であり得る。
一部の実施形態では、第2の標的領域セットは、少なくともエピジェネティック標的領域を含む第2の分配から捕捉される。エピジェネティック標的領域は、低メチル化可変標的領域を含み得る。一部の実施形態では、低メチル化可変標的領域は、健康な対象からのcfDNAがメチル化されているか、またはcfDNAの高メチル化(例えば、バルクcfDNAと比較して平均より上のメチル化)を有するCpG含有領域である。一部の実施形態では、低メチル化可変標的領域は、少なくとも1つの他の組織タイプよりも健康なcfDNAにおいて高いメチル化を示す領域である。いかなる特定の理論にも拘束されることを望まないが、がん細胞は、同じ組織タイプの健康な細胞よりも多くのDNAを血流に脱落させ得る。そのため、cfDNAの起源の組織の分布は、発癌の際に変化し得る。このように、第2の分配中の低メチル化可変標的領域のレベルの増加は、がんの存在(または対象の既往に応じて再発)の指標であり得る。
一部の実施形態では、富化されたDNA分子(または捕捉されたセット)は、配列可変標的領域セットおよびエピジェネティック標的領域セットに対応するDNAを含み得る。一部の実施形態では、捕捉された配列可変標的領域DNAの数量は、標的化領域のサイズ(フットプリントサイズ)の差に関して正規化すると、捕捉されたエピジェネティック標的領域DNAの数量よりも多い。一部の実施形態では、PCT特許出願PCT/US2020/016120号に記載される組成物、方法、およびシステムは、その全体がこれにより参照により本明細書に組み込まれる。
あるいは、配列可変標的領域セットに対応するDNAおよびエピジェネティック標的領域セットに対応するDNAをそれぞれ含む第1および第2の捕捉システムが提供され得る。第1および第2の捕捉されたセットを組み合わせて、組合せの捕捉されたセットを提供してもよい。
上記で考察したように組合せの捕捉されたセットを含む、配列可変標的領域セットにおよびエピジェネティック標的領域セットに対応するDNAを含む捕捉されたセットにおいて、配列可変標的領域セットに対応するDNAは、エピジェネティック標的領域セットに対応するDNAよりも高い濃度、例えば、1.1倍~1.2倍高い濃度、1.2倍~1.4倍高い濃度、1.4倍~1.6倍高い濃度、1.6倍~1.8倍高い濃度、1.8倍~2.0倍高い濃度、2.0倍~2.2倍高い濃度、2.2倍~2.4倍高い濃度、2.4倍~2.6倍高い濃度、2.6倍~2.8倍高い濃度、2.8倍~3.0倍高い濃度、3.0倍~3.5倍高い濃度、3.5倍~4.0、4.0倍~4.5倍高い濃度、4.5倍~5.0倍高い濃度、5.0倍~5.5倍高い濃度、5.5倍~6.0倍高い濃度、6.0倍~6.5倍高い濃度、6.5倍~7.0倍高い、7.0倍~7.5倍高い濃度、7.5倍~8.0倍高い濃度、8.0倍~8.5倍高い濃度、8.5倍~9.0倍高い濃度、9.0倍~9.5倍高い濃度、9.5倍~10.0倍高い濃度、10倍~11倍高い濃度、11倍~12倍高い濃度、12倍~13倍高い濃度、13倍~14倍高い濃度、14倍~15倍高い濃度、15倍~16倍高い濃度、16倍~17倍高い濃度、17倍~18倍高い濃度、18倍~19倍高い濃度、19倍~20倍高い濃度、20倍~30倍高い濃度、30倍~40倍高い濃度、40倍~50倍高い濃度、50倍~60倍高い濃度、60倍~70倍高い濃度、70倍~80倍高い濃度、80倍~90倍高い濃度、または90倍~100倍高い濃度で存在し得る。濃度の差の程度は、定義の節で考察するように、標的領域のフットプリントサイズに関する正規化を説明する。
a.エピジェネティック標的領域セット
エピジェネティック標的領域セットは、新生物(例えば、腫瘍またはがん)細胞からおよび健康な細胞、例えば非新生物の循環細胞からDNAを区別する可能性が高い標的領域の1つまたは複数のタイプを含み得る。そのような領域の例示的なタイプを、本明細書において詳細に考察する。一部の実施形態では、本開示に従う方法は、エピジェネティック標的領域セットに対応するcfDNA分子が、がん関連エピジェネティック改変(例えば、1つもしくは複数の高メチル化可変標的領域における高メチル化;CTCF結合の1つもしくは複数の乱れ;および/または転写開始部位の1つもしくは複数の乱れ)および/またはコピー数変異(例えば、局所的増幅)を含むかまたは示すかを決定することを含む。エピジェネティック標的領域セットはまた、例えば本明細書に記載されるように1つまたは複数の対照領域も含み得る。
一部の実施形態では、エピジェネティック標的領域セットは、少なくとも100kbp、例えば、少なくとも200kbp、少なくとも300kbp、または少なくとも400kbpのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、100~20Mbp、例えば、100~200kbp、200~300kbp、300~400kbp、400~500kbp、500~600kbp、600~700kbp、700~800kbp、800~900kbp、900~1,000kbp、1~1.5Mbp、1.5~2Mbp、2~3Mbp、3~4Mbp、4~5Mbp、5~6Mbp、6~7Mbp、7~8Mbp、8~9Mbp、9~10Mbp、または10~20Mbpの範囲のフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、少なくとも20Mbpのフットプリントを有する。
i.高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットは、1つまたは複数の高メチル化可変標的領域を含む。一般的に、高メチル化可変標的領域は、観察されたメチル化のレベルの増加が、試料(例えば、cfDNAの)が、腫瘍またはがん細胞などの新生物細胞によって産生されるDNAを含有する可能性の増加を示す領域を指す。例えば、腫瘍抑制遺伝子のプロモーターの高メチル化が、繰り返し観察されている。例えば、Kang et al., Genome Biol. 18:53(2017)およびそこで引用されている参考文献を参照されたい。別の例では、上記で考察したように、高メチル化可変標的領域は、同じタイプの健康な組織からのDNAと比較してがん様組織におけるメチル化が必ずしも異ならないが、健康な対象において典型であるcfDNAと比較するとメチル化が異なる(例えば、より多くのメチル化を有する)領域を含み得る。
結腸直腸がんにおけるメチル化可変標的領域の広範な考察は、Lam et al., Biochim Biophys Acta. 1866:106-20 (2016)に提供されている。これらは、VIM、SEPT9、ITGA4、OSM4、GATA4およびNDRG4を含む。結腸直腸がん(CRC)の研究に基づく遺伝子またはその一部を含む例示的な高メチル化可変標的領域の例示的なセットを表1に提供する。これらの遺伝子の多くは、結腸直腸がん以外のがんに対する関連性を有する可能性が高く、例えば、TP53は、極めて重要な腫瘍抑制因子であると広く認識されており、この遺伝子の高メチル化に基づく不活化は、一般的な発癌機序であり得る。
Figure 2023544720000002
一部の実施形態では、高メチル化可変標的領域は、表1に列挙される複数の遺伝子またはその一部、例えば、表1に列挙の遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。例えば、標的領域に含まれる各座に関して、遺伝子の転写開始部位と終止コドン(選択的にスプライシングされる遺伝子の最後の終止コドン)の間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在し得る。一部の実施形態では、1つまたは複数のプローブは、表1に列挙される遺伝子またはその一部の300bp以内の上流および/または下流、例えば200または100bp以内で結合する。
様々なタイプの肺がんにおけるメチル化可変標的領域は、例えば、Ooki et al., Clin. Cancer Res. 23:7141-52 (2017); Belinksy, Annu. Rev. Physiol. 77:453-74 (2015); Hulbert et al., Clin. Cancer Res. 23:1998-2005 (2017); Shi et al., BMC Genomics 18:901(2017); Schneider et al., BMC Cancer. 11:102 (2011); Lissa et al., Transl Lung Cancer Res 5(5):492-504 (2016); Skvortsova et al., Br. J. Cancer. 94(10):1492-1495 (2006); Kim et al., Cancer Res. 61:3419-3424 (2001); Furonaka et al., Pathology International 55:303-309 (2005); Gomes et al., Rev. Port. Pneumol. 20:20-30 (2014); Kim et al., Oncogene. 20:1765-70 (2001); Hopkins-Donaldson et al., Cell Death Differ. 10:356-64 (2003); Kikuchi et al., Clin. Cancer Res. 11:2954-61 (2005); Heller et al., Oncogene 25:959-968 (2006); Licchesi et al., Carcinogenesis. 29:895-904 (2008); Guo et al., Clin. Cancer Res. 10:7917-24 (2004); Palmisano et al., Cancer Res. 63:4620-4625 (2003);およびToyooka et al., Cancer Res. 61:4556-4560,(2001)に詳細に考察されている。一例として、高メチル化可変標的領域は、同じタイプの健康な組織からのDNAと比較してがん様組織におけるメチル化が必ずしも異ならないが、健康な対象において典型であるcfDNAと比較するとメチル化が異なる(例えば、より多くのメチル化を有する)領域を含み得る。例えば、がんの存在が、がんに対応する組織タイプの細胞のアポトーシスなどの細胞死の増加をもたらす場合、そのようながんは、そのような高メチル化可変標的領域を使用して少なくとも部分的に検出することができる。一部の実施形態では、高メチル化可変標的領域は、1つまたは複数のゲノム領域を含み、それらの領域におけるcfDNA分子は、健康な対象からのcfDNAと比較してがんの対象におけるメチル化状態が異ならないが、それらの領域における高メチル化cfDNAの存在/増加量は、特定の組織タイプ(例えば、がんの起源)を示しており、循環中へのアポトーシス(例えば、腫瘍の脱落)が増加したcfDNAとして提示される。
肺がん研究に基づく遺伝子またはその一部を含む高メチル化可変標的領域の例示的なセットを表2に提供する。これらの遺伝子の多くは、肺がん以外のがんに対して関連性を有する可能性が高く、例えば、Casp8(カスパーゼ8)は、プログラム細胞死における重要な酵素であり、この遺伝子の高メチル化に基づく不活化は、肺がんに限定されない一般的な発癌機序であり得る。さらに、いくつかの遺伝子は、表1および表2の両方に現れ、全般性を示している。
Figure 2023544720000003
表2において同定された標的領域に関する前述の実施形態のいずれかを、表1で同定された標的領域に関して上記の実施形態のいずれかと組み合わせてもよい。一部の実施形態では、高メチル化可変標的領域は、表1または表2に列挙される複数の遺伝子またはその一部、例えば、表1または表2に列挙される遺伝子またはその一部の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%を含む。
追加の高メチル化標的領域を、例えばthe Cancer Genome Atlasから得てもよい。Kang et al., Genome Biology 18:53(2017)は、乳房、結腸、腎臓、肝臓、および肺からの高メチル化標的領域を使用するCancer Locatorと呼ばれる確率論的方法の構築を記載している。一部の実施形態では、高メチル化標的領域は、がんの1つまたは複数のタイプに特異的であり得る。したがって、一部の実施形態では、高メチル化標的領域は、乳がん、結腸がん、腎臓がん、肝臓がん、および肺がんのうちの1、2、3、4、または5つにおいて高メチル化を集合的に示す高メチル化標的領域の1、2、3、4、または5つのサブセットを含む。
一部の実施形態では、異なるエピジェネティック標的領域が第1および第2の分配から捕捉される場合、第1の分配から捕捉されたエピジェネティック標的領域は、高メチル化可変標的領域を含む。
ii.低メチル化可変標的領域
全体的な低メチル化は、様々ながんにおいて一般的に観察される現象である。例えば、Hon et al., Genome Res. 22:246-258 (2012)(乳がん); Ehrlich, Epigenomics 1:239-259 (2009)(結腸がん、卵巣がん、前立腺がん、白血病、肝細胞がん、および子宮頸がんにおける低メチル化の観察に言及した総説論文)を参照されたい。例えば、反復エレメント、例えば、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、およびサテライトDNAなどの領域、ならびに健康な細胞において通常メチル化される遺伝子間領域は、腫瘍細胞において低減されたメチル化を示し得る。したがって、一部の実施形態では、エピジェネティック標的領域セットは、低メチル化可変標的領域を含み、観察されたメチル化のレベルの減少は、試料(例えば、cfDNAの)が新生物細胞、例えば腫瘍またはがん細胞によって産生されたDNAを含有する可能性の増加を示している。一例では、低メチル化可変標的領域は、同じタイプの健康な組織からのDNAと比較してがん様組織におけるメチル化状態が必ずしも異ならないが、健康な対象において典型であるcfDNAと比較するとメチル化が異なる(例えば、より少ないメチル化)領域を含み得る。例えば、がんの存在が、がんに対応する組織タイプの細胞のアポトーシスなどの細胞死の増加をもたらす場合、そのようながんは、そのような低メチル化可変標的領域を使用して少なくとも部分的に検出することができる。一部の実施形態では、低メチル化可変標的領域は、1つまたは複数のゲノム領域を含み、それらの領域におけるcfDNA分子は、健康な対象からのcfDNAと比較してがんの対象におけるメチル化状態が異ならないが、それらの領域における低メチル化cfDNAの存在/増加量は、特定の組織タイプ(例えば、がんの起源)を示しており、循環中へのアポトーシス(例えば、腫瘍の脱落)が増加したcfDNAとして提示される。
一部の実施形態では、低メチル化可変標的領域は、反復エレメントおよび/または遺伝子間領域を含む。一部の実施形態では、反復エレメントは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、および/またはサテライトDNAのうちの1、2、3、4、または5つを含む。
がん関連低メチル化を示す例示的な特定のゲノム領域は、例えばhg19またはhg38ヒトゲノム構築物に従って、ヒト第1染色体のヌクレオチド8403565~8953708および151104701~151106035を含む。一部の実施形態では、低メチル化可変標的領域は、これらの領域と重複するか、またはこれらの領域の一方もしくは両方を含む。
一部の実施形態では、異なるエピジェネティック標的領域が、第1および第2の分配から捕捉される場合、第2の分配から捕捉されたエピジェネティック標的領域は、低メチル化可変標的領域を含む。
iii.CTCF結合領域
CTCFは、クロマチン構成に寄与し、しばしばコヒーシンと共局在化する、DNA結合タンパク質である。CTCF結合部位の乱れは、多様な異なるがんにおいて報告されている。例えば、Katainen et al., Nature Genetics, doi:10.1038/ng.3335, published online 8 June 2015; Guo et al., Nat. Commun. 9:1520 (2018)を参照されたい。CTCF結合は、例えば断片長解析を通して、シーケンシングによって検出することができるcfDNAの認識可能なパターンをもたらす。例えば、シーケンシングに基づく断片長解析に関する詳細は、その各々が参照により本明細書に組み込まれる、Snyder et al., Cell 164:57-68 (2016);WO2018/009723;およびUS20170211143A1に提供される。
このように、CTCF結合の乱れは、cfDNAの断片化パターンの変異をもたらす。そのため、CTCF結合部位は、断片化可変標的領域の1つのタイプを表す。
多くの公知のCTCF結合部位が存在する。例えばその各々が参照により組み込まれる、insulatordb.uthsc.edu/においてインターネット上で利用可能なCTCFBSDB(CTCF Binding Site Database)insulatordb.uthsc.edu/; Cuddapah et al., Genome Res. 19:24-32 (2009); Martin et al., Nat. Struct. Mol. Biol. 18:708-14 (2011); Rhee et al., Cell. 147:1408-19 (2011)を参照されたい。例示的なCTCF結合部位は、例えばhg19またはhg38ヒトゲノム構築物に従って、第8染色体上のヌクレオチド56014955~56016161、および第13染色体上のヌクレオチド95359169~95360473である。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合領域を含む。一部の実施形態では、CTCF結合領域は、少なくとも10、20、50、100、200、もしくは500個のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個のCTCF結合領域、例えば上記の、またはCTCFBSDB、もしくは上記で引用したCuddapahら、Martinら、もしくはRheeらの論文の1つもしくは複数に記載のCTCF結合領域などを含む。
一部の実施形態では、CTCF部位の少なくとも一部は、メチル化または非メチル化であり得、メチル化状態は、細胞ががん細胞であるか否かに関連する。一部の実施形態では、エピジェネティック標的領域セットは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
iv.転写開始部位
転写開始部位もまた、新生物細胞において乱れを示し得る。例えば、健康な個体におけるcfDNAに実質的に寄与する造血系列の健康な細胞における様々な転写開始部位でのヌクレオソーム構成は、新生物細胞におけるそれらの転写開始部位でのヌクレオソーム構成とは異なり得る。これは、例えば、一般的にSnyder et al., Cell 164:57-68 (2016);WO2018/009723;およびUS20170211143A1において考察されるようにシーケンシングによって検出することができる異なるcfDNAパターンをもたらす。別の例では、転写開始部位は、同じタイプの健康な組織からのDNAと比較してがん様組織中で必ずしもエピジェネティックに異ならないが、健康な対象において典型であるcfDNAと比較するとエピジェネティックに異なる(例えば、ヌクレオソーム構築に関して)。例えば、がんの存在が、がんに対応する組織タイプの細胞のアポトーシスなどの細胞死の増加をもたらす場合、そのようながんは、そのような転写開始部位を使用して少なくとも部分的に検出することができる。
このように、転写開始部位の乱れもまた、cfDNAの断片化パターンの変異をもたらす。そのため、転写開始部位もまた、断片化可変標的領域の1つのタイプを表す。
ヒト転写開始部位は、参照により本明細書に組み込まれる、インターネット上のdbtss.hgc.jpで入手可能なDBTSS(DataBase of Human Transcription Start Sites)から入手可能であり、Yamashita et al., Nucleic Acids Res. 34(Database issue): D86-D89 (2006)に記載されている。
したがって、一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位を含む。一部の実施形態では、転写開始部位は、少なくとも10、20、50、100、200、もしくは500個の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個の転写開始部位、例えばDBTSSに列挙される転写開始部位などを含む。一部の実施形態では、転写開始部位の少なくとも一部は、メチル化であっても非メチル化であってもよく、メチル化状態は、細胞ががん細胞であるか否かと相関する。一部の実施形態では、エピジェネティック標的領域セットは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、少なくとも1000bp上流および/または下流の領域を含む。
v.コピー数変異;局所増幅
コピー数変異、例えば局所増幅は、体細胞突然変異であるが、それらは、メチル化の変化などのある特定のエピジェネティック変化を検出するためのアプローチと類似の方法で、読み取りデータの頻度に基づくシーケンシングによって検出することができる。そのため、がんにおける、局所増幅などのコピー数変異を示し得る領域を、エピジェネティック標的領域セットに含めることができ、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうちの1つまたは複数を含み得る。例えば、一部の実施形態では、エピジェネティック標的領域セットは、前述の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18個を含む。
iv.メチル化対照領域
データの検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットは、DNAががん細胞または正常細胞に由来するか否かによらず、本質的に全ての試料においてメチル化または非メチル化であると予想される対照領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において低メチル化であると予想される対照低メチル化領域を含む。一部の実施形態では、エピジェネティック標的領域セットは、本質的に全ての試料において高メチル化であると予想される対照高メチル化領域を含む。
b.配列可変標的領域セット
一部の実施形態では、配列可変標的領域セットは、がんにおいて体細胞突然変異を受けることが公知である複数の領域(本明細書においてがん関連突然変異と呼ばれる)を含む。したがって、方法は、配列可変標的領域セットに対応するcfDNA分子ががん関連突然変異を含むか否かを決定するステップを含み得る。
一部の実施形態では、配列可変標的領域セットは、がんを有する対象の既定の割合が、パネルにおける1つまたは複数の異なる遺伝子またはゲノム領域において遺伝的変異体または腫瘍マーカーを示すように選択された、複数の異なる遺伝子またはゲノム領域(「パネル」)を標的とする。パネルは、シーケンシングの領域を固定数の塩基対に限定するように選択され得る。パネルは、例えば本明細書の他所で記載されるようにプローブの親和性および/または量を調整することによって、所望の量のDNAをシーケンシングするように選択され得る。パネルはさらに、所望の配列読み取りデータ深度を達成するように選択され得る。パネルは、シーケンシングされた塩基対の量に関して所望の配列読み取りデータ深度または配列読み取りデータカバレッジを達成するように選択され得る。パネルは、試料中の1つまたは複数の遺伝的変異体を検出するために、理論的感度、理論的特異度、および/または理論的精度を達成するように選択され得る。
領域のパネルを検出するためのプローブは、目的のゲノム領域(ホットスポット領域)ならびにヌクレオソーム認識プローブ(例えば、KRASコドン12および13)を検出するためのプローブを含んでもよく、ヌクレオソーム結合パターンおよびGC配列組成によって影響を受けるcfDNAカバレッジおよび断片サイズ変異の解析に基づいて捕捉を最適化するように設計され得る。本明細書で使用される領域はまた、ヌクレオソーム位置およびGCモデルに基づいて最適化される非ホットスポット領域も含み得る。
目的のゲノムの場所の一覧の例は、表3および表4に見出され得る。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70個の少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3の融合体の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表3のインデルの少なくとも1、少なくとも2、または3個の少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73個の少なくとも一部を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4の融合体の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個を含む。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表4のインデルの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18個の少なくとも一部を含む。目的のこれらのゲノムの場所の各々は、所定のパネルに関して骨格領域またはホットスポット領域として同定され得る。目的のホットスポットゲノムの場所の一覧の例は、表5に見出され得る。表5の座標は、ヒトゲノムのhg19アセンブリに基づくが、当業者は、他のアセンブリに熟知しており、その選択のアセンブリにおいて、表記のエクソン、イントロン、コドンなどに対応する座標セットを同定することができる。一部の実施形態では、本開示の方法において使用される配列可変標的領域セットは、表5の遺伝子の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、または少なくとも20個の少なくとも一部を含む。各ホットスポットゲノム領域は、関連する遺伝子、それが存在する染色体、遺伝子の座を表すゲノムの開始および終止位置、塩基対における遺伝子の座の長さ、遺伝子によってカバーされるエクソン、ならびに目的の所定のゲノム領域が捕捉しようとし得る極めて重要な特色(例えば、突然変異のタイプ)を含む、いくつかの特徴と共に列挙される。
Figure 2023544720000004
Figure 2023544720000005
Figure 2023544720000006
Figure 2023544720000007
Figure 2023544720000008
さらに、またはあるいは、好適な標的領域セットは、文献から入手可能である。例えば、参照により本明細書に組み込まれる、Gale et al., PLoS One 13: e0194630 (2018)は、配列可変標的領域セットの一部または全てとして使用することができる35個のがん関連遺伝子標的のパネルを記載する。これらの35個の標的は、AKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53、およびU2AF1である。
一部の実施形態では、配列可変標的領域セットは、上に列挙されたがん関連遺伝子などの少なくとも10、20、30、または35個のがん関連遺伝子からの標的領域を含む。
一部の実施形態では、配列可変標的領域セットは、少なくとも50kbp、例えば、少なくとも100kbp、少なくとも200kbp、少なくとも300kbp、または少なくとも400kbpのフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、100~2000kbp、例えば、100~200kbp、200~300kbp、300~400kbp、400~500kbp、500~600kbp、600~700kbp、700~800kbp、800~900kbp、900~1,000kbp、1~1.5Mbp、または1.5~2Mbpの範囲のフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、少なくとも2Mbpのフットプリントを有する。
c.標的特異的プローブのコレクション
一部の実施形態では、標的特異的プローブのコレクションを、本明細書に記載される方法において使用する。一部の実施形態では、標的特異的プローブのコレクションは、配列可変標的領域セットに対して特異的な標的結合プローブおよびエピジェネティック標的領域セットに対して特異的な標的結合プローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率よりも高い(例えば、少なくとも2倍高い)。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに対して特異的なその捕捉収率よりも高い(例えば、少なくとも2倍高い)配列可変標的領域セットに対して特異的な捕捉収率を有するように構成される。
一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率よりも少なくとも1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、または15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの捕捉収率は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの捕捉収率よりも1.25倍~1.5倍、1.5倍~1.75倍、1.75倍~2倍、2倍~2.25倍、2.25倍~2.5倍、2.5倍~2.75倍、2.75倍~3倍、3倍~3.5倍、3.5倍~4倍、4倍~4.5倍、4.5倍~5倍、5倍~5.5倍、5.5倍~6倍、6倍~7倍、7倍~8倍、8倍~9倍、9倍~10倍、10倍~11倍、11倍~12倍、13倍~14倍、または14倍~15倍高い。
一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに対するその捕捉収率よりも少なくとも1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、または15倍高い、配列可変標的領域セットに対して特異的な捕捉収率を有するように構成される。一部の実施形態では、標的特異的プローブのコレクションは、エピジェネティック標的領域セットに対して特異的なその捕捉収率よりも1.25倍~1.5倍、1.5倍~1.75倍、1.75倍~2倍、2倍~2.25倍、2.25倍~2.5倍、2.5倍~2.75倍、2.75倍~3倍、3倍~3.5倍、3.5倍~4倍、4倍~4.5倍、4.5倍~5倍、5倍~5.5倍、5.5倍~6倍、6倍~7倍、7倍~8倍、8倍~9倍、9倍~10倍、10倍~11倍、11倍~12倍、13倍~14倍、または14倍~15倍高い、配列可変標的領域セットに対して特異的な捕捉収率を有するように構成される。
プローブのコレクションは、濃度、様々な長さ、および/または化学(例えば、親和性に影響を及ぼす)、ならびにそれらの組合せを含む様々な方法で配列可変標的領域セットに対してより高い捕捉収率を提供するように構成され得る。親和性は、以下に考察するように、プローブの長さを調整する、および/またはヌクレオチド改変を含めることによってモジュレートすることができる。
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、エピジェネティック標的領域セットに対して特異的な標的特異的プローブよりも高い濃度で存在する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度よりも少なくとも1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、または15倍高い。一部の実施形態では、配列可変標的領域セットに対して特異的な標的結合プローブの濃度は、エピジェネティック標的領域セットに対して特異的な標的結合プローブの濃度よりも1.25倍~1.5倍、1.5倍~1.75倍、1.75倍~2倍、2倍~2.25倍、2.25倍~2.5倍、2.5倍~2.75倍、2.75倍~3倍、3倍~3.5倍、3.5倍~4倍、4倍~4.5倍、4.5倍~5倍、5倍~5.5倍、5.5倍~6倍、6倍~7倍、7倍~8倍、8倍~9倍、9倍~10倍、10倍~11倍、11倍~12倍、13倍~14倍、または14倍~15倍高い。そのような実施形態では、濃度は、各セット中の個々のプローブの体積濃度あたりの平均質量を指し得る。
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、エピジェネティック標的領域セットに対して特異的な標的特異的プローブよりもそれらの標的に対する高い親和性を有する。親和性は、異なるプローブ化学を使用することによってを含む、当業者に公知の任意の方法でモジュレートすることができる。ある特定のヌクレオチド改変、例えばシトシン5-メチル化(ある特定の配列の文脈において)、糖の2’位でヘテロ原子を提供する改変、およびLNAヌクレオチドは、二本鎖核酸の安定性を増加させることができ、そのような改変を有するオリゴヌクレオチドが、その相補的配列に関して比較的高い親和性を有することを示している。例えば、Severin et al., Nucleic Acids Res. 39: 8740-8751 (2011); Freier et al., Nucleic Acids Res. 25: 4429-4443 (1997);米国特許第9,738,894号を参照されたい。同様に、より長い配列長は、一般的に親和性の増加を提供する。他のヌクレオチド改変、例えば、核酸塩基ヒポキサンチンをグアニンの代わりに置換すると、オリゴヌクレオチドとその相補配列の間の水素結合の量を低減させることによって親和性を低減する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、その標的に対するその親和性を増加させる改変を有する。一部の実施形態では、あるいはまたはさらに、エピジェネティック標的領域セットに対して特異的な標的特異的プローブは、その標的に対するその親和性を減少させる改変を有する。一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブは、エピジェネティック標的領域セットに対して特異的な標的特異的プローブよりも長い平均長および/または高い平均融解温度を有する。これらの実施形態を互いに、および/または上記で考察した濃度の差と組み合わせて、上記の任意の倍率の差またはその範囲などの、捕捉収率の所望の倍率の差を達成してもよい。
一部の実施形態では、標的特異的プローブは、捕捉部分を含む。捕捉部分は、本明細書に記載される捕捉分子のいずれか、例えばビオチンであってもよい。一部の実施形態では、標的特異的プローブは、固体支持体に、例えば捕捉部分の結合対の相互作用などを通して共有結合または非共有結合により連結される。一部の実施形態では、固体支持体はビーズ、例えば磁気ビーズである。
一部の実施形態では、配列可変標的領域セットに対して特異的な標的特異的プローブおよび/またはエピジェネティック標的領域セットに対して特異的な標的特異的プローブは、上記で考察したようにベイトセット、例えば、捕捉部分および遺伝子などの領域のパネルにわたってタイリングするために選択された配列を含むプローブである。
一部の実施形態では、標的特異的プローブは、単一の組成物中で提供される。単一の組成物は溶液(液体または凍結)であり得る。あるいは、これは凍結乾燥物であり得る。
あるいは、標的特異的プローブは、例えば、エピジェネティック標的領域セットに対して特異的なプローブを含む第1の組成物、および配列可変標的領域セットに対して特異的なプローブを含む第2の組成物を含む、複数の組成物として提供され得る。これらのプローブを適切な割合で混合して、濃度および/または捕捉収率の前述の倍率の差のいずれかを有する組み合わせたプローブ組成物を提供してもよい。あるいは、それらを個別の捕捉手順(例えば、試料のアリコートを用いて、または同じ試料で逐次的に)で使用して、捕捉されたエピジェネティック標的領域および配列可変標的領域をそれぞれ含む第1および第2の組成物を提供してもよい。
ii.エピジェネティック標的領域に対して特異的なプローブ
エピジェネティック標的領域セットのプローブは、新生物(例えば、腫瘍またはがん)細胞からのDNAを、健康な細胞、例えば非新生物の循環細胞と区別する可能性が高い1つまたは複数のタイプの標的領域に対して特異的なプローブを含み得る。そのような領域の例示的なタイプは、本明細書において、例えば捕捉されたセットに関する上記の節に詳細に考察されている。エピジェネティック標的領域セットのプローブはまた、例えば本明細書に記載される1つまたは複数の対照領域のプローブも含み得る。
一部の実施形態では、エピジェネティック標的領域セットのプローブは、少なくとも100kbp、例えば、少なくとも200kbp、少なくとも300kbp、または少なくとも400kbpのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、100~20Mbp、例えば、100~200kbp、200~300kbp、300~400kbp、400~500kbp、500~600kbp、600~700kbp、700~800kbp、800~900kbp、900~1,000kbp、1~1.5Mbp、1.5~2Mbp、2~3Mbp、3~4Mbp、4~5Mbp、5~6Mbp、6~7Mbp、7~8Mbp、8~9Mbp、9~10Mbp、または10~20Mbpの範囲のフットプリントを有する。一部の実施形態では、エピジェネティック標的領域セットは、少なくとも20Mbpのフットプリントを有する。
a.高メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットのプローブは、1つまたは複数の高メチル化可変標的領域に対して特異的なプローブを含む。高メチル化可変標的領域はまた、本明細書において高メチル化DMR(差次的にメチル化された領域)とも呼ばれ得る。高メチル化可変標的領域は、上記のそれらのいずれかであり得る。例えば、一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表1に列挙される複数の座、例えば表1に列挙される座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表2に列挙される複数の座、例えば表2に列挙される座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、高メチル化可変標的領域に対して特異的なプローブは、表1または表2に列挙される複数の座、例えば表1または表2に列挙される座の少なくとも10%、20%、30%、40%、50%、60%、70%、80%、90%、または100%に対して特異的なプローブを含む。一部の実施形態では、標的領域として含まれる各座に関して、遺伝子の転写開始部位と終止コドン(選択的にスプライシングされる遺伝子の場合は最後の終止コドン)の間に結合するハイブリダイゼーション部位を有する1つまたは複数のプローブが存在し得る。一部の実施形態では、1つまたは複数のプローブは、列挙された位置の300bp以内、例えば200または100bp以内に結合する。一部の実施形態では、プローブは、上に列挙された位置と重複するハイブリダイゼーション部位を有する。一部の実施形態では、高メチル化標的領域に対して特異的なプローブは、乳がん、結腸がん、腎臓がん、肝臓がん、および肺がんのうちの1、2、3、4、または5つにおいて集合的に高メチル化を示す高メチル化標的領域の1、2、3、4、または5つのサブセットに対して特異的なプローブを含む。
b.低メチル化可変標的領域
一部の実施形態では、エピジェネティック標的領域セットのプローブは、1つまたは複数の低メチル化可変標的領域に対して特異的なプローブを含む。低メチル化可変標的領域はまた、本明細書において低メチル化DMR(差次的にメチル化された領域)とも呼ばれ得る。低メチル化可変標的領域は、上記のそれらのいずれかであり得る。例えば、1つまたは複数の低メチル化可変標的領域に対して特異的なプローブは、反復エレメント、例えば、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、およびサテライトDNAなどの領域のプローブを含んでもよく、健康な細胞において通常メチル化される遺伝子間領域は、腫瘍細胞において低減されたメチル化を示し得る。
一部の実施形態では、低メチル化可変標的領域に対して特異的なプローブは、反復エレメントおよび/または遺伝子間領域に対して特異的なプローブを含む。一部の実施形態では、反復エレメントに対して特異的なプローブは、LINE1エレメント、Aluエレメント、セントロメアタンデムリピート、ペリセントロメアタンデムリピート、および/またはサテライトDNAのうちの1、2、3、4、または5個に対して特異的なプローブを含む。
がん関連低メチル化を示すゲノム領域に対して特異的な例示的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035に対して特異的なプローブを含む。一部の実施形態では、低メチル化可変標的領域に対して特異的なプローブは、ヒト第1染色体のヌクレオチド8403565~8953708および/または151104701~151106035と重複するまたはそれらを含む領域に対して特異的なプローブを含む。
c.CTCF結合領域
一部の実施形態では、エピジェネティック標的領域セットのプローブは、CTCF結合領域に対して特異的なプローブを含む。一部の実施形態では、CTCF結合領域に対して特異的なプローブは、少なくとも10、20、50、100、200、もしくは500個のCTCF結合領域、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個のCTCF結合領域、例えば上記の、またはCTCFBSDBの1つもしくは複数、または上記で引用したCuddapahら、Martinら、もしくはRheeらの論文におけるCTCF結合領域などに対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットのプローブは、CTCF結合部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、または少なくとも1000bp上流および下流の領域を含む。
d.転写開始部位
一部の実施形態では、エピジェネティック標的領域セットのプローブは、転写開始部位に対して特異的なプローブを含む。一部の実施形態では、転写開始部位に対して特異的なプローブは、少なくとも10、20、50、100、200、もしくは500個の転写開始部位、または10~20、20~50、50~100、100~200、200~500、もしくは500~1000個の転写開始部位、例えばDBTSSに列挙される転写開始部位などに対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットのプローブは、転写開始部位の少なくとも100bp、少なくとも200bp、少なくとも300bp、少なくとも400bp、少なくとも500bp、少なくとも750bp、または少なくとも1000bp上流および下流の配列のプローブを含む。
e.局所増幅
上記のように、局所増幅が体細胞突然変異であるが、それらは、メチル化の変化などのある特定のエピジェネティック変化を検出するためのアプローチと類似の方法で読み取りデータの頻度に基づいてシーケンシングすることによって検出することができる。そのため、がんにおいて局所増幅を示し得る領域を、上記で考察したようにエピジェネティック標的領域セットに含めることができる。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、局所増幅に対して特異的なプローブを含む。一部の実施形態では、局所増幅に対して特異的なプローブは、AR、BRAF、CCND1、CCND2、CCNE1、CDK4、CDK6、EGFR、ERBB2、FGFR1、FGFR2、KIT、KRAS、MET、MYC、PDGFRA、PIK3CA、およびRAF1のうちの1つまたは複数に対して特異的なプローブを含む。例えば、一部の実施形態では、局所増幅に対して特異的なプローブは、前述の標的の少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、または18個のうちの1つまたは複数に対して特異的なプローブを含む。
f.対照領域
データ検証を容易にするために対照領域を含めることは有用であり得る。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、本質的に全ての試料においてメチル化されると予想される対照メチル化領域に対して特異的なプローブを含む。一部の実施形態では、エピジェネティック標的領域セットに対して特異的なプローブは、本質的に全ての試料において低メチル化であると予想される対照低メチル化領域に対して特異的なプローブを含む。
ii.配列可変標的領域に対して特異的なプローブ
配列可変標的領域セットのプローブは、がんにおいて体細胞突然変異を受けることが公知である複数の領域に対して特異的なプローブを含み得る。プローブは、本明細書に記載される任意の配列可変標的領域セットに対して特異的であり得る。例示的な配列可変標的領域セットは、本明細書において、例えば捕捉されたセットに関する上記の節で詳細に考察される。
一部の実施形態では、配列可変標的領域プローブセットは、少なくとも0.5kb、例えば、少なくとも1kb、少なくとも2kb、少なくとも5kb、少なくとも10kb、少なくとも20kb、少なくとも30kb、または少なくとも40kbのフットプリントを有する。一部の実施形態では、エピジェネティック標的領域プローブセットは、0.5~100kb、例えば、0.5~2kb、2~10kb、10~20kb、20~30kb、30~40kb、40~50kb、50~60kb、60~70kb、70~80kb、80~90kb、および90~100kbの範囲のフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、少なくとも50kbp、例えば、少なくとも100kbp、少なくとも200kbp、少なくとも300kbp、または少なくとも400kbpのフットプリントを有する。一部の実施形態では、配列可変標的領域プローブセットは、100~2000kbp、例えば、100~200kbp、200~300kbp、300~400kbp、400~500kbp、500~600kbp、600~700kbp、700~800kbp、800~900kbp、900~1,000kbp、1~1.5Mbp、または1.5~2Mbpの範囲のフットプリントを有する。一部の実施形態では、配列可変標的領域セットは、少なくとも2Mbpのフットプリントを有する。
一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70個の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70個に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3の融合体の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表3のインデルの少なくとも1、少なくとも2、または3個の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73個の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73個に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4の融合体の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表4のインデルの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18個の少なくとも一部に対して特異的なプローブを含む。一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、表5の遺伝子の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、または少なくとも20個の少なくとも一部に対して特異的なプローブを含む。
一部の実施形態では、配列可変標的領域セットに対して特異的なプローブは、少なくとも10、20、30、または35個のがん関連遺伝子、例えばAKT1、ALK、BRAF、CCND1、CDK2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、FOXL2、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MED12、MET、MYC、NFE2L2、NRAS、PDGFRA、PIK3CA、PPP2R1A、PTEN、RET、STK11、TP53、およびU2AF1からの標的領域に対して特異的なプローブを含む。
F.シーケンシング
必要に応じてアダプターが隣接している試料核酸は、事前の増幅の有無にかかわらず、一般的にシーケンシングに供する。シーケンシング方法または必要に応じて利用される市販のフォーマットは、例えば、サンガーシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、一分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代シーケンシング(NGS)、合成による一分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、クローン単一分子アレイ(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、マキサム-ギルバートシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用するシーケンシングを含む。シーケンシング反応は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時にプロセシングする他の手段を含み得る多様な試料プロセシングユニットにおいて実施することができる。試料プロセシングユニットはまた、複数の実行のプロセシングを同時に可能にするために複数の試料チャンバーを含み得る。
一部の実施形態では、シーケンシングステップは、本明細書に記載される標的領域セットのいずれかを含み得る標的領域の捕捉されたセットを含むライブラリーについて実施される。一部の実施形態では、シーケンシングステップは、捕捉/富化を受けていない分配(例えば、全ゲノム試料)を含むライブラリーについて実施される。例えば、標的領域は第1の分配および第2の試料から捕捉し、次いで、シーケンシングしてもよく、または標的領域は第1の分配から捕捉し、次いで、接触させることおよびタグ付けすることなどのプロセシング後に第2の分配と組み合わせてもよく、または標的領域を第2の分配から捕捉し、接触させることおよびタグ付けすることなどのプロセシング後に第1の分配と組み合わせてもよく、または第1および第2の分配の両方を、捕捉/富化を受けることなくプロセシングし、組み合わせてもよい。
シーケンシング反応は、がんのマーカーまたは他の疾患のマーカーを含有する1つまたは複数の核酸断片型または領域について実施することができる。シーケンシング反応はまた、試料中に存在する任意の核酸断片についても実施することができる。シーケンシング反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%、または100%について実施され得る。他の例では、シーケンシング反応は、ゲノムの約5%未満、10%未満、15%未満、20%未満、25%未満、30%未満、40%未満、50%未満、60%未満、70%未満、80%未満、90%未満、95%未満、99%未満、99.9%未満、または100%未満について実施され得る。配列のカバレッジは、ゲノムの少なくとも5%、10%、20%、70%、100%、少なくとも200個もしくは500個の異なる遺伝子、または最大5000、2500、1000、500、もしくは100個の異なる遺伝子について実施することができる。
同時のシーケンシング反応は、多重シーケンシング技術を使用して実施され得る。一部の実施形態では、無細胞ポリヌクレオチドは、少なくとも約1000回、2000回、3000回、4000回、5000回、6000回、7000回、8000回、9000回、10000回、50000回、または100,000回のシーケンシング反応によってシーケンシングされる。他の実施形態では、無細胞ポリヌクレオチドは、約1000回未満、2000回未満、3000回未満、4000回未満、5000回未満、6000回未満、7000回未満、8000回未満、9000回未満、10000回未満、50000回未満、または100,000回未満のシーケンシング反応によってシーケンシングされる。シーケンシング反応は、典型的に逐次的または同時に実施される。その後のデータ解析は、一般的にシーケンシング反応の全てまたは一部について実施される。一部の実施形態では、データ解析は、少なくとも約1000回、2000回、3000回、4000回、5000回、6000回、7000回、8000回、9000回、10000回、50000回、または100,000回のシーケンシング反応について実施される。他の実施形態では、データ解析は、約1000回未満、2000回未満、3000回未満、4000回未満、5000回未満、6000回未満、7000回未満、8000回未満、9000回未満、10000回未満、50000回未満、または100,000回未満のシーケンシング反応について実施され得る。読み取りデータ深度の例は、座(例えば、塩基位置)あたり約1000~約50000個の読み取りデータである。読み取りデータ深度の別の例は、座(例えば、塩基位置)あたり少なくとも50000個の読み取りデータを有する。
1.シーケンシングの差次的深度
一部の実施形態では、配列可変標的領域セットに対応する核酸は、エピジェネティック標的領域セットに対応する核酸よりも大きい深度のシーケンシングまでシーケンシングされる。例えば、配列変異体標的領域セットに対応する核酸に関するシーケンシング深度は、エピジェネティック標的領域セットに対応する核酸のシーケンシング深度よりも少なくとも1.25倍、1.5倍、1.75倍、2倍、2.25倍、2.5倍、2.75倍、3倍、3.5倍、4倍、4.5倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍、もしくは15倍大きく、または1.25倍~1.5倍、1.5倍~1.75倍、1.75倍~2倍、2倍~2.25倍、2.25倍~2.5倍、2.5倍~2.75倍、2.75倍~3倍、3倍~3.5倍、3.5倍~4倍、4倍~4.5倍、4.5倍~5倍、5倍~5.5倍、5.5倍~6倍、6倍~7倍、7倍~8倍、8倍~9倍、9倍~10倍、10倍~11倍、11倍~12倍、13倍~14倍、14倍~15倍、もしくは15倍~100倍大きくなり得る。一部の実施形態では、前記シーケンシング深度は、少なくとも2倍大きい。一部の実施形態では、前記シーケンシング深度は少なくとも5倍大きい。一部の実施形態では、前記シーケンシング深度は、少なくとも10倍大きい。一部の実施形態では、前記シーケンシング深度は、4倍~10倍大きい。一部の実施形態では、前記シーケンシング深度は、4倍~100倍大きい。これらの実施形態の各々は、配列可変標的領域セットに対応する核酸が、エピジェネティック標的領域セットに対応する核酸よりもシーケンシングの大きい深度までシーケンシングされる程度に言及している。
一部の実施形態では、配列可変標的領域セットに対応する捕捉されたDNAおよびエピジェネティック標的領域セットに対応する捕捉されたDNAは、同時に、例えば同じシーケンシングセル(例えばIlluminaシーケンサーのフローセル)、ならびに/または捕捉されたセットを個別に組み換えることに起因するプールされた組成物、もしくは同じ容器中で配列可変標的領域セットに対応するcfDNAおよびエピジェネティック標的領域セットに対応する捕捉されたDNAを捕捉することによって得られた組成物であり得る同じ組成物においてシーケンシングされる。
G.ある特定の方法の追加の特色
a.試料または分配を、DNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供するステップ
本明細書に開示される方法は、試料または第1の分配を、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供するステップであって、第1の核酸塩基が改変または非改変核酸塩基であり、第2の核酸塩基が第1の核酸塩基とは異なる改変または非改変核酸塩基であり、第1の核酸塩基および第2の核酸塩基が同じ塩基対形成特異性を有する(例えば、第2の分配を、本明細書の他所で記載される実施形態のいずれかに従ってMSREと接触させている間)ステップを含み得る。一部の実施形態では、第1の核酸塩基が改変または非改変アデニンである場合には、第2の核酸塩基は改変または非改変アデニンであり;第1の核酸塩基が改変または非改変シトシンである場合には、第2の核酸塩基は改変または非改変シトシンであり;第1の核酸塩基が改変または非改変グアニンである場合には、第2の核酸塩基は改変または非改変グアニンであり;および第1の核酸塩基が改変または非改変チミンである場合には、第2の核酸塩基は改変または非改変チミンである(改変および非改変ウラシルは、このステップの目的に関して改変チミン内に包含される)。そのような手順を使用して、メチル化などのある特定の改変を有するかまたは欠如する分配中のヌクレオチドを同定することができる。
一部の実施形態では、第1の核酸塩基は改変または非改変シトシンであり、そして第2の核酸塩基は改変または非改変シトシンである。例えば、第1の核酸塩基は、非改変シトシン(C)を含んでもよく、第2の核酸塩基は、5-メチルシトシン(mC)および5-ヒドロキシメチルシトシン(hmC)のうちの1つまたは複数を含んでもよい。あるいは、第2の核酸塩基はCを含んでもよく、第1の核酸塩基は、mCおよびhmCのうちの1つまたは複数を含んでもよい。例えば、上記の概要および以下の考察に示されているように、第1および第2の核酸塩基のうちの一方がmCを含み、他方がhmCを含む場合などの他の組合せも同様に可能である。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、バイサルファイト変換を含む。バイサルファイトによる処置は、非改変シトシンおよびある特定の改変シトシンヌクレオチド(例えば、5-ホルミルシトシン(fC)または5-カルボキシルシトシン(caC))を、ウラシルに変換するが、他の改変シトシン(例えば、5-メチルシトシン、5-ヒドロキシルメチルシトシン)は変換されない。このように、バイサルファイト変換を使用する場合、第1の核酸塩基は、非改変シトシン、5-ホルミルシトシン、5-カルボキシルシトシン、またはバイサルファイトによって影響を受ける他のシトシン形態のうちの1つまたは複数を含み、第2の核酸塩基は、mCおよびhmCのうちの1つまたは複数、例えばmCおよび必要に応じてhmCを含み得る。バイサルファイト処置DNAのシーケンシングは、シトシンとして読み取られる位置をmCまたはhmC位置であると同定する。一方、Tとして読み取られる位置は、T、またはCのバイサルファイト感受性形態、例えば非改変シトシン、5-ホルミルシトシン、もしくは5-カルボキシルシトシンであると同定される。このように、バイサルファイト変換を本明細書に記載される第1の分配について実施することは、第1の分配から得られた配列読み取りデータを使用してmCまたはhmCを含有する位置を同定することを容易にする。バイサルファイト変換の例示的な説明に関しては、例えばMoss et al., Nat Commun. 2018; 9: 5068を参照されたい。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、酸化的バイサルファイト(Ox-BS)変換を含む。この手順は最初にhmCをfCに変換し、これは、バイサルファイト感受性であり、その後バイサルファイト変換を受ける。このように、酸化的バイサルファイト変換を使用する場合、第1の核酸塩基は、非改変シトシン、fC、caC、hmC、またはバイサルファイトによって影響を受ける他のシトシン形態のうちの1つまたは複数を含み、第2の核酸塩基はmCを含む。Ox-BS変換DNAのシーケンシングは、シトシンとして読み取られる位置をmC位置であると同定する。一方、Tとして読み取られる位置は、T、hmC、またはCのバイサルファイト感受性形態、例えば非改変シトシン、fC、もしくはhmCであると同定される。このように、本明細書で記載される第1の分配についてOx-BS変換を実施することは、第1の分配から得られた配列読み取りデータを使用してmCを含有する位置を同定することを容易にする。酸化的バイサルファイト変換の例示的な説明に関しては、例えば、Booth et al., Science 2012; 336: 934-937を参照されたい。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、Tet補助バイサルファイト(TAB)変換を含む。TAB変換では、hmCは、変換から保護され、mCは、バイサルファイト処置の前に酸化され、そのため本来mCによって占有されていた位置はUに変換されるが、本来hmCによって占有されていた位置はシトシンの保護形態として残る。例えば、Yu et al., Cell 2012; 149: 1368-80に記載されるように、β-グルコシルトランスフェラーゼを使用して、hmC(5-グルコシルヒドロキシメチルシトシン(ghmC)を形成する)を保護することができ、次いでmTet1などのTETタンパク質を使用してmCをcaCに変換することができ、次いでバイサルファイト処置を使用してCおよびcaCをUに変換することができるが、ghmCは影響を受けないままである。このように、TAB変換を使用する場合、第1の核酸塩基は、非改変シトシン、fC、caC、mC、またはバイサルファイトによって影響を受ける他のシトシン形態のうちの1つまたは複数を含み、第2の核酸塩基はhmCを含む。TAB変換DNAのシーケンシングは、シトシンとして読み取られる位置を、hmC位置として同定する。一方、Tとして読み取られる位置は、T、mC、またはCのバイサルファイト感受性形態、例えば非改変シトシン、fC、もしくはcaCとして同定される。このように、本明細書に記載されるように第1の分配についてTAB変換を実施することは、第1の分配から得られた配列読み取りデータを使用してhmCを含有する位置を同定することを容易にする。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、置換ボラン還元剤を用いたTet補助変換を含み、必要に応じて、置換ボラン還元剤は、2-ピコリンボラン、ボランピリジン、tert-ブチルアミンボラン、またはアンモニアボランである。置換ボラン還元剤変換を用いたTet補助pic-ボラン変換では、TETタンパク質は、非改変Cに影響を及ぼすことなく、mCおよびhmCをcaCに変換するために使用される。次いで、caC、および存在する場合fCは、2-ピコリンボラン(pic-ボラン)または別の置換ボラン還元剤、例えばボランピリジン、tert-ブチルアミンボラン、またはアンモニアボランによる処置によって、同様に非改変Cに影響を及ぼすことなくジヒドロウラシル(DHU)に変換される。例えば、Liu et al., Nature Biotechnology 2019; 37:424-429(例えば、補足図1および補足注釈7)を参照されたい。DHUは、シーケンシングにおいてTとして読み取られる。このように、このタイプの変換を使用する場合、第1の核酸塩基は、mC、fC、caC、またはhmCのうちの1つまたは複数を含み、第2の核酸塩基は非改変シトシンを含む。変換されたDNAのシーケンシングは、シトシンとして読み取られる位置を、非改変C位置として同定する。一方、Tとして読み取られる位置は、T、mC、fC、caC、またはhmCとして同定される。このように、本明細書に記載される第1の分配についてTAP変換を実施することは、第1の分配から得られた配列読み取りデータを使用して非改変Cを含有する位置を同定することを容易にする。この手順は、前記のLiu et al. 2019にさらに詳述されるTet補助ピリジンボランシーケンシング(TAPS)を包含する。
あるいは、hmCの保護(例えば、βGTを使用して)を、置換ボラン還元剤を用いたTet補助変換と組み合わせることができる。hmCは、上記のようにβGTを使用するグルコシル化を通してghmCを形成することによって保護することができる。次いで、mTet1などのTETタンパク質による処置は、mCをcaCに変換するが、CもghmCも変換しない。次いで、caCを、pic-ボランまたは別の置換ボラン還元剤、例えばボランピリジン、tert-ブチルアミンボラン、もしくはアンモニアボランによる処置によって、同様に非改変CにもghmCにも影響を及ぼすことなくDHUに変換する。このように、置換ボラン還元剤を用いたTet補助変換を使用する場合、第1の核酸塩基はmCを含み、第2の核酸塩基は、非改変シトシンまたはhmC、例えば非改変シトシンおよび必要に応じてhmC、fC、および/またはcaCのうちの1つまたは複数を含む。変換されたDNAのシーケンシングは、シトシンとして読み取られる位置を、hmCまたは非改変C位置のいずれかとして同定する。一方、Tとして読み取られる位置は、T、fC、caC、またはmCであると同定される。このように、本明細書に記載される第1の分配についてTAPSβ変換を実施することは、第1の分配から得られた配列読み取りデータを使用して、一方の非改変CまたはhmCを含有する位置を、mCを含有する位置と識別することを容易にする。このタイプの変換の例示的な説明に関しては、例えば、Liu et al., Nature Biotechnology 2019; 37:424-429を参照されたい。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、置換ボラン還元剤を用いた化学物質補助変換を含み、必要に応じて、置換ボラン還元剤は、2-ピコリンボラン、ボランピリジン、tert-ブチルアミンボラン、またはアンモニアボランである。置換ボラン還元剤を用いた化学物質補助変換では、過ルテニウム酸カリウム(KRuO4)(ox-BS変換において使用するためにも好適である)などの酸化剤を使用して、hmCをfCへと特異的に酸化する。pic-ボランまたは別の置換ボラン還元剤、例えばボランピリジン、tert-ブチルアミンボラン、もしくはアンモニアボランによる処置は、fCおよびcaCをDHUに変換するが、mCまたは非改変Cには影響を及ぼさない。このように、このタイプの変換を使用する場合、第1の核酸塩基は、hmC、fC、およびcaCのうちの1つまたは複数を含み、第2の核酸塩基は、非改変シトシンまたはmCのうちの1つまたは複数、例えば非改変シトシンおよび必要に応じてmCを含む。変換されたDNAのシーケンシングは、シトシンとして読み取られる位置を、mCまたは非改変C位置のいずれかとして同定する。一方、Tとして読み取られる位置は、T、fC、caC、またはhmCであると同定される。このように、本明細書に記載される第1の分配についてこのタイプの変換を実施することは、第1の分配から得られた配列読み取りデータを使用して、一方で非改変CまたはmCを含有する位置を、hmCを含有する位置と識別することを容易にする。このタイプの変換の例示的な説明に関しては、例えば、Liu et al., Nature Biotechnology 2019; 37:424-429を参照されたい。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、APOBECカップリングエピジェネティック(ACE)変換を含む。ACE変換では、AID/APOBECファミリーDNAデアミナーゼ酵素、例えばAPOBEC3A(A3A)を使用して、hmC、fC、またはcaCを脱アミノ化することなく非改変シトシンおよびmCを脱アミノ化する。このように、ACE変換を使用する場合、第1の核酸塩基は、非改変Cおよび/またはmC(例えば、非改変Cおよび必要に応じてmC)を含み、第2の核酸塩基はhmCを含む。ACE変換DNAのシーケンシングは、シトシンとして読み取られる位置を、hmC、fC、またはcaC位置であると同定する。一方、Tとして読み取られる位置は、T、非改変C、またはmCであると同定される。このように、本明細書に記載される第1の分配についてACE変換を実施することは、第1の分配から得られた配列読み取りデータを使用して、hmCを含有する位置を、mCまたは非改変Cを含有する位置と識別することを容易にする。ACE変換の例示的な説明に関しては、例えば、Schutsky et al., Nature Biotechnology 2018; 36: 1083-1090を参照されたい。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、例えばEM-Seqにおけるように、第1の核酸塩基の酵素的変換を含む。例えば、www.biorxiv.org/content/10.1101/2019.12.20.884692v1において利用可能な、Vaisvila R, et al.(2019) EM-seq: Detection of DNA methylation at single base resolution from picograms of DNA. bioRxiv; DOI: 10.1101/2019.12.20.884692 を参照されたい。例えば、TET2およびT4-βGTを使用して、5mCおよび5hmCを、デアミナーゼ(例えば、APOBEC3A)によって脱アミノ化することができない基質へと変換することができ、次いでデアミナーゼ(例えば、APOBEC3A)を使用して、非改変シトシンを脱アミノ化し、それらをウラシルに変換することができる。
一部の実施形態では、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順は、第1の核酸塩基を本来含むDNAを、第1の核酸塩基を本来含まないDNAから分離するステップを含む。一部のそのような実施形態では、第1の核酸塩基はhmCである。第1の核酸塩基を本来含むDNAは、第1の核酸塩基を本来含む位置をビオチン化するステップを含む標識手順を使用して他のDNAから分離され得る。一部の実施形態では、第1の核酸塩基は、アジド含有部分、例えばグルコシル-アジド含有部分によって最初に誘導体化される。次いで、アジド含有部分は、例えばヒュスゲン環化付加化学反応を通して、ビオチンを付着するための試薬として役立ち得る。次いで、ここでビオチン化された第1の核酸塩基を本来含むDNAを、ビオチン結合剤、例えばアビジン、ニュートラアビジン(約6.3の等電点を有する脱グリコシル化アビジン)、またはストレプトアビジンを使用して第1の核酸塩基を本来含まないDNAから分離することができる。第1の核酸塩基を本来含むDNAを、第1の核酸塩基を本来含まないDNAから分離するための手順の例は、hmC-シールであり、これは、hmCを標識してβ-6-アジド-グルコシル-5-ヒドロキシメチルシトシンを形成し、次いで、ヒュスゲン環化付加を通してビオチン部分を付着した後、ビオチン結合剤を使用してビオチン化DNAを他のDNAから分離する。hmC-シールの例示的な説明に関しては、例えば、Han et al., Mol. Cell 2016; 63: 711-719を参照されたい。このアプローチは、1つまたは複数のhmC核酸塩基を含む断片を同定するために有用である。
一部の実施形態では、そのような分離後、方法は、第1の核酸塩基を本来含むDNA、第1の核酸塩基を本来含まないDNA、および第2の分配のDNAの各々を差次的にタグ付けするステップをさらに含む。方法は、第1の核酸塩基を本来含むDNA、第1の核酸塩基を本来含まないDNA、および第2の分配のDNAを、差次的タグ付け後にプールするステップをさらに含み得る。次いで、第1の核酸塩基を本来含むDNA、第1の核酸塩基を本来含まないDNA、および第2の分配のDNAを、所定の読み取りデータが、差次的タグを使用して、第1の核酸塩基を本来含むDNA、第1の核酸塩基を本来含まないDNA、または第2の分配のDNAの分子に由来するかを解明する能力を保持しながら、同じシーケンシングセルにおいてシーケンシングしてもよい。
一部の実施形態では、第1の核酸塩基は、改変または非改変アデニンであり、第2の核酸塩基は改変または非改変アデニンである。一部の実施形態では、改変アデニンはN6-メチルアデニン(mA)である。一部の実施形態では、改変アデニンは、N6-メチルアデニン(mA)、N6-ヒドロキシメチルアデニン(hmA)、またはN6-ホルミルアデニン(fA)のうちの1つまたは複数である。
メチル化DNA免疫沈降(MeDIP)を含む技術を使用して、mAなどの改変塩基を含有するDNAを他のDNAから分離することができる。例えば、Kumar et al., Frontiers Genet. 2018; 9: 640; Greer et al., Cell 2015; 161: 868-878を参照されたい。mAに対して特異的な抗体は、Sun et al., Bioessays 2015; 37:1155-62に記載されている。様々な改変核酸塩基、例えばハロゲン化形態、例えば5-ブロモウラシルを含むチミン/ウラシルの形態に対する抗体が市販されている。様々な改変塩基はまた、その塩基対形成特異性の変更に基づいて検出することもできる。例えば、ヒポキサンチンは、脱アミノ化に起因し得るアデニンの改変形態であり、シーケンシングにおいてGとして読み取られる。例えば、米国特許第8,486,630号; Brown, Genomes, 2nd Ed., John Wiley & Sons, Inc., New York, N.Y., 2002, chapter 14, "Mutation, Repair, and Recombination"を参照されたい。
b.対象
一部の実施形態では、核酸分子、例えばDNA(例えば、cfDNA)は、がんを有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、がんを有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍を有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、新生物を有する対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、新生物を有することが疑われる対象から得られる。一部の実施形態では、DNA(例えば、cfDNA)は、腫瘍、がん、または新生物から寛解した(例えば化学療法、外科的切除、放射線照射、またはそれらの組み合わせの後)対象から得られる。前述の実施形態のいずれかにおいて、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、肺、結腸、直腸、腎臓、乳房、前立腺、または肝臓のものである。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、肺のものである。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、結腸または直腸のものである。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、乳房のものである。一部の実施形態では、がん、腫瘍、もしくは新生物、または疑われるがん、腫瘍、もしくは新生物は、前立腺のものである。前述の実施形態のいずれでは、対象はヒト対象であり得る。
c.定量
一部の実施形態では、第1の分配、処置された第1の分配、または処置された第2の分配のうちの1つまたは複数から捕捉されたエピジェネティック標的領域を定量する。例えば、低メチル化可変標的領域を、処置された第2の分配において定量してもよく、および/または高メチル化可変標的領域を、第1の分配または処置された第1の分配において定量してもよい。定量は、任意の適切な技術、例えば定量的PCRなどの定量的増幅によるものであり得る。一部の実施形態では、定量は、シーケンシングデータ(例えば、シーケンシング読み取りデータの数またはシーケンシングされた一意的分子の数)に基づく。
上記で考察されたエピジェネティック標的領域の定量を、対象におけるがんの存在、非存在、または可能性を決定するために使用することができる。例えば、がんの存在または非存在の決定は、少なくとも部分的に、第1の分配もしくは処置された第1の分配中の高メチル化可変標的領域の量、および/または処置された第2の分配中の低メチル化可変標的領域の量が、既定の閾値を超えるか否かに基づき得る。一部の実施形態では、そのような量を試料から収集した他のデータ、例えば突然変異の存在および/または本明細書の他所で記載される他のエピジェネティック特色、例えば転写開始部位および/またはCTCF結合部位の乱れと共に使用することができる。
d.第1および第2の分配、またはその一部からのDNAのプール
一部の実施形態では、方法は、第2の分配(例えば、低メチル化分配)のDNAの少なくとも一部および第1の分配(例えば、高メチル化分配)のDNAの少なくとも一部を含むプールを調製するステップを含む。例えばエピジェネティック標的領域および/または配列可変標的領域を含む標的領域をプールから捕捉してもよい。本明細書の他所で記載される分配の少なくとも一部から標的領域セットを捕捉するステップは、第1および第2の分配からのDNAを含むプールについて実施した捕捉ステップを包含する。プール中のDNAを増幅するステップは、プールから標的領域を捕捉する前に実施され得る。捕捉するステップは、本明細書の他所で記載される特色のいずれかを有し得る。
エピジェネティック標的領域は、それらが腫瘍もしくは健康な細胞を起源とするか、または本明細書の他所で考察されているように、それらがどのタイプの組織を起源とするか応じて、メチル化レベルおよび/または断片化パターンの差を示し得る。配列可変標的領域は、それらが腫瘍を起源とするかまたは健康な細胞を起源とするかに応じて配列の差を示し得る。
低メチル化分配からのエピジェネティック標的領域の解析は、一部の応用では、高メチル化および低メチル化分配からの配列可変標的領域の、ならびに高メチル化分配からのエピジェネティック標的領域の解析よりも情報量が少ないことがあり得る。そのため、配列可変標的領域およびエピジェネティック標的領域が捕捉される方法では、後者は、高メチル化および低メチル化分配からの配列可変標的領域ならびに高メチル化分配からのエピジェネティック標的領域のうちの1つまたは複数よりも低い程度に捕捉され得る。例えば、配列可変標的領域を、高メチル化分配と共にプールされない低メチル化分配の一部から捕捉することができ、プールは、高メチル化分配からのDNAの一部(例えば、大部分、実質的に全て、または全て)および低メチル化分配からのDNAなしまたはその一部(例えば、少数)によって調製することができる。そのようなアプローチは、低メチル化分配からのエピジェネティック標的領域のシーケンシングを低減または排除し、それによってさらなる解析にとって十分であるシーケンシングデータの量を低減することができる。
一部の実施形態では、プール中の低メチル化分配のDNAの少数部分を含むことは、1つまたは複数のエピジェネティック特色(例えば、本明細書の他所で詳細に考察されているメチル化または他のエピジェネティック特色)の、例えば相対的な定量を容易にする。
一部の実施形態では、プールは、例えば低メチル化分配のDNAの約50%未満、例えば低メチル化分配のDNAの約45%未満もしくはそれに等しい、40%未満もしくはそれに等しい、35%未満もしくはそれに等しい、30%未満もしくはそれに等しい、25%未満もしくはそれに等しい、20%未満もしくはそれに等しい、15%未満もしくはそれに等しい、10%未満もしくはそれに等しい、または5%未満もしくはそれに等しい、低メチル化分配のDNAの少数部分を含む。一部の実施形態では、プールは、低メチル化分配のDNAの約5%~25%を含む。一部の実施形態では、プールは、低メチル化分配のDNAの約10%~20%を含む。一部の実施形態では、プールは、低メチル化分配のDNAの約10%を含む。一部の実施形態では、プールは、低メチル化分配のDNAの約15%を含む。一部の実施形態では、プールは、低メチル化分配のDNAの約20%を含む。
一部の実施形態では、プールは、高メチル化分配のDNAの少なくとも50%であり得る、高メチル化分配の一部を含む。例えば、プールは、高メチル化分配のDNAの少なくとも約55%、60%、65%、70%、75%、80%、85%、90%、または95%を含み得る。一部の実施形態では、プールは、高メチル化分配のDNAの50~55%、55~60%、60~65%、65~70%、70~75%、75~80%、80~85%、85~90%、90~95%、または95~100%を含む。一部の実施形態では、第2のプールは、高メチル化分配の全てまたは実質的に全てを含む。
一部の実施形態では、方法は、低メチル化分配のDNAの少なくとも一部を含む第1のプールを調製するステップを含む。一部の実施形態では、方法は、高メチル化分配のDNAの少なくとも一部を含む第2のプールを調製するステップを含む。一部の実施形態では、第1のプールは、高メチル化分配のDNAの一部をさらに含む。一部の実施形態では、第2のプールは、低メチル化分配のDNAの一部をさらに含む。一部の実施形態では、第1のプールは、低メチル化分配のDNAの大部分、および必要に応じて高メチル化分配のDNAの少量を含む。一部の実施形態では、第2のプールは、高メチル化分配のDNAの大部分および低メチル化分配のDNAの少量を含む。中間メチル化分配を伴う一部の実施形態では、第2のプールは、中間メチル化分配のDNAの少なくとも一部、例えば中間メチル化分配のDNAの大部分を含む。一部の実施形態では、第1のプールは、低メチル化分配のDNAの大部分を含み、第2のプールは、高メチル化分配のDNAの大部分および中間メチル化分配のDNAの大部分を含む。
一部の実施形態では、方法は、第1のプールから少なくとも標的領域の第1のセットを捕捉するステップであって、例えば、第1のプールが上記の実施形態のいずれかに記載される通りである、ステップを含む。一部の実施形態では、第1のセットは、配列可変標的領域を含む。一部の実施形態では、第1のセットは、低メチル化可変標的領域および/または断片化可変標的領域を含む。一部の実施形態では、第1のセットは、配列可変標的領域および断片化可変標的領域を含む。一部の実施形態では、第1のセットは、配列可変標的領域、低メチル化可変標的領域、および断片化可変標的領域を含む。第1のプールにおいてDNAを増幅するステップを、この捕捉ステップの前に実施してもよい。一部の実施形態では、第1のプールから標的領域の第1のセットを捕捉するステップは、第1のプールのDNAを、標的特異的プローブの第1のセットと接触させることを含む。一部の実施形態では、標的特異的プローブの第1のセットは、配列可変標的領域に対して特異的な標的結合プローブを含む。一部の実施形態では、標的特異的プローブの第1のセットは、配列可変標的領域、低メチル化可変標的領域、および/または断片化可変標的領域に対して特異的な標的結合プローブを含む。
一部の実施形態では、方法は、標的領域の第2のセットまたは第2のプールから標的領域の複数のセットを捕捉するステップであって、例えば第1のプールが上記の実施形態のいずれかに記載の通りである、ステップを含む。一部の実施形態では、第2の複数物は、エピジェネティック標的領域、例えば高メチル化可変標的領域および/または断片化可変標的領域を含む。一部の実施形態では、第2の複数物は、配列可変標的領域およびエピジェネティック標的領域、例えば高メチル化可変標的領域および/または断片化可変標的領域を含む。第2のプールにおいてDNAを増幅するステップを、この捕捉ステップの前に実施してもよい。一部の実施形態では、第2のプールから標的領域の第2の複数のセットを捕捉するステップは、第1のプールのDNAを標的特異的プローブの第2のセットと接触させることであって、標的特異的プローブの第2のセットが、配列可変標的領域に対して特異的な標的結合プローブおよびエピジェネティック標的領域に対して特異的な標的結合プローブを含むことを含む。一部の実施形態では、標的領域の第1のセットおよび標的領域の第2のセットは同一ではない。例えば、標的領域の第1のセットは、標的領域の第2のセットには存在しない1つまたは複数の標的領域を含んでもよい。あるいはまたは加えて、標的領域の第2のセットは、標的領域の第1のセットには存在しない1つまたは複数の標的領域を含んでもよい。一部の実施形態では、少なくとも1つの高メチル化可変標的領域は、第2のプールから捕捉されるが、第1のプールからは捕捉されない。一部の実施形態では、複数の高メチル化可変標的領域は、第2のプールから捕捉されるが、第1のプールからは捕捉されない。一部の実施形態では、標的領域の第1のセットは、配列可変標的領域を含み、および/または標的領域の第2のセットは、エピジェネティック標的領域を含む。一部の実施形態では、標的領域の第1のセットは、配列可変標的領域および断片化可変標的領域を含み;標的領域の第2のセットは、エピジェネティック標的領域、例えば高メチル化可変標的領域および断片化可変標的領域を含む。一部の実施形態では、標的領域の第1のセットは、配列可変標的領域、断片化可変標的領域を含み、低メチル化可変標的領域を含み;標的領域の第2のセットは、エピジェネティック標的領域、例えば高メチル化可変標的領域および断片化可変標的領域を含む。
一部の実施形態では、第1のプールは、低メチル化分配のDNAの大部分および高メチル化分配のDNAの一部(例えば、約半分)を含み、第2のプールは、高メチル化分配のDNAの一部(例えば、約半分)を含む。一部のそのような実施形態では、標的領域の第1のセットは、配列可変標的領域を含み、および/または標的領域の第2のセットはエピジェネティック標的領域を含む。配列可変標的領域および/またはエピジェネティック標的領域は、本明細書の他所で記載される実施形態のいずれかに記載されている通りであり得る。
f.捕捉部分、ベイトセット
上記で考察したように、試料中の核酸を、標的配列を有する分子がその後の解析のために捕捉される捕捉ステップに供することができる。標的の捕捉は、オリゴヌクレオチドベイト、例えば捕捉部分、例えばビオチンによって標識された標的特異的プローブ、または以下に記載される他の例を含むベイトセットの使用を伴い得る。プローブは、遺伝子などの領域のパネルにわたってタイリングするために選択された配列を有し得る。一部の実施形態では、ベイトセットは、本明細書の他所で考察されているように、標的領域のセットのより高いおよびより低い捕捉収量、例えばそれぞれ、配列可変標的領域セットおよびエピジェネティック標的領域セットの捕捉収量を有し得る。そのようなベイトセットを、標的分子のベイトとのハイブリダイゼーションを可能にする条件下で試料と合わせる。次いで、捕捉された分子を、捕捉部分、例えば、ビーズに基づくストレプトアビジンによるビオチン捕捉部分を使用して単離する。そのような方法は、例えば参照により本明細書に組み込まれる、2017年12月26日に発行された米国特許第9,850,523号にさらに記載されている。
捕捉部分は、これらに限定されないが、ビオチン、アビジン、ストレプトアビジン、特定のヌクレオチド配列を含む核酸、抗体によって認識されるハプテン、および磁気吸着可能な粒子を含む。抽出部分は、ビオチン/ストレプトアビジン、またはハプテン/抗体などの結合対のメンバーであり得る。一部の実施形態では、検体に付着した捕捉部分は、単離可能な部分、例えば磁気吸着可能な粒子または遠心分離を通して沈降させることができる大きい粒子に付着するその結合対によって捕捉される。捕捉部分は、捕捉部分を欠如する核酸からの捕捉部分を有する核酸の親和性分離を可能にする任意のタイプの分子であり得る。例示的な捕捉部分は、固相に連結されたもしくは連結可能なストレプトアビジンに結合することによって親和性分離を可能にするビオチン、または固相に連結されたもしくは連結可能な相補的オリゴヌクレオチドに結合することを通して親和性分離を可能にするオリゴヌクレオチドである。
H.解析
一部の実施形態では、本明細書に記載される方法は、腫瘍(または新生物細胞またはがん細胞)によって産生されるDNAの存在を同定するステップを含む。
一部の実施形態では、本明細書の方法は、核酸の少なくとも一部が、1つまたは複数の改変シトシン残基、例えば5-メチルシトシンおよび以前に記載された他の改変のいずれかを含む核酸分子を解析するステップを含む。一部のそのような方法では、分配するステップの後、核酸の分配を、5C位置で改変された1つまたは複数のシトシン残基、例えば5-メチルシトシンを含むアダプターと接触させる。一部の実施形態では、そのようなアダプター中の全てのシトシン残基もまた改変されるか、またはアダプターのプライマー結合領域中のそのような全てのシトシンが改変される。アダプターは、集団中の核酸分子の両方の末端に付着している。一部の実施形態では、アダプターは、タグの組合せの数が、同じ開始および終止点を有する2つの核酸が同じタグの組合せを受ける低い確率、例えば95、99、または99.9%をもたらす十分数の異なるタグを含む。そのようなアダプター中のプライマー結合部位は同じであっても異なっていてもよいが、好ましくは同じである。アダプターの付着後、核酸を、アダプターのプライマー結合部位に結合するプライマーから増幅する。増幅された核酸を第1および第2のアリコートに分割する。第1のアリコートを、さらなるプロセシングありでまたはなしで配列データに関してアッセイする。第1のアリコートにおける分子に関する配列データは、このように、核酸分子の最初のメチル化状態とは無関係に決定される。第2のアリコート中の核酸分子を、DNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順であって、第1の核酸塩基が5位で改変されたシトシンを含み、第2の核酸塩基が非改変シトシンを含む、手順に供する。この手順は、バイサルファイト処置または非改変シトシンをウラシルに変換する別の手順であり得る。次いで、手順に供される核酸を、核酸分子に連結されたアダプターの元のプライマー結合部位に対するプライマーによって増幅する。アダプターに本来連結された核酸分子のみ(その増幅生成物とは異なる)が、これらの核酸がアダプターのプライマー結合部位にシトシンを保持していることからここで増幅可能であるが、一方増幅生成物は、これらのシトシン残基のメチル化を失っており、バイサルファイト処置においてウラシルへの変換を受けている。このように、その少なくとも一部がメチル化されている集団における元の核酸分子のみが、増幅を受ける。増幅後、これらの核酸を、配列解析に供する。第1および第2のアリコートから決定された配列の比較は、中でも、核酸集団におけるシトシンがメチル化に供されたことを示し得る。
そのような解析は、以下の例示的な手順を使用して実施することができる。分配後、メチル化DNAを、プライマー結合部位およびタグを含む両方の末端でY字形状アダプターに連結する。アダプター中のシトシンを、5位で改変する(例えば、5-メチル化)。アダプターの改変は、その後の変換ステップにおいてプライマー結合部位を保護するために役立つ(例えば、バイサルファイト処置、TAP変換、または改変シトシンに影響を及ぼさないが、非改変シトシンに影響を及ぼす任意の他の変換)。アダプターの付着後、DNA分子を増幅する。増幅生成物を、変換ありでまたはなしでシーケンシングのための2つのアリコートに分割する。変換に供されないアリコートを、さらなるプロセシングありでまたはなしで配列解析に供することができる。他のアリコートを、DNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順であって、第1の核酸塩基が5位で改変されたシトシンを含み、第2の核酸塩基が非改変シトシンを含む、手順に供する。この手順は、バイサルファイト処置または非改変シトシンをウラシルに変換する別の手順であり得る。シトシンの改変によって保護されたプライマー結合部位のみが、本来のプライマー結合部位に対して特異的なプライマーと接触させると増幅を支持することができる。このように、本来の分子のみがさらなる増幅に供され、最初の増幅からのコピーは供されない。次いで、さらに増幅された分子を、配列解析に供する。次いで、2つのアリコートからの配列を比較することができる。上記で考察した分離スキームと同様に、アダプター中の核酸タグは、メチル化および非メチル化DNAの間を識別するために使用されないが、同じ分配内の核酸分子を識別するために使用される。
シーケンシングは、複数の配列読み取りデータまたは読み取りデータを生成し得る。配列読み取りデータまたは読み取りデータは、約150塩基未満の長さ、または約90塩基未満の長さのヌクレオチド配列データを含み得る。一部の実施形態では、読み取りデータは、約80塩基~約90塩基の間、例えば、約85塩基の長さである。一部の実施形態では、本開示の方法は、非常に短い読み取りデータ、例えば、約50塩基未満または約30塩基未満の長さに適用される。配列読み取りデータは、配列データならびにメタ情報を含み得る。配列読み取りデータは、例えば、VCFファイル、FASTAファイル、またはFASTQファイルを含む任意の好適なファイルフォーマットで保存することができる。
FASTAは、配列データベースを検索するためのコンピュータプログラムを指し得、FASTAという名称はまた、標準的なファイルフォーマットも指し得る。FASTAは、例えば、参照によりその全体が本明細書に組み込まれる、Pearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448によって記載されている。FASTAフォーマットの配列は、一行の記述で始まり、その後に配列データの行が続く。説明の行は、最初の列における大なり記号(「>」)によって配列データとは識別される。「>」記号の後に続くワードは、配列の識別子であり、行の残りは説明である(いずれも必要に応じて)。「>」と識別子の最初の文字の間にスペースは存在しなくてもよい。テキストの全ての行は80文字より短いことが推奨される。「>」で始まる別の行が出現する場合、配列は終了し、このことは、別の配列の始まりを示す。
FASTQフォーマットは、生物学的配列(通常、ヌクレオチド配列)およびその対応する品質スコアの両方を保存するためのテキストに基づくフォーマットである。これはFASTAフォーマットと類似であるが、品質スコアが配列データの後に続く。配列の文字および品質スコアは共に、簡潔にするために単一のASCII文字によって符号化される。FASTQフォーマットは、例えば、その全体がこれにより参照により本明細書に組み込まれる、Cock et al.("The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants," Nucleic Acids Res 38(6):1767-1771, 2009)に記載されているように、Illumina Genome Analyzerなどのハイスループットシーケンシング機器の出力を保存するための事実上の標準である。
FASTAおよびFASTQファイルの場合、メタ情報は、説明行を含むが、配列データの行を含まない。一部の実施形態では、FASTQファイルでは、メタ情報は品質スコアを含む。FASTAおよびFASTQファイルの場合、配列データは説明行の後に始まり、典型的に必要に応じて「-」によるIUPAC曖昧性コードの一部のサブセットを使用して存在する。一実施形態では、配列データは、必要に応じて「-」または必要に応じてU(例えば、ギャップまたはウラシルを表すため)を含む、A、T、C、G、およびNの文字を使用してもよい。
一部の実施形態では、少なくとも1つのマスター配列読み取りデータファイルおよび出力ファイルは、プレーンテキストファイル(例えば、例えばASCII;ISO/IEC646;EBCDIC;UTF-8;またはUTF-16をコードすることを使用する)として保存される。本開示によって提供されるコンピュータシステムは、プレーンテキストファイルを開くことが可能なテキストエディタープログラムを含み得る。テキストエディタープログラムは、コンピュータスクリーン上でテキストファイル(例えば、プレーンテキストファイル)の内容を表示することが可能で、人がテキストを編集することを可能にする(例えば、モニター、キーボード、およびマウスを使用して)コンピュータプログラムを指し得る。テキストエディターの例としては、これらに限定されないが、Microsoft Word、emacs、pico、vi、BBEdit、およびTextWranglerが挙げられる。テキストエディタープログラムは、コンピュータスクリーン上でプレーンテキストファイルを表示することが可能であり、メタ情報および配列読み取りデータを人が読み取ることが可能なフォーマットで示し得る(例えば、バイナリにコードされないが、その代わりに、プリントまたは人が書くために使用され得る英数字文字を使用する)。
方法は、FASTAまたはFASTQファイルを参照して考察されているが、本開示の方法およびシステムを使用して、例えばVariant Call Format(VCF)フォーマットのファイルを含む任意の好適な配列ファイルフォーマットを圧縮してもよい。典型的なVCFファイルは、ヘッダーセクションおよびデータセクションを含み得る。ヘッダーは、各々が文字「##」で始まる任意の数のメタ情報の行、および単一の「#」文字から始まるTABで区切られたフィールド定義の行を含有する。フィールド定義の行は8個の必須の列を命名し、ボディセクションは、フィールド定義の行によって定義される列に追加するデータの行を含有する。VCFフォーマットは、その全体がこれにより参照により本明細書に組み込まれる、例えば、Danecek et al.("The variant call format and VCF tools," Bioinformatics 27(15):2156-2158, 2011)に記載される。ヘッダーセクションは、圧縮ファイルに書き込むためのメタ情報として処理されてもよく、データセクションは、その各々が、一意的である場合に限ってマスターファイルに保存することができる行として処理されてもよい。
一部の実施形態は、配列読み取りデータのアセンブリを提供する。アライメントによるアセンブリでは、例えば、配列読み取りデータを互いに整列させ、または参照配列と整列させる。各読み取りデータを次に参照ゲノムに整列させることによって、読み取りデータの全てを、互いに関連させて配置してアセンブリを作製する。加えて、配列読み取りデータを参照配列に整列させるまたはマッピングすることを使用して、配列読み取りデータ内の変異体配列を同定することもできる。変異体配列を同定することを、本明細書に記載される方法およびシステムと組み合わせて使用して、疾患または状態の診断または予後判定をさらに助ける、または処置の決定を誘導することができる。
一部の実施形態では、ステップのいずれかまたは全てが自動化される。あるいは、本開示の方法を、例えば各々が必要に応じてコンパイル言語、例えばC++で書かれた、1つまたは複数の専用プログラムにおいて全体または部分的に具体化され、その後コンパイルされ、バイナリとして分配されてもよい。本開示の方法は、既存の配列解析プラットフォーム内で全体またはモジュールとして部分的に、またはその中の機能を呼び出すことによってインプリメントされ得る。一部の実施形態では、本開示の方法は、単一の開始キュー(例えば、人の活動、別のコンピュータプログラム、またはマシンから得られた誘発事象の1つまたは組合せ)に全て自動で応答して呼び出されるいくつかのステップを含む。このように、本開示は、ステップのいずれかまたはステップのいずれかの組合せが、キューに自動で応答して起こることができる方法を提供する。「自動的」は、一般的に、人の入力、影響、または相互作用が介在しないことを意味する(例えば、本来のまたはキュー前の人の活動のみに応答する)。
本開示の方法はまた、対象の核酸試料の正確かつ感度のよい解釈を含む、様々な形態の出力も包含し得る。検索の出力は、コンピュータファイルのフォーマットで提供され得る。一部の実施形態では、出力は、FASTAファイル、FASTQファイル、またはVCFファイルである。出力は、参照ゲノムの配列と整列させた核酸の配列などの配列データを含有するテキストファイルまたはXMLファイルを生じるようにプロセシングされ得る。他の実施形態では、プロセシングは、参照ゲノムと比較して対象核酸における1つまたは複数の突然変異を記載する座標または文字列を含有する出力を生じる。アライメントの文字列は、Simple UnGapped Alignment Report(SUGAR)、Verbose Useful Labeled Gapped Alignment Report(VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report(CIGAR)(例えばその全体がこれにより参照により本明細書に組み込まれる、Ning et al., Genome Research 11(10):1725-9, 2001によって記載される)を含み得る。これらの文字列は、例えば、European Bioinformatics Institute(Hinxton、UK)からのExonerate配列アライメントソフトウェアにおいてインプリメントされ得る。
一部の実施形態では、配列アライメント、例えばCIGAR文字列を含む配列アライメントマップ(SAM)またはバイナリアライメントマップ(BAM)ファイルなどが作成される(SAMフォーマットは、例えばその全体がこれにより参照により本明細書に組み込まれる、Li et al., "The Sequence Alignment/Map format and SAMtools," Bioinformatics, 25(16):2078-9, 2009に記載されている)。一部の実施形態では、CIGARは、ギャップありアライメントを1行毎に1つずつ表示するかまたは含む。CIGARは、CIGAR文字列として報告される圧縮されたペアワイズアライメントフォーマットである。CIGAR文字列は、長い(例えば、ゲノム)ペアワイズアライメントを表示するために有用であり得る。CIGAR文字列は、SAMフォーマットで使用されて、参照ゲノム配列に対する読み取りデータのアライメントを表し得る。
CIGAR文字列は、確立されたモチーフが後に続き得る。各文字の前に、事象の基本数を与える数字がある。使用される文字は、M、I、D、N、およびS(M=マッチ;I=挿入;D=欠失;N=ギャップ;S=置換)を含み得る。CIGAR文字列は、マッチおよび/またはミスマッチおよび欠失(またはギャップ)の配列を定義する。例えば、CIGAR文字列2MD3M2D2Mは、アライメントが2個のマッチ、1個の欠失(スペースを節約するために数字の1は省略する)、3個のマッチ、2個の欠失、および2個のマッチを含有することを示し得る。
一部の実施形態では、核酸集団を、一方または両方の末端で一本鎖オーバーハングを有する二本鎖核酸において平滑末端を酵素的に形成することによってシーケンシングのために準備する。これらの実施形態では、集団は典型的に、ヌクレオチド(例えば、A、C、G、およびTまたはU)の存在下で5’-3’DNAポリメラーゼ活性および3’-5’エキソヌクレアーゼ活性を有する酵素によって処置される。必要に応じて使用され得る酵素またはその触媒性断片の例としては、クレノウラージ断片およびT4ポリメラーゼが挙げられる。5’オーバーハングでは、酵素は典型的に、それが5’末端で重なるまで反対鎖上のへこんだ3’末端を伸長して、平滑末端を生じる。3’オーバーハングでは、酵素は一般的に、3’末端から反対鎖の5’末端まで、時にこれを越えて消化する。この消化が、反対鎖の5’末端を越えて進行する場合、ギャップを、5’オーバーハングのために使用した同じポリメラーゼ活性を有する酵素によって埋めることができる。二本鎖核酸における平滑末端の形成は、例えばアダプターの付着およびその後の増幅を容易にする。
一部の実施形態では、核酸集団は、追加のプロセシング、例えば一本鎖核酸の二本鎖核酸への変換および/またはRNAのDNA(例えば、相補的DNAまたはcDNA)への変換に供される。これらの核酸の形態はまた、必要に応じてアダプターに連結され、増幅される。
事前の増幅ありでまたはなしで、上記の平滑末端を形成するプロセスに供される核酸、および必要に応じて試料中の他の核酸をシーケンシングして、シーケンシングされた核酸を生じることができる。シーケンシングされた核酸は、核酸の配列(例えば、配列情報)またはその配列が決定されている核酸のいずれかを指し得る。シーケンシングは、試料中の個々の核酸分子の増幅生成物のコンセンサス配列から直接または間接的に試料中の個々の核酸の配列データを提供するために実施することができる。
一部の実施形態では、試料中の一本鎖オーバーハングを有する二本鎖核酸を、平滑末端形成後に両方の末端でバーコードを含むアダプターに連結し、シーケンシングは、核酸配列ならびにアダプターによって導入されたインラインバーコードを決定する。平滑末端DNA分子は、必要に応じて、少なくとも部分的に二本鎖のアダプター(例えばY字形状またはベル形状のアダプター)の平滑末端にライゲーションされる。あるいは、試料核酸およびアダプターの平滑末端に、ライゲーション(例えば、付着末端ライゲーションのため)を容易にするために相補的ヌクレオチドでテールを付加することができる。
核酸試料を、典型的に、同じ核酸の任意の2つのコピーが両方の末端で連結されたアダプターから同じ組合せのアダプターバーコードを与えられる確率が低くなるように(例えば、約1%未満または0.1%)十分数のアダプターと接触させる。このようなアダプターの使用により、参照核酸上の同じ開始および終止点を有し、バーコードの同じ組合せに連結された核酸配列のファミリーの同定が可能となり得る。そのようなファミリーは、増幅前の試料中の核酸の増幅生成物の配列を表し得る。ファミリーメンバーの配列をコンパイルして、平滑末端形成およびアダプター付着によって改変された本来の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出することができる。言い換えれば、試料中の核酸の指定された位置を占めるヌクレオチドは、ファミリーメンバー配列におけるその対応する位置を占めるヌクレオチドのコンセンサスであると決定することができる。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含み得る。ファミリーのメンバーが、二本鎖核酸からの両方の鎖の配列を含む場合、一方の鎖の配列を、配列をコンパイルする目的でその相補体に変換して、コンセンサスヌクレオチドまたは配列を導出してもよい。一部のファミリーは単一のメンバー配列のみを含む。この場合、この配列は、増幅前の試料中の核酸の配列であると考えることができる。あるいは、単一のメンバー配列のみを有するファミリーを、その後の解析から除外することができる。
シーケンシングされた核酸中のヌクレオチド変異(例えば、SNVまたはインデル)は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列はしばしば、公知の配列、例えば対象からの公知の全または部分的ゲノム配列(例えば、ヒト対象の全ゲノム配列)である。参照配列は、外部参照配列、例えばhG19またはhG38であり得る。シーケンシングされた核酸は、試料中の核酸に関して直接決定した配列、または上記のようにそのような核酸の増幅生成物の配列のコンセンサスを表し得る。比較は、参照配列上の1つまたは複数の指定された位置で実施することができる。それぞれの配列を最大に整列させた場合に参照配列の指定された位置に対応する位置を含む、シーケンシングされた核酸のサブセットを同定することができる。そのようなサブセット内で、もしあるとすれば、どのシーケンシングされた核酸が指定された位置でヌクレオチド変異を含むか、必要に応じてもしあるとすれば、参照ヌクレオチドを含むか(例えば、参照配列と同じ)を決定することができる。ヌクレオチド変異体を含むサブセット中のシーケンシングされた核酸の数が、選択された閾値を超える場合には、変異体ヌクレオチドを、指定された位置でコールすることができる。閾値は数、例えばヌクレオチド変異体を含むサブセット内の少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、もしくは10個のシーケンシングされた核酸であり得るか、または閾値は比、例えば他の可能性の中でもヌクレオチド変異体を含むサブセット内のシーケンシングされた核酸の少なくとも約0.5、1、2、3、4、5、10、15、もしくは20であり得る。参照配列中の目的の任意の指定された位置に関して比較を繰り返すことができる。時に、比較を、参照配列における少なくとも約20、100、200、または300連続位置を占める指定された位置、例えば約20~500、または約50~300連続位置について実施することができる。
本明細書に記載されるフォーマットおよび応用を含む核酸シーケンシングに関する追加の詳細はまた、例えば、その各々の全体がこれにより参照により本明細書に組み込まれる、Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)、Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)、Voelkerding et al., Clinical Chem., 55: 641-658 (2009)、MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)、Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号に提供される。
I.例示的なワークフロー
例示的なワークフローを本明細書に提供する。一部の実施形態では、分配およびライブラリー調製ワークフローの一部または全ての特色を、互いにおよび本明細書に記載される方法の他の特色と組み合わせて使用してもよい。
a.分配
一部の実施形態では、試料核酸分子、例えばDNA(例えば、5~200ngの間)を、メチル結合ドメイン(MBD)緩衝液およびMBDタンパク質とコンジュゲートした磁気ビーズと混合し、一晩インキュベートする。メチル化DNA(高メチル化DNA)は、このインキュベーションの間に磁気ビーズ上のMBDタンパク質に結合する。非メチル化(低メチル化DNA)またはより少ないメチル化DNA(中間メチル化)を、漸増濃度の塩を含有する緩衝液によってビーズから洗い流す。例えば、非メチル化、低メチル化、および/または中間メチル化DNAを含有する1つ、2つ、またはそれより多くの分画を、そのような洗浄から得てもよい。最後に、高塩緩衝液を使用して、高度メチル化DNA(高メチル化DNA)をMBDタンパク質から溶出させる。一部の実施形態では、これらの洗浄は、漸増メチル化レベルを有するDNAの3つの分配(低メチル化分配、中間メチル化分画、および高メチル化分配)をもたらす。
一部の実施形態では、DNAの3つの分配は、ライブラリー調製の酵素ステップの準備において脱塩および濃縮される。
b.ライブラリーの調製
一部の実施形態では(例えば、分配中のDNAを濃縮した後)、分配されたDNAは、例えばDNA分子の末端オーバーハングを伸長させること、アデノシン残基を断片の3’末端に付加すること、および各DNA断片の5’末端をリン酸化することによってライゲーション可能となる。DNAリガーゼおよびアダプターを加えて、各分配されたDNA分子を各末端でアダプターによりライゲーションする。これらのアダプターは、他の分配で使用されるアダプター中の分配タグとは識別可能な分配タグ(例えば、非ランダム、非一意的バーコード)を含有する。小分けにしたDNAをライゲーション可能にし、ライゲーションを実施する前または後のいずれかに、少なくとも1つの分配(例えば、高メチル化分配、または該当する場合は、高メチル化分配中間メチル化分配)を、MSRE(例えば、非メチル化DNAを優先的に切断するMSRE、例えばHpaII、BstUI、およびHin6iのうちの1つもしくは複数、または各々)によって消化する。必要に応じて、低メチル化分配を、メチル化DNAを優先的に切断するMSRE、例えばFspEIによって消化してもよい。必要に応じて高メチル化分配を、本明細書に記載されるもののいずれかなどの、DNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供してもよい。DNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順が、高メチル化分配をさらに分配する場合、高メチル化分配の部分分配が差次的にタグ付けされ得るように、アダプターのライゲーションを手順後に実施しなければならない。次いで、3つ(またはそれより多く)の分配を共にプールし、増幅する(例えば、PCRによって、例えばアダプターに対して特異的なプライマーを用いて)。
PCR後、増幅されたDNAを、富化前に清浄および濃縮してもよい。増幅されたDNAを、目的の特定の領域を標的とする本明細書に記載されるプローブのコレクション(これは、例えば、ビオチン化RNAプローブであり得る)と接触させる。混合物を例えば塩緩衝液中で、例えば一晩インキュベートする。プローブを捕捉し(例えば、ストレプトアビジン磁気ビーズを使用して)、捕捉されなかった増幅されたDNAから例えば一連の塩洗浄によって分離し、それによって試料を富化する。富化後、富化した試料をPCRによって増幅する。一部の実施形態では、PCRプライマーは、試料タグを含有し、それによって試料タグをDNA分子に組み込む。一部の実施形態では、異なる試料からのDNAを共にプールし、次いで、例えばIllumina NovaSeqシーケンサーを使用してマルチプレックスシーケンシングする。
J.捕捉された核酸分子を含む組成物
本明細書において、DNAの第1および第2の集団を含む組合せであって、第2の集団が、末端を有するDNAの断片、または本明細書に記載されるMSREのいずれか1つもしくは任意の組合せであり得る少なくとも1つのMSREの認識部位でタグもしくはアダプターに付着したDNAの断片を含む、組合せを提供する。一部の実施形態では、第1および第2の集団は差次的にタグ付けされる。第1の集団は、第2の集団よりも大きい割合でシトシン改変を有するDNAを含むかまたはそれに由来し得る。第1の集団は、変更された塩基対形成特異性を有するDNAに本来存在する第1の核酸塩基の形態、および変更された塩基対形成特異性を有しない第2の核酸塩基を含んでもよく、塩基対形成特異性の変更前にDNAに本来存在する第1の核酸塩基の形態は、改変または非改変核酸塩基であり、第2の核酸塩基は、第1の核酸塩基とは異なる改変または非改変核酸塩基であり、塩基対形成特異性の変更前にDNAに本来存在する第1の核酸塩基の形態および第2の核酸塩基は、同じ塩基対形成特異性を有する。一部の実施形態では、シトシン改変は、シトシンメチル化である。一部の実施形態では、第1の核酸塩基は、改変または非改変シトシンであり、第2の核酸塩基は、改変または非改変シトシンである。第1および第2の核酸塩基は、本明細書で、または第1の分配を、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供することに関して考察されるもののいずれかであってもよい。一部の実施形態では、第1の集団は、末端を有する、または本明細書に記載されるMSREのいずれか1つもしくは任意の組合せであり得る少なくとも1つのMSREの認識部位でタグもしくはアダプターに付着したDNAの断片を含む。
一部の実施形態では、第1の集団は、1つまたは複数の配列タグの第1のセットから選択される配列タグを含み、第2の集団は、1つまたは複数の配列タグの第2のセットから選択される配列タグを含み、配列タグの第2のセットは、配列タグの第1のセットとは異なる。配列タグは、バーコードを含み得る。
一部の実施形態では、第1の集団は、保護されたhmC、例えばグルコシル化hmCを含む。
一部の実施形態では、第1の集団は、本明細書で考察される変換手順、例えばバイサルファイト変換、Ox-BS変換、TAB変換、ACE変換、TAP変換、TAPSβ変換、またはCAP変換のいずれかに供された。一部の実施形態では、第1の集団は、hmCの保護後にmCおよび/またはCの脱アミノ化に供された。
組合せの一部の実施形態では、第1の集団は、第2の集団よりも大きい割合でシトシン改変を有するDNAを含むかまたはそれに由来し、第1の集団は、第1および第2の部分集団を含み、第1の核酸塩基は、改変または非改変核酸塩基であり、第2の核酸塩基は、第1の核酸塩基とは異なる改変または非改変核酸塩基であり、第1の核酸塩基および第2の核酸塩基は同じ塩基対形成特異性を有する。一部の実施形態では、第2の集団は、第1の核酸塩基を含まない。一部の実施形態では、第1の核酸塩基は、改変または非改変シトシンであり、第2の核酸塩基は、改変または非改変シトシンであり、必要に応じて改変シトシンはmCまたはhmCである。一部の実施形態では、第1の核酸塩基は、改変または非改変アデニンであり、第2の核酸塩基は改変または非改変アデニンであり、必要に応じて改変アデニンはmAである。
一部の実施形態では、第1の核酸塩基(例えば、改変シトシン)はビオチン化される。一部の実施形態では、第1の核酸塩基(例えば、改変シトシン)は親和性標識(例えば、ビオチン)を含むβ-6-アジド-グルコシル-5-ヒドロキシメチルシトシンに対するヒュスゲン環化付加の生成物である。
本明細書に記載される組合せのいずれかでは、捕捉されたDNAは、cfDNAを含み得る。
捕捉されたDNAは、例えばエピジェネティック標的領域セットに対応するDNAの濃度よりも配列可変標的領域セット(上記で考察したようにフットプリントサイズに関して正規化)に対応するDNAの高い濃度を含む、捕捉セットに関する本明細書に記載される特色のいずれかを有し得る。一部の実施形態では、捕捉セットのDNAは、本明細書に記載されるDNAに付加され得る配列タグを含む。一般的に、配列タグを含めることは、その天然に存在する非タグ付け形態とは異なるDNA分子をもたらす。組合せはさらに、その各々が、天然に存在する核酸分子とは異なり得る、本明細書に記載されるプローブセットまたはシーケンシングプライマーを含み得る。例えば、本明細書に記載されるプローブセットは、捕捉部分を含み得、シーケンシングプライマーは、天然に存在しない標識を含み得る。
III.コンピュータシステム
本開示の方法は、コンピュータシステムを使用してまたはその助けを借りてインプリメントすることができる。例えば、そのような方法は:(a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中で消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でメチル化状態を決定し、次にこれを使用して対象におけるがんの存在または非存在を決定するステップを含み得る。
図5は、本開示の方法をインプリメントするようにプログラムされたまたはそれ以外の方法で構成されたコンピュータシステム501を示す。コンピュータシステム501は、試料調製、シーケンシング、および/または解析の様々な態様を調節することができる。一部の例では、コンピュータシステム501は、試料調製および核酸シーケンシングを含む試料解析を実施するように構成される。
一部の実施形態では、方法は、シーケンシングから核酸シーケンサーによって生成された複数の配列読み取りデータを得るステップ;複数の配列読み取りデータを1つまたは複数の参照配列にマッピングして、マッピングされた配列読み取りデータを生成するステップ;ならびにマッピングされた配列読み取りデータをプロセシングして、対象ががんを有する可能性を決定するステップをさらに含む。
コンピュータシステム501は、シングルコアもしくはマルチコアプロセッサー、または並列プロセシングのための複数のプロセッサーであり得る中央処理装置(CPU、また本明細書において「プロセッサー」および「コンピュータプロセッサー」)505を含む。コンピュータシステム501はまた、メモリーまたはメモリー場所510(例えば、ランダムアクセスメモリー、読み取り専用メモリー、フラッシュメモリー)、電子ストレージユニット515(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インターフェース520(例えば、ネットワークアダプター)、ならびに周辺デバイス525、例えばキャッシュ、他のメモリー、データストレージ、および/または電子ディスプレイアダプターも含む。メモリー510、ストレージユニット515、インターフェース520、および周辺デバイス525は、マザーボードなどの通信ネットワークまたはバス(実線)を通してCPU505と通信する。ストレージユニット515は、データを保存するためのデータストレージユニット(またはデータレポジトリ)であり得る。コンピュータシステム501は、通信インターフェース520の助けを借りてコンピュータネットワーク530に作動可能にカップリングすることができる。コンピュータネットワーク530は、Internet、インターネットおよび/もしくはエクストラネット、またはInternetと通信するイントラネットおよび/もしくはエクストラネットであり得る。コンピュータネットワーク530は、一部の例では、電気通信および/またはデータネットワークである。コンピュータネットワーク530は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る1つまたは複数のコンピュータサーバーを含み得る。コンピュータネットワーク530は、一部の例では、コンピュータシステム501の助けを借りて、デバイスをコンピュータシステム501にカップリングさせて、クライアントまたはサーバーとして挙動することを可能にし得るピアツーピアネットワークをインプリメントすることができる。
CPU505は、プログラムまたはソフトウェアにおいて具体化することができる機械可読命令のシーケンスを実行することができる。命令は、メモリー510などのメモリー場所に保存され得る。CPU405によって実施される操作の例としては、フェッチ、復号、実行、およびライトバックが挙げられ得る。
ストレージユニット515は、ドライバー、ライブラリー、およびセーブしたプログラムなどのファイルを保存することができる。ストレージユニット515は、ユーザーが作成したプログラム、記録されたセッション、ならびにプログラムに関連する出力を保存することができる。ストレージユニット515は、ユーザーデータ、例えばユーザーの好みおよびユーザープログラムを保存することができる。コンピュータシステム501は、一部の例では、コンピュータシステム501に外付けの1つまたは複数の追加の、例えば、イントラネットまたはInternetを通してコンピュータシステム501と通信するリモートサーバー上に位置する、データストレージユニットを含み得る。データは、例えば通信ネットワークまたは物理的データ転送を使用して(例えば、ハードドライブ、サムドライブ、または他のデータストレージ機構を使用して)1つの場所から別の場所へと転送され得る。
コンピュータシステム501は、ネットワーク530を通して1つまたは複数のリモートコンピュータシステムと通信することができる。実施形態に関して、コンピュータシステム501は、ユーザー(例えば、オペレーター)のリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android(登録商標)可能デバイス、Blackberry(登録商標))、またはパーソナルデジタルアシスタントが挙げられる。ユーザーは、ネットワーク530を介してコンピュータシステム501にアクセスすることができる。
本明細書に記載される方法は、コンピュータシステム501の電子ストレージ場所、例えばメモリー510または電子ストレージユニット515などに保存された機械(例えば、コンピュータプロセッサー)実行可能コードによってインプリメントすることができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードは、プロセッサー505によって実行され得る。一部の例では、コードを、ストレージユニット515から読み出し、プロセッサー505が容易にアクセスするためにメモリー510に保存することができる。一部の状況では、電子ストレージユニット515を除外することができ、機械実行可能命令はメモリー510に保存される。
一態様では、本開示は、少なくとも1つの電子プロセッサーによって実行される場合に、a)核酸分子の生体試料を提供するステップであって、核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;(b)核酸分子のメチル化状態に基づいて、生体試料中の核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;(c)複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;(d)複数の分配セット中の核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、核酸分子の少なくとも1つのサブセットが、1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに(e)分配セットの少なくとも1つ中の核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定し、次にこれを使用して、対象におけるがんの存在または非存在を検出するステップ、を含む方法の少なくとも一部を実施するコンピュータ実行可能命令を含む非一時的コンピュータ可読媒体を提供する。
コードは、事前にコンパイルされ、コードを実行するように適合させたプロセッサーを有する機械と共に使用するように構成することができ、または実行時間の間にコンパイルすることができる。コードは、コードが、事前にコンパイルされた、またはコンパイルされた通りに実行することが可能となるように選択することができるプログラミング言語で供給することができる。
本明細書に提供されるシステムおよび方法の態様、例えばコンピュータシステム501は、プログラミングにおいて具体化することができる。テクノロジーの様々な態様は、典型的に、機械可読媒体の1つのタイプにおいて実行または具体化される機械(またはプロセッサー)実行可能コードおよび/または関連データの形態の「生成物」または「製造品」であると考えられ得る。機械実行可能コードは、電子ストレージユニット、そのようなメモリー(例えば、読み取り専用メモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハードディスクに保存することができる。「ストレージ」型の媒体は、ソフトウェアプログラミングのためにいついかなる時にも非一時的ストレージを提供し得るコンピュータの有形メモリー、プロセッサーなど、またはその関連するモジュール、例えば様々な半導体メモリー、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。
ソフトウェアの全てまたは一部は、時に、Internetまたは様々な他の電気通信ネットワークを通して通信され得る。そのような通信は、例えば、1つのコンピュータまたはプロセッサーからのソフトウェアを別のコンピュータまたはプロセッサーにロードすること、例えば管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることを可能にし得る。このように、ソフトウェア要素を有し得る別のタイプの媒体は、光波、電波、および電磁波、例えば有線および光学的固定電話ネットワーク、ならびに様々なエアリンクを通してローカルデバイス間の物理的インターフェースを越えて使用される媒体を含む。そのような波動を伝える物理的要素、例えば有線または無線リンク、光学的リンクなどもまた、ソフトウェアを有する媒体であると考えられ得る。本明細書で使用される場合、非一時的有形「ストレージ」媒体に限定されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行のためにプロセッサーに命令を提供することに関与する任意の媒体を指す。
したがって、機械可読媒体、例えばコンピュータ実行可能コードは、これらに限定されないが有形ストレージ媒体、搬送波媒体、または物理的伝送媒体を含む多くの形態をとり得る。不揮発性ストレージ媒体は、図面に示されるように、例えば、光学または磁気ディスク、例えば任意のコンピュータなどにおけるストレージデバイスのいずれか、例えばデータベースをインプリメントするために使用され得るものなどを含む。揮発性ストレージ媒体は、ダイナミックメモリー、例えばそのようなコンピュータプラットフォームのメインメモリーを含む。有形伝送媒体は、同軸ケーブル;コンピュータシステム内のバスを含むワイヤーを含む銅線および光ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、または音波もしくは光波の形態、例えば高周波(RF)および赤外線(IR)データ通信の間に生成される形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴パターンを有する任意の他の物理的ストレージ媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリーチップもしくはカートリッジ、搬送波輸送データもしくは命令、そのような搬送波を輸送するケーブルもしくはリンク、またはそこからコンピュータがプログラミングコードおよび/もしくはデータを読み取り得る任意の他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行のためにプロセッサーに1つまたは複数の命令の1つまたは複数のシーケンスを伝えることに関係し得る。
コンピュータシステム501は、例えば試料解析の1つまたは複数の結果を提供するためのユーザーインターフェース(UI)540を含む電子ディスプレイ535を含むか、またはそれと通信することができる。UIの例としては、これらに限定されないが、グラフィカルユーザーインターフェース(GUI)およびウェブに基づくユーザーインターフェースが挙げられる。
コンピュータシステムおよびネットワーク、データベース、ならびにコンピュータプログラム生成物に関する追加の詳細はまた、例えば、その各々の全体がこれにより参照により本明細書に組み込まれる、Peterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5th Ed. (2011), Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed. (2016), Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed. (2010), Coronel, Database Systems: Design, Implementation, & Management, Cengage Learning, 11th Ed. (2014), Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed. (2006)、およびRhoton, Cloud Computing Architected: Solution Design Handbook, Recursive Press(2011)にも提供されている。
IV.応用
A.がんおよび他の疾患
本方法を使用して、対象における状態、特にがんの存在または非存在を診断する、状態を特徴付ける(例えば、がんをステージ分類するまたはがんの不均一性を決定する)、状態の処置に対する応答をモニタリングする、状態を発症するリスクまたは状態のその後の経過の予後判定を行うことができる。本開示はまた、特定の処置選択肢の有効性を決定するためにも有用であり得る。処置が成功すればより多くのがんが死滅し、DNAを脱落させ得ることから、処置選択肢の成功は、対象の血液中で検出されるコピー数変異またはまれな突然変異の量を増加させ得る。他の例では、これは起こらなくてもよい。別の例では、おそらくある特定の処置選択肢は、経時的ながんの遺伝的プロファイルと相関し得る。この相関は、治療を選択するために有用であり得る。一部の実施形態では、高メチル化可変エピジェネティック標的領域を解析して、それらが腫瘍細胞もしくはcfDNAに通常、有意に寄与しない細胞の高メチル化特徴を示すかを決定し、および/または低メチル化可変エピジェネティック標的領域を解析して、それらが腫瘍細胞もしくはcfDNAに通常、有意に寄与しない細胞の低メチル化特徴を示すかを決定する。
さらに、がんが処置後に寛解期にあることが観察される場合、本方法を使用して、残存疾患または疾患の再発をモニタリングすることができる。
一部の実施形態では、本明細書に開示される方法およびシステムを使用して、核酸変異体が体細胞または生殖系列起源であるという分類に基づいて、患者における所定の疾患または状態を処置するためのカスタマイズされたまたは標的化治療を同定してもよい。典型的に、検討中の疾患は、あるタイプのがんである。そのようながんの非限定的な例としては、胆管がん、膀胱がん、移行上皮癌、尿路上皮癌、脳がん、神経膠腫、星細胞腫、乳癌、化生癌、子宮頸がん、子宮頸部扁平上皮癌、直腸がん、結腸直腸癌、結腸がん、遺伝性非ポリポーシス大腸がん、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道がん、食道扁平上皮癌、食道腺癌、眼内黒色腫、ぶどう膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、明細胞腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ球性白血病(CLL)、慢性骨髄性白血病(CML)、慢性骨髄単球性白血病(CMML)、肝臓がん、肝臓癌、肝腫、肝細胞癌、胆管癌、肝芽腫、肺がん、非小細胞肺がん(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆Tリンパ芽球性リンパ腫/白血病、末梢性T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌(NPC)、神経芽腫、中咽頭がん、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓がん、膵管腺癌、偽乳頭状腫瘍、膵腺房細胞癌、前立腺がん、前立腺腺癌、皮膚がん、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃がん、胃癌、消化管間質腫瘍(GIST)、子宮がん、または子宮肉腫が挙げられる。がんのタイプおよび/またはステージは、突然変異、まれな突然変異、インデル、コピー数変異、塩基転換、転座、逆位、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造の変更、遺伝子融合、染色体融合、遺伝子トランケーション、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、および核酸5-メチルシトシンの異常な変化を含む遺伝的変異から検出することができる。
遺伝子データはまた、がんの特定の形態を特徴付けるためにも使用することができる。がんはしばしば、組成およびステージ分類の両方が不均一である。遺伝子プロファイルデータは、その特定のサブタイプの診断または処置において重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。この情報はまた、がんの特定のタイプの予後に関する手がかりを対象または従事者に提供し、対象または従事者は、疾患の進行に従って処置選択肢を適合させることを可能にし得る。一部のがんは、進行してより侵襲性となり、遺伝的に不安定となり得る。他のがんは、良性、不活性、または休眠中のままであり得る。本開示のシステムおよび方法は、疾患進行を決定するために有用であり得る。
さらに、本開示の方法を使用して、対象における異常な状態の不均一性を特徴付けてもよい。そのような方法は、例えば、対象に由来する細胞外ポリヌクレオチドの遺伝的プロファイルを作成するステップであって、遺伝的プロファイルが、コピー数変異およびまれな突然変異の解析に起因する複数のデータを含む、ステップを含み得る。一部の実施形態では、異常な状態はがんである。一部の実施形態では、異常な状態は、不均一なゲノム集団をもたらす状態であり得る。がんの例では、一部の腫瘍は、がんの異なるステージの腫瘍細胞を含むことが公知である。他の例では、不均一性は、疾患の複数の病巣を構成し得る。この場合も、がんの例では、複数の腫瘍病巣が存在してもよく、おそらく1つまたは複数の病巣は、原発部位から広がった転移の結果である。
本方法を使用して、不均一な疾患における異なる細胞に由来する遺伝情報の要約であるデータのフィンガープリントまたはセットを作成またはプロファイリングすることができる。このデータのセットは、コピー数変異、エピジェネティック変異、および突然変異解析を単独または組み合わせて含み得る。
本方法を使用して、がんまたは他の疾患を診断、予後判定、モニタリング、または観察することができる。一部の実施形態では、本明細書の方法は、胎児を診断することも、予後判定することも、モニタリングすることも伴わず、そのため、非侵襲性の出生前検査を対象としない。他の実施形態では、これらの方法論を、妊娠中の対象に用いて、そのDNAおよび他のポリヌクレオチドが、母体の分子と共循環し得るまだ生まれていない対象におけるがんまたは他の疾患を診断、予後判定、モニタリング、または観察してもよい。
本明細書に開示される方法およびシステムを使用して必要に応じて評価される他の遺伝子に基づく疾患、障害、または状態の非限定的な例としては、軟骨無形成症、アルファ-1アンチトリプシン欠乏症、抗リン脂質抗体症候群、自閉症、常染色体優性多発性嚢胞腎、シャルコー-マリー-トゥース病(CMT)、クリデュチャット病、クローン病、嚢胞性線維症、ダーカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第V因子ライデン血栓形成傾向、家族性高コレステロール血症、家族性地中海熱、脆弱X症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳胞症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋強直性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群、ポルフィリン症、早老症、網膜色素変性症、重度複合免疫不全(SCID)、鎌状赤血球症、脊髄性筋萎縮症、テイサックス病、サラセミア、トリメチルアミン尿症、ターナー症候群、口蓋心臓顔面症候群、WAGR症候群、ウィルソン病などが挙げられる。
一部の実施形態では、本明細書に記載される方法は、本明細書に記載されるように得られた配列情報のセットを使用してがんを有することが以前に診断された対象の以前のがん処置後の予め選択した時点で、腫瘍細胞を起源とするまたは腫瘍細胞に由来するDNAの存在または非存在を検出するステップを含む。方法は、試験対象に関して腫瘍細胞を起源とするまたは腫瘍細胞に由来するDNAの存在または非存在を示すがん再発スコアを決定するステップをさらに含み得る。
がん再発スコアが決定される場合、これをさらに使用してがん再発ステータスを決定してもよい。例えば、がん再発スコアが既定の閾値より上である場合、がん再発ステータスは、がん再発のリスクがあり得る。例えば、がん再発スコアが既定の閾値より上である場合、がん再発ステータスは、がんの再発のリスクが低いまたはより低いリスクであり得る。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがあるか、またはがん再発のリスクが低いもしくはより低いリスクであるいずれかのがん再発ステータスをもたらし得る。
一部の実施形態では、がん再発スコアを既定のがん再発閾値と比較し、がん再発スコアががん再発閾値より上である場合、試験対象はその後のがん処置の候補であると分類され、がん再発スコアががん再発閾値より下である場合、試験対象は治療の候補ではないと分類される。特定の実施形態では、がん再発閾値に等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補ではないといういずれかの分類をもたらし得る。
上記で考察した方法は、試験対象におけるがん再発のリスクを決定するおよび/または試験対象がその後のがん処置の候補であると分類する方法に関する節を含む、本明細書の他所で記載した任意の適合性の特色(単数または複数)をさらに含み得る。
B.試験対象におけるがん再発のリスクを決定するおよび/または試験対象がその後のがん処置の候補であると分類する方法
一部の実施形態では、本明細書に提供される方法は、試験対象におけるがん再発のリスクを決定する方法である。一部の実施形態では、本明細書に提供される方法は、試験対象をその後のがん処置の候補であると分類する方法である。
そのような方法のいずれかは、試験対象に対する1つまたは複数の以前のがん処置の後の1つまたは複数の事前に選択された時点で、がんを有すると診断された試験対象からDNA(例えば、腫瘍細胞を起源とするまたは腫瘍細胞に由来する)を収集するステップを含み得る。対象は、本明細書に記載される対象のいずれかであり得る。DNAはcfDNAであり得る。DNAは、組織試料から得られ得る。
そのような方法のいずれかは、対象のDNAから複数の標的領域のセットを捕捉するステップであって、複数の標的領域セットが、配列可変標的領域セットおよびエピジェネティック標的領域セットを含み、それによって捕捉されたDNA分子のセットが産生される、ステップを含み得る。捕捉するステップは、本明細書の他所で記載される実施形態のいずれかに従って実施され得る。
そのような方法のいずれかにおいて、以前のがん処置は、手術、治療組成物の投与、および/または化学療法を含み得る。
そのような方法のいずれかは、捕捉されたDNA分子をシーケンシングすることであって、それによって配列情報のセットが産生されることを含み得る。配列可変標的領域セットの捕捉されたDNA分子は、エピジェネティック標的領域セットの捕捉されたDNA分子よりもシーケンシングの大きい深度までシーケンシングされ得る。
そのような方法のいずれかは、配列情報のセットを使用して事前に選択した時点で腫瘍細胞を起源とするまたは腫瘍細胞に由来するDNAの存在または非存在を検出するステップを含み得る。腫瘍細胞を起源とするまたは腫瘍細胞に由来するDNAの存在または非存在の検出は、本明細書の他所で記載されるその実施形態のいずれかに従って実施され得る。
試験対象においてがん再発のリスクを決定する方法は、試験対象の腫瘍細胞を起源とするまたは腫瘍細胞に由来するDNAの存在もしくは非存在、または量を示すがん再発スコアを決定するステップを含み得る。がん再発スコアをさらに使用して、がん再発ステータスを決定してもよい。がん再発ステータスは、例えばがん再発スコアが既定の閾値より上である場合、がん再発のリスクがあり得る。がん再発ステータスは、例えばがん再発スコアが既定の閾値より上である場合、がん再発のリスクが低いまたはより低いリスクであり得る。特定の実施形態では、既定の閾値に等しいがん再発スコアは、がん再発のリスクがあるか、またはがん再発のリスクが低いもしくはより低いリスクであるいずれかのがん再発ステータスをもたらし得る。
試験対象をその後のがん処置の候補であると分類する方法は、試験対象のがん再発スコアを既定のがん再発閾値と比較して、それによってがん再発スコアががん再発閾値より上である場合、試験対象をその後のがん処置の候補であると分類するステップ、またはがん再発スコアががん再発閾値より下である場合、治療の候補ではないと分類するステップを含み得る。特定の実施形態では、がん再発閾値に等しいがん再発スコアは、その後のがん処置の候補であるか、または治療の候補ではないといういずれかの分類をもたらし得る。一部の実施形態では、その後のがん処置は、化学療法または治療組成物の投与を含む。
そのような方法のいずれかは、がん再発スコアに基づいて試験対象の無病生存(DFS)期間を決定するステップを含み得、例えば、DFS期間は、1年、2年、3年、4年、5年、または10年であり得る。
一部の実施形態では、配列情報のセットは、配列可変標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列に存在するSNV、挿入/欠失、CNV、および/または融合の量を示す少なくとも第1のサブスコアを決定するステップを含み得る。
一部の実施形態では、1個、2個、3個、4個、または5個から選択される配列可変標的領域における突然変異の数は、第1のサブスコアが、がん再発に関して陽性であると分類されるがん再発スコアをもたらすために十分である。一部の実施形態では、突然変異の数は、1個、2個、または3個から選択される。
一部の実施形態では、配列情報のセットは、エピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、エピジェネティック標的領域配列中のエピジェネティック特色の変化、例えば高メチル化可変標的領域のメチル化、および/または断片化可変標的領域の生物学的に混乱した断片化を示す第2のサブスコアを決定するステップを含み、ここで「生物学的に混乱した」とは、健康な対象からの対応する試料中で見出されるDNAとは異なることを意味する。一部のそのような実施形態では、がん再発スコアを決定するステップは、健康な対象からの対応する試料中で見出されるDNA(例えば、健康な対象からの血液試料中で見出されるcfDNA、または組織試料が試験対象から得られた組織と同じタイプの組織の試料である健康な対象からの組織試料中で見出されるDNA)とは異なるエピジェネティック状態を表す分子(エピジェネティック標的領域配列から得られた)の量を示す第2のサブスコアを決定するステップを含む。これらの異常な分子(すなわち、健康な対象からの対応する試料中で見出されるDNAとは異なるエピジェネティック状態を有する分子)は、がんに関連するエピジェネティック変化、例えば、高メチル化可変標的領域のメチル化および/または断片化可変標的領域の生物学的に混乱した断片化と一貫し得る。
一部の実施形態では、高メチル化可変標的領域セットにおける高メチル化および/または断片化可変標的領域セットにおける異常な断片化を示す、高メチル化可変標的領域セットおよび/または断片化可変標的領域セットに対応する分子の割合が0.001%~10%の範囲の値よりも大きいまたはそれに等しいことは、第2のサブスコアががん再発に関して陽性であると分類されるために十分である。範囲は、0.001%~1%、0.005%~1%、0.01%~5%、0.01%~2%、または0.01%~1%であり得る。
一部の実施形態では、そのような方法のいずれかは、腫瘍細胞からの起源を示す1つまたは複数の特色を示す配列情報のセット中の分子の分画から腫瘍DNAの分画を決定するステップを含み得る。これは、例えば、高メチル化可変標的領域および断片化可変標的領域(高メチル化可変標的領域の高メチル化および/または断片化可変標的領域の異常な断片化は、腫瘍細胞からの起源を示すと考えられ得る)の一方または両方を含む、エピジェネティック標的領域の一部または全てに対応する分子について行われ得る。これは、配列可変標的領域に対応する分子、例えばがんと一貫する変更、例えばSNV、インデル、CNV、および/また融合を含む分子について行われ得る。腫瘍DNAの分画は、エピジェネティック標的領域に対応する分子および配列可変標的領域に対応する分子の組合せに基づいて決定され得る。
がん再発スコアの決定は、腫瘍DNAの分画に少なくとも部分的に基づき得、10-11~1または10-10~1の範囲の閾値よりも大きい腫瘍DNAの分画は、がん再発スコアががん再発に関して陽性であると分類されるために十分である。一部の実施形態では、10-10~10-9、10-9~10-8、10-8~10-7、10-7~10-6、10-6~10-5、10-5~10-4、10-4~10-3、10-3~10-2、または10-2~10-1の範囲の閾値よりも大きいまたはそれに等しい腫瘍DNAの分画は、がん再発スコアが、がん再発に関して陽性であると分類されるために十分である。一部の実施形態では、少なくとも10-7の閾値よりも大きい腫瘍DNAの分画は、がん再発スコアが、がん再発に関して陽性であると分類されるために十分である。腫瘍DNAの分画が閾値、例えば前述の実施形態のいずれかに対応する閾値よりも大きいという決定は、累積確率に基づいて行われ得る。例えば、試料は、腫瘍分画が前述の範囲のいずれかにおける閾値よりも大きい累積確率が、少なくとも0.5、0.75、0.9、0.95、0.98、0.99、0.995、または0.999の確率閾値を超える場合に陽性であるとみなされた。一部の実施形態では、確率閾値は、少なくとも0.95、例えば0.99である。
一部の実施形態では、配列情報のセットは、配列可変標的領域配列およびエピジェネティック標的領域配列を含み、がん再発スコアを決定するステップは、配列可変標的領域配列に存在するSNV、挿入/欠失、CNVおよび/または融合の量を示す第1のサブスコア、ならびにエピジェネティック標的領域配列中の異常な分子の量を示す第2のサブスコアを決定するステップ、ならびに第1および第2のサブスコアを組み合わせてがん再発スコアを提供するステップを含む。第1および第2のサブスコアを組み合わせる場合、それらを、独立して各サブスコア(例えば、配列可変標的領域における既定の数の突然変異(例えば、>1)よりも大きく、エピジェネティック標的領域中の異常な分子(すなわち、健康な対象からの対応する試料中で見出されるDNAとは異なるエピジェネティック状態を有する分子、例えば腫瘍)の既定の分画よりも大きい)に閾値を適用するか、または機械学習分類器を訓練して、複数の陽性および陰性訓練試料に基づいて状態を決定することによって組み合わせてもよい。
一部の実施形態では、-4~2または-3~1の範囲の組み合わせたスコアの値は、がん再発スコアががん再発に関して陽性であると分類されるために十分である。
がん再発スコアががん再発に関して陽性であると分類される任意の実施形態では、対象のがん再発ステータスはがん再発のリスクがあり得る、および/または対象はその後のがん処置の候補であると分類され得る。
一部の実施形態では、がんは、本明細書の他所で記載されるがんのタイプのいずれか1つ、例えば結腸直腸がんである。
C.治療および関連する投与
ある特定の実施形態では、本明細書に開示される方法は、核酸変異体の状態が体細胞または生殖系列起源であることを考慮して、カスタマイズされた治療を同定すること、およびそれを患者に投与することに関する。一部の実施形態では、本質的に任意のがん治療(例えば、外科治療、放射線治療、化学療法および/またはそれと同様のもの)を、これらの方法の一部として含めてもよい。典型的に、カスタマイズされた治療は、少なくとも1つの免疫療法(または免疫療法剤)を含む。免疫療法は一般的に、所定のがんタイプに対する免疫応答を増強する方法を指す。ある特定の実施形態では、免疫療法は、腫瘍またはがんに対するT細胞応答を増強する方法を指す。
ある特定の実施形態では、体細胞または生殖系列起源である対象由来の試料からの核酸変異体の状態を、その対象のカスタマイズされたまたは標的化治療を同定するために参照集団からの比較器の結果のデータベースと比較してもよい。典型的に、参照集団は、試験対象と同じがんもしくは疾患タイプを有する患者、ならびに/または試験対象と同じ治療を受けているもしくは受けたことがある患者を含む。カスタマイズされたまたは標的化治療(または複数の治療)は、核酸変異体および比較器の結果がある特定の分類基準(例えば、実質的またはおおよそマッチする)を満たす場合に同定され得る。
ある特定の実施形態では、本明細書に記載されるカスタマイズされた治療は、典型的に非経口(例えば、静脈内、または皮下)投与される。免疫療法剤を含有する医薬組成物は、典型的に静脈内投与される。ある特定の治療剤は経口投与される。しかし、カスタマイズされた治療(例えば、免疫療法剤など)はまた、例えば口腔内、舌下、直腸、膣、尿道内、局所、眼内、鼻腔内、および/または耳介内などの方法によって投与されてもよく、投与は、錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、塗擦剤、軟膏剤などを含み得る。
D.キット
本明細書に記載される組成物を含むキットもまた提供される。キットは、本明細書に記載される方法を実施するために有用であり得る。キットは、少なくとも1つのMSREを含む。一部の実施形態では、キットはまた、試料を本明細書に記載される複数の分配に分配するための第1の試薬、例えば本明細書の他所で記載される分配試薬のいずれかも含む。一部の実施形態では、キットは、第1の分配を、第1の分配のDNA中の第2の核酸塩基とは異なるようにDNA中の第1の核酸塩基に影響を及ぼす手順に供するための第2の試薬を含み、第1の核酸塩基は改変または非改変核酸塩基であり、第2の核酸塩基は第1の核酸塩基とは異なる改変または非改変核酸塩基であり、第1の核酸塩基および第2の核酸塩基は、同じ塩基対形成特異性を有する(例えば、シトシンまたはメチル化シトシンなどの核酸塩基を異なる核酸塩基に変換するための本明細書の他所で記載される試薬のいずれか)。キットは、第1および第2の試薬、ならびに本明細書の以下におよび/または他所で考察される追加のエレメントを含み得る。
キットは、さらに、ALK、APC、BRAF、CDKN2A、EGFR、ERBB2、FBXW7、KRAS、MYC、NOTCH1、NRAS、PIK3CA、PTEN、RBI、TP53、MET、AR、ABLl、AKTl、ATM、CDHl、CSFIR、CTNNBl、ERBB4、EZH2、FGFRl、FGFR2、FGFR3、FLT3、GNA11、GNAQ、GNAS、HNF1A、HRAS、IDH1、IDH2、JAK2、JAK3、KDR、KIT、MLH1、MPL、NPM1、PDGFRA、PROC、PTPN11、RET、SMAD4、SMARCB1、SMO、SRC、STK11、VHL、TERT、CCND1、CDK4、CDKN2B、RAF1、BRCA1、CCND2、CDK6、NF1、TP53、ARID 1 A、BRCA2、CCNE1、ESR1、RIT1、GATA3、MAP2K1、RHEB、ROS1、ARAF、MAP2K2、NFE2L2、RHOA、およびNTRKlからなる群から選択される少なくとも5個、6個、7個、8個、9個、10個、20個、30個、40個または全ての遺伝子に選択的にハイブリダイズする複数のオリゴヌクレオチドプローブを含み得る。オリゴヌクレオチドプローブが選択的にハイブリダイズすることができる遺伝子の数は、異なり得る。例えば、遺伝子の数は、1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、49個、50個、51個、52個、53個、または54個を含み得る。キットは、本明細書に記載される方法のいずれかを実施するための複数のオリゴヌクレオチドプローブを含む容器および使用説明書を含み得る。
オリゴヌクレオチドプローブは、遺伝子、例えば少なくとも5個の遺伝子のエクソン領域に選択的にハイブリダイズすることができる。一部の例では、オリゴヌクレオチドプローブは、遺伝子、例えば少なくとも5個の遺伝子の少なくとも30個のエクソンに選択的にハイブリダイズすることができる。一部の例では、複数のプローブは、少なくとも30個のエクソンの各々に選択的にハイブリダイズすることができる。各エクソンにハイブリダイズするプローブは、少なくとも1つの他のプローブと重複する配列を有し得る。一部の実施形態では、オリゴプローブは、本明細書に開示される遺伝子の非コード領域、例えば遺伝子のイントロン領域に選択的にハイブリダイズすることができる。オリゴプローブはまた、本明細書に開示される遺伝子のエクソンおよびイントロン領域の両方を含む遺伝子の領域に選択的にハイブリダイズすることもできる。
任意の数のエクソンを、オリゴヌクレオチドプローブによって標的化することができる。例えば、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、30個、35個、40個、45個、50個、55個、60個、65個、70個、75個、80個、85個、90個、95個、100個、105個、110個、115個、120個、125個、130個、135個、140個、145個、150個、155個、160個、165個、170個、175個、180個、185個、190個、195個、200個、205個、210個、215個、220個、225個、230個、235個、240個、245個、250個、255個、260個、265個、270個、275個、280個、285個、290個、295個、300個、400個、500個、600個、700個、800個、900個、1,000個、またはそれより多くのエクソンを標的化することができる。
キットは、別個の分子バーコードおよび同一の試料バーコードを有する少なくとも4個、5個、6個、7個、または8個の異なるライブラリーアダプターを含み得る。ライブラリーアダプターは、シーケンシングアダプターでなくてもよい。例えば、ライブラリーアダプターは、フローセル配列またはシーケンシングのためのヘアピンループの形成を可能にする配列を含まない。異なる変異ならびに分子バーコードおよび試料バーコードの組合せが、本明細書全体を通して記載されており、キットに応用可能である。さらに、一部の例では、アダプターは、シーケンシングアダプターではない。さらに、キットに提供されるアダプターはまた、シーケンシングアダプターも含み得る。シーケンシングアダプターは、1つまたは複数のシーケンシングプライマーにハイブリダイズする配列を含み得る。シーケンシングアダプターはさらに、固体支持体にハイブリダイズする配列、例えばフローセル配列も含み得る。例えば、シーケンシングアダプターはフローセルアダプターであり得る。シーケンシングアダプターを、ポリヌクレオチド断片の一方または両方の末端に付着させることができる。一部の例では、キットは、別個の分子バーコードおよび同一の試料バーコードを有する少なくとも8個の異なるライブラリーアダプターを含み得る。ライブラリーアダプターは、シーケンシングアダプターでなくてもよい。キットはさらに、ライブラリーアダプターに選択的にハイブリダイズする第1の配列およびフローセル配列に選択的にハイブリダイズする第2の配列を有するシーケンシングアダプターも含み得る。別の例では、シーケンシングアダプターは、ヘアピン形状であり得る。例えば、ヘアピン形状のアダプターは、相補的二本鎖部分およびループ部分を含み得、二本鎖部分は、二本鎖ポリヌクレオチドに付着(例えば、ライゲーション)することができる。ヘアピン形状のシーケンシングアダプターを、ポリヌクレオチド断片の両方の末端に付着させて、環状分子を生成することができ、これを複数回シーケンシングすることができる。シーケンシングアダプターは、末端から末端まで最大10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、49個、50個、51個、52個、53個、54個、55個、56個、57個、58個、59個、60個、61個、62個、63個、64個、65個、66個、67個、68個、69個、70個、71個、72個、73個、74個、75個、76個、77個、78個、79個、80個、81個、82個、83個、84個、85個、86個、87個、88個、89個、90個、91個、92個、93個、94個、95個、96個、97個、98個、99個、100個、またはそれより多くの塩基であり得る。シーケンシングアダプターは、末端から末端まで20~30個、20~40個、30~50個、30~60個、40~60個、40~70個、50~60個、50~70個の塩基を含み得る。特定の例では、シーケンシングアダプターは、末端から末端まで20~30個の塩基を含み得る。別の例では、シーケンシングアダプターは、末端から末端まで50~60個の塩基を含み得る。シーケンシングアダプターは、1つまたは複数のバーコードを含み得る。例えば、シーケンシングアダプターは、試料バーコードを含み得る。試料バーコードは既定の配列を含み得る。試料バーコードを使用してポリヌクレオチドの起源を同定することができる。試料バーコードは、少なくとも1個、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、またはそれより多くの(または本明細書全体を通して記載される任意の長さの)核酸塩基、例えば少なくとも8個の塩基であり得る。バーコードは、上記のように連続または不連続配列であり得る。
ライブラリーアダプターは、平滑末端化され、Y字形状であり得、40核酸塩基未満またはそれに等しい長さであり得る。他の変形形態は、全体を通して見出すことができ、キットに応用可能である。
以下の実施例は、開示される方法のある特定の態様を例証するために提供される。実施例は、本開示を制限しない。
(実施例1)
非特異的に分配されたDNAの消化による技術的ノイズの低減
2つの健常試料からのcfDNAのプールを組み合わせて、そこから18.6ngを本明細書に記載されるMBD分配アッセイへの入力として使用した。試料のサブセットに、0.5%MAFを有する結腸直腸がん試料(CRC)(体細胞アレル分画)からのcfDNAを加え、0.16%MAFを有する希釈したCRC試料を得た。正常な試料および希釈したCRC試料の3つのセットをアッセイに使用した。次いで、3つのセットの試料を、MBDタンパク質を使用して3つの分配(高メチル化(高)、中間(残留)、および低メチル化(低)分配)に分配した。クリーンアップ後、各分配中のcfDNA分子を、分子バーコードを含む分配特異的アダプターとライゲーションした。高分配および残留分配に使用される分子バーコードは、それらがMSRE認識部位を有しないように選択され、それによってそれらは下流のプロセシングにおいて消化されない(cfDNAメチル化状態にかかわらず)。ライゲーション後、ライゲーションクリーンアップを実施した。ライゲーションクリーンアップ後、高分配および残留分配を、MSRE消化反応に供した。第1の試料セット(正常および希釈したCRC試料)を、BstUIおよびHpaIIによって処置し、別の試料セットを、BstUI、HpaIIおよびHin6I酵素によって処置した。第3の試料セットを、対照としてMBD分配アッセイにおいて偽消化(MSREなし)を通して実施した。MSRE消化後、酵素を熱不活化(65℃、20分間)し、SPRIビーズを使用してクリーンアップした。消化のクリーンアップ後、高分配、残留分配、および(非消化)低分配(アダプターライゲーションしたcfDNA)を組み合わせて、PCR増幅;目的のゲノム領域における分子の富化;それによってNovaSeqを使用してプールした試料の多重シーケンシングおよびシーケンシングを可能にする試料のプーリング、を含むNGSアッセイワークフローを通してプロセシングした。代替手順では、低分配をさらに、メチル化認識部位を有する1つまたは複数のMSREと接触させて、低分配中の非特異的に分配されたDNAを切断してもよい。
図6は、MSRE消化を適用した場合に、正常試料中の非メチル化分子からの技術的ノイズと比較してDMRでのがんメチル化シグナルの増加を明らかに示す。図6で示される陰性対照領域(DNA分子が疾患状態によらず、ほぼ全ての時間で非メチル化である)では、「a」は、MSRE消化が高分配に誤って分配された非メチル化分子を除去することが明白であったことを明らかに示し、すなわち90個の分子が、偽消化では高分配に分配されたが、BstUI、HpaII、およびHin6I消化では、分子数は10個に低減された。図6に示される分類DMRでは、cfDNA分子は、MSREによる消化により正常試料(b;350→100)では希釈したCRC試料(c;1500→1100)よりもかなり高い割合で除去された。
(実施例2)
腫瘍の存在または非存在を検出するためのcfDNAの解析
患者の試料セットを、がんの存在または非存在を検出するために、血液に基づくNGSアッセイによってGuardant Health(Redwood City、CA、USA)で解析した。cfDNAを、これらの患者の血漿から抽出する。次いで、患者試料のcfDNAを、メチル結合ドメイン(MBD)緩衝液およびMBDタンパク質とコンジュゲートした磁気ビーズと組み合わせ、一晩インキュベートする。メチル化cfDNA(存在する場合、cfDNA試料中)は、このインキュベーションの間にMBDタンパク質に結合する。非メチル化またはより少ないメチル化DNAを、漸増濃度の塩を含有する緩衝液によってビーズから洗い流す。最後に、高塩緩衝液を使用して、高度メチル化DNAをMBDタンパク質から洗い流す。これらの洗浄によって、メチル化が増加するcfDNA3つの分配(低メチル化、残留メチル化、および高メチル化分配)がもたらされる。
必要に応じて、高メチル化分配中のcfDNA分子を、酵素的改変(EM)に供し、それによって非改変シトシンが脱アミノ化を受けるがmCおよびhmCは脱アミノ化を受けず、それによる非改変シトシンのウラシルへの変換によって第1の分配中の非特異的に分配された低メチル化分子に印を付ける。
分配中のcfDNAを濃縮した後、分配されたcfDNAの末端オーバーハングを伸長させ、アデノシン残基をポリメラーゼによって伸長中にcfDNA断片の3’末端に付加する。各断片の5’末端をリン酸化する。これらの改変は、分配されたcfDNAをライゲーション可能にする。DNAリガーゼおよびアダプターを加えて、各分配されたcfDNA分子を各末端でアダプターとライゲーションする。これらのアダプターは、非一意的分子バーコードを含有し、各分配を、他の分配で使用されるアダプター中のバーコードと識別可能である非一意的分子バーコードを有するアダプターとライゲーションする。
低メチル化分配中のcfDNAを、メチル化認識部位を有する1つまたは複数のMSREと接触させる。酵素は、低メチル化分配中の非特異的に分配されたDNAの少なくとも一部を切断する。あるいはまたは加えて、高メチル化分配中のcfDNAを、非メチル化認識部位を有する1つまたは複数のMSREと接触させる。酵素は、高メチル化分配中の非特異的に分配されたDNAの少なくとも一部を切断する。
ライゲーション後、4つの分配を共にプールして、PCRによって増幅する。1つまたは複数のMSREによって切断された分子は、それらが各末端でアダプターを有しないために指数的増幅を受けない。
PCR後、増幅されたDNAを洗浄し、富化の前に濃縮する。濃縮したら、増幅されたDNAを、塩緩衝液、ならびに配列可変標的領域セットのプローブおよびエピジェネティック標的領域セットのプローブを含むビオチン化RNAプローブと組み合わせ、この混合物を一晩インキュベートする。配列可変領域セットのプローブは、約50kbのフットプリントを有し、エピジェネティック標的領域セットのプローブは約500kbのフットプリントを有する。配列可変標的領域セットのプローブは、表3~5において同定された遺伝子の少なくとも1つのサブセットを標的とするオリゴヌクレオチドを含み、エピジェネティック標的領域セットのプローブは、高メチル化可変標的領域、低メチル化可変標的領域、CTCF結合標的領域、転写開始部位標的領域、局所増幅標的領域、およびメチル化対照領域の選択物を標的とするオリゴヌクレオチドを含む。
ビオチン化RNAプローブ(DNAにハイブリダイズした)を、ストレプトアビジン磁気ビーズによって捕捉し、塩に基づく一連の洗浄によって捕捉されない増幅されたDNAから分離し、それによって試料を富化する。富化後、富化した試料のアリコートを、Illumina NovaSeqシーケンサーを使用してシーケンシングする。次いで、シーケンサーによって生成された配列読み取りデータを、バイオインフォマティックツール/アルゴリズムを使用して解析する。分子バーコードを、一意的分子を同定するため、ならびに差次的にMBD分配された分子への試料のデコンボリューションのために使用する。本実施例で記載される方法は、低メチル化分配中の非特異的に分配されたcfDNAの切断による精度および/または信頼度の増加を含む、その分配に基づいて分子の全体的なメチル化レベル(すなわち、メチル化シトシン残基)に関する情報を提供することとは別に、高メチル化分配中の非メチル化シトシンの変換に基づいてメチル化シトシンの場所に関するより高い分解能の情報を提供することもできる。配列可変標的領域配列は、真の腫瘍変異体を技術的エラー(例えば、PCRエラー、シーケンシングエラー)から区別する十分な根拠でコールすることができるゲノムの変更、例えばSNV、挿入、欠失、および融合を検出することによって解析される。エピジェネティック標的領域配列を独立して解析して、例えば健康なcfDNAと比較して潜在的ながん様組織において差次的にメチル化されることが示されている領域におけるcfDNA分子のメチル化状態を検出する。最後に両方の解析の結果を組み合わせて、最終的な腫瘍存在/非存在コールを生成する。
(実施例3)
健康な対象および初期結腸直腸がんを有する対象からのcfDNA試料中の単単一ヌクレオチド分解能でのメチル化の解析
健康な対象および初期結腸直腸がんを有する対象からのcfDNAの試料を、以下のように解析した。cfDNAを、MBDを使用して分配して、高メチル化分配、中間分配、および低メチル化分配を得た。各分配の分配されたDNAをアダプターにライゲーションし、それによって非改変シトシンが脱アミノ化を受けるが、mCおよびhmCは脱アミノ化を受けないEM-seq変換手順に供したが、代替手順では、高メチル化分配の分配されたDNAを、本明細書で記載される非メチル化認識部位を有するMSREと接触させてもよい。そのような脱アミノ化後、分配を、シーケンシングのために調製し、全ゲノムシーケンシングに供した。各分配を個別にシーケンシングしたが、代替手順では、分配を差次的にタグ付けし(例えば、分配後でEM-seq変換前、または分配およびEM-seq変換後でシーケンシングのためのさらなる調製前)、プールし、プロセシングし、並列してシーケンシングしてもよい。
高メチル化可変標的領域からの配列データを、バイオインフォマティクスによって単離したが、代替手順では、標的領域をシーケンシング前にin vitroで富化してもよい。高メチル化可変標的領域の塩基あたりのメチル化を、図7に示すように定量したが、これは、高メチル化分配からの高メチル化可変標的領域中の分子あたりのメチル化CpGの数を示す。x軸は、分子あたりのCpGの総数を示し、そのため、対角線に沿った点は、CpG毎にメチル化を有する分子を表す。このように、単一塩基分解能でメチル化を解析すること、ならびに塩基メチル化あたりおよびMBD分配材料の部分的分子メチル化を定量することが可能であった。結腸直腸がんを有する対象からの試料は、健康な対象からの試料よりもこれらの領域においてかなり高い全メチル化を示した。
(実施例4)
MDRE消化cfDNAの解析
2人の健康なドナーからのcfDNAの複数のアリコートを単離し、メチル化cfDNAのMBDに基づく分配に供した。次いで、低メチル化cfDNA分配を、cfDNA分子へのNGSアダプターのライゲーションに供した。次いで、各ドナーからのライゲーションしたcfDNAを、メチル化依存性制限酵素(MDRE)消化とも呼ばれる、メチル化DNAを優先的に切断するMSREによる消化に供した。使用したMDREは、FspEI、LpnPI、MspJI、もしくはSgeI、または「偽」消化(消化のために酵素を添加していない)もしくは対照反応としてMDRE反応を省略した非消化条件であった。MDREステップ後、低メチル化cfDNA分配をユニバーサルPCRにおいて増幅し、ここではMDREによって切断されているDNAは、アダプターが各末端に存在しないために指数的に増幅されなかった。次いで、PCR生成物を、ハイブリッド捕捉パネルを使用して標的化ゲノム領域の富化に供し、第2のPCRにおいて増幅し、NGSによってシーケンシングした。ハイブリッド捕捉パネル標的は、富化のためのゲノムの「陽性対照(ctrl)」および「陰性対照(ctrl)」領域を含む。陽性対照領域は、血液およびがん様組織を含む全てのヒト組織において広範に高度にメチル化されることが見出される(バイサルファイト-seqによって>85%メチル化)ゲノムのCpGが高密度の領域である。逆に、陰性対照領域は、全てのヒト組織において広範に非メチル化である(<15%メチル化)。NGS解析から、全ての条件でシーケンシングされた陽性対照分子(すなわち、陽性対照領域中の分子)および陰性対照分子(すなわち、陰性対照領域中の分子)の数を比較して、MDREの感度および特異度をそれぞれ推定する。図8A~Bは、FspEI酵素処置が、「偽」条件と比較して陽性対照分子の数を>100倍低減させ、メチル化分子の消化に関して約99%の感度を実証することを示す。図8C~Dは、FspEI処置が、陰性対照分子を有意義には低減しないことを示し、FspEI消化での高い感度を示している(非メチル化分子を消化しない)。MspJIは何らかの感度を示すが、FspEIと比較して特異度が不良である一方、LpnIおよびSgeIはほとんど/全く感度を示さないことに留意されたい。
MDRE消化効率を、異なる認識部位を有する分子および分子あたりの部位数を使用して計算した。消化効率は、1-[MDRE条件での陽性対照分子の数]/[偽条件での陽性対照分子の数]として計算される。5mCpGを含むFspEIの全般的な認識配列は、C5mCGH(H=A、C、またはT)であり、切断は12~16塩基下流で起こる。FspEIパリンドローム部位C5mCGGは、反対方向の上の鎖および下の鎖に2つのFspEI認識部位を含有する。全般的な5mCpG含有コンセンサスは、5mCpGNRであり、これはFspEIコンセンサスと重複し得る。図9A~Dは、消化効率が、分子あたり最少数のC5mCGHまたはC5mCGG部位によって増加し、パリンドローム部位(C5mCGG)でより効率的であることを示している。少なくとも1つのC5mCGGまたは少なくとも2つのC5mCGH部位を有する陽性対照分子は、95%の効率で切断された。
さらに、FspEIおよびMspJIによる同時または逐次的消化を試験した。2つのMDRE(FspEIの後にMspJI)による逐次的消化は、最高の効率を有した。同時消化(FspEIおよびMspJI)では、MspJIは、時にDNAに結合するが、切断せず(より低い個々の効率)、このためFspEI活性を立体的に遮断することが起こり得る。ここでFspEIの後にMspJIは、FspEI単独より高い全効率を有するが、FspEI単独は、より良好な切断特異性を有する。このように、異なる状況では、FspEI単独による消化またはFspEIの後にMspJIによる消化が好ましくなり得る。最少部位の数が多い場合、より少ない陽性対照分子が観察されること(図9C~D)およびこのように消化効率の推定がよりノイズが多くなることに留意されたい。
(実施例5)
MDRE処置後の腫瘍DNAの検出
4人の健康なドナーから単離したcfDNAを使用して、「正常」およびシミュレートした「がん」cfDNA試料を作製した。ドナー試料を「正常」として未希釈のまま使用し、結腸直腸がん(CRC)患者のcfDNAでスパイクして、「がん」試料を作製した。CRC cfDNA試料の循環腫瘍DNA分画は、以前に測定されており、これを使用して正常なドナーcfDNAにCRC cfDNAの計算量をスパイクし、その結果、得られた「がん」試料は、0.5%の循環腫瘍DNAを含有した(図10A~Jにおける「0.5%CRC」)。全ての試料を、MBDに基づく分配に供し、cfDNAを高メチル化および低メチル化cfDNA分配に分割した。次いで、低メチル化cfDNA分配を、NGSアダプターにライゲーションした。次いで、各ドナーからのライゲーションしたcfDNAを、FspEI、MspJI、またはFspEI+MspJIのいずれかによるMDRE消化に供した。「偽消化」(消化反応に酵素を加えない)および「非消化」条件(MDRE反応を完全に省略)を、対照反応として役立てた。MDREステップ後、非消化低メチル化分配cfDNAを、ユニバーサルPCRにおいて増幅し、次いで、ハイブリッド捕捉パネルを使用して標的化ゲノム領域の富化に供し、次いで、2回目のPCRにおいて増幅し、NGSによってシーケンシングした。ハイブリッド捕捉パネル標的は、富化のためにゲノムの低メチル化可変標的領域および「陰性対照(ctrl)」領域を含む。陰性対照領域は、血液およびがん様組織を含む全てのヒト組織において広範に低度にメチル化される(バイサルファイト-seqによって<15%メチル化)ことが見出されたゲノムのCpGが高密度の領域である。低メチル化可変標的領域は、健康な結腸組織および血液と比較してCRC組織において低減されたメチル化パーセンテージを有すると文献で注釈されているゲノム領域である。NGS解析から、2つまたはそれより多くのCCGG部位を有する(MDREによって高い効率で消化されるはずである)低メチル化可変標的領域分子の数を、全ての消化条件にわたって「正常」と「がん」試料の間で比較する(図10A~E)。低メチル化可変標的領域分子数の比をまた、陰性対照分子数と比較し、これを、低メチル化可変標的領域分子数に影響を及ぼし得るcfDNA入力量を変化させるために正規化する(図10F~J)。低メチル化可変標的領域がんシグナルの分解可能な検出は、MDRE消化なしの条件(「非消化」および「偽消化」)では観察されなかった。すなわち、低メチル化可変標的領域分子および正規化された比のレベルは「がん」と「正常」試料の間で識別不能であった(有意差はなかった)(これは、図10C、E、H、およびJにおいて水平の矢印によって印される)。逆に、MDRE処置が存在する場合、低メチル化可変標的領域数および正規化した比のシフト(増加)が、「正常」試料と比較して「がん」試料において検出された(図10A、B、D、F、G、およびIにおいて上向きの右矢印によって印される)。このように、MDRE処置は、「がん」試料において0.5%CRC ctDNAでがん低メチル化可変標的領域シグナルの検出を可能にするが、これはMBD分配アッセイ単独では検出可能ではなかった。
本発明の好ましい実施形態を本明細書に示し、記載してきたが、そのような実施形態が単なる例として提供されることは、当業者には明白である。本発明は、本明細書内に提供された具体的な例に限定されることは意図されない。本発明は、上記の明細書を参照して説明してきたが、本明細書の実施形態の説明および例証は、限定的な意味であると解釈されることを意味しない。多数の変形形態、変化、および置換が、本発明から逸脱することなく当業者に想起されるであろう。さらに、本発明の全ての態様は、多様な条件および変数に依存する、本明細書に記載される具体的な説明、構成、または相対的割合に限定されないと理解すべきである。本明細書に記載される本開示の実施形態に対する様々な代替を、本発明の実践において用いてもよいと理解すべきである。したがって、本開示はまた、任意のそのような代替、改変、変形形態、または等価物を網羅するものとすることが企図される。以下の特許請求の範囲は本発明の範囲を定義すること、これらの特許請求の範囲内に入る方法および構造、ならびにその等価物がそれによって網羅されることが意図される。
前述の開示は、明快にするためおよび理解目的のために、例証および例によって一部詳細に記載されているが、当業者には、本開示を読むことによって、形態および詳細の様々な変化が、本発明の真の範囲から逸脱することなく行われ得ること、ならびに添付の特許請求の範囲内で実践され得ることは明白である。例えば、全ての方法、システム、コンピュータ可読媒体、および/またはその構成要素の特色、ステップ、要素、もしくは他の態様は、様々な組合せで使用することができる。
本明細書で引用される全ての特許、特許出願、ウェブサイト、他の刊行物または文書、受託番号などは、各々の個々の項目が具体的かつ個々に参照により組み込まれることが示されているのと同程度に全ての目的に関してその全体が参照によりに組み込まれる。配列の異なるバージョンが異なる時間で受託番号に関連している場合、本出願の有効な提出日で受託番号に関連するバージョンを意味する。有効な提出日は、実際の提出日、または該当する場合、受託番号を参照する優先権出願の提出日の早いほうを意味する。同様に、異なるバージョンの刊行物、ウェブサイトなどが異なる時期に公開されている場合、特に示していない限り、出願の有効な提出日で公開された最新のバージョンを意味する。

Claims (44)

  1. 生体試料中の核酸分子を解析するための方法であって:
    a)前記核酸分子のメチル化状態に基づいて、前記生体試料中の前記核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、前記生体試料がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;
    b)前記複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに
    c)前記分配セットの少なくとも1つ中の前記核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ
    を含む方法。
  2. 核酸分子のメチル化状態を決定するための方法であって:
    a)核酸分子の生体試料を提供するステップであって、前記核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;
    b)前記核酸分子の前記メチル化状態に基づいて、前記生体試料中の前記核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップ;
    c)前記複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;
    d)前記複数の分配セット中の前記核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、前記核酸分子の前記少なくとも1つのサブセットが前記1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに
    e)前記分配セットの少なくとも1つ中の前記核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップ
    を含む方法。
  3. 生体試料中の核酸分子を解析する方法であって:
    a)前記核酸分子のメチル化状態に基づいて、前記生体試料中の前記核酸分子の少なくとも1つのサブセットを複数の分配セットに分配するステップであって、前記生体試料が、メチル化核酸分子および非メチル化核酸分子を含み、前記複数の分配セットが第1の分配セットおよび第2の分配セットを含み、メチル化核酸分子が前記第2の分配セットと比較して前記第1の分配セットにおいて過剰発現する、ステップ;
    b)前記複数の分配セット中の前記第1の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;ならびに
    c)第1の分配セットの少なくとも一部からエピジェネティック標的領域を含む第1の標的領域セットを捕捉するステップ、および前記第2の分配セットの少なくとも一部からエピジェネティック標的領域を含む第2の標的領域セットを捕捉するステップ
    を含む方法。
  4. 前記第1の標的領域セットを捕捉するステップが、前記第1の分配セットのDNAを標的特異的プローブの第1のセットと接触させることを含み、前記第2の標的領域セットを捕捉するステップが、前記第2の分配セットのDNAを標的特異的プローブの第2のセットと接触させることを含む、請求項3に記載の方法。
  5. 前記分配セットまたは標的領域セットの少なくとも1つ中の前記核酸分子の1つまたは複数の遺伝子座でのメチル化状態を決定するステップをさらに含む、請求項3または4に記載の方法。
  6. 前記目的のゲノム領域、前記第1の標的領域セット、および/または前記第2の標的領域セットが、配列可変標的領域を含む、上記請求項のいずれか一項に記載の方法。
  7. 前記消化するステップの前に、1つまたは複数のアダプターを、前記複数の分配セット中の前記核酸分子の少なくとも一部の少なくとも1つの末端に付着させるステップをさらに含む、上記請求項のいずれか一項に記載の方法。
  8. 核酸分子のメチル化状態を決定するための方法であって:
    a)核酸分子の生体試料を提供するステップであって、前記核酸分子がメチル化核酸分子および非メチル化核酸分子を含む、ステップ;
    b)前記核酸分子の前記メチル化状態に基づいて、前記生体試料中の前記核酸分子の少なくとも1つのサブセットを、複数の分配セットに分配するステップ;
    c)1つまたは複数のアダプターを、前記複数の分配セット中の前記核酸分子の少なくとも1つの末端に付着させるステップ;
    d)前記複数の分配セット中の1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも1つのメチル化感受性制限酵素によって消化するステップ;
    e)前記複数の分配セット中の前記核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップであって、前記核酸分子の前記少なくとも1つのサブセットが、前記1つまたは複数の分配セット中に消化された核酸分子を含む、ステップ;ならびに
    f)前記分配セットの少なくとも1つ中の前記核酸分子の1つまたは複数の遺伝子座でのメチル化を決定するステップ
    を含む方法。
  9. アダプターが、前記複数の分配セット中の前記核酸分子の少なくとも一部の両方の末端に付着している、請求項7または8に記載の方法。
  10. c)の前に、前記複数の分配セット中の前記核酸分子の少なくとも1つのサブセットを目的のゲノム領域に関して富化するステップをさらに含み、前記核酸分子の前記少なくとも1つのサブセットが、前記1つまたは複数の分配セット中に消化された核酸分子を含む、請求項1に記載の方法。
  11. 前記生体試料中のがんの存在または非存在を検出するステップをさらに含む、先行する請求項のいずれか一項に記載の方法。
  12. 前記生体試料中のがんのレベルを決定するステップをさらに含む、上記請求項のいずれか一項に記載の方法。
  13. 前記メチル化状態を決定するステップが、前記消化された核酸分子の少なくとも1つのサブセットをシーケンシングすることを含む、上記請求項のいずれか一項に記載の方法。
  14. 前記1つまたは複数のアダプターが少なくとも1つのタグを含む、請求項7~13のいずれか一項に記載の方法。
  15. 前記メチル化感受性制限酵素が、前記メチル化感受性制限酵素の認識部位で非メチル化である核酸分子を選択的に消化する、上記請求項のいずれか一項に記載の方法。
  16. 核酸分子の少なくとも一部が、前記消化するステップの後に増幅および/またはシーケンシングされ、前記メチル化感受性制限酵素によって消化された核酸分子が、増幅されないおよび/またはシーケンシングされない、上記請求項のいずれか一項に記載の方法。
  17. 前記複数の分配セット中の前記1つまたは複数の分配セットの少なくとも1つのサブセットを、少なくとも2つのメチル化感受性制限酵素によって消化するステップを含む、上記請求項のいずれか一項に記載の方法。
  18. 前記少なくとも2つのメチル化感受性制限酵素が、2つのメチル化感受性制限酵素からなる、請求項17に記載の方法。
  19. 前記メチル化感受性制限酵素が、BstUIおよびHpaIIを含むかまたはそれからなる、請求項17または18に記載の方法。
  20. 前記メチル化感受性制限酵素が、HhaIおよびAccIIを含むかまたはそれからなる、請求項17または18に記載の方法。
  21. 前記少なくとも2つのメチル化感受性制限酵素が、3つのメチル化感受性制限酵素を含むかまたはそれからなる、請求項17または18に記載の方法。
  22. 前記メチル化感受性制限酵素が、BstUI、HpaII、およびHin6Iを含むかまたはそれからなる、請求項17または21に記載の方法。
  23. 前記メチル化感受性制限酵素が、AatII、AccII、AciI、Aor13HI、Aor15HI、BspT104I、BssHII、BstUI、Cfr10I、ClaI、CpoI、Eco52I、HaeII、HapII、HhaI、Hin6I、HpaII、HpyCH4IV、MluI、MspI、NaeI、NotI、NruI、NsbI、PmaCI、Psp1406I、PvuI、SacII、SalI、SmaI、およびSnaBIからなる群から選択される、上記請求項のいずれか一項に記載の方法。
  24. 前記1つまたは複数のアダプターが、前記メチル化感受性制限酵素による消化に対して抵抗性である、請求項7~23のいずれか一項に記載の方法。
  25. 前記1つまたは複数の抵抗性アダプターが、1つまたは複数のメチル化ヌクレオチドを含み、必要に応じて前記メチル化ヌクレオチドが、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンを含む、請求項24に記載の方法。
  26. 前記1つまたは複数の抵抗性アダプターが、メチル化感受性制限酵素に対して抵抗性である1つまたは複数のヌクレオチドアナログを含む、請求項24に記載の方法。
  27. 前記1つまたは複数の抵抗性アダプターが、メチル化感受性制限酵素によって認識されないヌクレオチド配列を含む、請求項24に記載の方法。
  28. 前記タグが分子バーコードを含む、請求項14~27のいずれか一項に記載の方法。
  29. 前記複数の分配セットの第1の分配セット中の核酸分子に付着した前記分子バーコードが、前記複数の分配セットの第2の分配セット中の核酸分子に付着した前記分子バーコードとは異なる、請求項28に記載の方法。
  30. 前記複数の分配セットの第1の分配セットが、前記複数の分配セットの第2の分配セットとは差次的にタグ付けされる、請求項1~29に記載の方法。
  31. 第1の分配タグが、前記第1の分配セット中の核酸分子に付着し、第2の分配タグが、前記第2の分配セット中の核酸分子に付着している、請求項30に記載の方法。
  32. 前記メチル化核酸分子が、5-メチルシトシンおよび/または5-ヒドロキシメチルシトシンを含む、上記請求項のいずれか一項に記載の方法。
  33. 前記シーケンシングすることが、次世代シーケンサーによって実施される、請求項13~32のいずれか一項に記載の方法。
  34. 前記生体試料が、DNA試料、RNA試料、ポリヌクレオチド試料、無細胞DNA試料、および無細胞RNA試料からなる群から選択される、先行する請求項のいずれか一項に記載の方法。
  35. 前記生体試料が無細胞DNA試料である、先行する請求項のいずれか一項に記載の方法。
  36. 前記無細胞DNAが、1ng~500ngの間である、請求項35に記載の方法。
  37. 前記分配するステップが、メチル化ヌクレオチドを含む核酸分子に優先的に結合する結合剤に対する前記核酸分子の差次的結合親和性に基づいて、前記核酸分子を分配するステップを含む、先行する請求項のいずれか一項に記載の方法。
  38. 前記結合剤が、メチル結合ドメイン(MBD)タンパク質である、請求項37に記載の方法。
  39. 前記結合剤が、1つまたは複数のメチル化ヌクレオチド塩基に対して特異的な抗体である、請求項37に記載の方法。
  40. 前記目的のゲノム領域またはエピジェネティック標的領域が、がん検出のために差次的にメチル化された領域を含む、請求項2~39のいずれか一項に記載の方法。
  41. 前記シーケンシングすることの前に、前記核酸分子の少なくとも一部を増幅するステップをさらに含む、請求項13~40のいずれか一項に記載の方法。
  42. 前記増幅に使用されるプライマーが、少なくとも1つの試料インデックスを含む、請求項41に記載の方法。
  43. 前記1つまたは複数の遺伝子座が、複数の遺伝子座を含む、上記請求項のいずれか一項に記載の方法。
  44. 前記複数の遺伝子座が、1つまたは複数のゲノム領域を含む、請求項43に記載の方法。
JP2023519657A 2020-09-30 2021-09-29 Dnaメチル化分配アッセイのシグナル対ノイズ比を改善するための方法およびシステム Pending JP2023544720A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063086000P 2020-09-30 2020-09-30
US63/086,000 2020-09-30
US202063105183P 2020-10-23 2020-10-23
US63/105,183 2020-10-23
PCT/US2021/071648 WO2022073011A1 (en) 2020-09-30 2021-09-29 Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays

Publications (1)

Publication Number Publication Date
JP2023544720A true JP2023544720A (ja) 2023-10-25

Family

ID=78333328

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023519657A Pending JP2023544720A (ja) 2020-09-30 2021-09-29 Dnaメチル化分配アッセイのシグナル対ノイズ比を改善するための方法およびシステム
JP2023519658A Pending JP2023544721A (ja) 2020-09-30 2021-09-29 分配およびメチル化依存性ヌクレアーゼを使用してdnaを解析するための組成物および方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023519658A Pending JP2023544721A (ja) 2020-09-30 2021-09-29 分配およびメチル化依存性ヌクレアーゼを使用してdnaを解析するための組成物および方法

Country Status (5)

Country Link
US (3) US20220154285A1 (ja)
EP (2) EP4222278A1 (ja)
JP (2) JP2023544720A (ja)
CA (2) CA3193090A1 (ja)
WO (2) WO2022073012A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL293202A (en) * 2022-05-22 2023-12-01 Nucleix Ltd Useful combinations of restriction enzymes
WO2023244983A1 (en) * 2022-06-13 2023-12-21 Freenome Holdings, Inc. Sequence process validation methods and compositions
WO2024006908A1 (en) * 2022-06-30 2024-01-04 Guardant Health, Inc. Enrichment of aberrantly methylated dna
NL2033070B1 (en) * 2022-09-19 2024-03-25 Univ Twente Method for detecting CpG methylation in a DNA target sequence

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
DE69528706T2 (de) 1994-08-19 2003-06-12 Pe Corp Ny Foster City Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
AU2004221760B2 (en) 2003-03-21 2010-03-18 Roche Innovation Center Copenhagen A/S Short interfering RNA (siRNA) analogues
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8486630B2 (en) 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
US20130157266A1 (en) 2009-03-15 2013-06-20 Ribomed Biotechnologies, Inc. Abscription based molecular detection of dna methylation
US20110237444A1 (en) * 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
CA2934822A1 (en) 2013-12-28 2015-07-02 Guardant Health, Inc. Methods and systems for detecting genetic variants
EP4358097A1 (en) 2014-07-25 2024-04-24 University of Washington Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same
US11384382B2 (en) * 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
US11078475B2 (en) * 2016-05-03 2021-08-03 Sinai Health System Methods of capturing cell-free methylated DNA and uses of same
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
BR112019012958A2 (pt) 2016-12-22 2019-11-26 Guardant Health Inc métodos e sistemas para análise de moléculas de ácido nucleico
WO2019157529A1 (en) * 2018-02-12 2019-08-15 10X Genomics, Inc. Methods characterizing multiple analytes from individual cells or cell populations
JP2022519045A (ja) 2019-01-31 2022-03-18 ガーダント ヘルス, インコーポレイテッド 無細胞dnaを単離するための組成物および方法

Also Published As

Publication number Publication date
EP4222278A1 (en) 2023-08-09
WO2022073011A1 (en) 2022-04-07
US20230130140A1 (en) 2023-04-27
WO2022073012A1 (en) 2022-04-07
US11946106B2 (en) 2024-04-02
US20220162670A1 (en) 2022-05-26
US20220154285A1 (en) 2022-05-19
CA3193090A1 (en) 2022-04-07
JP2023544721A (ja) 2023-10-25
EP4222279A1 (en) 2023-08-09
CA3193183A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
US11643693B2 (en) Compositions and methods for isolating cell-free DNA
US11946106B2 (en) Methods and systems to improve the signal to noise ratio of DNA methylation partitioning assays
US11939636B2 (en) Methods and systems for improving patient monitoring after surgery
US11891653B2 (en) Compositions and methods for analyzing cell-free DNA in methylation partitioning assays
US20220154286A1 (en) Compositions and methods for analyzing dna using partitioning and base conversion
EP4271835A1 (en) Detection of epigenetic status using sequence-specific degradation
US20210214800A1 (en) Methods, compositions and systems for improving the binding of methylated polynucleotides
WO2022174109A1 (en) Methods and compositions for detecting nucleic acid variants
US20230313288A1 (en) Methods for sequence determination using partitioned nucleic acids
US20240150844A1 (en) Compositions and methods for enriching methylated polynucleotides
US20240002946A1 (en) Methods and systems for improving patient monitoring after surgery
CN116568822A (zh) 改进dna甲基化分区测定的信噪比的方法和系统