JP2023535636A - 核酸解析のための組成物および方法 - Google Patents

核酸解析のための組成物および方法 Download PDF

Info

Publication number
JP2023535636A
JP2023535636A JP2023506164A JP2023506164A JP2023535636A JP 2023535636 A JP2023535636 A JP 2023535636A JP 2023506164 A JP2023506164 A JP 2023506164A JP 2023506164 A JP2023506164 A JP 2023506164A JP 2023535636 A JP2023535636 A JP 2023535636A
Authority
JP
Japan
Prior art keywords
polynucleotide
base
cytosine
identity
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023506164A
Other languages
English (en)
Inventor
シャンカー バラスブラマニアン,
イェンス フルグレイブ,
ワルラジ シン ゴサル,
ジョアンナ ドーン ホルブルック,
シドン リウ,
デイビッド モーリー,
オリバー ネントウィッチ,
トビアス オスト,
マイケル スチュワード,
アルバート ビレラ,
ニコラス ジェイムズ ウォーカー,
シロン ユー,
ヘレン レイチェル ビグネル,
リタ サント サン-ベント,
Original Assignee
ケンブリッジ エピジェネティックス リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ケンブリッジ エピジェネティックス リミテッド filed Critical ケンブリッジ エピジェネティックス リミテッド
Publication of JP2023535636A publication Critical patent/JP2023535636A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/125Methyl transferase, i.e. methylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/513Winding/unwinding enzyme, e.g. helicase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/531Glycosylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/539Deaminase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/115Characterised by chemical treatment oxidising agents
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/125Bisulfite(s)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/30Oligonucleotides characterised by their secondary structure
    • C12Q2525/301Hairpin oligonucleotides

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Ecology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

ポリヌクレオチドにおける塩基を決定するための方法、システム、および組成物が本明細書において提供される。様々な態様では、本明細書において示される方法、システム、および組成物は、例えば、液体生検試料に由来するか、または塩基が低頻度突然変異であるポリヌクレオチド分子の4塩基、5塩基、または6塩基シーケンシングを実施するのに有用である。本明細書は、既存の技術に対して核酸シーケンシングの効率と精度の両方を有意に増加させ得る方法、システム、および組成物を開示する。

Description

相互参照
本出願は、2020年7月30日に出願された米国仮出願第63/058,712号、2020年8月4日に出願された米国仮特許出願第63/061,093号、2020年10月26日に出願された米国仮特許出願第63/105,860号、2020年10月28日に出願された米国仮特許出願第63/106,566号、2021年2月24日に出願された米国仮特許出願第63/152,976号、2021年4月22日に出願された米国仮特許出願第63/178,386号、2021年6月15日に出願された米国仮特許出願第63/210,927号、2021年6月18日に出願された米国仮特許出願第63/212,500号、2021年6月22日に出願された米国仮特許出願第63/213,626号、2021年6月28日に出願された米国仮特許出願第63/215,752号に関連し、これらの出願はそれぞれ参照によりすべての目的で本明細書に組み込まれる。
要旨
様々な実施形態では、方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、シーケンシングを使用して、フォワードポリヌクレオチドの座位(locus)における第1の塩基の第1のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、実行された場合に、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは連結されている。方法の一部の実施形態では、シーケンシング前のいずれの時点でも、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、(i)ヘアピンによって共有結合により連結されているか、(ii)ワトソン-クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、(iii)それぞれバーコードに連結されているか、または(iv)これらの任意の組合せである。一部の場合には、フォワードポリヌクレオチドは、相補的デオキシリボ核酸(cDNA)分子またはそのアンプリコンを含む。一部の場合には、方法は、RNAヌクレオチドを、逆転写酵素、その生物学的に活性な断片、またはその誘導体と接触させて、フォワードポリヌクレオチドを生成するステップをさらに含む。一部の場合には、元のポリヌクレオチドは、対象から得られた試料から単離されたデオキシリボ核酸(DNA)ポリヌクレオチドを含む。一部の場合には、元のポリヌクレオチドは、無細胞DNA(cfDNA)ポリヌクレオチドを含む。一部の場合には、フォワードポリヌクレオチドは、元のポリヌクレオチドまたはその一部である。一部の場合には、フォワードポリヌクレオチドは、元のポリヌクレオチドのアンプリコンコピーである。第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびチミン、チミンおよびシトシン、チミンおよびグアニン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、グアニンおよびシトシンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、10,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000,000分の1以下である。一部の場合には、第2の塩基の第2のアイデンティティーを決定するステップは、リードポリヌクレオチドをシーケンシングすることを含み、リードポリヌクレオチドは同族ポリヌクレオチドの同族アンプリコンである。一部の場合には、参照核酸配列、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、試料が得られた対象を含む集団において0.1%以下の頻度を有する突然変異は、450倍以下、500倍以下、700倍以下、または1000倍以下の座位カバレッジを使用して、少なくとも90%の感度で元のポリヌクレオチドの座位において検出される。一部の場合には、本方法は、元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、本方法は、脱アミノ化反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、脱アミノ化反応は、デアミナーゼを用いて行われる。一部の場合には、デアミナーゼは、APOBECまたはその断片である。一部の場合には、脱アミノ化反応は、ヘリカーゼまたはその断片の存在下で行われる。
様々な実施形態では、方法は、(a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、(b)フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをバイサルファイトと接触させるステップと、(c)シーケンシングを使用して、フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、(d)実行された場合に、第1の塩基のアイデンティティーおよび第2の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをバイサルファイトと接触させるステップの前に実施される。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体は、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNMT5である。一部の場合には、フォワードポリヌクレオチドは、5-メチルシトシン、5-ヒドロキシメチルシトシン、または両方を含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ワトソン-クリック型の塩基対合によって連結されている。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ヘアピン、バーコード、または両方によってさらに連結されている。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に、同族ポリヌクレオチドは、必要に応じて5-メチルシトシンを含む。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値はメチル化されたシトシンである。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、本方法は、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを使用して、化学または酵素反応を行うステップをさらに含む。
様々な実施形態では、方法は、(a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、(b)フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップと、(c)シーケンシングを使用して、フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、(d)実行された場合に、第1の塩基のアイデンティティーおよび第2の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、酸化剤は金属酸化物である。一部の場合には、酸化剤はルテニウム酸塩である。一部の場合には、酸化剤はルテニウム酸カリウムである。一部の場合には、酸化剤はメチルシトシンジオキシゲナーゼである。一部の場合には、フォワードポリヌクレオチドは、5-メチルシトシン、5-ヒドロキシメチルシトシン、または両方を含む。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ワトソン-クリック型の塩基対合によって連結されている。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、ヘアピン、バーコード、または両方によってさらに連結されている。一部の場合には、方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体は、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップを含み、このステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はデアミナーゼである。一部の場合には、デアミナーゼは、APOBEC、またはその断片である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はバイサルファイトである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンまたは5-ヒドロキシメチルシトシン(5hmC)である。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、真の塩基の値は5-メチルシトシン(5mC)である。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、10,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000,000分の1以下である。一部の場合には、本方法は、元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップを含む。
様々な実施形態では、方法は、(a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、(b)フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを、5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する薬剤と接触させるステップと、(c)シーケンシングを使用して、フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、(d)実行された場合に、第1の塩基のアイデンティティーおよび第2の塩基のアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位にある。一部の場合には、第2の塩基は、同族ポリヌクレオチドの対応する座位の近位にある。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体は、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを、5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する薬剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はデアミナーゼである。一部の場合には、脱アミノ化剤は、APOBEC、またはその断片である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む。一部の場合には、脱アミノ化剤はバイサルファイトである。一部の場合には、本方法は、フォワードポリヌクレオチドおよび必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップをさらに含む。一部の場合には、酸化剤はメチルシトシンジオキシゲナーゼである。一部の場合には、メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション(TET)酵素、またはその誘導体である。一部の場合には、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に実施される。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体は、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する薬剤と接触させるステップをさらに含む。一部の場合には、5hmCを特異的にグリコシル化する薬剤は、β-グルコシルトランスフェラーゼである。一部の場合には、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、5hmCを特異的にグリコシル化する薬剤と接触させるステップは、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップの後に実施される。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをデアミナーゼと接触させるステップをさらに含む。一部の場合には、デアミナーゼは、アポリポタンパク質B mRNA編集酵素(APOBEC)、二本鎖DNAデアミナーゼ、またはこれらの断片から選択される。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドをAPOBECと前記接触させるステップの前に、フォワードポリヌクレオチドおよび同族ポリヌクレオチドの1つまたは複数の座位が連結されないようにフォワードポリヌクレオチドおよび同族ポリヌクレオチドを処理するステップを含む。一部の場合には、処理するステップは、第1のポリヌクレオチドまたはその一部を、第2のポリヌクレオチドまたはその一部から分離することを含む。一部の場合には、前記分離することは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドをヘリカーゼと接触させることを含む。一部の場合には、前記処理するステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを一本鎖DNA結合タンパク質(SSB)と接触させることを含む。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、シトシンおよびグアニンに先行されない場合のグアニンおよびシトシン、グアニンおよびシトシンが後続しない場合のシトシンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のシトシンおよびグアニンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーが、CpGコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は5-メチルシトシン(5mC)である。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、CpGコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は5-ヒドロキシメチルシトシン(5hmC)である。一部の場合には、参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、真の塩基の値が決定される。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを還元剤と接触させるステップをさらに含む。一部の場合には、前記還元剤は、ボランまたはボランの誘導体である。一部の場合には、前記還元剤は、ピリジンボラン、2-ピコリンボラン(pic-ボラン)、ボラン、ジボラン、tert-ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム(NaBH)、シアノ水素化ホウ素ナトリウム(NaBHCN)、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、4-メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム(LiBH)、またはそれらの塩から選択される。一部の場合には、前記還元剤はピリジンボランである。一部の場合には、前記還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ-メルカプトエタノール、またはこれらの任意の組合せを含む。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、グアニンおよびシトシンが後続しない場合のチミンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかであると決定された場合、真の塩基の値はミスコールであると決定される。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、真の塩基の値はアデニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、真の塩基の値はシトシンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、真の塩基の値はグアニンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、真の塩基の値はチミンである。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーが、CpGコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は5-メチルシトシン(5mC)である。一部の場合には、第1の塩基の第1のアイデンティティーおよび第2の塩基の第2のアイデンティティーがそれぞれ、CpGコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、真の塩基の値は5-ヒドロキシメチルシトシン(5hmC)である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、10,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、100,000分の1以下である。一部の場合には、元のポリヌクレオチドの座位における真の塩基のアイデンティティーを決定するための偽陽性率は、1,000,000分の1以下である。一部の場合には、本方法は、(a)の前に、元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行

うことによって、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、シーケンシング前のいずれの時点でも、フォワードポリヌクレオチドおよび同族ポリヌクレオチドは、(i)ヘアピンによって共有結合により連結されているか、(ii)ワトソン-クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、(iii)それぞれバーコードに連結されているか、または(iv)これらの任意の組合せである。一部の場合には、本方法は、座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、対象における状態を診断するステップをさらに含む。一部の場合には、状態はがんである。一部の場合には、がんは、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は神経変性状態である。一部の場合には、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される。一部の場合には、シーケンシングは、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む。一部の場合には、ハイスループットシーケンシングは、次世代シーケンシングまたは第三世代シーケンシングを含む。一部の場合には、第三世代シーケンシングはロングリードシーケンシングである。
様々な実施形態では、方法は、(a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、(b)前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、(c)前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記シトシン塩基を同定するステップとを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約90%、少なくとも約95%、または少なくとも約99%の精度で前記シトシン塩基を同定するステップを含む。一部の場合には、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、もしくはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、もしくは少なくとも約99%相同であるアミノ酸配列、またはその断片を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、本方法は、核酸伸長反応において前記フォワード鎖を使用して、前記二本鎖ポリヌクレオチドを生成するステップをさらに含む。一部の場合には、前記脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、もしくはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、もしくは少なくとも約99%相同であるアミノ酸配列、またはその断片を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、前記シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングし、前記シーケンシングデータを得るステップと、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記シトシン塩基をシトシン塩基として同定するステップとを含む。一部の場合には、前記フォワード鎖はメチル化されたシトシン塩基を含み、前記方法は、(i)前記メチル化されたシトシン塩基を含む前記フォワード鎖および(ii)前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用するステップをさらに含む。一部の場合には、本方法は、前記メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシン(hydroxymethylcystosine)に変換するステップをさらに含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基であり、前記変換するステップは、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシン(hydoxymethylcytosine)であり、前記変換するステップは、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップを含む。
様々な実施形態では、方法は、(a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を、デアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、(b)前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、(c)前記シーケンシングデータを処理して、前記シトシン塩基を同定するステップを含む。一部の場合には、本方法は、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングするステップをさらに含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも90%相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、前記分離するステップは、前記フォワード鎖を、前記二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、前記シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップを含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。一部の場合には、前記フォワード鎖はメチル化されたシトシン塩基を含み、前記分離するステップは、(i)前記メチル化されたシトシン塩基を含む前記フォワード鎖および(ii)前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用することを含む。一部の場合には、本方法は、前記メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基であり、前記変換するステップは、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、前記変換するステップは、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の場合には、本方法は、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得るステップを含む。
様々な実施形態では、デアミナーゼ、ヘリカーゼ、およびパッケージ、およびその中の、前記キットを使用するための命令を含むキットが本明細書において提供される。一部の場合には、前記デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の場合には、キットは、メチルシトシンジオキシゲナーゼをさらに含む。一部の場合には、前記メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション(TET)酵素またはその断片を含む。一部の場合には、キットは、デオキシリボ核酸(DNA)グルコシルトランスフェラーゼをさらに含む。一部の場合には、前記DNAグルコシルトランスフェラーゼは、DNAベータ-グルコシルトランスフェラーゼを含む。一部の場合には、キットは、DNAメチルトランスフェラーゼをさらに含む。一部の場合には、前記DNAメチルトランスフェラーゼは、DNAメチルトランスフェラーゼ1(DNMT1)を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の場合には、前記ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
様々な実施形態では、方法は、(a)塩基(例えば、シトシン塩基)を含むポリヌクレオチドを、前記塩基を前記塩基に由来する変更された塩基に集合的に転換する1つまたは複数の試薬と接触させ、それによって、前記変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、(b)前記変更された塩基を含む前記修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、30倍以下、25倍以下、20倍以下、15倍以下、または10倍以下、5倍以下、または2倍以下のカバレッジを有するシーケンシングデータを得るステップと、(c)前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記塩基を同定するステップを含む。一部の場合には、前記修飾されたポリヌクレオチドまたはその誘導体は、二本鎖ポリヌクレオチドである。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記塩基を同定するステップを含む。一部の場合には、前記シトシン塩基はメチル化されたシトシン塩基である。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む。一部の場合には、前記1つまたは複数の試薬は、酸化剤を含む。一部の場合には、前記1つまたは複数の試薬はDNA-グルコシルトランスフェラーゼを含む。一部の場合には、前記1つまたは複数の試薬はデアミナーゼを含む。一部の場合には、前記1つまたは複数の試薬はヘリカーゼを含む。一部の場合には、前記1つまたは複数の試薬はDNAメチルトランスフェラーゼを含む。一部の場合には、本方法は、前記ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の場合には、本方法は、前記フォワード鎖を前記リバース鎖から分離するステップをさらに含む。一部の場合には、前記分離するステップは、前記フォワード鎖を、前記ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む。一部の場合には、前記メチル化された塩基はメチル化されたシトシン塩基である。一部の場合には、前記1つまたは複数の試薬はデアミナーゼおよびヘリカーゼを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む。一部の実施形態では、ポリヌクレオチドはポリヌクレオチドの集団に由来し、ここで、ポリヌクレオチドの集団におけるメチル化されたシトシン塩基の塩基頻度は、所与の座位において、75%未満であるかもしくはそれに等しく、70%未満であるかもしくはそれに等しく、65%未満であるかもしくはそれに等しく、60%未満であるかもしくはそれに等しく、55%未満であるかもしくはそれに等しく、50%未満であるかもしくはそれに等しく、45%未満であるかもしくはそれに等しく、40%未満であるかもしくはそれに等しく、35%未満であるかもしくはそれに等しく、30%未満であるかもしくはそれに等しく、25%未満であるかもしくはそれに等しく、20%未満であるかもしくはそれに等しく、15%未満であるかもしくはそれに等しく、10%未満であるかもしくはそれに等しく、7%未満であるかもしくはそれに等しく、5%未満であるかもしくはそれに等しく、3%未満であるかもしくはそれに等しく、または1%未満であるかもしくはそれに等しい、またはそれ未満である。
一部の場合には、前記メチル化されたシトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む。一部の場合には、前記メチル化されたシトシン塩基はメチルシトシン塩基を含み、前記1つまたは複数の試薬は、酸化剤、DNAグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の場合には、前記メチル化されたシトシン塩基はヒドロキシメチルシトシン塩基を含み、前記1つまたは複数の試薬は、酸化剤、DNAグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の場合には、前記シーケンシングするステップは、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の場合には、本方法は、前記シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む。一部の場合には、前記ポリヌクレオチドは、ヘアピンによって共有結合により連結した鎖を含む二本鎖ポリヌクレオチドである。一部の場合には、前記フォワード鎖および前記リバース鎖は、ヘアピンによって共有結合により連結されている。
様々な実施形態では、方法は、(a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、(b)フォワードポリヌクレオチドおよび同族ポリヌクレオチドをDNAメチルトランスフェラーゼ活性を有する実体と接触させるステップと、(c)フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップと、(d)シーケンシングを使用して、フォワードポリヌクレオチドの座位における第1の塩基のバリアントのアイデンティティーおよび同族ポリヌクレオチドの対応する座位における第2の塩基のバリアントのアイデンティティーを決定するステップと、(e)実行された場合に、第1の塩基のバリアントのアイデンティティーおよび第2の塩基のバリアントのアイデンティティーに少なくとも部分的に基づいて、フォワードポリヌクレオチドの座位に対応する元のポリヌクレオチドの座位における真の塩基のバリアントの値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップとを含む。一部の場合には、本方法は、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップを含み、このステップは、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップの後に実施される。一部の場合には、DNAメチルトランスフェラーゼ活性を有する実体は、DNMT1またはDNMT5である。一部の場合には、前記酸化剤は、テンイレブントランスロケーション(TET)酵素である。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを還元剤と接触させるステップを含む。一部の場合には、前記還元剤は、ボランまたはボランの誘導体である。一部の場合には、前記還元剤は、ピリジンボラン、2-ピコリンボラン(pic-ボラン)、ボラン、ジボラン、tert-ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム(NaBH)、シアノ水素化ホウ素ナトリウム(NaBHCN)、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、4-メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム(LiBH)、またはそれらの塩から選択される。一部の場合には、前記還元剤はピリジンボランである。一部の場合には、前記還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ-メルカプトエタノール、またはこれらの任意の組合せを含む。一部の場合には、本方法は、フォワードポリヌクレオチドおよび同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップの前に、フォワードポリヌクレオチド、および必要に応じて同族ポリヌクレオチドを酸化剤と接触させるステップを含む。一部の場合には、酸化剤はルテニウム酸塩である。一部の場合には、酸化剤はルテニウム酸カリウムである。一部の場合には、第1の塩基および第2の塩基の決定されたアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、それぞれ、グアニンおよびシトシン、またはグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかである場合、真の塩基のバリアントの値はミスコールであると決定される。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーがそれぞれアデニンおよびチミンである場合、真の塩基のバリアントの値はアデニンである。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーがそれぞれシトシンおよびグアニンである場合、真の塩基のバリアントの値はシトシンである。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーがそれぞれグアニンおよびシトシンである場合、真の塩基のバリアントの値はグアニンである。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーがそれぞれチミンおよびアデニンである場合、真の塩基のバリアントの値はチミンである。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーが、CpGコンテキストの、それぞれグアニンおよびチミンが後続するチミンおよびグアニンである場合、真の塩基のバリアントの値は5-メチルシトシン(5mC)である。一部の場合には、第1および第2の塩基のバリアントのアイデンティティーがそれぞれ、CpGコンテキストの、それぞれグアニンおよびシトシンが後続するチミンおよびグアニンである場合、真の塩基のバリアントの値は5-ヒドロキシメチルシトシン(5hmC)である。一部の場合には、本方法は、座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、対象における状態を診断するステップを含む。一部の場合には、状態はがんである。一部の場合には、がんは、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は神経変性状態である。一部の場合には、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される。一部の場合には、シーケンシングは、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む。一部の場合には、ハイスループットシーケンシングは、次世代シーケンシングまたは第三世代シーケンシングを含む。一部の場合には、第三世代シーケンシングはロングリードシーケンシングである。
本開示の追加の態様および利点は、本開示の例示的な実施形態のみが示され、記載される以下の詳細な説明から当業者にとって容易に明らかになるであろう。理解されるように、本開示は、他の異なる実施形態についても可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な自明な点での修正が可能である。したがって、図面および明細書は、本質的に例示とみなされ、限定とみなされるべきではない。
参照による組込み
本明細書において言及されるすべての刊行物、特許、および特許出願は、それぞれ個々の刊行物、特許、または特許出願が参照により組み込まれることが具体的かつ個別に示された場合と同じ程度に参照により本明細書に組み込まれる。参照により組み込まれる刊行物および特許または特許出願が本明細書に含まれる本開示と矛盾する限り、本明細書が、任意のこのような矛盾する資料に対して優先するおよび/または上位にあることが意図される。
組成物および方法の新規特色は、添付の特許請求の範囲において詳細に示されている。本組成物および方法の特色および利点のより十分な理解は、組成物および方法の原理が利用されている説明的な実施形態を示す次の詳細な説明と、下に説明する添付の図面(本明細書において同様に「図(figure/FIG.)」)を参照することにより得られるであろう。
図1Aおよび図1Bは、実施形態に従った、デオキシリボ核酸(DNA)配列におけるシトシン、5-メチルシトシン(mC)および5-ヒドロキシメチルシトシン(hmC)を区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化および脱アミノ化を用いることができる。 図1Aおよび図1Bは、実施形態に従った、デオキシリボ核酸(DNA)配列におけるシトシン、5-メチルシトシン(mC)および5-ヒドロキシメチルシトシン(hmC)を区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化および脱アミノ化を用いることができる。
図2A、図2B、図2Cおよび図2Dは、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ(MT)による処置および/またはS-アデノシルメチオニン(SAM)アナログによる処置を用いることができる。 図2A、図2B、図2Cおよび図2Dは、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ(MT)による処置および/またはS-アデノシルメチオニン(SAM)アナログによる処置を用いることができる。 図2A、図2B、図2Cおよび図2Dは、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ(MT)による処置および/またはS-アデノシルメチオニン(SAM)アナログによる処置を用いることができる。
図2A、図2B、図2Cおよび図2Dは、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、グルコシル化、メチル化、酸化、脱アミノ化、還元剤による処置、メチルトランスフェラーゼ(MT)による処置および/またはS-アデノシルメチオニン(SAM)アナログによる処置を用いることができる。
図3は、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、酸化(例えば、KRuO酸化)、メチル化、例えば、オキシダーゼ(例えば、TET酵素)またはその断片を使用した酵素による修飾、および還元部分、例えば、ボラン(例えば、ピコリンボラン、pic-ボラン、2-ピコリン-ボラン、pic-BH)を用いることができる。
図4は、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を描写する。様々な態様では、方法は、例えば、メチル化、例えば、オキシダーゼ(例えば、TET酵素)またはその断片を使用した酵素による修飾、および還元部分、例えば、ボラン(例えば、ピコリンボラン、pic-ボラン、2-ピコリン-ボラン、pic-BH)を用いることができる。
図5は、とりわけ、実施形態に従った、シーケンシングのためにDNA配列を調製するための方法を描写する。
図6は、とりわけ、実施形態に従った、シトシン、mCまたはhmCを含むポリヌクレオチドの標的化された捕捉およびその後の処理を含む方法を描写する。
図7Aは、とりわけ、実施形態に従った、2塩基シーケンシング解析および6文字シーケンシング解析と適合性である、シトシン(白い丸)、5-メチルシトシン(黒い丸)または5-ヒドロキシメチルシトシン(赤い丸)を含むポリヌクレオチドの標的化された捕捉およびその後の処理を描写する。図7Bは、とりわけ、実施形態に従った、IIs型制限部位を有するビオチン化プローブを使用するための方法を描写する。
図8は、とりわけ、実施形態に従った、ビオチン化プローブを使用して、DNA配列におけるシトシン、mCおよびhmCを区別または同定するための改変された方法を描写する。
図9は、とりわけ、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための改変された方法、ならびに実験データセットを描写する。
図10は、とりわけ、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法にタグメンテーションを組み込むための方法の例を描写する。
図11は、とりわけ、実施形態に従った、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法にタグメンテーションを組み込むための方法の例を描写する。
図12は、とりわけ、実施形態に従った、ローリングサークル増幅を使用したロングリードシーケンシングのための、DNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法の適応例を描写する。
図13は、とりわけ、本明細書に提供されるDNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法のための平均塩基コール精度のための計算を描写する。
図14は、とりわけ、本明細書に提供されるDNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法のための実験データおよび塩基コーリング精度を描写する。
図15は、とりわけ、本明細書に提供されるDNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法を使用して、ヒト小脳ゲノムDNA全ゲノム試料において同定された、塩基およびメチル化された塩基の出現パーセントを描写する。
図16は、とりわけ、DNA修飾の独立したおよび同時発生的な測定の技術的可変性の間の関係性を描写する。
図17は、とりわけ、実施形態に従った、本明細書に提供されるDNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法のためのPCRを用いないワークフローを描写する。
図18は、とりわけ、本明細書に提供されるDNA配列におけるシトシン、mCおよびhmCを区別および同定するための方法に先立つヘアピンライゲーション後に、プライマーが4塩基ゲノムにアニールすることを可能にし得る、単純な標的化を用いる方法を描写する。
図19A~図19Eは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。 図19A~図19Eは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。 図19A~図19Eは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。 図19A~図19Eは、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。
図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。 図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。 図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。 図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。
図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。
図20A~図20Fは、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。
図21は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において作成された実験データを示す。
図22は、実施形態に従った、特有の分子識別子(UMI)の使用を含む、ポリヌクレオチドの塩基の値を決定する方法を示す。
図23は、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。
図24は、実施形態に従った、ポリヌクレオチドにおける塩基を同定するための操作を示す。
図25は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。
図26は、実施形態に従った、ポリヌクレオチドの塩基の値の決定において有用な表を示す。
図27は、2塩基シーケンシング読み出し操作におけるハイスループットシーケンシングおよびその後の塩基コーリングの際に起こり得る置換エラーを描写する。
図28は、NA24385およびNA24631参照試料から得られ、バリアントコーリングのために使用される、シーケンシングデータの詳細を描写する。
図29は、NA24385およびNA24631参照試料由来のバリアントコーリングを評価するための性能測定基準例を描写する。
図30は、NA24385およびNA24631参照試料由来のバリアントコーリングの品質を評価するための性能測定基準例を描写する。
図31は、NA24385およびNA24631参照試料由来のバリアントコーリング結果を比較する性能測定基準例を描写する。
図32は、NA24385およびNA24631参照試料由来のバリアントコーリング結果を比較する性能測定基準例を描写する。
図33Aは、とりわけ、NA24631およびNA24385参照試料について作成された、シーケンシングレーン構成、およびシーケンシングリードチャンク(1千万個のリード対からそれぞれなる)の数を描写する。図33Bは、とりわけ、NA24385およびNA24631参照試料の混合からのミックスイン(mix-in)試料の生成を描写する。
図34は、とりわけ、ダウンサンプリングされた(down sampled)NA24385試料から得られるシーケンシングデータのための性能測定基準例を描写する。
図35は、とりわけ、ダウンサンプリングされたNA24385試料から得られるシーケンシングデータのための性能測定基準例を描写する。
図36Aは、NA24385/NA24631ミックスイン試料のシーケンシングから得られる偽陽性コールを描写する。図36Bは、NA24385およびNA24631試料のシーケンシングから得られるシングルトンエラーコールを描写する。
図37は、2塩基シーケンシング塩基コーリング方法のエラー抑制態様を示す。
図38は、APOBECまたはその断片単独で脱アミノ化された正常対照ペアエンドライブラリーまたは2塩基シーケンシングライブラリーにおける偽陽性メチル化コーリングの率を示す。
図39は、APOBEC3Aおよびヘリカーゼまたはそれらの断片の組合せを使用して脱アミノ化された2塩基シーケンシングライブラリーにおける偽陽性メチル化コールの抑制を示す。
図40は、APOBEC3Aおよびヘリカーゼまたはそれらの断片の組合せを使用して脱アミノ化された2塩基シーケンシングライブラリーにおける偽陽性メチル化コールの抑制を示す。
図41Aは、ヘアピンアダプター(ウリジンを含有)にニックを生成するための、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIの使用が関与するワークフロー例を描写する。図41Bは、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIの使用、ならびにウリジンを欠如する(ただし3’リン酸を有する)ヘアピンアダプターおよび5’リン酸を欠如する鋳型DNAの使用が関与しないワークフロー例を描写する。
図42Aは、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIを用いたワークフロー(条件a)を使用して調製された試料からのライブラリー収量例を、これらが関与しないワークフロー(条件b~d)と比較して描写する。図42Bは、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIを用いたワークフロー(条件a)を使用して調製された試料からのライブラリー収量(塩基対単位)のサイズ例を、これらが関与しないワークフロー(条件b~d)と比較して描写する。
図43は、シーケンシング前にPCR(12サイクルのPCR)において回収されたライブラリーサイズ例を描写する。
図44は、シーケンシング前にPCR(8サイクルのPCR)において回収されたライブラリーサイズ例を描写する。
図45A~図45Cは、試料ゲノムにおける鎖レベルでのメチル化情報の同定および定量化に関与する操作の概観を描写する。図45Aは、参照ゲノムとのアライメントの第1の操作を示す。図45Bは、エピジェネティックコード情報を含有する中間表現ファイルの生成が関与する次の操作を示す。図45Cは、中間表現ファイルに含有されるエピジェネティック情報の定量化が関与する次の操作を示す。
図46A~図46Cは、試料ゲノムにおける鎖レベルでのメチル化情報の同定および定量化に関与するさらなるワークフローを提供する。図46Aは、参照ゲノムと試料シーケンシングリードのアライメントファイルを生成するためのワークフローを示す。図46Bは、エピジェネティックコード情報および鎖情報を含有する中間表現ファイルの生成における操作について詳述する。図46Cは、中間表現ファイルに含有されるエピジェネティック情報の定量化のための詳細なワークフローを提供する。
図47は、中間表現ファイルにおけるエピジェネティックコードおよび鎖情報の表現を描写する。
図48は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。
図49は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。
図50は、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報の測定のためのワークフロー例の表現を描写する。
詳細な説明
組成物および方法の様々な実施形態が本明細書において示され、説明されてきたが、このような実施形態が例示としてのみ提供されることは、当業者にとって自明である。多数の変形、変更、および置換について、本組成物および方法から逸脱することなく、当業者は想到し得る。本明細書に記載の実施形態に対する様々な代替案が採用され得ることが理解されるべきである。
既存の技術に対して核酸シーケンシングの効率と精度の両方を有意に増加させ得る方法、システム、および組成物が本明細書に開示されている。例えば、本明細書に開示される2塩基シーケンシング方法およびシステムによって、(例えば、現在の技術を使用して、シーケンシングした塩基1,000ごとに約1塩基の割合で生じ得る高品質置換エラーによって)シーケンシング中に導入されたエラーを回避することができる。対照的に、本明細書に開示される方法およびシステムは、例えば、2塩基シーケンシング方法およびシステムの内部論理比較を活用することによって、およそ10,000塩基のうち1塩基の割合の偽陽性率をもたらし得る。多くの場合には、例えば、参照ゲノムに対する個々のリードのアライメントの前に、シーケンシングリードにおけるミスコールされた塩基をスクリーニングする能力は、シーケンシングリードにおいて突然変異としてコールされる塩基が真の突然変異である(例えば、置換エラーなどから生じるミスコールと対照的に)という信頼度とリードのシーケンシング後解析の効率の両方を激しく増加させ得る。本明細書において示されている方法およびシステムから得られるこれらの利益は、核酸シーケンシングを用いる適用の全範囲に当てはまる。例えば、低頻度突然変異(例えば、0.1%またはそれより低い出現率を有する突然変異)の解析は、臨床、基礎科学、または応用科学の設定において既存の技術よりも1桁少ないリードカバレッジで同一感度にて完了し、コストと技術的複雑さを劇的に低減することができる。多くの場合には、本明細書において示されている2塩基シーケンシング方法およびシステムによって、例えば、シーケンシングエラー(例えば、シーケンシングから生じる置換エラー)が結果(例えば、一部の実施形態では、ミスコールの値を割り当てることができるエラーコード(例えば、図20A~20Fに示されている)の形態で)からスクリーニングされるため、突然変異の検出力が改善される。多くの場合には、シーケンシングの稀な突然変異(例えば、(例えば、試料の元のポリヌクレオチドにおいて)突然変異の信頼度の高い同定を得るために必要とされる集団において0.01%未満の割合で生じる突然変異)におけるカバレッジ深度は、本明細書において示されている2塩基シーケンシング方法およびシステムを使用して大いに低減され得る。したがって、コピー数の少ない試料供給源(例えば、臨床または前臨床末梢血試料などの液体生検)における稀な遺伝子突然変異の信頼度の高い解析が、本明細書に開示される方法およびシステムを使用して可能である。
一部の場合には、本明細書に開示される方法およびシステムは、500倍以下のカバレッジ~5,000倍のカバレッジで0.1%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ~25倍のカバレッジ、10倍のカバレッジ~50倍のカバレッジ、100倍のカバレッジ~500倍のカバレッジ、500倍のカバレッジ~1,000倍のカバレッジ、500倍のカバレッジ~2,500倍のカバレッジ、500倍のカバレッジ~4,000倍のカバレッジ、500倍のカバレッジ~5,000倍のカバレッジ、1,000倍のカバレッジ~2,500倍のカバレッジ、1,000倍のカバレッジ~4,000倍のカバレッジ、1,000倍のカバレッジ~5,000倍のカバレッジ、2,500倍のカバレッジ~4,000倍のカバレッジ、2,500倍のカバレッジ~5,000倍のカバレッジ、または4,000倍のカバレッジ~5,000倍のカバレッジで0.1%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ、10倍以下のカバレッジ、25倍以下のカバレッジ、50倍以下のカバレッジ、75倍以下のカバレッジ、100倍以下のカバレッジ、200倍以下のカバレッジ、300倍以下のカバレッジ、400倍以下のカバレッジ、500倍以下のカバレッジ、750倍以下のカバレッジ、1,000倍以下のカバレッジ、2,500倍以下のカバレッジ、4,000倍以下のカバレッジ、または5,000倍以下のカバレッジで0.1%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。
一部の場合には、本明細書に開示される方法およびシステムは、500倍以下のカバレッジ~5,000倍のカバレッジで0.01%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ~25倍のカバレッジ、10倍のカバレッジ~50倍のカバレッジ、100倍のカバレッジ~500倍のカバレッジ、500倍のカバレッジ~1,000倍のカバレッジ、500倍のカバレッジ~2,500倍のカバレッジ、500倍のカバレッジ~4,000倍のカバレッジ、500倍のカバレッジ~5,000倍のカバレッジ、1,000倍のカバレッジ~2,500倍のカバレッジ、1,000倍のカバレッジ~4,000倍のカバレッジ、1,000倍のカバレッジ~5,000倍のカバレッジ、2,500倍のカバレッジ~4,000倍のカバレッジ、2,500倍のカバレッジ~5,000倍のカバレッジ、または4,000倍のカバレッジ~5,000倍のカバレッジで0.01%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ、10倍以下のカバレッジ、25倍以下のカバレッジ、50倍以下のカバレッジ、75倍以下のカバレッジ、100倍以下のカバレッジ、200倍以下のカバレッジ、300倍以下のカバレッジ、400倍以下のカバレッジ、500倍以下のカバレッジ、750倍以下のカバレッジ、1,000倍以下のカバレッジ、2,500倍以下のカバレッジ、4,000倍以下のカバレッジ、または5,000倍以下のカバレッジで0.01%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。
一部の場合には、本明細書に開示される方法およびシステムは、500倍以下のカバレッジ~5,000倍のカバレッジで0.001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ~25倍のカバレッジ、10倍のカバレッジ~50倍のカバレッジ、100倍のカバレッジ~500倍のカバレッジ、500倍のカバレッジ~1,000倍のカバレッジ、500倍のカバレッジ~2,500倍のカバレッジ、500倍のカバレッジ~4,000倍のカバレッジ、500倍のカバレッジ~5,000倍のカバレッジ、1,000倍のカバレッジ~2,500倍のカバレッジ、1,000倍のカバレッジ~4,000倍のカバレッジ、1,000倍のカバレッジ~5,000倍のカバレッジ、2,500倍のカバレッジ~4,000倍のカバレッジ、2,500倍のカバレッジ~5,000倍のカバレッジ、または4,000倍のカバレッジ~5,000倍のカバレッジで0.001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ、10倍以下のカバレッジ、25倍以下のカバレッジ、50倍以下のカバレッジ、75倍以下のカバレッジ、100倍以下のカバレッジ、200倍以下のカバレッジ、300倍以下のカバレッジ、400倍以下のカバレッジ、500倍以下のカバレッジ、750倍以下のカバレッジ、1,000倍以下のカバレッジ、2,500倍以下のカバレッジ、4,000倍以下のカバレッジ、または5,000倍以下のカバレッジで0.001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。
一部の場合には、本明細書に開示される方法およびシステムは、500倍以下のカバレッジ~5,000倍のカバレッジで0.0001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ~25倍のカバレッジ、10倍のカバレッジ~50倍のカバレッジ、100倍のカバレッジ~500倍のカバレッジ、500倍のカバレッジ~1,000倍のカバレッジ、500倍のカバレッジ~2,500倍のカバレッジ、500倍のカバレッジ~4,000倍のカバレッジ、500倍のカバレッジ~5,000倍のカバレッジ、1,000倍のカバレッジ~2,500倍のカバレッジ、1,000倍のカバレッジ~4,000倍のカバレッジ、1,000倍のカバレッジ~5,000倍のカバレッジ、2,500倍のカバレッジ~4,000倍のカバレッジ、2,500倍のカバレッジ~5,000倍のカバレッジ、または4,000倍のカバレッジ~5,000倍のカバレッジで0.0001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、5倍以下のカバレッジ、10倍以下のカバレッジ、25倍以下のカバレッジ、50倍以下のカバレッジ、75倍以下のカバレッジ、100倍以下のカバレッジ、200倍以下のカバレッジ、300倍以下のカバレッジ、400倍以下のカバレッジ、500倍以下のカバレッジ、750倍以下のカバレッジ、1,000倍以下のカバレッジ、2,500倍以下のカバレッジ、4,000倍以下のカバレッジ、または5,000倍以下のカバレッジで0.0001%以下の出現率を有する突然変異に対して、少なくとも90%(または少なくとも95%、または少なくとも97%、または少なくとも99%または少なくとも99.9%、または少なくとも99.99%、または少なくとも99.999%)の感度を実現することができる。
一部の場合には、本明細書に開示される方法およびシステムは、1,000分の1以下~10,000分の1以下、100分の1以下~10,000分の1以下、1,000分の1以下~100,000分の1以下、または100分の1以下~1,000,000分の1以下の偽陽性率を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは、1,000分の1以下~2,000分の1以下、1,000分の1以下~5,000分の1以下、1,000分の1以下~10,000分の1以下、2,000分の1以下~5,000分の1以下、2,000分の1以下~10,000分の1以下、または5,000分の1以下~10,000分の1以下の偽陽性率を実現することができる。一部の場合には、本明細書に開示される方法およびシステムは100分の1以下、500分の1以下、1,000分の1以下、2,000分の1以下、5,000分の1以下、10,000分の1以下、50,000分の1以下、100,000分の1以下、500,000分の1以下、1,000,000分の1以下またはそれより低い偽陽性率を実現することができる。
2塩基シーケンシングのフレームワークを利用することができる本明細書において示されているシステムおよび方法はまた、4塩基ゲノムコンテキスト(例えば、4つ以下の古典的核酸塩基:シトシン(C)、グアニン(G)、アデニン(A)、およびチミン(T)を含む解析)と拡大された5および6塩基ゲノムコンテキスト(例えば、修飾された塩基(例えば、メチル化されたシトシン)を修飾されていない塩基(例えば、メチル化されていないシトシン)と鑑別することが可能な5塩基解析;異なる修飾された塩基および修飾されていない塩基を互いに鑑別する、例えば、シトシン、5-メチルシトシン(5mC)および5-ヒドロキシメチルシトシン(5hmC)を互いに鑑別することが可能な6塩基解析)との両方において有用性を示す。これまで、6つの塩基(例えば、C、G、A、T、5mC、および5hmC)すべてを鑑別する実用システムは達成しがたいことが判明している。したがって、本明細書に開示される方法およびシステムは、ポリヌクレオチド試料におけるエピジェネティックな修飾(例えば、メチル化されたシトシン)の有無の解析に新たな手段を与える。5塩基解析では、修飾された塩基は、メチル化されたシトシン(mC)または5-ヒドロキシメチルシトシン(5hmC)であってもよい。
DNAメチル化は、遺伝子発現を調節する際に役割を果たし得るエピジェネティックな修飾である可能性があり、結果として、種々の生物学的プロセスおよび疾患に影響を及ぼし得る。ポリヌクレオチドのヌクレオチドに存在する塩基に対する、例えば、シトシン残基の5’位におけるメチル基の付加は、遺伝子発現、クロマチン構造調節、または両方における機序である場合がある。遺伝子プロモーターにおけるこのメチル化されたヌクレオチド、例えば5mC(5-メチルシトシン)の機能的存在は、一部の場合には、構造的クロマチン変更に起因する転写抑制に関連する場合があるが、5mCの非存在は転写活性に関連する場合がある。
5-メチルシトシン(5mCまたはmC)を形成するシトシン、例えばグアニン残基が後続するシトシン(例えば、シトシン-リン酸-グアニンモチーフ、またはCpG)のメチル化は、哺乳動物の発生および組織特異性、ゲノムインプリンティング、および環境応答において重要な役割をもつエピジェネティックなマークであり得る。5mCの調節不全は異常な遺伝子発現をもたらす可能性があり、一部の場合には、がんのリスク、進行または処置応答に影響を及ぼし得る。5-ヒドロキシメチルシトシン(5hmCまたはhmC)は、遺伝子発現および発癌に影響を及ぼす組織特異的分布を有する細胞の活性DNA脱メチル化経路における中間体であり得る。
第1のポリヌクレオチドの塩基(例えば、シトシンまたはグアニン)は、例えば、CpGコンテキストの第2のポリヌクレオチドの塩基(例えば、それぞれグアニンまたはシトシン)の近位にあってもよく、例えば、ここで、第1および第2のポリヌクレオチドはハイブリダイズされている(例えば、二本鎖DNAポリヌクレオチドにおいて)。一部の場合には、第2の塩基の近位にある第1の塩基は第2の塩基に近接していてもよく(例えば、それに接していてもよく)、例えば、ここで、2つの塩基はCpGコンテキスト内にある。一部の場合には、同族ポリヌクレオチドの第2の塩基は、フォワードポリヌクレオチドの第1の塩基に対応する座位(例えば、塩基対合部位)にある塩基の近位にあってもよい(例えば、それに近接していても、それに接していてもよい)。多くの場合には、第1のポリヌクレオチドの第1の塩基は、第1および第2の塩基がワトソン-クリック型の塩基対合を実現することができる場合(例えば、アデニン-チミン、シトシン-グアニン、5hmC-グアニン、または5mC-グアニン)、例えば、第1および第2のポリヌクレオチドが、例えば、二本鎖DNAポリヌクレオチドにおいてハイブリダイズされている場合、第2のポリヌクレオチドの第2の塩基と対合していると言うことができる。
遺伝子本体のDNAメチル化(本明細書で使用される場合、メチル化は、核酸の塩基におけるメチル基の付加またはその存在を意味する場合があり、メチル基は酸化状態であっても酸化状態でなくてもよく、酸化されていないメチル基は、例えばメチルであってもよく、酸化されたメチル基は、ヒドロキシメチル、ホルミル基、カルボン酸基、またはカルボン酸の塩であってもよい)は、反復性のDNAエレメントのサイレンシングおよび選択的スプライシングにおいて役割を果たすことができる。DNAメチル化は、ゲノムインプリンティング、トランスポゾン不活性化、幹細胞分化、転写抑制、および炎症などのいくつかの生物学的プロセスに関連する場合がある。DNAメチル化プロファイルは、一部の場合には、細胞分裂を通して、時には世代を通して遺伝性であり得る。メチルマークは、生理学的状態と病理学的状態の両方において非常に意味のある役割を果たし得るため、DNAのメチル化をプロファイリングして生物学の疑問に答えるための重要な適用であり得る。さらに、DNAメチル化ゲノム領域を発見することは、メチル部位が薬理学的介入によって修飾可能である場合があるため、トランスレーショナル研究にとって魅力的となる可能性がある。
2塩基シーケンシング方法およびシステム
本明細書において示されている2塩基シーケンシング方法およびシステムを使用して、例えば、参照ゲノム(または参照核酸配列)に対するアライメントを必要とせずに、塩基リードの内部検証を含む方法を提供することによって、ポリヌクレオチド(例えば、元のDNAポリヌクレオチド)の配列決定における不確実性および全体的誤り率を低下させることができる。一部の実施形態では、これは、第1のポリヌクレオチド(例えば、フォワードポリヌクレオチド)の座位において決定された第1の塩基の値と同族ポリヌクレオチド(第1のポリヌクレオチドの同族アンプリコンであってもよい)または同族ポリヌクレオチドのアンプリコン(例えば、同族ポリヌクレオチドの同族アンプリコンであってもよいリードポリヌクレオチド)などの第2の(例えば、関連する)ポリヌクレオチドにおいて決定された第2の塩基の値とを比較することによって達成することができる。よって、第1の決定された塩基の値と第2の決定された塩基の値の間のミスマッチ(例えば、ワトソン-クリック型の塩基対合論理を使用して評価した場合)は、多くの実施形態では、ポリメラーゼ置換エラーを示す可能性がある。このような実施形態では、偽陽性の可能性のある全塩基コールの4分の3より多くは、第1のポリヌクレオチドの座位におけるポリメラーゼエラーと第2のポリヌクレオチドの対応する座位における第2のポリメラーゼエラーに起因する可能性があり、第2のポリメラーゼエラーは偽陽性塩基コールをもたらす逆の塩基変化である可能性があり、これは、まずありえない連続事象である。例えば、第1のポリヌクレオチドからの同族ポリヌクレオチドの生成におけるシトシンからアデニンへのポリメラーゼ置換エラーには、リードポリヌクレオチド(例えば、リードポリヌクレオチドは同族ポリヌクレオチドの同族アンプリコンである)の生成におけるチミンからグアニンへのポリメラーゼ置換エラー(他の置換エラーはない)が必要とされ、このような実施形態では、偽陽性の可能性のあるすべての塩基コールの4分の3より多くにおいて偽陽性塩基コールが生じ得る。一部の場合には、単一の(例えば、ポリメラーゼ)置換エラーが本明細書において示されている2塩基シーケンシング方法およびシステムにおいて偽陽性塩基コールをもたらす可能性がある残りのシナリオ(例えば、アデニンからグアニンまたはグアニンからアデニンへの置換)は、多くの実施形態では、10,000分の1または10,000分の1未満の発生率を有する可能性のある2つの特異的置換エラーから生じ得る。実際に、アデニンからグアニンおよびグアニンからアデニンへの置換は、多くの場合には、他のポリメラーゼ置換より低い割合で生じる。
多くの実施形態では、2つの決定された塩基の値が互いに一致する場合(例えば、ワトソン-クリック型の塩基対合論理を適用することによって評価された場合に)、第1の塩基の決定された値が、対応する座位における元のポリヌクレオチドの塩基の真のアイデンティティーについて正確であることを高い確実性をもって結論付けることができる(例えば、第1および第2のポリヌクレオチドのリードにおける置換エラーの最大の原因が、10,000塩基のうち1塩基のオーダーの割合で生じ得るポリメラーゼ忠実度によって決定されるためである)。多くの実施形態では、2つの決定された塩基の値が互いに一致しない場合(例えば、ワトソン-クリック型の塩基対合論理を適用することによって評価された場合に)、第1の塩基の決定された値が誤っていることを高い確実性をもって結論付けることができ、塩基コールにより、エラーであると決定され得る。有利には、本明細書において示されている2塩基シーケンシング方法およびシステムを使用して、関連するポリヌクレオチド(例えば、フォワードポリヌクレオチドおよび同族ポリヌクレオチドまたはフォワードポリヌクレオチドおよび同族ポリヌクレオチドのアンプリコン)由来の2つの関連する塩基コールを比較することにより、例えば、置換エラーが生じたかどうかを決定するために、所与の塩基コールを、他の独立して生成およびシーケンシングされたポリヌクレオチドに対して、ならびに参照ゲノムに対して検証する(例えば、アライメントによって)必要性を避けることによって、シーケンシング中に導入される置換エラーの問題を効果的に回避することができる。これは、偽陽性率に対する有意な低下(例えば、既存の技術と比較して)をもたらし得る。
対照的に、既存のシーケンシング技術は、例えば、高い割合(例えば、約50塩基のうち1塩基)で導入され得る、シーケンシング中に導入される置換エラーにより生じる有意なエラーおよび不確実性によって限定される場合がある。結果として、ポリメラーゼ置換エラーに対する対象でもある、既存の技術を用いて得られたシーケンシングリードの塩基コールが検証され得る。既存のシーケンシング技術を使用する特定の座位における塩基コールの検証は、シーケンシングしたポリヌクレオチドのバーコード化(例えば、一意の分子識別子、UMIによる)と、その後の塩基コールの参照配列(例えば、参照ゲノム)ならびに他の独立して生成およびシーケンシングされたポリヌクレオチドからのリードの塩基コールとのアライメントに依拠し、これは、シーケンシング法から生じる置換エラーを含んでも含まなくてもよい。結果として、所与の塩基コールと同じ座位における参照ゲノムの値と間のミスマッチが、シーケンシングされたポリヌクレオチドにおける真の突然変異を表すが、シーケンシングプロセスから生じる置換エラーを表さないという信頼度を実現するためには、高いシーケンシング深度が必要とされる。例えば、既存のシーケンシング技術を使用すると、集団において0.1%の出現率を有する突然変異に対して91%の感度を実現するために、5,000倍のカバレッジが必要とされる可能性がある。
本明細書において示されている2塩基シーケンシング方法を使用して、元のポリヌクレオチドの塩基(例えば、元のポリヌクレオチドの真の塩基)の値(例えば、アイデンティティー)を決定することができる。一部の場合には、元のポリヌクレオチドの塩基の値を決定することは、元のポリヌクレオチドにおける突然変異を決定することを含む。例えば、本明細書に開示されるいくつかの2塩基シーケンシング方法は、対象から得られた液体生検試料に由来する腫瘍DNA分子またはその断片などの試料ポリヌクレオチドにおいて、非常に正確かつ効率的な突然変異の同定をもたらすことができる。塩基を検出することができるか、それ以外の場合には決定することができる。塩基(例えば、フォワードポリヌクレオチドなどの第1のポリヌクレオチドの第1の塩基、または同族ポリヌクレオチドなどの第2のポリヌクレオチドの第2の塩基)の値(例えば、アイデンティティー)は、シーケンシングによって決定することができる。一部の場合には、塩基(例えば、元のポリヌクレオチドの真の塩基)の値(例えば、アイデンティティー)は、コンピュータープログラム(例えば、シーケンシングデータの解析および/または6文字、5文字、または4文字シーケンシングなどの本明細書において示されている方法の1つまたは複数の操作を実施するための命令を含む)を使用して決定することができる。一部の場合には、このようなコンピュータープログラムは、コンピューターのメモリーに記憶され得る。一部の場合には、コンピューターは、シーケンサーを操作するおよび/またはポリメラーゼ連鎖反応(PCR)を実施することが可能なデバイス(例えば、プログラム可能なサーモサイクラー(thermocycler))を操作するための命令を含むことができる。
多くの場合には、2塩基シーケンシングは、第1のポリヌクレオチド(例えば、フォワードポリヌクレオチドまたはリバースポリヌクレオチド)の第1の塩基のアイデンティティーおよび第2のポリヌクレオチド(例えば、同族ポリヌクレオチドまたは同族ポリヌクレオチドのアンプリコン)の第2の塩基のアイデンティティーに基づいて、元のポリヌクレオチドの塩基(例えば、真の塩基)の値(例えば、アイデンティティー)を決定することを含む。塩基の値(例えば、アイデンティティー)は核酸塩基であり得る。例えば、塩基の値(例えば、アイデンティティー)は、アデニン、グアニン、チミン、シトシン、5-メチルシトシン、または5-ヒドロキシメチルシトシンであることが決定され得る。一部の場合には、塩基の値は、メチル化されたシトシンであることが決定され得る。例えば、一部の場合には、メチル化されたシトシンであることが決定された塩基の値は、5-メチルシトシンまたは5-ヒドロキシメチルシトシンのいずれかであり得る(そして例えば、アデニン、グアニン、チミン、およびシトシンと鑑別され得る)。一部の場合には、塩基の値は、シトシンまたは5-ヒドロキシメチルシトシンのいずれかである(そして例えば、アデニン、グアニン、チミン、および5-メチルシトシンと鑑別される)ことが決定され得る。一部の場合には、本明細書において示されている方法およびシステムを使用して、6つの異なる塩基間を鑑別することができる(例えば、6文字シーケンシング)。例えば、本明細書において示されているいくつかの方法およびシステムを使用して、塩基間:アデニン、グアニン、チミン、シトシン、5-メチルシトシン、および5-ヒドロキシメチルシトシンを鑑別することができる。一部の場合には、本明細書において示されている方法およびシステムを使用して、5つの異なる塩基の群を鑑別することができる(例えば、5文字シーケンシング)。例えば、酸化バイサルファイト処理(oxidative bisulfite processing)(例えば、第1のポリヌクレオチド、および一部の場合には第2のポリヌクレオチド、例えば、第1のポリヌクレオチドの同族ポリヌクレオチドの、ルテニウム酸カリウムなどのルテニウム酸塩への曝露を含む場合がある)を含む本明細書において示されている方法およびシステムの一部の実施形態は、アデニン、グアニン、およびチミン間、またはこれらの塩基のいずれかとシトシンおよび5-ヒドロキシメチルシトシンのうちの一方とを鑑別することが可能である。一部の場合には、本明細書において示されているいくつかの方法およびシステムを使用して、アデニン、グアニン、チミン、シトシン、およびメチル化されたシトシンを鑑別することができる(例えば、ここで、アデニン、グアニン、チミン、シトシンは互いに、および5-メチルシトシンまたは5-ヒドロキシメチルシトシンなどのメチル化されたシトシンと鑑別され得る)。一部の場合には、本明細書において示されている方法およびシステムを使用して、4つの塩基間を鑑別することができる(例えば、4文字シーケンシング)。例えば、本明細書において示されているいくつかの方法およびシステムを使用して、アデニン、グアニン、チミン、およびシトシンを鑑別することができる。一部の場合には、第1の塩基(例えば、第1のポリヌクレオチドのもの)および第2の塩基(例えば、第2のポリヌクレオチドのもの)の決定された値は生物学的に不可能な組合せであり、置換エラー(例えば、シーケンシングから)を示唆する可能性がある。エラーコードには、決定された第1および第2の塩基が不可能な組合せを形成する(例えば、図20A~20Fに示されている)塩基(例えば、元のポリヌクレオチドのもの)に関する値を割り当てることができる。一部の場合には、真の塩基(例えば、元のポリヌクレオチドのもの)の値は、第1の塩基および第2の塩基の決定されたアイデンティティーが、ワトソン-クリック型の塩基対合によって予測されていないか、または化学的または酵素的転換が実施されたとしても予測通りではない場合に、ミスコールであると決定される。例えば、本明細書において示されている2塩基シーケンシング方法を使用する4文字シーケンシングでは、以下の組合せの:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかがエラーとして同定される場合がある。
多くの場合には、塩基(例えば、元のポリヌクレオチドのもの)のアイデンティティー(例えば、値)は、第1のポリヌクレオチド、第2のポリヌクレオチド、リードポリヌクレオチド、および/または元のポリヌクレオチドの決定された(例えば、検出された)配列が参照核酸配列(例えば、参照ゲノムまたはその一部)とアラインされる前に決定される。多くの場合には、第1および第2の核酸配列は、例えば、第2のポリヌクレオチドに対する第1のポリヌクレオチドの塩基対合およびCpGコンテキストの領域を決定するために、塩基(例えば、元のポリヌクレオチドのもの)のアイデンティティー(例えば、値)を決定する前に、互いにアラインされる。一部の場合には、本明細書において示されている方法およびシステムは、1つまたは複数の塩基が決定される前に、第1のポリヌクレオチドの核酸配列(またはその一部)、第2のポリヌクレオチドの核酸配列(またはその一部)、またはリードポリヌクレオチドの核酸配列(またはその一部)のうちの1つまたは複数をアラインすることを含み得る。
試薬および方法
本明細書において示されている方法およびシステムは、二本鎖(例えば、二重鎖)DNAポリヌクレオチドを提供することおよび/または(例えば、化学的に)処理することを含んでもよい。二本鎖DNAポリヌクレオチドは、本明細書に記載の第1のポリヌクレオチドを含んでもよい。二本鎖DNAは、第2のポリヌクレオチドを含んでもよい。一部の場合には、第1のポリヌクレオチドは、二本鎖DNAの第2のポリヌクレオチドに連結されている(例えば、ハイブリダイズされている)。
一部の場合には、第1のポリヌクレオチドは、元のポリヌクレオチド、またはその一部である。一部の場合には、第1のポリヌクレオチドは、元のポリヌクレオチドの増幅生成物、またはその一部である。一部の場合には、第1のポリヌクレオチドは、元のポリヌクレオチドのアンプリコンコピー、またはその一部である。例えば、第1のポリヌクレオチドは、それらの各5-プライム(5’)および3-プライム(3’)末端に対して同じ配列方向を有する元のポリヌクレオチド(またはその一部)のコピーであってもよい。元のポリヌクレオチドおよびそのアンプリコン(例えば、第1のポリヌクレオチド)の1つまたは複数は、例えば、メチル化マークをアンプリコンに転移させるために、メチルトランスフェラーゼ(例えば、DNMT1またはDNMT5)と接触させることができる。一部の場合には、第1のポリヌクレオチドは、二本鎖(例えば、二重鎖)DNA分子のフォワード鎖(例えば、フォワードポリヌクレオチド)である。一部の場合には、第1のポリヌクレオチドは、二本鎖(例えば、二重鎖)DNA分子のリバース鎖(例えば、リバースポリヌクレオチド)である。第2のポリヌクレオチドは、第1のポリヌクレオチドの増幅生成物(例えば、アンプリコン)またはその一部であってもよい。多くの場合には、第2のポリヌクレオチドは同族ポリヌクレオチドである。第2のポリヌクレオチド(例えば、同族ポリヌクレオチド)は、第1のポリヌクレオチドの核酸配列のすべてまたは一部に対して相補的な核酸配列を有してもよい。多くの場合には、第2のポリヌクレオチド(例えば、同族ポリヌクレオチド)は、例えば、第1のポリヌクレオチドの一部または第1のポリヌクレオチドの末端(例えば、3’末端)にライゲーションされたヘアピンポリヌクレオチド(例えば、ビオチンタグを含んでも含まなくてもよい)にハイブリダイズすることが可能な核酸プライマー(例えば、ビオチンタグを含んでも含まなくてもよい)を使用して、第1のポリヌクレオチド(例えば、フォワードポリヌクレオチド)のすべてまたは一部に関してポリメラーゼ連鎖反応を実施することによって提供され得る。
第1のポリヌクレオチドは、元のポリヌクレオチドまたはその断片を含んでもよい。一部の場合には、元のポリヌクレオチドは人工分子である。一部の場合には、元のポリヌクレオチドは対象に由来する。一部の場合には、元のポリヌクレオチドはゲノムDNAを含む。一部の場合には、元のポリヌクレオチドは、無細胞DNA、例えば、液体生検試料(例えば、対象から得られた)由来の無細胞DNAを含む。一部の場合には、無細胞DNAは、試料中に存在する1つまたは複数のDNAポリヌクレオチド、封入されていないDNA分子またはその断片を含んでもよい。例えば、無細胞DNAを含む元のポリヌクレオチドは、試料(例えば、血液試料などの液体生検試料)から得られたDNAポリヌクレオチドまたはその断片を含んでもよく、ここで、試料中のDNAポリヌクレオチドまたは断片は細胞内にない。一部の場合には、元のポリヌクレオチドは、腫瘍DNA分子またはその断片(例えば、循環腫瘍DNA(ctDNA)などの無細胞腫瘍DNA)を含む。一部の場合には、元のポリヌクレオチドは、細胞から得られた(例えば、細胞から抽出された)ゲノムDNA分子またはその断片である。一部の場合には、元のポリヌクレオチドの塩基を決定する方法は、単一細胞に由来する出発材料(例えば、元のポリヌクレオチド)を使用して実施することができる。
一部の場合には、元のポリヌクレオチドは、10塩基対(bp)~10,000bpの長さである。一部の場合には、元のポリヌクレオチドは、100bp~1,000bpの長さである。一部の場合には、元のポリヌクレオチドは、150bp~250bpの長さである。一部の場合には、元のポリヌクレオチドは、長さが10,000bpより大きい。一部の場合には、第1のポリヌクレオチドは、10塩基対(bp)~10,000bpの長さである。一部の場合には、第1のポリヌクレオチドは、100bp~1,000bpの長さである。一部の場合には、第1のポリヌクレオチドは、150bp~250bpの長さである。一部の場合には、元のポリヌクレオチドは、長さが10,000bpより大きい。
ヌクレオチドのメチル化されていない塩基、ヌクレオチドのメチル化された塩基およびヌクレオチドのヒドロキシメチル化された塩基、例えば、DNA鎖におけるシトシン、5mC、および5hmCを区別および同定するために使用することができる方法、システム、技法、キット、組成物、および試薬が本明細書において提供される。本明細書における方法はシーケンシングを使用し得る。例えば、方法は、二本鎖DNAポリヌクレオチドに関して実施され得る。一部の場合には、方法は、一本鎖DNAポリヌクレオチドに関して実施され得る。これらの残基は、本明細書において提供される1つまたは複数の方法を使用して、例えば、単一塩基対分解能で同定することができる。ヌクレオチド、例えばシトシン、およびそれらのまたはその修飾形態は、本明細書において実施される任意の方法の一部として互いに異なるように化学的または酵素的に変更され得る。一部の実施形態では、これは、さらにいくらかの追加情報を得るために第2のポリヌクレオチド(例えば、二本鎖DNAポリヌクレオチドのもの)だけでなく第1のポリヌクレオチドに関しても実施され得る。一部のこのような場合には、第2のポリヌクレオチドは、修飾されていない核酸塩基、例えばシトシンを有するものとして開始し得るが、第1のポリヌクレオチドは、例えば、解析される試料中に見られるように、修飾された核酸塩基、例えば修飾されたシトシンを含んでもよい。一部の実施形態では、シーケンシングされた産物(第1のポリヌクレオチド、第2のポリヌクレオチド、または両方)を解読またはデコンボリューションして、元のポリヌクレオチド(例えば、第1のポリヌクレオチドであってもよい)のシトシン残基のメチル化状態を決定することができる。一部の事例では、解読は二進法によるものであってもよい。例えば、DNAの二本鎖を解析する場合、チミンとして読み取られた両方の鎖の互いに近位にある2つの塩基の存在は、元のポリヌクレオチドにおけるシトシンの存在を示す可能性がある。一部の事例では、DNAの二本鎖を解析する場合、シトシンとして読み取られた両方の鎖の互いに近位にある2つの塩基の存在は、元のポリヌクレオチドにおけるシトシンの存在を示す可能性がある。一部の事例では、DNAの二本鎖を解析する場合、チミンとして読み取られた両方の鎖の互いに近位にある2つの塩基の存在は、元のポリヌクレオチドにおける5mCの存在を示す可能性がある。一部の事例では、DNAの二本鎖を解析する場合、シトシンとして読み取られた両方の鎖の互いに近位にある2つの塩基の存在は、元のポリヌクレオチドにおける5mCの存在を示す可能性がある。一部の事例では、DNAの二本鎖を解析する場合、1つのシトシンおよび1つのチミンとして読み取られた両方の鎖の2つの塩基が互いに近位にあることは、元のポリヌクレオチドにおける5hmCの存在を示す可能性がある。
図1Aおよび1Bは、シトシン、5mC、および5hmCを修飾(例えば、元のポリヌクレオチドであってもよい第1のポリヌクレオチドにおいて)およびシーケンシングして、元のポリヌクレオチドにおけるシトシン、5mC、および5hmC残基を区別および同定することができる方法の例を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。このような方法は、1つまたは複数のヘアピンを二本鎖DNA(例えば、第1のポリヌクレオチドおよび第2のポリヌクレオチドを含む)にライゲーションし、第1および第2のポリヌクレオチドを脱アニーリングする(例えば、融解させる)ことによって開始することができる。一部の場合には、ヘアピン分子の次のライゲーションを可能にする分子または部分を二本鎖DNAにライゲーションすることができる。例えば、ベータ-グルコシルトランスフェラーゼ(BGT)およびウリジン二リン酸グルコース(UDPG)を使用することによる第1のポリヌクレオチドの5hmCのグルコシル化を実施し、第1のポリヌクレオチドの5hmCをグルコシル化して、5-グルコシルヒドロキシメチルシトシン(5ghmCまたはghmC)を得ることができる。このようなグルコシル化は、本明細書に開示される方法およびシステムにおいて使用されるものなどの他の薬剤のいくつかの化学的活性から5hmCを保護することができる。一部の場合には、メチルトランスフェラーゼ(例えば、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNMT5)を使用して、第2のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第1のポリヌクレオチドのメチル化された塩基、例えばmCによって少なくとも部分的に導かれる。多くのメチルトランスフェラーゼ(DNTM1およびDNMT5)は、メチル化されたシトシン(例えば、5-メチルシトシン(5mC)または5-ヒドロキシメチルシトシン(5hmC))に対応する(例えば、それと塩基対合する)第1の塩基の近位にある(例えば、これに近接する)二本鎖DNAポリヌクレオチドの第2のポリヌクレオチドの第2の塩基(例えば、シトシン)に作用する。一部の場合には、例えば、第1のポリヌクレオチドの第1の塩基(例えば、メチル化されたシトシン、例えば5mCまたは5hmC)が第1のポリヌクレオチドのグアニンに近接しており(例えば、シトシン-リン酸-グアニン)、これが、第2のポリヌクレオチドの(例えば、メチル化されていない)シトシンと塩基対合している(例えば、メチルトランスフェラーゼまたはその生物学的に活性な断片は、第1の塩基のものと適合する5-メチルまたは5-ヒドロキシメチルタグを有するように修飾することができる)ため、第1の塩基および第2の塩基は、CpGコンテキスト内にあると言われる。第1のポリヌクレオチド(例えば、5’末端で標識されている)の図1A~1B、2A~2D、3、4、6、9、12、17、19C、および19Eに示されているメチル化されていないシトシン塩基およびメチル化されたシトシン塩基(および関連するチミン、ghmC、ホルミルシトシン(fC)、およびdhU塩基修飾)が、これらの図の第2のポリヌクレオチドにおいて示されている対応する塩基の近位に(例えば、それと共にCpGコンテキスト内に)ある可能性があることに留意されたい。CpGの関係を示す様々なイメージにおける塩基対合したグアニンは、一部の場合には、図面の視覚的明瞭性および解釈の容易さを改善するために省略されている。本明細書において示されているいくつかの方法およびシステムは、第1のポリヌクレオチドおよび/または第2のポリヌクレオチドを脱アミノ化剤に曝露させることを含む。脱アミノ化(例えば、バイサルファイトまたはデアミナーゼ酵素での処理によって)を実施して、第1のポリヌクレオチドおよび第2のポリヌクレオチドにおいて非メチル化シトシン残基の代わりに脱アミノ化された塩基、例えばウラシルを得ることができ、両鎖をシーケンシングすることができる。脱アミノ化された塩基は、シーケンサーにおいて脱アミノ化された塩基として読み取ることができる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。処理前の第1のポリヌクレオチドが非メチル化シトシン残基(例えば、CpG部分のコンテキスト内で)を含有するところに、シーケンシング中に、2本の別々の鎖の物理的近位にある2つのチミン残基を読み取ることができる。処理前の第1のポリヌクレオチドが5mC残基を含有するところに、シーケンシング中に、2本の別々の鎖の物理的近位において、2つのシトシン残基を読み取ることができる。シーケンシング前の第1のポリヌクレオチドが5hmC残基を含有するところに、シーケンシング中に、シトシン(例えば、第1のポリヌクレオチドの)およびチミン(第2のポリヌクレオチド)を読み取ることができる。方法は、バイサルファイトシーケンシングまたは酸化バイサルファイト(ox-BS)シーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。酸化バイサルファイト(ox-BS)シーケンシングおよび酸化バイサルファイトシーケンシングによって生じたデータの分析を実施するのに有用な方法は、国際特許公開番号WO2013017853号に記載されている。メチル化されたシトシン(例えば、5-ヒドロキシメチルシトシン)、例えばルテニウム酸塩(例えば、ルテニウム酸カリウム)を酸化することが可能な薬剤を、酸化バイサルファイトシーケンシングを含む方法において酸化剤として使用することができる。
一部の場合には、1つまたは複数のシーケンシングアダプターは、例えば、図1Bに示されているように、化学的処理操作(例えば、メチルトランスフェラーゼ活性を有する実体と接触させること、酸化剤と接触させること、還元剤と接触させること、バイサルファイトと接触させること、脱アミノ化剤と接触させること)の後に、二本鎖DNA分子の1つまたは複数の末端(例えば、5’末端および/または3’末端)に連結される(例えば、ライゲーションされる)。一部の場合には、1つまたは複数のシーケンシングアダプターは、例えば、図1Bに示されているように、化学的処理操作(例えば、メチルトランスフェラーゼ活性を有する実体と接触させること、酸化剤と接触させること、還元剤と接触させること、バイサルファイトと接触させること、脱アミノ化剤と接触させること)の前に、二本鎖DNA分子の1つまたは複数の末端(例えば、5’末端および/または3’末端)に連結される(例えば、ライゲーションされる)。1つまたは複数のシーケンシングアダプターの、二本鎖DNAポリヌクレオチドの第1および/または第2のポリヌクレオチドのうちの1つまたは複数への連結は、一部の場合には、本明細書において示されている方法の操作間に実施することができることが企図される。
図2A~2Dは、シトシン、5mC、および5hmCを修飾およびシーケンシングして、第1のポリヌクレオチドにおけるシトシン、5mC、および5hmCを区別および同定する方法を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。様々な実施形態では、バイサルファイト処理は必須ではない。一部の実施形態では、このようにバイサルファイトを欠くことによって、シーケンシングされるDNAを分解または損傷から保護することが可能である。図2Aでは、例えば、BGTおよびUDPGを使用することによる第1のポリヌクレオチドの5hmCのグルコシル化を実施し、第1のポリヌクレオチドの5hmCをグルコシル化して、5-グルコシルヒドロキシメチルシトシン(5ghmCまたはghmC)を得ることができる。このようなグルコシル化によって、5hmCをいくつかの化学的転換から保護することができる。一部の場合には、DNMT1を使用して、第2のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第1のポリヌクレオチドのメチル化された塩基、例えばmCによって少なくとも部分的に導かれる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。次いで、酸化およびグルコシル化を実施して(例えば、それぞれ、テンイレブントランスロケーションメチルシトシンジオキシゲナーゼ酵素(TET)およびBGTを使用して)、5mCを5ghmCに変換することができる。例えば、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC-例えばAPOBEC 3Aなど)酵素およびヘリカーゼ、またはその断片を使用することによって、チミンを得るためのシトシンの脱アミノ化を実施することができ、両方の鎖をシーケンシングすることができる。得られたシーケンシングデータを解読し、どの塩基がシトシン、5mCおよび5hmCであるかを決定することができる。一部の実施形態では、ヘリカーゼの代わりにまたはヘリカーゼに加えて、別の試薬を使用して、一本鎖DNAを得ることができる。このような試薬の例には、例えば、ホルムアミドまたは水酸化ナトリウム(NaOH)が含まれ得る。処理前の第1のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、第1および第2のポリヌクレオチドの物理的近位にある2つのチミン残基を読み取ることができる。処理前の第1のポリヌクレオチドが5mC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の鎖(例えば、第1および第2のポリヌクレオチド)の物理的近位にある2つのシトシン残基を読み取ることができる。シーケンシング前の第1のポリヌクレオチドが5hmC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の鎖(例えば、第1および第2のポリヌクレオチド)の物理的近位にあるシトシン(第1のポリヌクレオチド)およびチミン(第2のポリヌクレオチド)を読み取ることができる。方法は、バイサルファイトシーケンシングまたはox-BSシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。
図2Bでは、第1のポリヌクレオチドをメチルトランスフェラーゼ(MT)およびS-アデノシルメチオニン(SAM)アナログで前処理し、非メチル化シトシンの代わりにメチル誘導体基が付加されたシトシンを得ることができる。一部の場合には、DNMT1を使用して、第2のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第1のポリヌクレオチドのメチル化された塩基、例えば5mCによって少なくとも部分的に導かれる。一部の実施形態では、ウラシルは、シーケンサーによってチミンとして読み取ることができる。例えば、BGTおよびUDPGを使用することによる第1のポリヌクレオチドの5hmCのグルコシル化を実施し、第1のポリヌクレオチドの5hmCをグルコシル化して、5-グルコシルヒドロキシメチルシトシン(5ghmCまたはghmC)を得ることができる。このようなグルコシル化によって、5hmCをいくつかの化学的転換、例えばメチルトランスフェラーゼ(例えば、DNMT1またはDNMT5)活性から保護することができる。次いで、第1のポリヌクレオチドおよび第2のポリヌクレオチドをMTおよびSAMアナログで処理し、非メチル化シトシンの代わりにSAMアナログが付加されたシトシンを再度得ることができる。核酸塩基、例えばシトシンの脱アミノ化は、例えば、APOBEC3Aまたはその断片もしくは突然変異体を使用し、例えば、ヘリカーゼ(例えば、APOBEC3Aに媒介される脱アミノ化のために第1および第2のポリヌクレオチド鎖を分離するために使用することができる)、一本鎖DNA結合タンパク質(SSB)を使用して、第1および第2のポリヌクレオチドの少なくとも一部を分離することによって実施することができる。一部の場合には、第1および第2のポリヌクレオチドが分離される必要がない場合のある二本鎖デアミナーゼ(例えば、DddA、例えば、参照によりその全体が本明細書に組み込まれる、Mok, B.Y., de Moraes, M.H., Zeng, J. et al. A bacterial cytidine deaminase toxin enables CRISPR-free mitochondrial base editing. Nature 583, 631-637 (2020)を参照されたい)を使用することができ、第1および第2のポリヌクレオチドをシーケンシングすることができる。一部の場合には、二本鎖DNAポリヌクレオチドの第1および第2のポリヌクレオチドを分離することは、二本鎖DNAポリヌクレオチドを挿入剤(例えば、エチジウムブロマイド)と接触させ、例えば、二本鎖DNAポリヌクレオチドの融解温度を低下させることを含んでもよい。一部の場合には、二本鎖DNAポリヌクレオチドの第1および第2のポリヌクレオチドを分離することは、第1および/または第2のポリヌクレオチドを(例えば、NaOHで)化学的に処理することを含んでもよい。第1のポリヌクレオチドの第2のポリヌクレオチドからの分離を助けるこのような方法は、二本鎖ポリヌクレオチドの対合した塩基間でのワトソン-クリックミスマッチが予測されない場合に(例えば、本明細書において示されているように、2塩基シーケンシング解析を使用する4文字シーケンシングの一部の例において)特に有用である。脱アミノ化されたシトシンは、シーケンサーを使用してチミンとして読み取ることができる。処理前の第1のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の別々の鎖(例えば、第1および第2のポリヌクレオチド)の物理的近位において、2つのシトシン残基を読み取ることができる。処理前の第1のポリヌクレオチドが5mC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の別々の鎖の物理的近位において、2本の別々の鎖の物理的近位にある2つのチミン残基を読み取ることができる。シーケンシング前の第1のポリヌクレオチドが5hmC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、シトシン(第1のポリヌクレオチド)およびチミン(第2のポリヌクレオチド、例えば同族ポリヌクレオチド)を読み取ることができる。方法は、バイサルファイトシーケンシングまたはox-BSシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。
二本鎖DNAポリヌクレオチドの第1のポリヌクレオチドおよび第2のポリヌクレオチド(例えば、図1A~12、および17~19Eに示されている)は、連結されていてもよい(例えば、互いに)。一部の場合には、二本鎖DNAポリヌクレオチドの第1のポリヌクレオチドおよび二本鎖DNAポリヌクレオチドの第2のポリヌクレオチドは、ヘアピン(例えば、ヘアピンポリヌクレオチド)によって連結されている。一部の場合には、二本鎖DNAポリヌクレオチドの第1のポリヌクレオチドおよび二本鎖DNAポリヌクレオチドの第2のポリヌクレオチドは、ワトソン-クリック型の塩基対合(例えば、核酸ハイブリダイゼーション)によって連結されている。一部の場合には、二本鎖DNAポリヌクレオチドの第1のポリヌクレオチドおよび二本鎖DNAポリヌクレオチドの第2のポリヌクレオチドは、第1および/または第2のポリヌクレオチドに関する情報(例えば、第1のポリヌクレオチド、第2のポリヌクレオチド、または両方の1つまたは複数の末端にライゲーションまたは結合した1つまたは複数のバーコード(例えば、固有のバーコードまたはUMI)の形態の)を介して連結されている。一部の場合には、二本鎖DNAポリヌクレオチドの第1のポリヌクレオチドおよび二本鎖DNAポリヌクレオチドの第2のポリヌクレオチドは、第1および第2のポリヌクレオチドを連結するための他の方法の組合せによって連結されている。図1A~12、および17~19Eは、本明細書に開示される方法、システム、および組成物の所与の実施形態または実施形態のセットについて、二本鎖ポリヌクレオチドの第1および第2のポリヌクレオチドを連結させることの一例を示している場合があるが、第1および第2のポリヌクレオチドを連結させることは、各実施形態について本明細書において示されている例のいずれかによって実現することができることに留意されたい。例えば、ヘアピンポリヌクレオチドは図2A~2D、3、または4には示されていないが、これらの図において示されている方法およびシステムおよび組成物において使用される第1および第2のポリヌクレオチドは、ヘアピンポリヌクレオチドによって連結されていてもよい。
図3は、シトシン、5mC、および5hmCを修飾およびシーケンシングして、図3に示される第1のポリヌクレオチドにおけるシトシン、5mC、および5hmCを区別および同定することができる追加の方法を示す。このような区別および同定は、単一塩基分解能におけるものであってもよい。KRuOを使用して、第1のポリヌクレオチドにおけるヒドロキシメチル化された核酸塩基、例えば5hmCを酸化させて、ホルミル核酸塩基、例えば5-ホルミルシトシン(5fCまたはfC)を得ることができる。一部の場合には、DNMT1を使用して、第2のポリヌクレオチドの、例えばシトシン塩基をメチル化することができ、ここで、このメチル化は第1のポリヌクレオチドのメチル化された塩基、例えばmCによって少なくとも部分的に導かれる。次いで、酸化を実施し(例えば、オキシダーゼまたはその生物学的に活性な部分、例えばTETを使用して)、5mCを5-カルボキシルシトシン(5caCまたはcaC)に変換することができる。ポリヌクレオチド(例えば、第1のポリヌクレオチド、第2のポリヌクレオチド、または二本鎖DNAポリヌクレオチド)のすべてまたは一部の酸化を含む本明細書において示される方法およびシステムの操作にはオキシダーゼを用いることができ、オキシダーゼは5-メチルシトシン、5-ヒドロキシメチルシトシン、および/または5-ホルミルシトシンを酸化するが、TETは酸化剤の例として本明細書において使用されることが多いことに留意されたい。次いで、pic-ボランを使用して、シーケンシングのために5caCをDHU残基に変換することができ、両鎖をシーケンシングすることができる(例えば、ここで、DHUはチミンとして読み取られる)。処理前の第1のポリヌクレオチドが非メチル化シトシン残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の別々の鎖(例えば、第1および第2のポリヌクレオチド)の物理的近位において、2つのシトシン残基を読み取ることができる。処理前の元の鎖が5mC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、2本の別々の鎖の物理的近位において2つのチミン残基を読み取ることができる。シーケンシング前の元の鎖が5hmC残基を含有するところに、例えばCpGコンテキスト内で、シーケンシング中に、個々の鎖(例えば、第1のポリヌクレオチドおよび/または第2のポリヌクレオチド)の物理的近位において、チミン(第1のポリヌクレオチド)およびシトシン(第2のポリヌクレオチド)を決定することができる。方法は、バイサルファイトシーケンシングまたはox-BSシーケンシングを含む方法よりも優れている可能性のある結果を生じ得る。
一部の実施形態では、例えば、5caCをチミン残基に変換するために様々な試薬を使用することができる。このような様々な試薬は、例えばpic-ボランの代わりに使用することができる。一部の実施形態では、様々な試薬は、ボラン、ボランの誘導体、またはpic-ボランの誘導体もしくは前駆体であってもよい。一部の実施形態では、様々な試薬は、pic-ボランに対する構造的または化学的類似性を含んでもよい。一部の実施形態では、例えば、このような試薬(例えば、還元剤)は、ピリジンボラン、2-ピコリンボラン(pic-BHまたはpic-ボラン)、ボラン、tert-ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、4-メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、またはそれらの塩を含んでもよい。一部の実施形態では、5caCのチミンへの変換は、例えば、参照によりその全体が本明細書に組み込まれるWO2019/13613A1において提示されているように実施することができる。一部の実施形態では、このような還元操作において使用される試薬は、以上に提示される還元剤と組み合わせてまたはその代わりに、異なる還元剤を含んでもよい。還元剤は、水素化ホウ素ナトリウム(NaBH)、シアノ水素化ホウ素ナトリウム(NaBHCN)、NaCNBEE、または水素化ホウ素リチウム(LiBH)を含んでもよい。還元剤は、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、ジボラン、水素化ホウ素ナトリウム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ-メルカプトエタノール、またはこれらの任意の組合せを含んでもよい。還元剤は、5caCをチミン残基に選択的に還元するか、またはその選択的還元を改善し得る。
一部の実施形態では、caC(例えば、5caC)は、例えば、本明細書において提示される方法においてウラシル(U)またはジヒドロウラシル(DHU)に還元され得る。これは、例えば、本明細書において提示される方法におけるcaCのチミン残基への変換の代わりに実施される場合がある。一部のこのような実施形態では、これは、例えば、参照によりその全体が本明細書に組み込まれる、(Schuler P, Miller AK. Sequencing the sixth base (5-hydroxymethylcytosine): selective DNA oxidation enables base-pair resolution. Angew Chem Int Ed Engl. 2012;51(43):10704-10707. doi:10.1002/anie.201204768)に記載されているように実施することができる。
2塩基シーケンシング方法の一部の実施形態では、第1のポリヌクレオチド(および/または第2のポリヌクレオチド)は、例えば、第1のポリヌクレオチドおよび第2のポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する薬剤と接触させる前に、ベータ-グルコトランスフェラーゼ(beta-glucotransferase)(bGT)と接触しない。例えば、6つの核酸塩基を鑑別することが可能な2塩基シーケンシング方法(例えば、アデニン、グアニン、チミン、シトシン、5-メチルシトシン、および5-ヒドロキシメチルシトシンがすべて、互いに鑑別され得る6文字シーケンシング)は、一部の場合には、第1のポリヌクレオチド(および/または第2のポリヌクレオチド)をbGTと接触させることを含まない場合がある(例えば、図4に示されている)。一部の場合には、第1のポリヌクレオチドおよび第2のポリヌクレオチドは、メチル化タグを、第1のポリヌクレオチドの5-メチルシトシン塩基から第2のポリヌクレオチドのシトシン(例えば、第1のポリヌクレオチドの5-メチルシトシンのものに対応する座位の近位にある(例えば、それに近接する)第2のポリヌクレオチドのシトシン)に転移させるのに十分な特異性を有するDNAメチルトランスフェラーゼ活性を有する分子と接触させる。例えば、DNAメチルトランスフェラーゼ-5(DNMT5)またはDNMT1を使用して、例えば、5-メチルシトシン(5mC)タグを第2のポリヌクレオチドのシトシンに転移させるために、5-メチルシトシン塩基および/または5-ヒドロキシメチルシトシン(5hmC)塩基を含む第1のポリヌクレオチド(例えば、ここで、第1のポリヌクレオチドは、例えば、ワトソン-クリック型の塩基対合および/またはヘアピンポリヌクレオチドによって連結されている)を接触させることができ、ここで、5mCおよびシトシンはCpGコンテキスト内にある。一部の場合には、例えば、DNMT1またはDNMT5メチルトランスフェラーゼ活性の塩基特異性により、DNMT5またはDNMT1と接触した場合に、同一の第1のポリヌクレオチドの保護されていない5hmC塩基は第2のポリヌクレオチドのシトシンに転移しないことになる(例えば、第1のポリヌクレオチドの5hmCを含む(例えば、その近位にある)CpGコンテキスト内に第2のポリヌクレオチドのマークされていないシトシンが存在する場合であっても)。一部の場合には、メチルトランスフェラーゼは、メチル化タグを、第1のポリヌクレオチドの5-メチルシトシン塩基から(例えば、連結した)第2のポリヌクレオチドのシトシン(例えば、第1のポリヌクレオチドの5-メチルシトシンのものに対応する座位の近位にある(例えば、それに近接する)第2のポリヌクレオチドのシトシン)に転移させるのに特異的でなくてもよく、5-ヒドロキシメチルシトシンは、修飾によって、例えば(例えば、酵素的な)グリコシル化によって、非特異的メチルトランスフェラーゼ活性から保護されてもよい。第1および第2のポリヌクレオチドをDNAメチルトランスフェラーゼと接触させた後、第1および第2のポリヌクレオチドを、例えば、第1のポリヌクレオチドおよび/または第1および第2のポリヌクレオチドに存在する5mCおよび5hmC塩基を5-カルボキシルシトシン(例えば、図4に示されている「5caC」または「caC」)に変換するために、酸化剤(例えば、TET、TET誘導体、またはその生物学的に活性な断片)と接触させることができる。第1および第2のポリヌクレオチドは、例えば、caC塩基をDHU残基に変換するために、還元剤(例えば、ボランなどの本明細書において提示される還元剤)と接触させることができる。還元剤と接触させた後に、第1および/または第2のポリヌクレオチドを弱塩基、または一部の場合には、弱酸で処理することができる。一部の場合には、第1および第2のポリヌクレオチドは、リードポリヌクレオチドが本明細書に記載されているように(例えば、PCRを使用して)生成される前に分離される(例えば、ヘリカーゼ、一本鎖DNA結合タンパク質、鎖置換ポリメラーゼ、または温度上昇を使用することによって)。本明細書に記載されているように、第1のポリヌクレオチドおよびリードポリヌクレオチドはシーケンシングされてもよく、元のポリヌクレオチド(これは、一部の場合には、第1のポリヌクレオチドである)の真の塩基の値は、本明細書において提示される2塩基シーケンシングを使用して決定することができる。例えば、元のポリヌクレオチド(これは、第1のポリヌクレオチドであってもよい)の真の塩基の値は、第1のポリヌクレオチドの第1の塩基および第2のポリヌクレオチドの第2の塩基のアイデンティティーに基づいて決定することができ、例えば、ここで、第2の塩基は第1の塩基と対合しているか(例えば、真の塩基の値がアデニン、グアニン、またはチミンであると決定される場合のようにワトソン-クリック型の塩基対合しているか)、または第2の塩基はその近位にある(例えば、真の塩基の値が5mCまたは5hmCであると決定される場合のように、それを含むCpGコンテキスト内にある)。
図5および7Aは、本明細書において提供される方法においてDNAをシーケンシングするために適用され得る方法を示す。無細胞DNA(cfDNA)または断片化されたDNAは両末端から捕捉され、フォークヘッドおよびヘアピンを既に含有する配列を得ることができる。このDNAは、1つまたは複数の(例えば、2つの)標的化配列を含んでもよい。一部の場合には、捕捉DNA(例えば、ヘアピンおよび標的化配列を含む)は、1つの標的化配列を含んでもよい。一部の場合には、捕捉DNAは、2つの標的化配列を含む。一部の場合には、標的化配列は、10~200bpの長さであってもよい。一部の場合には、標的化配列は、20~100bpの長さであってもよい。一部の場合には、標的化配列は、25~50bpの長さであってもよい。例えば、DNAは、およそ50塩基対(bp)の長さの2つの標的化配列を含んでもよい(例えば、捕捉されたcfDNAは約166塩基対を含んでもよい)。一部の場合には、cfDNAは、166を超える塩基対または166未満の塩基対を含む場合がある。ギャップは、必要に応じて、SulfolobusのDNAポリメラーゼIVでフィリングされてもよい。一部の実施形態では、SulfolobusのDNAポリメラーゼIVの代わりにまたはそれに加えて非鎖置換の任意の方法を使用することができる。一部の場合には、このようなプロセスは鎖置換をもたらさない。コピーされた配列に修飾がないことは有益である場合があり、ボトム鎖の新たな配列を調査することができる。一部の場合には、フォークヘッド付近のセクションは、シーケンシングされてもよく、非修飾CpGとして出現し得る。これらは、真の非修飾CpGであってもそうでなくてもよい。一部の場合には、修飾が検出されると、真の標的配列であることの確認を確認することができる。図7Aによって例証されるように、方法は、第1のポリヌクレオチド(例えば、ここで、第1のポリヌクレオチドは、シトシン、mC、および/またはhmCを含む)を提供するステップと、第1のポリヌクレオチドをその相補鎖から分離するステップと、ヘアピンポリヌクレオチド(例えば、ヘアピンプローブ)およびアダプターポリヌクレオチド(例えば、シーケンシングアダプターを含んでもよいアダプタープローブ)を使用して標的の第1のポリヌクレオチドを捕捉するステップと、ライゲーションする前に第1のポリヌクレオチドからヘアピンおよびアダプターまでをギャップフィリングするステップと、本明細書において提示される4、5、または6文字シーケンシングを実施するステップ(例えば、第1および/または第2の鎖をbGT、DNMT1、および脱アミノ化剤と接触させることを含む)とを含んでもよい。
図6は、配列を、BGTおよびDNMT1を使用して修飾し、BS変換/PCRおよびシーケンシングに供することができる方法を示す。一部の実施形態では、このような方法は、図5において提供されるような方法の続きであってもよい。このような方法は、平滑末端ライゲーションがないこと、またはウラシルもしくはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生じる酵素の混合物、例えばUracil DNA Glycosylase(UDG)およびEndonuclease VIIIの混合物による消化を特徴とする場合があり、低収率の原因を低減または排除することができる。一部の実施形態では、このような方法は、効率的な付着末端ライゲーションをもたらすことができ、例えば、ハイブリダイゼーションおよび伸長は、55摂氏度またはおよそ55摂氏度で実施することができる。一部の実施形態では、ハイブリダイゼーションおよび伸長は、約40摂氏度、約45摂氏度、約50摂氏度、約55摂氏度、約60摂氏度、約65摂氏度、約70摂氏度、またはいずれか2つの前述の値の間の範囲で実施することができる。一部の実施形態では、長い捕捉配列から非常に長い捕捉配列は、オフターゲット捕捉を低減または排除し得る。一部の実施形態では、標的化は、ネイティブDNA(例えば、C、G、A、Tなどの4塩基コードを有する)において実施することができる。一部の実施形態では、柔軟な標的化配列は、可変性のリンカー長を有するcfDNAの捕捉を可能する場合がある。一部の実施形態では、このような方法は、例えば、超音波処理されたDNAではランダムな断片がより多いために、cfDNAと比較して超音波処理されたDNAのあまり効率的ではない捕捉を呈する場合がある。一部の実施形態では、BS変換は、cfDNAに関する収率に影響を及ぼす可能性のある物的損失をもたらす場合があり、一部の実施形態では、担体DNAを使用して、このような物的損失から保護することができる。一部の実施形態では、cfDNAは点状のパターンを有さない場合があり(例えば、ヌクレオソームの)、これは、単一のプローブを使用して捕捉する場合の物的損失に関連する可能性があり、一部の実施形態では、プローブタイリングを使用して、このような物的損失から保護することができる。
図7Bは、ターゲットシーケンシングのための方法を示す。このような方法は、単一の捕捉を特徴とし得る。一部の実施形態では、方法を、cfDNAおよび他の断片化されたDNA、例えば超音波処理されたDNAに適用することができる。一部の実施形態では、一意の分子識別子(UMI)を、例えば重複排除のためにプローブに組み込んでもよい。一部の実施形態では、ビオチン化されたプローブ/strepビーズを清浄化のために使用することができ、このようなプローブまたはビーズを用いない場合よりも低いバックグラウンドをもたらすことができる。このような方法は簡便かつ迅速である可能性があり、一部の場合には、1日のワークフローをもたらすことができる。一部の実施形態では、このような方法は、シングルエンドT/Aライゲーションを呈し得る。3-塩基P5特異的PCRプライマーを使用することができ、このような方法は、2セットのプライマーまたは4文字塩基の判別に使用される方法(例えば、4文字シーケンシング)よりも長いオリゴヌクレオチドを使用することができる。
図8は、II型制限部位を含むビオチン化されたプローブを使用する方法を示す(一部は稀である場合があり、例えば、合成生物学の方法において使用することができる)。このような方法は、一般的なII型制限部位と適合し得る。一部の場合には、このような方法は、変換されたDNAにアニーリングするすべてのプローブを排除し得る。最初のアダプターは、TAクローニングまたは他のライゲーション方法によってライゲーションされ得るが、ヘアピンアダプターのライゲーションは、効率的な4塩基オーバーハングおよびライゲーションであってもよい。
図9は、ビオチン化されたプローブを使用する改変されたアプローチを示す。このスキームは以下のうちの1つまたは複数に関与してもよい:1)少なくとも1つのヘアピンのための条件、2)ビオチン化されたプローブ-このプローブはエキソヌクレアーゼから保護され得る、3)このような方法は最後のPCRにおいてp5およびp7アダプターを使用してもよく、一部の場合には、代わりに制限部位がこの配列において使用されてもよく;一部の場合には、図8に例示されているように、追加のライゲーション事象と共にこれを実施してもよい、ならびに4)ギャップフィリング操作では、APOBECまたはBS不応性のdNTPが使用されてもよい。一部の実施形態では、このような方法は、個々の第1のポリヌクレオチド(OS)および第2のポリヌクレオチド(CS)の情報を維持しようとしない場合があるが、むしろ高深度のカバレッジに依拠し、例えば、標的部位のmCおよびhmCをデコンボリューションすることができる。一部の実施形態では、このような方法は、単一のヘアピンライゲーションを含まない場合がある。
例えば、図18に示されているように、プライマーを4塩基ゲノムにアニーリングさせることができる(例えば、変換前に)簡便な標的化のための方法も本明細書において提供される。一部の実施形態では、単一標的化のための方法は、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に組み込まれてもよい。このような方法は、例えば、(1)末端修復、(2)ヘアピンライゲーション、(3)ウラシルもしくはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生じる酵素の混合物、例えばUracil DNA Glycosylase(UDG)およびEndonuclease VIIIという酵素などの混合物による消化;ならびに変性、(4)シーケンシングアダプターを含む標的プローブのビオチン化、(5)第2のポリヌクレオチドの伸長および第2のポリヌクレオチドのヘアピンへのライゲーション、(6)例えば、ssDNA3’-5’エキソヌクレアーゼを使用する第1のポリヌクレオチドからのオーバーハング(例えば、3’オーバーハング)の除去、(7)第2のアダプターによるプロービングおよびそのライゲーション、ならびに(8)プルダウンのうちの1つまたは複数を含んでもよい。一部の実施形態では、このワークフローには、本明細書において提供される方法、例えば、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法を続けてもよい。オーバーハングの除去を実施することができるエキソヌクレアーゼ活性の非限定的な例は、参照によりその全体が本明細書に組み込まれる(Runnberg, R., Narayanan, S., Itriago, H. et al. Either Rap1 or Cdc13 can protect telomeric single-stranded 3' overhangs from degradation in vitro. Sci Rep 9, 19181 (2019). https://doi.org/10.1038/s41598-019-55482-3)において提供される。
図9は、第1のポリヌクレオチドおよび第2のポリヌクレオチドの相対的な物理的配置と無関係であってもよい別の改変されたアプローチを示す。一部の実施形態では、この方法は、カバレッジが高くてもよく、一本鎖(単一分子レベル)の5mCおよび5hmCをデコンボリューションするのではなく、むしろ標的領域の「全体的な」像を与えるものであってよい。このような方法はまた、一部の実施形態では、個々の鎖(例えば、ポリヌクレオチド)情報を獲得するためにUMIに依拠してもよい。一部の実施形態では、このような方法は、断片情報を維持してもよい。例えば、本明細書の方法におけるカバレッジの高い第1のポリヌクレオチド(OS)および第2のポリヌクレオチド(CS)のリードは、図9の右パネルに示されている。個々の鎖情報は、カバレッジが高い場合、維持されていても維持されていなくてもよい。一部の場合には、このような方法は、個々のOSおよびCSの情報を維持しようとしない場合があるが、むしろ高深度のカバレッジに依拠し、例えば、標的部位のmCおよびhmCをデコンボリューションすることができる。
一部の実施形態では、本明細書において提供される方法は、タグメンテーションを組み込むことができる。一部の実施形態では、タグメンテーションは、DNA(例えば、二本鎖DNA)を切断およびタグ付けすることができるプロセス(例えば、DNAの分析において使用するため)であってもよい。一部の実施形態では、タグメンテーションは、DNA試料の断片化およびそれに関して実施されるアダプターライゲーション操作を含んでもよい。これは、例えば、トランスポソーム(これは、トランスポザーゼと複合体を形成したトランスポゾンであってもよい)を使用して実施することができる。トランスポソームによって、DNAのカットが起こり(例えば、トランスポザーゼ活性)、トランスポソームの一部であり得るDNA配列(例えば、トランスポゾン配列)をDNAに挿入することができる(例えば、トランスポゾン活性)。一部の実施形態では、トランスポゾン配列などのDNAに挿入された配列は、アダプター配列を含んでもよい。一部の実施形態では、トランスポソームは、DNAを切断し、挿入することができる。一部の実施形態では、DNAをカットすることができ、同時または本質的に同時にトランスポゾン配列を実施することができる。一部の実施形態では、DNAをカットした後に、トランスポゾン配列を挿入することができる。トランスポゾン配列の挿入は、一部の場合には、PCR増幅を含んでもよいクリーンアップ操作後に行われてもよい。このようなクリーンアップ操作は、DNAに結合したトランスポソームを除去し、後の操作への妨害を防止することができる。一部の実施形態では、タグメンテーションを含む方法は、DNA断片の末端修復またはアダプターライゲーション調製を必要としない場合がある。タグメンテーションは、例えば、試料の細胞状況を特徴付けるために使用されてもよい。タグメンテーションの組込みおよびその方法の非限定的な例は、参照によりその全体が本明細書に組み込まれる、(Chen C, Xing D, Tan L, et al. Single-cell whole-genome analyses by Linear Amplification via Transposon Insertion (LIANTI). Science. 2017;356(6334):189-194. doi:10.1126/science.aak9787)および(Raine A, Manlig E, Wahlberg P, Syvanen AC, Nordlund J. SPlinted Ligation Adapter Tagging (SPLAT), a novel library preparation method for whole genome bisulphite sequencing. Nucleic Acids Res. 2017;45(6):e36. doi:10.1093/nar/gkw1110)に記載されている。
タグメンテーションを本明細書において提供される方法、例えば、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に組み込むことができる例が図10において例示されている。この例では、それぞれがトランスポザーゼならびにヘアピン配列およびトランスポザーゼ結合部位を含み得るDNA鎖を含む2つのサブユニットを含むトランスポソーム二量体をゲノムDNAに適用することができる。トランスポソームはゲノムDNAをカットすることができ、トランスポソームDNAはカットゲノムDNAにアニーリングされ得る。描写されているように、鎖変性およびp5プローブのライゲーションと、それに続いて別の鎖変性操作およびp7プローブのアニーリングが実施され得る。この後に、2回目のポリヌクレオチド伸長(例えば、鎖置換ネガティブ)およびライゲーションが続き、第1のポリヌクレオチド(OS)および第2のポリヌクレオチドを含むDNA分子を得ることができる。
タグメンテーションを本明細書において提供される方法、例えば、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に組み込むことができる別の例が図11において例示されている。この例では、2つのTn5トランスポザーゼならびにそれぞれがヘアピン配列およびトランスポゾン結合部位(例えば、転位酵素(transpose)結合部位)を含む2つの核酸分子を組み合わせて、トランスポソーム二量体を得ることができる。このトランスポソーム二量体は、DNA(例えば、ゲノムDNA、gDNA)に適用され、よって、DNAをタグメンテーションし、トランスポゾン結合部位とヘアピン配列に挟まれたゲノムDNAを得ることができる。このタグメンテーションされたDNAに関してギャップ修復を実施することができ、得られたDNA分子を本明細書において提供される方法、例えば、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に供することができる。
一部の実施形態では、本明細書に記載の方法は、ゲノムにおいて目的の領域を標的化するためのアダプターの使用を含んでもよい。一部の場合には、アダプターはPCRアダプターである。一部の場合には、アダプターは、ゲノムにおいて目的の領域の5’または3’末端を標的化するように設計され得る。一部の場合には、PCRアダプターは、目的の領域の5’または3’末端にアニーリングする標的化領域を含んでもよい。一部の場合には、標的PCRアダプターの第2の対を使用して、目的の領域の5’または3’末端を標的化してもよい。一部の場合には、標的PCRアダプターを使用して、次世代シーケンシングアダプターを目的の領域の5’または3’末端に付加してもよい。一部の場合には、標的PCRアダプターは、目的の領域にアニーリングする標的化領域に加えて次世代シーケンシングアダプターを含有してもよい。一部の場合には、複数のアダプターまたは標的化プローブを、ゲノムにおける複数の目的の領域を標的化するために使用してもよい。一部の場合には、第3のプローブを、目的の領域を標的化するために使用してもよい。一部の場合には、第4のプローブを使用してもよい。一部の場合には、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、50、56、60、64、68、72、76、80、84、88、90、94、96、または100個のアダプターまたは標的化プローブが使用される。
一部の場合には、アダプターまたはプローブはバーコードを含んでもよい。一部の場合には、アダプター(例えば、PCRアダプター)または標的化プローブは脱アミノ化から保護される。一部の場合には、アダプターの保護は、mC、5hmC、fCまたはcaCヌクレオチドの組込みによって実現することができ、一部の場合には、PCRアダプターは、APOBEC3A耐性ヌクレオチド(ghmC、fCまたはcaC)に変換されるヌクレオチドを含有する。一部の場合には、アダプター(例えば、PCRアダプター)は、APOBEC3Aによる脱アミノ化から保護されるインデックスを含有してもよい。一部の場合には、標的化プローブは、非鎖置換酵素と共に使用されてもよい。一部の場合には、非鎖置換酵素はT4である。一部の場合には、ssDNAエキソヌクレアーゼを使用して、ギャップフィリング後にオーバーハングを除去する。一部の場合には、ギャップフィリングは、APOBEC3A耐性ヌクレオチドにより拡張される。一部の場合には、鎖置換ネガティブポリメラーゼは、PCR中にギャップフィリングに強制的に使用される。一部の場合には、ギャップフィリングに続いてライゲーションが行われる。一部の場合には、アダプターは、脱アミノ化から保護される。一部の場合には、ヘアピンは、脱アミノ化から保護される修飾された塩基を含んでもよい。一部の場合には、アダプターの保護は、mC、5hmC、fCまたはcaCヌクレオチドの組込みによって実現することができ、一部の場合には、PCRアダプターは、APOBEC3A耐性ヌクレオチド(ghmC、fCまたはcaC)に変換されるヌクレオチドを含有する。一部の場合には、ヘアピンの保護は、例えば、mC、5hmC、fCまたはcaCによって実現することができ、これは、これらがAPOBEC3A耐性ヌクレオチド(ghmC、fCまたはcaC)への変換を受けることになるためである。一部の場合には、ヘアピンはカスタムインデックスバーコードを含んでもよい。
一部の場合には、プローブは、プルダウンに好適な分子アタッチメント(molecular attachment)を含有してもよい。一部の場合には、アタッチメントは親和性プローブである。一部の場合には、親和性プローブはビオチン分子である。一部の場合には、親和性プローブはアプタマーである。一部の場合には、親和性プローブはペプチドである。一部の場合には、シーケンシングは、ヘアピンのシーケンシングに関与してもよい。一部の場合には、Illuminaプラットフォームのロングリードシーケンシングのためのアダプターが設計され得る。一部の場合には、シーケンシングは、ヘアピンのシーケンシングに関与してもよい。一部の場合には、Illuminaプラットフォームのショートリードシーケンシングのためのアダプターが設計され得る。一部の場合には、アダプターは、4塩基プローブである。一部の場合には、アダプターは、3塩基標的化のために設計される。一部の場合には、アダプターは、5bpの長さである。一部の場合には、アダプターは、6bpの長さである。アダプターは、7bpの長さである。一部の場合には、アダプターは、8bpの長さである。一部の場合には、アダプターは、9bpの長さである。一部の場合には、アダプターは、10bpの長さである。
一部の場合には、DNA出発材料は変性される(例えば、温度変性を使用する)。一部の場合には、目的の領域(ROI)を標的とするために、標的化プライマーが使用される。一部の場合には、標的化プライマーは、4塩基のプローブであるよう設計される。一部の場合には、標的化プローブは、目的の領域の5’末端を標的とするよう設計される。一部の場合には、標的化プローブは、目的の領域の3’末端を標的とするよう設計される。一部の場合には、標的化プライマーは、捕捉された鎖を個々にインデックス付けするためのIlluminaのカスタムインデックスを含有してもよい。一部の場合には、標的化プローブの第2の対を使用して、ROIの5’末端を標的とする。一部の場合には、第2の標的化プローブは、3塩基のプローブであってもよい。一部の場合には、プローブの対の使用は、PCRハンドルを作出するために使用される。一部の場合には、PCRアダプターは、スタッガード二重鎖(staggered duplex)である。一部の場合には、アダプターは、インデックスを含んでもよい。一部の場合には、PCRアダプターは、ROIの5’末端をプライミングする標的化配列を有する。一部の例では、ssDNAの5’および3’末端のROIをプライミングした後、「ギャップ」を、鎖置換ネガティブポリメラーゼ(例えば、T4など)を使用してフィリングし、それに続いてライゲーションすることができる(例えば、T4リガーゼ)。一部の場合には、エピジェネティックな塩基であるmCは、元の鎖からコピーされた鎖までにわたりコピーされ得る。一部の場合には、5hmCは、bGT酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をTETで処理し(bGTの存在下または非存在下で)、mCをfC、caCまたはghmCに変換する。一部の場合には、APOBEC3AとヘリカーゼUvrD(図48、実施例18においてさらに説明される)、またはその断片との組合せを使用してヘアピンが広げられる。複数の目的の領域を標的化する場合、本方法は、大規模な多重化PCRなどの別の方法と組み合わせて使用することができる。
一部の場合には、DNA出発材料は最初に変性される(例えば、温度変性を使用する)。一部の場合には、アダプターまたはプライマーオリゴヌクレオチドは、目的の領域(ROI)を標的とするよう設計される。一部の場合には、アダプターは、PCR増幅のためのさらなる配列を含有する。一部の場合には、アダプターは、4塩基プローブである。一部の場合には、アダプターは、インデックスを含んでもよいさらなる配列を含んでもよい。一部の場合には、アダプターは、Illuminaシーケンシングアダプターを含んでもよい。一部の場合には、アダプターを使用して、後のPCR操作においてIlluminaシーケンシングアダプターを付加してもよい。一部の場合には、アダプターは、脱アミノ化から保護される。一部の場合には、アダプターは、例えば、APOBEC3A耐性塩基(例えば、hmC、fCまたはcaC)を含有することによって、APOBEC3Aからの脱アミノ化から保護される。一部の場合には、アニーリングされたプライマーまたはアダプターは、Klenowポリメラーゼにより伸長される。一部の場合には、ヘアピンは、先ずAテイルによって付加され、次いで、T-オーバーハングを有するヘアピンを使用し、ヘアピンを構築物にライゲーションして、2塩基シーケンシングのための構築物を生成する。一部の例では、エピジェネティックな修飾(例えば、メチル化)は、元の鎖からコピーされた鎖にわたってコピーされる。一部の場合には、5hmCは、bGT酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をTETで処理し(bGTの存在下または非存在下で)、mCをfC、caCまたはghmCへと酸化させる。そして一部の場合には、APOBEC3AとヘリカーゼUvrD、またはその断片との組合せを使用してヘアピンが処理される。一部の場合には、PCRハンドルを使用して、第2の標的化オリゴヌクレオチドと組み合わせてROIを増幅させることができる(図49、実施例18においてさらに説明される)。一部の場合には、第2の標的化ヌクレオチドは、3塩基のプローブである。一部の場合には、複数の目的の領域を標的化するために本方法を使用することができる。一部の場合には、本方法は、大規模な多重化PCRなどの別の方法と組み合わせて使用することができる。
一部の例では、二本鎖の出発DNAは末端修復されている。一部の例では、二本鎖の出発DNAはAテイル付加されている。一部の場合には、出発DNAは、「TA」ライゲーションを使用し、それによって、ヘアピンが、DNAの両側でヘアピンをプライミングし、ライゲーションするために使用されるTオーバーハングを含有することによって、ヘアピンと適合される。一部の場合には、ヘアピンはUを含有し、よって、ウラシルまたはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生成する酵素の混合物、例えば、Uracil DNA Glycosylase(UDG)およびEndonuclease VIIIという酵素などの混合物を使用してカットされ得る。一部の場合には、プローブを使用して、前記DNA構築物の3’末端をプライミングし、その結果、DNA構築物はここで、ROIの反対側でヘアピンに隣接する。一部の場合には、プローブは4塩基である。一部の場合には、オリゴはAPOBEC3A脱アミノ化から保護される。一部の場合には、オリゴヌクレオチドまたはアダプターは、例えば、APOBEC3A耐性塩基(例えば、hmC、fCまたはcaC)を含有することによって、APOBEC3A脱アミノ化から保護される。一部の場合には、オリゴヌクレオチド/アダプターの5’末端は、修飾された塩基(例えば、ホスホロチオエート誘導体)を含有することによってエキソヌクレアーゼ耐性である。一部の場合には、IlluminaシーケンシングアダプターがさらなるPCR処理においてアダプターに付加される。一部の場合には、元のPCRアダプターは、PCRハンドル配列およびIlluminaアダプターを含有する伸長したプライマーを含有する。一部の場合には、オリゴヌクレオチドまたはアダプターは、インデックスを含有してもよい。一部の場合には、オリゴヌクレオチドまたはアダプターは、プライミングされ、ヘアピンを置換しない鎖置換ネガティブポリメラーゼにより伸長される。一部の場合には、次いで、コピー鎖はヘアピンにライゲーションされる。一部の場合には、3’末端における潜在的ミスマッチはssDNA特異的エキソヌクレアーゼによりトリミングされ、fCまたはcaCなどのAPOBEC3A耐性塩基を使用して、ポリメラーゼにより相補配列が構築され得る。一部の場合には、エピジェネティックな塩基であるmCは、元の鎖からコピーされた鎖までにわたりコピーされ得る。一部の場合には、5hmCは、bGT酵素による処理によって脱アミノ化から保護され得る。一部の場合には、構築物をTETで処理し(bGTの存在下または非存在下で)、mCをfC、caCまたはghmCへと酸化させる。一部の場合には、APOBEC3AとヘリカーゼUvrDの組合せを使用してヘアピンが広げられる。一部の場合には、ROIはここで、脱アミノ化耐性PCRハンドルを使用して増幅することができる(図50、実施例18においてさらに記載される)。一部の場合には、複数の目的の領域を標的化するために本方法を使用することができる。一部の場合には、本方法は、大規模な多重化PCRなどの別の方法と組み合わせて使用することができる。
一部の実施形態では、ロングリード技術は、本明細書において提供される方法、例えば、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に組み込まれてもよい。例えば、第三世代シーケンシング(例えば、ロングリードシーケンシング)を使用して、合成ロングリードを生成するか(例えば、de novoアセンブリーおよびゲノムフィニッシングに適用するため)、難解なゲノム(例えば、高度反復エレメントのストレッチを含有するもの)をシーケンシングするか、または全ゲノムフェージング(例えば、共に受け継がれる対立遺伝子、ハプロタイプ情報、またはde novo相突然変異を同定するために)を実施することができる。一部の実施形態では、例えば、ロングリード技術はローリングサークル増幅(RCA)を組み込むことができる。ローリングサークル増幅は、DNAまたはRNAの複数のコピーを迅速に合成することができる一方向の核酸複製プロセスであってもよい。一部の実施形態では、RCAは少量から極少量の出発材料からDNAを増幅することができる。RCAは、ポリメラーゼによって、環状鋳型にアニーリングされたプライマーに単一のヌクレオチドが連続的に付加され得る等温核酸増幅技法であってもよい。一部の実施形態では、RCAは、数十から数百のタンデムリピートを含む可能性のある長いコンカテマー一本鎖DNA分子(ssDNA)をもたらし得る。このようなタンデムリピートは環状鋳型に対して相補的であってもよい。RCA反応において使用される構成成分には、DNAポリメラーゼ、ポリメラーゼと適合する好適な緩衝剤、短いDNAまたはRNAプライマー、環状DNA鋳型およびデオキシヌクレオチド三リン酸(dNTP)が含まれてもよい。RCAは、(1)鋳型媒介性酵素ライゲーション(例えば、T4 DNAリガーゼ)または特別なDNAリガーゼ(例えば、CircLigase)を使用する鋳型を含まないライゲーションによって行われ得る環状鋳型ライゲーション、(2)プライマー誘導型一本鎖DNA伸長、および(3)方法における増幅産物の使用を含むことができる1つまたは複数の操作を含んでもよい。本明細書において、RCAを用いて循環遊離DNA(cfDNA)を増幅することができるため、これはロングリードで読むことができ、同じcfDNA断片の複数のリードを可能にし得る。一部の実施形態では、これにより、極度のエラー補正が可能になり得る。このようなRCA法の使用の非限定的な例は、参照によりその全体が本明細書に組み込まれる、(Wilson BD, Eisenstein M, Soh HT. High-Fidelity Nanopore Sequencing of Ultra-Short DNA Targets. Anal Chem. 2019;91(10):6783-6789. doi:10.1021/acs.analchem.9b00856)において提供されている。
本明細書において、核酸分子は、ヌクレオチド鎖である可能性のある分子であってもよい。本明細書に記載の核酸分子は、リボ核酸(RNA)を含んでもよい。本明細書に記載の核酸分子は、デオキシリボ核酸(DNA)を含んでもよい。
ロングリード技術を、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に組み込むためにRCAを使用することができる方法の例は、図12において提供される。一部の実施形態では、図12に示されているように、RCAは、DNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法の後に実施することができる。一部の実施形態では、本方法は、DNA配列におけるシトシン、mC、およびhmCを区別および同定することの一部として、またはDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法のうちのいずれか2つの操作の間にRCAを実施するステップを含む。例えば、循環プライマーまたはパドロックプローブは、シーケンシングされるDNA鎖の5’末端および3’末端にアニーリングすることができるように適用され得る。RCAは、第1および第2のポリヌクレオチドを含む二本鎖DNAポリヌクレオチドの第1のポリヌクレオチド(例えば、フォワードまたはリバースポリヌクレオチド)および第2のポリヌクレオチド(例えば、同族ポリヌクレオチド)のn個のコピーを含む長いDNA配列を得るために実施することができる(例えば、psi29または別のポリメラーゼなどの任意の許容されるポリメラーゼを使用して)。一部の実施形態では、nは、少なくとも約2、少なくとも約5、少なくとも約10、少なくとも約20、少なくとも約30、少なくとも約40、少なくとも約50、少なくとも約100、少なくとも約500、または少なくとも約1000であってもよい。一部の実施形態では、nは、約5以下、約10以下、約20以下、約30以下、約40以下、約50以下、約100以下、約500以下、または約1000以下であってもよい。一部の実施形態では、nは、約2、約5、約10、約20、約30、約40、約50、約100、約500、約1000、またはいずれか2つの前述の値の間の範囲であってもよい。
一部の実施形態では、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法は、代替の方法とほぼ同じくらい良好であるかまたはそれよりも良好である変換率を生じ得る。変換率に関する計算は、例えば、図13の表に示されているようなものであってもよく、この表は、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定する方法を使用する実験において、小脳ゲノムDNAと並んだ166ヌクレオチドのスパイクイン対照からのデータを使用して埋めた。注目すべきことに、一部の実施形態では、Aに関するコールの精度パーセントは少なくとも約97.5%であってもよく、Cに関するコールの精度パーセントは少なくとも約95.6%であってもよく、Gに関するコールの精度パーセントは少なくとも約97.1%であってもよく、Tに関するコールの精度パーセントは少なくとも約98.4%であってもよく、mCに関するコールの精度パーセントは少なくとも約80.8%であってもよく、hmCに関するコールの精度パーセントは少なくとも約84.5%であってもよく、非CpGコンテキスト内のメチル化に関するコールの精度パーセントは少なくとも約83.4%であってもよい。一部の実施形態では、Aに関するコールの精度パーセントは少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;Cに関するコールの精度パーセントは少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;Gに関するコールの精度パーセントは少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約97.5%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;Tに関するコールの精度パーセントは少なくとも約80%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約98.5%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;mCに関するコールの精度パーセントは少なくとも約80%、少なくとも約82.5%、少なくとも約85%、少なくとも約87%、少なくとも約89%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;hmCに関するコールの精度パーセントは少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよく;非CpGコンテキスト内のメチル化に関するコールの精度パーセントは少なくとも約80%、少なくとも約84%、少なくとも約85%、少なくとも約86%、少なくとも約90%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、またはそれよりも高いパーセントであってもよい。一部の実施形態では、スパイクイン合成では不正確さが疑われる場合がある。一部の実施形態では、本方法は、上記に提示される1つまたは複数のコールの種類に対してより高い精度パーセントを得るためにさらに最適化され得る。
図14は、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に供されるDNA分子の第1のポリヌクレオチドおよび第2のポリヌクレオチドからのシーケンシングデータを示す。ここで、塩基コール精度の平均値および測定値を、76を超える異なるライブラリー調製物において報告する。ここで、CpG(n=76)に関する塩基コーリング精度は約85.2%(99%)であり、mC(n=76)に関する塩基コール精度は約88.3%(94%)であり、hmC(n=76)に関する塩基コーリング精度は約87.8%(93%)であった。図14に示されている全ゲノム小脳およびゲノムDNA(gDNA)実験におけるスパイクインに関する塩基コーリング精度は、5-メチルシトシン(mC)に関して90.5%の精度、5-ヒドロキシメチルシトシン(hmC)に関して89.3%の精度、(例えばメチル化されていない)シトシンに関して97.2%の精度を反映した。一部の場合には、mCに関する塩基コール精度は、85%を超えるか、87%を超えるか、または90%を超えていてもよい。一部の場合には、hmCに関する塩基コール精度は、85%を超えるか、87%を超えるか、89%を超えるか、または90%を超えていてもよい。括弧内のラムダファージ(対照)に関する精度の平均値のパーセンテージと共に、DNA試料に関する精度の平均値に関するパーセンテージを報告する。ラムダファージのmC変換率は約93.5%であった。一部の実施形態では、合成プローブ内のエラーの低減はmC変換率を改善し得る。
図27は、シーケンシング中を含む、本明細書に記載の実施形態において抑制されないミスコールをもたらす可能性のある増幅(例えば、PCR)またはシーケンシング中のG→AおよびA→Gエラーの例を示す。図27において示される例では、上のライン(標識された参照ゲノム)は真の塩基を示す。次の2つのライン(列挙されたゲノムヘアピン)は変換化学(例えば、バイサルファイト処理、APOBEC+ヘリカーゼ)後の真の塩基に由来するヘアピンの塩基を示す。下のライン(標識されたコール)は、ヘアピンがシーケンシングされ、ペアエンドリードが分解された後に(例えば、いずれかのゲノムアライメントの前に)ヘアピンからコールされる塩基を示す。
ヘアピンのラインでは:真の塩基、例えば、Aに対して、正しい対合(例えば、A/T)が示され(白丸で)、それに続いて、ヘアピンのいずれかの鎖の鎖コピー、増幅(例えばPCR)またはシーケンシング(黄色の丸)中に導入され得るあらゆる一塩基エラーの可能性(例えば、A/TはC/T G/T、T/T、A/A、A/C、A/Gに様々に変化する)が示されている。この例では、一塩基エラーがヘアピンに導入される可能性のある24の場合のうちの19によって、存在しない塩基対(例えば、A/A)がもたらされ、エラーとコールされる。一塩基エラーの可能性のある24個のうちの4個が、正しい塩基が別の塩基とコールされるミスコールをもたらす。これらのうちの2つはAをGに変更するエラーの結果であり、他の2つはGをAに変更するエラーである。これらは、真のA塩基がGとコールされるか、真のG塩基がAとミスコールされるか、真のC塩基がTとミスコールされるか、または真のT塩基がCとミスコールされるかのいずれかをもたらす。24の可能性のうちの1つはTをCに変更するエラーであり、真の塩基である修飾されていないCが修飾されたCとコールされる結果となり得る。任意の他の種類のミスコール(例えば、A→C)は、ヘアピンに導入された2つのエラー(例えば、A/T→T/G)に起因する可能性がある。
一部の実施形態では、塩基またはメチル化された塩基の出現パーセントは、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法のインプリメンテーション後に計算することができる。例えば(例えば、図15において提示されている実験データによって実証されているように)、全ゲノムgDNAは、参照によりその全体が本明細書に組み込まれる、(Field SF, Beraldi D, Bachman M, Stewart SK, Beck S, Balasubramanian S. Accurate measurement of 5-methylcytosine and 5-hydroxymethylcytosine in human cerebellum DNA by oxidative bisulfite on an array (OxBS-array). PLoS One. 2015;10(2):e0118202. Published 2015 Feb 23. doi:10.1371/journal.pone.0118202)に記載されているようにヒト小脳試料から調製され、本明細書において提供されるDNA配列におけるシトシン、mC、およびhmCを区別および同定するための方法に供された。対照として、gDNAは質量分析による全体的な測定にも供される。この試料では、塩基の28.5%がAとして同定され、塩基の28.2%がTとして同定され、塩基の19.69%がGとして同定され、塩基の17.83%がCとして同定され、塩基の0.93%がmCとして同定され、塩基の0.33%がhmCとして同定され、4.52の塩基が他の塩基として同定された。ここで、質量分析法によって、試料中のシトシンの4.9%がmCとして、試料中のシトシンの1.14%がhmCとして同定されたが、本明細書において提供される方法では、試料中のシトシンの5.2%がmCとして、試料中のシトシンの1.8%がhmCとして同定された。一部の実施形態では、データは、対照におけるスパイクをフィルタリングして取り除くことによってさらに補正することができる(例えば、スパイクイン対照の存在に起因する過大評価に対して)。
一部の実施形態では、DNA修飾を独立して測定することによって、サンプリングまたは技術的エラー/変動性の管理の増加がもたらされ得る。独立した実験は、一部の場合には、メチル化レベルの一貫しない推定をもたらした(例えば、デュアルワークフロー)。本明細書において提供される方法は、別の方法と比較して、同様のシーケンシング体積に対するサンプリングまたは技術的変動性を低下させることができる。例えば、デュアルワークフロー方法を使用することによって、5hmCの推定から+/-0.12(IQR 0.2)の標準偏差がもたらされる場合があるが、本明細書において提供される方法では、同じ試料に関して、5hmCの推定に対して+/-0.06(IQR 0.07)の標準偏差がもたらされる場合がある。このデータは図16に示されており、左のパネルにおいてデュアル方法のシミュレーションに関するデータが示され、右のパネルにおいて本明細書において提供される方法のシミュレーションに関するデータが示されている。デュアル方法のシミュレーションは、BetaBinomial分布による技術的変動性と組み合わされたOxBSおよびWGBSサンプリングのシミュレーションを含んだ。本明細書において提供される方法のシミュレーションは、本明細書において提供される方法およびDirichletの多項分布による技術的変動性のシミュレーションを含んだ。シミュレーションにおけるシトシン残基の真のレベルは、5mC=-.7、5hmC=0.1、およびC=0.2であった。技術的変動性は、両アッセイに関して同じであると仮定した。プロットの箱ひげ図は、5および95パーセンタイルを示す。
一部の実施形態では、1つまたは複数のバーコード(例えば、1つまたは複数の一意の分子識別子、UMI)を含む1つまたは複数のポリヌクレオチドを本明細書において提示される方法およびシステム(例えば、2塩基シーケンシングを含む)において使用することができる。例えば、1つまたは複数の一意のバーコードを第1のポリヌクレオチドに結合させ、1つまたは複数の一意のバーコードを第2のポリヌクレオチド(および/またはリードポリヌクレオチド)に結合させることができる。一部の場合には、例えば、第1および第2のポリヌクレオチド(そして例えば、リードポリヌクレオチド)にバーコードをタグ付けした場合(例えば、バーコードをポリヌクレオチドにライゲーションすることによって)、本明細書に開示される方法(例えば、2塩基シーケンシング方法)は、第1および第2のポリヌクレオチドをヘアピンなどの別の構造と連結させることなく実施することができる。一部の場合には、シーケンシングアダプター(またはヘアピンポリヌクレオチド)はバーコード(例えば、UMI)を含んでもよい。一部の場合には、バーコードは、ヘアピンポリヌクレオチド(または他のポリヌクレオチド構造)をライゲーションし、次いで、バーコードを含まないヘアピンまたは他のポリヌクレオチド構造の一部を除去(例えば、酵素的に)することによって、第1、第2、および/またはリードポリヌクレオチドに設置することができる。
一部の場合には、第1のポリヌクレオチドと第2のポリヌクレオチドの間の連結は、例えば、バーコード化の形態の(例えば、図22に示されているように)情報の連結を含んでもよい。一部の場合には、バーコード(例えば、一意の分子識別子、UMI)を含む1つまたは複数のヘアピンポリヌクレオチドをフォワードポリヌクレオチドおよび/またはリバースポリヌクレオチドにライゲーションすることができる(例えば、ここで、フォワードおよび/またはリバースポリヌクレオチドは、試料から得ることができる元のポリヌクレオチドであってもよい)。図22に示されているように、5’末端に第1のUMI核酸配列および3’末端に第2のUMI核酸配列を含むヘアピンポリヌクレオチドは、フォワードおよびリバースポリヌクレオチドを含む二本鎖DNAポリヌクレオチドにライゲーションすることができる。一部の場合には、ヘアピンポリヌクレオチドは、アダプターポリヌクレオチド配列をさらに含む(例えば、図22に示されているように、ここで、ヘアピンポリヌクレオチドはヘアピンの3’末端にp7アダプター配列を含む)。ヘアピンポリヌクレオチドは、ヘアピンポリヌクレオチドの5’末端とそれに含まれるアダプター配列(例えば、図22に示されているp7アダプター)の5’末端の間にウラシル残基をさらに含んでもよい。一部の場合には、ヘアピンポリヌクレオチドは切断されてもよい(例えば、ウラシルまたはデオキシウラシルが存在した場所に単一のヌクレオチドギャップを生成する酵素の混合物、例えば、Uracil DNA Glycosylase(UDG)およびEndonuclease VIIIという酵素などの混合物によるヘアピンポリヌクレオチドのウラシル残基の消化によって酵素的に)。ヘアピンポリヌクレオチドの切断によって、フォワードおよびリバースポリヌクレオチドの3’および5’末端においてバーコード(例えば、UMI)を含む二本鎖DNAポリヌクレオチドのフォワードポリヌクレオチドおよびリバースポリヌクレオチドがもたらされる可能性があり、ここで、フォワードおよびリバースポリヌクレオチドはヘアピンポリヌクレオチドによってもはや繋がれ(例えば、連結され)ていない。フォワードおよび/またはリバースポリヌクレオチドのアダプター配列(例えば、p7アダプター配列)を認識するプライマー(例えば、p7R配列を含むオリゴヌクレオチド)をアダプター配列にハイブリダイズし、フォワードおよび/またはリバースポリヌクレオチドのアンプリコン(例えば、第2のポリヌクレオチド)の作成に使用することができる(例えば、鎖置換PCR技法を使用して)。一部の場合には、アンプリコン(例えば、第2のポリヌクレオチド)は、例えば、鋳型としてフォワードまたはリバースポリヌクレオチドを使用するPCR伸長の結果として、バーコード(例えば、UMI)を含むことができる(例えば、ここで、フォワードまたはリバースポリヌクレオチドは、例えば、フォワードおよび/またはリバースポリヌクレオチドの5’および/または3’末端に1つまたは複数のバーコードを含む)。一部の場合には、第1のポリヌクレオチド(例えば、フォワードおよび/またはリバースポリヌクレオチド)のバーコードは保護されたバーコード(例えば、図22に示されている保護されたUMI)である。一部の場合には、フォワードおよび/またはリバースポリヌクレオチド(例えば、第2のポリヌクレオチド)のアンプリコンのバーコードは保護されていない。一部の場合には、フォワードおよび/またはリバースポリヌクレオチド(例えば、第1のポリヌクレオチド)およびフォワードおよび/またはリバースポリヌクレオチド(例えば、第2のポリヌクレオチド)のアンプリコンを第1および第2のポリヌクレオチドを処理するために本明細書において提示される方法および/または方法の個々の操作に供することができる(例えば、ここで、方法および/または方法の個々の操作は、本明細書において提示される5または6文字シーケンシング技法にとって有用である)。一部の場合には、シーケンシングアダプタープローブ(例えば、図22に示されている、それぞれ第1または第2のポリヌクレオチドの一部にハイブリダイズすることが可能なp5またはp5Rシーケンシングアダプター)を使用して、アダプタープローブを伸長させることができる(例えば、PCRによって)。一部の場合には、追加の回のPCRまたは追加のコピー操作が実施され、例えば、ここで、生成されたアンプリコンはp5アダプター配列を含み、これはコピー鎖の変換されたUMI(例えば、保護されていないUMIで実施される処理操作中に変換され得る)を用いてシーケンシングされ得る。第1および第2のポリヌクレオチドならびに/またはコピー鎖(例えば、リードポリヌクレオチドを含んでもよい)のバーコード(UMI)は対合されてもよい。一部の場合には、断片化パターン(例えば、フォワードおよび/またはリバースポリヌクレオチドの)をUMIバーコードと一緒に使用して、解析されたポリヌクレオチド鎖に情報に基づいて連結および/または対合させることができる。一部の場合には、比較的少ない数のバーコード(UMI)を使用して、例えば本明細書に記載されているように、情報に基づいてポリヌクレオチドを適切に連結させる。
本明細書において提示される2塩基シーケンシング方法、システム、およびワークフローには、例えば、RNAシーケンシングアッセイにおける精度および効率の改善を達成するために、RNA解析を組み込むことができる。多くの場合には、RNA分子(例えば、液体生検または細胞溶解物試料など、患者からの試料に由来する)を逆転写酵素(またはその生物学的に活性な断片もしくは誘導体)と接触させて、DNA分子(例えば、cDNA分子)を生成することによって、第1のポリヌクレオチドを生成することができる。一部の場合には、本明細書において提供される方法、システム、および組成物におけるRNAの使用によって、遺伝子発現、対象または組織の様々な生理学的状況(例えば、状態)におけるDNAスプライシング(例えば、疾患状況における選択的DNAスプライシング、特に突然変異を含むもの)への情報などの、DNA解析によって提供されない可能性のある遺伝子および分子の詳細への洞察が可能になる可能性がある。
一部の場合には、Phred品質スコアを計算して、本明細書において提供される方法およびシステムの使用中に塩基同定の質を評価することができる。一部の場合には、Phred品質スコアの計算は、2塩基シーケンシング中に生じた2つのPhred品質スコアを解明することに関与する。
本明細書において提示される方法およびシステムは、多くの種類のシーケンシングと適合し、その精度および効率に対して大きな利益をもたらす。例えば、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシング(例えば、次世代シーケンシング(NGS)/第二世代シーケンシング(例えば、ショートリードシーケンシング)または第三世代シーケンシング(例えば、ロングリードシーケンシング)を本明細書に開示される方法およびシステムと併せて使用することができる。
本明細書において提示される方法およびシステム(2塩基シーケンシングを含む)は、対象由来の試料のポリヌクレオチドにおける突然変異を正確に決定する(例えば、同定する)のに有用であり得る。本明細書に記載されるように、突然変異を決定することは、例えば、シーケンシング方法を使用して、塩基(例えば、アデニン、シトシン、チミン、グアニン、5-メチルシトシン、5-ヒドロキシメチルシトシン、メチル化されたシトシン(例えば、アデニン、チミン、グアニン、またはメチル化されていないシトシンとは対照的に))のアイデンティティーを決定することを含んでもよい。多くの場合には、対象の状態(例えば、生理学的状態、例えば、病態(例えば、疾患状況))は、本明細書において提示される方法、システム、組成物を使用して決定される塩基の値(例えば、アイデンティティー)に少なくとも部分的に基づいて決定(例えば、診断)することができる。一部の場合には、対象の状態は、本明細書において提示される方法、システム、および/または組成物を使用して決定されるポリヌクレオチド(例えば、対象から得られた試料に由来する)の塩基の値(例えば、アイデンティティー)に少なくとも部分的に基づいて決定される突然変異に基づいて決定(例えば、診断)される。
一部の場合には、対象の状態は、神経変性疾患のもの(例えば、有無)(または神経変性疾患に関するリスクの増減)である。一部の実施形態では、神経変性状態は、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択されてもよい。
一部の場合には、対象の状態は、がんまたは腫瘍(例えば、その有無)である。一部の場合には、状態は、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される。一部の場合には、状態は以下から選択される:腺癌、副腎皮質癌、副腎神経芽細胞腫、肛門扁平上皮癌、虫垂腺癌、膀胱尿路上皮癌、胆管腺癌、膀胱癌、膀胱尿路上皮癌、骨脊索腫、リンパ球性慢性骨髄白血病、非リンパ球性急性骨髄球性骨髄白血病、骨髄リンパ増殖性疾患、骨髄多発性骨髄腫、骨肉腫、脳星細胞腫、脳神経膠芽腫、脳髄芽腫、脳髄膜腫、脳乏突起膠腫、乳房腺様嚢胞癌、乳癌、非浸潤性乳管癌、乳房浸潤性乳管癌、乳房浸潤性小葉癌、乳房化生性癌、子宮頸部神経内分泌癌、子宮頸部扁平上皮癌、結腸腺癌、結腸カルチノイド腫瘍、十二指腸腺癌、子宮内膜性腫瘍、食道腺癌、食道および胃癌、眼内黒色腫、眼内扁平上皮癌、眼涙管癌、ファロピウス管漿液性癌、胆嚢腺癌、胆嚢グロムス腫瘍、胃食道接合部腺癌、頭頸部腺様嚢胞癌、頭頸部癌、頭頸部神経芽細胞腫、頭頸部扁平上皮癌、腎臓色素嫌性癌、腎髄様癌、腎細胞癌、腎乳頭癌、腎肉腫様癌、腎尿路上皮癌、腎癌、リンパ球性白血病、慢性リンパ球性白血病、肝臓胆管癌、肝細胞癌、肝癌、肺腺癌、肺腺扁平上皮癌、肺非定型カルチノイド、肺癌肉腫、肺大細胞神経内分泌癌、肺非小細胞肺癌、肺肉腫、肺肉腫様癌、肺小細胞癌、肺小細胞未分化癌、肺扁平上皮癌、上気道消化管扁平上皮癌、上気道消化管癌、びまん性大細胞型B細胞リンパ節リンパ腫、リンパ節リンパ腫濾胞性リンパ腫、縦隔B細胞リンパ節リンパ腫、リンパ節リンパ腫形質芽球性肺腺癌、リンパ腫濾胞性リンパ腫、リンパ腫、非ホジキン、上咽頭および副鼻腔未分化癌、卵巣癌、卵巣癌肉腫、卵巣明細胞癌、卵巣上皮癌、卵巣顆粒膜細胞腫瘍、卵巣漿液性癌、膵臓癌、膵管腺癌、膵臓神経内分泌癌、腹膜中皮腫、腹膜漿液性癌、胎盤絨毛癌、胸膜中皮腫、前立腺腺房腺癌、前立腺癌、直腸腺癌、直腸扁平上皮癌、皮膚付属器癌、皮膚基底細胞癌、皮膚黒色腫、皮膚メルケル細胞癌、皮膚扁平上皮癌、小腸腺癌、小腸消化管間質腫瘍(GIST)、大腸/結腸癌、大腸腺癌、軟組織血管肉腫、軟組織ユーイング肉腫、軟組織血管内皮腫、軟組織炎症性筋線維芽細胞腫瘍、軟組織平滑筋肉腫、軟組織脂肪肉腫、軟組織神経芽細胞腫、軟組織傍神経節腫、軟組織血管周囲類上皮細胞腫瘍、軟組織肉腫、軟組織滑膜肉腫、胃腺癌、びまん型胃腺癌、腸型胃腺癌、胃平滑筋肉腫、胸腺癌、リンパ球性胸腺腫、甲状腺乳頭癌、原発不明腺癌、原発不明癌、原発不明悪性新生物、リンパ様新生物、原発不明黒色腫、原発不明肉腫様癌、原発不明扁平上皮癌、未知未分化神経内分泌癌、原発不明未分化小細胞癌、子宮癌肉腫、子宮内膜腺癌、類内膜性子宮内膜腺癌、乳頭漿液性子宮内膜腺癌、および子宮平滑筋肉腫。
PCRを含まないワークフローを含む方法も本明細書において提供される。このような方法は、DNA配列におけるシトシン、mC、およびhmCを区別および同定するために用いられてもよい。PCRを含まない方法を、組み込むことができるかまたは本明細書において提供される方法と組み合わせることができるワークフローに組み込むことの非限定的な例は、参照によりその全体が本明細書に組み込まれ、図17の左のパネルにおいて例示されている(McInroy GR, Beraldi D, Raiber E-A, Modrzynska K, van Delft P, Billker O, et al. (2016) Enhanced Methylation Analysis by Recovery of Unsequenceable Fragments. PLoS ONE 11(3): e0152322. https://doi.org/10.1371/journal.pone.0152322)に記載されている。このような方法は、ビオチンタグの使用を採用してもよく、図17の右のパネルに示されているように、本明細書において提供される方法の操作後にDNA鎖の変性を含んでもよい。
ここで、DNAなどの核酸分子は、グアニン(G)、アデニン(A)、チミン(T)、ウラシル(U)、シトシン(C)、または相補的ヌクレオチドと確実に塩基対合することが可能である塩基を含んでもよい。このような塩基の例は、7-デアザ-アデニン、7-デアザ-グアニン、アデニン、グアニン、シトシン、チミン、ウラシル、2-デアザ-2-チオ-グアノシン、2-チオ-7-デアザ-グアノシン、2-チオ-アデニン、2-チオ-7-デアザ-アデニン、イソグアニン、7-デアザ-グアニン、5,6-ジヒドロウリジン、5,6-ジヒドロチミン、キサンチン、7-デアザ-キサンチン、ヒポキサンチン、7-デアザ-キサンチン、2,6ジアミノ-7-デアザプリン、5-メチル-シトシン、5-ヒドロキシメチルシトシン、5-プロピニル-ウリジン、5-プロピニル-シチジン、2-チオ-チミンまたは2-チオ-ウリジンである。オリゴヌクレオチドは、例えば、LNA、PNA、UNA、またはモルホリノオリゴマーを含んでもよい。本明細書において使用されるオリゴヌクレオチドは、天然または非天然のヌクレオチドまたは連結を含有してもよい。
ある態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、b)脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、c)シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でシトシン塩基を同定するステップとを含む。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。
一部の実施形態では、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、(c)は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。
一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、本方法は、核酸伸長反応においてフォワード鎖を使用して、二本鎖ポリヌクレオチドを生成するステップをさらに含む。一部の実施形態では、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、(c)は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、(c)は、シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でシトシン塩基をシトシン塩基として同定することを含む。
一部の実施形態では、フォワード鎖はメチル化されたシトシン塩基を含み、本方法は、(i)メチル化されたシトシン塩基を含むフォワード鎖および(ii)シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応においてフォワード鎖を使用することをさらに含む。一部の実施形態では、本方法は、メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。
一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基であり、変換するステップは、メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、ヒドロキシメチルシトシン塩基をグルコシル化条件に供してグルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、変換するステップは、ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、グルコシル化されたヒドロキシメチルシトシンを生成することを含む。
一部の実施形態では、脱アミノ化するステップは、デアミナーゼを用いて実施される。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、(c)は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む。
別の態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を、デアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、b)脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、c)シーケンシングデータを処理して、シトシン塩基を同定するステップとを含む。
一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、本方法は、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、分離するステップは、フォワード鎖を、二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、シトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、(c)は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。一部の場合には、フォワード鎖はメチル化されたシトシン塩基を含み、分離するステップは、(i)メチル化されたシトシン塩基を含むフォワード鎖および(ii)シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応においてフォワード鎖を使用することを含む。一部の実施形態では、本方法は、メチル化されたシトシン塩基をグルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む。一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基であり、変換するステップは、メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、ヒドロキシメチルシトシン塩基をグルコシル化条件に供してグルコシル化されたヒドロキシメチルシトシンを生成することを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシンであり、変換するステップは、ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、グルコシル化されたヒドロキシメチルシトシンを生成することを含む。
一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同なアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の実施形態では、本方法は、脱アミノ化されたシトシン塩基を含む二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、その二本鎖の誘導体を生成するステップをさらに含み、ここで、(c)は、その二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得ることを含む。
本開示のさらなる態様はキットを提供する。キットは、デアミナーゼ、ヘリカーゼ、およびパッケージ、およびその中の、キットを使用するための命令を含んでもよい。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、キットは、メチルシトシンジオキシゲナーゼをさらに含む。一部の実施形態では、メチルシトシンジオキシゲナーゼは、テンイレブントランスロケーション(TET)酵素またはその断片を含む。一部の実施形態では、TET酵素は、TET1、TET2またはTET3である。一部の実施形態では、キットは、デオキシリボ核酸(DNA)グルコシルトランスフェラーゼをさらに含む。一部の実施形態では、DNAグルコシルトランスフェラーゼは、DNAベータ-グルコシルトランスフェラーゼを含む。一部の実施形態では、キットは、DNAメチルトランスフェラーゼをさらに含む。一部の実施形態では、DNAメチルトランスフェラーゼは、DNAメチルトランスフェラーゼ1(DNMT1)を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
別の態様では、本開示は、シトシン塩基を同定するための方法を提供する。本方法は、a)シトシン塩基を含むポリヌクレオチドを、シトシン塩基をシトシン塩基に由来する変更された塩基に集合的に転換する1つまたは複数の試薬と接触させ、それによって、変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、b)変更された塩基を含む修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、30倍以下、25倍以下、20倍以下、15倍以下、または10倍以下、5倍以下、または2倍以下のカバレッジを有するシーケンシングデータを得るステップと、(c)シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でシトシン塩基をシトシンとして同定するステップとを含む。
一部の実施形態では、修飾されたポリヌクレオチドまたはその誘導体は、二本鎖ポリヌクレオチドである。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、シトシン塩基はメチル化されたシトシン塩基である。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でメチル化された塩基をシトシンとして同定するステップをさらに含む。
一部の実施形態では、1つまたは複数の試薬は、酸化剤を含む。一部の実施形態では、酸化剤は、テンイレブントランスロケーション(TET)酵素またはその断片を含む。一部の実施形態では、TET酵素は、TET1、TET2またはTET3である。一部の実施形態では、1つまたは複数の試薬は、DNA-グルコシルトランスフェラーゼを含む。一部の実施形態では、1つまたは複数の試薬はデアミナーゼを含む。一部の実施形態では、デアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である。一部の実施形態では、1つまたは複数の試薬はヘリカーゼを含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。一部の実施形態では、1つまたは複数の試薬は、DNAメチルトランスフェラーゼを含む。
一部の実施形態では、本方法は、ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む。一部の実施形態では、本方法は、フォワード鎖をリバース鎖から分離するステップをさらに含む。一部の実施形態では、分離するステップは、フォワード鎖を、ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む。
一部の実施形態では、メチル化された塩基はメチル化されたシトシン塩基である。一部の実施形態では、1つまたは複数の試薬はデアミナーゼおよびヘリカーゼを含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含む。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。一部の実施形態では、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でメチル化されたシトシン塩基をシトシンとして同定するためのシーケンシングデータ。
一部の実施形態では、ポリヌクレオチドはポリヌクレオチドの集団に由来し、ここで、ポリヌクレオチドの集団におけるメチル化されたシトシン塩基の塩基頻度は、所与の座位において、75%未満であるかもしくはそれに等しく、70%未満であるかもしくはそれに等しく、65%未満であるかもしくはそれに等しく、60%未満であるかもしくはそれに等しく、55%未満であるかもしくはそれに等しく、50%未満であるかもしくはそれに等しく、45%未満であるかもしくはそれに等しく、40%未満であるかもしくはそれに等しく、35%未満であるかもしくはそれに等しく、30%未満であるかもしくはそれに等しく、25%未満であるかもしくはそれに等しく、20%未満であるかもしくはそれに等しく、15%未満であるかもしくはそれに等しく、10%未満であるかもしくはそれに等しく、7%未満であるかもしくはそれに等しく、5%未満であるかもしくはそれに等しく、3%未満であるかもしくはそれに等しく、または1%未満であるかもしくはそれに等しい、またはそれ未満である。
一部の実施形態では、メチル化されたシトシン塩基は、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む。一部の実施形態では、メチル化されたシトシン塩基はメチルシトシン塩基を含み、1つまたは複数の試薬は、本明細書の他の箇所に提供されるような試薬の例を含め、酸化剤、DNAグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の実施形態では、メチル化されたシトシン塩基はヒドロキシメチルシトシン塩基を含み、1つまたは複数の試薬は、本明細書の他の箇所に提供されるような試薬の例を含め、酸化剤、DNAグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む。一部の実施形態では、シーケンシングするステップは、二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む。
一部の実施形態では、シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定する。一部の実施形態では、本方法は、シーケンシングデータを処理して、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度でメチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む。
本明細書に記載の組成物を本明細書に記載の方法において利用して、所与の座位における塩基を検出および同定し、塩基のメチル化または他の修飾状況も検出および同定することができる。例えば、本明細書に記載の方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で、所与の座位における塩基を同定するために実行することができる。さらに、本明細書に記載の方法は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で、メチル化された(例えば、メチル化されたシトシン、例えば、メチルシトシン、ヒドロキシメチルシトシン)またはメチル化されたかもしくは他の方法で修飾された他の修飾された塩基を同定するために実行することができる。
本明細書に記載の組成物を本明細書に記載の方法において利用して、30倍以下、25倍以下、20倍以下、15倍以下、または10倍以下、5倍以下、または2倍以下のシーケンシングカバレッジで、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で、塩基のメチル化または他の修飾状況を検出および同定することができる。
本明細書の他の箇所に記載されているように、記載された方法および組成物は、高い精度で核酸集団の座位において比較的低頻度の修飾された(例えば、メチルシトシンおよびヒドロキシメチルシトシンを含むメチル化されたシトシン塩基)塩基を検出する際に有用である場合がある。このようなメチル化された塩基は、所与の座位において比較的稀な頻度で出現し得る。一部の実施形態では、検出および同定された修飾された塩基は、ポリヌクレオチドの集団の所与の座位において、75%未満であるかもしくはそれに等しい、70%未満であるかもしくはそれに等しい、65%未満であるかもしくはそれに等しい、60%未満であるかもしくはそれに等しい、55%未満であるかもしくはそれに等しい、50%未満であるかもしくはそれに等しい、45%未満であるかもしくはそれに等しい、40%未満であるかもしくはそれに等しい、35%未満であるかもしくはそれに等しい、30%未満であるかもしくはそれに等しい、25%未満であるかもしくはそれに等しい、20%未満であるかもしくはそれに等しい、15%未満であるかもしくはそれに等しい、10%未満であるかもしくはそれに等しい、7%未満であるかもしくはそれに等しい、5%未満であるかもしくはそれに等しい、3%未満であるかもしくはそれに等しい、または1%未満であるかもしくはそれに等しい、またはそれ未満である塩基頻度を有する。このような修飾された塩基は、少なくとも約50%、少なくとも約55%、少なくとも約60%、少なくとも約65%、少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約95%、少なくとも約99%、少なくとも約99.9%、少なくとも約99.99%、少なくとも約99.999%、少なくとも約99.9999%の精度で、またはそれより高い精度で検出および同定され得る。
本明細書に記載の方法は、脱アミノ化操作においてデアミナーゼとの組合せを含めて、ヘリカーゼを用いることができる。このようなヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片のアミノ酸配列と少なくとも約70%、少なくとも約75%、少なくとも約80%、少なくとも約85%、少なくとも約90%、少なくとも約93%、少なくとも約95%、少なくとも約97%、または少なくとも約99%相同であるアミノ酸配列を含んでもよい。一部の実施形態では、ヘリカーゼは、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片である。
本明細書に記載の方法ではデアミナーゼが用いられてもよい。一部の場合には、デアミナーゼはシチジンデアミナーゼである。シトシンデアミナーゼは、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素(例えば、APOBEC3A)、またはその断片であってもよい。
(実施例1)
2塩基シーケンシングのためのポリヌクレオチドの調製
本実施例は、ヘアピン二本鎖DNA構築物を使用して、シーケンシングのためにポリヌクレオチドを調製する方法を示す。無細胞DNA(cfDNA)の解析のため、末梢血の10ミリリットル(ml)試料を患者から採取し、2000×gで15分間遠心分離し、cfDNAを含む血漿画分を収集する。目的のcfDNAポリヌクレオチド(例えば、第1のポリヌクレオチド)の3’末端に相補的な50bp標的化配列を含むヘアピンポリヌクレオチド、および目的のcfDNAポリヌクレオチドの5’末端に相補的な50bp標的化配列を含む3’シーケンシングアダプターを、収集されたcfDNAと混合し、cfDNAポリヌクレオチドの捕捉に使用する。5’シーケンシングアダプターを、cfDNAの5’末端にオーバーハングする3’シーケンシングアダプターの一部分にハイブリダイズさせ、Sulfolobus DNAポリメラーゼIVを使用して、5’シーケンシングアダプターおよびcfDNAポリヌクレオチドの間のギャップをフィリングする。プライマーとしてのヘアピンポリヌクレオチドの3’末端およびcfDNAポリヌクレオチド(例えば、鋳型としての第1のポリヌクレオチド)を使用して、DNAポリメラーゼを使用して、第2のポリヌクレオチドを創出する(例えば、図5に示す通り)。
ゲノムDNAが使用される場合、二本鎖DNAポリヌクレオチド(フォワードポリヌクレオチドおよびリバースポリヌクレオチドを含む)を細胞試料から抽出し、断片化する。Tn5トランスポザーゼならびにヘアピンの5’および3’末端にTn5トランスポザーゼ結合部位を含むヘアピンポリヌクレオチドを使用して、ゲノムDNAのタグメンテーションを行って、2つのヘアピンポリヌクレオチドおよび2つの第1のポリヌクレオチド(例えば、フォワードポリヌクレオチドおよびリバースポリヌクレオチド)を含む二本鎖DNAポリヌクレオチドを形成する(例えば、図10に示す通り)。あるいは、ヘアピンポリヌクレオチドを、ハイブリダイズされた第1のポリヌクレオチドを含む二本鎖DNAポリヌクレオチドに直接的にライゲーションして、2つのヘアピンポリヌクレオチドを含む二本鎖DNAポリヌクレオチドを形成する(例えば、図19A、または図19Bの操作1001および1002に示す通り)。
ヘアピンポリヌクレオチドの3’末端において二本鎖ポリヌクレオチドを酵素により切断して、第1のポリヌクレオチド(例えば、それぞれフォワードポリヌクレオチドおよびリバースポリヌクレオチド)およびヘアピンポリヌクレオチドを含む2つのポリヌクレオチドを得る(例えば、図19A、または図19Bの操作1003、または図19Cの操作1に示す通り)。プライマーとしてのヘアピンポリヌクレオチドの遊離3’末端および鋳型としての第1のポリヌクレオチドを使用したポリメラーゼ連鎖反応を行うことにより、第2のポリヌクレオチド(例えば、同族ポリヌクレオチド)を生成する(例えば、図19A、図19Bの操作1004、および図19Cの操作1に示す通り)。次に、化学的処理の前に、シーケンシングアダプターを第1のポリヌクレオチドの5’末端および第2のポリヌクレオチドの3’末端にライゲーションする(例えば、実施例3~11、図1B、ならびに図19Bの操作1005および1006に提示する通り)。あるいは、化学的処理の後に、シーケンシングアダプターを第1のポリヌクレオチドの5’末端および第2のポリヌクレオチドの3’末端にライゲーションする(例えば、実施例3~11、図1A、図19Bの操作1005および1006、ならびに図19Cの操作2~4に提示する通り)。
ヘアピンポリヌクレオチド、第1のポリヌクレオチド(例えば、フォワードまたはリバースポリヌクレオチド)、第2のポリヌクレオチド(例えば、同族ポリヌクレオチド)、ならびに5’および3’シーケンシングアダプターを含む二本鎖ポリヌクレオチドは、融解によって開くことができる。一部の場合には、二本鎖ポリヌクレオチド(例えば、ヘアピンポリヌクレオチドありまたはなしの)の第1のポリヌクレオチドは、酵素により、例えば、ヘリカーゼを使用して分離することができる。第1および第2のポリヌクレオチドは、開かれた構築物においてポリメラーゼ連鎖反応に供して、第2のポリヌクレオチドに相補的なポリヌクレオチド(例えば、リードポリヌクレオチド)を含むポリヌクレオチドを生成することができる(例えば、図19Dに示す通り)。第1のポリヌクレオチド(例えば、リード1)およびリードポリヌクレオチド(例えば、リード2)をシーケンシングして、第1のポリヌクレオチドの座位における第1の塩基のためおよび第2のポリヌクレオチドの対応する座位におけるまたはその近位にある(例えば、ポリヌクレオチドの配列における、それに対して近接する位置における)第2の塩基に関する値(例えば、アイデンティティー)を決定する。決定された第1および第2の塩基に基づくコンピュータープログラムを使用して、座位におけるcfDNAまたはゲノムDNAに存在する真の塩基に関する値を決定する(例えば、図20A~図20Fに示す表のうち1つを使用して)。
(実施例2)
4文字塩基判別による2塩基シーケンシング
本実施例は、4文字塩基判別シーケンシングアッセイを使用した、cfDNA分子の塩基の評価を含む2塩基シーケンシングの使用を示す。
次世代シーケンシングを使用して、第1のポリヌクレオチド(無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ならびに第1および第2のポリヌクレオチドの5’および3’末端にライゲーションされたアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドをシーケンシングする。
あるいは、第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチドをその融解温度まで加熱することにより開き、第1のポリヌクレオチドおよび第2のポリヌクレオチドをシーケンシングする。二本鎖DNAポリヌクレオチドの第1および第2のポリヌクレオチドの分離は、二本鎖DNAポリヌクレオチドの加熱に加えてまたはその代わりに、二本鎖DNAポリヌクレオチドを挿入剤、一本鎖DNA結合タンパク質および/またはヘリカーゼと接触させることにより改善することができる。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Aに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
(実施例3)
バイサルファイト処置を含む5文字塩基判別による2塩基シーケンシング
本実施例は、5文字塩基判別(アデニン、グアニン、チミン、シトシンおよびメチル化されたシトシン塩基)シーケンシングアッセイおよびバイサルファイト変換を使用した、cfDNA分子の塩基の評価を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチドを、その融解温度まで加熱することにより開く前に、バイサルファイトで処置し、第1のポリヌクレオチドおよび第2のポリヌクレオチドをシーケンシングする。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Bに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
(実施例4)
酸化的バイサルファイト処置を含む2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、2塩基シーケンシングにおける酸化的バイサルファイト処置の使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。提供される二本鎖DNAポリヌクレオチド(第1および第2のポリヌクレオチドを含む)の集団を2つの群に分ける:第1の群は、酸化剤ルテニウム酸カリウムに曝露され、第2の群は、酸化剤に曝露されない。次に、バイサルファイトシーケンシングを使用して、両方の群の二本鎖DNAポリヌクレオチドをシーケンシングする。
図20Cに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して、アライメントに先立ちデータをエラーについてスクリーニングし、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表し、第1のポリヌクレオチドの座位における塩基に関する決定された値における、酸化的バイサルファイトシーケンシングよりも高い信頼度を得る。酸化的バイサルファイトシーケンシング方法を使用して、第1のポリヌクレオチドの座位における真の塩基に関する値を決定する(例えば、第1の群および第2の群由来のリードの差次的解析を使用して、5-ヒドロキシメチルシトシンの存在を判定し、第2の群由来のシーケンシングデータを使用して、5-メチルシトシンの存在を判定する)。
あるいは、二本鎖DNAポリヌクレオチドの集団は、群に分けられず、全ての二本鎖DNAが、バイサルファイトシーケンシングに供される前に、酸化剤(ルテニウム酸カリウム)と接触させられる。図20Cに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して、アライメントに先立ちデータをエラーについてスクリーニングし、図中、5-メチルシトシン、アデニン、グアニンおよびチミンは、互いと、かつ、シトシンまたは5-ヒドロキシメチルシトシンであり得る第5の群の塩基と鑑別される(例えば、5文字シーケンシング)。
(実施例5)
ルテニウム酸カリウムによる処置を含む6文字塩基判別による2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、2塩基シーケンシングにおけるルテニウム酸カリウム処置の使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチド(第1および第2のポリヌクレオチドを含む)を、酸化剤ルテニウム酸カリウムに曝露する(例えば、図2Dに示す通り)。次に、二本鎖DNAを還元剤ピリジンボランに曝露する。次に、二本鎖DNAをDNMT1に曝露する。一部の場合には、この操作においてDNMT5がDNMT1の代わりとなる。二本鎖DNAを、操作されたDNAメチルトランスフェラーゼおよびSAMアナログを含む溶液に曝露する。次に、二本鎖DNAを、ヘリカーゼ(または一本鎖DNA結合タンパク質)を使用して分離し、APOBEC3Aを使用して脱アミノ化する。二本鎖DNAが分離される間に、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない/活性がない場合、鎖置換PCR試薬および/または加熱を使用して、第1および第2のポリヌクレオチドを分離して、PCRを行うことができる。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Dに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
(実施例6)
TET処置を含む6文字塩基判別による2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、2塩基シーケンシングにおけるTET処置の使用を含む代替方法を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチド(第1および第2のポリヌクレオチドを含む)を、酸化剤ルテニウム酸カリウムに曝露する(例えば、図3に示す通り)。次に、二本鎖DNAをDNMT1に曝露する。二本鎖DNAを、酸化剤TETを含む溶液に曝露する。一部の場合には、TETの生物学的に活性な断片を使用することができる。次に、ヘアピンポリヌクレオチドが融解される前に、二本鎖DNAをpic-ボランに曝露し、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Dに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
(実施例7)
TET処置を含む6文字塩基判別による2塩基シーケンシングのための代替方法
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチド(第1および第2のポリヌクレオチドを含む)を、DNAメチルトランスフェラーゼ-5(DNMT5)(例えば、図4に示す通り)またはDNMT1に曝露する。5-ヒドロキシメチルシトシンからの5-メチルシトシンの鑑別におけるさらなる感度が適用可能である場合、二本鎖DNAポリヌクレオチドをDNAメチルトランスフェラーゼと接触させる前に、第1のポリヌクレオチドをb-グルコシルトランスフェラーゼと接触させることができる。b-グルコシルトランスフェラーゼが使用される場合、DNMT1またはDNMT5をメチルトランスフェラーゼとして使用することができる。二本鎖DNAポリヌクレオチドをメチルトランスフェラーゼと接触させた後に、二本鎖DNAポリヌクレオチドを、酸化剤TETを含む溶液に曝露する。一部の場合には、TETの生物学的に活性な断片を使用することができる。次に、弱酸(あるいは、弱塩基を使用することができる)による処置の前に、二本鎖DNAポリヌクレオチドをボランに曝露して、caC残基を化学的に還元する。次に、ヘアピンポリヌクレオチドを融解し、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Dに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
(実施例8)
β-グルコシルトランスフェラーゼ処置を含む6文字塩基判別による2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAを、図1Bに示す通り(あるいは、図1Aに示す通り)、β-グルコシルトランスフェラーゼに曝露する。次に、二本鎖DNAポリヌクレオチドをDNMT1に曝露して、無保護5-メチルシトシンタグを、第2のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、ヘアピンを融解する前に、バイサルファイトへの曝露によって二本鎖DNAを脱アミノ化し、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Eに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
代わりに、真の塩基に関する値は、図20Fに見出される表に従って決定され、図中、「r1」は、第1のポリヌクレオチドにおける検出された塩基値を表し、「r2」は、リードポリヌクレオチドにおける検出された塩基値を表し、「r2c」は、第2のポリヌクレオチドにおける塩基値を表し、「r1/r2」は、第1のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「r1/r2c」は、第1のポリヌクレオチドおよび第2のポリヌクレオチドに関する塩基値の組合せを表し、「A」は、アデニンを表し、「G」は、グアニンを表し、「T」は、チミンを表し、「C」は、シトシンを表し、数0~9は、個々のエラーコールを表す。本方法を使用した実験データは、図21に見ることができる。紫色で示されているものは、エラーコールをもたらしたシーケンシング事象であり(例えば、ミスコールとして同定されたシーケンシングエラー);赤色で示されているものは、真の低頻度突然変異として同定された塩基ミスマッチである。メチル化レベル(例えば、ヒドロキシメチル化レベルは、図21の表において定量化される)。
(実施例9)
β-グルコシルトランスフェラーゼ処置を含む6文字塩基判別による2塩基シーケンシングの代替方法
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAをβ-グルコシルトランスフェラーゼ(bGT)に曝露する(例えば、図2Aに示す通り)。次に、二本鎖DNAポリヌクレオチドをDNMT1に曝露して、無保護5-メチルシトシンタグを、第2のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、二本鎖DNAポリヌクレオチドをTETで酸化し、2回目にbGTに曝露する。一部の場合には、第1および第2のポリヌクレオチドを、酸化剤(例えば、TET)およびbGTを含む溶液と接触させることが都合よい場合がある;しかし、第1および第2のポリヌクレオチドは、TET、次いでbGTに連続的に曝露させることができる。次に、二本鎖DNAを、ヘリカーゼ(または一本鎖DNA結合タンパク質)を使用して分離し、APOBEC3Aまたはその断片を使用して脱アミノ化する。二本鎖DNAが分離される間に、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする(例えば、図19Eに示す通り)。ヘリカーゼがもはや存在しない/活性がない場合、鎖置換PCR試薬および/または加熱を使用して、第1および第2のポリヌクレオチドを分離して、PCRを行うことができる。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Eに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
代わりに、真の塩基に関する値は、図20Fに見出される表に従って決定され、図中、「r1」は、第1のポリヌクレオチドにおける検出された塩基値を表し、「r2」は、リードポリヌクレオチドにおける検出された塩基値を表し、「r2c」は、第2のポリヌクレオチドにおける塩基値を表し、「r1/r2」は、第1のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「r1/r2c」は、第1のポリヌクレオチドおよび第2のポリヌクレオチドに関する塩基値の組合せを表し、「A」は、アデニンを表し、「G」は、グアニンを表し、「T」は、チミンを表し、「C」は、シトシンを表し、数0~9は、個々のエラーコールを表す。
(実施例10)
β-グルコシルトランスフェラーゼおよびSAMアナログ処置を含む6文字塩基判別による2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAをβ-グルコシルトランスフェラーゼ(bGT)に曝露する(例えば、図2Cに示す通り)。次に、二本鎖DNAポリヌクレオチドをDNMT1に曝露して、無保護5-メチルシトシンタグを、第2のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する。次に、二本鎖DNAポリヌクレオチドを、S-アデノシルメチオニン(SAM)アナログおよびDNAメチルトランスフェラーゼを含む溶液に曝露する。次に、二本鎖DNAを、ヘリカーゼ(または一本鎖DNA結合タンパク質)を使用して分離し、APOBEC3Aまたはその断片を使用して脱アミノ化する。二本鎖DNAが分離される間に、PCRを使用してリードポリヌクレオチドを生成し、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない/活性がない場合、鎖置換PCR試薬および/または加熱を使用して、第1および第2のポリヌクレオチドを分離して、PCRを行うことができる。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Eに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
代わりに、真の塩基に関する値は、図20Fに見出される表に従って決定され、図中、「r1」は、第1のポリヌクレオチドにおける検出された塩基値を表し、「r2」は、リードポリヌクレオチドにおける検出された塩基値を表し、「r2c」は、第2のポリヌクレオチドにおける塩基値を表し、「r1/r2」は、第1のポリヌクレオチドおよびリードポリヌクレオチドに関する検出された塩基値の組合せを表し、「r1/r2c」は、第1のポリヌクレオチドおよび第2のポリヌクレオチドに関する塩基値の組合せを表し、「A」は、アデニンを表し、「G」は、グアニンを表し、「T」は、チミンを表し、「C」は、シトシンを表し、数0~9は、個々のエラーコールを表す。
(実施例11)
β-グルコシルトランスフェラーゼおよびSAMアナログ処置を含む6文字塩基判別による2塩基シーケンシング
本実施例は、試料の元のポリヌクレオチドにおける塩基の値を決定するための、グリコシル化剤およびメチルトランスフェラーゼによる処置を含む2塩基シーケンシングの使用を示す。
第1のポリヌクレオチド(例えば、無細胞DNAの元のポリヌクレオチドを含む)、第2のポリヌクレオチド、ヘアピンポリヌクレオチドおよびアダプターポリヌクレオチドを含む二本鎖DNAポリヌクレオチドは、実施例1に記載されている通りに提供される。二本鎖DNAポリヌクレオチドをDNMT1に曝露して、無保護5-メチルシトシンタグを、第2のポリヌクレオチドにおける対応する座位の近位にあるシトシンへと転移する(例えば、図2Bに示す通り)。次に、二本鎖DNAをβ-グルコシルトランスフェラーゼ(bGT)に曝露する。次に、二本鎖DNAポリヌクレオチドを、S-アデノシルメチオニン(SAM)アナログおよびDNAメチルトランスフェラーゼを含む溶液に曝露する。次に、二本鎖DNAを、ヘリカーゼ(または一本鎖DNA結合タンパク質)を使用して分離し、APOBEC3Aまたはその断片を使用して脱アミノ化する。二本鎖DNAが分離される間に、PCRを使用してリードポリヌクレオチドを生成し、PCRを使用してリードポリヌクレオチドを生成し、第1のポリヌクレオチドおよびリードポリヌクレオチドをシーケンシングする。ヘリカーゼがもはや存在しない/活性がない場合、鎖置換PCR試薬および/または加熱を使用して、第1および第2のポリヌクレオチドを分離して、PCRを行うことができる。
第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図2Bに従って、シーケンシングデータを処理するためのコンピューターを使用して決定される。
(実施例12)
TET処置およびβ-グルコシルトランスフェラーゼ処置を含む5文字塩基判別による2塩基シーケンシング
本実施例は、核酸分子における修飾された(例えば、メチル化された)塩基を同定するための、酸化剤(例えば、TET酵素)、グリコシル化剤(例えば、例えば、β-グルコシルトランスフェラーゼ等のグルコシルトランスフェラーゼ)、脱アミノ化剤(デアミナーゼ)およびヘリカーゼによる二本鎖核酸の処理について記載する。特に、本実施例は、メチル化されていないシトシン塩基からメチル化されたシトシン塩基(例えば、5-メチルシトシンを含むメチルシトシン;5-ヒドロキシメチルシトシンを含むヒドロキシメチルシトシン)を区別および同定する。そのような区別および同定は、単一塩基分解能で為され得る。
一部の場合には、図23に描写される通り、第1の鎖および第2の鎖を含む2つの二本鎖ポリヌクレオチド(例えば、二本鎖DNA)は、一体にハイブリダイズされており、かつ、別々に一体に連結されている(例えば、1個または複数のヘアピンアダプターを介して)。一部の場合には、第1の鎖は、第1の鎖の3’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第2の鎖の5’末端において第2の鎖に連結されている(図23の左半分を参照)。一部の場合には、第1の鎖は、第1の鎖の5’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第2の鎖の3’末端において第2の鎖に連結されている(図23の右半分を参照)。元の二本鎖ポリヌクレオチドを含む元のポリヌクレオチドからハイブリダイズされ連結された鎖を有するそのような二本鎖ポリヌクレオチドを生成するための例は、実施例1、図1A、図1B、図19Aおよび図19Bに関する箇所を含む本明細書の他の箇所に記載されている。図23の操作1も、そのような二本鎖ポリヌクレオチドを生成するための操作例を提供する。後述する処理操作が行われる前に、その間にまたはその後に、シーケンシングアダプターを付加することができる。本実施例において、図23に描写される通り、提供される二本鎖ポリヌクレオチド(第1は図23の左に示されており、第2は図23の右に示されている)は、メチルシトシン(図23におけるmC、例えば、5-メチルシトシン)およびヒドロキシメチルシトシン(図23におけるhmC、例えば、5-ヒドロキシメチルシトシン)塩基、ならびに当該ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドのうち一方の元の鎖を含む。メチル化された塩基は、元の鎖にある。
図23を参照すると、二本鎖ポリヌクレオチドは、例えば、TET酵素等のオキシダーゼであり得る酸化剤に曝露される。一部の場合には、オキシダーゼ(例えば、TET)の生物学的に活性な断片が使用される。酸化剤は、メチルシトシン塩基をヒドロキシメチルシトシンへと変換する。
酸化剤による処置の前に、それと同時にまたはその後に、二本鎖ポリヌクレオチドは、グルコース源(例えば、ウリジン二リン酸グルコース(UDPG))の存在下で、ヒドロキシメチルシトシン(hydroymethylcytosine)をグリコシルヒドロキシメチルシトシン(図23におけるghmC)へとグリコシル化することができるグリコシル化剤(例えば、図23の操作2に示す通り、β-グルコシルトランスフェラーゼ(bGT))に曝露される。このようなグリコシル化は、後述する脱アミノ化剤を含む他の薬剤の活性からヒドロキシメチルシトシン(hydroxmethylcytosine)を保護することができる。酸化剤によるヒドロキシメチルシトシンへの転換後に、メチルシトシン塩基をグリコシル化することができる。
次に、二本鎖ポリヌクレオチドは、図23の操作3の通り、脱アミノ化剤およびヘリカーゼに曝露される。本実施例において、脱アミノ化剤は、例えば、APOBEC(例えば、図23の通りAPOBEC3A)またはその断片等のデアミナーゼ(例えば、シトシンデアミナーゼ)である。ヘリカーゼは、二本鎖ポリヌクレオチドの鎖の少なくとも一部分を互いに分離し、デアミナーゼは、グリコシル化されていないシトシン塩基(例えば、本来グリコシル化されているシトシン塩基は、メチルシトシンまたはヒドロキシメチルシトシンであった)からアミン基を除去する。そのような脱アミノ化シトシン塩基は、ウラシルへと転換され、グリコシル化シトシン塩基は、グリコシル化シトシンのままとなる。
次に、処理された二本鎖ポリヌクレオチドを処置して、シーケンシングアダプターを付加することができ(以前に既に付加されていない場合)、次いでシーケンシングすることができる。一部の場合には、シーケンシングに先立ち、例えば、増幅に供される等の処理の後に、処理された二本鎖ポリヌクレオチドをさらに処理する。
シーケンシングにおいて、また、図25に描写される例として、一方の鎖における、かつ他方の鎖におけるグアニンコールに対応する(例えば、物理的に近位にあることにより)、コールされたシトシン塩基を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化された(例えば、メチルシトシンまたはヒドロキシメチルシトシンのいずれかであった)シトシン塩基を同定する。さらに、一方の鎖における、かつ他方の鎖におけるグアニンに対応する(例えば、物理的に近位にあることにより)、生成されたウラシル塩基(一部の場合には、二本鎖ポリヌクレオチドの処理後の増幅の結果として、シーケンシングにおいてチミンとコールされる)を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化されなかったシトシン塩基を同定する。アデニン、チミンおよびグアニン塩基コールに関する、鎖間の他の塩基コーリング対形成も、シーケンシングエラーを表す対形成と共に、図25に示す。本明細書の他の箇所に記載されている通り、コールの対形成は、シーケンシングコールの精度を改善することができ、また、そのような改善された精度の達成に必要とされるシーケンシング深度を低減させることができる。コンピューターは、塩基コールを作製するためのシーケンシングデータの解析に役立つように使用することができる。
(実施例13)
APOBECおよびヘリカーゼ処置を含む4文字塩基判別による2塩基シーケンシング
本実施例は、核酸分子における塩基を同定するための、脱アミノ化剤(デアミナーゼ)およびヘリカーゼによる二本鎖核酸の処理について記載する。他の塩基からの塩基の同定および塩基の区別は、単一塩基分解能で為され得る。
処理に先立ち、また、図24に描写される通り、第1の鎖および第2の鎖を含む2つの二本鎖ポリヌクレオチド(例えば、二本鎖DNA)は、一体にハイブリダイズされており、かつ、別々に一体に連結されている(例えば、1個または複数のヘアピンアダプターを介して)。一部の場合には、第1の鎖は、第1の鎖の3’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第2の鎖の5’末端において第2の鎖に連結されている(図24の左半分を参照)。一部の場合には、第1の鎖は、第1の鎖の5’末端においてヘアピンアダプターに連結され、ヘアピンアダプターは、第2の鎖の3’末端において第2の鎖に連結されている(図24の右半分を参照)。元の二本鎖ポリヌクレオチドを含む元のポリヌクレオチドからハイブリダイズされ連結された鎖を有するそのような二本鎖ポリヌクレオチドを生成するための例は、実施例1、図1A、図1B、図19Aおよび図19Bに関する箇所を含む本明細書の他の箇所に記載されている。図24の操作1も、そのような二本鎖ポリヌクレオチドを生成するための操作例を提供する。後述する処理操作が行われる前に、その間にまたはその後に、シーケンシングアダプターを付加することができる。本実施例において、図24に描写される通り、提供される二本鎖ポリヌクレオチド(第1は図24の左に示し、第2は図23の右に示す)は、メチルシトシン(図24におけるmC、例えば、5-メチルシトシン)およびヒドロキシメチルシトシン(図24におけるhmC、例えば、5-ヒドロキシメチルシトシン)塩基、ならびに当該ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドの一方の元の鎖を含む。
図24を参照すると、二本鎖ポリヌクレオチドは、図24の操作2の通り、脱アミノ化剤およびヘリカーゼに曝露される。本実施例において、脱アミノ化剤は、例えば、APOBEC(例えば、図24の通りAPOBEC3A)またはその断片等のデアミナーゼ(例えば、シトシンデアミナーゼ)である。ヘリカーゼは、二本鎖ポリヌクレオチドの鎖の少なくとも一部分を互いに分離し、デアミナーゼは、メチル化されたシトシン塩基を含むシトシン塩基からアミン基を除去する。そのような脱アミノ化シトシン塩基は、ウラシルへと転換される。
次に、処理された二本鎖ポリヌクレオチドを処置して、シーケンシングアダプターを付加することができ(以前に既に付加されていない場合)、次いでシーケンシングすることができる。一部の場合には、シーケンシングに先立ち、例えば、増幅に供される等の処理の後に、処理された二本鎖ポリヌクレオチドをさらに処理する。メチル化された塩基が図24に示されているが、図24の例は、メチル化されていないシトシン塩基(複数可)およびその検出に等しく適用することができる。
シーケンシングにおいて、また、図26に描写されている例として、一方の鎖における、かつ他方の鎖におけるグアニンに対応する(例えば、物理的に近位にあることにより)、生成されたウラシル塩基(一部の場合には、二本鎖ポリヌクレオチドの処理後の増幅の結果として、シーケンシングにおいてチミンとしてコールされる)を使用して、処置された二本鎖ポリヌクレオチドが派生された元の二本鎖ポリヌクレオチドにおけるメチル化されたシトシン塩基を含むシトシン塩基を同定する。アデニン、チミンおよびグアニン塩基コールに関する、鎖間の他の塩基コーリング対形成も、シーケンシングエラーを表す対形成と共に、図26に示されている。本明細書の他の箇所に記載されている通り、コールの対形成は、シーケンシングコールの精度を改善することができ、また、そのような改善された精度の達成に必要とされるシーケンシング深度を低減させることができる。コンピューターは、塩基コールを作製するためのシーケンシングデータの解析に役立つように使用することができる。
(実施例14)
改善されたゲノムバリアントコーリングのための2塩基シーケンシング方法を使用したシーケンシングエラー抑制
NA24385(アシュケナージ系ユダヤ人の子供)およびNA24631(漢民族中国人の子供)細胞系試料をハイスループットシーケンシングのために調製し、NovaSeq Illuminaシーケンシングプラットフォームにおいてほぼ80×(NA24385)およびほぼ90×(NA24631)のシーケンシング深度までシーケンシングした(図28)。実施例2に記載されている4文字塩基コーリング方法を使用して、短いシングルエンドリードを生成し(NA24385およびNA24631試料の両方に関してほぼ111bpの長さ)、それによると、第1のポリヌクレオチドの座位における真の塩基に関する値、およびエラーコーリングは、図20Aに見出される表に従って、シーケンシングデータを処理するためのコンピューターを使用して決定され、図中、「F鎖」および「F」値は、座位における第1のポリヌクレオチドの塩基の決定された値を表し、「F’鎖」および「F’」値は、第2のポリヌクレオチドにおける対応する座位における第2のポリヌクレオチドの塩基の決定された値を表す。
シングルエンドリードのための処理パイプラインを実行して、シーケンシング読み出しデータからゲノムバリアントをコールした。先ず、シーケンシング実験から得た未加工のペアエンドリードの品質をFastQCによってチェックし、低品質リードをfastpによって除去した。次に、実施例2に記載されている4文字塩基コーリングアプローチを使用して、シングルエンドリードを作成した。シングルエンドリード(NA24385試料に関しておよそ22億個のリードおよびNA24631試料に関して24億個)を、BWA-mem v0.7.15によって参照ゲノムGRCh38DHにマッピングした(図28)。アラインされたリードをBAMファイルへと変換し、Picardモジュールを使用して重複をマークした後に、ゲノム位置に基づき選別した。2018バリアントコーリングパイプライン標準(https://doi.org/10.1038/s41467-018-06159-4)によって推奨される通り、Q10、Q20、Q30およびQ40において起こる品質スコアのビニングを除いてデフォルトパラメーターを使用して、Base Quality Score Recalibration(BQSR)によって未加工のBAMファイルを精緻化した。重複排除後に、NA24385およびNA24631試料の両方が、ほぼ30×カバレッジのリード深度を示した(図28)。GATKのHaplotypeCallerモジュール(バージョン4.1.9.0)により生殖系列バリアントコーリング(SNPおよびインデル)を行った。GATKハードフィルタリングアプローチを使用して、バリアントをフィルターにかけた。次のフィルター式:「QD<2.0||FS>30.0||SOR>3.0||MQ<40.0||MQRankSum<-3.0||ReadPosRankSum<-3.0」を使用して、設定された閾値を上回るまたは下回るアノテーション値を有するバリアントをフィルタリングして取り除いた。シーケンシング結果のさらなる測定基準は、図28に提示されている。
NA24385およびNA24631試料においておよそ330万個のSNPが検出された。それぞれNA24385およびNA24631試料における検出されたSNPの97.1%および97.2%が、dbSNPデータベースに存在した(図29)。SNP検出のためのバリアントコーリングパイプラインの性能を、新規SNP(それぞれNA24385およびNA24631試料に関して1.93および2.10)および公知SNP(それぞれNA24385およびNA24631試料に関して2.074および2.069)の移行(Ti)およびトランスバージョン(Tv)変換比に基づき評価した(図29)。ゲノムワイドレベルでSNPを考慮する場合、Ti/Tv比は、ほぼ2~2.1であることが予想される。
バリアントコーリングパイプラインによっておよそ640,000個のインデルが検出され、そのうち、NA24385において検出されたインデルの93.9%およびNA24631試料において検出されたインデルの約94.2%が、dbSNPデータベースにおけるインデルと共通であった(図29)。公知インデルに関する挿入/欠失の比は、NA24385およびNA24631試料の両方に関してほぼ0.9であり、ほぼ1における比の予想される値とマッチした。新規インデルに関する挿入/欠失の比は、NA24385で0.93およびNA24631試料で0.96であり、これは、ほぼ1における予想される比に密接にマッチし、得られたシーケンシングデータの品質をさらに検証した(図29)。
同定されたSNPおよびインデルを、NISTデータセットにおいて定義される絶対的基準バリアントと比較することにより、シーケンシング実験の結果を評価した(図30)。簡潔に説明すると、NISTデータベースにおけるヘテロ接合体SNPバリアントは、それぞれNA24385およびNA24631試料において91.9%および94.2%感度で検出された(図30)。NISTデータベースにおけるホモ接合体SNPバリアントは、それぞれNA24385およびNA24631試料において92.0%および94.7%感度で検出された(図30)。ヘテロ接合体およびホモ接合体SNPバリアントの検出に関するPPVは、NA24385試料においてそれぞれ99%および99.9%であった(図30)。ヘテロ接合体およびホモ接合体SNPバリアントの検出に関するPPVは、それぞれNA24631試料において98.9%および99.9%であった(図30)。検出されたSNPに関する遺伝子型一致は、NA24385およびNA24631試料の両方で99.9%であった。非参照遺伝子型一致は、それぞれNA24385およびNA24631試料に関して91.4%および93.8%において測定された(図30)。
比較すると、NISTデータベースにおけるヘテロ接合体インデルは、それぞれNA24385およびNA24631試料において84.9%感度および88.6%で検出された(図30)。NISTデータベースにおけるホモ接合体インデルバリアントは、それぞれNA24385およびNA24631試料において84.3%感度および90.2%感度で検出された(図30)。ホモ接合体インデルの検出に関するPPVは、それぞれNA24385およびNA24631試料において99.4%および99.3%であった。ヘテロ接合体インデルの検出に関するPPVは、それぞれNA24385およびNA24631試料において96.7%および97.4%であった。インデル検出に関する遺伝子型一致は、NA24385およびNA24631試料の両方で99.9%であった。非参照インデル遺伝子型一致は、それぞれNA24385およびNA24631試料に関して82.5%および87.5%において測定され、ホモ接合体代替およびヘテロ接合性遺伝子型を効果的に捕捉する本明細書における2塩基シーケンシング方法の能力を特に強調した(図30)。
SNP検出のためのバリアントコーリングパイプラインの性能を、ヘテロ接合性(Het)およびホモ接合性(Hom)検出、新規および公知SNPの両方の移行(Ti)およびトランスバージョン(Tv)変換、ならびに検査および「絶対的基準」NISTデータセットが共通であることに基づくSNPに関する遺伝子型一致に基づきさらに評価した。ヘテロ接合性およびホモ接合性バリアントの検出のための感度測定基準(真陽性(TP)/(真陽性(TP)+偽陰性(FN))および陽性適中率(PPV)(真陽性(TP)/(真陽性(TP)+偽陽性(FP))を計算した。Het/Hom検出のための感度測定基準およびTi/Tv比は、Wang et al., 2014によって記載される通りに計算した。TPは、NISTデータセットに存在し、パイプラインによっても検出される、真陽性バリアントとして定義される;FPは、NISTデータセットに存在せず、パイプラインによって検出される、偽陽性バリアントである;FNは、NISTデータセットに存在し、パイプラインによって検出されない、偽陰性バリアントである。シーケンシングされ、所与の参照塩基位置においてアラインされた塩基の総数であるカバレッジの深度は、PicardモジュールRawWgsMetricsによって計算された。「検査」および「真実」データセットが共通であることである遺伝子型(対立遺伝子)一致は、PicardのGenotypeConcordanceモジュールによって決定された。GATKバージョン4.1.9.0において実行されるPicardツールを使用して、Picardモジュールを稼働した。非参照遺伝子型一致を捕捉するパイプラインの能力、例えば、ホモ接合体代替およびヘテロ接合性遺伝子型を捕捉する能力も計算した。
次に、シーケンシング実験の結果を、同じ試料における公開されている(Illuminaシーケンシング)データ(NISTと表示)と比較した。dbSNPデータベースにおける以前に公知となったインデルおよび新規インデルに関して、Ins/Del比を計算した(挿入の数の欠失の数に対する比を表し、1を下回ると予想される)。検出されたインデルの総数(NA24385およびNA24631試料で642Kおよび639K)は、Illuminaデータベースに存在するインデルの数(それぞれNIST NA24385およびNIST NA24631で125万および112万)に満たなかったが、標準公開データと比較して、本明細書の2塩基方法によって検出されたインデルのより高いパーセンテージが、dbSNPデータベースに存在するインデルと共通であった(図31)(NA24385試料で93.9%vs47.5%、およびNA24631試料において94.2%vs51.6%)。NIST NA24385およびNIST NA24631試料に関して、新規インデルのIns/Del比は、はるかにより高く、本明細書における2塩基シーケンシング方法を使用してNA24385およびNA24631試料において得られたシーケンシング結果が、NISTから入手可能な標準Illuminaデータよりも優れていたことを示唆する(図31)。
さらに、シーケンシング実験からの遺伝子型一致測定基準と、同じ試料における公開されているデータ(標準Illuminaデータ)との比較は、2塩基シーケンシング方法を使用したNA24385およびNA24631試料におけるシーケンシング結果が、NISTから入手可能な標準Illuminaデータよりも優れていたことを示した。例えば、NISTデータベースにおけるNA24385試料に関する非参照SNPの82.2%の遺伝子型一致と比較して、本明細書における2塩基シーケンシングシステムを使用して得られた非参照SNPの遺伝子型一致は、NA24385試料において91.4%であった(図32)。同様に、NISTデータベースにおけるNA24385試料に関する非参照インデルの38.3%の遺伝子型一致と比較して、本明細書における2塩基シーケンシングシステムを使用してNA24385試料において得られた非参照インデルの遺伝子型一致は、82.5%であった(図32)。
本明細書における2塩基シーケンシング方法およびシステムの低いカバレッジ性能を査定するために、Coirell維持NIST参照材料DNA試料NA24385およびNA24631を、実施例8に例証されているワークフローおよびIllumina NovaSeq 6000システムを使用してシーケンシングされた全ゲノムを使用して調製した。未加工のシーケンシングデータを得た後に、品質管理を実行し、リードをhg38参照ゲノムにマッピングした。Picardを使用して重複したリードを除去した後に、NA24385およびNA24631の平均深度は、それぞれ30.1×および29.6×であった(図28)。NA24385 bamファイルを、6×カバレッジへとダウンサンプリングし、GATKのHaplotypeCallerモジュールを使用して生殖系列バリアントをコールした。ダウンサンプリングされたbamファイルにおける解析を、重複マーキングあり(5×)およびなし(6×)の両方で実行し(図34)、バリアントコーリング解析の詳細な情報は、図35に示されている。重複排除された(5×)試料に関して、SNPの96.3%およびインデルの95.7%は、dbSNPデータベースに見出される公知バリアントであった。
低い対立遺伝子分率バリアントを検出する2塩基シーケンシング方法の能力を調査するために、1%バリアント対立遺伝子分率を有する「ミックスイン」試料を創出した。特に、NA24385をほぼ1×カバレッジ(1千万個のリード対それぞれの3個の「チャンク」に対応)へとサブサンプリングし、完全深度NA24631試料と統合して、92.3×のカバレッジを有するミックスイン試料を創出した(図33Aおよび図33B)。ミックスイン試料を「腫瘍」試料として、NA24631を「正常」試料として指定することにより、GATKのMutect2モジュールを使用して、体細胞変異体コーリングパイプラインを稼働した。ミックスイン試料において為されたバリアントコールを、感度(完全NA24385に対して為されたコールとオーバーラップするが、完全NA24631において為されたコールとオーバーラップしない、為されたコールの数)および特異度(完全NA24385とNA24631のどちらに対して為されたコールともオーバーラップしない為されたコールの数に関係する)について査定した。完全NA24385において為された4,464,429個の総バリアントコールが存在し、そのうち、2,687,773個のバリアントコールが、NA24631に存在した(1,776,656個は存在しなかった)。1%ミックスイン試料に関して12.3%の感度が観察され、この場合、NA24385に特有の総計1,776,656個のバリアントのうち、その218,574個が、ミックスイン試料においてコールされた。NA24385とNA24631のいずれにおいてもいかなるリード証拠を有しなかったミックスインにおいて為された19,161個の総体細胞コールが存在し、99.999%を超える特異度を提供する。
(1)NA24385またはNA24631においていかなるリード証拠も有しなかったミックスイン試料由来のミスコール(図36A)ならびに(2)NA24385およびNA24631シーケンシングリード由来のシングルトンエラー(図36B)の解析は、A⇔GおよびC⇔T偽陽性が、いかなる他の型のエラーよりも高頻度であったことを示した。シングルトンエラーは、hg38参照対立遺伝子を保有する少なくとも20個のリードおよび代替対立遺伝子を有する正確に1個のリードのカバレッジを有するゲノム部位として定義された。2塩基シーケンシング解析方法を使用して解析されたシーケンシングリードのA⇔GおよびC⇔Tエラーが、一塩基ミスコールにより起こり得るが、他の型のシーケンシングエラーが、2塩基ミスコールにより起こり得ると仮定すると、ミスコールおよびシングルトンエラー型におけるバイアスが予想される。例えば、本明細書の2塩基シーケンシング方法によって分解されたA塩基は、元の鎖におけるAおよびコピー鎖におけるTによって得られる。本明細書の2塩基シーケンシング方法によって分解されたT塩基は、元の鎖におけるTおよびコピー鎖におけるAによって得られる。したがって、TとしてミスコールされることになるAに関して、元の鎖において、Aは、Tとしてミスコールされ得る一方、同時に、コピー鎖におけるTをAとしてミスコールする。他方では、他のミスコールに関して、例えば、A→GまたはC→Tが、1個のシーケンシングエラーにより起こり得る。例として、本明細書の2塩基シーケンシング方法によって分解されたA塩基は、元の鎖におけるAおよびコピー鎖におけるTによって得られる。2塩基シーケンシング方法によって分解されたG塩基は、元の鎖におけるGおよびコピー鎖におけるTによって得られる。したがって、GとしてミスコールされることになるAに関して、元の鎖において、Aが、Gとしてミスコールされたことを意味する。しかし、コピー鎖におけるTは、既にTであるため、単一シーケンシングエラーは、A→Gミスコールをもたらし得る(図27および図37)。
(実施例15)
APOBEC3Aおよびヘリカーゼの組合せを使用した脱アミノ化の効率増加は、シーケンシングエラーの低減をもたらす
2塩基シーケンシング方法(およびバイサルファイトシーケンシング)におけるメチル化コールの偽陽性率は、APOBEC酵素による不完全脱アミノ化に起因し得る変換されていないシトシンの割合によって部分的に決定することができる。APOBEC3A脱アミノ化は、ライブラリーを一本鎖にするように機能し、分子間または分子内dsDNAの存在によって阻害され得、正常ペアエンドライブラリーおよび2塩基シーケンシングの両方において適用することができる。APOBEC3Aによる偽陽性率が、文献において報告されるもの(例えば、Sun, Z. et.al, 2021の通り、0.25%のFP率)と同様であることを確認するために、少量(0.5%)のメチル化されていないpUC19およびメチル化されたラムダファージDNA(ラムダファージDNAのCpGコンテキストは、酵素M.SssIを使用してメチル化された)を含有する100ngのヒト小脳gDNAから対照正常ペアエンドライブラリーを調製した。NGSアダプターがライゲーションされた後に、ライブラリーを、TETで処置し、その後、熱およびホルムアミド処置を使用して、ライブラリーを変性し、続いて、APOBEC3A処置を3時間37℃で行った。PCR、NGSシーケンシング、マッピングおよび重複排除の後に、シトシンおよびチミンリードを、シーケンシングライブラリーの元のフォワード鎖において分解した。MethylDackelソフトウェアを使用して、シーケンシングリードを、CpG、CHHまたはCHGコンテキストに基づき解釈した(C=非CpGコンテキストにおける失敗した脱アミノ化、一方で、C=CpGコンテキストにおけるメチル化されたシトシン)。シーケンシングの結果は、対照試料におけるメチル化コーリングの偽陽性率が、記録された文献、例えば、EM-SEQ方法(Sun, Z. et.al, 2021の通り、0.25%のFP率)、バイサルファイトシーケンシング(Holmes. et.al, 2014の通り、1.7%~0.6%のFP率)またはTet支援ピリジン-ボランシーケンシング(Liu, Y. et. al, 2019の通り、0.23%のFP率)における偽陽性率と同等である(例えば、CpGコンテキストにおけるシトシンコールは、ほぼ0.8%、図38)ことを示した(図38)。
2塩基シーケンシングにおいて起こり得るde-novoメチル化の率を査定するために、上に言及される通りにライブラリーを調製した(0.5%pUC19およびメチル化されたラムダgDNAを含有する500ng小脳gDNAの、ほぼ250bpのサイズへの機械的剪断によってライブラリーを調製した)。APOBEC3Aがライブラリーを脱アミノ化することができるよりも速く、このようなライブラリーにおける同族鎖が元へ戻ってヘアピンを形成することができると仮定すると、APOBEC3Aまたはその断片と組み合わせてヘリカーゼを使用することができる。
ヘリカーゼとAPOBEC3Aとの組合せを使用して、ヘアピンにより繋がれた対形成した元の鎖およびコピー鎖を有するシーケンシングライブラリーを回収することができる。ヘリカーゼをまたはヘリカーゼおよびAPOBEC3Aの両方を除外した後に、ライゲーションされたヘアピンを有しない正常ペアエンドライブラリーを増幅することができる。両方の付加後に、元の脱アミノ化鎖(stand)と、ヘアピンにより連結されたその対応する脱アミノ化コピー鎖を含有する、より長いライブラリーを回収することができる(シーケンシングによって確認される通り)(図43)。元の鎖がコピー鎖に連結されている、より長い脱アミノ化ライブラリーの回収は、APOBEC3Aが連結された二重鎖を脱アミノ化することを可能にするヘリカーゼによるATPのターンオーバーが関与する能動的なプロセスであり得る。ATPの非存在下で、正常ペアエンドライブラリー(少数で存在する)を増幅することができる(図44)。
2塩基シーケンシングを実行するために、また、脱アミノ化失敗による偽陽性率を測定することができるように、ヘアピンを適応させ、続いてコピー鎖合成し、続いてTETおよびβGT処置を行った。ヘリカーゼ(例えば、UvrD、PcrAまたはBadヘリカーゼヌクレアーゼ不活型(dead)であり、この場合、例えば、E.coli UvrDヘリカーゼは、DNAに対して100倍モル過剰で存在する)およびAPOBEC3Aの組合せを、2.5mM ATPの存在下で3時間37℃にて使用した。マッピングおよび重複排除の後に、シトシンおよびチミンリードを、2塩基シーケンシングのために調製されたシーケンシングライブラリーの元のフォワード鎖において分解した。MethylDackelソフトウェアを使用して、シーケンシングリードを、CpG、CHHまたはCHGコンテキストに基づき解釈した(C=非CpGコンテキストにおける失敗した脱アミノ化、一方で、C=CpGコンテキストにおけるメチル化されたシトシン)。シーケンシングの結果は、対照試料(APOBEC3A単独で処置された2塩基シーケンシングライブラリー、またはAPOBEC3A単独で処置された正常ペアエンドライブラリー)におけるメチル化コーリングの偽陽性率が、他の方法のために測定された脱アミノ化率よりも有意に高いことを示した(例えば、CpGコンテキストにおいて、脱アミノ化による偽陽性率は、ほぼ0.062%である)(図39)。したがって、ヘリカーゼは、APOBEC3Aと併せて働いて、脱アミノ化率を増加させ、これにより、バイオインフォマティクスフィルタリングにより達成されるレベル(その全体を本明細書に組み込むSchutsky et. al, 2018に示す通り)よりも下にメチル化コールの偽陽性率を減少させる。ヘリカーゼの非存在下で、APOBEC3Aは、ヘアピンライブラリーを脱アミノ化することができない。
6塩基判別のための2塩基シーケンシングライブラリーの調製において(例えば、5-ヒドロキシメチルシトシンから5-メチルシトシンを鑑別する2塩基シーケンシング、例えば、この場合、DNMT1が、元の鎖におけるメチル化された塩基の反対側にある同族鎖における塩基にメチル化マークを付加する)、DNMT1酵素処理操作の使用において異なるシーケンシングライブラリーを、本明細書における2塩基シーケンシングライブラリー調製方法を使用して調製した(例えば、この場合、ヘアピンを使用して、ライブラリー調製の際に元のフォワード鎖および同族鎖を連結する)。TETおよびβGT処置の前に、DNMT1の存在下でライブラリーを調製した。マッピングおよび重複排除の後に、シトシンおよびチミンリードを、2塩基シーケンシングのために調製されたシーケンシングライブラリーの元のフォワード鎖において分解した。MethylDackelソフトウェアを使用して、脱アミノ化率を決定した。本明細書において、CHHおよびCHGにおける脱アミノ化率は、図38の結果等、他の非ヘリカーゼ/APOBEC3A方法を超えるが、CpGにおける脱アミノ化は下落する(図40)。
(実施例16)
ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIを利用しない2塩基シーケンシングのためのライブラリーの生成のためのワークフロー
本ワークフローにおいて、次の様式で、ライブラリー調製のためにゲノムDNA(gDNA)試料を調製した。先ず、Covaris M220を使用して、低TE緩衝剤(10mM Tris-HCl、0.1mM EDTA)中でマイクロチューブ-50において、超音波処理によってgDNA(0.5%pUC19およびメチル化されたラムダgDNAを含有)を250bpへと断片化した。dsDNA QubitによってgDNAを定量化し、BioanalyzerまたはTapestationを使用してサイズ分布をチェックした。合成対照(80bpおよび166bp)をインプットDNAの量の0.5%でスパイクインした。条件a+bのため(図42A~図42B)、DNAの5’末端が5’リン酸化され、ライゲーションに利用可能となるように、gDNAを末端修復およびAテイル付加した。条件c+dのため(図42A~図42B)、5’リン酸を欠如し、よってその5’末端におけるライゲーションができなくなるように、gDNA試料を修飾した。これは、2種の異なる方法によって為された;c)T4ポリヌクレオチドキナーゼ(T4 PNK)を使用して、断片化gDNAの5’リン酸およびADPの間のリン酸基の交換を触媒し(交換反応)、5’リン酸を欠如するgDNA試料を生成した、またはd)rSAPホスファターゼを使用して、DNAの末端からいかなるリン酸も能動的に除去した。次に、条件c+d(図42A~図42B)は、それぞれT4 DNAポリメラーゼおよびTaqを使用して末端修復およびAテイル付加した。次に、全試料を、ヘアピンアダプターライゲーションに進めた。ヘアピンアダプターライゲーション反応物を、末端修復およびAテイル付加反応物と同じチューブにおいてアセンブルした。条件b~dのため(図42A~図42B)、3’リン酸を含有するヘアピンを使用し(図41B)、それと比較して、条件a(図42A~図42B)は、切断のためにウラシルを含有する3’OHヘアピンをライゲーションした(図41A)。断片化gDNA試料の5’末端へのヘアピンの3’末端のライゲーションをヘアピンの3’リン酸によって遮断し(条件b~d、図42A~図42B)、条件c~dのため(図42A~図42B)、これは、ゲノムDNAにおける5’OHによっても為された(図41B)。ヘアピンの3’末端へのライゲーションは、条件b~dのために遮断されたため(図42A~図42B)、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIは、ヘアピンアダプターにおけるニックの生成に使用されず、この反応のその後のクリーンアップも行われなかった。ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIならびに付随するクリーンアップ操作の排除は、より単純なワークフローを可能にすることができ、また、全体的なより速いライブラリー調製をもたらすこともできる(図41Aおよび図41B)。
コピー鎖合成に進む前に、ヘアピンライゲーションされたDNA混合物を、磁気ビーズを使用してクリーンアップし、DNAを熱変性して、2つのゲノム鎖を分離した。コピー鎖合成操作において、ヘアピンアダプターにおける3’リン酸ブロックを除去し、反応緩衝剤におけるPNK酵素の作用によってgDNAの5’末端を5’リン酸化した。さらに、本ワークフローにおいて、ウラシルDNAグリコシラーゼ(UDG)およびDNAグリコシラーゼ・リアーゼエンドヌクレアーゼVIIIの作用によるステムの短縮がないため、ヘアピンアダプターの長い方のステムからコピー鎖を伸長する(図41B)。
コピー鎖合成後に、磁気ビーズを使用してDNA混合物をクリーンアップし、シーケンシングのためにIlluminaアダプターをライゲーションし、次いで、磁気ビーズを使用してDNA試料を精製した。
次に、アダプターライゲーションされたDNAを次いで、TET酵素で処置した。その結果生じるDNA試料を、酸化酵素と共に希釈Fe(II)溶液と組み合わせ、サーモサイクラーにおいて37℃で1時間インキュベートし、その後、停止試薬を添加した。脱アミノ化操作に進む前に、磁気ビーズを使用してTET変換DNAをクリーンアップした。脱アミノ化反応において、APOBECおよびUvrDヘリカーゼを含有する反応混合物においてDNA混合物をインキュベートした。磁気ビーズを使用して脱アミノ化DNAをクリーンアップした。ライブラリー調製のために脱アミノ化DNAにおいてPCR増幅を行い、磁気ビーズを使用してライブラリーDNAを精製した。
(実施例17)
ゲノムにおけるフォワードおよびリバース鎖におけるメチル化の定量化および塩基コーリング
図45A~図45Cは、4塩基アライメントによる6塩基コーリング(A、T、G、C、プラスメチル化およびヒドロキシメチル化)のための操作の概観を提示する。第1の操作において、(A)参照ゲノムに対するゲノムシーケンシングリードのアライメントが実行され、続いて(B)CpG部位位置におけるエピジェネティックコード情報のデコード(ここでは黄色ボックスによって示されるCpG部位例)および(C)本明細書に記載されている操作において評価されるエピジェネティックリードの定量化(例えば、メチル化またはヒドロキシメチル化)が為される。
図46A~図46Cは、試料ゲノムにおけるメチル化情報の鎖のコーリング(stranded calling)に関与する操作に関するさらなる詳細を提示する。第1の操作において、試料ゲノム由来のシーケンシングリードを、参照ゲノム(HG38)に対してアラインした。参照ゲノムに対するリードのアライメントの配向性を使用して、リードが得られる試料ゲノムの鎖(フォワードまたはリバース)を確かめた。例えば、フォワード配向性で参照ゲノムをアラインし、リードが参照ゲノムと同じ配向性でアラインされた場合、これはフォワード鎖として分類され、一方、リードがリバース相補的配向性でアラインされた場合、リードをゲノムのリバース鎖から得られるものとして分類した。参照ゲノムに対するアライメントの位置を含有する(が、参照ゲノム配列を記憶しない)BAMファイルを創出した。CpG部位および非CpG部位に関してBAMアライメントファイルにフィルターをかけた(図46A)。「CpG」部位の場所を見出すために、リードの開始および終了座標を使用して、当該配列におけるCpGの位置を返すデータ構造である「区間ツリー(interval tree)」に照会した。次に、フィルターをかけたBAMファイルをゲノム座標によって選別し、処理されたBAMファイルをもたらした(図46A)。
本明細書に記載されている操作において同定されたCpG部位をさらに解析して、試料ゲノムにおいて塩基レベルでエピジェネティックコードを同定した(図46B)。この操作におけるバイオインフォマティクスワークフローは、中間表現ファイルへと、シーケンシングリードにおける塩基に対応するエピジェネティック(メチル化またはヒドロキシメチル化)情報を抽出し、次いで中間表現ファイルを処理して、対応する塩基位置におけるエピジェネティック情報を定量化した。例えば、図45A~図45Bにおいて、位置31,903,150bp前後のボックスは、メチル化情報のさらなる解析のためのCpG部位の位置例をマークする。処理されたBAMファイルをssCALLプログラムによって処理して、全リードにおける全CpG部位のエピジェネティックコードを抽出した。その結果生じるtsvファイルを再びゲノム座標によって選別して、中間表現tsvファイルを生成した(図46B)。中間表現ファイルにおけるエピジェネティックコードにおける列は、配列ID、開始位置、位置に対応するエピジェネティックコード、およびリード識別子に関係する情報を含有した。中間表現ファイルはまた、参照ゲノムに対する試料配列読み取りデータのアライメントの配向性から確かめられた鎖情報に関係する情報を含有した。フォワード鎖は、(+)によって指名され、リバース鎖は、(-)によって指名される(図47)。
中間表現ファイルにおけるその結果生じるエピジェネティックコードファイルを、ゲノムの塩基位置におけるエピジェネティック状態のカウントを含有する定量化ファイルへと転換し、これにより、ゲノムにわたるエピジェネティック状態の頻度の測定を可能にする(図46C)。メチル化されていない、メチル化されたまたはヒドロキシメチル化された状態を含有するとデコードされるカウントの割合を使用して、目的のゲノムの位置または染色体セグメントにおけるこれらのエピジェネティック状態の線形頻度マップを生成した(図46C)。
(実施例18)
1個または複数の標的化された目的のゲノム領域におけるエピジェネティック情報の測定
ある実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる(図48)。例えば、そのような実施形態では、出発DNA材料(二本鎖DNA)は先ず変性される(例えば、温度変性を使用して)。目的の領域(ROI)を標的化するために、4塩基オリゴは、ROIの3’末端を標的化するように設計される。4bオリゴを、個々に捕捉された鎖にインデックス付けをすることができるIlluminaカスタムインデックスに取り付ける。標的化オリゴの第2の対は、ROIの5’末端を標的化するように設計され、これにより、構築物が脱アミノ化される後の操作における使用のためのPCRハンドルを創出する。オリゴは、スタッガード二重鎖であり、インデックスを含有するように設計され、ROIの5’末端をプライムする標的化配列を有する。ssDNAの5’および3’末端においてROIをプライムしたら、鎖置換陰性ポリメラーゼ(例えば、T4等)を使用して「ギャップ」をフィリングし、続いてライゲーション(例えば、T4リガーゼ)し、これにより、次の操作において2塩基配列のための鋳型として使用されるヘアピンまたはPCRハンドルを置換することなく、コピー鎖を創出する。エピジェネティックな塩基であるmCは、元の鎖からコピーされた鎖へとコピーされ、5hmCは、bGT酵素による処置によって脱アミノ化から保護される。構築物をTETで処置して(bGTの存在または非存在下で)、mCを、fC、caCまたはghmC(脱アミノ化に対して抵抗性の塩基)へと変換させる。APOBEC3AおよびヘリカーゼUvrDの組合せを使用してヘアピンを開く。PCRハンドルを使用して、ROIを増幅する。複数の領域を標的化する場合、方法は、大規模な多重PCRと組み合わせることができる。一例において、方法は、IlluminaシーケンシングアダプターがPCRハンドルに付加される追加のPCR操作を含むように適応される。異なる例において、元のPCR操作は、PCRハンドルおよび同様にIlluminaアダプターを含有する伸長されたプライマーを含有するように修飾される。
第2の実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる。本実施形態では(図49)、出発DNA材料は先ず変性される(例えば、温度変性を使用して)。目的の領域(ROI)を標的化するために、PCR操作において使用されることになる追加の配列、例えば、インデックスを含有する、4塩基オリゴプライマーが設計される。アニールされた4塩基プライマーは、例えば、APOBEC3A抵抗性塩基(例えば、hmC、fCまたはcaC)の使用により、脱アミノ化から保護される。アニールされた4塩基プライマーは、ポリメラーゼ(例えば、クレノウポリメラーゼ)により伸長される。2塩基シーケンシングのための構築物を生成するために、先ずAテイル付加によって、次いでT-オーバーハングを有するヘアピンを使用し、ヘアピンを構築物にライゲーションすることにより、ヘアピンが付加される。エピジェネティックな塩基であるmCは、元の鎖からコピーされた鎖へとコピーされ、5hmCは、bGT酵素による処置によって脱アミノ化から保護される。構築物をTETで処置して(bGTの存在または非存在下で)、mCをfC、caCまたはghmC(脱アミノ化に対して抵抗性の塩基)へと酸化する。APOBEC3AおよびヘリカーゼUvrDの組合せを使用してヘアピンを開く。APOBEC3A PCRハンドルを使用して、3塩基(A、TおよびG)標的化オリゴ(CpG領域の外側にあるROIは、ワークフローのこのステージにおいて脱アミノ化され得るため、3塩基標的化オリゴを使用して、ROIを標的化する)と組み合わせてROIを増幅する。複数の領域を標的化する場合、方法は、大規模な多重PCRと組み合わせることができる。一例において、方法は、IlluminaシーケンシングアダプターがPCRハンドルに付加される追加のPCR操作を含むように適応される。異なる例において、元のPCR操作は、PCRハンドルおよびIlluminaアダプターを含有する伸長されたプライマーを含有するように修飾される。
第3の実施形態では、本明細書に記載されている方法および組成物を使用して、ゲノムにおける標的化された目的の領域におけるエピジェネティック情報を測定することができる。本実施形態では(図50)、出発DNA材料(二本鎖DNA)は先ず末端修復およびAテイル付加される。この材料は、「TA」ライゲーションを使用してヘアピンにより適応され、それによって、ヘアピンは、プライムし、DNAのいずれかの側におけるヘアピンのライゲーションに使用されるT-オーバーハングを含有する。ヘアピンは、消化酵素(例えば、酵素ウラシルDNAグリコシラーゼ(UDG)およびエンドヌクレアーゼVIIIを使用することができる)を使用してカットすることができるUを含有する。プローブ(4塩基オリゴ)を使用して、ROIの反対側のヘアピンに隣接するように、前記DNA構築物の3’末端へとプライムする。オリゴは、例えば、APOBEC3A抵抗性塩基(例えば、hmC、fCまたはcaC)を含有することにより、APOBEC3A脱アミノ化から保護される。オリゴの5’末端は、修飾された塩基(例えば、ホスホロチオエート誘導体)を含有することによりエキソヌクレアーゼ抵抗性となる。一実施形態では、オリゴは、インデックスを含有することができる。プライミングオリゴは、ヘアピンを置換しない鎖置換陰性ポリメラーゼにより伸長される。次に、コピー鎖は、ヘアピンにライゲーションされる。3’末端における潜在的なミスマッチは、ssDNA特異的エキソヌクレアーゼによりトリミングされ、相補配列は、fCまたはcaC等のAPOBEC3A抵抗性塩基を使用してポリメラーゼにより構築されて、2塩基シーケンシングのための構築物が生成される。エピジェネティックな塩基であるmCは次いで、元の鎖からコピーされた鎖へとコピーすることができ、5hmCは、bGT酵素による処置によって脱アミノ化から保護することができる。構築物をTETで処置して(bGTの存在または非存在下で)、mCを酸化して、脱アミノ化に対して抵抗性のfC、caCまたはghmCを生成する。APOBEC3AおよびヘリカーゼUvrDの組合せを使用してヘアピンを開く。ROIは次いで、脱アミノ化抵抗性PCRハンドルを使用して増幅することができる。複数の領域を標的化する場合、方法は、複数のプライマーが使用される大規模な多重PCRと組み合わせることができる。一例において、方法は、IlluminaシーケンシングアダプターがPCRハンドルに付加される追加のPCR操作を含むように適応される。異なる例において、元のPCR操作は、PCRハンドルおよびIlluminaアダプターを含有する伸長されたプライマーを含有するように修飾される。
本発明に係る組成物および方法の好まれる実施形態が本明細書に示され記載されているが、当業者には、そのような実施形態が、単なる一例として提供されていることが明らかであろう。本発明に係る組成物および方法が、本明細書内に提供される具体例によって限定されることは意図されない。本発明に係る組成物および方法は、上述の明細書を参照しつつ記載されてきたが、本明細書における実施形態の記載および説明は、限定の意味で解釈されることを意味するものではない。そこで、当業者であれば、本発明に係る組成物および方法から逸脱することなく、多数の変形、変化および置換に気が付くであろう。さらに、本発明に係る組成物および方法のあらゆる態様が、本明細書に示される具体的な描写、構成または相対的割合に限定されず、これらは種々の条件および変数に依存することが理解される。本明細書に記載されている本発明に係る組成物および方法の実施形態の様々な代替を、本発明に係る組成物および方法の実施において用いることができることを理解されたい。したがって、本発明に係る組成物および方法が、いかなるそのような代替、修正、変形または均等物も網羅することが企図される。次の特許請求の範囲が、本発明に係る組成物および方法の範囲を定義し、このような特許請求の範囲の範囲内の方法および構造ならびにそれらの均等物が、これにより網羅されることが意図される。

Claims (236)

  1. (a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
    (b)シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、
    (c)実行された場合に、前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
    を含む方法。
  2. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項1に記載の方法。
  3. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項1に記載の方法。
  4. 前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドが連結されている、請求項1から3のいずれか一項に記載の方法。
  5. シーケンシング前のいずれの時点でも、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、(i)ヘアピンによって共有結合により連結されているか、(ii)ワトソン-クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、(iii)それぞれバーコードに連結されているか、または(iv)これらの任意の組合せである、請求項1から4のいずれか一項に記載の方法。
  6. 前記フォワードポリヌクレオチドが、相補的デオキシリボ核酸(cDNA)分子またはそのアンプリコンを含む、請求項1に記載の方法。
  7. RNAヌクレオチドを、逆転写酵素、その生物学的に活性な断片、またはその誘導体と接触させて、前記フォワードポリヌクレオチドを生成するステップをさらに含む、請求項1に記載の方法。
  8. 前記元のポリヌクレオチドが、対象から得られた試料から単離されたデオキシリボ核酸(DNA)ポリヌクレオチドを含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記元のポリヌクレオチドが、無細胞DNA(cfDNA)ポリヌクレオチドを含む、請求項1から8のいずれか一項に記載の方法。
  10. 前記フォワードポリヌクレオチドが、前記元のポリヌクレオチドまたはその一部である、請求項1から5または8から9のいずれか一項に記載の方法。
  11. 前記フォワードポリヌクレオチドが、前記元のポリヌクレオチドのアンプリコンコピーである、請求項1から3または6のいずれか一項に記載の方法。
  12. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびチミン、チミンおよびシトシン、チミンおよびグアニン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項1から11のいずれか一項に記載の方法。
  13. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項1から12のいずれか一項に記載の方法。
  14. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項1から13のいずれか一項に記載の方法。
  15. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、グアニンおよびシトシンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項1から14のいずれか一項に記載の方法。
  16. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項1から15のいずれか一項に記載の方法。
  17. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100分の1以下である、請求項1から16のいずれか一項に記載の方法。
  18. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000分の1以下である、請求項1から17のいずれか一項に記載の方法。
  19. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、10,000分の1以下である、請求項1から17のいずれか一項に記載の方法。
  20. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100,000分の1以下である、請求項1から17のいずれか一項に記載の方法。
  21. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000,000分の1以下である、請求項1から17のいずれか一項に記載の方法。
  22. 前記第2の塩基の前記第2のアイデンティティーを決定するステップが、リードポリヌクレオチドをシーケンシングすることを含み、前記リードポリヌクレオチドが、前記同族ポリヌクレオチドの同族アンプリコンである、請求項1から21のいずれか一項に記載の方法。
  23. 参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項1から22のいずれか一項に記載の方法。
  24. 試料が得られた対象を含む集団において0.1%以下の頻度を有する突然変異が、450倍以下の座位カバレッジを使用して、少なくとも90%の感度で前記元のポリヌクレオチドの前記座位において検出される、請求項1から23のいずれか一項に記載の方法。
  25. (a)の前に、前記元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項1から24のいずれか一項に記載の方法。
  26. (a)の前に、脱アミノ化反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項25に記載の方法。
  27. 前記脱アミノ化反応が、デアミナーゼを用いて行われる、請求項26に記載の方法。
  28. 前記デアミナーゼが、APOBECまたはその断片である、請求項27に記載の方法。
  29. 前記脱アミノ化反応が、ヘリカーゼまたはその断片の存在下で行われる、請求項26から28のいずれか一項に記載の方法。
  30. (a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
    (b)前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをバイサルファイトと接触させるステップと、
    (c)シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、
    (d)実行された場合に、前記第1の塩基の前記アイデンティティーおよび前記第2の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
    を含む方法。
  31. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項30に記載の方法。
  32. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項30に記載の方法。
  33. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項30に記載の方法。
  34. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをバイサルファイトと接触させるステップの前に実施される、請求項23に記載の方法。
  35. DNAメチルトランスフェラーゼ活性を有する前記実体が、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNMT5である、請求項23または請求項34に記載の方法。
  36. 前記フォワードポリヌクレオチドが、5-メチルシトシン、5-ヒドロキシメチルシトシン、または両方を含む、請求項30から35のいずれか一項に記載の方法。
  37. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ワトソン-クリック型の塩基対合によって連結されている、請求項30から36のいずれか一項に記載の方法。
  38. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ヘアピン、バーコード、または両方によってさらに連結されている、請求項30から37のいずれか一項に記載の方法。
  39. DNAメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップの後に、前記同族ポリヌクレオチドが、必要に応じて5-メチルシトシンを含む、請求項33から38のいずれか一項に記載の方法。
  40. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項30から39のいずれか一項に記載の方法。
  41. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項30から40のいずれか一項に記載の方法。
  42. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項30から41のいずれか一項に記載の方法。
  43. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項30から42のいずれか一項に記載の方法。
  44. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項30から43のいずれか一項に記載の方法。
  45. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値がメチル化されたシトシンである、請求項30から44のいずれか一項に記載の方法。
  46. 参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項30から45のいずれか一項に記載の方法。
  47. (b)の前または後に、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを使用して、化学または酵素反応を行うステップをさらに含む、請求項30から46のいずれか一項に記載の方法。
  48. (a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
    (b)前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを酸化剤と接触させるステップと、
    (c)シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、
    (d)実行された場合に、前記第1の塩基の前記アイデンティティーおよび前記第2の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
    を含む方法。
  49. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項48に記載の方法。
  50. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項48に記載の方法。
  51. 前記酸化剤が金属酸化物である、請求項48に記載の方法。
  52. 前記酸化剤がルテニウム酸塩である、請求項48に記載の方法。
  53. 前記酸化剤がルテニウム酸カリウムである、請求項52に記載の方法。
  54. 前記酸化剤がメチルシトシンジオキシゲナーゼである、請求項48に記載の方法。
  55. 前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション(TET)酵素、またはその誘導体である、請求項54に記載の方法。
  56. 前記フォワードポリヌクレオチドが、5-メチルシトシン、5-ヒドロキシメチルシトシン、または両方を含む、請求項36から55のいずれか一項に記載の方法。
  57. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ワトソン-クリック型の塩基対合によって連結されている、請求項48から56のいずれか一項に記載の方法。
  58. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、ヘアピン、バーコード、または両方によってさらに連結されている、請求項48から57のいずれか一項に記載の方法。
  59. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項48から58のいずれか一項に記載の方法。
  60. DNAメチルトランスフェラーゼ活性を有する前記実体が、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される、請求項59に記載の方法。
  61. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップの後に実施される、請求項59または請求項60に記載の方法。
  62. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む、請求項48から61のいずれか一項に記載の方法。
  63. 前記脱アミノ化剤がデアミナーゼである、請求項62に記載の方法。
  64. 前記デアミナーゼが、APOBECまたはその断片である、請求項63に記載の方法。
  65. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む、請求項62に記載の方法。
  66. 前記脱アミノ化剤がバイサルファイトである、請求項62に記載の方法。
  67. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、グアニンおよびシトシン、チミンおよびシトシン、またはチミンおよびチミンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項48から66のいずれか一項に記載の方法。
  68. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項48から67のいずれか一項に記載の方法。
  69. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンまたは5-ヒドロキシメチルシトシン(5hmC)である、請求項48から68のいずれか一項に記載の方法。
  70. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項48から69のいずれか一項に記載の方法。
  71. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項48から70のいずれか一項に記載の方法。
  72. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、シトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が5-メチルシトシン(5mC)である、請求項48から71のいずれか一項に記載の方法。
  73. 参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項48から72のいずれか一項に記載の方法。
  74. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100分の1以下である、請求項48から73のいずれか一項に記載の方法。
  75. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000分の1以下である、請求項48から73のいずれか一項に記載の方法。
  76. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、10,000分の1以下である、請求項48から73のいずれか一項に記載の方法。
  77. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100,000分の1以下である、請求項48から73のいずれか一項に記載の方法。
  78. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000,000分の1以下である、請求項48から73のいずれか一項に記載の方法。
  79. (a)の前に、前記元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項48から78のいずれか一項に記載の方法。
  80. (a)フォワードポリヌクレオチドおよび同族ポリヌクレオチドを提供するステップと、
    (b)前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを、5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する薬剤と接触させるステップと、
    (c)シーケンシングを使用して、前記フォワードポリヌクレオチドの座位における第1の塩基の第1のアイデンティティーおよび前記同族ポリヌクレオチドの対応する座位における、またはその近位にある第2の塩基の第2のアイデンティティーを決定するステップと、
    (d)実行された場合に、前記第1の塩基の前記アイデンティティーおよび前記第2の塩基の前記アイデンティティーに少なくとも部分的に基づいて、前記フォワードポリヌクレオチドの前記座位に対応する元のポリヌクレオチドの座位における真の塩基の値を決定するプロセッサー、メモリー、およびそれに記憶された命令を含むコンピューターを使用するステップと
    を含む方法。
  81. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位にある、請求項80に記載の方法。
  82. 前記第2の塩基が、前記同族ポリヌクレオチドの前記対応する座位の近位にある、請求項80に記載の方法。
  83. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する実体と接触させるステップをさらに含む、請求項80に記載の方法。
  84. DNAメチルトランスフェラーゼ活性を有する前記実体が、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される、請求項83に記載の方法。
  85. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを、5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する薬剤と前記接触させるステップの後に実施される、請求項83または請求項84に記載の方法。
  86. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを脱アミノ化剤と接触させるステップをさらに含む、請求項80から85のいずれか一項に記載の方法。
  87. 前記脱アミノ化剤がデアミナーゼである、請求項86に記載の方法。
  88. 前記脱アミノ化剤が、APOBEC、またはその断片である、請求項87に記載の方法。
  89. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをヘリカーゼと接触させるステップをさらに含む、請求項86に記載の方法。
  90. 前記脱アミノ化剤がバイサルファイトである、請求項86に記載の方法。
  91. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを酸化剤と接触させるステップをさらに含む、請求項80から90のいずれか一項に記載の方法。
  92. 前記酸化剤がメチルシトシンジオキシゲナーゼである、請求項91に記載の方法。
  93. 前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション(TET)酵素、またはその誘導体である、請求項91に記載の方法。
  94. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、DNAメチルトランスフェラーゼ活性を有する前記実体と前記接触させるステップの後に実施される、請求項91から93のいずれか一項に記載の方法。
  95. DNAメチルトランスフェラーゼ活性を有する前記実体が、DNA(シトシン-5)-メチルトランスフェラーゼ1(DNMT1)またはDNA(シトシン-5)-メチルトランスフェラーゼ5(DNMT5)から選択される、請求項94に記載の方法。
  96. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、5-ヒドロキシメチルシトシン(5hmC)を特異的にグリコシル化する前記薬剤と接触させるステップをさらに含む、請求項80から95のいずれか一項に記載の方法。
  97. 5hmCを特異的にグリコシル化する前記薬剤が、β-グルコシルトランスフェラーゼである、請求項96に記載の方法。
  98. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを、5hmCを特異的にグリコシル化する前記薬剤と前記接触させるステップが、前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドを前記酸化剤と前記接触させるステップの後に実施される、請求項97に記載の方法。
  99. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをデアミナーゼと接触させるステップをさらに含む、請求項80から98のいずれか一項に記載の方法。
  100. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素(APOBEC)、二本鎖DNAデアミナーゼ、またはそれらの断片から選択される、請求項99に記載の方法。
  101. 前記フォワードポリヌクレオチド、および必要に応じて前記同族ポリヌクレオチドをAPOBECと前記接触させるステップの前に、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドの1つまたは複数の座位が連結されないように前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを処理する、請求項100に記載の方法。
  102. 前記処理することが、前記第1のポリヌクレオチドまたはその一部を、前記第2のポリヌクレオチドまたはその一部から分離することを含む、請求項101に記載の方法。
  103. 前記分離することが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドをヘリカーゼと接触させることを含む、請求項102に記載の方法。
  104. 前記処理することが、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを一本鎖DNA結合タンパク質(SSB)と接触させることを含む、請求項101または請求項102に記載の方法。
  105. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、シトシンおよびグアニンに先行されない場合のグアニンおよびシトシン、グアニンおよびシトシンが後続しない場合のシトシンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のシトシンおよびグアニンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項80から104のいずれか一項に記載の方法。
  106. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項80から105のいずれか一項に記載の方法。
  107. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項80から106のいずれか一項に記載の方法。
  108. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項80から107のいずれか一項に記載の方法。
  109. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項80から108のいずれか一項に記載の方法。
  110. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーが、CpGコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が5-メチルシトシン(5mC)である、請求項80から109のいずれか一項に記載の方法。
  111. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、CpGコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が5-ヒドロキシメチルシトシン(5hmC)である、請求項80から110のいずれか一項に記載の方法。
  112. 参照核酸配列に、シーケンシング中に生じたデータをアラインする前に、前記真の塩基の前記値が決定される、請求項80から111のいずれか一項に記載の方法。
  113. 前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドを還元剤と接触させるステップをさらに含む、請求項91から95のいずれか一項に記載の方法。
  114. 前記還元剤が、ボランまたはボランの誘導体である、請求項113に記載の方法。
  115. 前記還元剤が、ピリジンボラン、2-ピコリンボラン(pic-ボラン)、ボラン、ジボラン、tert-ブチルアミンボラン、アンモニアボラン、水素化ホウ素ナトリウム(NaBH)、シアノ水素化ホウ素ナトリウム(NaBHCN)、エチレンジアミンボラン、ジメチルアミンボラン、トリアセトキシ水素化ホウ素ナトリウム、モルホリンボラン、4-メチルモルホリンボラン、トリメチルアミンボラン、ジシクロヘキシルアミンボラン、もしくは水素化ホウ素リチウム(LiBH)、またはそれらの塩から選択される、請求項113または請求項114に記載の方法。
  116. 前記還元剤がピリジンボランである、請求項115に記載の方法。
  117. 前記還元剤が、水素化アルミニウムリチウム、ナトリウムアマルガム、アマルガム、二酸化硫黄、ジチオン酸塩、チオ硫酸塩、ヨウ化物、過酸化水素、ヒドラジン、水素化ジイソブチルアルミニウム、シュウ酸、一酸化炭素、シアン化物、アスコルビン酸、ギ酸、ジチオトレイトール、ベータ-メルカプトエタノール、またはこれらの任意の組合せを含む、請求項113に記載の方法。
  118. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、以下の組合せ:アデニンおよびアデニン、アデニンおよびシトシン、アデニンおよびグアニン、シトシンおよびアデニン、シトシンおよびシトシン、シトシンおよびチミン、グアニンおよびアデニン、グアニンおよびグアニン、チミンおよびシトシン、チミンおよびチミン、それぞれ、チミンおよびグアニンに先行されない場合のグアニンおよびチミン、グアニンおよびシトシンが後続しない場合のチミンおよびグアニン、またはそれぞれグアニンおよびチミンが後続しない場合のチミンおよびグアニンのいずれかであると決定された場合、前記真の塩基の前記値がミスコールであると決定される、請求項113から117のいずれか一項に記載の方法。
  119. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、アデニンおよびチミンであると決定された場合、前記真の塩基の前記値がアデニンである、請求項113から118のいずれか一項に記載の方法。
  120. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびグアニンであると決定された場合、前記真の塩基の前記値がシトシンである、請求項113から119のいずれか一項に記載の方法。
  121. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、グアニンおよびチミンであると決定された場合、前記真の塩基の前記値がグアニンである、請求項113から120のいずれか一項に記載の方法。
  122. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーがそれぞれ、チミンおよびアデニンであると決定された場合、前記真の塩基の前記値がチミンである、請求項113から121のいずれか一項に記載の方法。
  123. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーが、CpGコンテキストの、それぞれグアニンおよびシトシンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が5-メチルシトシン(5mC)である、請求項113から122のいずれか一項に記載の方法。
  124. 前記第1の塩基の前記第1のアイデンティティーおよび前記第2の塩基の前記第2のアイデンティティーが、それぞれ、CpGコンテキストの、それぞれグアニンおよびチミンが後続するシトシンおよびグアニンであると決定された場合、前記真の塩基の前記値が5-ヒドロキシメチルシトシン(5hmC)である、請求項113から123のいずれか一項に記載の方法。
  125. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100分の1以下である、請求項80から124のいずれか一項に記載の方法。
  126. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000分の1以下である、請求項80から124のいずれか一項に記載の方法。
  127. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、10,000分の1以下である、請求項80から124のいずれか一項に記載の方法。
  128. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、100,000分の1以下である、請求項80から124のいずれか一項に記載の方法。
  129. 前記元のポリヌクレオチドの前記座位における前記真の塩基の前記アイデンティティーを決定するための偽陽性率が、1,000,000分の1以下である、請求項80から124のいずれか一項に記載の方法。
  130. (a)の前に、前記元のポリヌクレオチドまたはその誘導体に関して1つまたは複数の化学反応または酵素反応を行うことによって、前記フォワードポリヌクレオチドおよび同族ポリヌクレオチドを生成するステップをさらに含む、請求項80から129のいずれか一項に記載の方法。
  131. シーケンシング前のいずれの時点でも、前記フォワードポリヌクレオチドおよび前記同族ポリヌクレオチドが、(i)ヘアピンによって共有結合により連結されているか、(ii)ワトソン-クリック型の塩基対合によって二本鎖ポリヌクレオチドとして連結されているか、(iii)それぞれバーコードに連結されているか、または(iv)これらの任意の組合せである、請求項80から130のいずれか一項に記載の方法。
  132. 前記座位における真の塩基のバリアントの値に少なくとも部分的に基づいて、前記対象における状態を診断するステップをさらに含む、請求項1から131のいずれか一項に記載の方法。
  133. 前記状態ががんである、請求項132に記載の方法。
  134. 前記がんが、肉腫、神経膠腫、腺腫、白血病、膀胱がん、乳がん、結腸直腸がん、子宮内膜がん、腎臓がん、肝臓がん、肺がん、黒色腫、非ホジキンリンパ腫、膵臓がん、前立腺がん、甲状腺がんから選択される、請求項133に記載の方法。
  135. 前記状態が神経変性状態である、請求項132に記載の方法。
  136. 前記神経変性状態が、アルツハイマー病、前頭側頭型認知症、筋萎縮性側索硬化症、パーキンソン病、脊髄小脳変性症、脊髄性筋萎縮症、レビー小体型認知症、またはハンチントン病から選択される、請求項135に記載の方法。
  137. 前記シーケンシングが、マクサムギルバートシーケンシング、サンガーシーケンシング、またはハイスループットシーケンシングを含む、請求項1から136のいずれか一項に記載の方法。
  138. 前記ハイスループットシーケンシングが、次世代シーケンシングまたは第三世代シーケンシングを含む、請求項137に記載の方法。
  139. 前記第三世代シーケンシングが、ロングリードシーケンシングである、請求項138に記載の方法。
  140. (a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基を脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、
    (b)前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、
    (c)前記シーケンシングデータを処理して、少なくとも約80%の精度で前記シトシン塩基を同定するステップと
    を含む方法。
  141. 前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項140に記載の方法。
  142. 前記シーケンシングデータを処理して、少なくとも約90%の精度で前記シトシン塩基を同定するステップをさらに含む、請求項141に記載の方法。
  143. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記シトシン塩基を同定するステップをさらに含む、請求項142に記載の方法。
  144. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記シトシン塩基を同定するステップをさらに含む、請求項143に記載の方法。
  145. 前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項140に記載の方法。
  146. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項145に記載の方法。
  147. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、もしくはそれらの断片と少なくとも90%相同であるアミノ酸配列、またはその断片を含む、請求項140に記載の方法。
  148. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項147に記載の方法。
  149. (b)の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、(c)が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項140に記載の方法。
  150. (a)の前に、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項140に記載の方法。
  151. (a)の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項150に記載の方法。
  152. 核酸伸長反応において前記フォワード鎖を使用して、前記二本鎖ポリヌクレオチドを生成するステップをさらに含む、請求項151に記載の方法。
  153. 前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項152に記載の方法。
  154. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項153に記載の方法。
  155. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、もしくはそれらの断片と少なくとも90%相同であるアミノ酸配列、またはその断片を含む、請求項154に記載の方法。
  156. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項155に記載の方法。
  157. 前記シトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である、請求項155に記載の方法。
  158. (b)の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、(c)が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項157に記載の方法。
  159. (c)が、前記シーケンシングデータを処理して、少なくとも約90%の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項158に記載の方法。
  160. (c)が、前記シーケンシングデータを処理して、少なくとも約95%の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項159に記載の方法。
  161. (c)が、前記シーケンシングデータを処理して、少なくとも約99%の精度で前記シトシン塩基をシトシン塩基として同定することを含む、請求項160に記載の方法。
  162. 前記フォワード鎖がメチル化されたシトシン塩基を含み、(i)前記メチル化されたシトシン塩基を含む前記フォワード鎖および(ii)前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用するステップをさらに含む、請求項161に記載の方法。
  163. (a)の前に、前記メチル化されたシトシン塩基を、グルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む、請求項162に記載の方法。
  164. 前記メチル化されたシトシン塩基がメチルシトシン塩基であり、前記変換するステップが、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項163に記載の方法。
  165. 前記メチル化されたシトシン塩基がヒドロキシメチルシトシンであり、前記変換するステップが、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項163に記載の方法。
  166. 前記脱アミノ化するステップが、デアミナーゼを用いて実施される、請求項163に記載の方法。
  167. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項166に記載の方法。
  168. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片と少なくとも90%相同であるアミノ酸配列を含む、請求項167に記載の方法。
  169. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項168に記載の方法。
  170. (b)の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、(c)が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項169に記載の方法。
  171. 前記シーケンシングデータを処理して、少なくとも約80%の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項170に記載の方法。
  172. 前記シーケンシングデータを処理して、少なくとも約90%の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項171に記載の方法。
  173. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項172に記載の方法。
  174. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記メチル化されたシトシン塩基をメチル化されたシトシン塩基として同定するステップをさらに含む、請求項173に記載の方法。
  175. (a)ヘリカーゼの存在下で二本鎖ポリヌクレオチドのシトシン塩基をデアミナーゼを用いて脱アミノ化して、脱アミノ化されたシトシン塩基を得るステップと、
    (b)前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の少なくとも一部をシーケンシングして、シーケンシングデータを得るステップと、
    (c)前記シーケンシングデータを処理して、前記シトシン塩基を同定するステップと
    を含む方法。
  176. 前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項175に記載の方法。
  177. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項175に記載の方法。
  178. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片と少なくとも90%相同であるアミノ酸配列を含む、請求項175に記載の方法。
  179. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項178に記載の方法。
  180. (a)の前に、フォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項175に記載の方法。
  181. (a)の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項180に記載の方法。
  182. 前記分離するステップが、前記フォワード鎖を、前記二本鎖ポリヌクレオチドを生成する核酸伸長反応に供することを含む、請求項181に記載の方法。
  183. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項182に記載の方法。
  184. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片と少なくとも90%相同であるアミノ酸配列を含む、請求項183に記載の方法。
  185. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項184に記載の方法。
  186. 前記シトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基である、請求項185に記載の方法。
  187. (b)の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、(c)が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項186に記載の方法。
  188. 前記フォワード鎖がメチル化されたシトシン塩基を含み、前記分離するステップが、(i)前記メチル化されたシトシン塩基を含む前記フォワード鎖および(ii)前記シトシン塩基を含む追加のリバース鎖を含む修飾された二本鎖ポリヌクレオチドを生成する核酸伸長反応において前記フォワード鎖を使用することを含む、請求項181に記載の方法。
  189. (a)の前に、前記メチル化されたシトシン塩基を、グルコシル化されたヒドロキシメチルシトシンに変換するステップをさらに含む、請求項188に記載の方法。
  190. 前記メチル化されたシトシン塩基がメチルシトシン塩基であり、前記変換するステップが、前記メチルシトシン塩基を酸化条件に供してヒドロキシメチルシトシン塩基を生成し、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項189に記載の方法。
  191. 前記メチル化されたシトシン塩基がヒドロキシメチルシトシンであり、前記変換するステップが、前記ヒドロキシメチルシトシン塩基をグルコシル化条件に供して、前記グルコシル化されたヒドロキシメチルシトシンを生成することを含む、請求項189に記載の方法。
  192. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項189に記載の方法。
  193. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片と少なくとも90%相同であるアミノ酸配列を含む、請求項192に記載の方法。
  194. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項193に記載の方法。
  195. (b)の前に、前記脱アミノ化されたシトシン塩基を含む前記二本鎖ポリヌクレオチドを1つまたは複数の反応に供して、前記その二本鎖の誘導体を生成するステップをさらに含み、(c)が前記その二本鎖の誘導体の少なくとも一部をシーケンシングして、前記シーケンシングデータを得ることを含む、請求項194に記載の方法。
  196. デアミナーゼ、
    ヘリカーゼ、ならびに
    パッケージ、およびその中の、前記キットを使用するための命令
    を含むキット。
  197. 前記デアミナーゼが、アポリポタンパク質B mRNA編集酵素触媒ポリペプチド様(APOBEC)酵素、またはその断片である、請求項196に記載のキット。
  198. メチルシトシンジオキシゲナーゼをさらに含む、請求項196に記載のキット。
  199. 前記メチルシトシンジオキシゲナーゼが、テンイレブントランスロケーション(TET)酵素またはその断片を含む、請求項198に記載のキット。
  200. デオキシリボ核酸(DNA)グルコシルトランスフェラーゼをさらに含む、請求項196に記載のキット。
  201. 前記DNAグルコシルトランスフェラーゼが、DNAベータ-グルコシルトランスフェラーゼを含む、請求項200に記載のキット。
  202. DNAメチルトランスフェラーゼをさらに含む、請求項196に記載のキット。
  203. 前記DNAメチルトランスフェラーゼが、DNAメチルトランスフェラーゼ1(DNMT1)を含む、請求項202に記載のキット。
  204. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはその断片と少なくとも90%相同であるアミノ酸配列を含む、請求項196に記載のキット。
  205. 前記ヘリカーゼが、UvrDヘリカーゼ、Geobacillus sterothermophilus Badタンパク質、PcrAヘリカーゼ、またはそれらの断片である、請求項204に記載のキット。
  206. (a)塩基を含むポリヌクレオチドを、前記塩基を前記塩基に由来する変更された塩基に集合的に形質転換する1つまたは複数の試薬と接触させ、それによって、前記変更された塩基を含む修飾されたポリヌクレオチドを生成するステップと、
    (b)前記変更された塩基を含む前記修飾されたポリヌクレオチドまたはその誘導体の少なくとも一部をシーケンシングして、10倍以下のカバレッジを有するシーケンシングデータを得るステップと、
    (c)前記シーケンシングデータを処理して、少なくとも約90%の精度で前記塩基を同定するステップと
    を含む方法。
  207. 前記修飾されたポリヌクレオチドまたはその誘導体が、二本鎖ポリヌクレオチドである、請求項206に記載の方法。
  208. 前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドの両鎖の少なくとも一部をシーケンシングすることを含む、請求項207に記載の方法。
  209. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記塩基を同定するステップをさらに含む、請求項206に記載の方法。
  210. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記塩基を同定するステップをさらに含む、請求項209に記載の方法。
  211. 前記塩基がシトシン塩基であり、(c)が、前記シーケンシングデータを処理して、少なくとも約90%の前記精度で前記シトシン塩基をシトシンとして同定することを含む、請求項206に記載の方法。
  212. 前記シトシン塩基が、メチル化されたシトシン塩基である、請求項211に記載の方法。
  213. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む、請求項212に記載の方法。
  214. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記メチル化された塩基をシトシンとして同定するステップをさらに含む、請求項213に記載の方法。
  215. 前記1つまたは複数の試薬が酸化剤を含む、請求項206に記載の方法。
  216. 前記1つまたは複数の試薬がDNAグルコシルトランスフェラーゼを含む、請求項206に記載の方法。
  217. 前記1つまたは複数の試薬がデアミナーゼを含む、請求項206に記載の方法。
  218. 前記1つまたは複数の試薬がヘリカーゼを含む、請求項206に記載の方法。
  219. 前記1つまたは複数の試薬がDNAメチルトランスフェラーゼを含む、請求項206に記載の方法。
  220. (a)の前に、前記ポリヌクレオチドを含むフォワード鎖およびリバース鎖を含む試料二本鎖ポリヌクレオチドを提供するステップをさらに含む、請求項206に記載の方法。
  221. (a)の前に、前記リバース鎖から前記フォワード鎖を分離するステップをさらに含む、請求項220に記載の方法。
  222. 前記分離するステップが、前記フォワード鎖を、前記ポリヌクレオチドを含む二本鎖ポリヌクレオチドを生成する核酸伸長反応において使用することを含む、請求項221に記載の方法。
  223. 前記メチル化された塩基がメチル化されたシトシン塩基である、請求項222に記載の方法。
  224. 前記1つまたは複数の試薬がデアミナーゼおよびヘリカーゼを含む、請求項223に記載の方法。
  225. 前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項224に記載の方法。
  226. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む、請求項225に記載の方法。
  227. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記メチル化されたシトシン塩基をシトシンとして同定するステップをさらに含む、請求項226に記載の方法。
  228. 前記ポリヌクレオチドがポリヌクレオチドの集団に由来し、ポリヌクレオチドの前記集団における前記メチル化されたシトシン塩基の塩基頻度が、所与の座位において50%未満であるかまたはそれに等しい、請求項221に記載の方法。
  229. 前記メチル化されたシトシン塩基が、メチルシトシン塩基またはヒドロキシメチルシトシン塩基を含む、請求項223に記載の方法。
  230. 前記メチル化されたシトシン塩基がメチルシトシン塩基を含み、前記1つまたは複数の試薬が、酸化剤、DNAグルコシルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む、請求項229に記載の方法。
  231. 前記メチル化されたシトシン塩基がヒドロキシメチルシトシン塩基を含み、前記1つまたは複数の試薬が、酸化剤、DNAグルコシルトランスフェラーゼ、メチルトランスフェラーゼ、デアミナーゼおよびヘリカーゼを含む、請求項229に記載の方法。
  232. 前記シーケンシングするステップが、前記二本鎖ポリヌクレオチドまたはその二本鎖の誘導体の両鎖の少なくとも一部をシーケンシングすることを含む、請求項229に記載の方法。
  233. 前記シーケンシングデータを処理して、少なくとも約95%の精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む、請求項232に記載の方法。
  234. 前記シーケンシングデータを処理して、少なくとも約99%の精度で前記メチル化されたシトシン塩基をメチルシトシンまたはヒドロキシメチルシトシンとして同定するステップをさらに含む、請求項233に記載の方法。
  235. 前記ポリヌクレオチドが、ヘアピンによって共有結合により連結した鎖を含む二本鎖ポリヌクレオチドである、請求項208に記載の方法。
  236. 前記フォワード鎖および前記リバース鎖が、ヘアピンによって共有結合により連結されている、請求項220に記載の方法。
JP2023506164A 2020-07-30 2021-07-29 核酸解析のための組成物および方法 Pending JP2023535636A (ja)

Applications Claiming Priority (21)

Application Number Priority Date Filing Date Title
US202063058712P 2020-07-30 2020-07-30
US63/058,712 2020-07-30
US202063061093P 2020-08-04 2020-08-04
US63/061,093 2020-08-04
US202063105860P 2020-10-26 2020-10-26
US63/105,860 2020-10-26
US202063106566P 2020-10-28 2020-10-28
US63/106,566 2020-10-28
US202163152976P 2021-02-24 2021-02-24
US63/152,976 2021-02-24
US202163178386P 2021-04-22 2021-04-22
US63/178,386 2021-04-22
US202163210927P 2021-06-15 2021-06-15
US63/210,927 2021-06-15
US202163212500P 2021-06-18 2021-06-18
US63/212,500 2021-06-18
US202163213626P 2021-06-22 2021-06-22
US63/213,626 2021-06-22
US202163215752P 2021-06-28 2021-06-28
US63/215,752 2021-06-28
PCT/GB2021/051957 WO2022023753A1 (en) 2020-07-30 2021-07-29 Compositions and methods for nucleic acid analysis

Publications (1)

Publication Number Publication Date
JP2023535636A true JP2023535636A (ja) 2023-08-18

Family

ID=77338694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023506164A Pending JP2023535636A (ja) 2020-07-30 2021-07-29 核酸解析のための組成物および方法

Country Status (10)

Country Link
US (3) US11608518B2 (ja)
EP (2) EP4034676A1 (ja)
JP (1) JP2023535636A (ja)
KR (1) KR20230083269A (ja)
CN (1) CN116323977A (ja)
AU (1) AU2021319150A1 (ja)
CA (1) CA3187549A1 (ja)
IL (1) IL300238A (ja)
MX (1) MX2023001142A (ja)
WO (1) WO2022023753A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4034676A1 (en) 2020-07-30 2022-08-03 Cambridge Epigenetix Limited Compositions and methods for nucleic acid analysis
MX2023010871A (es) * 2021-03-15 2023-12-05 Illumina Inc Detección de metilcitosina y sus derivados usando análogos de la s-adenosil-l-metionina (xsams).
WO2023168300A1 (en) * 2022-03-01 2023-09-07 Guardant Health, Inc. Methods for analyzing cytosine methylation and hydroxymethylation
WO2024069581A1 (en) * 2022-09-30 2024-04-04 Illumina Singapore Pte. Ltd. Helicase-cytidine deaminase complexes and methods of use

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9907812D0 (en) * 1999-04-06 1999-06-02 Medical Biosystems Ltd Sequencing
DE10019058A1 (de) 2000-04-06 2001-12-20 Epigenomics Ag Detektion von Variationen des DNA-Methylierungsprofils
DE10056802B4 (de) 2000-11-14 2005-06-16 Epigenomics Ag Verfahren zur Detektion von Methylierungszuständen zur toxikologischen Diagnostik
US20040054162A1 (en) 2001-10-30 2004-03-18 Hanna Michelle M. Molecular detection systems utilizing reiterative oligonucleotide synthesis
DE10214232A1 (de) 2002-03-25 2003-10-23 Epigenomics Ag Verfahren und Vorrichtung für die DNA Methylierungsanalyse
US20050196792A1 (en) 2004-02-13 2005-09-08 Affymetrix, Inc. Analysis of methylation status using nucleic acid arrays
ES2564659T3 (es) 2004-09-30 2016-03-28 Epigenomics Ag Método para proveer fragmentos de ADN derivados de una muestra archivada
US7449297B2 (en) 2005-04-14 2008-11-11 Euclid Diagnostics Llc Methods of copying the methylation pattern of DNA during isothermal amplification and microarrays
SI1871912T1 (sl) 2005-04-15 2012-06-29 Epigenomics Ag Postopek za določitev DNA metilacije v vzorcih krvi ali urina
WO2007103116A2 (en) 2006-03-02 2007-09-13 Laboratory Corporation Of America Holdings Methods and systems for evaluating health risk factors by measurement of dna damage and dna repair
US7820385B2 (en) 2006-03-22 2010-10-26 The United States Of America As Represented By The Department Of Health And Human Services, Centers For Disease Control And Prevention Method for retaining methylation pattern in globally amplified DNA
EP2049684B1 (en) 2006-08-08 2015-05-06 Epigenomics AG A method for methylation analysis of nucleic acid
JP2008212009A (ja) * 2007-02-28 2008-09-18 Sysmex Corp Dnaメチル化検出用試料の調製方法
WO2008109797A1 (en) 2007-03-08 2008-09-12 Rules-Based Medicine, Inc. Methods for rapid disease screening
WO2009092035A2 (en) 2008-01-17 2009-07-23 Sequenom, Inc. Methods and compositions for the analysis of biological molecules
ES2532883T3 (es) 2008-06-12 2015-04-01 Institut National De La Sante Et De La Recherche Medicale (Inserm) TET2 como nuevo marcador de diagnóstico y de pronóstico en neoplasias hematopoyéticas
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2010048337A2 (en) 2008-10-22 2010-04-29 Illumina, Inc. Preservation of information related to genomic dna methylation
US9175341B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
US9175338B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
JP2013514758A (ja) 2008-12-23 2013-05-02 ニユー・イングランド・バイオレイブス・インコーポレイテツド 修飾dnaを切断するための組成物、方法および関連する使用
LT5708B (en) 2009-04-02 2011-01-25 Biotechnologijos Inst Derivatization of biomolecules by covalent coupling of non-cofactor compounds using methyltransferases
US8986928B2 (en) 2009-04-10 2015-03-24 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
WO2011025819A1 (en) 2009-08-25 2011-03-03 New England Biolabs, Inc. Detection and quantification of hydroxymethylated nucleotides in a polynucleotide preparation
GB2489187B (en) 2010-01-20 2015-02-11 New England Biolabs Inc Compositions, methods and related uses for cleaving modified DNA
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US20120064521A1 (en) 2010-09-09 2012-03-15 James Yen Detection of dna hydroxymethylation
EP2630257B1 (en) 2010-10-22 2017-08-02 Oslo Universitetssykehus HF Methods and kits for detection of 5-hydroxymethylcytosine
WO2012055408A1 (en) 2010-10-27 2012-05-03 Quantibact A/S Capture of target dna and rna by probes comprising intercalator molecules
WO2012119945A1 (en) 2011-03-04 2012-09-13 Ludwig-Maximilians-Universitaet Muenchen Novel methods for detecting hydroxymethylcytosine
US9145580B2 (en) 2011-04-02 2015-09-29 New England Biolabs, Inc. Methods and compositions for enriching either target polynucleotides or non-target polynucleotides from a mixture of target and non-target polynucleotides
EP2694686B2 (en) 2011-04-06 2023-07-19 The University of Chicago COMPOSITION AND METHODS RELATED TO MODIFICATION OF 5-METHYLCYTOSINE (5mC)
US8951736B2 (en) 2011-04-29 2015-02-10 Sequenom, Inc. Multimer glycosylated nucleic acid binding protein conjugates and uses thereof
EP2723904A4 (en) 2011-06-27 2015-03-04 Flir Systems METHOD AND COMPOSITIONS FOR SEPARATING A TARGET NUCLEIC ACID OF MIXED NUCLEIC ACID SAMPLES
AU2012288629B2 (en) 2011-07-25 2017-02-02 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
AU2012291873B2 (en) 2011-07-29 2016-03-10 Cambridge Epigenetix Limited Methods for detection of nucleotide modification
GB201119903D0 (en) 2011-11-17 2011-12-28 Univ Vilnius Nucleic acid production and sequence analysis
CN103131754B (zh) 2011-11-24 2014-07-30 深圳华大基因科技服务有限公司 一种检测核酸羟甲基化修饰的方法及其应用
ES2669214T3 (es) 2011-12-13 2018-05-24 Oslo Universitetssykehus Hf Procedimientos y kits para la detección de estado de metilación
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
US20140179564A1 (en) 2012-11-01 2014-06-26 Pacific Biosciences Of California, Inc. Compositions and methods for selection of nucleic acids containing modified bases
JP6224689B2 (ja) 2012-03-15 2017-11-01 ニユー・イングランド・バイオレイブス・インコーポレイテツド シトシンとこれの修飾物とを識別するための、およびメチローム分析のための方法および組成物
US9040239B2 (en) 2012-03-15 2015-05-26 New England Biolabs, Inc. Composition and methods of oxygenation of nucleic acids containing 5-methylpyrimidine
US10081827B2 (en) 2012-03-15 2018-09-25 New England Biolabs, Inc. Mapping cytosine modifications
WO2013163207A1 (en) 2012-04-24 2013-10-31 Pacific Biosciences Of California, Inc. Identification of 5-methyl-c in nucleic acid templates
GB2517875A (en) 2012-06-08 2015-03-04 Pacific Biosciences California Modified base detection with nanopore sequencing
WO2013188436A1 (en) 2012-06-11 2013-12-19 The Brigham And Women's Hospital, Inc. System and method for detecting cancer
GB201212047D0 (en) 2012-07-05 2012-08-22 Fermentas Uab Restriction endonucleases and their use
US10706957B2 (en) 2012-09-20 2020-07-07 The Chinese University Of Hong Kong Non-invasive determination of methylome of tumor from plasma
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
EP2931319B1 (en) 2012-12-13 2019-08-21 ModernaTX, Inc. Modified nucleic acid molecules and uses thereof
CN108588208B (zh) 2013-01-22 2022-05-24 国家科学研究中心 通过单分子操作来检测dna修饰和蛋白结合的方法
WO2014152279A1 (en) 2013-03-15 2014-09-25 Promega Corporation Method for quantifying 5-hydroxymethylcytosine
US10435740B2 (en) 2013-04-01 2019-10-08 University Of Florida Research Foundation, Incorporated Determination of methylation state and chromatin structure of target genetic loci
US10351898B2 (en) 2013-05-28 2019-07-16 Ramot At Tel-Aviv University Ltd. Detection of hydroxymethylcytosine bases
WO2014206568A1 (en) 2013-06-26 2014-12-31 Universität Konstanz Direct, programmable detection of epigenetic dna cytosine modifications using tal effectors
WO2014210444A1 (en) 2013-06-28 2014-12-31 New England Biolabs, Inc. Compositions and methods for identifying hydroxymethylcytosine in a dna
US20160194696A1 (en) 2013-08-09 2016-07-07 New England Biolabs, Inc. Detecting, Sequencing and/or Mapping 5-Hydroxymethylcytosine and 5-Formylcytosine at Single-Base Resolution
EP3053585A1 (en) 2013-12-13 2016-08-10 Moderna Therapeutics, Inc. Alternative nucleic acid molecules and uses thereof
WO2015104302A1 (en) 2014-01-07 2015-07-16 Fundació Privada Institut De Medicina Predictiva I Personalitzada Del Càncer Method for generating double stranded dna libraries and sequencing methods for the identification of methylated cytosines
JP2017517250A (ja) 2014-04-28 2017-06-29 シグマ−アルドリッチ・カンパニー・リミテッド・ライアビリティ・カンパニーSigma−Aldrich Co., LLC 標的エンドヌクレアーゼを用いる哺乳類ゲノムのエピジェネティック修飾
US20170175129A1 (en) 2014-06-19 2017-06-22 Moderna Therapeutics, Inc. Alternative nucleic acid molecules and uses thereof
WO2016053891A1 (en) * 2014-09-29 2016-04-07 The Regents Of The University Of California Nanopore sequencing of polynucleotides with multiple passes
WO2016077763A1 (en) * 2014-11-13 2016-05-19 The Board Of Trustees Of The University Of Illinois Bio-engineered hyper-functional "super" helicases
EP3280793A4 (en) * 2015-04-06 2018-10-03 The Regents of the University of California Methods for determining base locations in a polynucleotide
US10900071B2 (en) 2015-05-12 2021-01-26 Wake Forest University Health Sciences Identification of genetic modifications
WO2017040477A1 (en) 2015-08-31 2017-03-09 The University Of Chicago Composition and methods for detecting adenosine modifications
JPWO2017039002A1 (ja) 2015-09-04 2018-08-30 国立大学法人 東京大学 5−ヒドロキシメチルシトシン酸化剤及び5−ヒドロキシメチルシトシン解析方法
MX2018003353A (es) 2015-09-17 2018-09-17 Novartis Ag Terapias con celulas cart con una eficacia mejorada.
EP3845668A1 (en) 2015-10-30 2021-07-07 New England Biolabs, Inc. Compositions and methods for determining modified cytosines by sequencing
US10260088B2 (en) 2015-10-30 2019-04-16 New England Biolabs, Inc. Compositions and methods for analyzing modified nucleotides
EP3374524A4 (en) 2015-11-11 2019-06-26 Ramot at Tel-Aviv University Ltd. PROCESS FOR DETECTION OF 5-HYDROXYMETHYLCYTOSINE AND FOR DIAGNOSIS OF CANCER
US11001976B2 (en) 2015-11-16 2021-05-11 Baron Innovative Technologies Lp Floats, float assemblies, float adapters and interfaces, and float vibration apparatus, and methods
US20210214781A1 (en) 2016-02-14 2021-07-15 Abhijit Ajit Patel Measurement of nucleic acid
EP3214183B1 (en) 2016-03-01 2018-11-21 Universität Konstanz Transcription activator-like effector (tale)-based decoding of cytosine nucleobases by selective modification response
US11162139B2 (en) 2016-03-02 2021-11-02 Shanghai Epican Genetech Co. Ltd. Method for genomic profiling of DNA 5-methylcytosine and 5-hydroxymethylcytosine
JP7143221B2 (ja) 2016-04-07 2022-09-28 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 5-ヒドロキシメチル化無細胞系dnaをシーケンシングすることによる非侵襲性診断
US20170298422A1 (en) 2016-04-18 2017-10-19 The Board Of Trustees Of The Leland Stanford Junior University Simultaneous single-molecule epigenetic imaging of dna methylation and hydroxymethylation
CN116445593A (zh) 2016-08-10 2023-07-18 格里尔公司 测定一生物样品的一甲基化图谱的方法
US11192929B2 (en) * 2016-12-08 2021-12-07 Regents Of The University Of Minnesota Site-specific DNA base editing using modified APOBEC enzymes
GB2559319B (en) 2016-12-23 2019-01-16 Cs Genetics Ltd Reagents and methods for the analysis of linked nucleic acids
WO2018129120A1 (en) 2017-01-04 2018-07-12 The University Of Chicago Methods for detecting cytosine modifications
US11130991B2 (en) 2017-03-08 2021-09-28 The University Of Chicago Method for highly sensitive DNA methylation analysis
US20200063213A1 (en) 2017-03-08 2020-02-27 President And Fellows Of Harvard College Methods of Amplifying DNA to Maintain Methylation Status
US20200063194A1 (en) 2017-04-03 2020-02-27 The Trustees Of Columbia University In The City Of New York Comprehensive single molecule enhanced detection of modified cytosines
US10155939B1 (en) 2017-06-15 2018-12-18 New England Biolabs, Inc. Method for performing multiple enzyme reactions in a single tube
WO2019013613A2 (es) 2017-07-09 2019-01-17 Hakken Enterprise Sa De Cv Métodos y kits para determinar el riesgo de cáncer
AU2018328324A1 (en) 2017-09-11 2020-04-30 Ludwig Institute For Cancer Research Ltd Selective labeling of 5-methylcytosine in circulating cell-free DNA
WO2019060722A2 (en) * 2017-09-22 2019-03-28 X Gen Us Co. METHODS AND COMPOSITIONS FOR USE IN PREPARING POLYNUCLEOTIDES
WO2019099081A1 (en) * 2017-11-16 2019-05-23 New England Biolabs, Inc. Mapping the location, type and strand of damaged and/or mismatched nucleotides in double-stranded dna
SG11202006511YA (en) 2018-01-08 2020-08-28 Ludwig Inst For Cancer Res Ltd Bisulfite-free, base-resolution identification of cytosine modifications
WO2019160994A1 (en) 2018-02-14 2019-08-22 Bluestar Genomics, Inc. Methods for the epigenetic analysis of dna, particularly cell-free dna
US20220177874A1 (en) 2019-04-28 2022-06-09 The Regents Of The University Of California Methods for library preparation to enrich informative dna fragments using enzymatic digestion
GB201911515D0 (en) 2019-08-12 2019-09-25 Univ London Queen Mary Methods for generating a population of polynucleotide molecules
CN114555831A (zh) 2019-09-30 2022-05-27 合成Dna技术公司 制备双索引甲基化序列文库的方法
CA3162799A1 (en) 2019-12-23 2021-07-01 Benjamin F. DELATTE Methods and kits for the enrichment and detection of dna and rna modifications and functional motifs
TWI771847B (zh) 2019-12-30 2022-07-21 財團法人工業技術研究院 擴增和確定目標核苷酸序列的方法
EP4114978A4 (en) 2020-03-06 2024-07-03 Singular Genomics Systems Inc SEQUENCING OF LINKED PAIRED STRANDS
EP4034676A1 (en) 2020-07-30 2022-08-03 Cambridge Epigenetix Limited Compositions and methods for nucleic acid analysis

Also Published As

Publication number Publication date
US20220290215A1 (en) 2022-09-15
IL300238A (en) 2023-03-01
WO2022023753A1 (en) 2022-02-03
US11608518B2 (en) 2023-03-21
CA3187549A1 (en) 2022-02-03
KR20230083269A (ko) 2023-06-09
EP4083231A1 (en) 2022-11-02
US20240076720A1 (en) 2024-03-07
CN116323977A (zh) 2023-06-23
US20220298551A1 (en) 2022-09-22
EP4034676A1 (en) 2022-08-03
AU2021319150A1 (en) 2023-03-02
MX2023001142A (es) 2023-05-25

Similar Documents

Publication Publication Date Title
US20220025455A1 (en) Compositions and methods for identifying nucleic acid molecules
JP7220200B2 (ja) ライブラリー構築および配列解析のための組成物および方法
US11608518B2 (en) Methods for analyzing nucleic acids
JP2019526230A (ja) 核酸突然変異検出のための組成物及び方法
CN110628880B (zh) 一种同步使用信使rna与基因组dna模板检测基因变异的方法
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
US20180135044A1 (en) Non-unique barcodes in a genotyping assay
EP3894600B1 (en) Method for quantifying gene fusion dna
JP2022544779A (ja) ポリヌクレオチド分子の集団を生成するための方法
US20220307077A1 (en) Conservative concurrent evaluation of dna modifications
US20240052342A1 (en) Method for duplex sequencing
US20240052339A1 (en) Rna probe for mutation profiling and use thereof
WO2023245056A1 (en) Methods and compositions for the simultaneous identification and mapping of dna methylation