CN114072525A

CN114072525A - 用于dna和rna修饰和功能基序的富集和检测的方法和试剂盒

Info

Publication number: CN114072525A
Application number: CN202080049544.0A
Authority: CN
Inventors: 本杰明·F·德拉特; 埃迪·W·亚当斯; 约瑟夫·M·费尔南德斯
Original assignee: Aiyue Biotechnology Co ltd
Current assignee: Aiyue Biotechnology Co ltd
Priority date: 2019-12-23
Filing date: 2020-12-23
Publication date: 2022-02-18
Also published as: WO2021133999A1; EP3959342A4; US20220162675A1; EP3959342A1; CA3162799A1; JP2023508795A

Abstract

本文提供了用于对核酸中经修饰的核苷酸残基进行作图的方法。该方法包括提供核酸样品，其中非靶修饰或靶修饰的和未修饰的核苷酸残基被转化为不同核苷酸的形式(诸如“C”被转化为“T”)。然后使用一组锚定碱基引物对转化的核酸进行第二链合成。一组锚定碱基引物中的每个引物在3’末端包含一个或更多个与靶核苷酸(例如，“G”或“CpG”)互补的锚定碱基，以及选自序列组的核苷酸序列，该序列组可以是完全或部分简并的序列组。例如，序列可以是5’‑XnG‑3’和/或5’‑X(n‑1)CG‑3’，其中X是任何碱基，且n＝2至25。双链核酸产物可以例如通过扩增和高通量测序来分析。

Description

用于DNA和RNA修饰和功能基序的富集和检测的方法和试剂盒

相关申请的引用

本申请要求2019年12月23日提交的美国临时申请62/953,080的优先权日的权益，其内容通过引用以其整体并入本文。

背景

表观遗传学是指细胞和生物体之间不是由遗传差异造成的表型差异。DNA中的甲基化模式会导致表型的表观遗传差异，导致例如基因表达模式的变化。DNA的甲基化通常发生在胞嘧啶残基。这包括例如5位碳的甲基化。这种甲基化的形式包括5-甲基胞嘧啶(“5mC”)和5-羟甲基胞嘧啶(“5hmC”)。5-甲基胞嘧啶的更多氧化形式包括5-甲酰基胞嘧啶(“5fC”)和5-羧基胞嘧啶(“5caC”)。胞嘧啶的甲基化通常发生在CpG位点—此处核苷酸序列是“CG”。CpG位点往往以簇的形式出现，被称为“CpG岛”。在人类中，约70％的遗传启动子包含CpG岛。启动子CpG岛中多个甲基化CpG位点的存在导致基因的稳定沉默。已知甲基化与癌症和衰老有关。在癌症中，基因沉默可能是由于启动子岛的高度甲基化。

DNA甲基化模式的作图已经成为重要的研究领域。当前正在使用若干种作图。这些方法中一个共同的入口是将DNA分子中各种形式的胞嘧啶转化为尿嘧啶，对转化的分子进行测序，并通过例如作图技术将所得序列与未转化分子的序列或基因组数据库中的序列进行比较。

对甲基化模式进行作图的最常见的方法中的一种是亚硫酸氢盐测序。用亚硫酸氢盐处理DNA将胞嘧啶残基，而不是5-甲基胞嘧啶残基或5-羟甲基胞嘧啶残基转化为尿嘧啶。因为这涉及将4-氨基基团转化为4-羰基基团，该过程也被称为脱氨基化。在第二链合成中，G与引入的U配对，并在扩增期间作为“TA”而不是“CG”增长。作图时，序列中“C”的存在表示原始的未修饰的5-甲基胞嘧啶或5-羟甲基胞嘧啶。“T”的存在表示原始的“C”(或5-甲酰基胞嘧啶或5-羧基胞嘧啶)。

该策略的变化形式包括使用十-十一易位甲基胞嘧啶双加氧酶(“TET”)和/或APOBEC3A(“A3A”)。TET将5mC、5hmC和5fC转化为5caC。亚硫酸氢盐可以将5caC转化为尿嘧啶。当与例如通过葡糖基化保护5hmC基团的方法配对时，A3A将C和5mC转化为尿嘧啶，但不转化5hmC。葡糖基化可以通过例如T4β-葡糖基转移酶来进行。可以单独设计用于对5mC或5hmC进行作图的策略。

通过多种脱氨基化策略处理的DNA可以被测序以对DNA中的甲基化位点进行作图。一种这样的方法是全基因组测序。然而，在可以定位基因组中的甲基化模式的意义上，全基因组测序可能是低效的。用于富集DNA中包含修饰(诸如甲基化)的DNA的方法是已知的。

现有的表观遗传学技术包括许多用于富集、测序和/或检测某些核酸修饰(例如甲基化)的方法，诸如：

1.基于富集的方法(MeDIP和MBD-Seq/MIRA-Seq/MethylCap-seq)，其利用修饰特异性抗体或能够特异性识别甲基化CpG的蛋白/蛋白结构域。

2.全基因组亚硫酸氢盐测序

3.简化代表性亚硫酸氢盐测序(Reduced representationbisulfitesequencing)

4.甲基化特异性(q)PCR

5.亚硫酸氢盐-PCR

参见例如“见例如“Red representatc PCR:a novel PCR assay formethylationstatus of CpG islands”PNAS(1996)by James G.Herman等人。

附图的简要描述

并入本文并构成说明书一部分的附图图示了示例性实施方案，并且与描述一起进一步用于使相关领域的技术人员能够作出和使用这些实施方案以及对本领域技术人员来说将是明显的其他实施方案。将结合以下附图更具体地描述本发明，在附图中：

图1示出了全基因组亚硫酸氢盐测序(“WGBS”)的示例性方案和锚定碱基测序的示例性方案。

图2示出了锚定碱基亚硫酸氢盐测序的示例性方案。该方法富集了具有5-甲基胞嘧啶残基和5-羟基甲基胞嘧啶残基的核酸。用亚硫酸氢盐处理核酸将胞嘧啶(“C”)、甲酰基胞嘧啶(“5fC”)和羧基胞嘧啶(“5caC”)转化为尿嘧啶。甲基胞嘧啶(“5mC”)和羟基甲基胞嘧啶(“5hmC”)不被修饰。用包含在3’端的“G”残基和简并的核苷酸序列的一组引物进行第二链的合成。所得双链核酸经历扩增、文库制备和测序。

图3示出了锚定碱基TAB测序的示例性方案。该方法富集了具有5hmC残基的核酸分子。用葡糖基化酶对核酸的处理用葡糖基基团保护了5hmC残基。用TET蛋白或催化结构域处理受保护的核酸将5mC和5fC转化为5caC残基。亚硫酸氢盐处理将胞嘧啶和5caC残基转化为尿嘧啶。用根据图2的一组探针进行第二链合成。所得双链核酸经历扩增、文库制备和测序。

图4示出了锚定碱基A3A测序的示例性方案。该方法富集了具有5mC残基、5hmC残基、5fC残基和5caC残基的核酸分子。用TET蛋白或催化结构域处理核酸将5mC残基、5hmC残基和5fC残基转化为5caC残基。A3A处理将胞嘧啶残基转化为尿嘧啶。用根据图2的一组探针进行第二链合成。所得双链核酸经历扩增、文库制备和测序。

图5A和图5B示出了用于点击化学文库制备的示例性方案。核酸分子经历亚硫酸氢盐处理(或本文描述的其他处理)。如本文描述，连接到标签诸如生物素的锚定碱基探针用于处理过的核酸分子的第二链合成。这样的引物还可以包含衔接子序列，例如包含Illumina P5序列。(图5A)使双链分子变性并进行第二链延伸、连接到标签、使用捕获部分(例如，链霉抗生物素蛋白)来捕获。捕获的分子可以用点击化学来修饰，以在3’末端掺入衔接子序列。这可以涉及引入3’末端叠氮化物(N3)基团，并通过5’-3-三唑键来附接烷基化的衔接子。然后使用与分子5’末端和3’末端互补的一组引物(例如，包含P5/P7衔接子序列)使分子经历扩增。可以对所得分子进行分析，例如核酸测序。(图5B)

图6A-图6E示出了用于线性扩增锚定碱基亚硫酸氢盐测序的示例性方案。将衔接子分子附接到末端修复的靶核酸分子，衔接子分子包含发夹环(其中该环不含C)，并包含双链茎中的甲基化C残基(对脱氨基化、变性和非特异性锚定将是不响应的)和环中的非“C”残基。核酸分子的亚硫酸氢盐或其他处理导致互补性的丧失和变性(图6A)。然后使用根据图2a的一组探针和具有强置换活性的链特异性等温聚合酶(诸如phi29聚合酶)来对环化的靶分子进行滚环扩增以产生多联化分子(concatemerized molecule)。未被脱氨基成尿嘧啶的胞嘧啶残基以“G”掺入延伸产物中，而已转化成尿嘧啶残基的胞嘧啶形式则以“A”掺入(图6B-图6C)。使用识别发夹环双链茎中序列的限制性酶，可以将扩增的多联体裂解成单个分子(图6D)。现在单个分子可以经历扩增，诸如PCR扩增，以掺入索引和其他衔接子元件。产生的分子可以经历分析，例如DNA测序(图6E)。注意，在滚环扩增中使用的脱氧GTP可以用荧光团标记，允许人们通过荧光测定法测量经修饰的胞嘧啶。

图7示出了对哺乳动物细胞进行锚定碱基亚硫酸氢盐测序的结果。该图示出了整个基因组中锚定在“G”上的CpG位点的富集。当G位于引物中的第六个位置时，75％的时间存在位于上游紧邻的C。这表明CpG甲基化，其为与偶然性不相容的结果。

图8示出了对果蝇SL2细胞进行锚定碱基亚硫酸氢盐测序的结果。该图示出了SL2细胞进行的锚定碱基亚硫酸氢盐测序的两个技术重复，包括热图和浏览器轨迹。这些结果证明了该技术的可重复性，因为观察到了热图和基因组浏览器轨迹的明显重叠。

图9示出了对大肠杆菌(E.coli)K12菌株DNA进行的实验的结果，该实验比较了DNA免疫沉淀测序(MeDIP-Seq)和锚定碱基亚硫酸氢盐测序。在DNA中，序列CCWGG中的第二个“C”被甲基化。背景基序AASTT用作对照。可以看出，锚定碱基亚硫酸氢盐测序中甲基化碱基产生的信号明显强于在MeDIP-Seq中。

概述

本文提供了分析包含经修饰的碱基的核酸分子的方法。该方法涉及将核酸中的一种或更多种非靶碱基(诸如胞嘧啶)转化为另一种碱基(诸如尿嘧啶)，并且然后用具有G或CpG的3’锚定碱基的引物(通常是一组简并引物)进行第二链合成。第二链合成的产物是一组双链核酸分子，由于非靶碱基已经被转化为“U”，其不能作为带有锚“G”的引物的模板，因此该组双链核酸分子富集含有靶碱基(诸如甲基胞嘧啶或羟甲基胞嘧啶)的序列。

详细描述

I.引言

本文提供的方法，特别是ABBS实施方案，在许多方面优于现有技术，包括：

1.)它们经由这样的测序而降低了DNA/RNA修饰分析的成本，该测序通过只富集那些发现感兴趣的修饰的DNA或RNA区域进行—这意味着人们不需要那么深的测序以在感兴趣的位点获得高数据覆盖率。

2.)它们通过将锚定碱基随机引发(通用的修饰偏好扩增策略)与碱基对特异性探针相结合，简化了诊断测定的设计。

3.)它简化了分析，因为由于该方法富集了具有潜在高密度的DNA/RNA修饰的区域，因此人们可以使用峰调用方法来对DNA或RNA修饰进行作图，以及对ABBS数据进行亚硫酸氢盐分析(C→T转变)。

本文公开了遍及感兴趣的基因组(例如细菌、病毒、人类)富集、鉴定和作图亚硫酸氢盐修饰的DNA的方法。这些方法也与下面详述的无亚硫酸氢盐的胞嘧啶分析方法兼容。

与现有技术相比，这些方法，特别是ABBS实施方案的四个独特方面，包括：

1.)提供一种从全基因组中用单碱基分辨率、经修饰的胞嘧啶(例如甲基化的CpG)，而不必使用抗体(如在MeDIP或hMeDIP中)或修饰特异性结合蛋白(诸如在MIRA-Seq中的MBD2b/MBD3L，以及在MethylCap-Seq中的MeCP2)来进行富集和测序的方法；

2.)提供扩增和检测经修饰的胞嘧啶而不必针对基因组内的预定位点设计特异性引物(如在甲基化特异性PCR测定中)的方法

3.)能够被纳入多重诊断测定。通过提供从DNA/RNA修饰的位点扩增的高度普遍性的方案，人们只需要为感兴趣区域设计特异性探针(例如，TaqMan杂交探针)，而不需要为感兴趣区域设计特异性引物和探针组。因此，该策略大大简化了测定设计。

4.)能够与分析5mC和5hmC或其他“oxi-mC”(5hmC、5fC和5caC)在整个基因组中分布的酶方法(例如，TET辅助亚硫酸氢盐测序和APOBEC偶联表观遗传测序(ACE-Seq))完全整合，而像MeDIP、hMeDIP、MIRA-Seq或MethylCap-seq的技术则不能，因为(1)它们不像在ABBS中那样提供单碱基分辨率，(2)一些蛋白质可能与其他物种交叉反应(例如，MeCP2也能识别5hmC，而不仅是5mC)，这导致不良特异性，以及(3)这些技术中没有一种像不需要蛋白或抗体的ABBS那样是通用的。

本文公开的方法实现了以下：

1.)它们实现了以碱基对分辨率来检测亚硫酸氢盐/APOBEC/AID敏感和不敏感的DNA和RNA修饰的高通量方法。

2.)它们提供了一种将核酸扩增锚定在抵抗由亚硫酸氢盐/APOBEC/AID类酶来修饰的位点(例如，对于亚硫酸氢盐为甲基化的C，对于AID/APOBEC类酶为葡糖基-hmC和5fC/5caC)的方法，并促进了从这些亚硫酸氢盐/APOBEC/AID抗性基因座的快速全基因组扩增。

3.)它们能够有效整合分子检测的常见方法—例如TaqMan探针、分子信标、挂锁探针—其允许对DNA/RNA修饰的特异性和多重检测。

4.)它们能够在诊断和临床应用中鉴定和追踪亚硫酸氢盐/Apobec3A敏感的生物标志物。

本文讨论了例如AB HiC实施方案的另外的优点。

II.针对包含经修饰的胞嘧啶残基的序列富集核酸

本文提供的方法允许具有选定胞嘧啶残基修饰的核酸的富集。富集允许更深入的序列分析和更有效地鉴定经修饰的残基。该方法可以涉及将非靶形式的胞嘧啶转化为非胞嘧啶核苷酸残基，以及使用在引物3’位置具有“G”或“CG”残基的一组简并引物进行的包含剩余胞嘧啶形式残基的核酸分子的第二链合成。引物上的末端核苷酸用作从其开始进行延伸的锚。因为延伸是从未转化的胞嘧啶残基开始进行的，所以包含靶胞嘧啶修饰的基因组区域将被富集。

A.包含核酸的样品

核酸可以来源于任何生物样品，包括例如病毒、任何活生物体的一个或更多个细胞或微生物组。这包括原核生物(诸如古生菌和细菌)和真核生物(诸如植物、动物和真菌)二者。动物包括但不限于昆虫、鱼类、两栖动物、爬行动物、鸟类和哺乳动物。哺乳动物包括但不限于食肉动物(例如，犬和猫)、偶蹄类动物(例如，牛、山羊、绵羊、猪)、兔形目动物(例如，兔)、奇蹄类动物(例如，马)、啮齿动物(例如，小鼠、大鼠)和灵长类动物(例如，人类和非人灵长类动物(例如，猴、黑猩猩、狒狒、大猩猩)。

核酸可以来自细胞系、组织、器官或体液。来自动物任何器官或器官系统的细胞。这样的器官包括但不限于心脏、大脑、肾脏、肝脏、肺、肌肉、血液。可作为核酸来源的体液包括但不限于血液、血浆、血清、唾液、痰、粘液、淋巴液、尿液、精液、脑脊液或羊水。器官系统包括但不限于肌肉系统、消化系统、呼吸系统、泌尿系统、生殖系统、内分泌系统、循环系统、神经系统和皮肤系统。例如，可以通过活组织检查来制备样品。这包括固体组织活组织检查和液体活组织检查。样品可以包含无细胞DNA(“cfDNA”)，诸如循环的肿瘤DNA。核酸片段可以具有在约100个至约800个核苷酸之间或约350个至450个核苷酸之间，例如约400个核苷酸的长度。cfDNA通常具有约120-220个核苷酸的大小。

包含核酸的样品可以来源于具有或疑似具有病理状态的受试者。这样的状态包括但不限于增生、肥大、萎缩和化生，包括例如癌症(例如癌症活组织检查样品)。其他病理包括神经元疾病(例如，阿尔茨海默病、肌萎缩性侧索硬化症、克罗伊茨费尔特-雅各布病(Creutzfeldt-Jakob Disease)、弗里德希氏共济失调(Friedreich's Ataxia)、多发性硬化症)。

核酸可以是裸露的核酸，即不具有附接的蛋白质。可选地，核酸可以呈染色质的形式。如本文使用的，术语“染色质”是指DNA和组蛋白和/或非组蛋白蛋白质的复合物。

包含核酸的样品可以来源于具有特定时序年龄的受试者。甲基化模式与年龄有关，并且因此可以预测早衰或延缓衰老。

DNA可以以染色质的形式被纯化。来自染色质的DNA可以通过诸如染色质免疫沉淀(ChIP)和转座子辅助的染色质免疫沉淀的方法进行富集。ChIP方法通常包括交联染色质以便将蛋白质共价结合到核酸上。染色质可以在仍存在于细胞内时被交联。然后染色质可以被剪切。可以使用针对靶蛋白的抗体来对结合有特定蛋白诸如组蛋白的核酸进行免疫沉淀。在转座子辅助的染色质免疫沉淀中，针对靶蛋白的抗体直接或间接与转座子结合。转座子包括附接于转座子的转座酶。转座子一旦找到其靶就被插入到DNA中。当转座子被提供为具有引物结合位点时，位于引物结合位点之间的核酸可以被扩增。(参见例如美国专利10,689,643，Jelinek等人)

B.核苷酸及其经修饰形式

RNA和DNA中的核苷酸可以以其天然形式或各种修饰形式存在。胞嘧啶可以呈若干不同的形式存在。

术语“经修饰的核苷酸”是指胞嘧啶、腺嘌呤、鸟嘌呤、胸腺嘧啶或尿嘧啶的衍生物。术语“经修饰的胞嘧啶”是指通常在5位用化学部分衍生的胞嘧啶的衍生物。示例性的经修饰的胞嘧啶按氧化态递增的顺序包括5-甲基胞嘧啶(“5mC”)、5-羟甲基胞嘧啶(“5hmC”)、5-甲酰基胞嘧啶(“5fC”)和5-羧基胞嘧啶(“5caC”)。胞嘧啶的另一种经修饰形式是N-4-乙酰基脱氧胞苷(“N4-acdC”)。(参见例如2020年12月22日提交的国际专利申请PCT/US 2020/066741。)

除非另有说明，不同于碱基，提及核苷酸在字面上可以指“核糖”型或“脱氧核糖”型。一般来说，DNA中的核苷酸将是“脱氧核糖”型，而RNA中的核苷酸将是“核糖”形式。

在本文公开的某些方法中，胞嘧啶上的4-氨基基团可以被转化为羰基基团。该过程被称为“脱氨基化”。在这种情况下，碱基目前是尿嘧啶。胞嘧啶或经修饰的胞嘧啶通过在4位用羰基基团代替氨基基团的脱氨基化将胞嘧啶或经修饰的胞嘧啶转化为尿嘧啶。

C.转化策略

检测核酸中特定碱基修饰诸如甲基化或羟甲基化的方法可以涉及将非靶形式的碱基和/或经修饰形式的碱基转化为除原始碱基以外的碱基或碱基形式。如本文使用的，碱基的“非靶”形式是指碱基的可能形式的子集。例如，在胞嘧啶形式的情况下，“5hmC”可以是“靶”形式，且“C”、“5mC”、“5fC”和“5caC”可以是非靶形式。在其他实施方案中，“5mC”和“5hmC”可以是“靶”形式，且“C”、“5fC”和“5caC”可以是非靶形式。“非碱基”残基，例如“非胞嘧啶”残基，是指不同的碱基形式。例如，“非胞嘧啶”碱基通常是尿嘧啶，但可以包括鸟嘌呤、腺嘌呤或胸苷及其经修饰形式。若干转化策略是已知的。

1.亚硫酸氢盐测序

核酸的亚硫酸氢盐处理通过脱氨基化过程将除5mC和5hmC以外的胞嘧啶形式的残基转化为尿嘧啶。测序时，5mC和5hmC(“靶形式”)读出为胞嘧啶，而未甲基化的胞嘧啶、甲酰基胞嘧啶和羧基胞嘧啶(“非靶形式”)读出为胸腺嘧啶。

2.TET测序

十-十一易位甲基胞嘧啶双加氧酶(“TET”)将5mC、5hmC和5fC转化为5caC。它可以从许多不同的物种获得，物种包括人类、小鼠或无脊椎动物(例如，纳氏虫属(Naegleria)、果蝇属(Drosophila)(dTet，也命名为DMAD或CG43444))。哺乳动物TET包括TET1、TET2和TET3。TET酶各自具有带有双链β-螺旋折叠的核心催化结构域，其中包含Fe(II)/α-KG-依赖性加氧酶家族中发现的关键金属结合残基。这些催化结构域也可以被用于转化步骤。因此，“TET”是指整个酶或起作用的催化结构域，除非另有说明。

这种酶可以在用于检测核酸中5hmC残基的方法中使用。该方法可以如下进行。核酸中的5hmC残基受到葡糖基化的保护。这可以例如使用重组噬菌体T4β-葡糖基转移酶来完成。接下来，用TET酶(通常是TET1或来自原生生物尾刺耐格里原虫(Naegleria gruberi)的NgTET同源物)处理核酸，该酶将包括胞嘧啶、5mC和5fC的未受保护形式的胞嘧啶转化为5caC。用亚硫酸氢盐进一步处理核酸，将5caC转化为尿嘧啶。测序时，5hmC(“靶形式”)读出为胞嘧啶，而其他胞嘧啶形式(“非靶形式”)读出为胸苷。

3.A3A测序

AID/APOBEC是一组胞苷脱氨酶，AID/APOBEC通过将胞苷脱氨基为尿苷能够在DNA和RNA中插入突变。来自AID/APOBEC家族的酶包括以下人类酶：APOBEC1、APOBEC2、APOBEC3A(“A3A”)、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化诱导(胞苷)脱氨酶(AID)。这些酶将胞嘧啶和5mC转化为尿嘧啶，但不修饰(或以极低的效率)修饰5hmC、5fC或5caC。这类酶可以在检测胞嘧啶修饰形式的方法中使用，而不区分它们。在该方法的一种方式中，首先用TET酶处理核酸，该酶将5mC、5hmC和5fC氧化成5caC。随后用A3A的处理将胞嘧啶转化为尿嘧啶，而5caC仍抵抗转化。测序时，5mC、5hmC、5fC和5caC(“靶形式”)读出为胞嘧啶，而天然非修饰胞嘧啶(“非靶形式”)读出为胸苷。

D.第二链合成

在核酸分子中的非靶核苷酸已经转化为非碱基(例如，非胞嘧啶)残基之后，包含靶核苷酸的核酸可以通过锚定在未转化位点的第二链合成来富集。第二链合成包括引物或引物组与转化的核酸分子杂交，随后使用聚合酶进行引物延伸。在某些实施方案中，聚合酶具有5’-3’核酸外切酶和/或链置换活性。因为引物在核酸中的靶位点杂交，将富集那些含有靶核苷酸的双链分子。

1.锚定延伸引物

本文描述的方法中使用的延伸引物可以包含以下核苷酸序列：5’-Xn-G-3’或5’-X(n-1)-CG-3’，其中“X”是任何碱基。“G”位于分子的3’末端。在一些实施方案中，“n”在2和25之间，12和25之间，3和10之间，4和7之间，或是约5(例如，引发序列是六聚体)。引物可以单独提供。然而通常它们提供为在单一第二链合成操作中一起使用的组。

在任何位置的“X”可以是以下任何一种：“N”＝A、C、T/U、G；“H”＝A、C、T/U；和“I”＝不规则碱基，诸如(1)在碱基(“Q”)上修饰的常规碱基(A、C、T/U、G)；或(2)通用碱基(“J”)。如本文使用的，“通用碱基”是与超过一个标准碱基结合的碱基，并且因此起简并碱基的作用。示例性通用碱基是(脱氧)肌苷、水粉蕈素(nebularine)、3-硝基吡咯、5-硝基吲哚。

因此，例如，在一种实施方案中，引物组中的引物是具有序列5’-XXXXXG-3’或5’-XXXXCG-3’；5’-NNNNNG-3’或3’-NNNNCG-3’；5’-IIIIIG-3’或5’-IIICG-3’；5’-QQQQQG-3’或5’-QQQQCG-3’；5’-JJJJJG-3’或5’-JJJJCG-3’的六聚体或这些碱基的任何组合。

包含“Xn”或“X(n-1)”的一组引物可以包含一组简并序列。简并引物组是寡核苷酸分子的集合，所述寡核苷酸分子具有这样的序列，其中一些位置包含许多确定的可能碱基，这导致具有相似序列的引物群体覆盖可变位置的所有可能的选定核苷酸组合。例如，具有序列5’-NNNNNG-3’的简并引物组将包括这样的引物，该引物中四种标准核苷酸(A、C、G、T/U)中的每一个可以存在于“N”占据的每个位置。这样一组序列将是完全简并的。

可选地，引物组可以是部分简并的，或有偏好的。例如，该组中的某些碱基与随机相比可能被过多代表。例如，碱基“C”可能比随机出现的频率更高。如果人们想要使用转录因子基序作为引物的一部分，以便以全基因组的方式分析该基序上的胞嘧啶修饰，就会是这种情况。

若干种引物设计程序是可用的(例如，OLIGO、OSP、Primer Master、PRIDE、Primer3等)。这些程序可以根据指定的标准(诸如C/G含量)设计引物组。

在其他实施方案中，序列“Xn”或“Xn-1”表示感兴趣的靶核酸基序序列。例如，基序序列可以是“GAGG”，它与转录因子基序CCTC反向互补。该基序可以是用于转录因子诸如NF-κB、CTCF、BORIS、YY1、TBP、AP-1、CEBP、HOX蛋白的。

引物可以提供为具有辅助序列，辅助序列包括例如衔接子序列、样品条形码和分子条形码中的一个或更多个。因此例如，引物可以具有序列5’-[衔接子序列]-[样品条形码]-[分子条形码]-Xn-G-3’，或者5’-[衔接子序列]-[样品条形码]-[分子条形码]-X(n-1)-CG-3’。

在某些实施方案中，引物可以包含测序仪平台特异性衔接子序列。这样的序列通常将包括扩增引物序列。例如，在Illumina测序仪中，衔接子包括p5和p7序列。

样品条形码是用于区分来自不同样品的核酸分子的核苷酸序列，但通常在单一测序操作中进行测序。不同的样品用不同的条形码序列加标签。通常，样品条形码在约6个和约20个核苷酸之间。

分子条形码是用于区分样品中原始分子的一组条形码。样品中的核酸分子可以被独特地加条形码，也就是说，每个分子附接有不同条形码。可选择地，核酸分子可以被非独特地编条形码，也就是说，用于对样品中分子加标签的不同条形码序列的数量少于样品中独特分子的数量。在独特条形码的情况下，从相同原始分子扩增的分子的序列读段将共享相同的条形码，并且由此可以被区分。在非独特条形码的情况下，来自条形码和来自靶分子的序列信息可用于确定从同一原始分子扩增的序列读段。分子条形码通常在约6个和约20个核苷酸之间。

在本文公开的方法中使用的延伸引物可以包含与引物功能相容的任何形式的核酸或核酸类似物。这包括引物，引物包括但不限于DNA、RNA、锁核酸(“LNA”)、肽核酸(“PNA”)、包含修饰碱基、核糖、脱氧核糖、经修饰的糖的多核苷酸，以及包含非标准核苷酸(例如除了A、T、C、G或U以外的核苷酸)的多核苷酸。实例包括但不限于通用碱基类似物诸如肌苷或硝基吲哚。

在其他实施方案中，引物可以包含用作分子倒置探针或挂锁探针的序列。例如，引物可以包含引发序列5’-Xn-G-3’或5’-X(n-1)-CG-3’，位于分子5’末端的与靶核苷酸序列杂交的第二核苷酸序列，以及位于引发序列和第二序列之间的接头序列。

2.引物延伸

从转化的核酸中，工作人员产生富集包含靶修饰核苷酸的序列的双链核酸群体。这个过程涉及使转化的核酸变性以提供单链核酸。在杂交条件下，在3’末端包含锚定碱基“G”或碱基“CpG”的引物组与变性核酸接触并允许杂交。

使用合适的聚合酶来使引物延伸。聚合酶可以是嗜常温聚合酶或嗜热聚合酶。例如，聚合酶可以是Klenow无外切酶活性的聚合酶(Klenow exo-polymerase)、Klenow聚合酶、DNA聚合酶I、T4 DNA聚合酶、Phi29 DNA聚合酶、BST DNA聚合酶、Taq聚合酶、pfu聚合酶和逆转录酶(例如，莫洛尼鼠白血病病毒(Moloney Murine Leukemia Virus)(M-MLV)、禽成髓细胞血症病毒(AMV)及其突变/改变形式。在某些实施方案中，聚合酶具有5’-3’核酸外切酶或链置换活性。以这种方式，如果几个引物彼此邻近杂交，在其他引物上游最远处杂交的引物将通过消化或置换在引物下游杂交的延伸多核苷酸而产生最长的延伸产物。

在RNA逆转录的情况下，人们可以使用dUTP核苷酸。含dUTP的链在文库制备期间不会被扩增，因此保留了用于RNA-seq的链信息。

引物延伸的产物将是富集包含经修饰的碱基的序列的双链多核苷酸的集合。此集合可经历文库准备。

E.文库制备

1.双链核酸的分离

双链核酸可以以多种方式与剩余的单链核酸分离。在一种实施方案中，组合物可以经受单链核酸酶，诸如但不限于核酸酶S1来消化单链分子。在另一种实施方案中，可以使用已知方法将单链核酸和双链核酸彼此分离。在一种这样的实施方案中，使用对双链核酸具有高亲和力且对单链核酸具有低亲和力(诸如二氧化硅颗粒和羟基磷灰石)的基于二氧化硅或基于非二氧化硅的方法分离DNA。这些方法可以涉及将DNA结合到二氧化硅颗粒或膜，或DNA级Bio-Gel HTP羟基磷灰石，并与其他污染物分离。在一种实施方案中，双链核酸可以通过使用双链核酸结合蛋白诸如抗双链DNA抗独特型抗体而被特异性富集。在一种实施方案中，单链核酸可以被单链核酸结合蛋白诸如抗单链DNA抗独特型抗体去除(负选择)。在一种实施方案中，引物被提供为具有捕获部分，诸如例如生物素或脱硫生物素。因此，通过引物延伸产生的双链分子将被生物素化。这些分子可以通过用捕获部分的伴侣诸如链霉抗生物素蛋白进行捕获来分离，并且单链DNA分子可以被单链核酸酶诸如但不限于核酸酶S1来消化。

在末端修复和衔接子连接之后，可以使用捕获序列分离靶核酸序列。捕获序列是包含能够与具有靶序列的核酸分子杂交的核苷酸序列的多核苷酸。杂交后，靶序列捕获杂交的序列。通常，探针将包含捕获部分诸如生物素，或者将附接到固体支持物，诸如磁性吸引颗粒，以允许结合材料与未结合材料的分离。

2.末端修复和衔接子连接

经历片段化的多核苷酸或无细胞DNA通常包含带有单链突出端(overhang)的末端，其需要在衔接子连接之前进行末端修复。末端修复可以通过例如裂解掉5’突出端并填充3’突出端的酶诸如Klenow聚合酶来完成。结果是钝末端分子。衔接子可以通过钝末端连接直接附接到钝末端DNA。可选择地，钝末端分子在3’端可以是“加A尾的”以产生单核苷酸“A”突出端。因此，在5’端具有单个“T”突出端的测序衔接子可以被附接。

可选择地，如以上讨论的，可以通过引物延伸反应向靶多核苷酸提供衔接子，其中如本文描述的引物分子还包含衔接子序列。在这种情况下，通过聚合酶延伸之后，用叠氮基ddNTP在3’端对DNA加标签。然后通过点击化学可以附接含有烷基5’的衔接子。然后DNA可以被PCR扩增并被进一步分析。(参见例如图5A-图5B)。

在另一种实施方案中，连接包含发夹环的衔接子分子，发夹环在双链茎中包括甲基化C残基，然后在亚硫酸氢盐和引物锚定之后，使用包含强置换活性的酶诸如Phi29/Φ29聚合酶产生“滚环(rolling circle)”介导的文库(参见例如图6A-图6E)。

注意，辅助序列诸如测序仪引物序列、样品条形码和分子条形码可以在连接到双链分子的衔接子中提供。

3.核酸扩增

双链核酸可以被扩增。扩增通常对提供有包含引物杂交序列的衔接子的核酸进行。双链核酸可以通过任何已知的扩增形式而被扩增。这包括但不限于聚合酶链式反应(PCR)扩增、定量PCR、滚环扩增、多重置换扩增、环介导的等温扩增(LAMP)、逆转录环介导的等温扩增(RT-LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)或转录介导的扩增(TMA)。为了易于描述，将在PCR方面来讨论反应；对其他扩增方法的必要调整对本领域技术人员来说将是明显的。

III.核酸分析

双链核酸分子无论是否扩增目前均可以经历分析。

A.核酸测序

在一种实施方案中，通过核酸测序分析双链核酸。通常，使用高通量测序来对核酸测序。如本文使用的，术语“高通量测序”是指数千个核酸分子的同时或接近同时测序。高通量测序有时被称为“下一代测序”或“大规模并行测序”。高通量测序平台包括但不限于大规模并行签名测序(MPSS)、Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序(PacBio)和纳米孔DNA测序(例如牛津纳米孔(Oxford Nanopore))。

B.核酸序列分析

核酸测序产生序列读段。序列读段通常通过将序列读段映射到参考基因组来分析。例如，目前的人类基因组参考序列是hg38，其可以在例如NCBI网站访问。用于分析的遗传基因座可以是基因组中的单一核苷酸位置，或基因组的序列或区域诸如基因(包括周围区域诸如启动子区域)，或染色体。

将序列映射到参考基因组之后，可以用多种方法分析结果。一种分析方法被称为“峰分析”。在这种方法中，可以确定映射到跨参考基因组的基因座的序列读段的数量。因为核酸已经富集了包含经修饰的核苷酸的序列，许多序列读段的基因座表现为读段的“峰”，例如在X轴表示基因组且“Y”轴表示作图到其的读段的数量的图中。峰可以表示核苷酸修饰的基因座。

另一种方法涉及单碱基分辨率分析。在这种方法中，使用单个核苷酸作为基因座，将序列读段与参考基因组比较。转化为非胞嘧啶形式核苷酸的胞嘧啶形式核苷酸将表现为与参考基因组的错配。例如，参考基因组中的胞嘧啶残基将与序列读段中的胸苷残基匹配。参考基因组中与序列读段中胞嘧啶残基匹配的胞嘧啶残基表示靶修饰核苷酸。

C.DNA微阵列分析

在一些实施方案中，通过本文描述的方法制备的核酸可以使用DNA微阵列进行分析。DNA微阵列可用于比较基因组杂交、染色质免疫沉淀分析和SNP检测。也被称为“DNA芯片”的DNA微阵列是在其上附接有位置确定和可寻址的寡核苷酸探针的固体支持物。当样品核酸与核酸探针阵列接触时，样品核酸与具有互补序列或接近互补的序列的探针杂交。可以确定样品核酸已经杂交的位置。该信息然后可被用于确定样品核酸的身份或序列。因为它们能够以序列特异性的方式检测核酸分子，所以DNA微阵列可用于检测这样的序列，该序列改变以使得在参考基因组中读为“C”的碱基在通过本文描述的方法处理之后被“T”代替。DNA微阵列可以在实验室中制备，或者从例如Affymetrix(ThermoFisher)购买。

D.其他检测方法

其他方法也可用于检测核酸。这些方法可以在扩增过程期间完成，并且可以用作基于锚的亚硫酸氢盐富集的读出。

1.TaqMan

在TaqMan探针检测中，靶DNA分子的探针包含荧光团和猝灭剂部分。在PCR期间，在靶DNA上延伸引物的Taq聚合酶利用其5’–3’核酸外切酶活性从杂交的TaqMan探针裂解核苷酸，从而释放荧光团。一旦与猝灭剂分离，荧光团发出可检测的荧光。

2.分子信标

分子信标是茎环结构形式的核酸。茎由分子末端的互补核苷酸组成。通常，荧光团附接到分子的5’端，且猝灭剂附接到分子的3’端。信标的环包含与靶分子中的靶核苷酸序列互补的核苷酸序列。当信标与具有靶序列的分子杂交时，荧光团和猝灭剂被物理分离，产生可检测的荧光。

3.挂锁探针和分子倒置探针

挂锁探针和分子倒置探针是其中末端包含与靶分子互补的序列的单链核酸分子。在用挂锁探针进行的靶向亚硫酸氢盐测序中，提供了挂锁探针。每个挂锁探针具有共同的接头序列，接头序列两侧是两个靶特异性捕获臂。接头序列包含用于通用引物的引发位点。多个挂锁探针覆盖交替的DNA链上部分重叠区域的CpG岛。挂锁探针文库与亚硫酸氢盐转化的基因组DNA退火，将3’端延伸并与5’端连接，并且在用核酸外切酶去除线性DNA之后，用一对共同引物对所有环化的挂锁探针进行PCR扩增。在分子倒置探针中，末端与靶核酸分子结合，留下缺口，例如单一碱基缺口。

分子倒置探针可以包括具有与靶核酸中的靶区域互补的序列的末端、通常由探针释放裂解位点隔开的一对PCR引物结合位点、用于基于杂交的检测的标签序列和标签释放裂解位点。当与靶核酸杂交时，杂交位点中的缺口可以用连接酶或者聚合酶和连接酶来填充。探针释放位点的裂解产生单链探针。从探针中PCR引物位点的PCR扩增了靶序列和捕获序列。扩增的分子可以通过使用标签序列的富集来分离。标签序列可以随后被释放。

4.qPCR

在另一种方法中，通过qPCR检测序列。在qPCR中，通过PCR扩增DNA，PCR中可检测的标记核苷酸被掺入扩增产物中。检测到标记的速率和量表示样品中靶的量。

IV.诊断方法

被处理以修饰靶向/非靶向碱基的核酸分子的锚定碱基富集可以在诊断方法中使用，该诊断方法涉及修饰的碱基作为生物标志物的检测。在发现生物标志物的方法中，提供了来自两组受试者的样品，一组受试者具有待诊断的状况，而另一组不具有该状况。该状况可以是任何病理状况，包括但不限于遗传状况、癌症、与年龄相关的状况诸如早衰症或加速衰老、细胞病变、神经元病变等。

如本文描述的方法用于对不同组中每个组的每个样品中的碱基修饰模式产生遗传分析。这种遗传分析可以采取序列信息的形式。数据被收集到数据集中并经历统计分析，以生成在两组间区分的模型。本领域已知的任何统计方法可以用于此目的。这样的方法或工具包括但不限于相关性、皮尔逊相关(Pearson correlation)、斯皮尔曼相关(Spearmancorrelation)、卡方检验法(chi-square)、均值/方差比较(例如配对T检验、独立T检验、ANOVA)、回归分析(例如简单回归、多重回归、线性回归、非线性回归、逻辑回归、多项式回归、逐步回归、脊回归、套索回归(lasso regression)、弹性网络回归(elastic netregression)或非参数分析(例如威尔科克森秩和检验(Wilcoxon rank-sum test)、威尔科克森符号秩检验(Wilcoxon sign-rank test)、符号检验)。这样的工具被包含在商业上可获得的统计软件包中，诸如MATLAB、JMP统计软件和SAS。这样的方法产生了模型或分类器，人们可以使用该模型或分类器将特定的生物标志物谱分类成特定的状态。统计分析可以由操作员实施或者通过机器学习来实施。这样的分析的结果是一种模型，该模型使用关于经修饰的碱基(例如经修饰的胞嘧啶残基)位置的信息，以将从其取得样品的受试者分类为具有或不具有该状况。

建立了用于诊断状况的模型后，该模型可以用于受试者的诊断。在这样的方法中，提供了包含来自受试者的核酸的样品。核酸经历本文描述的方法。分析经处理的核酸以产生特征数据，诸如序列数据。将模型应用于序列数据，以将样品分类为适当的类别。

例如，检测方法可以包括(1)提供来自受试者的生物样品的DNA；(2)使用如本文描述的锚定碱基第二链合成来产生富集包含经修饰的胞嘧啶残基的序列的双链核酸分子；(3)对经修饰的胞嘧啶残基在双链分子中的位置进行作图，该双链分子用作遗传位点的生物标志物。生物标志物的存在是与生物标志物相关的状况的指示。

这些方法可以涉及本文描述的作图策略中的任何一种。此外，检测可以通过本领域已知的用于检测特定核苷酸序列的任何方法来完成，方法包括但不限于DNA测序、PCR、qPCR、针对生物标志物的标记的探针的杂交、TaqMan扩增或通过分子信标的检测。

示例性实施方案

本发明的示例性实施方案包括但不限于：

1.一种方法，包括：

a)将样品中靶核酸分子中非靶形式的胞嘧啶和/或经修饰的胞嘧啶化学转化或酶促转化为非胞嘧啶残基，以产生转化的核酸分子；

b)通过将一组引物与变性、转化的核酸分子杂交并延伸所述引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

其中所述引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25；和

c)分析所述双链核酸分子。

2.根据实施方案1所述的方法，其中n＝5至20，或4至9，或5。

3.根据实施方案1所述的方法，其中所述引物是六聚体。

4.根据实施方案1所述的方法，其中X可以是N、H、I、Q或J中的任何一个。

5.根据实施方案1所述的方法，其中XnG或X(n-1)CG选自NnG或N(n-1)CG、HnG或H(n-1)CG、InG或I(n-1)CG、QnG或Q(n-1)CG、JnG或J(n-1)CG或其组合。

6.根据实施方案1所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

7.根据实施方案1所述的方法，其中所述引物是六聚体。

8.根据实施方案1-7中任一项所述的方法，其中该组引物对于序列XnG或X(n-1)CG是完全简并的。

9.根据实施方案1所述的方法，其中所述靶核酸分子包括人类DNA。

10.根据实施方案1所述的方法，其中所述核酸来自病理性组织或细胞，例如癌细胞。

11.根据实施方案1所述的方法，其中所述靶核酸分子包括纯化的DNA或RNA，或者染色质。

12.根据实施方案1所述的方法，其中所述靶核酸具有在约150个核苷酸和约700个核苷酸之间的长度。

13.根据实施方案1所述的方法，其中化学或酶促转化包括用亚硫酸氢盐、十-十一易位甲基胞嘧啶双加氧酶(“TET”)和AID/APOBEC类酶的酶(例如APOBEC3A(“A3A”))中的一种或更多种来处理。

14.根据实施方案1所述的方法，其中胞嘧啶的靶形式包括5-甲基胞嘧啶(“5mC”)、5-羟甲基胞嘧啶(“5hmC”)、5-甲酰基胞嘧啶(“5fC”)和5-羧基胞嘧啶(“5caC”)中的一种或更多种。

15.根据实施方案1所述的方法，其中化学转化或酶促转化包括将除5mC和5hmC以外的胞嘧啶形式转化为尿嘧啶。

16.根据实施方案1所述的方法，其中化学转化或酶促转化包括将除5hmC以外的胞嘧啶形式转化为尿嘧啶。

17.根据实施方案1所述的方法，其中化学转化或酶促转化包括将胞嘧啶转化为尿嘧啶，但不将5mC、5hmC、5fC或5caC转化为尿嘧啶。

18.根据实施方案1所述的方法，其中所述非胞嘧啶残基是尿嘧啶。

19.根据实施方案1所述的方法，其中所述引物包括DNA、RNA、LNA或PNA。

20.根据实施方案1所述的方法，其中所述引物包含经修饰的核糖或脱氧核糖。

21.根据实施方案1所述的方法，其中所述引物包含改变所述引物的解链温度的经修饰的糖残基。

22.根据实施方案1所述的方法，其中所述引物还包括衔接子和/或通用引发序列。

23.根据实施方案22所述的方法，其中所述衔接子序列包括P3和P5。

24.根据实施方案22所述的方法，其中所述衔接子序列包括P3和P5。

25.根据实施方案1所述的方法，其中所述引物包括样品条形码序列。

26.根据实施方案1所述的方法，其中所述引物包括分子条形码序列。

27.根据实施方案1所述的方法，其中所述引物还包括衔接子和/或通用引发序列。

28.根据实施方案1所述的方法，其中用嗜常温或嗜热DNA聚合酶进行第二链合成。

29.根据实施方案1所述的方法，其中用无外切酶活性的聚合酶进行第二链合成。

30.根据实施方案1所述的方法，其中第二链合成用选自Klenow无外切酶活性的聚合酶、Klenow聚合酶、T4 DNA聚合酶、Taq聚合酶、pfu聚合酶、DNA聚合酶I、Phi29聚合酶和逆转录酶(例如，莫洛尼鼠白血病病毒(M-MLV)、禽成髓细胞血症病毒(AMV)及其突变/改变形式的聚合酶进行。

31.根据实施方案1所述的方法，其中所述引物是生物素化的，所述方法中还包括捕获包含生物素的双链核酸分子。

32.根据实施方案31所述的方法，所述方法还包括将3’末端叠氮化物(N3)基团引入所述核酸分子；通过5’-3-三唑键附接烷基化的衔接子以产生加衔接子标签的分子；以及使用与所述分子的5’端和3’端互补的一组引物来扩增所述加衔接子标签的分子。

33.根据实施方案1所述的方法，所述方法包括在引物延伸之后，将测序仪特异性衔接子附接到所述核酸分子以产生加衔接子标签的核酸分子。

34.根据实施方案33所述的方法，其中附接包括末端修复、核苷酸突出端的任选添加以及所述衔接子的钝末端或突出端连接。

35.根据实施方案33所述的方法，其中所述衔接子对于通过以下进行的测序是特异性的：Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序和纳米孔DNA测序。

36.根据实施方案1所述的方法，其中所述双链分子提供有引物杂交序列，并且所述方法包括扩增所述双链核酸分子。

37.根据实施方案1所述的方法，所述方法还包括对包含靶核苷酸序列的核酸进行序列捕获。

38.根据实施方案1所述的方法，其中分析包括在进行或不进行核酸扩增的情况下对所述双链核酸分子进行测序以产生序列读段。

39.根据实施方案38所述的方法，其中测序通过以下进行：Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序或纳米孔DNA测序。

40.根据实施方案39所述的方法，其中分析包括峰分析或SNP分析。

41.根据实施方案39所述的方法，所述方法包括将所述序列读段映射到参考基因组。

42.根据实施方案41所述的方法，所述方法还包括在映射到参考基因组中的胞嘧啶残基的所述序列读段中对一个或更多个胞嘧啶残基的遗传基因座进行作图，和/或在映射到所述参考基因组中的胞嘧啶残基的所述序列读段中对一个或更多个胸苷残基的遗传基因座进行作图，其中映射到所述参考基因组中的胞嘧啶残基的序列读段中的胞嘧啶残基表示被测序以产生所述序列读段的核酸分子中经修饰的胞嘧啶残基。

43.根据实施方案1所述的方法，其中分析包括DNA阵列分析。

44.根据实施方案1所述的方法，其中所述核酸包括RNA并且第二链合成使用dUTP核苷酸。

45.根据实施方案1所述的方法，其中靶DNA分子通过以下提供：

i)提供包含染色质(任选地在细胞中)的样品；

ii)使蛋白质与所述染色质中的DNA交联；任选地使交联的染色质片段化；和

iii)通过染色质免疫沉淀(ChIP)从所述染色质中分离靶核酸分子。

46.根据实施方案45所述的方法，其中所述免疫沉淀靶向与组蛋白、DNA聚合酶、RNA聚合酶、甲基结合蛋白结合的核酸序列，或者与包含以下结构域的蛋白结合的核酸序列：bZIP结构域、DNA结合结构域、螺旋-环-螺旋、螺旋-转角-螺旋、MG-盒、亮氨酸拉链、lexitropsin、核酸模拟物、锌指蛋白(zinc finger)、组蛋白甲基化酶、募集蛋白、Swi6。

47.根据实施方案1所述的方法，其中靶DNA分子通过以下提供：

i)提供包含染色质的样品；

ii)使蛋白质与所述染色质中的DNA交联(例如用甲醛)；

iii)消化染色质以产生片段化的染色质；

iv)将生物素引入所述片段化的染色质中以产生生物素化的染色质；

v)连接所述生物素化的染色质片段；

vi)解交联、提取和剪切所连接的片段；和

vii)分离生物素化的剪切片段。

48.一种对DNA中非亚硫酸氢盐反应性胞嘧啶进行作图的方法，包括：

a)提供包含任选地片段化的核酸分子的样品；

b)用亚硫酸氢盐处理所述核酸分子，其中处理将未修饰的胞嘧啶残基转化为尿嘧啶；

c)通过将一组引物与变性、转化的核酸分子杂交并延伸引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

其中所述引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，X是任何碱基，且n＝2至25；

d)对所述双链核酸分子进行末端修复和衔接子连接，以产生加衔接子标签的核酸分子；

e)使所述加衔接子标签的核酸分子扩增(例如通过PCR或qPCR)；和

f)对所扩增的核酸分子进行测序。

49.根据实施方案48所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

50.一种方法，包括：

a)提供包含任选地片段化的核酸分子的样品；

b)保护所述核酸分子中的5-羟甲基胞嘧啶(“5hmC”)残基；

c)将5-甲基胞嘧啶(“5mC”)和/或5-甲酰基胞嘧啶(“5fC”)转化为5-羧基胞嘧啶(“5caC”)残基；

d)将所述核酸中的C残基和5caC残基转化为尿嘧啶；

e)通过将一组引物与变性、转化的核酸分子杂交并延伸引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

其中所述引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，并且X是任何碱基，且n＝2至25；

f)使衔接子附接到所述双链核酸分子；以产生加衔接子标签的核酸分子；

g)使所述加衔接子标签的核酸分子扩增(例如通过PCR)；和

h)对所扩增的核酸分子进行测序。

51.根据实施方案50所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

52.根据实施方案50所述的方法，其中5mC和/或5fC通过用TET处理转化为5caC。

53.根据实施方案50所述的方法，其中5hmC通过例如使用T4葡糖基转移酶的葡糖基化来保护。

54.一种方法，包括：

a)提供包含任选地片段化的核酸分子的样品；

b)将5-甲基胞嘧啶(“5mC”)、5-羟甲基胞嘧啶(“5hmC”)和/或5-甲酰基胞嘧啶(“5fC”)转化为5-羧基胞嘧啶(“5caC”)残基；

c)例如用APOBEC/AID类酶的酶将所述核酸中的C残基转化为尿嘧啶；

d)通过将一组引物与变性、转化的核酸分子杂交并延伸引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

其中所述引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25；

e)使衔接子附接到所述双链核酸分子；以产生加衔接子标签的核酸分子；

f)使所述加衔接子标签的核酸分子扩增(例如通过PCR)；和

g)例如通过测序或通过DNA阵列分析来分析所扩增的核酸分子。

55.根据实施方案54所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

56.一种试剂盒，包括：

(a)包含核苷酸序列的一组引物，其中所述引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25；

(b)一个或更多个容器，每个容器包含以下中的一种：(i)亚硫酸氢钠，(2)十-十一易位甲基胞嘧啶双加氧酶1(“TET1”)、T4β-葡糖基转移酶、APOBEC3A(“A3A”)或来自AID/APOBEC类脱氨酶的酶。

57.根据实施方案56所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

58.根据实施方案56所述的试剂盒，所述试剂盒包含来自人类、小鼠或无脊椎动物(例如纳氏虫属、果蝇属)的TET1。

59.根据实施方案56所述的试剂盒，其中“X”包括至少一个通用碱基，所述至少一个通用碱基例如选自(脱氧)肌苷、水粉蕈素、3-硝基吡咯、5-硝基吲哚。

60.一种试剂盒，包括：

(a)一组引物，该组引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25；

(b)核酸分子，其中，靶核酸分子中的至少一种但不是全部形式的胞嘧啶或经修饰的胞嘧啶被转化为尿嘧啶。

61.根据实施方案60所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

62.一种试剂盒，包括：

(a)一组引物，该组引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25，其中所述引物包含标签，例如生物素；

(b)3’-叠氮基-ddGTP；

(c)5’烷基寡聚物；和

(d)核酸分子，其中，靶核酸分子中的至少一种但不是全部形式的胞嘧啶或经修饰的胞嘧啶被转化为尿嘧啶。

63.一种组合物，包含：

a)单链核酸分子群体；和

b)与所述单链核酸分子群体杂交的一组引物，该组引物包含核苷酸序列5’-XnG-3’和/或5’-X(n-1)CG-3’，其中X是任何碱基，且n＝2至25。

64.根据实施方案63所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

65.一种生成将样品分类为病理性或非病理性的模型的方法，包括：

a)提供来自具有所述病理的第一组受试者的第一组核酸分子和来自不具有所述病理的第二组受试者的第二组核酸分子；

b)通过以下来处理所述样品中的核酸分子：

(i)将样品中靶核酸分子中非靶形式的胞嘧啶和/或经修饰的胞嘧啶化学转化或酶促转化为非胞嘧啶残基，以产生转化的核酸分子；

(ii)通过将一组引物与变性、转化的核酸分子杂交并延伸引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

c)分析所述双链核酸分子以产生对所述样品中的碱基修饰进行作图的数据；

d)对所述数据进行统计分析以比较所述样品中碱基修饰位置的差异，其中所述统计分析产生将样品分类为病理性或非病理性的模型。

66.根据实施方案65所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

67.一种方法，包括：

(a)提供来自受试者的生物样品中的DNA；

(b)将样品中靶核酸分子中非靶形式的胞嘧啶和/或经修饰的胞嘧啶化学转化或酶促转化为非胞嘧啶残基，以产生转化的核酸分子；

(c)通过将一组引物与变性、转化的核酸分子杂交并延伸引物来对所述变性、转化的核酸分子进行第二链合成，以产生双链核酸分子；

(d)使用本文所述的锚定碱基第二链合成方法，产生富集包含经修饰的胞嘧啶残基的序列的双链核酸分子；和

(e)将所述双链分子中经修饰的胞嘧啶残基的位置作图到遗传基因座。

68.根据实施方案67所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

69.根据实施方案67所述的方法，其中作图的经修饰胞嘧啶残基是生物标志物。

实施例

I.AB-BS(也称为ABBS或ABBA)

该方法利用了这样的事实，即存在于DNA或RNA中的5mC碱基和5hmC碱基不与亚硫酸氢盐反应，而未修饰的胞嘧啶、5-甲酰基胞嘧啶和5-羧基胞嘧啶(以及潜在的其他仍有待鉴定的经修饰的胞嘧啶)被脱氨基化并有效转化为尿嘧啶。这些尿嘧啶位点，在用Klenow无外切酶活性的聚合酶进行的第二链合成时，与腺嘌呤碱基配对；由此，DNA原始亲本链中的任何亚硫酸氢盐反应性C被转化为尿嘧啶，并在PCR和/或测序中读出为T。利用这一点，我们的发明使得能够在第二链合成期间使用随机引发策略从基因组中存在的任何未反应的胞嘧啶(例如5mC和5hmC)扩增DNA，其中引物具有以下结构5’-HHHHHG-3’(其中H＝不是G)(或5’-HHHHCG-3’，以特异性富集CpG甲基化)，或5’-NNNNNG-3’(其中N＝A、C、G、T/U)(或5’-NNNNCG-3’，以特异性富集CpG甲基化)。末端3’G会将引物锚定在不与亚硫酸氢盐反应的任何C，并且内部的和5’H(如果有)将避免引物与C部分地杂交。由此，由这些锚定引物驱动的PCR扩增将优先扩增基因组中甲基化和/或羟甲基化的区域。

方案

1/将500ng的掺入0.5％未甲基化λDNA的DNA(以测量有效的亚硫酸氢盐转化)按照方案用EZ DNA甲基化闪电试剂盒(EZ DNA methylation lightning kit)(Zymo ResearchCorp.)进行亚硫酸氢盐转化。

2/Nanodrop定量。

3/第二链合成：

10×NEBuffer2	5μL
		10mM dNTP	1.25μL
水	3.75μL
		50ng/μL 5’-HHHHHG-3’寡聚物	25μL
75ng亚硫酸氢盐处理的样品DNA	10μL

1.94℃持续5分钟

2.4℃持续5分钟→5分钟之后，向溶液中加入5μL的Klenow exo-(NEB，5U/μL)并充分混合。

3.以5％的速率从4℃逐渐增加到37℃。

4.37℃持续60分钟

5.75℃持续15分钟，然后4℃/∞

4/使用来自Qiagen的MinElute柱纯化dsDNA，2次洗涤，在20μL、pH 8.0、10mM的tris-HCl中洗脱，然后用Qubit 2.0dsDNA HS试剂盒定量。

5/文库2s Swift，含2.5ng起始材料。

其他实施例：

II.AB-TAB-Seq(锚定碱基TET辅助的亚硫酸氢盐测序)。

步骤：

1.首先使用Active Motif的羟甲基收集器-测序试剂盒(HydroxymethylCollector-Seq kit)(#55019)中概述的条件，通过用重组T4噬菌体β-葡糖基转移酶(Active Motif cat#81249)的葡糖基化保护5hmC碱基。

2.5mC和5fC被重组TET1酶(Active Motif cat#81148)氧化以形成5-羧基胞嘧啶，而葡糖基化的5hmC保持完整。

3.然后氧化的DNA与亚硫酸氢盐反应以使整个基因组中未修饰的胞嘧啶和5-羧基胞嘧啶基团脱氨基化。

4.然后纯化DNA(Active Motif的ChIP IP DNA纯化试剂盒)，并用Klenow exo-、锚定寡聚物和双链DNA文库制备如上所述地进行处理。

5.对形成的文库进行NGS以从基因组鉴定5hmC的富集区域。

III.AB-A3A-Seq(锚定碱基A3A辅助的测序)。参见附图

步骤：

1.用重组TET1酶处理DNA以将5mC碱基、5hmC碱基、5fC碱基转化为5caC，而未修饰的胞嘧啶保持完整。

2.然后用重组APOBEC3A(A3A)处理TET1氧化的DNA以使未修饰的胞嘧啶脱氨基化，将这些碱基转化为尿嘧啶。所有TET1形成的5caC位点保持不受A3A的影响。

3.然后纯化DNA(Active Motif的ChIP IP DNA纯化试剂盒)，并用Klenow exo-、锚定寡聚物和双链DNA文库制备如上所述地进行处理。

4.对形成的文库进行NGS以从基因组鉴定经修饰的TET氧化的碱基的富集区域。

IV.AB-HiC

在该实施方案中，用于“HiC”(以对相互作用的基因座进行作图)中的DNA经历片段化和热变性，例如Lieberman-Aiden等人,Science(2009)第326卷,第5950期,第289-293页。然后，嗜常温聚合酶使用含有共有基序的短引物(锚定在共有基序上)来合成第二链。(在本方案中，强调了NNNNNG或HHHHHG，但是人们可以使用本文描述的以及可以制造用于文库制备的双链DNA的任何引物，如本文用基序例示的。)在对靶基因组位置之外的读段进行测序和过滤后(在浏览器可扩展数据“BED”文件http://genome.ucsc.edu/FAQ/FAQformat#format1中)，调用特定相互作用。与常规HiC(通常需要～10亿个读段)相比，这种方法明显更便宜。在这种特殊情况下，含有六聚体的引物例如可以将测序成本降低几百倍。

分析分离的核酸。分析可以涉及例如核酸测序、PCR、qPCR以及类似分析。通常测序以用于后续分析。本文描述的方法通常采用高通量测序方法。如本文使用的，术语“高通量测序”是指数千个核酸分子同时或接近同时测序。高通量测序有时被称为“下一代测序”或“大规模并行测序”。高通量测序平台包括但不限于大规模并行签名测序(MPSS)、Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序(Complete Genomics)、Heliscope单分子测序、单分子实时(SMRT)测序(PacBio)和纳米孔DNA测序(例如牛津纳米孔(Oxford Nanopore))。通过测序产生的核酸的核苷酸序列在本文中被称为“序列信息”、“序列读段”或“序列数据”。

HiC：我们简单总结了过程：细胞用甲醛交联；用限制性酶消化DNA，留下5’突出端；5’突出端被填充，包括生物素化的残基；并且在有利于交联的DNA片段之间的连接事件的稀释条件下连接所得的钝末端片段(在透化的细胞中原位连接也是一种选择)。所得的DNA样品含有连接产物，连接产物由最初在细胞核中空间上非常接近的片段组成，在连接处用生物素标记。通过剪切DNA并用链霉抗生物素蛋白珠选择含生物素的片段来创建HiC文库。然后使用大规模并行DNA测序分析该文库，产生相互作用片段的目录。

除非另有说明，如本文使用的，适用下列含义。词语“可”是以允许的意义使用(即是指具有潜力)，而不是以强制的意义使用(即是指必须)。词语“包括”以及其他意思是指包括但不限于。单数形式“一”、“一个”和“该”包括复数指代物。因此，例如，提及“要素”包括两个或更多个要素的组合，尽管对一个或更多个要素使用了其他术语和短语，诸如“一个或更多个”。短语“至少一个”包括“一个”、“一个或更多个”、“一个或多于一个”和“多于一个”。除非另有说明，术语“或”是非排他性的，即包括“和”以及“或”二者。修饰词和序列之间的术语“任何一个”是指修饰词修饰序列的每个成员。因此，例如，短语“至少1、2或3中的任何一个”是指“至少1、至少2或至少3”。术语“基本上由……组成”是指包含所列举的要素和其他要素，这些要素实质上不影响所要求保护的组合的基本和新颖特征。

应当理解，描述和附图不意图将本发明限制于所公开的特定形式，而相反地，本发明将覆盖落入如由所附权利要求限定的本发明的精神和范围内的所有修改、等同方案和/或可选择方案。鉴于该描述，本发明的各个方面的进一步修改和替代实施方案对于本领域技术人员来说将是明显的。因此，描述和附图仅被解释为说明性的，并且是为了教导本领域技术人员实施本发明的一般方式的目的。应当理解，本文所示和描述的本发明的形式将作为实施方案的实例。本文说明和描述的那些要素和材料可以被替代，部件和过程可以颠倒或省略，并且本发明的某些特征可以独立使用，所有这些对于受益于本发明描述后的本领域技术人员来说将是明显的。在不脱离如以下权利要求中描述的本发明的精神和范围的情况下，可以对本文描述的要素进行改变。本文使用的标题仅用于组织目的，并且不意味着用于限制描述的范围。

在本说明书中提及的所有出版物、专利和专利申请通过引用并入本文，其程度犹如每个单独的出版物、专利或专利申请特定地且单独地被指示通过引用并入的相同程度。

Claims

1.一种方法，包括：

c)分析所述双链核酸分子。

2.根据权利要求1所述的方法，其中n＝5至20，或4至9，或5。

3.根据权利要求1所述的方法，其中所述引物是六聚体。

4.根据权利要求1所述的方法，其中X可以是N、H、I、Q或J中的任何一个。

5.根据权利要求1所述的方法，其中XnG或X(n-1)CG选自NnG或N(n-1)CG、HnG或H(n-1)CG、InG或I(n-1)CG、QnG或Q(n-1)CG、JnG或J(n-1)CG或其组合。

6.根据权利要求1所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

7.根据权利要求1所述的方法，其中所述引物是六聚体。

8.根据权利要求1-7中任一项所述的方法，其中该组引物对于序列XnG或X(n-1)CG是完全简并的。

9.根据权利要求1所述的方法，其中所述靶核酸分子包括人类DNA。

10.根据权利要求1所述的方法，其中所述核酸来自病理性组织或细胞，例如癌细胞。

11.根据权利要求1所述的方法，其中所述靶核酸分子包括纯化的DNA或RNA，或者染色质。

12.根据权利要求1所述的方法，其中所述靶核酸具有在约150个核苷酸和约700个核苷酸之间的长度。

13.根据权利要求1所述的方法，其中化学或酶促转化包括用亚硫酸氢盐、十-十一易位甲基胞嘧啶双加氧酶(“TET”)和AID/APOBEC类酶的酶(例如APOBEC3A(“A3A”))中的一种或更多种来处理。

14.根据权利要求1所述的方法，其中胞嘧啶的靶形式包括5-甲基胞嘧啶(“5mC”)、5-羟甲基胞嘧啶(“5hmC”)、5-甲酰基胞嘧啶(“5fC”)和5-羧基胞嘧啶(“5caC”)中的一种或更多种。

15.根据权利要求1所述的方法，其中化学转化或酶促转化包括将除5mC和5hmC以外的胞嘧啶形式转化为尿嘧啶。

16.根据权利要求1所述的方法，其中化学转化或酶促转化包括将除5hmC以外的胞嘧啶形式转化为尿嘧啶。

17.根据权利要求1所述的方法，其中化学转化或酶促转化包括将胞嘧啶转化为尿嘧啶，但不将5mC、5hmC、5fC或5caC转化为尿嘧啶。

18.根据权利要求1所述的方法，其中所述非胞嘧啶残基是尿嘧啶。

19.根据权利要求1所述的方法，其中所述引物包括DNA、RNA、LNA或PNA。

20.根据权利要求1所述的方法，其中所述引物包含经修饰的核糖或脱氧核糖。

21.根据权利要求1所述的方法，其中所述引物包含改变所述引物的解链温度的经修饰的糖残基。

22.根据权利要求1所述的方法，其中所述引物还包括衔接子和/或通用引发序列。

23.根据权利要求22所述的方法，其中所述衔接子序列包括P3和P5。

24.根据权利要求22所述的方法，其中所述衔接子序列包括P3和P5。

25.根据权利要求1所述的方法，其中所述引物包括样品条形码序列。

26.根据权利要求1所述的方法，其中所述引物包括分子条形码序列。

27.根据权利要求1所述的方法，其中所述引物还包括衔接子和/或通用引发序列。

28.根据权利要求1所述的方法，其中用嗜常温或嗜热DNA聚合酶进行第二链合成。

29.根据权利要求1所述的方法，其中用无外切酶活性的聚合酶进行第二链合成。

30.根据权利要求1所述的方法，其中第二链合成用选自Klenow无外切酶活性的聚合酶、Klenow聚合酶、T4 DNA聚合酶、Taq聚合酶、pfu聚合酶、DNA聚合酶I、Phi29聚合酶和逆转录酶(例如，莫洛尼鼠白血病病毒(M-MLV)、禽成髓细胞血症病毒(AMV)及其突变/改变形式的聚合酶进行。

31.根据权利要求1所述的方法，其中所述引物是生物素化的，所述方法中还包括捕获包含生物素的双链核酸分子。

32.根据权利要求31所述的方法，所述方法还包括将3’末端叠氮化物(N3)基团引入所述核酸分子；通过5’-3-三唑键附接烷基化的衔接子以产生加衔接子标签的分子；以及使用与所述分子的5’端和3’端互补的一组引物来扩增所述加衔接子标签的分子。

33.根据权利要求1所述的方法，所述方法包括在引物延伸之后，将测序仪特异性衔接子附接到所述核酸分子以产生加衔接子标签的核酸分子。

34.根据权利要求33所述的方法，其中附接包括末端修复、核苷酸突出端的任选添加以及所述衔接子的钝末端或突出端连接。

35.根据权利要求33所述的方法，其中所述衔接子对于通过以下进行的测序是特异性的：Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序和纳米孔DNA测序。

36.根据权利要求1所述的方法，其中所述双链分子提供有引物杂交序列，并且所述方法包括扩增所述双链核酸分子。

37.根据权利要求1所述的方法，所述方法还包括对包含靶核苷酸序列的核酸进行序列捕获。

38.根据权利要求1所述的方法，其中分析包括在进行或不进行核酸扩增的情况下对所述双链核酸分子进行测序以产生序列读段。

39.根据权利要求38所述的方法，其中测序通过以下进行：Polony测序、454焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序或纳米孔DNA测序。

40.根据权利要求39所述的方法，其中分析包括峰分析或SNP分析。

41.根据权利要求39所述的方法，所述方法包括将所述序列读段映射到参考基因组。

42.根据权利要求41所述的方法，所述方法还包括在映射到参考基因组中的胞嘧啶残基的所述序列读段中对一个或更多个胞嘧啶残基的遗传基因座进行作图，和/或在映射到所述参考基因组中的胞嘧啶残基的所述序列读段中对一个或更多个胸苷残基的遗传基因座进行作图，其中映射到所述参考基因组中的胞嘧啶残基的序列读段中的胞嘧啶残基表示被测序以产生所述序列读段的核酸分子中经修饰的胞嘧啶残基。

43.根据权利要求1所述的方法，其中分析包括DNA阵列分析。

44.根据权利要求1所述的方法，其中所述核酸包括RNA并且第二链合成使用dUTP核苷酸。

45.根据权利要求1所述的方法，其中靶DNA分子通过以下提供：

i)提供包含染色质(任选地在细胞中)的样品；

46.根据权利要求45所述的方法，其中所述免疫沉淀靶向与组蛋白、DNA聚合酶、RNA聚合酶、甲基结合蛋白结合的核酸序列，或者与包含以下结构域的蛋白结合的核酸序列：bZIP结构域、DNA结合结构域、螺旋-环-螺旋、螺旋-转角-螺旋、MG-盒、亮氨酸拉链、lexitropsin、核酸模拟物、锌指蛋白、组蛋白甲基化酶、募集蛋白、Swi6。

47.根据权利要求1所述的方法，其中靶DNA分子通过以下提供：

i)提供包含染色质的样品；

ii)使蛋白质与所述染色质中的DNA交联(例如用甲醛)；

iii)消化染色质以产生片段化的染色质；

v)连接所述生物素化的染色质片段；

vi)解交联、提取和剪切所连接的片段；和

vii)分离生物素化的剪切片段。

a)提供包含任选地片段化的核酸分子的样品；

f)对所扩增的核酸分子进行测序。

49.根据权利要求48所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

50.一种方法，包括：

a)提供包含任选地片段化的核酸分子的样品；

b)保护所述核酸分子中的5-羟甲基胞嘧啶(“5hmC”)残基；

d)将所述核酸中的C残基和5caC残基转化为尿嘧啶；

g)使所述加衔接子标签的核酸分子扩增(例如通过PCR；和

h)对所扩增的核酸分子进行测序。

51.根据权利要求50所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

52.根据权利要求50所述的方法，其中5mC和/或5fC通过用TET处理转化为5caC。

53.根据权利要求50所述的方法，其中5hmC通过例如使用T4葡糖基转移酶的葡糖基化来保护。

54.一种方法，包括：

a)提供包含任选地片段化的核酸分子的样品；

f)使所述加衔接子标签的核酸分子扩增(例如通过PCR；和

55.根据权利要求54所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

56.一种试剂盒，包括：

57.根据权利要求56所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

58.根据权利要求56所述的试剂盒，所述试剂盒包含来自人类、小鼠或无脊椎动物(例如纳氏虫属(Naegleria)、果蝇属(Drosophila))的TET1。

59.根据权利要求56所述的试剂盒，其中“X”包括至少一个通用碱基，所述至少一个通用碱基例如选自(脱氧)肌苷、水粉蕈素、3-硝基吡咯、5-硝基吲哚。

60.一种试剂盒，包括：

61.根据权利要求60所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

62.一种试剂盒，包括：

(b)3’-叠氮基-ddGTP；

(c)5’烷基寡聚物；和

(d)核酸分子，其中，靶核酸分子中的至少一种但不是全部形式的胞嘧啶或经修饰的胞嘧啶被转化为。

63.一种组合物，包含：

a)单链核酸分子群体；和

b)与所述单链核酸分子群体杂交的一组引物，该组引物包含核苷酸序列5’-HnG-3’和/或5’-H(n-1)CG-3’，其中X是任何碱基，且n＝2至25。

64.根据权利要求63所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

b)通过以下来处理所述样品中的核酸分子：

66.根据权利要求65所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

67.一种方法，包括：

(a)提供来自受试者的生物样品中的DNA；

68.根据权利要求67所述的方法，其中XnG为5’-NNNNNG-3’或5’-HHHHHG-3’，且X(n-1)CG为5’-NNNNCG-3’或5’-HHHHCG-3’。

69.根据权利要求67所述的方法，其中作图的经修饰胞嘧啶残基是生物标志物。