CN108699598B

CN108699598B - 用于分析修饰的核苷酸的组合物和方法

Info

Publication number: CN108699598B
Application number: CN201680077157.1A
Authority: CN
Inventors: R·维斯维拉; Z·孙; S·关; L·萨利赫; L·埃特威勒; T·B·戴维斯
Original assignee: New England Biolabs Inc
Current assignee: New England Biolabs Inc
Priority date: 2015-10-30
Filing date: 2016-10-28
Publication date: 2022-11-15
Anticipated expiration: 2036-10-28
Also published as: WO2017075436A1; EP3845668A1; US20170198344A1; CN115927563A; EP3368688A1; US10619200B2; US20210388433A1; US10227646B2; US20180312914A1; EP3368688B1; LT3368688T; US11124825B2; CN108699598A; US20190100796A1

Abstract

提供了用于鉴定长段核酸中修饰的胞嘧啶(C)的位置和定相的方法。在一些实施方式中，所述方法可以包括(a)使含有至少一个C和/或至少一个修饰的C的核酸样品的第一部分与DNA葡糖基转移酶和胞苷脱氨酶反应以产生第一产物并任选地使样品的第二部分与双加氧酶和胞苷脱氨酶反应以产生第二产物；和(b)将来自(a)中获得的第一和任选地第二产物或其扩增产物的序列彼此进行比较和/或与未处理的参考序列进行比较，以确定初始核酸片段中的哪些C被修饰。还提供了更有效地将甲基胞嘧啶转化为羧甲基胞嘧啶的修饰的TET甲基胞嘧啶双加氧酶。

Description

用于分析修饰的核苷酸的组合物和方法

背景

定相(phase)基因组中修饰的核苷酸(例如，甲基化或羟甲基化的核苷酸)的能力(即，确定两个或更多个修饰的核苷酸是连接在相同的单个DNA分子上还是不同的DNA分子上)可以在外遗传研究(epigenetic studies)中提供重要的信息，特别是用于关于印迹、基因调节和癌症的研究。另外，知道哪些修饰的核苷酸与序列变异相关将是有用的。

修饰的核苷酸不能使用用于研究DNA修饰的常规方法来定相，因为这样的方法通常涉及亚硫酸氢盐测序(BS-seq)。在BS-seq方法中，DNA样品用亚硫酸氢钠处理，其将胞嘧啶(C)转化成尿嘧啶(U)，但甲基胞嘧啶(^mC)保持不变。当亚硫酸氢盐处理的DNA被测序时，未甲基化的C被读作胸腺嘧啶(T)，并且^mC被读作C，产生关于DNA片段的甲基化状态的单核苷酸分辨率信息。然而，已知亚硫酸氢钠将DNA断裂(参见，例如，Ehrich M 2007Nucl.AcidsRes.35：e29)，使得不可能确定修饰的核苷酸是否连接在相同的DNA分子上。具体而言，核苷酸修饰不可能以与序列变体(例如，多态性)被定相相同的方式而被定相，因为那些方法需要完整的长分子。

而且，亚硫酸氢盐测序显示朝向邻近某些核苷酸的胞嘧啶(C)而不是其他核苷酸的偏向(偏好，bias)。消除观察到的偏向是期望的。

概要

本文提供了不需要亚硫酸氢盐处理的定相修饰的核苷酸的方法。此外，这些方法可以以区分^mC和羟甲基胞嘧啶(^hmC)或C、甲酰基胞嘧啶(formylcytosine)(^fC)和羧基胞嘧啶(^caC)的方式实施，与常规方法相比提供显著的优点。

本公开内容尤其提供了组合物和方法，以在长段DNA中在单个分子水平检测和定相顺式或反式核苷酸或未修饰核苷酸的甲基化和/或羟甲基化。在不同的实施方式中，葡糖基化和氧化反应克服了由脱氨酶引起的观察到的内在的^hmC和^mC脱氨基。脱氨酶将^mC转化为T和将C转化为U，而葡萄糖基甲基胞嘧啶(^gmC)和^CaC不被脱氨。脱氨酶的实例包括APOBEC(载脂蛋白B mRNA编辑酶，催化多肽样)。实施方式利用了在胞嘧啶的糖基化、氧化和脱氨基中基本没有序列偏向的酶。而且，实施方式在糖基化、氧化和脱氨基反应过程中基本上不提供DNA的非特异性损伤。

在一些实施方式中，使用DNA葡糖基转移酶(GT)将^hmC葡糖基化以保护该修饰的碱基免于脱氨基。然而，本领域普通技术人员将会理解，可以使用其他酶促反应或化学反应来修饰^hmC以实现相同的效果。本文提供的一个替代实例是使用吡咯并-dC以保护胞嘧啶免于被胞苷脱氨酶转化成尿嘧啶。

通常，在一方面，提供了用于检测核酸(NA)甲基化的方法，其包括使NA经历酶促葡糖基化、酶促氧化和酶促脱氨基，其中未修饰的C转化为U，^mC转化为T，被葡糖基化为^ghmC的^hmC保持C，和被氧化成^caC的修饰的C保持C。预测大多数修饰的C是^mC。出于某些诊断目的，不需要区分^mC和^hmC。因此，利用单一途径的氧化和葡糖基化然后是脱氨基就足够了。在希望区分^mC与^hmC的情况下，这可以通过在相同样品的两个等分试样上进行两种不同的反应并随后比较获得的DNA的序列来实现。一个反应利用GT和胞苷脱氨酶，而第二反应利用甲基胞嘧啶双加氧酶和胞苷脱氨酶。已经发现，在与甲基胞嘧啶脱氧酶的反应中GT的存在导致显示提高的修饰碱基的转化率(大于97％、98％或99％转化率，优选至少99％)和比其他方式将会可能的更准确的绘制(mapping)的结果。在本文中描述了甲基胞嘧啶双加氧酶变体，其催化^mC转化为^hmC转化为^fC然后^caC，其中由相邻核苷酸引起的偏向很少或没有。本文还描述了这样的变体的这些和其他改进的性质。使用本文描述的利用定相或其他测序方法的酶的方法更具时间和样本效率，并且提供了用于^mC和其他修饰的核苷酸的诊断测序的改进的准确度。

在这些方法的每一种中，期望将酶反应的产物彼此进行比较和/或与未反应的序列进行比较。比较序列可以通过杂交技术和/或通过测序来实现。在比较序列之前，可能期望使用PCR或等温方法扩增NA和/或克隆反应的序列。

被分析的NA片段可以是DNA、RNA或DNA和RNA的杂化物或嵌合体。NA片段可以是单链(ss)或双链(ds)。NA片段可以是基因组DNA或合成的DNA。

片段的大小可以是任何大小，但对于利用单分子测序的本发明的实施方式，特别有利的片段大小大于1Kb、2Kb、3Kb、4Kb、5Kb、6Kb、7Kb或更大(例如，优选大于4kb)，对上部尺寸(上限尺寸，upper size)没有理论限制，尽管在需要扩增的情况下，在测序之前通常使用的扩增步骤中片段的上部尺寸可能受聚合酶限制。

在一些情况下，将从反应获得的序列与相应的参考序列进行比较以确定：(i)在第一产物中哪些C被转化成U以区分^mC与^hmC；和(ii)在任选的第二产物中哪些C转化成U以区分未修饰的C与修饰C。在这些实施方式中，参考序列可以是，例如，假设的脱氨基序列、假设的脱氨基和PCR扩增序列或假设的未脱氨基序列。

在任何实施方式中，第一和第二产物可以在测序之前被扩增。在这些实施方式中，第一和第二产物中的任何U’s可以被读取为所得序列读数中的T’s。

在任何实施方式中，甲基胞嘧啶双加氧酶可以将^mC和^hmC转化为C，以便胞苷脱氨酶不能使^mC或^hmC脱氨基。甲基胞嘧啶双加氧酶可以是将修饰的C酶促转化成^caC的TET蛋白。

在任何实施方式中，GT可以是形成^ghmC的DNA β-葡糖基转移酶(βGT)或α-葡糖基转移酶(αGT)，使得基本上没有^hmC被胞苷脱氨酶脱氨基。

在任何实施方式中，NA样品可以含有至少一个CpG岛。在另一实施方式中，NA可以包括具有选自CpG、CpA、CpT和CpC的核苷酸邻居(neighbors)的至少两个修饰的C。

在任何实施方式中，方法可以包括确定NA(其中NA是ds)的ss上的^mC和/或^hmC的位置。

在任何实施方式中，NA是基因组DNA的片段，并且在一些情况下，NA可以与转录的基因的(例如，50kb内、20kb内、10kb内、5kb内或1kb内的)转录的基因连接。

上面总结的方法可以用于各种应用。提供了用于样品分析的方法。在一些实施方式中，该方法可以包括(a)确定测试NA片段中所有修饰的C的位置以鉴定修饰的C的模式；(b)将测试NA片段中C修饰的模式与参考NA中C修饰的模式进行比较；(c)鉴定相对于参考NA片段，测试NA片段中胞嘧啶修饰模式的差异；和(d)确定测试NA片段中的^hmC的模式。

在一些实施方式中，该方法可以包括将以顺式连接到处于转录活性状态的基因的NA片段的C修饰或未修饰C的模式与以顺式连接到处于转录失活状态的相同基因的相同完整NA片段中的C修饰模式进行比较。在这些实施方式中，基因的转录水平可以与疾病或状况相关联。

在一些实施方式中，该方法可以包括将来自患有疾病或状况的患者的NA片段的胞嘧啶修饰模式与来自不患有该疾病或状况的患者的相同NA片段中的C修饰模式进行比较。在其他实施方式中，该方法可以包括将来自正在进行治疗的患者的NA片段的胞嘧啶修饰模式与来自尚未用所述剂治疗的患者的相同完整NA片段中的C修饰模式进行比较。在另一个实施方式中，相对于参考NA片段，测试NA片段中C修饰模式的检测到的差异对应于变异的单核苷酸多态性、插入/缺失或体细胞突变——与病理学相关。

还提供了各种组合物。在一些实施方式中，组合物可以包括NA，其中NA包括：a)G、A、T、U、C；b)G、A、T、U、^caC和无C和/或C)G、A、T、U和^ghmC和无C和/或G、A、T、U、^caC和^ghmC和无C。在一些实施方式中，组合物可进一步包括胞苷脱氨酶或其突变体(如US 9,121,061中所述)，或如下所述的甲基胞嘧啶双加氧酶或其突变体。

还提供试剂盒。在一些实施方式中，试剂盒可以包括GT、甲基胞嘧啶双加氧酶，例如，突变的甲基胞嘧啶双加氧酶(如下所述的TETv)和胞苷脱氨酶，以及使用说明。显而易见的是，试剂盒的各种组分可以在分开的容器中。

一般而言，在一方面，描述了蛋白质，其包括与SEQ ID NO：1至少90％相同的氨基酸序列；并含有SEQ ID NO：2。在一方面，蛋白质是包括N-端亲和结合结构域的融合蛋白。蛋白质可具有甲基胞嘧啶双加氧酶活性，其中甲基胞嘧啶脱氧酶活性对靶DNA中的NCA、NCT、NCG和NCC同样有效。蛋白质可以用于本文的任何方法中。

在任何实施方式中，蛋白质可以是融合蛋白。在这些实施方式中，变体蛋白质可以包括N-端亲和结合结构域。

本公开还提供了用于修饰含有一个或多个甲基化C的天然存在的DNA的方法。在一些实施方式中，该方法可以包括将包含DNA的样品与变异的甲基胞嘧啶双加氧酶组合以制备反应混合物；和温育反应混合物以氧化DNA中的甲基化胞嘧啶。

在一些实施方式中，反应混合物可进一步包括分析氧化的样品——例如，通过测序或质谱分析。

在一些实施方式中，反应混合物可以进一步包括GT。

在一些实施方式中，方法可以在体外在无细胞反应中进行。

在一些实施方式中，方法可以在体外例如在培养的细胞中进行。

以上概述的变异的甲基胞嘧啶双加氧酶可以在下述方法、组合物或试剂盒中的任一个中用作甲基胞嘧啶双加氧酶。

一般而言，在一方面，提供了用于确定核酸片段中修饰的胞嘧啶的位置的方法，其包括：(a)使含有至少一个C和/或至少一个修饰的C的核酸样品与甲基胞嘧啶双加氧酶和DNA葡糖基转移酶在单一缓冲液中一起或依次反应；(b)使(a)的产物与胞苷脱氨酶反应；和(c)将(a)中获得的序列或其扩增产物与未处理的参考序列进行比较，以确定初始核酸片段中的哪些C被修饰。在一方面，甲基胞嘧啶双加氧酶是与SEQ ID NO：1至少90％相同的氨基酸序列；并含有SEQ ID NO：2的氨基酸序列。

附图简述

当结合附图阅读时，最好地理解以下详细描述的某些方面。需要强调的是，根据一般的实践，附图的各种特征不是按比例的。相反，为了清楚起见，各种特征的尺寸被任意扩大或缩小。附图中包括以下的图：

图1A显示用于保护修饰的C免于被胞苷脱氨酶和^mC双加氧酶(例如TET酶，如TETv)脱氨基的方法的示意图，所述方法将^mC和^hmC(不是C)转化成对脱氨基不敏感的caC。在甲基胞嘧啶双加氧酶处理后，仅发生未修饰的C的脱氨基，导致其被U取代。从左到右：SEQ IDNO：20、SEQ ID NO：20，SEQ ID NO：21。

图1B显示用于保护^hmC而不是^mC免于被APOBEC酶脱氨基的第二方法。这里使用βGT例如T4-βGT或αGT例如T4-αGT使^hmC葡糖基化。C和^mC分别被胞苷脱氨酶(例如脱氨酶)修饰为U和T。从左到右：SEQ ID NO：20、SEQ ID NO：20、SEQ ID NO：22。

图1C是显示PCR扩增和Sanger测序或NGS测序后基因组样品的碱基读数的表。

图2A-2B显示了小鼠基因组DNA的甲基化和羟甲基化状态。

图2A显示在甲基胞嘧啶双加氧酶(在此为TETv)和胞苷脱氨酶处理(根据图1A)之后小鼠成纤维细胞NHI/3T3基因组DNA的单个基因座(基因座大小：1078bp)处的^mC和^hmC的分布。

图2B显示在GT(此处为βGT)和胞苷脱氨酶处理(根据图1B)之后在与图3A相同的基因座处的^hmC的分布。

图2C是小鼠成纤维细胞的基因组DNA中基因座的甲基化状态的LC-MS数据的概要。

图3A-3E显示，与使用常规亚硫酸氢盐处理的方法(亚硫酸氢盐方法参见例如Holmes，et al.PloS one 9，no.4(2014)：e93933)相比，在使用TETv和/或βGT和胞苷脱氨酶进行制备和分析的过程中，ss DNA未被损伤。

图3A显示用βGT和胞苷脱氨酶获得的结果。在用胞苷脱氨酶和βGT处理后分析6种不同的片段大小(388bp、731bp、1456bp、2018bp、3325bp和4229bp)。扩增每个大小类别中的全长片段。没有观察到断裂。

图3B显示用TETv和胞苷脱氨酶获得的结果。在用胞苷脱氨酶和βGT处理后分析6种不同的片段大小(388bp、731bp、1456bp、2018bp、3325bp和4229bp)。扩增每个大小类别中的全长片段。没有观察到断裂。

图3C显示用亚硫酸氢盐转化的DNA获得的结果。在亚硫酸氢盐处理后分析6种不同的片段大小(388bp、731bp、1456bp、2018bp、3325bp和4229bp)。扩增每个大小类别中的全长片段。当亚硫酸氢盐转化的DNA被扩增时，由于通过亚硫酸氢盐方法分解较大的片段，所以仅获得两个最小的片段。

图3D显示在扩增之前用T4-βGT(^hmC检测)或TETv(^mC+^hmC检测)以及胞苷脱氨酶处理DNA(参见图1A和B)后用针对5030bp扩增子和5378bp扩增子的引物获得的结果。每个扩增显示一式三份。没有观察到断裂。

图3E显示与使用常规亚硫酸氢盐处理的方法相反，在使用TETv/βGT/胞苷脱氨酶进行制备和分析期间，含有^mC/^hmC的ss DNA的15kb片段未被损伤。浅蓝线代表也是对照的15kb片段的变性ss DNA。红线是葡糖基化DNA上的APOBEC脱氨基。深蓝色是TETv氧化DNA上的DNA脱氨基。以及绿色是亚硫酸氢盐处理的DNA。

图4A和4B显示胞苷脱氨酶不使修饰的碱基-吡咯并-dC(Glen Research，Sterling，维吉尼亚)脱氨基。该修饰的碱基可用于Illumina NGS文库构建以在胞苷脱氨酶处理之前保护连接至文库中DNA片段末端的衔接子中的C免于脱氨基。

图4A显示在37℃下用胞苷脱氨酶处理寡核苷酸(5’-ATAAGAATAGAATGAATXGTGAAATGAATATGAAATGAATAGTA-3’，X＝吡咯并-dC，SEQ ID NO：4)16小时(上线(黑色))的结果。对照(下线(灰色))是未经处理的SEQ ID NO：4。样品与对照之间没有观察到差异，证实胞苷脱氨酶不使吡咯并-dC脱氨基。

图4B显示含有吡咯并dC的衔接子的色谱图(LC-MS)，其具有以下序列，其中X＝吡咯并-dC.5′/5Phos/GATXGGAAGAGXAXAXGTXTGAAXTXXAGTX/脱氧U/AXAXTXTTTXXXTAXAXGAXGXTXTTXXGATCT(SEQ ID NO：5)。LC-MS色谱图证实，所有的C’s都被吡咯并-dC取代，没有污染的C的痕迹。

图5显示实施例4中描述的提供来自使用Illumina平台的下一代测序(NGS)的序列(这里称为脱氨酶-seq)的方法与BS-seq相比提供了优良的转化效率。使用未甲基化的λDNA作为阴性对照来估计非转化错误率(甲基化C调用(call)/总C调用)。对于CpG和CH(H＝A、C、T)的情况，CD^mC反应(左斜线)具有0.1％的最小错误率。使用Zymo试剂盒的亚硫酸氢盐转化(右斜线)的错误率比图1A和IB所示的方法高3倍(0.4％)，通过Qiagen(白色)的亚硫酸氢盐转化对CpG情况具有甚至更高的1.6％的错误率，对CH情况1.5％的错误率。

图6A-6D显示脱氨酶-seq不显示系统的序列偏好，而BS-seq在CA情况中最显著地产生大量的转化错误。饼图描绘通过不同方法的未甲基化λ基因组中每个C二核苷酸情况下假阳性甲基化调用的数量和百分比。

图6A显示作为对照的野生型λ基因组的饼图，其具有天然存在的CT、CA、CG和CC的分布。

图6B显示λ基因组中的^mC的表示，其中每个C已经使用脱氨酶-seq甲基化。观察到的分布与图6A中发现的分布匹配。

图6C显示λ基因组中的^mC的表示，其中每个C已经使用BS-seq(Qiagen)甲基化。观察到的分布与图6A中发现的分布不一致。

图6D显示λ基因组中的^mC的表示，其中每个C已经使用BS-seq(Zymo)甲基化。观察到的分布与图6A中发现的分布不一致。

图7显示使用相同的文库分析和相同数目的测序读数，与两个BS-seq文库相比，脱氨酶-seq覆盖更多CpG位点并检测更多的甲基化CpG位点，证明脱氨酶-seq是比BS-seq更有效和有成本效益的方法。

图8A-8C显示脱氨酶-seq提供了来自Illumina产生的重叠片段读数(读取结果，reads)的小鼠基因组中均匀的全基因组序列覆盖率。显示了CpG覆盖率的三个直方图，其中3种方法对于CpG位点具有相同的平均值(5X)和中位数(4X)测序深度。然而，当与来自Zymo和Qiagen的BS-seq试剂盒相比较时，脱氨酶-seq具有更少的异常值(拷贝数非常低或非常高的位点)。显示三个数据集，其中文库大小被标准化。

图8A显示DNA脱氨酶-seq的读数分布。

图8B显示BS-seq(Qiagen)的读数分布。

图8C显示BS-seq(Zymo)的读数分布。

图9显示对于相同数目的测序读数，脱氨酶-seq在CpG岛中提供比BS-seq更高的覆盖率，脱氨酶-seq在CpG岛中给出的覆盖率是BS-seq的几乎2倍。

图10提供了来自小鼠染色体8的基因组片段上的基因座特异性^hmC图。脱氨酶-seq(图1A和1B)以基本分辨率准确检测大片段(5Kb)的^hmC，使得能够DNA修饰和相DNA修饰与其他基因组特征(如SNP或变体)一起定相。

图11A-11B显示PacBio测序产生的在跨越5.4kb区域的单分子水平的^mC和^hmC分布。每一行代表一个DNA分子。5.4kb区域中的每个CpG位点都用点表示。C修饰状态用颜色表示。

图11A显示本发明方法可用于定相^mC(红色＝甲基化的；蓝色＝未甲基化的)。

图11B显示本方法可用于定相^hmC(红色＝羟甲基化的和蓝色＝未修饰的)。

图12A显示在剪切的3T3基因组DNA上小鼠TET2催化结构域(TETcd；SEQ ID NO：3)与TETv(SEQ ID NO：1)的活性比较。

图12B显示TETv对ss和ds基因组(3T3)DNA的活性是相似的。

图13显示TETv表现出非常低的序列偏向并且对于^mC是背景独立的，如对于5个细胞系(拟南芥、水稻、M.Fnu4H、E14和Jurkat)所证明的。

图14显示TETv不降解DNA，如酶处理后从保存超螺旋DNA所确定的。泳道1是大小梯状物。泳道2仅是底物质粒，泳道3是超螺旋质粒+323pmol TETv；泳道4是超螺旋质粒+162pmol TETv；泳道5是超螺旋质粒+162pmol TETv；泳道6是底物质粒+323pmol TETv+BamHI+MspI；泳道7是底物质粒+162pmol TETv+BamHI+MspI；泳道8是底物质粒+BamHI+MspI。

定义

除非另外定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。Singleton，et al.，DICTIONARY OF MICROBIOLOGYAND MOLECULAR BIOLOGY，2D ED.，John Wiley and Sons，New York(1994)和Hale&Markham，THE HARPER COLLINS DICTIONARY OF BIOLOGY，Harper Perennial，N.Y.(1991)提供给技术人员本文使用的许多术语的一般含义。尽管如此，为了清晰和易于参考，下面定义了某些术语。

如本文所用，术语“缓冲剂”是指当将酸或碱被加入溶液时允许溶液抵抗pH变化的剂。可用于本发明的组合物、试剂盒和方法的合适的非天然存在的缓冲剂的实例包括例如Tris、HEPES、TAPS、MOPS、三甲基甘氨酸(曲新，tricine)或MES。

术语“非天然存在的”是指在自然界中不存在的组合物。

本文所述的任何蛋白质可以是非天然存在的，其中术语“非天然存在的”是指具有不同于其天然状态的蛋白质的氨基酸序列和/或翻译后修饰模式的蛋白质。例如，非天然存在的蛋白质可以在蛋白质的N-端、C-端和/或N-和C-端之间具有一个或多个氨基酸取代、缺失或插入。“非天然存在的”蛋白质可以具有与天然存在的氨基酸序列不同(即，与天然存在的蛋白质的氨基酸序列具有小于100％的序列同一性)但是与天然存在的氨基酸序列至少80％、至少85％、至少90％、至少95％、至少97％、至少98％或至少99％相同的氨基酸序列。在某些情况下，如果非天然存在的蛋白质由不同的(例如细菌)细胞产生，则非天然存在的蛋白质可含有N-端甲硫氨酸或可缺少一个或多个翻译后修饰(例如糖基化、磷酸化等)。“突变的”蛋白质可以相对于野生型蛋白质具有一个或多个氨基酸取代，而“融合”蛋白质可以具有添加至蛋白质的N-端、C-端和/或中间部分的一个或多个外源性结构域。

在核酸(NA)的上下文中，术语“非天然存在的”是指这样的NA，其含有：a)与处于其天然状态的NA不同的核苷酸序列(即，具有与天然存在的NA序列小于100％的序列同一性)，b)一种或多种非天然存在的核苷酸单体(其可导致不是G、A、T或C的非天然骨架或糖)，和/或C)可含有对NA的5′端、3′端和/或5′端和3′端之间的一种或多种其他修饰(例如添加的标记或其他部分)。

在组合物的上下文中，术语“非天然存在的”是指：a)不是天然组合的组分的组合，例如，因为它们在不同的位置，在不同的细胞或不同的细胞区室中；b)具有自然界中未发现的相对浓度的组分的组合；c)缺乏通常与自然界中的组分之一相关联的物质(东西，something)的组合；d)处于自然界中未发现的形式——例如干燥的、冷冻干燥的、结晶的、含水的一一的组合；和/或e)含有自然界中未发现的组分的组合。例如，制剂可含有自然界中未发现的“非天然存在的”缓冲剂(例如，Tris、HEPES、TAPS、MOPS、三甲基甘氨酸或MES)、洗涤剂、染料、反应增强剂或抑制剂、氧化剂、还原剂、溶剂或防腐剂。

如本文所用，术语“组合物”是指可以含有除了列出的那些以外的其它试剂例如甘油、盐、dNTP等的试剂的组合。组合物可以是任何形式，例如水性或冻干的，并且可以处于任何状态(例如冷冻或液体形式)。

如本文所用，术语“位置”是指NA分子中经鉴定的链中核苷酸的位置。

如本文所用，术语“定相(phasing)”是指单个DNA分子上或等位基因内的两个或更多个核苷酸的状态的确定(即，核苷酸是否被修饰，例如，诸如C的核苷酸是否被甲基化、羟甲基化、甲酰基修饰或羧化或未修饰)在相同分子的NA或来自单个细胞的不同同源染色体或来自样品中不同细胞的同源染色体上，注意，在不同细胞或不同组织中，同源染色体可能具有不同的外遗传状态。

如本文所用，术语“核酸”(NA)是指可以是ss或ds并且可以是基因组的或源于真核或原核细胞的基因组、或合成的、克隆的、扩增的或反转录的DNA、RNA、DNA/RNA嵌合体或杂化物。在方法和组合物的某些实施方式中，NA优选是指上下文需要的基因组DNA。

如本文所用，术语“修饰的胞嘧啶”是指甲基胞嘧啶(^mC)、羟甲基胞嘧啶(^hmC)、甲酰基修饰的、羧基修饰的或由可被发现与C天然相关的任何其他化学基团修饰的。

如本文所用，术语“甲基胞嘧啶双加氧酶”是指将^mC转化为^hmC的酶。TET1(Jin，etal.，Nucleic Acids Res.2014 42：6956-71)是甲基胞嘧啶双加氧酶的实例，尽管已知许多其它的，包括TET2、TET3和Naeglaria TET(Pais et al，Proc.Natl.Acad.Sci.2015 112：4316-4321)。在US 9,121,061中提供了可称为“加氧酶”的甲基胞嘧啶双加氧酶的实例。TETv是甲基胞嘧啶双加氧酶的实例，其氧化所有修饰的C的至少90％、92％、94％、96％或98％。

如本文所用，术语“胞苷脱氨酶”是指能够使C和^mC并且在一些情况下^hmC脱氨的酶。许多胞苷脱氨酶是已知的。例如，US 9,121,061中描述了胞苷脱氨酶的APOBEC家族。APOBEC3A(Stenglein Nature Structural&Molecular Biology 2010 17：222-229)是脱氨酶的实例。在任何实施方式中，所使用的脱氨基酶可具有与作为人类APOBEC3A的GenBank登录号AKE33285.1的氨基酸序列至少90％相同(例如，至少95％相同)的氨基酸序列。

如本文所用，术语“DNA葡萄糖基转移酶(GT)”是指催化DNA中β或α-D-葡糖基残基UDP-葡萄糖转移至DNA中的^hmC残基的酶。GT的一个实例是T4-βGT。

术语“基本上”是指大于整体的50％、60％、70％、80％或更特别是90％。

如本文所用，术语“比较”是指相对于彼此分析两个或更多个序列。在一些情况下，比较可以通过将两个或更多个序列彼此比对来进行，使得相应定位的核苷酸互相比对。

如本文所用，术语“参考序列”是指正在分析的片段的序列。参考序列可以从公共数据库获得，或者它可以作为实验的部分单独测序。在一些情况下，参考序列可以是在计算上被脱氨(即，将C’s改变为U’s或T’s等)的意义上“假设的”以允许进行序列比较。

如本文所用，术语“G”、“A”、“T”、“U”、“C”、“^mC”、“^caC”、“^hmC”和“^ghmC”是指分别含有鸟嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T)、尿嘧啶(U)、胞嘧啶(C)、^mC、^caC、^hmC和^ghmC的核苷酸。为了清楚起见，C、^caC、^mC和^ghmC是不同的部分。

如本文所用，在不含C的NA片段的上下文中，术语“无C”是指不含C的NA片段。这样的NA可含有^caC、^mC和/或^ghmC和除了C以外的其他核苷酸。

术语“内部”是指多肽内在从多肽任一末端延伸多达20个氨基酸的区域内的位置。

术语“重复”是指在多肽内重复的多个氨基酸。

术语“融合”是指具有添加到蛋白质的N-端、C-端和/或中间部分的一个或多个外源结合结构域的蛋白质。结合结构域能够识别并结合另一个分子。因此，在一些实施方式中，结合结构域是组氨酸标签(“His-标签”)、麦芽糖结合蛋白、壳多糖结合结构域、SNAP标签

(New England Biolabs，Ipswich，MA)或DNA结合结构域，其可以包括锌指和/或转录激活物样(TAL)效应物结构域。

如本文所用，“蛋白质的N-端部分”是指蛋白质的前50％内的氨基酸。如本文所用，“蛋白质的C-端部分指蛋白质的末端50％。

术语“下一代测序(NGS)”通常适用于测序小于1kb的大小的基因组片段文库，优选使用Illumina测序平台。相反，使用来自太平洋生物系统(Pacific Biosystems)、牛津纳米孔(Oxford Nanopore)或10×Genomics的平台或本领域已知的能够对长度大于1kb或2kb的分子进行测序的任何其它平台进行单分子测序。

实施方式的详细描述

在描述各种实施方式之前，应该理解，本公开的教导不限于所描述的特定实施方式，并且因此当然可以变化。还应该理解，本文使用的术语仅仅是为了描述特定实施方式的目的，而不意图是限制性的，因为本教导的范围将仅由所附权利要求限制。

本文使用的章节标题仅用于组织目的，不应被解释为以任何方式限制所描述的主题。尽管结合各种实施方式描述了本教导，但是本教导不旨在限于这样的实施方式。相反，如本领域技术人员将理解的，本教导涵盖各种替代、修改和等同物。

除非另外定义，否则本文使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的相同的含义。尽管在本教导的实践或测试中也可以使用与本文所述相似或等同的任何方法和材料，但是现在描述一些示例性方法和材料。

任何出版物的引用是因为其在申请日之前公开，并且不应该被解释为承认本权利要求由于先前的发明而无权先于这种出版物。此外，所提供的出版日期可能与需要独立确认的实际出版日期不同。

在阅读本公开后将明显的是，本文描述和示出的每个单独实施方式具有分离的组分和特征，其可以容易地与任何其他几个实施方式中的特征分离或与其组合，而不背离本教导的范围或精神。任何陈述的方法都可以按照所述事件的顺序或以逻辑上可能的任何其它顺序来执行。

所有专利和出版物，包括这样的专利和出版物中公开的所有序列，在此通过引用被清楚地并入。

几乎所有关于真核生物基因组中C修饰的研究都忽略了真核生物基因组携带每个染色体的两个或更多个拷贝的事实。因此，大多数关于C修饰的传统研究没有提供关于修饰的C之间的连接的任何信息。例如，甲基化研究传统上使用将C转化为U的亚硫酸氢钠进行。然而，如下所示，亚硫酸氢钠也断裂DNA，从而使其难以(如果不是不可能的话)确定两个附近修饰的C连接在相同的DNA分子上还是在不同的分子上解开(unlinked)。本文描述的方法为这个问题提供了解决方案。

在一些实施方式中，可以以允许人们确定未修饰或修饰的C的身份和位置以及那些未修饰或修饰的C是否在相同分子上连接(即“定相的”)的方式进行测序。例如，在一些实施方式中，方法可以包括使含有相对长的完整NA片段(例如，长度为至少1kb、至少5kb、至少10kb、至少50kb、多达100kb或200kb或更多)的样品的第一部分与GT和胞苷脱氨酶反应以产生第一产物。如图1B所示，该产物将C和^mC与^hmC区分开。如图1A所示，样品的第二部分可以与甲基胞嘧啶双加氧酶(和任选地GT)反应。甲基胞嘧啶双加氧酶和GT可以在相同的反应混合物中组合或者在相同或不同的缓冲液中顺序使用。该反应之后进行胞苷脱氨酶反应以在未修饰的C和修饰的C之间进行区分。取决于初始片段的序列(例如，图1B中的初始片段是否含有G、A、T、C、^mC并且在一些情况下，^hmC)，第一产物可以含有G、A、T、U，无C和^hmC(如果初始片段含有^hmC)。在图1A中，第二产物单独可以含有G、A、T、U、^caC，无C。这些酶和方法避免了NA底物的降解，并且改善了不被酶降解的基因组长片段上的修饰核苷酸的定相。这些酶和方法实现了修饰的核苷酸的测序和作图，其具有最小偏向和提高的效率。

在产生第一产物和任选地第二产物后，它们可以被扩增和/或克隆，然后使用合适的测序方法进行测序。这可以包括用于分相测序(phased sequencing)的单分子测序。分相测序可以以各种不同的方式进行。在一些实施方式中，可以使用长读取单分子测序方法如纳米孔测序(例如，如Soni，et al Clin Chem 53：1996-2001 2007中所述，由OxfordNanopore Technologies开发)或Pacific Biosciences的荧光碱基切割法(目前其平均读取长度超过10kb，一些读取超过60kb)对产物进行测序。可选地，可使用Moleculo(Illumina，San Diego，CA)、10×Genomics(Pleasanton，CA)或NanoString Technologies(Seattle，WA)的方法对产物进行测序。在这些方法中，样品任选地被稀释，然后以限制每个分区(partition)不含有相同基因座的两个分子(例如，含有相同基因的两个分子)的概率的量分配到多个分区(微滴定板的孔或乳液中的小滴等)中。接下来，这些方法包括产生与所使用的测序平台兼容的大小的加索引扩增子(indexed amplicons)(例如长度在200bp至1kb范围内的扩增子)，其中源于相同分区的扩增子用对分区独特的相同索引进行条形码化。最后，对加索引扩增子进行测序，并且可以使用索引序列重构原始长分子的序列。还可以使用条形码化的转座子(参见，例如，Adey Genome Res.2014 24：2041-9和Amini NatGenet.2014 46：1343-9)，并通过使用群体遗传学技术(Population GeneticsTechnologies)的“反射(reflex)”系统(Casbon，Nucleic Acids Res.2013 41：e112)来进行分相测序。

可选地，可将基因组断裂成小于1kb大小的片段以形成用于下一代测序的文库。根据图1A-1B和实施例1，在酶处理之前，吡咯并-dC修饰的衔接子可以加入到文库中的片段。酶反应后，可以使用Illumina测序仪对衔接子连接的文库进行测序。在获得第一和任选地第二产物的序列之后，将序列与参考序列进行比较以确定初始NA片段中的哪些C’s被修饰。在图1C中图示了显示该方法的该部分的实施方式的矩阵(matrix)。在一些实施方式中，该比较可以通过比较从样品的第一产物(即，样品的甲基胞嘧啶双加氧酶(和任选地GT)和胞苷脱氨酶处理的部分)和未处理的样品和/或样品的第二产物(即，样品的GT和胞苷脱氨酶处理的部分)获得的序列与相应的参考序列(未处理的和/或第一产物)而进行。可能的结果包括：

i.初始NA片段中C的位置由在第一和第二产物两者中的U识别；

II.初始NA片段中^mC的位置由第一产物中C或第二产物中T的存在来确定

III.初始NA片段中^hmC的位置仅由第二产物中C的存在来确定。

应该指出的是，如果不需要将^mC与更稀有的^hmC区分，则这个信息可以仅从第二产物获得(图iA)。

如将理解的，如果产物通过聚合酶克隆、扩增或测序，则“U”将被读为“T”。在这些实施方式中，第一和第二产物中读作T的核苷酸仍然指示在初始脱氨反应中已经改变为U的C。

如将认识到的，方法的一些分析步骤，例如比较步骤，可以在计算机上实施。在某些实施方式中，通用计算机可以被配置为用于本文公开的方法和程序的功能布置。这种计算机的硬件体系结构对于本领域技术人员来说是熟知的，并且可以包括硬件组件——包括一个或多个处理器(CPU)、随机存取存储器(RAM)、只读存储器(ROM)、内部或外部数据存储介质(例如，硬盘驱动器)。计算机系统还可以包括一个或多个图形板，用于处理图形信息并将其输出到显示装置。上述组件可以通过计算机内部的总线适当地互连。计算机可以进一步包括用于与诸如监视器、键盘、鼠标、网络等的通用外部组件进行通信的合适接口。在一些实施方式中，计算机可以能够并行处理或者可以是被配置用于并行或分布式计算的网络的部分，以增加本方法和程序的处理能力。在一些实施方式中，从存储介质读出的程序代码可以被写入插入计算机中的扩展板中提供的存储器、或者连接到计算机的扩展单元，并且扩展板或扩展单元中提供的CPU等可以根据程序代码的指令实际执行部分或全部操作，以实现下述功能。在其它实施方式中，方法可以使用云计算系统来执行。在这些实施方式中，可以将数据文件和编程输出到运行该程序并将输出返回给用户的云计算机。

在某些实施方式中，系统可以包括计算机，该计算机包括：a)中央处理单元；b)主要非易失性存储驱动器，其可以包括一个或多个硬盘驱动器，用于存储软件和数据，其中存储驱动器由磁盘控制器控制；c)系统存储器，例如高速随机存取存储器(RAM)，用于存储系统控制程序、数据和应用程序，包括从非易失性存储驱动器加载的程序和数据；系统存储器(内存，memory)还可以包括只读存储器(ROM)；d)用户界面，包括一个或多个输入或输出设备，如鼠标、小键盘和显示器；e)任选的网络界面卡(接口卡，interface card)，用于连接到任何有线或无线通信网络，例如打印机；和f)用于互连上述系统元件的内部总线。

上述方法可用于分析来自实质上任何生物体的基因组DNA，包括但不限于植物、动物(例如爬行动物、哺乳动物、昆虫、蠕虫、鱼等)、组织样品、细菌、真菌(例如酵母)、噬菌体、病毒、尸体组织、考古/古代样品等。在某些实施方式中，方法中使用的基因组DNA可以源于哺乳动物，其中在某些实施方式中哺乳动物是人。在示例性实施方式中，基因组样品可含有来自哺乳动物细胞如人、小鼠、大鼠或猴细胞的基因组DNA。样品可以由培养的细胞、福尔马林固定的样品或临床样品例如组织活检(例如来自癌症)、刮擦或灌洗的细胞或法医样品的细胞(即，在犯罪现场收集的样品的细胞)制成。在具体的实施方式中，NA样品可以从生物学样品如细胞、组织、体液和粪便获得。感兴趣的体液包括但不限于血液、血清、血浆、唾液、粘液、痰、脑脊液、胸腔液、眼泪、乳管液(lactal duct fluid)、淋巴、痰、脑脊液、滑液、尿、羊水、和精液。在具体的实施方式中，样品可以从受试者(例如人)获得。在一些实施方式中，分析的样品可以是从血液例如从怀孕女性的血液获得的无细胞DNA的样品。

在本发明的一些实施方式中，已经提供了允许短和长NA(例如，ssDNA和dsDNA)的测序以发现修饰的碱基并确定基因组中这样的碱基的定相的酶法。方法的实施方式可以包括组合物，所述组合物包括一种或两种酶的混合物，其中所述一种、两种酶选自甲基胞嘧啶双加氧酶和GT，其中胞苷脱氨酶在随后的反应中被加入。双加氧酶和GT可以储存在相同或不同的缓冲液中，并根据需要在储存缓冲液或反应混合物中进行组合。当单独加入到反应混合物中时，加入可以是按次序的，或者可以在反应开始时将酶加在一起。方法的实施方式可以利用选自胞苷脱氨酶、甲基胞嘧啶双加氧酶和GT的两种或更多种酶。方法的实施方式可以包括在反应混合物中按次序使用的甲基胞嘧啶双加氧酶和胞苷脱氨酶；甲基胞嘧啶双加氧酶和GT按次序或一起使用，优选随后是脱氨酶反应；或按次序或一起使用的甲基胞嘧啶双加氧酶、GT和胞苷脱氨酶。

在利用GT的一些实施方式中，可以将UDP添加到反应混合物中。

在一个实施方式中，甲基胞嘧啶双加氧酶和任选地GT可以在初始步骤中添加至dsDNA中，然后通过蛋白酶处理、热处理和/或分离处理而除去。这随后可以是胞苷脱氨酶反应，和脱氨基的DNA的分离(seperation and isolation)。在一些实施方式中，胞苷脱氨酶反应混合物的pH在pH 5.5-8.5的范围内，例如pH 6.0-8.0，例如pH 6.0、pH 6.3、pH 6.5、pH6.8、pH 7.0、pH 7.5或pH 8.0，其中胞嘧啶脱氨酶的比活性在pH范围的下端如在pH 6.0增加。

在一个实施方式中，用于针对1μg DNA描述的反应中的酶的浓度范围包括：0.001-100微克的甲基胞嘧啶双加氧酶如Ngo TET(Pais，同上)、TET1、TET2或TET3或其突变体；0.001-100微克胞苷脱氨酶如APOBEC或脱氨酶；0.001-100单位GT如T4-βGT或T4-αGT。当在衔接子合成中使用吡咯并(Pyrollo)-dC时，遵循实施例4中描述的标准程序。使用的UDP的量遵循制造商的建议。

酶反应或多个反应的ss DNA产物可以通过PCR或等温方法如连接酶介导的扩增(LMA)，依赖解旋酶的扩增(HDA)、滚环扩增(RCA)、环介导的扩增(LAMP)、多置换扩增(MDA)；转录介导的扩增(TMA)、链置换扩增(SDA)、切口酶扩增反应(NEAR)进行扩增。

扩增的或实际上未扩增的DNA可使用吸收的任一种进行测序：开发中的测序平台或可商购的测序平台(例如由Illumina、Oxford Nanopore或Pacific Biosystems提供)或开发中的方法或可商购的方法如Sanger测序或任何WGS(全基因组测序)方法。使用适当的算法，例如Bismark(参见例如，Krueger et al.Bioinformatics 27，no.11(2011)：1571-1572)，将长读取绘制到基因组。当每个读取被绘制到目标区域(例如，增强子和启动子区域)时，甲基化状态被调用(called)。

目前的实施方式提供了许多优于现有系统的优点，其由包括以下的因素引起：无论相邻核苷酸如何，识别^mC的更低错误率，检测低水平甲基化的更低错误率；没有系统的序列偏好；更一致的基因组宽测序覆盖率；C富集区和CpG岛的更高覆盖率；覆盖更多的CpG位点，其中这些位点可广泛分布在被分析的基因组部分中；和以基本分辨率精确检测大片段(5kb)^hmC，使得能够进行DNA修饰的定相，和将DNA修饰与其他基因组特征(如SNP或变体)一起定相。

在一些实施方式中，组合物可以包括由核苷酸G、A、T、U、^caC组成的NA，其中NA基本上不含C。在一些实施方式中，组合物可以包括由核苷酸G、A、T、U和^ghmC组成的NA，其中NA基本上不含C。在任一实施方式中，组合物还可以含有胞苷脱氨酶(例如，与APOBEC胞苷脱氨酶至少90％相同的胞苷脱氨酶)，并且在某些实施方式中，还可以含有与胞苷脱氨酶活性相容的量的缓冲剂和其他组分(例如，NaCl)。组合物可以是含水组合物。

变异的^mC双加氧酶和使用其的方法

还提供了变异的甲基胞嘧啶双加氧酶。在一些实施方式中，甲基胞嘧啶双加氧酶包括与TETv的氨基酸序列(SEQ ID NO：1)至少90％相同(例如，至少92％、至少94％、至少96％、至少97％、至少98％或至少99％相同)的氨基酸序列；并含有SEQ ID NO：2的氨基酸序列。将明显的是，该多肽具有^mC双加氧酶活性。TETv序列如下所示：

TETv源于小鼠Tet2催化结构域并含有缺失。在上文和下文所示的TETv和TETcd序列的序列内，氨基酸序列ELPKSCEVSGQ(SEQ ID NO：2)被斜体化。

TETcd(TET-2催化结构域)(SEQ ID.NO.3)

缺失的氨基酸对应于残基338至704TETcd(上面斜体字所示)。如上所示，氨基酸序列ELPKSCEVSGQ(SEQ ID NO：2)含有来自连接(接头，junction)的一侧的5个氨基酸和来自连接的另一侧的5个氨基酸。

在一些实施方式中，变异的甲基胞嘧啶双加氧酶可以是融合蛋白。在这些实施方式中，变体可具有能够识别并结合另一分子的结合结构域。因此，在一些实施方式中，结合结构域是组氨酸标签(“His-标签”)，尽管麦芽糖结合蛋白、壳多糖结合结构域、SNAP-标签

或DNA结合结构域——其可包括锌指和/或转录激活剂样(TAL)效应物结构域——也是结合部分的实例。

实施方式包括含有纯化的TETv的缓冲组合物。例如，组合物中缓冲剂的pH为pH5.5-8.5，例如pH 5.5-7.5、pH 7.5-8.0或pH 8.0。在各种实施方式中，缓冲组合物可以含有甘油；和/或含有Fe(II)作为辅因子，和α-酮戊二酸作为酶的辅底物(co-substrate)。在这些实施方式的一些中，组合物含有ATP以允许将^hmC进一步氧化成^fC和^caC；在其他实施方式中，组合物不含有限制氧化形式的^mC的分布的dATP。

实施方式包括体外混合物——其包括TETv、βGT、胞苷脱氨酶和/或内切核酸酶。体外混合物可以进一步包括多核苷酸底物和至少dATP。多核苷酸可以是ss或ds，DNA或RNA，合成的寡核苷酸(oligo)，染色体DNA或RNA转录物。所用的多核苷酸可以在一端或两端被标记。多核苷酸可以携带(harbor)C、^mC、^hmC、^fC、^caC或^gmC。在其他实施方式中，多核苷酸可以携带T、U、羟甲基尿嘧啶(^hmU)、甲酰基尿嘧啶(^fU)或羧基尿嘧啶(^caU)。

实施方式提供了TETv，其优选在任何序列背景下将^mC氧化成^hmC、^fC和/或^caC，与BS-seq相比，具有最小序列偏向和对DNA底物的最小损伤。与天然存在的小鼠TET-2酶或其催化结构域(TETcd)相比，TETv可以以提高的效率和降低的偏向另外或可选地将T氧化成^hmU或^fU。

在方法的实施方式中，可以通过使感兴趣的多核苷酸与TETv和胞苷脱氨酶反应来区分C与^mC，其中仅C转化为U。另外的实施方式包括对用βGT和胞苷脱氨酶处理的多核苷酸测序——其中C被转化为U并且^mC被转化为T——和将测序结果与测序未处理的多核苷酸的测序结果进行比较以绘制多核苷酸中的^mC和^hmC位置。

在方法的另一个实施方式中，多核苷酸中的^mC和^hmC位置两者都被绘制。在该方法中：(a)多核苷酸未经处理；(b)与亚硫酸氢盐试剂反应；或(c)在加入甲基胞嘧啶双加氧酶之前与GT反应，然后用亚硫酸氢盐试剂处理。将(a)至(c)测序并且测序结果的比较使得能够绘制^mC和^hmC和区分它们与C：(a)C、^mC和^hmC都被测序为C；(b)C被测序为C，而^mC和^hmC被测序为T；和(c)^hmC被转化为^gmC，并测序为C，C被测序为C，^mC测序为T。

在一些实施方式中，多核苷酸中的^mC位置通过将TETv的氧化活性分别与对^hmC或^fC/^caC特异的限制性内切核酸酶或AP内切核酸酶的活性偶联来绘制。

在一些方面，可以使用单分子测序技术如单分子实时

测序(PacificBiosciences，Menlo Park，CA)、Oxford纳米孔单分子测序(Oxford，UK)或10×Genomics(Pleasanton，CA)将^mC、^hmC或^fC绘制到多核苷酸中的位点。在一些实施方式中，方法可以使用TETv、胞苷脱氨酶和/或GT。

上述TETv酶可用作上文概述的和下文更详细描述的方法、组合物或试剂盒的任一个中的甲基胞嘧啶双加氧酶。

试剂盒

本公开还提供了用于实施如上所述的本方法的试剂盒。在某些实施方式中，本试剂盒可以含有：GT、甲基胞嘧啶双加氧酶和胞苷脱氨酶。试剂盒的组分可以组合在一个容器中，或者每种组分可以在其自己的容器中。例如，试剂盒的组分可以组合在单个反应管中或者在一个或多个不同的反应管中。上面描述了该试剂盒组分的另外细节。试剂盒还可以含有可用于该方法的上文和下文所述的其他试剂，例如缓冲剂、ADP-葡萄糖、NAs可以被克隆到其中的质粒、对照、扩增引物等，这取决于该方法将被如何实施。

除了上述组分之外，本试剂盒还可以包括使用试剂盒的组分来实施本方法的说明书。通常将用于实施本方法的说明书记录在合适的记录介质上。例如，说明书可以印刷在基材上，如纸或塑料等。如此，说明书可作为包装说明书存在于试剂盒中、试剂盒的容器或其组分的标签(即，与包装或分包装相关)等中。在其它实施方式中，说明书作为存在于合适的计算机可读存储介质例如CD-ROM、软盘等上的电子存储数据文件存在。在其他实施方式中，实际的说明书不存在于试剂盒中，但是提供了用于从远程源获得说明书的方法，例如，通过互联网。该实施方式的实例是包括可以查看说明书和/或可以从其下载说明书的网址的试剂盒。与说明书一样，这种用于获得说明书的方法被记录在合适的基材上。

效用

在一些实施方式中，方法可以用于比较两个样品。在这些实施方式中，方法可用于鉴定测试NA片段中C修饰模式相对于相应的参考NA中胞嘧啶修饰模式的差异。该方法可包括(a)使用上述方法确定测试NA片段中所有修饰的C的位置以获得C修饰的第一模式；(b)使用上述方法确定参考NA片段中所有修饰的C的位置以获得C修饰的第一模式；(c)比较C修饰的测试和参考模式；和(d)鉴定测试NA片段中胞嘧啶修饰模式相对于参考NA片段的差异，例如，^mC或^hmC的量的变化。

在一些实施方式中，在不同时间从同一个体收集测试NA和参考NA。在其他实施方式中，从组织或不同个体收集测试NA和参考NA。

可用于该方法的示例性NA包括，例如，从分离自组织活检(例如，自具有诸如结肠癌、乳腺癌、前列腺癌、肺癌、皮肤癌或感染有病原体等疾病的组织)的细胞分离的NA和从来自相同组织例如来自同一患者的正常细胞分离的NA；从在组织培养物中生长的永生的(例如具有增殖性突变或永生化转基因的细胞)、感染有病原体、或处理的(例如，用环境或化学剂如肽、激素、改变的温度、生长条件、生理应激、细胞转化等)细胞分离的NA，以及从正常细胞(例如，除了它们不是永生化、感染或处理等之外其他方面与实验细胞相同的细胞)分离的NA；从分离自具有癌症、疾病的哺乳动物、老年哺乳动物或暴露于状况的哺乳动物的细胞分离的NA，以及从来自相同物种例如来自相同科的哺乳动物——其是健康的或年轻的——的细胞分离的NA；和从分化细胞分离的NA以及从来自相同哺乳动物的未分化细胞(例如，一个细胞是哺乳动物中另一个的祖先)分离的NA。在一个实施方式中，可以比较从不同类型的细胞，例如神经元细胞和非神经元细胞，或不同状态的细胞(例如，在对细胞刺激之前和之后)分离的NA。在另一实施方式中，实验材料是从易受病原体如病毒例如人免疫缺陷病毒(HIV)等感染的细胞分离的NA，参考物质是从抗病原体感染的细胞分离的NA。在本发明的另一实施方式中，样品对由从未分化细胞例如干细胞分离的NA，和从分化细胞分离的NA代表。

在一些示例性实施方式中，方法可用于鉴定测试剂(例如药物)的作用，或用于确定两种或更多种不同测试剂的作用是否存在差异。在这些实施方式中，可以制备来自两个或更多个相同细胞群体的NA，并且取决于如何进行实验，可以将一个或更多个细胞群体与测试剂一起温育限定的一段时间。与测试剂温育后，可以使用上述方法分析来自细胞群体的一个或多个的基因组DNA，并且可以比较结果。在具体的实施方式中，细胞可以是血细胞，并且细胞可以与测试剂离体温育。可以使用这些方法来确定测试剂的作用方式，以鉴定染色质结构或响应于例如药物的转录因子占据的变化。

上述方法也可以用作诊断(该术语旨在包括提供诊断的方法以及提供预后的方法)。这些方法可以包括，例如，使用上述方法分析来自患者的C修饰以产生图；并基于该图提供诊断或预后。

本文阐述的方法还可以用于为任何与改变的胞嘧啶修饰相关的状况提供可靠的诊断。方法可以应用于以外遗传模式为特征的状况的表征、分类、分化、分级、分期、诊断或预后。例如，方法可用于确定来自怀疑受疾病或状况影响的个体的片段中的C修饰与被认为关于该疾病或状况为“正常”的样品相比是否相同或不同。在具体实施方式中，方法可以涉及诊断具有以测试样品中特定基因座处的外遗传模式为特征的状况的个体，其中所述模式与所述状况相关。方法也可用于预测个体对状况的易感性。

在一些实施方式中，方法可以提供预后，例如，以确定患者是否处于复发的风险。癌症复发是与各种类型的癌症相关的问题。预后方法可用于鉴定可能经历癌症复发的手术治疗的患者，以便他们可被提供额外的治疗选择，包括术前或术后辅助如化学疗法、辐射、生物学改性剂和其他合适的疗法。方法对于确定在检查或手术时显示没有可测量的转移的患者中转移的风险特别有效。

方法还可用于确定具有疾病或状况的患者(例如，具有癌症的患者)的适当治疗过程。治疗过程是指在诊断后或治疗后对患者采取的治疗措施。例如，确定复发、扩散或患者存活的可能性可有助于确定是否应采取更保守或更激进的治疗方法，或是否应组合治疗方式。例如，当癌症复发可能时，化学疗法、辐射、免疫疗法、生物学改性剂疗法、基因疗法、疫苗等在手术治疗之前或之后，或者调整患者被治疗期间的时间跨度可以是有利的。

在具体实施方式中，实验室将接收来自远距离位置(例如，医师办公室或医院)的样品(例如，血液)，实验室将分析如上所述从样品分离的NA以产生数据，并且数据可被发送到远距离位置进行分析。

基因表达的外遗传调控可涉及顺式或反式作用因子，包括核苷酸甲基化。尽管顺式作用甲基化核苷酸被遥远地定位于与增强子相应的DNA序列中，但是这些位点可变得与三维结构中的启动子相邻，用于激活或失活基因的表达。增强子可以远离相应的启动子数兆碱基(megabases)，因此理解增强子中甲基化位点与其对长距离上相应启动子(定相)的影响之间的关系是期望的。将位于远处的增强子的甲基化定相于其起作用的启动子上可以提供对诸如癌症的疾病中发生的基因调节和错误调节的重要见解。

为了进一步说明本发明，给出以下具体实施例，理解它们被提供以说明本发明，并且不应该以任何方式解释为限制其范围。

本文引用的所有参考文献均通过引用并入。

实施例

实施例1.用于绘制甲基胞嘧啶和羟甲基胞嘧啶的基于酶的方法

本文描述的方法的实施方式提供了沿着长段基因组DNA绘制^mC和^hmC的无偏向的有效手段。这样的方法描述如何保护生物学上相关的DNA修饰，如DNA脱氨反应中的^mC和^hmC，以便检测和读取这些修饰。这些方法避免了使用化学方法(如亚硫酸氢盐方法)产生的不需要的断裂。酶促方法使用以下酶中的一种或多种：胞苷脱氨酶、甲基胞嘧啶双加氧酶和GT。

提供利用美国专利9,121,061中描述的胞苷脱氨酶(在该实施例中特别是APOBEC3A)的实例，虽然可以使用其他胞苷脱氨酶(参见例如，实施例1)。本文提供的实例利用脱氨酶-seq。图1A中所示的路径可以进一步包括GT如β)，其可以在一个反应混合物中与甲基胞嘧啶双加氧酶组合或者在一个反应容器中顺序加入。本文描述了新颖的甲基胞嘧啶双加氧酶，其提供了比野生型人或小鼠TET蛋白更有效且无偏向的^mC和^hmC向^CaC的转化(provides more effecient and unbiased conversion of ^mCto ^hmC then does wildtype human or mouse TET proteins)。

A.使用工程化的甲基胞嘧啶双加氧酶(TETv)和胞苷脱氨酶(APOBEC)区分基因组DNA中的甲基胞嘧啶与未修饰的胞嘧啶

(i)使小鼠NIH/3T3 DNA(250ng)与TETv(8μM)在50μl Tris缓冲液中在37℃下反应1小时，并且将氧化的DNA进行柱纯化(Zymo Research，Irvine，CA)。

(ii)然后在热循环仪中在66％甲酰胺存在下将DNA加热至70℃，然后置于冰上。加入RNase A(0.2mg/ml)、BSA(10mg/ml)和胞苷脱氨酶(0.3mg/ml)(也参见Bransteitter etal.PNAS (2003)vol 100，4102-4107)并在37℃下温育3小时。将DNA进行柱纯化(ZymoResearch，Irvine，CA)。在用U-旁路(U-bypass)DNA聚合酶(New England Biolabs，Ipswich，MA)利用引物1 AATGAAGGAAATGAATTTGGTAGAG(SEQ ID NO：6)和引物2TCCCAAATACATAAATCCACACTTA(SEQ ID NO：7)进行PCR后，使用NEB PCR克隆试剂盒(NewEngland Biolabs，Ipswich，MA)将产物克隆，并对克隆进行Sanger测序。测序结果总结在图2A中。空的点代表PCR片段中未修饰的CpG位点，黑色点代表PCR片段中的^mCpG位点。

B.使用T4-βGT(New England Biolabs，Ipswich，MA)和胞苷脱氨酶区分羟甲基胞嘧啶与未修饰的胞嘧啶和甲基胞嘧啶

(i)在50μL体积中在UDP(1μL)的存在下，使DNA与T4-βGT(20个单位)在37℃下反应1小时，然后柱纯化DNA。该方法遵循上面(ii)中的步骤。测序结果总结在图2B中。空的点代表PCR片段中未修饰的CpG位点，黑色点代表PCR片段中的^hmCpG位点。

实施例2.在甲基胞嘧啶脱氧酶、DNA葡糖基转移酶或胞苷脱氨酶处理过程中ss DNA未被损伤

在ss DNA中修饰碱基的分析过程中不发生DNA损伤的示证(证明，demonstration)是相对于通常用于甲基化组(甲基化谱，methylome)分析的目前亚硫酸氢盐方法的显著优点(参见图3A-3E)。如图3A-3B、3D-3E所示，没有损伤使得可能获得相数据。

将小鼠E14基因组DNA剪切成大小约为15kb的片段(Covaris，Woburn，MA)，并使用

XP珠(Beckman Coulter，Brea，CA)进行选择和纯化。然后如下处理DNA：

(a)对照DNA。在66％的甲酰胺存在下在70℃下将15kb的DNA片段变性为ssDNA持续10分钟。

(b)亚硫酸氢盐转化的DNA。根据指导手册，使用EZ DNA甲基化-Gold^TM试剂盒(ZymoResearch，Irvine，CA)用亚硫酸氢钠处理15kb的DNA片段。

(c)T4-βGT和胞苷脱氨酶(APOBEC3A)处理的DNA。使15kb DNA片段葡糖基化然后如实施例1中所述脱氨基。

(d)TETv和胞苷脱氨酶(APOBEC3A)处理的DNA。用TETv处理15kb DNA片段，然后如上所述脱氨基。

最初，来自样品(a)-(d)的DNA在Agilent RNA 6000pico芯片(Agilent，SantaClara，CA)上进行检查。数据在图3E中给出(y轴是荧光单位，而X轴是大小(道尔顿)。浅蓝色线代表15kb AMPure大小选择的片段的变性ss DNA，其也是对照。红色线是葡糖基化DNA上的APOBEC脱氨基。深蓝色是TETv氧化的DNA上的DNA脱氨基。而绿色是亚硫酸氢盐处理的DNA。当与对照比较时，胞苷脱氨酶处理的底物在尺寸分布上没有显示显著差异，而亚硫酸氢盐处理的DNA在尺寸上大大减小，显示出显著的DNA降解。

使用

U(ThermoFisher Scientific，Waltham，MA)DNA聚合酶对来自样品(a)-(d)的15Kb处理的DNA也进行PCR扩增以产生4229bp、3325bp、2018bp、1456bp、731bp和388bp的扩增子。

产物在1％琼脂糖凝胶上进行分析，结果在图3B-3E中提供。结果显示用胞苷脱氨酶、GT和甲基胞嘧啶双加氧酶处理DNA不引起可检测的断裂。相比之下，亚硫酸氢盐处理导致DNA断裂成不大于731bp的片段。

实施例3.用于NGS文库构建的衔接子的合成，其中所有胞嘧啶在胞苷DNA脱氨酶的存在下被保护免于脱氨基

该实施例描述了实验，证实吡咯并-dC不是胞苷脱氨酶的底物，并且可以用于合成适合于测序平台如Illumina的受保护的衔接子。

制备含有2μM 44bp ssDNA寡核苷酸、50mM BIS-TRIS pH6.0、0.1％TritonX-100、10μg BSA、0.2μg RNase A和0.2μM纯化的重组胞苷脱氨酶的反应混合物，所述44bp ssDNA寡核苷酸含有单一吡咯并-dC(5’-ATAAGAATAGAATGAATXGTGAAATGAATATGAAATGAATAGTA-3’，X＝吡咯并-dC)(SEQ ID NO：4)。将其在37℃下温育16小时。通过使用DNA Clean andConcentrator^TM试剂盒(zymo Research，Irvine，CA)回收DNA。核酸酶P1w、南极磷酸酶(和DNase I的混合物被用于将纯化的ss DNA底物消化为核苷。LC-MS在具有Waters AtlantisT3(4.6×150mm，3mm，Waters，Milford，MA)柱——具有在线过滤器和保护柱——的Agilent1200系列(G1315D二极管阵列检测器(Diode Array Detector)，6120质量检测器(MassDetector))(Agilent，Santa Clara，CA)上进行。结果显示在图4A和4B中。在每个样品中观察到预期的峰，而在用胞苷脱氨酶处理后没有检测到变化(MS：m/z＝265)。在ABI394合成仪(Applied Biosystems，Foster City，CA)上使用标准亚磷酰胺(phosphoramidite)化学(Glen Research Sterling，Virginia)将用于NGS文库构建的修饰的衔接子合成为65-merss DNA。吡咯并亚磷酰胺和纯化柱购自Glen Research，Sterling，维吉尼亚。根据制造商的建议将寡核苷酸去保护，使用Glen-Pak DMT-ON柱进行纯化，使用Gel-Pak大小排阻色谱柱进行脱盐。

以下提供吡咯并dC衔接子序列的实例，其中X＝吡咯并-dC：

5’/5Phos/GATXGGAAGAGXAXAXGTXTGAAXTXXAGTX/脱氧U/AXAXTXTTTXXXTAXAXGAXGXTXTTXXGATCT(SEQ ID NO：5)(也参见图4A和4B)。

实施例4.全基因组甲基化组分析

为了研究是否发生任何序列偏向以及方法的效率，使用Covaris S2超声仪(Covaris)将小鼠ES细胞基因组DNA剪切成300bp片段，用于根据制造商用于DNA末端修复、甲基化衔接子连接和大小选择的说明书使用用于

的

Ultra^TM DNA文库制备试剂盒进行文库制备。然后通过热将样品变性。将吡咯并-dC NEBNext衔接子(NewEngland Biolabs，Ipswich，MA)连接到dA-加尾的DNA，然后用USER^TM(New EnglandBiolabs，Ipswich，MA)处理。

衔接子连接反应组分	μl
		dA-加尾的DNA	65
吡咯并dC NEBNext衔接子(5μM)	2
		平端(Blunt)/TA连接酶反应混合物(Master Mix)	15
连接增强子	1
		总体积	83

创建了三个文库。第一文库是用EZ DNA甲基化-Gold试剂盒以亚硫酸氢钠进行处理。第二文库用

亚硫酸氢盐试剂盒Cat.No.59104(Qiagen，Valencia，CA)根据指导手册处理。根据实施例1处理第三文库。使用NEBNext

Uracil PCR反应混合物(MasterMix)；用于Illumina的NEBNext通用PCR引物(15μM)和用于Illumina的NEBNext Index PCR引物(15μM)(均可在New England Biolabs，Ipswich，MA商业获得)，文库被PCR扩增。

表1.小鼠ES细胞基因组DNA的建议的PCR循环数。

DNA输入	PCR循环数
		1μg	4～7
100ng	8～10
		50ng	9～11

结果显示在图5-9中。

脱氨酶-seq不显示强的序列偏好，而两种BS-seq方法产生更多的非转化错误(图5)。此外，脱氨酶-seq提供结果——其准确地反映DNA中C的数量而不管相邻核苷酸的性质如何，不同于BS-seq——其显示显著的CA偏向。(图6)具有3.36亿个读数的相同的标准化文库大小，脱氨酶-seq文库比两个BS-seq文库多覆盖150万个CpG二核苷酸位点，总共覆盖3800万单个CpG二核苷酸，即，89％的整个小鼠基因组(图7)。脱氨酶-seq在整个基因组中提供更均匀的测序覆盖率，其中非常低或非常高的拷贝数的异常值很少(图8)。结果，脱氨酶-seq在CpG岛——其是外遗传学研究中最重要的基因组区域——中给出的读数是BS-seq的几乎2倍(图9)。

将来自葡糖基化和脱氨基的小鼠胚胎干细胞基因组DNA(染色体8)的5.4kb片段剪切至300bp，并使用上述方案制备断裂DNA的文库，并在Illumina测序仪上测序。该方法在整个5.4kb区域内以单个碱基分辨率准确地鉴定了^hmC(图10)。

实施例5.用SMRT测序(Pacific Biosystems)的^mC和^hmC定相

所述方法的实施方式已经产生了区域——其仅由用于扩增感兴趣DNA的DNA聚合酶限制——上外遗传修饰的定相的基因组图。如果不利用扩增，则可以使用这些方法来分析全基因组。本文针对5.4Kb的基因组区域提供了典型的实例，结果显示在图11A和11B中。

如图1A和1B所述处理小鼠脑基因组DNA，即，通过使DNA的等分部分分别与(a)TETv+βGT处理(用于^mC/^hmC检测)和(b)βGT处理(用于^hmC检测)反应。这些酶反应的产物被脱氨基(胞苷脱氨酶，例如APOBEC3A)。然后通过PCR从脱氨基的DNA扩增染色体8上的5.4kb片段。纯化后，遵循“扩增子模板制备和测序”方案(Pacific Biosystems，Menlo Park，CA)使用5.4kb扩增子构建PacBio SM RT文库。针对每种修饰类型制备一个文库，并使用MagBead方法将其加载到SMRT细胞上。这两个文库在PacBio RSII机器上测序。通过使用SMRT入口(portal)的“RS_ReadsOfInsert”方案产生单个测序分子(插入读数(Read of Insert))的共有序列，并使用Bismark算法将其绘制到小鼠参考基因组。所有跨5.4kb的CpG位点的修饰状态针对单个分子被独立地确定。结果表明，除了其5′端以外，该5.4kb区域在整个区域都是高度甲基化的。这些分子可以分为2个不同的群体：5′端高甲基化或5′端缺失甲基化。相比之下，^hmC存在于几个基因座中，并且在分子之间是更加动态的。

实施例6.使用DD-seq和分配(partitioning)技术如10×Genomics的长DNA片段 (多于10kb长)的甲基化定相

纯化如实施例5中描述的ss长转化的DNA片段并将lng的DNA置于10×GenomicsGemCode TM平台(10×Genomics，Pleasanton，CA)。DNA与基于小滴的试剂一起分配成小滴。该试剂含有凝胶珠，所述凝胶珠具有数百万拷贝的寡核苷酸和通过尿嘧啶如Phusion U读取的聚合酶。每个寡核苷酸包括通用Illumina-P5衔接子(Illumina，San Diego，CA)、条形码、Read 1引物位点和半随机N-mer引发序列。以统计学上一个或几个ss转化的长DNA片段用一个珠包封的方式完成分配。分配后溶解的珠释放寡核苷酸。半随机N-mer引发序列在ssDNA片段上随机退火，聚合酶复制模板ss DNA。小滴溶解，通过物理剪切将DNA剪切，并在末端修复和dA加尾后，将正确的衔接子连接到ss DNA。使用标准Illumina引物进行文库的扩增，并使用标准Illumina方案进行测序。

实施例7.mTET2CD与TETv对基因组DNA的活性比较

将TET2cd(3μM)(SEQ ID NO：3)或TETv(SEQ ID NO：1)加入Tris缓冲液pH 8.0中的250ng IMR90gDNA(人胎肺成纤维细胞)底物中，并且随着加入50μM FeSO4开始反应。反应在37℃下进行1小时。随后，基因组DNA被降解为单个的核苷酸并通过质谱法进行分析。

提供在图12A和12B中的结果显示，在不存在酶的情况下，^mC是DNA中主要的修饰核苷酸，具有少量的^hmC。在存在mTET2CD的情况下，一些但不是全部的^mC被转化为^hmC并且这些核苷酸的子集被转化为^fC，提示不完全的活性和/或偏向。相反，TETv将基本上所有的^mC转化为^caC，具有很少的中间底物。结果显示在图12A中。

实施例8：TETv对ss和ds小鼠基因组DNA的活性

将小鼠3T3gDNA剪切至1500bp并使用Qiagen核苷酸纯化试剂盒(Qiagen，Valencia，CA)来纯化。通过在95℃加热5分钟之后立即在冰上冷却10分钟使断裂的gDNA变性以形成ss片段。在类似的反应条件下，如实施例8所述，250ng剪切的3T3gDNA底物用TETv处理。根据实施例8进行修饰碱基的分析。结果显示在图12B中。

实施例9：在5个基因组的分析显示该性质不是底物特异性的情况下，TETv表现出非常低的序列偏向

根据实施例7使用来自5种不同细胞类型的基因组DNA进行反应。低序列特异性是优选的，因为它表示酶缺乏序列偏向。结果显示在图13中。

实施例10：用TETv处理的DNA是完整的。

Mspl对氧化形式的^mC而非^mC敏感。根据实施例8进行反应。使用3μM的TETv和100ng的Hpall质粒底物。在37℃下在20μL总体积中添加

缓冲液(pH7.9)(New EnglandBiolabs，Ipswich，MA)中的20U的BamHI(使质粒线性化)和50U Mspl 1小时。

反应产物在1.8％琼脂糖凝胶上确定。结果显示在图14中。

本领域技术人员还将认识到，尽管上面已经根据优选实施例描述了本发明，但是本发明不限于此。上述发明的各种特征和方面可以单独或联合使用。此外，尽管本发明已经在特定环境中其实施的上下文中，并且针对特定应用(例如，外遗传分析)被描述，但是本领域技术人员将认识到其有用性不限于此，并且本发明可以有益地用于任何数量的需要检查DNA的环境和实施。因此，下面阐述的权利要求应该考虑如本文所公开的本发明的完整宽度和精神来解释。

序列表

<110> 新英格兰生物实验室公司

<120> 通过测序确定修饰的胞嘧啶的组合物和方法

<130> NEB-382-PCT

<150> 62/248,872

<151> 2015-10-30

<150> 62/257,284

<151> 2015-11-19

<150> 62/271,679

<151> 2015-12-28

<150> 62/300,396

<151> 2016-02-26

<150> 62/325,626

<151> 2016-04-21

<160> 22

<170> PatentIn version 3.5

<210> 1

<211> 507

<212> PRT

<213> 人工序列

<220>

<223> 合成的构建物

<400> 1

Gly Gly Ser Gln Ser Gln Asn Gly Lys Cys Glu Gly Cys Asn Pro Asp

1 5 10 15

Lys Asp Glu Ala Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Asp Val

20 25 30

Ala Ala Ile Arg Thr Leu Met Glu Glu Arg Tyr Gly Glu Lys Gly Lys

35 40 45

Ala Ile Arg Ile Glu Lys Val Ile Tyr Thr Gly Lys Glu Gly Lys Ser

50 55 60

Ser Gln Gly Cys Pro Ile Ala Lys Trp Val Tyr Arg Arg Ser Ser Glu

65 70 75 80

Glu Glu Lys Leu Leu Cys Leu Val Arg Val Arg Pro Asn His Thr Cys

85 90 95

Glu Thr Ala Val Met Val Ile Ala Ile Met Leu Trp Asp Gly Ile Pro

100 105 110

Lys Leu Leu Ala Ser Glu Leu Tyr Ser Glu Leu Thr Asp Ile Leu Gly

115 120 125

Lys Cys Gly Ile Cys Thr Asn Arg Arg Cys Ser Gln Asn Glu Thr Arg

130 135 140

Asn Cys Cys Cys Gln Gly Glu Asn Pro Glu Thr Cys Gly Ala Ser Phe

145 150 155 160

Ser Phe Gly Cys Ser Trp Ser Met Tyr Tyr Asn Gly Cys Lys Phe Ala

165 170 175

Arg Ser Lys Lys Pro Arg Lys Phe Arg Leu His Gly Ala Glu Pro Lys

180 185 190

Glu Glu Glu Arg Leu Gly Ser His Leu Gln Asn Leu Ala Thr Val Ile

195 200 205

Ala Pro Ile Tyr Lys Lys Leu Ala Pro Asp Ala Tyr Asn Asn Gln Val

210 215 220

Glu Phe Glu His Gln Ala Pro Asp Cys Cys Leu Gly Leu Lys Glu Gly

225 230 235 240

Arg Pro Phe Ser Gly Val Thr Ala Cys Leu Asp Phe Ser Ala His Ser

245 250 255

His Arg Asp Gln Gln Asn Met Pro Asn Gly Ser Thr Val Val Val Thr

260 265 270

Leu Asn Arg Glu Asp Asn Arg Glu Val Gly Ala Lys Pro Glu Asp Glu

275 280 285

Gln Phe His Val Leu Pro Met Tyr Ile Ile Ala Pro Glu Asp Glu Phe

290 295 300

Gly Ser Thr Glu Gly Gln Glu Lys Lys Ile Arg Met Gly Ser Ile Glu

305 310 315 320

Val Leu Gln Ser Phe Arg Arg Arg Arg Val Ile Arg Ile Gly Glu Leu

325 330 335

Pro Lys Ser Cys Glu Val Ser Gly Gln Asp Ala Ala Ala Val Gln Glu

340 345 350

Ile Glu Tyr Trp Ser Asp Ser Glu His Asn Phe Gln Asp Pro Cys Ile

355 360 365

Gly Gly Val Ala Ile Ala Pro Thr His Gly Ser Ile Leu Ile Glu Cys

370 375 380

Ala Lys Cys Glu Val His Ala Thr Thr Lys Val Asn Asp Pro Asp Arg

385 390 395 400

Asn His Pro Thr Arg Ile Ser Leu Val Leu Tyr Arg His Lys Asn Leu

405 410 415

Phe Leu Pro Lys His Cys Leu Ala Leu Trp Glu Ala Lys Met Ala Glu

420 425 430

Lys Ala Arg Lys Glu Glu Glu Cys Gly Lys Asn Gly Ser Asp His Val

435 440 445

Ser Gln Lys Asn His Gly Lys Gln Glu Lys Arg Glu Pro Thr Gly Pro

450 455 460

Gln Glu Pro Ser Tyr Leu Arg Phe Ile Gln Ser Leu Ala Glu Asn Thr

465 470 475 480

Gly Ser Val Thr Thr Asp Ser Thr Val Thr Thr Ser Pro Tyr Ala Phe

485 490 495

Thr Gln Val Thr Gly Pro Tyr Asn Thr Phe Val

500 505

<210> 2

<211> 11

<212> PRT

<213> 人工序列

<220>

<223> 合成的构建物

<400> 2

Glu Leu Pro Lys Ser Cys Glu Val Ser Gly Gln

1 5 10

<210> 3

<211> 871

<212> PRT

<213> 人工序列

<220>

<223> 合成的构建物

<400> 3

Gln Ser Gln Asn Gly Lys Cys Glu Gly Cys Asn Pro Asp Lys Asp Glu

1 5 10 15

Ala Pro Tyr Tyr Thr His Leu Gly Ala Gly Pro Asp Val Ala Ala Ile

20 25 30

Arg Thr Leu Met Glu Glu Arg Tyr Gly Glu Lys Gly Lys Ala Ile Arg

35 40 45

Ile Glu Lys Val Ile Tyr Thr Gly Lys Glu Gly Lys Ser Ser Gln Gly

50 55 60

Cys Pro Ile Ala Lys Trp Val Tyr Arg Arg Ser Ser Glu Glu Glu Lys

65 70 75 80

Leu Leu Cys Leu Val Arg Val Arg Pro Asn His Thr Cys Glu Thr Ala

85 90 95

Val Met Val Ile Ala Ile Met Leu Trp Asp Gly Ile Pro Lys Leu Leu

100 105 110

Ala Ser Glu Leu Tyr Ser Glu Leu Thr Asp Ile Leu Gly Lys Cys Gly

115 120 125

Ile Cys Thr Asn Arg Arg Cys Ser Gln Asn Glu Thr Arg Asn Cys Cys

130 135 140

Cys Gln Gly Glu Asn Pro Glu Thr Cys Gly Ala Ser Phe Ser Phe Gly

145 150 155 160

Cys Ser Trp Ser Met Tyr Tyr Asn Gly Cys Lys Phe Ala Arg Ser Lys

165 170 175

Lys Pro Arg Lys Phe Arg Leu His Gly Ala Glu Pro Lys Glu Glu Glu

180 185 190

Arg Leu Gly Ser His Leu Gln Asn Leu Ala Thr Val Ile Ala Pro Ile

195 200 205

Tyr Lys Lys Leu Ala Pro Asp Ala Tyr Asn Asn Gln Val Glu Phe Glu

210 215 220

His Gln Ala Pro Asp Cys Cys Leu Gly Leu Lys Glu Gly Arg Pro Phe

225 230 235 240

Ser Gly Val Thr Ala Cys Leu Asp Phe Ser Ala His Ser His Arg Asp

245 250 255

Gln Gln Asn Met Pro Asn Gly Ser Thr Val Val Val Thr Leu Asn Arg

260 265 270

Glu Asp Asn Arg Glu Val Gly Ala Lys Pro Glu Asp Glu Gln Phe His

275 280 285

Val Leu Pro Met Tyr Ile Ile Ala Pro Glu Asp Glu Phe Gly Ser Thr

290 295 300

Glu Gly Gln Glu Lys Lys Ile Arg Met Gly Ser Ile Glu Val Leu Gln

305 310 315 320

Ser Phe Arg Arg Arg Arg Val Ile Arg Ile Gly Glu Leu Pro Lys Ser

325 330 335

Cys Lys Lys Lys Ala Glu Pro Lys Lys Ala Lys Thr Lys Lys Ala Ala

340 345 350

Arg Lys Arg Ser Ser Leu Glu Asn Cys Ser Ser Arg Thr Glu Lys Gly

355 360 365

Lys Ser Ser Ser His Thr Lys Leu Met Glu Asn Ala Ser His Met Lys

370 375 380

Gln Met Thr Ala Gln Pro Gln Leu Ser Gly Pro Val Ile Arg Gln Pro

385 390 395 400

Pro Thr Leu Gln Arg His Leu Gln Gln Gly Gln Arg Pro Gln Gln Pro

405 410 415

Gln Pro Pro Gln Pro Gln Pro Gln Thr Thr Pro Gln Pro Gln Pro Gln

420 425 430

Pro Gln His Ile Met Pro Gly Asn Ser Gln Ser Val Gly Ser His Cys

435 440 445

Ser Gly Ser Thr Ser Val Tyr Thr Arg Gln Pro Thr Pro His Ser Pro

450 455 460

Tyr Pro Ser Ser Ala His Thr Ser Asp Ile Tyr Gly Asp Thr Asn His

465 470 475 480

Val Asn Phe Tyr Pro Thr Ser Ser His Ala Ser Gly Ser Tyr Leu Asn

485 490 495

Pro Ser Asn Tyr Met Asn Pro Tyr Leu Gly Leu Leu Asn Gln Asn Asn

500 505 510

Gln Tyr Ala Pro Phe Pro Tyr Asn Gly Ser Val Pro Val Asp Asn Gly

515 520 525

Ser Pro Phe Leu Gly Ser Tyr Ser Pro Gln Ala Gln Ser Arg Asp Leu

530 535 540

His Arg Tyr Pro Asn Gln Asp His Leu Thr Asn Gln Asn Leu Pro Pro

545 550 555 560

Ile His Thr Leu His Gln Gln Thr Phe Gly Asp Ser Pro Ser Lys Tyr

565 570 575

Leu Ser Tyr Gly Asn Gln Asn Met Gln Arg Asp Ala Phe Thr Thr Asn

580 585 590

Ser Thr Leu Lys Pro Asn Val His His Leu Ala Thr Phe Ser Pro Tyr

595 600 605

Pro Thr Pro Lys Met Asp Ser His Phe Met Gly Ala Ala Ser Arg Ser

610 615 620

Pro Tyr Ser His Pro His Thr Asp Tyr Lys Thr Ser Glu His His Leu

625 630 635 640

Pro Ser His Thr Ile Tyr Ser Tyr Thr Ala Ala Ala Ser Gly Ser Ser

645 650 655

Ser Ser His Ala Phe His Asn Lys Glu Asn Asp Asn Ile Ala Asn Gly

660 665 670

Leu Ser Arg Val Leu Pro Gly Phe Asn His Asp Arg Thr Ala Ser Ala

675 680 685

Gln Glu Leu Leu Tyr Ser Leu Thr Gly Ser Ser Gln Glu Lys Gln Pro

690 695 700

Glu Val Ser Gly Gln Asp Ala Ala Ala Val Gln Glu Ile Glu Tyr Trp

705 710 715 720

Ser Asp Ser Glu His Asn Phe Gln Asp Pro Cys Ile Gly Gly Val Ala

725 730 735

Ile Ala Pro Thr His Gly Ser Ile Leu Ile Glu Cys Ala Lys Cys Glu

740 745 750

Val His Ala Thr Thr Lys Val Asn Asp Pro Asp Arg Asn His Pro Thr

755 760 765

Arg Ile Ser Leu Val Leu Tyr Arg His Lys Asn Leu Phe Leu Pro Lys

770 775 780

His Cys Leu Ala Leu Trp Glu Ala Lys Met Ala Glu Lys Ala Arg Lys

785 790 795 800

Glu Glu Glu Cys Gly Lys Asn Gly Ser Asp His Val Ser Gln Lys Asn

805 810 815

His Gly Lys Gln Glu Lys Arg Glu Pro Thr Gly Pro Gln Glu Pro Ser

820 825 830

Tyr Leu Arg Phe Ile Gln Ser Leu Ala Glu Asn Thr Gly Ser Val Thr

835 840 845

Thr Asp Ser Thr Val Thr Thr Ser Pro Tyr Ala Phe Thr Gln Val Thr

850 855 860

Gly Pro Tyr Asn Thr Phe Val

865 870

<210> 4

<211> 44

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<220>

<221> misc_feature

<222> (18)..(18)

<223> n是吡咯并-dC

<400> 4

ataagaatag aatgaatngt gaaatgaata tgaaatgaat agta 44

<210> 5

<211> 65

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<220>

<221> misc_feature

<222> (4)..(4)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (12)..(12)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (14)..(14)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (16)..(16)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (19)..(19)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (24)..(24)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (26)..(27)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (31)..(31)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (34)..(34)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (36)..(36)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (38)..(38)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (42)..(44)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (47)..(47)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (49)..(49)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (52)..(52)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (54)..(54)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (56)..(56)

<223> n是吡咯并-dC

<220>

<221> misc_feature

<222> (59)..(60)

<223> n是吡咯并-dC

<400> 5

gatnggaaga gnanangtnt gaantnnagt nuanantntt tnnntanang angntnttnn 60

gatct 65

<210> 6

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 6

aatgaaggaa atgaatttgg tagag 25

<210> 7

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 7

tcccaaatac ataaatccac actta 25

<210> 8

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 8

taggataaaa atataaatgt attgtgggat gagg 34

<210> 9

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 9

aaaacatata accccctcca ctaatac 27

<210> 10

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 10

agatatattg gagaagtttt ggatgatttg g 31

<210> 11

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 11

aaaacatata accccctcca ctaatac 27

<210> 12

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 12

taagattaag gtaggttgga tttgg 25

<210> 13

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 13

tcattactcc ctctccaaaa attac 25

<210> 14

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 14

aagatttaag ggaaggttga atagg 25

<210> 15

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 15

acctacaaaa ccttacaaac ataac 25

<210> 16

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 16

tggagtttgt tggggggttt gttgtttaag 30

<210> 17

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 17

tctaaccctc accaccttcc taatacccaa 30

<210> 18

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 18

tggtaaaggt taagaaggga agattgtgga 30

<210> 19

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 19

aaccctactt ccccctaaca aattttcaac 30

<210> 20

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 20

ccgtcggacc gc 12

<210> 21

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 21

uugtcggauu gc 12

<210> 22

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成的构建物

<400> 22

uugtcggauu gt 12

Claims

1.用于确定核酸片段中修饰的胞嘧啶的位置的方法，包括：

(a)使含有至少一个C和/或至少一个修饰的C的核酸片段与甲基胞嘧啶双加氧酶和DNA葡糖基转移酶反应，其中所述甲基胞嘧啶双加氧酶和DNA葡糖基转移酶在相同的反应混合物中组合；和随后该反应的产物与胞苷脱氨酶反应；和

(b)将(a)中获得的序列或其扩增产物与未处理的参考序列进行比较，以确定初始核酸片段中的哪些C被修饰。

2.根据权利要求1所述的方法，其中在步骤(a)中，所述甲基胞嘧啶双加氧酶和DNA葡糖基转移酶加至单一缓冲液中的所述反应中。

3.根据权利要求1所述的方法，其中步骤(a)进一步包括扩增或克隆反应的核酸片段。

4.根据权利要求1或权利要求3所述的方法，进一步包括：测序在(a)之后的所述反应的核酸片段；其中，如果所述测序是单分子测序，则所述初始核酸片段的长度为至少2Kb。

5.根据权利要求1所述的方法，其中所述甲基胞嘧啶双加氧酶由SEQ ID NO：1组成。

6.根据权利要求1或权利要求5所述的方法，其中所述核酸片段大于2kb；其中所述核酸片段含有至少一个CpG岛；其中所述核酸片段是基因组DNA的片段；和/或其中核酸片段被连接到转录的基因。

7.根据权利要求1或权利要求5所述的方法，其中所述反应混合物包含：

0.001-100微克的甲基胞嘧啶双加氧酶；和

0.001-100单位的DNA葡糖基转移酶。

8.根据权利要求1或权利要求5所述的方法，其中所述核酸片段为双链，并且其中所述方法包括确定所述核酸片段的单链上的甲基胞嘧啶和/或羟甲基胞嘧啶的位置。

9.非疾病诊断方法，包括：

(a).使用权利要求1-8中任一项所述的方法确定测试核酸片段中基本上所有修饰的胞嘧啶的位置，以获得胞嘧啶修饰模式；

(b).将所述测试核酸片段中的所述胞嘧啶修饰模式与参考核酸片段中的所述胞嘧啶修饰模式进行比较；和

(c).鉴定顺式的所述测试核酸片段中所述胞嘧啶修饰模式相对于所述参考核酸片段的差异。

10.根据权利要求9所述的非疾病诊断方法，其中所述测试核酸片段中所述胞嘧啶修饰模式相对于所述参考核酸片段的差异对应于与病理学相关的变异的单核苷酸多态性、插入/缺失或体细胞突变。

11.根据权利要求9或权利要求10所述的非疾病诊断方法，其中所述修饰的胞嘧啶是甲基化的胞嘧啶。

12.蛋白质，其由SEQ ID NO：1的氨基酸序列组成。

13.融合蛋白质，其包含根据权利要求12所述的蛋白质，并且进一步包括N-端亲和结合结构域。

14.组合物，包含甲基胞嘧啶双加氧酶和DNA葡糖基转移酶的混合物，其中所述甲基胞嘧啶双加氧酶如权利要求12或权利要求13所述限定。

15.根据权利要求14所述的组合物，包含：

0.001-100微克的甲基胞嘧啶双加氧酶；和

0.001-100单位的DNA葡糖基转移酶。

16.试剂盒，其包含组合在一个容器中的甲基胞嘧啶双加氧酶和DNA葡糖基转移酶，和在分开的容器中的胞嘧啶脱氧酶；以及用于使用所述试剂盒的组分来实践根据权利要求1-9中任一项所述的方法的使用说明，其中所述甲基胞嘧啶双加氧酶如权利要求12或权利要求13所述限定。

17.修饰含有一种或多种甲基胞嘧啶的天然存在的DNA的方法，包括：

(a)将包括DNA的样品与包括根据权利要求12或13所述的蛋白质的反应混合物组合；和

(b)温育所述反应混合物以氧化所述DNA中的所述修饰的胞嘧啶；

任选地，其中所述反应混合物还包括DNA葡糖基转移酶。

18.根据权利要求17所述的方法，还包括使(b)的产物与胞苷脱氨酶反应；和/或通过测序分析(b)的产物。

19.权利要求18所述的方法，其中所述分析通过质谱法进行。