CN112105626A

CN112105626A - 用于dna、特别是细胞游离dna的表观遗传学分析的方法

Info

Publication number: CN112105626A
Application number: CN201980017895.0A
Authority: CN
Inventors: P.A.阿伦斯多夫; D.斯帕克; C.宋
Original assignee: Bluestar Genomics Inc
Current assignee: Bluestar Genomics Inc
Priority date: 2018-02-14
Filing date: 2019-02-13
Publication date: 2020-12-18
Also published as: US20200024643A1; US20230235380A1; WO2019160994A1; US20210262009A1; EP3752515A1; AU2019222723B2; JP2021513358A; AU2019222723A1; JP7206284B2; CA3091335A1; US11634748B2; US11274335B2

Abstract

提供了用于使用有机硼烷将细胞游离DNA中的氧化的5‑甲基胞嘧啶残基转化为二氢尿嘧啶(DHU)残基的细胞游离DNA的表观遗传学分析方法。使细胞游离DNA与有机硼烷接触，所述有机硼烷经选择以成功地引起氧化的5‑甲基胞嘧啶残基(例如5‑羧甲基胞嘧啶和5‑甲酰基胞嘧啶)的还原、脱氨基和脱羧基，从而代替其产生DHU残基。扩增后，对经处理的细胞游离DNA进行测序，DHU残基读取为胸腺嘧啶残基。还提供了反应混合物、试剂盒和另外的方法，以及用于DNA(包括细胞游离DNA)的表观遗传学分析的相关方法。

Description

用于DNA、特别是细胞游离DNA的表观遗传学分析的方法

技术领域

本发明总体上涉及生物技术，并且更特别地涉及细胞游离DNA的表观遗传学分析。本发明的发现可用于基因组学、医学、诊断学和表观遗传学研究领域。

背景技术

表观遗传学领域要求检测某些DNA修饰，特别是经修饰的胞嘧啶残基5-甲基胞嘧啶(5mC)及其主要氧化产物5-羟甲基胞嘧啶(5hmC)：

最初，研究人员专注于5mC，因为直到后来5hmC才被鉴定为潜在的重要修饰。为了在单碱基分辨率下区分未经修饰的胞嘧啶残基和5mC残基，DNA表观遗传学分析通常需要使用亚硫酸氢盐试剂，只要亚硫酸氢盐通过方案1的方法迅速将胞嘧啶残基转化为二氢尿嘧啶残基。

方案1:

然而如方案2所示，在5mC的情况下表现出非常低的转化率。

方案2:

然而，在单碱基分辨率分辨率测序中使用亚硫酸氢盐有两个严重的缺点。首先，亚硫酸氢盐导致DNA显著降解，高达90％或更高。这妨碍了使用非常少量的DNA来实施该技术，例如在细胞游离DNA的情况下，因为细胞游离DNA每mL血浆通常仅包含几纳克DNA。第二，亚硫酸氢盐方法假定胞嘧啶完全转化为胸腺嘧啶，使亚硫酸氢盐过程容易出现假阳性，甚至1％的非转化率也导致10％-15％或更高的假阳性读数。依赖于完全转化还导致引物设计困难、测序读取的低定位速率及测序成本的总体增加。

随着表观遗传学领域的发展，另一种DNA修饰5hmC的检测被证明潜在地与5mC的检测一样重要。虽然5mC修饰通常发生在CpG二核苷酸内，但是天然5hmC残基倾向于出现在其他位置。此外，根据组织类型，5hMC的发生频率比5mC的发生频率要低得多，比率通常为约10:1(参见Nestor等(2012)Genome Biology 13:R84)，其中5mC代表所有DNA碱基的约1％。尽管已经确定5hmC参与多种过程，包括转录、DNA脱甲基化，和在5hmC模式异常的情况下参与肿瘤发生，但是5hmC的分子功能才开始被了解。参见Tahiliani等(2009)Science 324(5929):930-035(2009)；Guo等(2011)Cell 145:423-434；Wu等(2011)Genes&Development25:679-684；Ko等(2010)Nature468:839-843；和Robertson等(2011)Biochem.Biophys.Res.Comm.411(1):40-3。还已知5hmC是稳定的DNA修饰，是由5mC通过10-11易位(TET)酶(例如TET1)催化氧化而形成的。

亚硫酸氢盐测序不能区分5mC和5hmC，因此，需要用于单独检测5mC和5hmC残基的其他方法。如上所述，5hmC的出现通常远低于5mC，因此，相对于所有经鉴定的5hmC残基的比例以及高选择性，用于检测5hmC的任何方法都需要表现出高效率，意味着基本上所有鉴定为5hmC的残基实际上应该是5hmC残基。已报道了数种用于检测DNA中5hmC的方法，这些方法涉及用T4噬菌体酶、β-葡萄糖基转移酶(β-GT)进行糖基化，因为该酶选择性修饰5hmC而不修饰5mC，如方案3所示：

方案3:

例如，Robertson等描述了使用J结合蛋白下拉具有糖基化的5hmC残基的靶DNA片段(参见Robertson等(2011)Nuc.Acids Res.39,e55)。其他人已经提出了使用针对5hmC的抗体区分5mC和5hmC的可能性。最近，例如通过用在6位被叠氮部分官能化的尿苷二磷酸(UDP)葡萄糖进行糖基化，以在那些位置提供叠氮基的方式进行了5hmC残基的选择性糖基化。该5hmC残基的选择性反应在那些位置提供叠氮基，然后用经炔烃官能化的生物素进行自发的1,3-环加成反应，这类反应在本领域中通常被称为“点击化学”。然后可以用链霉亲合素珠将含有这些生物素化的5hmC残基的DNA片段下拉。参见Quake等的国际专利公开号WO2017/176630，其详细描述了这样的方法。还参见He等的美国专利号8,741,567和Lu等的美国专利公开号US2017/0253924，涉及一种通过选择性地使5hmC残基糖基化来区分5mC和5hmC的方法。

然而，仍然需要进行单碱基分辨率测序的替代方法，特别是对于极小的样品大小，例如用于细胞游离DNA分析的那些。一种理想的方法是以单碱基分辨率检测经修饰的胞嘧啶残基，而不影响正常的胞嘧啶残基。最优地，该方法可以容易地适用于检测除5mC之外或代替5mC的5hmC，即使对于同时包含5mC和5hmC残基二者的DNA单链。以碱基分辨率分别检测5hmC和5mC的方法可能具有巨大的重要性，因为该过程会使得能够绘制两个表观遗传学标志物。优选使用无毒的试剂和温和的反应条件，以避免或至少使DNA降解最小化。最后，一种理想的方法使得能够用至少一种分子条形码(或“序列条形码”)给DNA片段加标签，该分子条形码是一种短且独特的寡核苷酸序列，在测序过程中，该序列用于鉴定每个包含该序列的DNA链或片段的一个或更多个特征。

发明内容

因此，本发明通过提供一种用于细胞游离DNA的表观遗传学分析的新方法来解决本领域中的上述需求。

在第一实施方案中，提供了一种用于将细胞游离DNA中的氧化的5-甲基胞嘧啶残基转化为二氢尿嘧啶残基的方法，其中所述方法包括使含有选自5-羧甲基胞嘧啶、5-甲酰基胞嘧啶及其组合的至少一种氧化的5-甲基胞嘧啶残基的细胞游离DNA与有机硼烷接触，所述有机硼烷有效地使所述至少一种氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基，从而提供二氢尿嘧啶残基代替它。

在前述实施方案的一个方面，所述有机硼烷包含硼烷与选自氮杂环和叔胺的含氮化合物的络合物。

在实施方案的另一方面，还原、脱氨基和脱羧基在不分离任何中间体的情况下进行，即作为“一锅”或“单管”反应。

在实施方案的另一方面，所述方法在不存在任何亚硫酸氢盐试剂的情况下进行。

在实施方案的又一方面，细胞游离DNA包含细胞游离DNA的选定区域，其中“区域”是指沿DNA链或基于序列的组合物的位置。在相关方面，除细胞游离DNA的选定区域之外或代替细胞游离DNA的选定区域，细胞游离DNA包含细胞游离DNA的选定片段。

在实施方案的另一方面，细胞游离DNA包括双链DNA。

在实施方案的另一方面，细胞游离DNA包括单链DNA。

在另一个实施方案中，提供了一种反应混合物，其包含：

(a)含有选自5-羧甲基胞嘧啶、5-甲酰基胞嘧啶及其组合的至少一种氧化的5-甲基胞嘧啶残基的细胞游离DNA样品；和

(b)有机硼烷，所述有机硼烷有效地使所述至少一种氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基。

在另一个实施方案中，提供了一种用于检测细胞游离DNA中5-甲基胞嘧啶残基的存在和位置的方法，其中所述方法包括：

(a)对片段化的接头连接的细胞游离DNA中的5-羟甲基胞嘧啶残基进行修饰以在其上提供亲和标签，其中所述亲和标签使得能够从所述细胞游离DNA中除去含有经修饰的5-羟甲基胞嘧啶的DNA；

(b)从所述细胞游离DNA中除去所述含有经修饰的5-羟甲基胞嘧啶的DNA，留下含有未经修饰的5-甲基胞嘧啶残基的DNA；

(c)使未经修饰的5-甲基胞嘧啶残基氧化，以得到含有选自5-羧甲基胞嘧啶、5-甲酰基胞嘧啶及其组合的氧化的5-甲基胞嘧啶残基的DNA；

(d)使所述含有氧化的5-甲基胞嘧啶残基的DNA与有机硼烷接触，所述有机硼烷有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基，从而代替所述氧化的5-甲基胞嘧啶残基提供含有二氢尿嘧啶残基的DNA；

(e)对所述含有二氢尿嘧啶残基的DNA进行扩增和测序；

(f)从(e)的测序结果确定5-甲基化模式。

在该实施方案的一个方面，所述方法还包括：

(g)鉴定在步骤(b)中从所述细胞游离DNA样品中除去的含有5-羟甲基胞嘧啶的DNA的羟甲基化模式。

在实施方案的另一方面，亲和标签由生物素组成，并且步骤(a)包括用生物素选择性标记5-羟甲基胞嘧啶残基。在相关方面，步骤(b)包括使生物素化的DNA与支撑物结合的链霉亲合素接触。

在实施方案的另一方面，亲和标签由具有预定序列的选定的寡核苷酸组成，并且步骤(a)包括用寡核苷酸选择性标记5-羟甲基胞嘧啶残基。在相关方面，步骤(b)包括使寡核苷酸标记的DNA与支撑物结合的寡核苷酸接触，所述寡核苷酸包含与预定序列基本上互补的序列。

在实施方案的另一方面，步骤(c)例如通过使用十-十一易位(TET)酶以酶促方式进行。

在实施方案的另一方面，细胞游离DNA样品包含具有至少一个5-甲基胞嘧啶残基和至少一个5-羟甲基胞嘧啶残基的至少一条DNA链。

在另一方面，所述方法还包括在步骤(e)之前，向多个双链DNA片段的每一个上附着至少一种序列条形码。在相关方面，所述至少一种序列条形码包含指示与DNA片段经历的过程相对应的DNA片段的特征的单独条形码。

在另一个实施方案中，本发明提供了用于将细胞游离DNA中的5-甲基胞嘧啶残基和5-羟甲基胞嘧啶残基转化为二氢尿嘧啶残基的试剂盒，其包含用于使5-甲基胞嘧啶和5-羟甲基胞嘧啶残基氧化以提供氧化的5-甲基胞嘧啶残基的试剂、以及有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基的有机硼烷。

在另一个实施方案中，本发明提供了一种用于在细胞游离DNA样品中鉴定5-甲基胞嘧啶残基的试剂盒，其包含用于以下的单独的试剂组合物：对5-羟甲基胞嘧啶残基进行修饰以在其上提供亲和标签、从所述样品中除去经修饰的5-羟甲基胞嘧啶残基、并且使未经修饰的5-甲基胞嘧啶残基氧化以提供氧化的5-甲基胞嘧啶残基，以及有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基的有机硼烷。

附图说明

图1示意性地示出了2-甲基吡啶硼烷与5-羧甲基胞嘧啶的假想反应产物。

图2提供了5-羧甲基胞嘧啶的质谱(上)和5-羧甲基胞嘧啶与2-甲基吡啶硼烷的反应产物。

图3提供了另外的光谱，其证实了5-羧甲基胞嘧啶与2-甲基嘧啶作为二氢尿嘧啶的反应产物的身份。

图4示意性地说明了关于通过与2-甲基吡啶硼烷硼烷反应而将5-羧甲基胞嘧啶转化为二氢尿嘧啶的可能的反应机理。

图5示意性地说明了关于通过与2-甲基吡啶硼烷硼烷反应而将5-甲酰基胞嘧啶转化为二氢尿嘧啶的可能的反应机理。

图6和图7提供了在与2-甲基吡啶硼烷反应之前和之后在5-位被甲酰基、羧基、乙基酰胺基和乙氧基亚氨基取代的胞嘧啶的质谱。

图8示意性地示出了使用酶促氧化剂、任选的保护基团和有机硼烷2-甲基嘧啶硼烷将5-甲基胞嘧啶和5-羟甲基胞嘧啶逐步转化为二氢尿嘧啶的方法。

图9示意性地示出了使用化学氧化剂将5-羟甲基胞嘧啶逐步转化为二氢尿嘧啶，然后与有机硼烷2-甲基嘧啶硼烷反应的化学方法。

图10提供了在与2-甲基吡啶硼烷反应之前和之后的5-甲基胞嘧啶、5-羟甲基胞嘧啶和5-葡萄糖甲基胞嘧啶的质谱。

图11示意性地示出了用于检测细胞游离DNA片段中5mC残基的存在和位置的方法的一个实施方案。

图12示意性地示出了用于将分子条形码掺入根据本发明分析的DNA片段中的杂交接头方法的前三个步骤。

图13示意性地示出了图12的杂交接头方法的剩余步骤。

图14示意性地示出了用于将过程条形码掺入已被样本标识符序列、片段标识符序列和链标识符序列中的至少一种标识符序列条形码编码的DNA片段中的方法。

图15示意性地示出了本发明的“双生物素”富集方法。

图16示意性地示出了本发明的“生物素/天然5mC”富集方法。

图17示意性地示出了用于鉴定DNA片段的方法，其中至少一条链含有5mC和5hmC残基二者。

图18示意性地示出了图17的方法的扩展，其中分析了剩余的DNA片段，包括未经修饰的DNA片段和含有5mC的DNA片段。

图19示意性地示出了本发明的方法，其中使用寡核苷酸作为亲和标签。

发明详述

1.定义和术语：

除非另有定义，否则本文所用的所有技术和科学术语具有本发明所属领域的普通技术人员通常理解的含义。以下定义对于本发明的描述特别重要的特定术语。其他相关术语在Quake等的国际专利公开号WO 2017/176630的“Noninvasive Diagnostics bySequencing 5-Hydroxymethylated Cell-Free DNA”中定义。

在本说明书和所附的权利要求书中，单数形式“一个”、“一种”和“该”包括复数对象，除非上下文另外明确说明。因此，例如，“一种成分”不仅是指单个成分，还是指两种或更多种不同成分的组合等。

数字范围包括定义范围的数字。除非另有说明，否则核酸以5'至3'方向从左至右书写；氨基酸序列分别以氨基至羧基的方向从左至右书写。

本文提供的标题不是对本发明的各个方面或实施方案的限制。相应地，下面紧接着定义的术语通过参考整个说明书更完整地被定义。

除非另有定义，否则本文所用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。Singleton等,Dictionary of Microbiology andMolecular Biology,第二版(New York:John Wiley and Sons,1994)以及Hale和Markham,The Harper Collins Dictionary of Biology(New York:Harper Perennial,1991)提供了本领域的普通技术之一，具有许多本文所用术语的一般含义。尽管如此，为了清楚和易于参考，下面定义了某些术语。

如本文所用，术语“样品”涉及一种材料或材料的混合物，通常但非必须地以液体形式，含有一种或更多种目标分析物。

如本文所用，术语“核酸样品”表示含有至少一种核酸的样品。本文使用的核酸样品可能是复杂的，因为它们可能包含多个含有核酸序列的不同分子。来自哺乳动物(例如小鼠或人)的基因组DNA是复杂的样品类型。复杂样品可以具有至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或至少10⁹个或更多个不同的核酸分子。DNA靶标可以来自任何来源，例如基因组DNA或人工DNA构建体。本文中可以使用任何含有核酸的样品，例如，由组织培养细胞或组织样品制成的基因组DNA。核酸样品可以从任何合适的来源制备，包括牙齿、骨头、头发或骨头等的样品。

术语“核苷酸”旨在包括那些不仅含有已知的嘌呤和嘧啶碱基，而且还含有已被修饰的其他杂环碱基的部分。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外，术语“核苷酸”包括那些含有半抗原或荧光标记的部分，并且不仅可以含有常规的核糖和脱氧核糖，还可以含有其他糖。经修饰的核苷或核苷酸还包括对糖部分的修饰，例如其中一个或更多个羟基被卤素原子或脂族基团取代，或官能化为醚、胺等。

术语“核酸”和“多核苷酸”在本文中可互换使用，以描述任何长度的聚合物，例如，由大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基组成的核苷酸，例如脱氧核糖核苷酸或核糖核苷酸，并且可以酶促或人工合成产生(例如，如Honkanen等的美国专利号5,948,902及其中引用的参考文献中描述的PNA)，其可以以类似于两个天然存在核酸的序列特异性方式与天然存在核酸杂交，例如可以参与Watson-Crick碱基配对相互作用。天然存在核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶(分别为G、C、A和T)。DNA和RNA分别具有脱氧核糖和核糖糖主链，然而PNA的主链由通过肽键连接的重复N-(2-氨基乙基)-甘氨酸单元组成。在PNA中，各种嘌呤和嘧啶碱基通过亚甲基羰基键连接至主链。锁定核酸(LNA)，通常被称为不可访问的RNA，是经修饰的RNA核苷酸。LNA核苷酸的核糖部分被连接2'氧和4'碳的额外桥修饰。桥将核糖“锁定”在3'-内(N)构象中，通常在A型双链体中发现。可以根据需要将LNA核苷酸与寡核苷酸中的DNA或RNA残基混合。术语“非结构化核酸”或“UNA”是含有以降低的稳定性彼此结合的非天然核苷酸的核酸。

例如，非结构化核酸可以含有G'残基和C'残基，其中这些残基对应于以降低的稳定性彼此碱基配对的G和C的非天然存在形式，即类似物，但是保留分别与天然存在的C和G残基碱基配对的能力。非结构化核酸在Barrett等的美国专利公开号US 2005/0233340中被描述。该定义中还包括ZNA，即拉链核酸。

如本文所用，术语“寡核苷酸”表示核苷酸的单链多聚体，其长度为约2至200个核苷酸、至多500个核苷酸。

寡核苷酸可以是合成的或可以以酶促方式制备，并且在一些实施方案中，其长度为30至150个核苷酸。寡核苷酸可以含有核糖核苷酸单体(即可以是寡核糖核苷酸)和/或脱氧核糖核苷酸单体。寡核苷酸的长度例如可以为10至20、21至30、31至40、41至50、51至60、61至70、71至80、80至100、100至150或150至200个核苷酸。

术语“杂交”是指如本领域已知的，核酸链通过碱基配对与互补链结合的过程。如果两个序列在中等至高严格的杂交和洗涤条件下彼此特异性杂交，则认为该核酸与参考核酸序列“选择性杂交”。中等和高严格的杂交条件是已知的(参见，例如，Ausubel等,ShortProtocols in Molecular Biology,第3版,Wiley&Sons 1995；和Sambrook等MolecularCloning:A Laboratory Manual,第3版,2001Cold Spring Harbor,N.Y.)。高严格条件的一个实例包括在约42℃下与50％甲酰胺、5X SSC、5X Denhardt溶液、0.5％SDS和100μg/ml变性载体DNA杂交，然后在室温下在2X SSC和0.5％SDS中洗涤两次，在42℃下在0.1X SSC和0.5％SDS中再进行两次。

术语“引物”是指天然的或合成的寡核苷酸，其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并从其3'端沿着模板延伸，从而形成延伸的双链体。在延伸过程期间添加的核苷酸的序列由模板多核苷酸的序列确定。通常，引物通过DNA聚合酶延伸。引物的长度通常与其在引物延伸产物的合成中使用的相容，并且长度的范围通常为8至100个核苷酸，例如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40等等。典型的引物可以在10至50个核苷酸长的范围内，例如15至45、18至40、20至30、21至25等等，以及在所述范围之间的任何长度。在一些实施方案中，引物的长度通常不超过约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65或70个核苷酸。

术语“双链体”和“双链体的”在本文中可互换使用，以描述两个碱基配对(即杂交在一起)的互补多核苷酸。

术语“确定”、“测量”，“评价”、“评估”、“测定”和“分析”在本文中可互换使用，以是指任何形式的测量，并且包括确定元素是否存在。这些术语包括定量和/或定性确定。评估可以是相对的或绝对的。因此，“评估...的存在”包括确定存在部分的量，以及确定其存在或不存在。

术语“使用”具有其常规含义，并且因此意指采用例如投入使用的方法或组合物以达到目的。例如，如果使用程序创建文件，则执行程序以创建文件，该文件通常是程序的输出。在另一实例中，如果使用计算机文件，则通常对其进行访问、读取并采用存储在文件中的信息以达到目的。类似地，如果使用独特的标识符，例如条形码，则通常读取独特的标识符以鉴定例如与该独特的标识符有关的对象或文件。

如本文所用，术语“连接”是指第一DNA分子的5'端的末端核苷酸与第二DNA分子的3'端的末端核苷酸的酶促催化连接；互补链也可以连接；例如3'至5'；或与双链DNA一起使用。

“多个”包含至少2个成员。在某些情况下，多个可以具有至少10个、至少100个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或至少10⁹个或更多个的成员。

如果两个核酸是“互补的”，则一个核酸的每个碱基与另一个核酸中的相应核苷酸配对。为了彼此杂交，两个核酸不需要完全互补。

如本文所用，术语“分离”是指两种元素的物理分离(例如，通过大小或亲和力等)以及一种元素的降解，而另一种保持完整。

如本文所用，术语“测序”是指获得多核苷酸的至少10个连续核苷酸的同一性(例如，至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的同一性)的方法。

如本文所用，术语“下一代测序”或“高通量测序”是指当前Illumina、LifeTechnologies采用的所谓的平行合成测序或连接测序平台。下一代测序方法还可以包括例如由Oxford Nanopore Technologies商业化的纳米孔测序方法，例如由LifeTechnologies商业化的Ion Torrent技术的电子检测方法以及例如由PacificBiosciences商业化的基于单分子荧光的方法。

术语“接头”是指可与双链DNA分子的两条链连接的核酸。在一个实施方案中，接头可以是发夹接头(即，一个与自身碱基配对以形成具有双链茎和环的结构的分子，其中该分子的3'和5'端与双链DNA分子的5'和3'端连接)。在另一个实施方案中，接头可以是Y-接头。在另一个实施方案中，接头自身可以由彼此碱基配对的两个不同的寡核苷酸分子组成。显而易见，接头的可连接端可以设计成与由限制性酶切割产生的突出端相容，或者可以具有平末端或5'T突出端。术语“接头”是指双链以及单链分子。接头可以是DNA或RNA，或二者的混合物。含有RNA的接头可以通过RNA酶处理或碱性水解来切割。尽管接头可以是15至100个碱基，例如50至70个碱基，但是可以设想该范围之外的接头。

如本文所用，术语“接头连接的”是指已经与接头连接的核酸。接头可以与核酸分子的5'端和/或3'端连接。如本文所用，术语“添加接头序列”是指向样品中片段的末端添加接头序列的动作。这可以通过以下方法完成：使用聚合酶填充片段的末端，添加A尾，然后将包含T突出端的接头连接到A-尾片段上。

如本文所用，术语“不对称接头”是指当连接至双链核酸片段的两端时导致含有5'标签序列的顶链的接头，该5'标签序列不与3'端的标签序列相同或互补。不对称接接头的实例在Weissman等的美国专利号5,712,126和6,372,434中以及Bignell等的国际专利公开号WO 2009/032167中被描述。可以通过两种引物扩增带不对称标签的片段：第一引物，其与添加至链的3'端的第一标签序列杂交；和第二引物，其与添加至链的5'端的第二标签序列的互补序列杂交。Y-接头和发夹接头(可以在连接后被切割以产生“Y-接头”)是不对称接头的实例。

术语“Y-接头”是指含有双链区和单链区的接头，其中相对序列不互补。双链区的末端可以例如通过连接或转座酶催化的反应与靶分子(例如基因组DNA的双链片段)连接。已连接至Y-接头的带接头标签的双链DNA的每条链都不对称地加标签，因为它具有如下序列：在一端具有Y-接头的一条链，而在另一端具有Y-接头的另一条链。在两端均与Y-接头连接的核酸分子的扩增产生带不对称标签的核酸，即，具有含有一个标签序列的5'端和含有另一标签序列的3'端的核酸。

术语“发夹接头”是指呈发夹形式的接头。在一个实施方案中，在连接后，发夹环可以被切割以产生在末端具有非互补标签的链。在一些情况下，发夹接头的环可能含有尿嘧啶残基，并且可以使用尿嘧啶DNA糖基化酶和核酸内切酶VIII切割该环，尽管其他方法也是已知的。

如本文所用，术语“接头连接的样品”是指已连接至接头的样品。如以上定义所理解的，已连接至不对称接头的样品含有在5'和3'端具有非互补序列的链。

“寡核苷酸结合位点”是指寡核苷酸在靶多核苷酸中杂交的位点。如果寡核苷酸“提供”引物的结合位点，则该引物可以与该寡核苷酸或其互补序列杂交。

如本文所用，术语“链”是指由通过共价键(例如磷酸二酯键)共价连接在一起的核苷酸组成的核酸的单链。在细胞中，DNA通常以双链形式存在，并且因此，具有两条互补的核酸链，在本文中被称为“顶”链和“底”链。在某些情况下，染色体区域的互补链可以被称为“加”链和“减”链、“正”链和“负”链、“第一”链和“第二”链、“编码”链和“非编码”链、“Watson”链和“Crick”链或“有义”链和“反义”链。将其分配为顶链或底链是任意的，并且不意味着任何特定的方向、功能或结构。数个示例性哺乳动物染色体区域(例如BAC、装配体、染色体等)的第一链的核苷酸序列是已知的，并且例如可以在NCBI的Genbank数据库中找到。

如本文所用，术语“扩增”是指使用靶核酸作为模板来产生靶核酸的一个或更多个拷贝。

术语“富集”和“富”是指从不具有特征的分析物(例如，含有羟甲基胞嘧啶的核酸)中部分纯化具有特定特征的分析物(例如，含有羟甲基胞嘧啶的核酸)。富集通常使具有特征的分析物(例如，含有羟甲基胞嘧啶的核酸)的浓度相对于不具有特征的分析物增加至少2倍、至少5倍或至少10倍。富集后，样品中至少10％、至少20％、至少50％、至少80％或至少90％的分析物可能具有用于富集的特征。例如，经富集的组合物中至少10％、至少20％、至少50％、至少80％或至少90％的核酸分子可以含有具有一个或更多个羟甲基胞嘧啶的链，该羟甲基胞嘧啶已被修饰为含有捕获标签。

如本文所用，术语“循环细胞游离DNA”和“细胞游离DNA”(cfDNA)可互换使用，是指在患者外周血液中循环的DNA。细胞游离DNA中的DNA分子的中值大小可以小于1kb(例如，在50bp至500bp、80bp至400bp或100bp至1,000bp的范围内)，尽管可能存在中值大小超出此范围的片段。细胞游离DNA可能含有循环肿瘤DNA(ctDNA)，即在癌症患者血液中自由循环的肿瘤DNA或循环胎儿DNA(如果受试者是怀孕的女性)。cfDNA可以高度片段化，并且在一些情况下，平均片段大小可以为约165bp至250bp(Newman等，Nat Med.2014 20:548-54)。通过离心全血以去除所有细胞，然后从剩余的血浆或血清中分离DNA来获得cfDNA。这样的方法是众所周知的(参见，例如，Lo等,Am J Hum Genet 1998；62:768-75)。循环细胞游离DNA是双链的，但是可以通过变性使其成为单链。如本文所用，术语“加标签”是指将分子条形码附加到核酸分子上。可以将分子条形码添加至核酸分子的5'端、3'端或两端。通常通过使用常规方法(例如用T4 DNA连接酶或另一种连接酶)将接头与片段连接来将分子条形码添加至DNA片段。

术语“分子条形码”是指各种类型的标识符序列，并且涵盖样品标识符序列、分子标识符序列、链标识符序列和本文将要讨论的其他类型的标识符序列。在一些实施方案中，分子条形码的长度可以在1至约36个核苷酸的范围内，例如4至30个核苷酸、6至25个核苷酸或8至20个核苷酸。在某些情况下，分子条形码可能进行错误检测和/或纠错，这意味着即使存在错误(例如，如果在导致确定分子条形码序列的各个处理步骤的任一步骤中分子条形码的序列合成错误、读取错误或失真)，则仍可以正确解释代码。纠错序列的使用在文献(例如，在Hamati等的美国专利公开号2010/0323348和Braverman等的美国2009/0105959中)中被描述。在一些实施例中，标识符序列可以具有相对较低的复杂度(例如，可以由4至1024个不同序列的混合物组成)，尽管在一些情况下可以使用更高复杂度的标识符序列。

如本文所用，术语“对应于”是指与片段的特定(例如，顶或底)链“对应”的序列读取，是指衍生自该链或其扩增产物的序列读取。

如本文所用，术语“1,3-环加成反应”是指叠氮化物和炔烃之间的1,3-环加成以形成五元杂环。在一些实施方案中，炔烃可以被染色(例如，在例如环辛炔的环中)，并且环加成反应在无铜条件下进行。二苯并环辛炔(DBCO)和二氟辛炔(DIFO)是可以参与无铜环加成反应的炔烃实例，尽管其他基团也是已知的。参见，例如，Kolb等(2008)Drug.Discov.Today8:1128-113)；Baskin等(2007)Proc.Natl.Acad.Sci.104:16793-16797和Sletten等(2011)Accounts of Chemical Research 44:666-676。

术语“点击化学”是指两种或更多种反应物之间的反应，其自发发生以形成至少一种含有至少一个新形成的共价键的反应产物。叠氮化物与炔烃之间的1,3-环加成反应是点击化学类型的反应的一个实例。

如本文所用，术语“经化学选择性基团修饰的UDP葡萄糖”是指已被官能化的尿苷二磷酸葡萄糖分子，特别是在6-羟基位置，具有能够通过点击化学与亲和标签反应的官能团。

术语“氧化的5-甲基胞嘧啶”是指在5-位已被氧化的氧化的5-甲基胞嘧啶残基。因此，氧化的5-甲基胞嘧啶残基包括5-羟甲基胞嘧啶、5-甲酰基胞嘧啶和5-羧甲基胞嘧啶。根据本发明的一个实施方案，与有机硼烷进行反应的氧化的5-甲基胞嘧啶残基是5-甲酰基胞嘧啶和5-羧甲基胞嘧啶。

例如，短语“基本上不含”特定部分中的术语“基本上”是指含有不超过10％、优选地不超过5％、更优选地不超过1％该特定部分的组合物。术语“基本上”的其他使用涉及类似的定义。

化学取代基和化合物术语：

如本文所用，短语“具有结构”不旨在是限制性的，并且以与通常使用术语“包含/包括”相同的方式来使用。

如本文所用，术语“烷基”是指支链或直链饱和烃基，尽管不一定含有1至约12个碳原子，例如甲基、乙基、正丙基、异丙基、正丁基、异丁基、叔丁基、辛基、癸基等，以及环烷基，例如环戊基、环己基等。术语“低级烷基”是指1至6个碳原子的烷基。优选的低级烷基取代基含有1至3个碳原子，并且特别优选的这样的取代基含有1或2个碳原子(即，甲基和乙基)。“经取代的烷基”是指经一个或更多个取代基取代的烷基，并且术语“含杂原子的烷基”和“杂烷基”是指其中至少一个碳原子被杂原子取代的烷基，如下文进一步详细地描述的。如果没有另外说明，则术语“烷基”和“低级烷基”分别包括直链、支链、环状、未经取代、经取代和/或含杂原子的烷基或低级烷基。

除非另有说明，否则如本文所用，术语“芳基”是指含有单个芳香族环或稠合在一起、直接连接或间接连接的多个芳香族环(使得不同的芳香族环结合到常见的基团上，例如亚甲基或亚乙基部分)的芳香族取代基。优选的芳基含有5至24个碳原子，更优选的芳基含有5至14个碳原子，特别优选的芳基含有5至9个碳原子。“经取代的芳基”是指经一个或更多个取代基取代的芳基部分，并且术语“含杂原子的芳基”和“杂芳基”是指其中至少一个碳原子被杂原子取代的芳基取代基。如下文进一步详细描述的。如果没有另外说明，则术语“芳基”包括未经取代、经取代和/或含杂原子的芳香族取代基。

如“含杂原子的烷基”(也被称为“杂烷基”基团)或“含杂原子的芳基”(也被称为“杂芳基”基团)中的术语“含杂原子”是指其中一个或更多个碳原子被碳以外的原子(例如氮、氧、硫、磷或硅，通常为氮、氧或硫，优选氮或氧)取代的分子、键或取代基。类似地，术语“杂烷基”是指含杂原子的烷基取代基，术语“杂环”是指含杂原子的环状取代基，术语“杂芳基”和“杂芳香族”分别是指含杂原子的“芳基”和“芳香族”取代基等。

“烃基”是指含有1至约30个碳原子、优选1至约24个碳原子、更优选1至约18个碳原子、最优选约1至12个碳原子的单价烃基，包括直链、支链、环状、饱和和不饱和物质，例如烷基、烯基、芳基等。“经取代的烃基”是指经一个或更多个取代基取代的烃基，并且术语“含杂原子的烃基”是指其中至少一个碳原子被杂原子取代的烃基。除非另有说明，否则术语“烃基”解释为包括经取代和/或含杂原子的烃基部分。

2.细胞游离DNA中氧化的5mC残基向DHU的转化：

在一个实施方案中，本发明提供了一种用于将细胞游离DNA中的氧化的5-甲基胞嘧啶残基转化为二氢尿嘧啶残基的方法。该方法涉及选自5-甲酰基胞嘧啶(5fC)、5-羧甲基胞嘧啶(5caC)及其组合的氧化的5mC残基与有机硼烷的反应。氧化的5mC残基可以是天然存在的，或更常见地，是先前氧化5mC或5hmC残基的结果，例如，用TET家族酶(例如TET1、TET2或TET3，在下文中讨论)氧化5mC或5hmC，或者例如用过钌酸钾(KRuO₄)或无机过氧化合物或组合物(例如钨过氧配合物(参见，例如Okamoto等(2011)Chem.Commun.47:11231-33)或高氯酸铜(II)/2,2,6,6-四甲基哌啶-1-氧基(TEMPO)组合(参见，Matsushita等(2017)Chem.Commun.53:5756-59)化学氧化5mC或5hmC。

有机硼烷可以表征为硼烷与选自氮杂环和叔胺的含氮化合物的络合物。氮杂环可以是单环、双环或多环的，但是通常为单环，以5或6元环形式，含有氮杂原子和任选的一个或更多个选自N、O和S的其他杂原子。氮杂环可以是芳香族或脂环族的。本文优选的氮杂环包括2-吡咯啉、2H-吡咯、1H-吡咯、吡唑烷、咪唑烷、2-吡唑啉、2-咪唑啉、吡唑、咪唑、1,2,4-三唑、1,2,4-三唑、哒嗪、嘧啶、吡嗪、1,2,4-三嗪和1,3,5-三嗪，它们中的任一个可以是未经取代或者经一个或更多个非氢取代基取代的。典型的非氢取代基是烷基，特别是低级烷基，例如甲基、乙基、正丙基、异丙基、正丁基、异丁基、叔丁基等。示例性的化合物包括吡啶硼烷、2-甲基吡啶硼烷(也被称为2-甲基吡啶硼烷)和5-乙基-2-吡啶。这些有机硼烷可以表示为：

或，有证据表明杂环氮原子与硼之间的一些电荷转移，如

参见，例如，Hoffmann(1964),"Extended Hückel Theory.III.Compounds ofBoron and Nitrogen,"J.Chem.Phys.40:2474。

叔胺-硼烷络合物由硼烷和具有式(I)结构的叔胺形成

(I)

其中R¹、R²和R³部分可以相同或不同，并且通常独立地选自C₁-C₁₂烃基，包括经取代和/或含杂原子的烃基。R¹、R²和R³通常为C₁-C₁₂烷基，更通常为低级烷基，例如甲基、乙基、正丙基、异丙基、正丁基、异丁基、叔丁基、环戊基、环己基等。用于本文的示例性叔胺-硼烷络合物包括三乙胺硼烷和三(叔丁基)胺硼烷。

只要可以采用无毒试剂和温和的反应条件，有机硼烷与细胞游离DNA中氧化的5mC残基的反应是有利的；不需要任何亚硫酸氢盐，也不需要任何其他潜在降解DNA的试剂。此外，用有机硼烷将氧化的5mC残基转化为二氢尿嘧啶可以在“一锅”或“单管”反应中在无需分离任何中间体的情况下进行。这非常重要，因为转化过程涉及多个步骤，即(1)使氧化的5mC中连接C-4和C-5的烯烃键还原，(2)脱氨基，以及(3)如果氧化的5mC为5caC，则进行脱羧基，或者如果氧化的5mC为5fC，则进行脱甲酰基。方案4中示出了使用2-甲基吡啶硼烷作为代表性有机硼烷将5caC转化为二氢尿嘧啶的反应顺序

方案4

而方案5中说明了将5fC转化为二氢尿嘧啶的对应序列。

方案5

为了确定使用有机硼烷将氧化的5-甲基胞嘧啶残基转化为二氢尿嘧啶的可行性，在DNA水性缓冲液中将2-甲基吡啶硼烷与具有序列5′-TCGAC5caCGGATC-3′的寡核苷酸组合，其中5cac代表5-羧甲基胞嘧啶。图1示出了2-甲基吡啶硼烷与5caC的假想反应产物。如所示的，用二氢尿嘧啶作为反应产物，预期损失41Da。所得结果示于图2中。观察到约41.6Da的损失，表明主要反应产物是二氢尿嘧啶。进一步的¹H NMR和质谱分析证实了该发现。参见图3。在图4中示意性地示出了所提出的反应机理，并且如上所示，涉及连续的还原、脱氨基和脱羧基步骤，而图5示出了2-甲基吡啶硼烷与5-甲酰基胞嘧啶(5fC)的类似反应。该图还示出了所提出的机理，涉及连续还原、脱氨基和甲酰基化。

图6至图7中的质谱表明2-甲基吡啶硼烷与5-羧甲基胞嘧啶和5-甲酰基胞嘧啶选择性反应以将那些残基转化为DHU，但是不与在5-位被肟＝N-O-CH₂CH₃或酰胺-(CO)-NH-CH₂CH₃取代的胞嘧啶反应。

图10提供了在与2-甲基吡啶硼烷反应之前和之后的5-甲基胞嘧啶、5-羟甲基胞嘧啶和5-葡萄糖甲基胞嘧啶的质谱。如可看出的，2-甲基吡啶硼烷没有与任何这些反应，强调了2-甲基吡啶硼烷对5-甲酰基胞嘧啶和5-羧甲基胞嘧啶的选择性。

除了用于将细胞游离DNA中的氧化的5-甲基胞嘧啶残基转化为二氢尿嘧啶残基的方法之外，本发明还提供了与上述方法有关的反应混合物。反应混合物包含含有选自5caC、5fC及其组合的至少一种氧化的5-甲基胞嘧啶残基的细胞游离DNA样品以及有机硼烷，所述有机硼烷有效地使所述至少一种氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基。如上文解释的，有机硼烷是硼烷与选自氮杂环和叔胺的含氮化合物的络合物。在一个优选的实施方案中，反应混合物基本上不含亚硫酸氢盐，意味着基本上不含亚硫酸氢根离子和亚硫酸氢盐。理想地，反应混合物不含有亚硫酸氢盐。

在本发明的相关方面，提供了用于将细胞游离DNA中的5mC残基转化为二氢尿嘧啶残基的试剂盒，其中该试剂盒包括用于阻断5hmC残基的试剂、用于使5mC残基超过羟甲基化氧化以提供氧化的5mC残基的试剂以及有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基的有机硼烷。该试剂盒还可以包括使用这些组分进行上述方法的说明书。

3.检测细胞游离DNA中5mC和5hmC的存在和位置：

在另一个实施方案中，提供了一种利用上述氧化反应的方法。该方法使得能够检测细胞游离DNA中5-甲基胞嘧啶残基的存在和位置，包括以下步骤：

(a)对片段化的接头连接的细胞游离DNA中的5hmC残基进行修饰以在其上提供亲和标签，其中所述亲和标签使得能够从细胞游离DNA中除去含有经修饰的5hmC的DNA；

(b)从细胞游离DNA中除去所述含有经修饰的5hmC的DNA，留下含有未经修饰的5mC残基的DNA；

(c)使所述未经修饰的5mC残基氧化，以得到含有选自5caC、5fC及其组合的氧化的5mC残基的DNA；

(d)使含有氧化的5mC残基的DNA与有机硼烷接触，所述有机硼烷有效地使所述氧化的5mC残基还原、脱氨基和脱羧基或脱甲酰基，从而代替所述氧化的5mC残基提供含有二氢尿嘧啶残基的DNA；

(e)对所述含有二氢尿嘧啶残基的DNA进行扩增和测序；

(f)从(e)的测序结果确定5-甲基化模式。

细胞游离DNA是从受试者的身体样品中提取的，其中身体样品通常是全血、血浆或血清，最通常是血浆，但是样品也可以是尿、唾液、粘膜排泄物、痰液、粪便或眼泪。在一些实施方案中，细胞游离DNA来源于肿瘤。在另一些实施方案中，细胞游离DNA来自患有疾病或其他病原性病症的患者。细胞游离DNA可能来源于肿瘤，也可能不来源于肿瘤。在步骤(a)中，应注意，其中要修饰5hmC残基的细胞游离DNA是纯化的片段化的形式，并且是接头连接的。在这种情况下，可以使用本领域普通技术人员已知的和/或在相关文献中描述的任何合适的方法来进行DNA纯化，并且尽管细胞游离DNA自身可以是高度片段化的，但是偶尔期望进一步的片段化，如在例如Lu等的美国专利公开号2017/0253924中描述的。细胞游离DNA片段通常在约20个核苷酸至约500个核苷酸的大小范围内，更通常在约20个核苷酸至约250个核苷酸的范围内。已经使用常规方法(例如，限制性内切酶)对在步骤(a)中经修饰的纯化的细胞游离DNA片段进行了末端修复，使得该片段在每个3'端和5'端具有平末端。在优选的方法中，如Quake等的WO 2017/176630中描述的，还使用聚合酶(例如Taq聚合酶)为平齐的片段提供了包含单个腺嘌呤残基的3'突出端。这促进了随后选择的通用接头的连接，即连接至细胞游离DNA片段的两端并且含有至少一个分子条形码的接头(例如Y-接头或发夹接头)，如下文中详细解释的。接头的使用还使得能够选择性PCR富集接头连接的DNA片段。

然后，在步骤(a)中，“纯化的片段化的细胞游离DNA”包含接头连接的DNA片段。如步骤(a)中所述，用亲和标签对这些细胞游离DNA片段中的5hmC残基进行修饰，以使得能够随后从细胞游离DNA中除去含有经修饰的5hmC的DNA。在一个实施方案中，亲和标签包含生物素部分，例如生物素、脱硫生物素、氧生物素、2-亚氨基生物素、二氨基生物素、生物素亚砜、生物胞素等。使用生物素部分作为亲和标签允许方便地用链霉亲合素(例如链霉亲合素珠、磁性链霉亲合素珠等)除去。

通过将化学选择性基团共价附着于DNA片段中的5hmC残基来完成用生物素部分或其他亲和标签给5hmC残基加标签，其中化学选择性基团能够与官能化的亲和标签进行反应从而将亲和标签连接至5hmC残基。在一个实施方案中，化学选择性基团是UDP葡萄糖-6-叠氮化物，其与炔烃官能化的生物素部分进行自发的1,3-环加成反应，如Robertson等,(2011)Biochem.Biophys.Res.Comm.411(1):40-3、He等的美国专利号8,741,567和Quake等的WO2017/176630中描述的，之前均已引用。因此，炔烃官能化的生物素部分的添加导致生物素部分共价附着至每个5hmC残基。这种反应的一个实例示于He等的美国专利号8,741,567的图5B中。

在一个实施方案中，然后可以在步骤(b)中使用链霉亲合素(以链霉亲合素珠、磁性链霉亲合素珠等的形式)将带亲和标签的DNA片段下拉，并且留待以后分析，如果需要如此的话。除去带亲和标签的片段后剩余的上清液包含具有未经修饰的5mC残基的DNA和不含5hmC残基的DNA。

在步骤(c)中，使用任何合适的方式将未经修饰的5mC残基氧化以提供5caC残基和/或5fC残基。选择氧化剂以氧化5mC残基超过羟甲基化，即提供5caC和/或5fC残基。氧化可以使用催化活性的TET家族酶以酶促方式进行。如本文使用的那些术语，“TET家族酶”或“TET酶”是指如美国专利号9,115,386中定义的催化活性的“TET家族蛋白”或“TET催化活性片段”。在这种情况下，优选的TET酶是TET2，参见Ito等,(2011)Science333(6047):1300-1303。如前一部分所述，也可以使用化学氧化剂进行化学氧化。合适的氧化剂的实例包括但不限于：无机或有机过钌酸盐形式的过钌酸盐阴离子，包括金属过钌酸盐(例如过钌酸钾(KRuO₄))、四烷基过钌酸铵(例如四丙基过钌酸铵(TPAP)和四丁基过钌酸铵(TBAP))以及聚合物支撑的过钌酸盐(PSP)；无机过氧化合物和组合物，例如过氧钨酸盐或高氯酸铜(II)/TEMPO的组合。在这一点上没有必要将含有5fC的片段与含有5caC的片段分开，因为在该方法的下一步骤中，步骤(e)将5fC残基和5caC残基都转化为二氢尿嘧啶(DHU)。

也就是说，步骤(e)涉及含有5fC的DNA片段和含有5caC的DNA片段与前述部分所述的有机硼烷的反应。如在方案4、方案5、图4和图5中所示，有机硼烷使氧化的5mC残基还原、脱氨基和脱羧基或脱甲酰基。在步骤(f)中，使用任何合适的方法对含有DHU代替原始5mC残基的DNA片段进行合并、扩增和测序；Quake等的WO 2017/176630中描述了本文优选的扩增和测序技术。

在图8的右侧的方案中示出了前述方法，并且示出了具有β-GT阻断的TET辅助的2-甲基吡啶硼烷测序(TAPS)。该方案表明5-羟甲基胞嘧啶残基被β-葡糖基转移酶(βGT)阻断，而5-甲基胞嘧啶残基被有效提供5-甲酰基胞嘧啶和5-羧甲基胞嘧啶的混合物的TET酶氧化。含有这两种氧化物质的混合物可以与2-甲基吡啶硼烷或另一种有机硼烷反应以得到二氢尿嘧啶。在该实施方案的变体中，在步骤(b)中不除去含有5hmC的片段。而是，如在图8的左侧的方案中所示的，TET辅助的甲基吡啶硼烷测序(TAPS)”，含有5mC的片段和含有5hmC的片段一起以酶促方式被氧化以提供含有5fC的片段和含有5caC的片段。与2-甲基吡啶硼烷反应在初始存在5mC和5hmC残基的地方产生DHU残基。标题为“化学辅助的甲基吡啶硼烷测序(CAPS)”的图9示意性地示出了用过钌酸钾选择性氧化含有5hmC的片段，而使5mC残基保持不变。

使用上述技术的胞嘧啶和胞嘧啶衍生物5mC和5hmC的序列读取示于表1中。

表1：

如表所示，具有PSGT阻断5hmC残基的TAPS和CAPS允许差异读取5mC和5hmC残基。

该实施方案的方法具有许多优点：亚硫酸氢盐不是必需的，使用无毒的试剂和反应物；并且该方法在温和的条件下进行。另外，整个方法可以在单管中进行，而无需分离任何中间体。

在一个相关的实施方案中，上述方法包括进一步的步骤：(g)鉴定在步骤(b)中从细胞游离DNA中除去的含有5hmC的DNA的羟甲基化模式。这可以使用先前引用的Quake等的WO 2017/176630中详细描述的技术来进行。如图11示意性所示，该方法可以在不除去或分离中间体的情况下以单管方法进行。

更具体地，图11示出了用于检测细胞游离DNA片段中5mC残基的存在和位置的方法的一个实施方案，其中该方法可以作为“单管”方法进行。初始，使细胞游离DNA片段(优选接头连接的DNA片段)经历用βGT催化的尿苷二磷酸葡萄糖6-叠氮化物的官能化，然后通过化学选择性叠氮化物基团进行生物素化。如前面解释的，该程序在每个5hmC位点产生共价附着的生物素。在下一步骤中，将生物素化的链和含有未经修饰(天然)5mC的链同时下拉，用以进一步处理。如本领域中已知的，使用抗5mC抗体或甲基-CpG结合域(MBD)蛋白将含有天然5mC的链下拉。然后，在5hmC残基阻断的情况下，如本文其他地方所述的，使用任何合适的技术将未经修饰的5mC残基选择性氧化，用以将5mC转化为5fC和/或5caC。图11涉及一种这样的方法，TET辅助氧化。如已经描述的，使用有机硼烷(例如2-甲基吡啶硼烷)将5caC转化为DHU，使得原始的5mC残基被读取为T残基。对于图11的方法，单管测序结果示于表2中：

表2：

残基	经测序为
		链1-C	C
链2-G	G
		链1-5mC	T
链2-G	G
		链1-5hmC	C
链2-G	G

从表中可以看出，仅具有5mC残基(即，和没有5hmC残基)的DNA片段被读取为TG对，因此是唯一可识别的。如果期望的话，可以对方法进行改进，以分别下拉含有天然5mC的片段和生物素化的5hmC片段，能够检测模板DNA片段中5hmC残基的存在和位置。

在步骤(a)至(f)和任选地(g)中所述的方法的变体中，通过连接阻断基团修饰了片段化的接头连接的细胞游离DNA中的5hmC残基，然后使得该方法在不进行步骤(b)除去含有5hmC的片段的情况下进行。

在步骤(a)至(f)和任选地(g)中所述的方法的另一变体中，该方法用肿瘤DNA代替细胞游离DNA进行。

4.细胞游离DNA片段的分子条形码：

在一个优选的实施方案中，分子条形码用于鉴定多个细胞游离DNA样品的每一个中每个DNA链的特征。如本文前面中解释的，分子条形码或“独特标识符”(UID)是短的寡核苷酸序列，用于标记或跟踪DNA片段，以允许以后特定DNA链的鉴定和起源。因此，分子条形码或“序列标签”鉴定与其连接的DNA链的特征，例如：

(1)DNA链所源自的样品；

(2)DNA链所源自的分子(双链DNA片段)；

(3)原始双链DNA片段中链的身份，即正链或负链；以及

(4)用于基于非序列特征分配核酸模板(非扩增的)分子的初始库的上游基因组过程，其中“上游”表示在读取实际模板序列之前或在通过测序检测到其存在之前发生的过程，该测序例如通过直接测序或焦磷酸测序；通过与互补序列杂交，如在探针或其他标记中；或通过PCR中的序列特异性扩增，包括甲基化敏感性PCR；通过限制性酶切；通过MALDI-TOF；使用甲基化微阵列；和/或通过本文前面所述的TAPS或CAPS方法。

在第一种情况下，分子条形码包括样品标识符序列，即附加到双链DNA片段的两条链上的核苷酸序列，其中该序列鉴定DNA片段的来源，例如DNA片段所源自的样品和/或患者。在使用中，每个样品用不同的样品标识符序列加标签，使得一个样品标识符序列被附加到一个样品内的所有DNA片段上，并且不同的样品标识符序列用于不同样品。合并和测序后，样品标识符序列可以用于鉴定序列的来源。

分子标识符序列，即上述的第二种类型的条形码，是附加到在样品内DNA片段的两条链上的核苷酸序列，使得附加的核苷酸序列可以单独或与片段的其他特征(例如其片段断点)组合使用来区分样品或其一部分中的不同双链片段分子。在任一实施中使用的分子标识符序列群体的复杂度可以根据各种参数而变化，例如，样品中的片段数和/或在后续步骤中使用的样品量。例如，在某些情况下，分子标识符序列可以具有低复杂度(例如，可以由8至1024个序列的混合物组成)。在另一些情况下，分子标识符序列可以具有高复杂度(例如，可以由1025至2M或更多个序列组成)。在某些实施方案中，分子标识符序列的群体可以包含简并碱基区域(DBR)，简并碱基区域包含一个或更多个(例如，至少2个、至少3个、至少4个、至少5个、或5至30个、或更多个)选自R、Y、S、W、K、M、B、D、H、V、N(由IUPAC代码定义)或其变体的核苷酸。如美国专利号8,741,606中所述，分子标识符序列可以由不相邻的序列组成。在一些实施方案中，分子标识符序列的群体可以通过将限定序列的寡核苷酸混合在一起而制成。在这些实施方案中，每个寡核苷酸中的分子标识符序列可以是错误校正的。在本文所述的方法中，分子标识符序列可以用于区分初始样品的一部分中的不同片段，其中该部分已从初始样品中除去。分子标识符序列可以与片段的其他特征(例如，片段的末端序列，其定义断点)结合使用以区分片段。

与本发明结合使用的第三种类型的分子条形码是链标识符序列。链标识符序列对样品中DNA片段的一条链具有特异性，因此鉴定经测序的DNA链的另一特征，即经测序的DNA链所源自的原始模板DNA片段的链。在另一个优选的实施方案中，通过两端的每个片段的双链条形码进一步增强了该链特异性。

在一个优选的实施方案中，至少一种上述分子条形码与目前描述的方法和试剂盒结合使用。在一个更优选的实施方案中，使用所有三种类型的分子条形码。在这样的情况下，通常通过将含有分子条形码的接头连接至样品中DNA片段的末端修复的A-尾末端，将三种类型的条形码附加到DNA片段上，例如在细胞游离DNA中。该杂交接头方法类似于Diehn和Alizadeh在Newman等,(2016)Nature Biotechnol和其他地方中描述的CAPP-Seq方法，示于图12和图13中。

如图12所示，杂交接头方法的第一步骤是将带T末端分子条形码的Y接头连接至A尾DNA片段。虽然示出了Y接头，但是应理解，还可以使用功能上等效的接头，例如前面所述的发夹接头。条形码编码的接头各自含有以下条形码：样品标识符序列1和5；链标识符序列2和4；以及片段(或分子)标识符序列3和6。连接后，正链和负链通过PCR分离并扩增(步骤3)。

PCR扩增的结果示于图13中。在(4)处示出了两条(+)-链衍生的链，每条链含有样品标识符序列5、片段标识符序列3和6以及链标识符序列4。在(5)处示出了两条(-)-链衍生的链，每条链含有样品标识符序列1、片段标识符序列3和6以及链标识符序列2。

在另一个实施方案中，在本文中根据该方法处理的细胞游离DNA片段包含片段标识符序列和链标识符序列二者。对与链标识符序列(鉴定经加工的链所衍生的模板链)组合的链的片段标识符序列(再次鉴定经加工的链所衍生的模板dsDNA片段)进行分析使得人们能够确定相应的模板片段被完全修饰(即，完全修饰，例如，在两条链上甲基化，在两条链上羟甲基化，或在一条链上甲基化，而在另一条链上羟甲基化)或半修饰(即，半修饰，例如仅在一条链上甲基化或羟甲基化)。

分子条形码可以与本文所述的任何方法结合使用。由于当前的表观遗传学分析在很大程度上依赖于细胞游离DNA作为起点，因此通常在纯化、片段化和末端修复后通过将含有条形码的接头连接至如此加工的片段来进行条形码编码。

5.过程条形码

分子条形码还可以是过程标识符序列，如前述部分所述。过程条形码或“过程标签”基于非序列特征(例如核酸修饰，与蛋白质的结合和基因组结构)鉴定用于对未扩增模板DNA片段的初始库进行分配的过程。

这样的过程标签的一个优点是，它将与原始核酸模板分子有关的非经典序列特征转化为经典序列差异，因此通过随后的过程使这种特征“永生化”，否则将掩盖或破坏所述特征。例如，模板分子上经修饰的表观遗传学碱基(例如5hmC或5mC)通常通过标准PCR循环或使用经典的四个碱基进行其他扩增来稀释，最终主要变为未经修饰的胞嘧啶。相反，如果在扩增之前将过程条形码作为相邻序列添加到针对这样的碱基处理的模板分子中，则可以随后通过常规方法使其扩增，并然后与模板分子一起读取(通过测序或其他方法，例如PCR或微阵列等)。因此，在这样的读取中同时存在(或不存在)过程标签和模板核酸，即使随后的扩增产物可能没有，也表明原始模板是否具有这样的表观遗传学修饰。

类似的情况适用于各种正常的核酸提取、片段化和纯化技术，这些技术通常将原始模板核酸与其原始结合伴侣解离，无论是特定的蛋白质(如组蛋白)，还是跨越模板分子自身序列之外的相邻基因组区域(例如，跨基因组跨度的CTCF结合位点)。通常，用于表征这样的共现的免疫沉淀和核酸交联反应只能在后续操作或序列读取或检测的上游进行。本领域技术人员可以认识到，这样的过程条形码适用于任何能够基于这样的特征将核酸库分离为选定的核酸子集和剩余核酸子集的反应，使得能够通过随后的反应(例如提取、纯化或提取)对这些模板进行标记，否则将去除原始特征，而该原始特征已成为这种分离的基础(例如，结合伴侣的下游存在或其他非连续序列的连续空间邻接)。

与独特的分子标识符或其他高度多样化的条形码(通常在10³至10⁹个独特序列的范围内)不同，过程条形码通常是离散的，仅需要数个碱基(通常2-4个碱基)，因此仅代表数个覆盖每个过程的特定输出的独特序列(例如，少于50、少于25、少于20、少于10个条形码标签，例如1至4个条形码标签)。通过设计，它们适用于多个片段，与序列是该过程的共享产物(共享该过程中使用的共同特征)无关，并且经验证适用于(具有可接受的连接偏倚)大范围的不同模板序列而不是旨在为每个单独的模板分子赋予独特的序列。然而，它们可以依次添加在一起，也可以以组合方式拆分和重新合并，以覆盖这样的作为加长的过程标签块集依次运行的过程的许多组合。也可以在平行过程(其利用起始模板核酸的各个亚部分来询问不同的标记)中添加不同的过程标签。例如，单个模板分子可以用两个条形码加标签，表明其原始模板分子也包含5mC和5hmC二者。进一步的标签可以表明原始模板分子是否也与特定的组蛋白(或经修饰的组蛋白，参见，例如Shema等(2016)Science352(6286):717-721和Sadeh(2016)Molecular Cell 63:1080-1088)相关联。

根据该实施方案，将核酸分配到亚集可以基于以下：

(1)掺入表观遗传学碱基，例如5hmC或5mC，其可以被化学修饰(例如用亚硫酸氢盐)、标记或封端(例如用βGT)或与MBD结合蛋白缔合；

(2)与通常被免疫沉淀的特定组蛋白或核酸交联(例如CTCF)或结合蛋白(例如转录因子和聚合酶、或者表观遗传学读和写蛋白)或其他核蛋白缔合；或者

(3)与地理上接近但不连续的核酸序列(通常交联和免疫沉淀)缔合。

分离物的富集级分和/或贫化级分(depleted fraction)可以具有添加的过程标签。例如，用一个过程标签标记含有经修饰的碱基的片段并且用另一过程标签标记不含经修饰的碱基的剩余片段可能是有价值的。

作为分配基础的非序列修饰通常包含在相对较短的DNA片段中；虽然检测多于一种的非序列修饰是有用的，特别是当这样的修饰以嵌段形式出现时，但是通常有益地将过程标签添加到较小的核酸中，这些较小的核酸从碱基分辨率分析中已知仅具有少量或一个潜在的差异修饰位点。

如果模板核酸的片段大小约等于或低于被研究基因组区域的修饰频率(例如，每1000个碱基1个、每160个碱基1个、或每100个碱基1个)(或在整个基因组上，如果正进行整个基因组分析)，单个片段可能会变成“数字”，这意味着它很可能在任何给定片段中只有一个或零个修饰。当从先前的碱基分辨率分析中已知潜在修饰的位点时，因此可以从测序中的片段水平读出中推断出碱基分辨率读出。

过程条形码可以以自身使用，或者更优选地，与前面部分中描述的三种条形码类型中的至少一种组合使用。图14示意性地示出了将过程条形码添加到已用样品标识符序列、片段标识符序列和链标识符序列进行条形码编码的DNA。在链分离后，优选在随后的PCR处理期间，必须将过程条形码添加到DNA片段中，其中可以将过程条形码附加到PCR引物上，如图14所示。

在一个实施方案中，如所述的过程条形码的使用是在细胞游离DNA和选自样品标识符序列、片段标识符序列、链标识符序列及其组合的至少一种另外的分子条形码的情况下进行。

在另一个实施方案中，如所述的过程条形码的使用是在细胞游离DNA和没有另外的条形码的情况下进行的。

在另一个实施方案中，过程条形码的使用是在源自细胞DNA的DNA的情况下进行的，并与选自样品标识符序列、片段标识符序列、链标识符序列及其组合的至少一种另外的分子条形码结合使用。

6.用于检测DNA片段中5mC和5hmC的双生物素技术：

如上所述，本发明提供了用于检测DNA片段中5mC和5hmC二者的存在和位置的方法、反应混合物和试剂盒。

在一个实施方案中，采用“双生物素”富集方法来发现具有5hmC残基或5mC残基的DNA片段。这样的方法的一个实例在图15中示出。该方法从适当的接头连接的DNA片段开始，即，接头含有一个或更多个分子条形码，并且以后在过程中促进选择性PCR扩增。在第一步骤中，用亲和标签选择性标记5hmC残基。图15示出了通过以下方法对5hmC残基的选择性官能化：使用尿苷二磷酸葡萄糖-6-叠氮化物的βGT-催化的糖基化，然后进行“点击化学”反应以共价附着生物素标签，如前面解释的。然后使用链霉亲合素珠来提取所有在5hmC位置生物素化的DNA片段，并将其置于单独的容器中用以在PCR扩增期间进行过程条形码编码。上清液中剩余的DNA片段是具有5mC残基或没有修饰的片段。然后使用TET蛋白或TET突变蛋白来将上清液中的5mC残基氧化为5hmC；在这种情况下，采用突变型TET蛋白来确保5mC的氧化不超过羟基化。为了该目的的合适的TET突变蛋白在Liu等(2017)Nature Chem.Bio.13:181-191中被描述，然后重复βGT催化的糖基化及随后的生物素官能化。如此标记(原始5mC的每个位置生物素化)的片段用链霉亲合素珠下拉。然后，在PCR扩增期间，用与在第一步骤中使用的不同的过程标识符序列对结合珠的DNA片段进行过程条形码编码。未经修饰的DNA片段，即不含经修饰的胞嘧啶残基的片段，现在保留在上清液中。如果期望的话，可以使用序列特异性探针与未甲基化的DNA链杂交。如前所述，在PCR期间，可以提取产生的杂交络合物并用第三过程条形码加标签。

因此，双生物素富集方法导致三组单独的细胞游离DNA片段，分别对应于具有5hmC残基的原始DNA片段、具有5mC残基的原始DNA片段和不含任何C修饰的原始DNA片段。对这三组进行合并和测序，其中条形码使得能够生物信息去卷积以确定初始DNA片段的结构。

在一个优选的实施方案中，经历双生物素富集处理的DNA片段是细胞游离DNA片段。

7.生物素/天然5mC富集方法：

图16示出了一个相关的实施方案。该方法如前述部分，从接头连接的DNA片段中5hmC残基的生物素化开始，然后链霉亲合素下拉。在此，然而代替修饰剩余的甲基化DNA，使用抗5mC抗体或MBD蛋白来捕获并下拉天然的含有5mC的片段。剩余的未甲基化DNA可以如前述部分中描述的进行处理。可以扩增三组片段，并用过程条形码加标签，合并，测序，如上所述。

8.在单个DNA链上鉴定5mC/5hmC共现：

本发明还包括一种用于检测DNA片段中5mC和5hmC残基的新方法，包括鉴定其中5mC和5hmC都存在于单条链上的DNA片段。

如前所述，可以使用任何有效分离出已被接头连接的含有5hmC的DNA片段的方法进行第一步骤。该方法涉及例如通过用化学选择剂官能化5hmC，将亲和标签附于5hmC位点，该化学选择剂又共价结合亲和标签。这样的方法的一个实例示于在图17中。在图17中，使用尿苷二磷酸葡萄糖-6-叠氮化物的βGT催化的葡萄糖基化来将接头连接的含有5hmC的片段用叠氮化物基团官能化，然后如前所述，附着生物素作为亲和标签。使用链霉亲合素珠下拉已生物素化的DNA片段。应理解，以这种方式分离的所有DNA片段具有生物素化的5hmC位点。这些片段中的一些也可能包含未经修饰的5mC位点。在下一步骤中，如前所述，使用TET酶等氧化片段，使得将5mC残基转化为5fC和/或5caC。如前面解释的，使用有机硼烷(例如2-甲基吡啶硼烷)来使氧化的5mC部分还原、脱氨基和脱羧基或脱甲基化，以产生DHU残基。因此，以这种方式处理的所有DNA片段初始包括至少一条含有5hmC部分和5hmC部分二者的链。然后可以在PCR扩增期间添加过程条形码，用于DNA修饰物种的组合片段解析，然后进行合并测序。

为了鉴定含有5mC的片段(不含有5hmC的片段，因为在阶段1中下拉了含有5hmC的片段)，可以将5mC/5hmC共现分析扩展到第二阶段。在阶段1后的剩余DNA包括未甲基化的DNA以及含有5mC的DNA。使用TET酶等对这些片段进行如阶段1中的氧化反应，从而将5mC残基转化为5fC和5caC残基。有机硼烷(例如2-甲基吡啶硼烷)将5fC和5caC残基转化为DHU，该方法继续进行PCR添加过程条形码、DNA修饰物种的组合片段解析和合并测序，如阶段1中所述。代表性的这种方法示意性地示于图18中。

9.其他方法：

在另一个实施方案中，任何上述方法可以采用已知序列的选定寡核苷酸作为5hmC位点的亲和标签，使得可以使用与具有与该寡核苷酸互补的序列的结合支持物的探针杂交来下拉带寡核苷酸标签的5hmC位点。图19的方案中提供了该方法的一个实例。

Claims

1.一种用于将细胞游离DNA中的氧化的5-甲基胞嘧啶残基转化为二氢尿嘧啶残基的方法，包括使含有选自5-羧甲基胞嘧啶、5-甲酰基胞嘧啶及其组合的至少一种氧化的5-甲基胞嘧啶残基的细胞游离DNA与有机硼烷接触，所述有机硼烷有效地使所述至少一种氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基，从而提供二氢尿嘧啶残基代替它。

2.根据权利要求1所述的方法，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-羧甲基胞嘧啶。

3.根据权利要求1所述的方法，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-甲酰基胞嘧啶。

4.根据权利要求1所述的方法，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-羧甲基胞嘧啶和5-甲酰基胞嘧啶的组合。

5.根据权利要求1至4中任一项所述的方法，其中所述有机硼烷包含硼烷与选自氮杂环和叔胺的含氮化合物的络合物。

6.根据权利要求5所述的方法，其中所述有机硼烷包含硼烷和氮杂环的络合物。

7.根据权利要求6所述的方法，其中所述氮杂环包含任选经1-4个低级烷基取代的吡啶。

8.根据权利要求7所述的方法，其中所述氮杂环包含吡啶、2-甲基吡啶或5-乙基-2-甲基吡啶。

9.根据权利要求8所述的方法，其中所述氮杂环包含2-甲基吡啶，并且所述有机硼烷是2-甲基吡啶硼烷。

10.根据权利要求5所述的方法，其中所述有机硼烷包含硼烷和叔胺的络合物。

11.根据权利要求10所述的方法，其中所述叔胺选自三乙胺和三(叔丁基)胺。

12.根据权利要求1所述的方法，其中还原、脱氨基和脱羧基在不分离任何中间体的情况下进行。

13.根据权利要求1所述的方法，其中所述方法在不存在亚硫酸氢盐的情况下进行。

14.一种反应混合物，其包含：

15.根据权利要求14所述的混合物，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-羧甲基胞嘧啶。

16.根据权利要求14所述的混合物，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-甲酰基胞嘧啶。

17.根据权利要求14所述的混合物，其中所述至少一种氧化的5-甲基胞嘧啶残基包含5-羧甲基胞嘧啶和5-甲酰基胞嘧啶的组合。

18.根据权利要求15至17中任一项所述的混合物，其中所述有机硼烷包含硼烷与选自氮杂环和叔胺的含氮化合物的络合物。

19.根据权利要求18所述的混合物，其中所述有机硼烷包含硼烷和氮杂环的络合物。

20.根据权利要求19所述的混合物，其中所述氮杂环包含任选经1-4个低级烷基取代的吡啶。

21.根据权利要求20所述的混合物，其中所述氮杂环包括吡啶、2-甲基吡啶或5-乙基-2-甲基吡啶。

22.根据权利要求21所述的混合物，其中所述氮杂环包含2-甲基吡啶，并且所述有机硼烷是2-甲基吡啶硼烷。

23.根据权利要求18所述的混合物，其中所述有机硼烷包含硼烷和叔胺的络合物。

24.根据权利要求23所述的混合物，其中所述叔胺选自三乙胺和三(叔丁基)胺。

25.根据权利要求14所述的混合物，其中所述混合物基本上不含亚硫酸氢盐。

26.一种用于检测细胞游离DNA中5-甲基胞嘧啶残基的存在和位置的方法，其中所述方法包括：

(c)使所述未经修饰的5-甲基胞嘧啶残基氧化，以得到含有氧化的5-甲基胞嘧啶残基的DNA；

(d)使所述含有氧化的5-甲基胞嘧啶残基的DNA与有机硼烷接触，所述有机硼烷有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基，从而提供含有二氢尿嘧啶残基代替所述氧化的5-甲基胞嘧啶残基的DNA；

(e)对所述含有二氢尿嘧啶残基的DNA进行扩增和测序；

(f)从(e)的测序结果确定5-甲基化模式。

27.根据权利要求26所述的方法，还包括：

(g)鉴定在步骤(b)中从所述细胞游离DNA样品中除去的所述含有5-羟甲基胞嘧啶的DNA的羟甲基化模式。

28.根据权利要求26或27所述的方法，其中步骤(a)至(d)在不存在亚硫酸氢盐的情况下进行。

29.根据权利要求26或27所述的方法，其中步骤(a)至(d)在不分离任何中间体的情况下进行。

30.根据权利要求26或27所述的方法，其中所述亲和标签包含生物素，并且步骤(a)包括用生物素选择性标记5-羟甲基胞嘧啶残基。

31.根据权利要求30所述的方法，其中步骤(b)包括使生物素化的DNA与支撑物结合的链霉亲合素接触。

32.根据权利要求26或27所述的方法，其中步骤(c)以酶促方式进行。

33.根据权利要求32所述的方法，其中使用十-十一易位(Ten-Eleven Translocation,TET)酶进行步骤(c)。

34.根据权利要求26或27所述的方法，其中步骤(c)以化学方式进行。

35.根据权利要求1所述的方法，其中所述细胞游离DNA包含细胞游离DNA的选定区域。

36.根据权利要求26或27所述的方法，其中所述细胞游离DNA样品包含细胞游离DNA的选定区域。

37.根据权利要求26或27所述的方法，其中所述接头连接的DNA片段包含含有选自样品标识符序列、片段标识符序列和链标识符序列的至少一种分子条形码的接头。

38.根据权利要求26或27所述的方法，其中在步骤(e)中，将包含过程标识符序列的分子条形码固定至所述含有DHU的DNA。

39.根据权利要求26或27所述的方法，其中所述细胞游离DNA包含双链DNA。

40.根据权利要求26或27所述的方法，其中所述细胞游离DNA包含单链DNA。

41.根据权利要求26或27所述的方法，其中所述亲和标签由具有预定序列的选定的寡核苷酸标签组成，并且步骤(a)包括用所述寡核苷酸标签选择性标记5-羟甲基胞嘧啶残基。

42.根据权利要求41所述的方法，其中步骤(b)包括使带所述寡核苷酸标签的DNA与支撑物结合的寡核苷酸接触，所述寡核苷酸包含与所述预定序列基本上互补的序列。

43.根据权利要求37所述的方法，其中所述接头连接的DNA片段包含片段标识符序列和链标识符序列二者。

44.根据权利要求43所述的方法，还包括分析经加工的链中的所述片段标识符序列和所述链标识符序列，以确定模板DNA片段是完全修饰的还是半修饰的。

45.一种用于将细胞游离DNA中的5-甲基胞嘧啶残基转化为二氢尿嘧啶残基的试剂盒，包括用于阻断所述5-羟甲基胞嘧啶残基的阻断剂组合物、用于使所述5-甲基胞嘧啶残基氧化超过羟甲基化以提供氧化的5-甲基胞嘧啶的氧化剂、以及有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基的有机硼烷。

46.一种用于在细胞游离DNA样品中鉴定5-甲基胞嘧啶残基的试剂盒，包括用于以下的单独的试剂组合物：对5-羟甲基胞嘧啶残基进行修饰以在其上提供亲和标签，从所述样品中除去经修饰的5-羟甲基胞嘧啶残基，并且使未经修饰的5-甲基胞嘧啶残基氧化超过羟甲基化以提供氧化的5-甲基胞嘧啶残基，以及有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基的有机硼烷。

47.一种用于检测细胞游离DNA中5-甲基胞嘧啶残基和5-羟甲基胞嘧啶残基的存在和位置的方法，其中所述方法包括：

(a)使片段化的接头连接的细胞游离DNA中的5-羟甲基胞嘧啶残基生物素化，以形成第一组含有生物素化的5-羟甲基胞嘧啶的DNA片段；

(b)从所述细胞游离DNA中除去第一组含有生物素化的5-羟甲基胞嘧啶的DNA片段，留下未经修饰的DNA和含有未经修饰的5-甲基胞嘧啶残基的DNA片段；

(c)使含有未经修饰的5-甲基胞嘧啶片段的DNA片段氧化以提供5-羟甲基胞嘧啶残基代替它，然后进行生物素化以提供第二组含有生物素化的5-羟甲基胞嘧啶的DNA片段；

(d)除去所述第二组含有生物素化的5-羟甲基胞嘧啶的DNA片段；以及

(e)对所述第一组DNA片段和所述第二组DNA片段进行合并、扩增和测序。

48.根据权利要求46所述的方法，还包括(f)从步骤(e)的结果确定5-甲基化模式、5-羟甲基化模式或者5-甲基化模式和5-羟甲基化模式二者。

49.一种用于鉴定细胞游离DNA中DNA单链上5-甲基胞嘧啶和5-羟甲基胞嘧啶的同时存在的方法，包括：

(a)用亲和标签使片段化的接头连接的细胞游离DNA中的5-羟甲基残基官能化，所述亲和标签允许从所述细胞游离DNA中选择性除去带标签的DNA片段；

(b)使经除去的带标签的DNA片段氧化，以将未经修饰的5-甲基胞嘧啶残基转化为选自5-甲酰基胞嘧啶、5-羧甲基胞嘧啶残基或其组合的氧化的5-甲基胞嘧啶残基；

(c)使来自(b)的所述氧化的带标签的DNA片段与有机硼烷接触，所述有机硼烷有效地使所述氧化的5-甲基胞嘧啶残基还原、脱氨基和脱羧基或脱甲酰基，从而提供含有二氢尿嘧啶残基代替氧化的5-甲基胞嘧啶残基的DNA；以及

(d)对含有二氢尿嘧啶残基的DNA进行扩增和测序。

50.一种用于在DNA样品中检测5-甲基胞嘧啶残基和5-羟甲基胞嘧啶残基的存在和位置的方法，其中所述方法包括：

(a)用亲和标签使所述DNA样品中的5-羟甲基胞嘧啶残基进行官能化，所述亲和标签允许从所述DNA样品中选择性除去含有带标签的5-羟甲基胞嘧啶的DNA；

(b)从所述DNA样品中除去带标签的DNA片段，留下未经修饰的DNA和含有未经修饰的5-甲基胞嘧啶残基的DNA；

(c)对所述5-甲基胞嘧啶残基进行修饰以使得能够选择性除去所述含有5-甲基胞嘧啶的DNA；

(d)除去所述含有经修饰的5-甲基胞嘧啶的DNA；以及

(e)向所述含有带标签的5-羟甲基的DNA和所述含有经修饰的5-甲基胞嘧啶的DNA上附加过程标识符序列，其中每个过程标识符序列鉴定用于鉴定和/或分离所述带标签的DNA和所述经修饰的DNA的过程。

51.根据权利要求50所述的方法，其中所述DNA样品包含细胞游离DNA。

52.根据权利要求51所述的方法，其中所述细胞游离DNA与至少一种接头进行接头连接，所述至少一种接头包含选自样品标识符序列、片段标识符序列和链标识符序列的分子条形码。