CN116240265A

CN116240265A - Dna甲基化文库的构建方法以及dna甲基化的检测方法

Info

Publication number: CN116240265A
Application number: CN202111497281.2A
Authority: CN
Inventors: 罗慧娟; 曹博洋; 李南南; 罗甜; 吴逵; 赵鑫
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-06-09

Abstract

本发明涉及生物检测领域，更具体地，涉及DNA甲基化文库的构建方法以及DNA甲基化的检测方法。所述DNA甲基化文库的构建方法包括：重亚硫酸盐处理、第一接头连接、第二接头连接和PCR扩增。本发明方法操作简便快捷、成本低，对基因组GC覆盖偏向性小，具有基因组以及CpG岛覆盖度高的特点，是一个可以很好的用于DNA全基因组(特别是尿液游离DNA全基因组)甲基化分析的技术，可以包装成建库试剂盒。

Description

DNA甲基化文库的构建方法以及DNA甲基化的检测方法

技术领域

本发明涉及生物检测领域，更具体地，涉及DNA甲基化文库的构建方法以及DNA甲基化的检测方法。

背景技术

体液中的细胞游离DNA(cf DNA)是各种疾病尤其是癌症中一种重要的生物标记物来源，其中研究最多的是血液里面的cfDNA。随着新一代测序(NGS)技术和研究的进步以及个性化医疗的发展，cfDNA已经被运用到液体活检中。

最近，尿液成为液体活检cfDNA相关生物标志物的研究对象。相对血液采集而言，尿液收集的侵入性更小，而且采集方便。因此，尿液细胞游离DNA(ucfDNA)分析是一个很好的用于液体活检的对象。尿液游离DNA不同时期的DNA改变与癌症的发生发展、治疗反应和预后相关。对尿液游离DNA的评估不仅局限于泌尿系统疾病，也适用于非泌尿系统疾病。一些尿液游离DNA应有的敏感性和特异性可与液体活检的其它标准相媲美。然而，由于临床基础研究积累不够，尿液游离DNA的临床应用尚未得到推广。

DNA甲基化是一种重要的表观调控方式，现有研究表明，在癌症发生、发展过程中其DNA甲基化会发生异常改变。比如，由基因启动子CpG岛(CpG island，CGI)的异常高甲基化而导致的转录沉默，其可在细胞分裂后被子细胞继承。DNA甲基化的改变被认为是癌症发展的一个重要组成部分。基因组整体低甲基化也通过不同的机制参与了癌症的发展和进展过程。因此，DNA甲基化的研究在癌症样本中尤为重要。

目前基于NGS DNA常见的甲基化检测技术，通常有全基因组重亚硫酸盐测序(WGBS)、利用酶切位点获得部分富含GC区域的简化版重亚硫酸盐处理测序(RRBS)、以及利用抗原抗体相结合的方法如MeDIP、MBD等。然而，WGBS、MeDIP和MBD均不适用于DNA含量较低的尿液游离DNA样本。RRBS可以用比较少的DNA进行实验，但是它只能覆盖全基因组大概10％至15％的CG位点。在癌症样本中，DNA甲基化修饰的异常改变主要发生在CG区域，而传统的全基因甲基化亚硫酸测序方法在GC覆盖上会有较大偏向性。

因此，本领域亟需一种对全基因组DNA甲基化进行检测的方法，该方法不仅可以对DNA含量较低的样本例如尿液游离DNA样本进行，而且可以克服在CG位点覆盖上的偏向。

发明内容

为解决背景技术部分提出的问题，本发明提出了一种新的构建DNA甲基化文库的方法、以及利用该文库来对全基因组DNA甲基化进行检测的方法，由此完成了本发明。

因此，在第一方面，本发明提供了一种构建DNA甲基化文库的方法，包括以下步骤：

a)利用连接酶将第一接头连接至经重亚硫酸盐处理的样本中的单链DNA片段的3’端，其中所述第一接头是具有互补配对碱基对的双链寡核苷酸接头，其一条链的3’端另外具有由多个随机碱基构成的寡核苷酸第一突出末端，所述第一突出末端能够与所述单链DNA片段的3’端序列通过碱基互补配对结合，且所述第一突出末端的最后一个随机核苷酸经阻断修饰，以阻止其5’-磷酸基团与其3’-羟基基团的连接；

b)利用连接酶将第二接头连接至所述单链DNA片段的5’端；

c)利用PCR扩增引物对对步骤b)中得到的连接产物进行PCR扩增，由此得到DNA甲基化文库。

在一个实施方案中，所述阻断修饰为氨基阻断修饰、C3-Spacer修饰、硫代修饰或双脱氧修饰。在一个优选的实施方案中，所述阻断修饰经由C_6-7亚烷基在所述最后一个随机核苷酸上进行。

在一个实施方案中，所述样本为体液样本，优选为尿液、血清、血浆、唾液、脑脊液、痰液、粪便。在另一个实施方案中，所述样本为组织样本，优选为新鲜组织样本、石蜡包埋组织样本。

在一个实施方案中，所述DNA为体液样本中的游离DNA(cfDNA)。

在一个实施方案中，所述样本中的DNA含量为大于等于(≥)1ng，且小于等于(≤)10ng。

在一个实施方案中，在步骤a)和步骤b)中，所述连接酶是相同或者不相同的，优选为T4 DNA连接酶。

在一个实施方案中，所述第一接头的互补配对碱基对长度为15-30bp，优选为20-25bp。

在一个实施方案中，所述第一接头的随机碱基长度为4-10nt。

在一个实施方案中，所述第二接头为具有互补配对碱基对的双链寡核苷酸接头，其中一条链的5’端另外具有由多个随机碱基构成的寡核苷酸第二突出末端，所述第二突出末端能够与所述单链DNA片段的5’端序列通过碱基互补配对结合。

在一个实施方案中，所述第二接头的第二突出末端的最后一个随机核苷酸不具有磷酸化修饰和阻断修饰。

在一个实施方案中，所述第二接头的互补配对碱基对长度为20-30bp，优选为25bp；

在一个实施方案中，所述第二接头的随机碱基长度为4-10nt。

在一个实施方案中，所述PCR扩增引物对中的一条引物能够识别和结合所述第一接头中不具有随机碱基的链。

在一个实施方案中，所述PCR扩增引物对中的一条引物带有标签(barcode)序列。

在一个实施方案中，所述第一接头的序列如SEQ ID NO：1和SEQ ID NO：2所示，其中SEQ ID NO：1中的3’端的最后一个随机核苷酸经由亚己基(C₆)被氨基修饰，所述第二接头的序列如SEQ ID NO：3和SEQ ID NO：4所示。

在一个实施方案中，在进行步骤a)和/或步骤b)之后，对获得的产物进行磁珠纯化处理。

在第二方面，本发明提供了一种检测DNA甲基化的方法，所述方法包括以下步骤：

a)根据本发明第一方面的方法来构建DNA甲基化文库；

b)对步骤a)中构建的文库进行测序并进行数据分析，由此确定样本中DNA的甲基化水平。

在一个实施方案中，步骤b)包括以下步骤：

b1)将步骤a)中获得的文库中的PCR扩增产物环化为单链环；

b2)对所述单链环测序并进行数据分析，并根据测序结果来判断样本中DNA的甲基化水平。

在一个实施方案中，在步骤b1)中，在步骤b1)中，使用桥接寡核苷酸单链将步骤a)中获得的文库中的PCR扩增产物环化为单链环，所述桥接寡核苷酸单链两端能够与PCR扩增产物单链互补配对。在一个优选的实施方案中，所述桥接寡核苷酸单链的序列如SEQ IDNO：5所示。

在一个实施方案中，所述测序为高通量测序。

在第三方面，本发明提供了一种试剂盒，包括：

a)第一接头，所述第一接头是具有互补配对碱基对的双链寡核苷酸接头，其一条链的3’端另外具有由多个随机碱基构成的寡核苷酸第一突出末端，所述第一突出末端能够与所述单链DNA片段的3’端序列通过碱基互补配对结合，且所述第一突出末端的最后一个随机核苷酸经阻断修饰，以阻止其5’-磷酸基团与其3’-羟基基团连接；

b)第二接头，所述第二接头为具有互补配对碱基对的双链寡核苷酸接头，其中一条链的5’端另外具有由多个随机碱基构成的寡核苷酸第二突出末端，所述第二突出末端能够与所述单链DNA片段的5’端序列通过碱基互补配对结合；

c)用于指导如何使用该试剂盒的说明书。

在一个实施方案中，所述阻断修饰为氨基阻断修饰、C3-Spacer修饰、硫代修饰或双脱氧修饰。在一个优选的实施方案中，所述阻断修饰经由C_6-7亚烷基进行。

在一个实施方案中，所述第二接头的第二突出末端的最后一个随机核苷酸不具有磷酸化修饰和/或阻断修饰。

在一个实施方案中，所述第二接头的互补配对碱基对长度为20-30bp，优选为25bp。

在一个实施方案中，所述第一接头或第二接头的随机碱基长度为4-10nt。

在一个实施方案中，所述试剂盒还包括：重亚硫酸盐试剂、桥接寡核苷酸单链(Split oligo)、连接酶如T4 DNA连接酶、PCR扩增引物对中的一种或者多种。

在一个实施方案中，所述第一接头的序列如SEQ ID NO：1和SEQ ID NO：2所示，所示第二接头的序列如SEQ ID NO：3和SEQ ID NO：4所示。

在一个优选的实施方案中，所述PCR扩增引物对如SEQ ID NO：6和SEQ ID NO：7所示。

在一个优选的实施方案中，所述桥接寡核苷酸单链(Split oligo)的序列如SEQID NO：5所示。

本发明方法的有益技术效果：

本发明方法操作简便快捷、成本低，对基因组GC覆盖偏向性小，具有基因组以及CpG岛覆盖度高的特点，是一个可以很好的用于DNA全基因组(特别是尿液游离DNA全基因组)甲基化分析的技术，可以包装成建库试剂盒。

本发明方法将可以提高CGI的覆盖情况，减少GC覆盖的偏向性。

本发明方法主要通过特殊处理合成的短序列接头对亚硫酸处理后的DNA模板进行文库构建以及测序，可以进行全基因组甲基化分析。具体地，将第一接头序列的突出末端的最后一个碱基做了阻断修饰(例如氨基阻断)，目的是较少接头自连，提高目的片段与接头连接的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所涉及的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施方案。

图1示出本发明方法的一个实施方案的流程图。

图2示出通过本发明的一个实施方案构建的文库中的DNA片段的分布图。

图3示出通过本发明的一个实施方案以及现有技术构建的文库，经过测序分析得到的GC分布情况图。

图4示出通过本发明的一个实施方案以及现有技术构建的文库，经过测序分析得到的不同测序深度下的CGI覆盖情况。

图5示出通过本发明的一个实施方案构建的文库，经过测序分析得到的样本甲基化一致性分析结果。

图6示出通过本发明的一个实施方案的第一突出末端的最后一个随机核苷酸经由C₆亚烷基进行氨基阻断修饰的结构。

具体实施方式

下面将对本发明进行清楚、完整的描述。显然，所描述的实施方案仅仅是本发明的一部分实施方案，而不是全部的实施方案。基于本申请中描述的本发明实施方案，本领域普通技术人员可以获得的所有其他实施方案，且这些实施方案都属于本发明保护的范围。

如上文所述，现有的DNA甲基化检测方法包括全基因组重亚硫酸盐测序(WGBS)、利用酶切位点获得部分富含GC区域的简化版重亚硫酸盐处理测序(RRBS)、以及利用抗原抗体相结合的方法如MeDIP、MBD等等。但是，WGBS、MeDIP和MBD均不适用于DNA含量较低的尿液游离DNA样本。RRBS可以用比较少的DNA进行实验，但是它只能覆盖全基因组大概10％至15％的CG位点。但是，在癌症样本中，DNA甲基化修饰的异常改变主要发生在CG区域，而传统的全基因甲基化亚硫酸测序方法在GC覆盖上会有较大偏向性。

因此，本领域亟需一种对甲基化进行检测的方法，该方法不仅可以对DNA含量较低(例如DNA含量低至10ng)的样本例如尿液游离DNA样本进行，而且可以克服现有的方法在CG位点覆盖上的偏向。

在现有的全基因组重亚硫酸盐测序(WGBS)方法中，通过先将片段化的DNA与接头连接，然后进行重亚硫酸盐处理，最后再进行PCR扩增，由此来建立用于DNA甲基化检测的文库。如上所述，该方法首先不适用于DNA含量较低的样本，其次这种方法会导致在GC覆盖上有较大的偏向性，不能反映真实的DNA甲基化情况。

为了解决上述问题，本发明人改变了现有WGBS方法中的接头连接和重亚硫酸盐处理的先后顺序，并且对接头进行了特殊处理，结果意外地发现，由此获得的方法不仅可以对DNA含量较低的样本进行DNA甲基化检测，而且还能克服传统的方法中在GC覆盖上的较大偏向性。由此，完成了本发明。

a)利用连接酶将第一接头连接至经重亚硫酸盐处理的样本中的单链DNA片段的3’端，其中第一接头是具有互补配对碱基对的双链寡核苷酸接头，其一条链的3’端另外具有由多个随机碱基构成的寡核苷酸第一突出末端，所述第一突出末端能够与单链DNA片段的3’端序列通过碱基互补配对结合，且所述第一突出末端的最后一个随机核苷酸经阻断修饰，以阻止其5’-磷酸基团与其3’-羟基基团的连接；

b)利用连接酶将第二接头连接至单链DNA片段的5’端；

图1作为本发明的一个具体实施方案，示出了本发明方法的上述步骤，包括：a)第一接头3’端连接、b)第二接头5’端连接、和c)PCR扩增。除此之外，图1还示出了aO)重亚硫酸盐处理。下面将对各个步骤进行详细的描述。

a0)重亚硫酸盐处理：

本发明方法可以始于a)第一接头3’端连接，也可以始于a0)重亚硫酸盐处理。

所述重亚硫酸盐处理可以按照常规方法进行。通过重亚硫酸盐处理，可以将DNA中没有甲基化修饰的胞嘧啶(C)转化成尿嘧啶(U)，而甲基化修饰的胞嘧啶(C)保持不变。

可以采用重亚硫酸盐处理的单链DNA片段可以存在于多种样本中。该样本可以为体液样本，例如尿液、血清、血浆、唾液、脑脊液、痰液、或粪便。该样本也可以为组织样本，例如新鲜组织样本、或石蜡包埋组织样本。就组织样本而言，任何待检测组织均可。

优选地，本发明非常适合用于检测体液样本中的游离DNA(cfDNA)。所谓“游离DNA”或“cfDNA”，是指来自细胞凋亡或坏死、且游离于细胞外的DNA片段。游离DNA广泛存在于人类的血清、血浆、脑脊液、尿液或唾液当中。

此外，相对于现有技术中公开的方法，本发明方法能够用于检测其中DNA含量大于等于(≥)1ng，且小于等于(≤)10ng的样本。换言之，本发明方法具有更高的灵敏度以及更低的检出限。

a)第一接头3’端连接：

在经历重亚硫酸盐处理后，使用第一接头在DNA 3’端进行连接。

第一接头是一种双链寡核苷酸接头，优选具有15-30个互补配对的碱基对，例如具有15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个互补配对的碱基对。更优选地，该第一接头具有20-25个互补配对的碱基对。

此外，第一接头的一条链的3’端另外具有由多个随机碱基构成的寡核苷酸第一突出末端，该第一突出末端能够与单链DNA片段的3’端序列通过碱基互补配对结合。该多个随机碱基优选为4-10个随机碱基，例如4、5、6、7、8、9或者10个随机碱基。该随机碱基包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)中的一种、两种、三种或者四种。

此外，该第一突出末端的最后一个随机核苷酸经历了阻断修饰。所述阻断修饰可以是氨基阻断修饰、C3-Spacer、硫代修饰、或者双脱氧修饰，但不限于此。进行该阻断修饰的目的是减少阻止该第一双链寡核苷酸接头的5’-磷酸基团与其3’-羟基基团发生自连，以提高单链DNA片段与接头连接的效率。所述阻断修饰，例如氨基阻断修饰，可以直接在3’-羟基上进行，也可以先经由C_1-7亚烷基基团(例如亚甲基(C₁)、亚乙基(C₂)、亚丙基(C₃)、亚丁基(C₄)、亚戊基(C₅)、亚己基(C₆)或亚庚基(C₇))修饰该3’-羟基，然后进行上述阻断修饰。

在本发明中，作为阻断修饰的一种示例，图6示出该第一突出末端的最后一个随机核苷酸经由C₆亚烷基进行氨基阻断修饰的结构。在本发明中，作为示例，所述第一接头的序列如SEQ ID NO：1和SEQ ID NO：2所示。但是，可以理解，接头的具体序列并不限定于此。根据后续PCR扩增和所选择的测序平台的不同，本领域普通技术人员可以对具体序列进行相对应调整。得益于所述阻断修饰，该第一接头之间不再会通过其5’-磷酸基团和3’-羟基基团而发生自连。

在连接酶的作用下，第一接头能够与经重亚硫酸盐处理的样本中的单链DNA片段进行连接反应。所述连接酶可以是T4 DNA连接酶，但不限于此。

另外，在进行第一接头3’端连接之前，可以先对DNA样本进行预处理，以使得DNA片段的5’端磷酸化，由此有助于DNA片段的3’端与第一接头的连接。因此，在一个实施方案中，可以对单链DNA片段进行预处理，例如使用T4多核苷酸激酶(PNK)对单链DNA片段进行预处理。

任选地，在步骤a)和步骤b)之间，可以对反应后获得的产物进行磁珠纯化处理。进行磁珠纯化处理的目的是从反应体系中尽可能地去除目标产物以外的其他物质，由此减少这些物质对后续反应的干扰。

b)第二接头5’端连接：

随后使用第二接头在DNA 5’端进行连接。

第二接头也是一种双链寡核苷酸接头，优选具有20-30个互补配对的碱基对，例如具有20、21、22、23、24、25、26、27、28、29或30个互补配对的碱基对，更优选具有25个互补配对的碱基对。

所述第二接头中的一条链的5’端另外具有由多个随机碱基构成的寡核苷酸第二突出末端，该第二突出末端能够与所述单链DNA片段的5’端序列通过碱基互补配对结合。优选地，所述多个随机碱基优选为4-10个随机碱基，例如4、5、6、7、8、9、10个随机碱基。该随机碱基包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)中的一种、两种、三种或者四种。

第一接头和第二接头的主要区别有以下三点：

第一点在于所述随机碱基所处位置不同：在第一接头中，所述随机碱基在其中一条链的3’端，而在第二接头中，所述随机碱基在其中一条链的5’端；由此，所述第一接头和第二接头可以分别与所述单链DNA片段的3’端和5’端结合。

第二点在于是否存在阻断修饰：在第一接头中，对最后一个随机核苷酸进行了如上文所述的阻断修饰，而在第二接头中，既可以对其最后一个随机核苷酸进行如上文所述针对第一接头的阻断修饰，也可以不进行类似的阻断修饰。因为第二接头的最后一个碱基上没有磷酸化修饰，因此第二接头之间不会发生自连，不需要进行阻断修饰。

第三点在于，所述第一接头中不具有随机碱基的链能够被所述PCR扩增引物识别和结合。

在本发明中，作为示例，所述第二接头的序列如SEQ ID NO：3和SEQ ID NO：4所示。但是，可以理解，接头的具体序列并不限定于此。根据后续PCR扩增和所选择的测序平台的不同，本领域普通技术人员可以对具体序列进行相对应调整。

在连接酶的作用下，第二接头能够与步骤b)中的连接产物进一步进行连接反应。所述连接酶可以是T4 DNA连接酶，但不限于此。

任选地，在步骤b)和步骤c)之间，可以对反应体系进行磁珠纯化处理。同样地，进行磁珠纯化处理的目的是从反应体系中尽可能地去除目标产物以外的其他物质，由此减少这些物质对后续反应的干扰。

另外，可以理解，在步骤a)和步骤b)之间的磁珠纯化处理和在步骤b)和步骤c)之间的磁珠纯化处理可以相同，也可以不同，视具体情况而定，并且该磁珠纯化处理可以采用本领域技术人员熟知的方法进行。

再者，本领域普通技术人员可以理解，步骤a)和步骤b)的顺序不做特别要求，可以调换，只要能将两个接头分别连接到单链DNA的两个末端即可。

c)PCR扩增：

然后，利用PCR扩增引物对步骤b)得到的连接产物进行PCR扩增，由此可以得到DNA甲基化文库。如上文所述，所述第一接头中不具有随机碱基的链能够被PCR扩增引物对中的一条引物识别和结合。因此，借由该条PCR引物，以单链DNA为模板进行线性扩增，就可以获得双链DNA作为后续指数扩增的模板。随后，再掺入所述PCR扩增引物对中的另一条引物，就可以以双链DNA为模板进行指数扩增。因此，利用合适的PCR扩增引物对就可以对单链DNA片段进行扩增，进而获得DNA甲基化文库。

可以理解，为了方便后续的DNA测序，所述PCR扩增引物对中的一条引物可以带有标签序列(barcode)，以进行不同样本的区分或者不同DNA序列的区分。或者，也可以使用与测序平台配套的公用PCR引物进行扩增。PCR扩增按照常规的方式进行，除此之外对其没有其他的要求。

a)根据本发明第一方面的方法来构建DNA甲基化文库；

b)对步骤a)中构建的文库测序并进行数据分析，由此确定样本中DNA的甲基化水平。

关于步骤a)，具体可以参见本文针对本发明第一方面的方法进行的描述，为简洁之目的，在此不再赘述。

在一个具体实施方案中，步骤b)可以包括以下两个子步骤：

b1)单链环形成：将步骤a)中获得的文库中的PCR产物环化成单链环；

b2)测序以及数据分析：对所述单链环进行测序并进行数据分析，并根据分析结果来确定样本中DNA的甲基化水平。

在步骤b1)中，使用桥接寡核苷酸单链(Split oligo)将步骤a)中获得的文库中的PCR扩增产物环化为单链环，所述桥接寡核苷酸单链两端能够与PCR扩增产物单链互补配对。作为示例，所述Split oligo的序列如SEQ ID NO：5所示。

此外，步骤b)涉及的测序方法为高通量测序方法。

在本发明第三方面，提供了一种试剂盒，所述试剂盒包括：a)第一接头、b)第二接头、和c)说明书。

可以理解，本发明这一方面的第一接头和第二接头与本发明第一方面的“第一接头”和“第二接头”具有相同的性质和特点。因此，为简洁之目的，在此不再对第一接头和第二接头进行赘述，具体参考上文。

除此之外，本发明试剂盒还可以包含其他建库和测序过程中使用到的试剂。例如，所述试剂盒还可以包括：重亚硫酸盐试剂、桥接寡核苷酸单链、连接酶和PCR引物对中的一种或者多种。

在一个具体的实施方案中，所述第一接头的序列如SEQ ID NO：1和SEQ ID NO：2所示，所示第二接头的序列如SEQ ID NO：3和SEQ ID NO：4所示。

在一个优选的实施方案中，所述桥接寡核苷酸单链的序列如SEQ ID NO：5所示。

下面将结合具体的实施例来进一步说明本申请的有益效果。主要以尿液游离DNA的甲基化文库构建为例进行说明。

实施例

☆重亚硫酸盐处理：

取10ng尿液游离DNA以及0.1ng未甲基化修饰的λDNA(Unmethylated lambdaDNA)，并使用EZ DNA Methylation-Gold^TM Kit，按照试剂盒protocol推荐方法对其进行亚硫酸盐(BS)处理，最后将处理后的样本溶解于12μL缓冲液中。

尿液游离DNA	10ng
		CT转化液	130μL
未甲基化的λDNA	1μL(0.1ng/μL)
		合计	150μL

按照Zymo EZ DNA Methylation Gold kit说明书进行操作。

通过该重亚硫酸盐处理，可以获得单链DNA模板，用于后续操作中。

☆特殊处理接头连接：

1：PNK处理：

在上一步所得到的单链DNA模板中加入T4多核苷酸激酶(PNK)进行反应。

按照以下反应体系配制试剂：

混匀后，使上述体系在37℃反应15分钟，然后在95℃反应3分钟，之后立即放置冰上保持3至5分钟。

2：特殊处理接头连接：

上一步得到的反应产物	30μL
		10 X T4 PNK缓冲液	5μL
PEG 4000	5μL
		第一接头序列1(10μM)	3μL
T4连接酶(600U/μL)	1μL
		无核酸酶H₂O	6μL
合计	50μL

混匀后，使上述反应体系在20℃反应60分钟，并在反应结束后用1.2倍AMPure XP磁珠进行纯化回收，最后将纯化产物回溶于22μL去离子水中。

☆B接头连接：

使上一步得到的纯化产物在95℃反应3至5分钟，然后立即置于冰上2至5min，冷却后依次加入以下试剂：

上一步得到的DNA纯化产物	20μL
		10 X T4 PNK缓冲液	3μL
PEG 4000	3μL
		第一接头序列2(10μM)	2μL
T4连接酶(600U/μL)	1μL
		无核酸酶H₂O	1μL
合计	30μL

混匀后，使上述反应体系在20℃反应60分钟，并在反应结束后用1.2倍AMPure XP磁珠进行纯化回收，最后将纯化产物回溶于25μL去离子水中。

☆PCR扩增：

在上一步得到的DNA纯化产物中依次加入以下试剂：

上一步得到的DNA纯化产物	22μL
		2 X KAPA HiFi Uracil+MasterMix	25μL
P1公共引物(25μM)	1.5μL
		带有barcode序列的PCR引物(25μM)	1.5μL
合计	50μL

混匀后，将上述反应体系按照以下程序进行扩增反应：

/>

反应结束后，使用1.0倍AMPure XP磁珠对产物进行回收，最后将回收产物溶解至22μL去离子水中。纯化后，取1μL进行Qubit HS浓度检测，同时取1μL进行Agilent 2100 HS高敏芯片检测片段分布。

图2示出了使用Agilent 2100 HS高敏芯片检测的片段分布情况。从图中可以看出，尿液cfDNA甲基化PCR文库主峰集中明显，主要在237bp左右。

☆单链环形成

1、样品准备

取300ng的PCR产物，使用去离子水补齐至52.2μL。

2、热变性单链分离

1)将样品中混匀。

2)将样品置于PCR仪中使其进行如下反应：

95℃ 3分钟

4℃ 10分钟

3、环化(Splint Circulation)

1)准备反应试剂，按照下表配制：

DNA	52.2μL
		10 x TA缓冲液	6μL
Split oligo 100μM	1μL
		100mM ATP	0.6μL
600U/μL T4 DNA连接酶	0.2μL
		合计	60μL

2)将上述反应体系混匀后，置于PCR仪上反应，使其在37℃反应30分钟。

4、酶切消化(Exo I和III)

1)准备反应试剂，按照下表配制：

水	1μL
		10 x TA缓冲液(LK1)	0.4μL
20U/μL EXo I	1.95μL
		200U/μL Exo III	0.65μL
合计	4μL

2)在第3步的反应产物中加入4μL的上表反应试剂并混匀。

3)将2)中得到的反应混合物置于PCR仪上，使其在37℃反应30分钟。

4)酶切30分钟结束后，向样品中加入6μL的500mM EDTA，终止酶反应。

5)用2.5 AMPure XP磁珠对步骤4)的酶切产物进行纯化回收，最后回溶于25μL去离子水中。

6)取1μL纯化产物进行Qubit ssDNA定量分析。

☆测序以及数据分析：

原始下机序列经过去接头序列、去低质量reads等一系列的质量控制流程，得到可以用于比对的数据。然后利用BitMapperBS软件将处理过的序列比对到参考基因组上，得到基本的分析结果。

1、基本比对结果

每个样本做了两个重复，比对结果如下表1所示：

从表1可以看到，文库数据的去除接头后的读段比例(clean rate)都在92％以上，唯一比对率(uniq_mapped_rate)接近80％，CT转化效率(Conversion Efficiency)在99％以上，DUP率(Duplication Rate)在29％至32％之间，平均深度在10X左右。

2、GC偏向性分析

图3示出了GC分布情况，其中，曲线1是参考基因组的GC分布图，曲线4和曲线5为基于本发明建库测序得到的GC分布结果。从图中可知，基于本发明建库测序得到的数据其GC偏向性小，基因组覆盖度均一性高，能够还原最真实的甲基化水平。

3、文库CGI覆盖情况

从图4可以看出，尿液游离DNA文库在测序深度30X左右，经过去除低质量reads和高duplication后得到平均深度大概10X左右，在4X深度下可以覆盖到大约70％CGI区域，在10X深度下可以覆盖到大约40％之间的CGI区域。

4、甲基化一致性分析

根据提取得到的甲基化信息，利用methylkit软件计算100K窗口内CpG位点在每个样本中的平均甲基化率，然后计算这各个样本中CpG位点100K窗口平均甲基化率的相关性(CpG位点过滤标准为10 X覆盖，考虑正负链甲基化差异)。本组尿液cfDNA甲基化文库两组重复，Bladder_cancer_Urine_DNA-3_1和Bladder_cancer_Urine_DNA-3_2，从图5可知，这两组样本的甲基化相关性相关系数为0.94。这说明基本发明方法进行全基因甲基化分析重复性稳定性是比较高的。

对比例

采用现有的常规方法进行。具体，取同样10ng尿液cf DNA，采用MGIEasy全基因组甲基化文库制备试剂盒进行文库构建，具体构建步骤参考制备试剂套装的操作方法。获得的甲基化文库测序结果及分析结果见表格2、图3和图4。

1、基本比对结果

从表格2可得知，去除接头后的读段比例(clean rate)都在97％以上，唯一比对率(uniq_mapped_rate)接近80％，CT转化效率(Conversion Efficiency)在99％以上，DUP率(Duplication Rate)在40％～51％之间，平均深度在15X左右。

2、GC偏向性分析

从图3可以看到，曲线1是比对参考基因组的GC分布图，曲线4和曲线5的Bladder_cancer_Urine_DNA-3_1和Bladder_cancer_Urine_DNA-3_2是本发明方法的结果，曲线2和曲线3的Bladder_cancer_Urine_DNA-3_3和Bladder_cancer_Urine_DNA-3_4是常规方法的结果。从该图中可以看出，常规方法主要覆盖低GC区域(低于25％)，本发明方法GC含量分布更均一、与参考基因组的分布趋势一致。

3、常规方法的文库CGI覆盖情况

从图4可以看出，常规方法原始数据为139～155G，在远高于本发明87～93G原始数据下，其不同深度下CGI覆盖率却远远低于本发明CGI覆盖率。

综上所述，本发明对DNA含量较低的样本，特别是尿液样本，进行全基因组甲基化检测是一项可靠的技术。

/>

序列表

<110> 深圳华大生命科学研究院

<120> DNA甲基化文库的构建方法以及DNA甲基化的检测方法

<130> CF210735S

<160> 7

<170> SIPOSequenceListing 1.0

<210> 1

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

ttgtcttcct aagaccgctt ggcctccgac ttnnnn 36

<210> 2

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

aagtcggagg ccaagcggtc ttaggaagac aa 32

<210> 3

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gaacgacatg gctacgatcc gactt 25

<210> 4

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

nnnnnnaagt cggatcgtag ccatgtcgtt c 31

<210> 5

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gccatgtcgt tctgtgagcc aagg 24

<210> 6

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gaacgacatg gctacga 17

<210> 7

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

tgtgagccaa ggagttgnnn nnnnnnnttg tcttcctaag accgcttggc ctccgactt 59

Claims

1.一种构建DNA甲基化文库的方法，包括以下步骤：

b)利用连接酶将第二接头连接至所述单链DNA片段的5’端；

2.根据权利要求1所述的方法，其中，所述阻断修饰为氨基阻断修饰、C3-Spacer修饰、硫代修饰或双脱氧修饰；优选地，所述阻断修饰经由C_6-7亚烷基在所述最后一个随机核苷酸上进行。

3.根据权利要求1或2所述的方法，其中，所述样本为体液样本，优选为尿液、血清、血浆、唾液、脑脊液、痰液、粪便，或者所述样本为组织样本，优选为新鲜组织样本、石蜡包埋组织样本。

4.根据权利要求1或2所述的方法，其中，所述DNA为体液样本中的游离DNA(cfDNA)。

5.根据权利要求2-4中任一项所述的方法，其中，所述样本中的DNA含量为大于等于(≥)1ng，且小于等于(≤)10ng。

6.根据权利要求1中任一项所述的方法，其中，在步骤a)和步骤b)中，所述连接酶是相同或者不相同的，优选为T4 DNA连接酶。

7.根据权利要求1或2所述的方法，其中，所述第一接头的互补配对碱基对长度为15-30bp，优选为20-25bp；任选地，所述第一接头的随机碱基长度为4-10nt。

8.根据权利要求1或2所述的方法，其中，所述第二接头为具有互补配对碱基对的双链寡核苷酸接头，其中一条链的5’端另外具有由多个随机碱基构成的寡核苷酸第二突出末端，所述第二突出末端能够与所述单链DNA片段的5’端序列通过碱基互补配对结合；

优选地，所述第二接头的第二突出末端的最后一个随机核苷酸不具有磷酸化修饰和/或阻断修饰；

优选地，所述第二接头的互补配对碱基对长度为20-30bp，更优选为25bp；

优选地，所述第二接头的随机碱基长度为4-10nt。

9.根据权利要求1中任一项所述的方法，其中，所述PCR扩增引物对中的一条引物能够识别和结合所述第一接头中不具有随机碱基的链；

优选地，所述PCR扩增引物对中的一条引物带有标签(barcode)序列。

10.根据权利要求1或2所述的方法，其中，所述第一接头的序列如SEQ ID NO:1和SEQID NO:2所示，其中SEQ ID NO:1中的3’端的最后一个随机核苷酸经由亚己基(C₆)被氨基修饰，所述第二接头的序列如SEQ ID NO:3和SEQ ID NO:4所示。

11.根据权利要求1所述的方法，其中，在进行步骤a)和/或步骤b)之后，对获得的产物进行磁珠纯化处理。

12.一种检测DNA甲基化的方法，所述方法包括以下步骤：

a)根据权利要求1-11任一项所述的方法来构建DNA甲基化文库；

13.根据权利要求12所述的方法，其中，步骤b)包括以下步骤：

b1)将步骤a)中获得的文库中的PCR扩增产物环化为单链环；

b2)对所述单链环测序并进行数据分析，并根据分析结果来确定样本中DNA的甲基化水平。

14.根据权利要求13所述的方法，其中，在步骤b1)中，使用桥接寡核苷酸单链将步骤a)中获得的文库中的PCR扩增产物环化为单链环，所述桥接寡核苷酸单链两端能够与PCR扩增产物单链互补配对；优选地，所述桥接寡核苷酸单链的序列如SEQ ID NO:5所示。

15.根据权利要求12-14所述任一项的方法，其中，所述测序为高通量测序。

16.一种试剂盒，包括：

c)用于指导如何使用该试剂盒的说明书。

17.根据权利要求16所述的试剂盒，其中，所述阻断修饰为氨基阻断修饰、C3-Spacer修饰、硫代修饰或双脱氧修饰；优选地，所述阻断修饰经由C_6-7亚烷基进行；

优选地，所述第一接头的互补配对碱基对长度为15-30bp，更优选为20-25bp；

优选地，所述第一接头或第二接头的随机碱基长度为4-10nt。

18.根据权利要求16或17所述的试剂盒，其中，所述试剂盒还包括：重亚硫酸盐试剂、桥接寡核苷酸单链、连接酶和PCR扩增引物对中的一种或者多种。

19.根据权利要求17所述的试剂盒，其中，所述第一接头的序列如SEQ ID NO:1和SEQID NO:2所示，所示第二接头的序列如SEQ ID NO:3和SEQ ID NO:4所示；

优选地，所述PCR扩增引物对如SEQ ID NO:6和SEQ ID NO:7所示；

优选地，所述桥接寡核苷酸单链的序列如SEQ ID NO:5所示。