CN114032287A

CN114032287A - Dna甲基化测序文库及其构建方法和检测方法

Info

Publication number: CN114032287A
Application number: CN202111398633.9A
Authority: CN
Inventors: 陈澍宜
Original assignee: Zhushi Biotechnology Suzhou Co ltd
Current assignee: Zhushi Biotechnology Suzhou Co ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-11

Abstract

本申请公开了一种DNA甲基化测序文库及其构建方法和检测方法。本申请在建立测序文库时并未对双链DNA进行末端修复，而是先将双链DNA变性为单链DNA，然后利用该单链DNA作为建库模板并结合酶学转化法来建立DNA甲基化测序文库，因此，本申请能够避免由于进行末端修复而带来的修复碱基被测序仪读取的现象，从而避免由此造成的测序数据冗余现象。另外，本申请并未采用未甲基化的dNTPs进行末端修复，不会在末端引入新的甲基化水平，从而不会引起测得的甲基化水平失真现象。

Description

DNA甲基化测序文库及其构建方法和检测方法

技术领域

本申请涉及基因检测技术领域，具体涉及一种DNA甲基化测序文库及其构建方法和检测方法。

背景技术

生物体内的DNA包括四种碱基，分别为腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。其中，部分胞嘧啶(C)会发生甲基化而带上甲基基团。DNA甲基化是DNA甲基化转移酶将甲基基团选择性地添加到胞嘧啶上以形成甲基化胞嘧啶的过程。DNA甲基化的水平通常与诱导或抑制基因的表达有关。如果DNA的甲基化发生异常，则可能与肿瘤的发生、发展有关，因此，通过特定基因进行测序，以获知其甲基化水平，这对于肿瘤早筛有重要的价值。

目前通过高通量测序平台来对特定基因进行测序，这首先需要根据特定基因来建立DNA甲基化测序文库。现有的DNA甲基化测序文库的建库方法包括：基于亚硫酸盐转化法的单链建库法和基于酶学转化法的双链建库法。

如图1所示，基于亚硫酸盐转化法的单链建库法包括如下步骤：将目标双链DNA变性为单链DNA；通过化学反应改变单链DNA中胞嘧啶上的甲基，以产生受保护基团保护的胞嘧啶；利用转化试剂亚硫酸盐将未甲基化的胞嘧啶转化为尿嘧啶，然后建立用于供测序平台测序的DNA甲基化文库。该方法是目前广泛采用的文库构建方法，性能比较稳定，但是亚硫酸盐处理对DNA的损伤较大，特别是针对末端缺失的双链DNA，会造成DNA断链、碱基丢失(例如形成无碱基位点)、甲基化信息失真等现象。

如图2所示，基于酶学转化法的双链建库法包括如下步骤：将目标双链DNA进行3’末端修复，并直接加接头序列，接头序列里的胞嘧啶(C)为全部甲基化(如图2中M所示)的胞嘧啶，在双链状态下通过化学反应改变单链DNA中胞嘧啶上的甲基，以产生受保护基团保护的胞嘧啶；然后变性为单链DNA，采用转化酶将未甲基化的胞嘧啶转化为尿嘧啶(U)，然后通过PCR扩增来建立用于供测序平台测序的DNA甲基化文库。因为接头序列在最开始已经加上了，因此，转化后直接通过PCR扩增来构建文库。该方法没有采用易对DNA产生损伤的亚硫酸盐，因此，该方法对DNA结构的损伤小，不会造成DNA断链、碱基丢失等现象，但是该方法采用未甲基化的dNTP对双链DNA的缺失末端进行修复。针对双链不平整，带有粘性单链末端的DNA而言，修复的碱基也会被测序仪读取，因此该方法在对缺失末端进行修复时引入新的、不同的甲基化水平，这会导致甲基化信息失真。另外，由于难以了解原始的双链DNA到底有多少个碱基缺失，这些失真的甲基化信息无法在后续生物信息学分析中修正。再者，测序出来的DNA序列中的碱基数目多于原始的DNA序列的碱基数目，这会造成数据污染。

发明内容

本申请提供一种DNA甲基化测序文库及其构建方法和检测方法，其采用的试剂性质温和，对DNA结构的损伤小，不会造成DNA断链、碱基丢失等现象，也不会产生甲基化信息失真和数据污染等现象。

为了克服上述缺点，本申请采用了以下技术方案：

[DNA甲基化测序文库的构建方法]

本申请提供一种DNA甲基化测序文库的构建方法，其包括如下步骤：

(1)、获得目标双链DNA；

(2)、采用甲基化保护试剂将目标双链DNA的甲基化胞嘧啶氧化为受保护胞嘧啶，以得到受保护双链DNA；

(3)、将受保护双链DNA变性为单链DNA；

(4)、采用转化试剂将单链DNA中未甲基化的胞嘧啶转化为尿嘧啶，得到转化后单链DNA；

(5)、利用转化后单链DNA构建DNA甲基化测序文库。

其中，在步骤(1)中，目标双链DNA可以为血液中游离的cfDNA。

在一些实施例中，cfDNA在血液中可以主要以缠绕核小体的形式存在，因为在该种情况下没有缠绕在核小体上的cfDNA会很快被降解。一个核小体上缠绕的cfDNA大约170bp，因此，cfDNA的主要片段在170bp存在一个主峰(相当于一个核小体)，然后在340bp有一个小峰(相当于两个核小体)，以此类推。

在另一些实施例中，cfDNA的长度可以位于170bp至210bp之间(包括本数)。然而，在其它一些实施例中，cfDNA的长度也可以为180bp、185bp、190bp、195bp、200bp等。

在其它的一些实施例中，cfDNA的长度可以为170bp至210bp之间的任意一个数值的整数倍(根据所缠绕的核小体的个数确定)。例如为340bp、420bp等。

在步骤(1)中，目标双链DNA也可以为ctDNA。ctDNA是cfDNA中来自于肿瘤细胞的部分，其来自于组织细胞的非正常凋亡过程，因此，所产生的片段大小不同，其片段的均一性小于组织细胞的正常凋亡过程形成的cfDNA。

在一些实施例中，ctDNA的长度位于150bp至500bp之间(包括本数)。例如，ctDNA的长度也可以为210bp、220bp、230bp、250bp、270bp、280bp、300bp、320bp、350bp、380bp、400bp、500bp等。

在步骤(1)中，目标双链DNA也可以为基因组DNA。在构建文库时，该基因组DNA需要使用打断仪打断为100bp至400bp之间(包括本数)。在一些实施例中，其端点值可以参照上述的cfDNA或ctDNA取值。

在步骤(1)中，目标双链DNA的每条链的3’端可以存在1至80个碱基的缺失，也可以为5至70个碱基的缺失，也可以为10至50个碱基的缺失，可以进一步为20至30个碱基的缺失。在其它一些实施例中，目标双链DNA的每条链的3’端的碱基缺失数可以为2、3、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、25、35、45、55、65、75等。以上情况除了适用于3’末端缺失的目标双链DNA之外，也适用于5’端缺失的目标双链DNA。

在步骤(2)中，本申请的目标双链DNA的起始量可以为3ng至200ng，也可以为5ng至100ng，还可以为20ng至50ng。起始量为建立测序文库时最初使用的目标双链DNA的用量。

在步骤(2)中，甲基化保护试剂包括TET2蛋白和氧化增强剂。TET2蛋白用于将甲基化胞嘧啶中的甲基和羟甲基经过氧化反应转换为保护基团(例如，甲酰基或羧基)。受到保护基团保护的胞嘧啶能够对抗胞嘧啶脱氨酶的脱氨作用，从而不被转换为尿嘧啶。未甲基化的胞嘧啶不存在甲基，不会连接上保护基团，从而不能够对抗胞嘧啶脱氨酶的脱氨作用，后继会被转化为尿嘧啶。

在步骤(2)中，甲基化胞嘧啶为5-甲基胞嘧啶或5-羟甲基胞嘧啶；

在步骤(2)中，受保护胞嘧啶为5-甲酰基胞嘧啶或5-羧基胞嘧啶。

在步骤(3)中，变性的温度为85℃，添加的变性剂为甲酰胺。

在步骤(4)中，转化试剂包括APOBEC蛋白。APOBEC蛋白具有胞嘧啶脱氨酶的活性，能够使得未甲基化的胞嘧啶脱氨，从而转化为尿嘧啶。

上述的步骤(5)具体包括如下步骤：

(5-1)、采用衔接酶在转化后单链DNA的3’端衔接上部分双链的链截短接头序列，得到单链接头产物；

(5-2)、采用DNA聚合酶使单链接头产物中转化后单链DNA利用底物dNTP分子以该截短接头序列为聚合起点沿5’端至3’端的方向聚合成双链DNA，得到双链延伸产物；

(5-3)、在双链延伸产物的未添加截短接头序列的另一端连接上双链接头序列，得到双链接头产物；

(5-4)、采用DNA连接酶在双链接头产物中双链DNA的5’端分别添加具有双链结构的测序接头序列，进行标记PCR反应(Indexing PCR)，得到DNA甲基化测序文库。

在步骤(5-4)中，标记PCR反应所使用的标记引物包括：编号为Cat.No.36024的Index X、编号为Cat.No.38096的Index D50X、编号为Cat.No.38096的Index D7XX、以及编号为Cat.No.39096和390384的Index U001-U096。

[DNA甲基化测序文库]

本申请提供了一种DNA甲基化测序文库，该DNA甲基化测序文库由上述的构建方法构建而成。该DNA甲基化测序文库的每个DNA分子的两个平头端带有测序接头序列，能够被Illumina测序仪读取，从而能够测得该DNA的甲基化水平。

[DNA甲基化水平的检测方法]

本申请提供了一种DNA甲基化水平的检测方法，其包括如下步骤：

(1)、对目标双链DNA按照上述的构建方法构建DNA甲基化测序文库；

(2)、采用测序仪对DNA甲基化测序文库进行测序，得到测序结果；

(3)、对测序结果进行分析，得到DNA甲基化水平。

由于采用了上述技术方案，本申请取得了如下的技术效果：

首先，本申请先将末端缺失或未缺失的双链DNA变性为单链DNA，然后利用该单链DNA建立DNA甲基化测序文库，因此，本申请并未对该双链DNA进行末端修复(如5’末端修复和/或3’末端修复)，能够避免由于末端修复而带来的修复末端的碱基被测序仪读取的现象，从而避免由此造成的测序数据冗余现象。

另外，本申请并未采用未甲基化的dNTPs进行末端修复，不会在末端引入新的甲基化水平，不会引起甲基化水平失真现象。

再者，本申请在将未甲基化的胞嘧啶转化为尿嘧啶时采用反应条件温和的酶学转化法，而并未添加亚硫酸盐，因此，不会造成DNA断链、碱基丢失等现象。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于亚硫酸盐转化的单链建库法的步骤示意图。

图2为基于酶学转化的双链建库法的步骤示意图。

图3为本申请的基于酶学转化的单链建库法的步骤示意图。

图4为本申请与现有酶学转化甲基化建库的测序结果对比结果图。

上述各图中的M表示甲基化胞嘧啶上的甲基。P^*表示受保护胞嘧啶上的保护基团。上述各图只显示了双链DNA中其中一条链的处理方法，另一条链作同样处理，故上述各图仅仅显示其中一条链。在测序文库构建的过程中，尿嘧啶U会转换为胸腺嘧啶T，故最终的测序文库不再显示尿嘧啶。上述各图中的黑色区域表示DNA的链，空白区域和/或花纹区域表示接头序列。不同的花纹区域表示不同的接头序列。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下分别对本申请进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

除非另有说明，文中涉及的试剂与材料均可商购获得，或本领域技术人员可依据公知常识自行制备。

如图3所示，本申请提供了一种DNA甲基化测序文库的构建方法，其特征在于，包括如下步骤：

(1)、获得目标双链DNA；

(2)、采用甲基化保护试剂(又称氧化试剂)将目标双链DNA的甲基化胞嘧啶氧化为受保护胞嘧啶，即相当于在胞嘧啶上连接了保护基团，并且未甲基化的胞嘧啶没有连接上保护基团。由此，得到受保护双链DNA；

(3)、将受保护双链DNA变性为单链DNA；

(4)、采用转化试剂(又称脱氨试剂)将单链DNA中未甲基化的胞嘧啶转化为尿嘧啶，已连接上保护基团的胞嘧啶由于受到保护基团的保护而不会转化为尿嘧啶，从而得到转化后单链DNA；

(5)、利用转化后单链DNA构建DNA甲基化测序文库。

其中，在步骤(1)中，目标双链DNA的获取方法可以采用常用的DNA提取方法。图3仅显示了3’末端缺失的双链DNA，实际上，本申请的方法除了适用于3’末端缺失的双链DNA之外，也适用于5’末端缺失的双链DNA，另外也适用于具有平头末端的双链DNA(即其不存在末端缺失)。

在步骤(1)中，在一些实施例中，所获得的目标双链DNA可以为末端缺失的双链DNA。生物体的血液中往往会出现处于游离状态的末端缺失的双链DNA，例如，由组织细胞经由正常的凋亡过程而产生的循环游离DNA(Circulating free DNA，cfDNA)，或由肿瘤细胞经由非正常的凋亡过程而产生的循环肿瘤DNA(Circulating tumor DNA，ctDNA)等。

正常的cfDNA主要是通过细胞凋亡过程中产生的，长度呈均匀分布并且位于170至210bp之间，或者为170至210bp之间的任意一个自然数值的倍数。浓度一般小于或等于100ng/ml，平均浓度约为30ng/ml。

ctDNA则是在非正常凋亡过程中产生，其特异性地来自于肿瘤细胞，能够用作对肿瘤细胞的超早期筛查。该ctDNA的长度呈大小不同分布并且位于150bp至500bp之间(包括本数)，浓度按肿瘤进展期不同一般为0.01至10ng/ml，平均浓度约为0.1ng/ml。这些双链DNA在进入血液中后，由于受到一些酶的作用，其3’端往往有1-80个碱基的缺失，从而出现不平整的末端。如果在建立测序文库时首先采用填补末端的方法，由于末端修复一般会采用未甲基化的dNTPs，因此，末端修复会导致原始双链DNA的末端碱基缺失数目无法精确测得，这会造成测序所得到的碱基数目失真，并且也会在末端引入新的甲基化水平而造成甲基化信息失真。

本申请中，如果待测样本来自于基因组DNA(Genomic DNA，gDNA)，则需要将该待测样本中的DNA打断，以得到片段化的DNA，然后再构建DNA甲基化测序文库。如果待测样本来自于cfDNA，由于cfDNA本身的片段较短，故无需打断过程。组织细胞提取的DNA也会存在不平整的粘性末端，但是由于组织DNA一般的片段的长度较长，实验中需要通过超声波机械打断成短片段，而超声打断的“切口”一般较为整齐，所以相对来说不平整末端的影响并不那么大。

在步骤(2)中，甲基化保护试剂包括TET2蛋白和氧化增强剂。

在步骤(2)中，甲基化胞嘧啶为5-甲基胞嘧啶或5-羟甲基胞嘧啶，受保护胞嘧啶为5-甲酰胞嘧啶或5-羧基胞嘧啶。

在步骤(3)中，变性的温度为85℃，添加的变性剂为甲酰胺。

在步骤(4)中，转化试剂包括APOBEC蛋白。

步骤(5)具体包括如下步骤：

(5-1)、采用衔接酶在转化后单链DNA的3’端衔接上部分双链的截短接头序列，得到单链接头产物；其中，“单链”指的是转化后单链DNA，“接头”指的是具有部分双链的截短接头序列。具有部分双链的截短接头序列为swift试剂盒的truncated adaptor，试剂盒名称为Swift Accel-NGS Methyl-Seq DNA Library Kit。该截短接头序列的一部分为单链，一部分为双链，为了简便描述起见，在图3中以单链表示，但该图并不意味着该截短接头序列整体上为单链结构或双链结构。

(5-2)、采用DNA聚合酶使单链接头产物中转化后单链DNA利用底物dNTP分子以截短接头序列为聚合起点沿5’端至3’端的方向聚合成双链DNA，得到双链延伸产物；

(5-3)、通过连接反应在双链延伸产物的未添加截短接头序列的另一端连接上双链接头序列，得到双链接头产物；该双链接头序列具有双链结构，能同时连接到双链延伸产物的未添加截短接头序列的另一端的5’末端和3’末端；本步骤是单链建库流程中的一个步骤，以便后继在原始链5’端方向上连接index接头序列，如果没有这一步，则在原始链5’端方向无法进行后续的接头连接；

(5-4)、采用DNA连接酶在双链接头产物的双链DNA的两个5’端分别添加具有双链结构的测序接头序列，并进行标记PCR反应(Indexing PCR)，得到DNA甲基化测序文库。测序接头序列也具有双链结构，因此，能同时连接到双链接头产物的两个平头末端。该测序接头序列含有index序列(图3中未显示该index序列)。

由于测序仪进行一次测序需要处理很多的样本，为了避免不同来源的样本之间的混淆，同一来源的每个样本都有一段特定的测序接头序列，每个测序接头序列里面有一段特定的序列，该段特定的序列称为Index或者Barcode。本申请的测序采用Illumina公司的测序仪及其测序原理。因此，Index的具体序列来自于Swift Bioscience公司的商用Index试剂盒。

本申请还提供了一种DNA甲基化测序文库，该DNA甲基化测序文库由上述任意一种构建方法或其组合构建而成。

本申请还提供了一种DNA甲基化水平的检测方法，其包括如下步骤：

(1)、对目标双链DNA按照上述的任意一种构建方法或其组合构建DNA甲基化测序文库；

(3)、对测序结果进行分析，得到DNA甲基化水平。

本申请的方法没有末端修复的过程，故既适用于末端缺失(5’末端缺失或者3’末端缺失)的双链DNA，又适用于具有平头端的双链DNA。

在本申请中，目标双链DNA先变性为单链DNA，然后在单链DNA的3’端衔接上截短接头序列，以截短接头序列为起点通过5’端至3’端的延伸反应补平单链DNA，从而形成平末端DNA，因此，片段化的目标双链DNA的5’磷酸基团并不参与延伸反应，无需去除该5’磷酸基团，故本申请无需加入能够去除DNA的5’-磷酸基团并且3’端磷酸酶活性缺失的T4多聚核苷酸激酶。

在本申请中，DNA样品没有经过重亚硫酸盐处理，而是经过较温和的酶处理，DNA的结构不会受损伤，使得测得的甲基化水平更加接近真实值。

本申请的DNA甲基化测序文库能够适用于Illumina高通量测序平台，所得到的DNA甲基化水平非常精确，能够绘制单碱基分辨率的细胞游离DNA的甲基化图谱。

本申请采用酶学转化法和单链建库法相结合的DNA测序文库构建方法，其先将末端缺失或末端未缺失的双链DNA变性为单链DNA，然后采用酶学转化法将单链DNA中未甲基化的胞嘧啶转化为尿嘧啶，之后在每段单链DNA的3’末端加上截短接头序列，采用PCR延伸反应以截短接头序列为起点补全互补链，得到双链延伸产物。接着在该双链延伸产物的未添加截短接头序列的另一端连接上双链接头序列，在已补全的平头双链DNA的每条链的5’端加上具有双链结构的测序接头序列(含有Index序列)，通过indexingPCR进行扩增，以得到DNA甲基化测序文库。

由上述可知，本申请并未对末端缺失的双链DNA进行末端修复，能够避免由于末端修复所带来的测序数据冗余现象。原因如下：如果先进行末端修复，那么在末端修复时无法确定缺失的3’末端或5’末端有几个碱基被修复，并且在测序时末端修复的碱基信息也被测序仪计算在内，导致测序仪读取到不属于原始样本中的碱基数据，从而造成数据冗余现象。

再者，因为测序时会将修复的碱基也计算在内，导致测得的平均甲基化水平低于真实的平均甲基化水平，这也会导致甲基化水平失真。本申请并非采用末端修复和双链建库法，而是采用单链建库法，不会产生上述的因为末端修复而造成的数据冗余现象和甲基化水平失真现象，所测得的碱基数据与真实的碱基数据一致。

以下结合实施例对本申请作进一步的说明。

实施例一

本实施例提供了一种目标双链DNA的获得方法，其包括如下步骤：

1、提取目标样品中的DNA，检测DNA的浓度，并且采用电泳检测提取的DNA条带的分子量是否属于目标DNA的分子量。如果属于，则进行下一步。如果不属于，则重新提取DNA。

2、超声打断提取的DNA，其具体包括：根据DNA的浓度和电泳条带确定DNA的上样量，一般打断起始量为150ng，总体积为100μL，置于打断仪中进行打断，将打断后的DNA进行2％琼脂糖凝胶电泳检测，DNA片段在200bp至300bp之间时，即得含有目标双链DNA的DNA测序样品。打断仪的程序为打断30s，然后暂停30s，共持续9个循环。

当从组织中提取基因组DNA，由于其片段较长，故需要采用上述的打断方法。而从血液中提取到的cfDNA的片段一般位于120bp至200bp之间，例如为170bp，故无需上述的打断过程。

本申请除了适用于具有平头端的双链DNA之外，还能够适用于血液中游离并且具有不平整末端的cfDNA和ctDNA。上述两种DNA在血液环境中容易被酶消化，从而3’末端的不平整现象要比来自于细胞核的组织DNA更常见。

实施例二

本实施例提供了一种目标双链DNA的甲基化保护方法，其包括如下步骤：

1、加入内参DNA：

取26μL实施例1所得的打断后的DNA测序样品，加入1μL打断后的λDNA和1μL打断后pUC19 DNA(含有0.01-0.02ng)，混合后得到总体积为28μL的DNA混合样本。

本实施例中，加入的pUC19 DNA是完全甲基化，即其上所有的胞嘧啶(C)是完全甲基化的，pUC19的甲基化率用于指示实验中对甲基化胞嘧啶的保护是否有效。如果最终分析结果中，pUC19甲基化率大于98％时可以视为甲基化保护成功。因此，加入的pUC19 DNA可以作为内参。

本实施例中，加入的λDNA是完全未甲基化的，即其上所有的胞嘧啶(C)是完全不甲基化的。λDNA的甲基化率可以指示实验中对未甲基化C的转化是否有效。如果最终分析λDNA甲基化率低于1.5％时可以视为试验成功。因此，加入的λDNA也可以作为内参。

2、配制甲基化保护液：

将10μL的TET2反应缓冲液(TET2 Reaction buffer)、1μL的氧化补剂(OxidationSupplement)、1μL的二硫苏糖醇(Dithiothreitol，DTT)、1μL的氧化增强剂(OxidationEnhancer)和4μL的TET2试剂在PCR薄壁管中混匀，得到17μL的甲基化保护液。

其中，使用的试剂盒为NEB公司货号为E7125的酶法甲基化转化模块试剂盒，即

Enzymatic Methyl-seq Conversion Module。

TET2酶和氧化增强剂作为甲基化保护试剂用于保护甲基化胞嘧啶上的甲基，其能够通过化学反应改变甲基基团，使其对脱氨试剂惰性，而未甲基化的胞嘧啶上不存在甲基，故不会被氧化而仍然以胞嘧啶形式存在于DNA中。DNA上的甲基化胞嘧啶包括5-甲基胞嘧啶(5-methylcytosine，5mC)或5-羟甲基胞嘧啶(5-hydroxymethylcytosine，5hmC)。5-羟甲基胞嘧啶是5-甲基胞嘧啶的羟基化形式。TET2酶(Ten eleven translocation)属于双加氧酶家族，其结构包括一个保守的C端的催化区和一个N端的调节区。C端的催化区为Fe²⁺和/或α-酮戊二酸(α-KG)依赖型，是氧化5mC或5hmC的催化结构域。TET2酶和氧化增强剂的共同作用能够将5-甲基胞嘧啶(5mC)氧化为5-羟甲基胞嘧啶(5hmC)，并将5-羟甲基胞嘧啶(5hmC)氧化为5-甲酰基胞嘧啶(5-formylcytosine，5fC)或5-羧基胞嘧啶(5-carboxylcytosine，5caC)，这相当于在胞嘧啶上加上了甲酰基或羧基等保护基团，从而对脱氨试剂表现出惰性，在后继的反应过程中使得胞嘧啶不会由于发生脱氨而生成尿嘧啶。与5mC和5hmC相比，5-甲酰基胞嘧啶和5-羧基胞嘧啶在哺乳动物基因组中含量极低。氧化增强剂用于增加TET2酶的活性。

3、进行氧化反应，具体包括：

(3-1)、将总体积为28μL的DNA混合样本与17μL的预混液相混合，加入5μL二价铁稀释液，立即震荡混匀和短暂离心，置于PCR仪中，在37℃反应1h。

(3-2)、反应结束后，将反应液置于冰盒上，加入1μL的终止试剂(Stop reagent)，震荡混匀后短时离心。

(3-3)、将反应液置于PCR仪中，在37℃反应0.5h，此时，氧化反应已经进行完毕，得到了甲基受保护的双链DNA。

其中，上述的二价铁稀释液的配制方法包括：取1μL 500mM二价铁溶液(Fe IISolution)，加入到1249μL NF水中。因为二价铁溶液容易被氧化，故需要在使用前配制，现配现用。二价铁离子是TET2酶的催化区所依赖的金属离子，为了最大化TET2酶的催化活性，故需要在氧化反应体系中加入二价铁离子。

4、在氧化反应后进行纯化，得到纯化后的DNA。

实施例三

实施例提供了一种DNA变性的方法，其包括如下步骤：

取16μL实施例二所得的纯化后的DNA置于PCR反应管中，加入4μL甲酰胺，放入预热后的PCR仪中，盖上热盖，85℃孵育10min，孵育结束后，立即取下反应管，置于冰盒上保存。

其中，甲酰胺作为变性剂用于使得纯化后的双链DNA变性为单链DNA。本申请先氧化反应保护甲基化的胞嘧啶，再变性为单链转化未甲基化的胞嘧啶，这是NEB公司酶学转化方法设计决定的。

实施例四

本实施例提供了一种单链DNA的转化方法，其包括如下步骤：

1、配制脱氨反应液

取1支PCR薄壁管，加入10μLAPOBEC反应缓冲液(APOBEC reaction buffer)、1μL牛血清白蛋白(Bovine serum albumin，BSA)、1μLAPOBEC，然后加入68μL无核酸酶水(Nuclease-free water，NF water)，充分震荡混匀后，配制成80μL脱氨反应液。

2、进行脱氨反应

用移液器吸取80μL脱氨反应液置于实施例三所得的已变性完成的单链DNA中，充分震荡混匀，并置于预热好的PCR仪上，于37℃孵育3h。

在该步骤中，APOBEC蛋白的C端具有胞嘧啶脱氨酶区，能够使胞嘧啶脱去氨基变成尿嘧啶，因此，APOBEC作为胞嘧啶脱氨酶将实施例三所得的单链DNA中未甲基化的胞嘧啶(C)转化为尿嘧啶(U)，而受保护胞嘧啶不能被APOBEC蛋白脱氨，故不会转化为尿嘧啶。脱氨反应后，得到了转化后单链DNA。

3、在脱氨后进行纯化，得到能够用于建库的转化后的单链DNA。

实施例五

本实施例提供了一种利用转化后单链DNA构建DNA甲基化测序文库的方法，其包括如下步骤：

1、DNA重变性：

取6.63μL实施例四所得的转化后的单链DNA至新的0.2mL PCR管中，然后置于PCR仪中，盖上热盖，95℃孵育2min。孵育完成后，立即将PCR管放置在冰上孵育2min，并立即进行下一步的衔接反应。

DNA重变性的目的是使得下一步的衔接反应建立在单链DNA(Single strandedDNA，ssDNA)模板基础上。因为实施例四虽然得到了单链DNA，但是在存放的过程中单链DNA会发生复性，重新变成双链DNA，故需要在衔接反应之间确保待衔接的DNA处于完全单链DNA的状态。

2、配制衔接酶(Adaptase)反应液

取一个PCR薄壁管，加入1μL G1缓冲液(Buffer G1)、1μL G2试剂(Reagent G2)、0.63μL G3试剂(Reagent G3)、0.25μL G4酶(Enzyme G4)、0.25μL G5酶(Enzyme G5)、0.25μL G6酶(Enzyme G6)，配制成3.38μL的衔接酶反应液。

本实施例使用的建库试剂盒为Swift公司的货号30024的甲基化建库试剂盒SwiftAccel-NGS Methyl-Seq DNA Library Kit。建库流程完全按照产品说明书进行。

本步骤的衔接酶反应液仅适用于单个变性后的DNA样本。如果存在多个变性后的DNA样本，可以同比例放大，混匀后分别加入单个DNA样本中。

3、进行衔接反应：

将步骤2所得的3.38μL的衔接酶反应液加入步骤1所得的含有6.63μL变性完毕的单链DNA的PCR管中，混合均匀。然后置于预热好的PCR仪中，盖上热盖，热盖的温度设定为105℃。在37℃孵育15min，然后在95℃孵育2min。孵育完毕后，即在转化后单链DNA的3’端衔接上截短接头序列，从而得到单链接头产物。

截短接头序列为Swift公司的甲基化建库试剂盒Swift Accel-NGS Methyl-SeqDNA Library Kit中的成分，其结构为部分双链，一端与样本单链DNA片段连接，另一端带有PCR引物。本步骤中，5’端不加截短接头序列。在单链DNA延伸后变成双链DNA后可以在5’端直接加双链的测序接头序列。

衔接反应进行完毕后，将DNA样本置于冰上保存。

4、配制延伸反应液：

取一个PCR薄壁管，加入0.5μL的试剂Y1(Reagent Y1)和10.5μL的酶Y2(EnzymeY2)，震荡混匀后，配成总体积为11μL的延伸反应液。

本步骤的延伸反应液仅适用于单个变性后的DNA样本。如果存在多个变性后的DNA样本，可以同比例放大，混匀后分别加入单个DNA样本中。

5、进行延伸反应：

将步骤4所得的11μL的延伸反应液加入到步骤3所得的含有10.01μL衔接反应完毕后的DNA样本的PCR管中，吹打混匀。将该PCR管置于提前预热的PCR仪中，盖上热盖，设置热盖的温度为105℃。在98℃下孵育1min，62℃下孵育1min，65℃下孵育5min。

在延伸反应过程中，酶Y2为DNA聚合酶，能够利用底物dNTP分子以截短接头序列为起点从5’端向3’端进行聚合反应，并最终聚合形成双链DNA(即为双链延伸产物)。

6、进行纯化步骤：

延伸反应完成后，使用1.2倍磁珠(25.2μL)进行纯化，使用80％乙醇进行清洗，最后溶解在4.25μL Low TE中，备用，

7、配制连接反应液：

本步骤仍然使用Swift公司试剂盒。

取1个PCR管，按照顺序加入0.75μL的B1缓冲液(Buffer B1)、2.5μL的B2试剂(Reagent B2)、0.5μL的B3酶(Enzyme B3)，吹打混匀后，配成总体积为3.75μL的连接反应液。

其中，B3酶需要在使用之前加入，以防止酶的失活。

本步骤的连接反应液仅适用于单个变性后的DNA样本。如果存在多个变性后的DNA样本，可以同比例放大，混匀后分别加入单个DNA样本中。

8、进行连接反应：

从步骤6所得的纯化后的双链延伸产物中吸取3.75μL置于PCR管中，将3.75μL的连接反应液加入该PCR管中，吹打混匀。将该PCR管置于PCR仪中，打开热盖，在无热盖加热的条件下于25℃孵育15min。连接反应完成后，使用磁珠进行纯化，使用80％乙醇进行清洗，最后溶解在6μL Low TE中，备用。

在本步骤中，磁珠的体积需要根据DNA的样本类型确定。对于cfDNA，样本体积为7.5μL时(3.75μL的延伸反应产物和3.75μL的连接反应液)，用于纯化的磁珠体积为cfDNA体积的1.2倍，即为9μL。对于gDNA，样本体积为7.5μL时，用于纯化的磁珠体积为cfDNA体积的1.0倍，即为7.5μL。

在本步骤中，连接反应用于将双链接头序列添加到双链DNA的末端，得到双链接头产物。

在本步骤中，B3酶为T4 DNA连接酶(T4DNA Ligase)，其能在双链DNA的5’末端添加双链的双链接头序列，而并非在3’末端添加双链接头序列。

双链接头序列为上述的Swift公司的甲基化建库试剂盒，属于一种双链接头，但并非颈环结构

9、配制标记PCR(Indexing PCR)反应液

取PCR管，加入2.5μL的Low EDTA TE，2.5μL的R1缓冲液(Buffer R1)、1μL的R2试剂(Reagent R2)和0.25μL的R3酶(Enzyme R3)，吹打均匀后配成6.25μL的标记PCR反应液。

其中，R3酶需要在使用之前加入，以防止酶失活。

10、进行标记PCR反应(Indexing PCR)

(10-1)、取步骤8所得的5μL纯化后的连接产物(含有双链接头产物)，加入6.25μL的标记PCR反应液，吹打混合均匀。

(10-2)、针对每个纯化后的连接产物，加入以下的标记引物(Index primer)：1.25μL编号为Cat.No.36024的Index X、0.625μL编号为Cat.No.38096的Index D50X、0.625μL编号为Cat.No.38096的Index D7XX、以及1.25μL编号为Cat.No.39096和390384的IndexU001-U096。

上述的引物的编号为试剂盒中厂商命名的编号，针对同一个样品而言，上述引入需要同时加入。

Index U001-096为96个不同的Index(index通常为8个碱基)。每个DNA单链(下一步需要高温变性)的两端分别连接一对不同的index，用于唯一标识这个样本，因为测序时会有很多样本混在一起，需要靠每个样本上不同的index区分。

(10-3)、之后置于PCR仪中，进行PCR反应，反应条件如下：98℃持续2min，进行1个循环；98℃变性过程持续10s、60℃退火过程持续20s、68℃延伸过程持续60s，依次进行13个循环；72℃持续5min，共进行1个循环，然后4℃保存。

(10-4)、上述的PCR反应结束后，使用磁珠进行纯化，使用80％乙醇进行清洗，磁珠体积和洗脱体积如下所示：若DNA种类为cfDNA，以样本体积为15μL计算，磁珠体积为样本体积的0.8倍(即10.0μL)，洗脱体积为15μL，吸取体积为14μL。若DNA种类为基因组DNA(Genomic DNA，gDNA)，以样本体积为12.5μL计算，磁珠体积为样本体积的0.85倍(即10.62μL)，洗脱体积为15μL，吸取体积为14μL。经过纯化后，得到DNA甲基化测序文库。将该DNA甲基化测序文库置于测序仪中，可以测得目标DNA的甲基化水平。

在经过上述的Indexing PCR扩增之后，U碱基的配对碱基是A，A碱基配对碱基是T。因为PCR过程中使用的寡核苷酸是A、T、C、G，不含U，在经过n个循环(n≥13)过后，含U的原始链变成了仅有1/(2¹³)，可以忽略不计。由此，双链DNA中的尿嘧啶(U)被转化为胸腺嘧啶(T)。

在标记PCR反应完毕后，双链接头产物的5’端添加了具有双链结构的测序接头序列，该测序接头序列含有用于标记样本来源的Index序列，从而得到能够被Illumina测序仪读取的DNA甲基化测序文库。每个DNA甲基化测序文库的DNA分子都包括截短接头序列、双链接头序列和测序接头序列(该测序接头序列含有Index序列)。

上述步骤的序号并不视为对上述步骤的顺序的唯一限定。

实施例六

(2)、采用Illumina测序仪对所述DNA甲基化测序文库进行测序，得到测序结果；

(3)、对测序结果进行分析，得到DNA甲基化水平。

实验例

本实验例对本申请的测序文库与现有的商用试剂盒采用的酶学法甲基化实验构建的测序文库的测序结果进行对比，其结果如图4所示。图4是本申请的方案相对现有技术的结果对比图。现有技术包括如下步骤：先在双链状态下使用未甲基化的dNTP进行末端修复，再加A，加接头，进行酶学转化，并完成PCR扩增，从而得到甲基化测序文库。

在图4中，Read2通过Illumina公司的Novaseq600型号测序仪读取平均甲基化率变化。纵坐标表示Read2在各读取位置上的平均甲基化率，横坐标从左至右的方向表示读长2(Read 2)从P5端至P7端的方向，横坐标的值表示测序仪读取的碱基位置。图4中的上方曲线表示本申请建立的文库测得的甲基化率，下方曲线表示现有酶学法建立的文库测得的甲基化率。本实验例的样本与现有酶学法所使用的样本相同。

进入测序仪进行测序的每个DNA小片段的长度约在200至300个碱基之间，甚至可能更短。测序仪在读每个DNA小片段的时候，并不能从头读到尾，只能从头读150个碱基的长度，并从尾读150个碱基的长度。即测序仪分别从DNA片段的两头读取，各读150个碱基长度，故把这些测序仪读取产生的短读段称为Reads，单个短读段称为Read。每条文库DNA单链在二代测序仪上读取的时候，是先从p5端到p7端读150碱基，为read1；再从p7端到p5端读150个碱基，为read2。p5和p7是Illumina测序仪的芯片上的接头名称，p5对应5'端，p7对应3'端。测序仪的芯片上的接头与测序文库的DNA分子上的接头序列有互补性。

从图4可知，针对相同样本，现有酶学法测得的平均甲基化率在1至33个碱基范围内与本申请测得的平均甲基化率基本相同，在34个碱基到133个碱基范围内存在显著不同。理论上，因为所有待测序分子在基因组上的位置分布是随机的，因此其平均甲基化率不应该随读取位置而变化。但是从图4可以看到，现有酶学法在越接近P7端(即进行末端修复的3’端方向)时，平均甲基化率越低，说明末端修复引入的未甲基化dNTP对样本原始甲基化信号造成了污染，且在越靠近原始单链的3’端时，这种污染越明显。而本申请的方法则避免了这个问题，在各个读取位置的平均甲基化率上保持了良好的一致性。这能够说明：与现有的基于酶学转化法的双链建库法相比，本申请不会在末端引入新的甲基化水平，不会产生甲基化水平失真或降低现象。

以上对本申请进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种DNA甲基化测序文库的构建方法，其特征在于，其包括如下步骤：

(1)、获得目标双链DNA；

(2)、采用甲基化保护试剂将所述目标双链DNA的甲基化胞嘧啶氧化为受保护胞嘧啶，以得到受保护双链DNA；

(3)、将所述受保护双链DNA变性为单链DNA；

(4)、采用转化试剂将所述单链DNA中未甲基化的胞嘧啶转化为尿嘧啶，得到转化后单链DNA；

(5)、利用所述转化后单链DNA构建DNA甲基化测序文库。

2.根据权利要求1所述的构建方法，其特征在于，在步骤(1)中，目标双链DNA为ctDNA。

3.根据权利要求1所述的构建方法，其特征在于，在步骤(1)中，目标双链DNA为血液中游离的cfDNA。

4.根据权利要求3所述的构建方法，其特征在于，所述cfDNA的长度位于170至210bp之间，或者为170至210bp之间的任意一个数的整数倍；和/或，

所述目标双链DNA的每条链的3’端存在1至80个碱基的缺失。

5.根据权利要求1所述的构建方法，其特征在于，在步骤(2)中，所述甲基化保护试剂包括TET2蛋白和氧化增强剂；

所述甲基化胞嘧啶为5-甲基胞嘧啶或5-羟甲基胞嘧啶；

所述受保护胞嘧啶为5-甲酰胞嘧啶或5-羧基胞嘧啶。

6.根据权利要求1所述的构建方法，其特征在于，在步骤(3)中，所述变性的温度为85℃，添加的变性剂为甲酰胺。

7.根据权利要求1所述的构建方法，其特征在于，在步骤(4)中，所述转化试剂包括APOBEC蛋白。

8.根据权利要求1所述的构建方法，其特征在于，步骤(5)具体包括如下步骤：

(5-1)、采用衔接酶在所述转化后单链DNA的3’端衔接上具有部分双链的截短接头序列，得到单链接头产物；

(5-2)、采用DNA聚合酶使所述单链接头产物利用底物dNTP分子以所述截短接头序列为聚合起点沿5’端至3’端的方向聚合成双链DNA，得到双链延伸产物；

(5-3)、在所述双链延伸产物的未添加所述截短接头序列的另一端连接上双链接头序列，得到双链接头产物；

(5-4)、采用DNA连接酶在所述双链接头产物的5’端添加具有双链结构的测序接头序列以及，进行PCR反应，得到所述DNA甲基化测序文库。

9.根据权利要求8所述的构建方法，其特征在于，所述PCR反应所使用的引物包括：编号为Cat.No.36024的Index X、编号为Cat.No.38096的Index D50X、编号为Cat.No.38096的Index D7XX、以及编号为Cat.No.39096和390384的Index U001-U096。

10.一种DNA甲基化测序文库，其特征在于，所述DNA甲基化测序文库由如权利要求1至9中任意一项所述的构建方法构建而成。

11.一种DNA甲基化水平的检测方法，其特征在于，包括如下步骤：

对目标双链DNA按照权利要求1至9任意一项所述的构建方法构建DNA甲基化测序文库；

采用测序仪对所述DNA甲基化测序文库进行测序，得到测序结果；

对所述测序结果进行分析，得到DNA甲基化水平。