CN105256379A

CN105256379A - 一种新的基因组简化甲基化测序文库的制备方法

Info

Publication number: CN105256379A
Application number: CN201510822944.1A
Authority: CN
Inventors: 丁毅; 张洪源
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-01-20

Abstract

本发明公开了一种新的基因组简化甲基化测序文库的制备方法，该方法为：分别选取EcoRI/MspI和EcoRI/HapII两种双酶切组合对基因组DNA进行酶切，酶切后的片段进行纯化；设计特异的接头引物，对纯化后的DNA片段进行连接；连接后的产物分成两组，混合成两个池；将混合池样本进行纯化和琼脂糖凝胶电泳回收300～400bp的片段；利用所设计的特异PCR引物，对回收后的片段进行PCR富集和琼脂糖凝胶电泳回收，即得到测序文库。本发明具有高覆盖率、低冗余、高灵敏度、大规模样品、高性价比、结果可靠性高、实验可重复性好等优点，普遍适于常规分子生物学实验室进行各种基因组甲基化差异研究。

Description

一种新的基因组简化甲基化测序文库的制备方法

技术领域

本发明涉及分子生物学及表观遗传学基因组DNA甲基化谱变化的技术领域，具体涉及一种新的基因组简化甲基化测序文库的制备方法。

背景技术

表观遗传机制，包括DNA甲基化是高等植物和动物基因表达控制的重要决定因素。在真核生物中，基因组DNA甲基化是一种非常重要的表观遗传学标记，它能影响染色质的结构和基因的表达。早在1975年，Holliday和Riggs等人就已经发现在脊椎动物DNA上的胞嘧啶在CpG位点的甲基化可作为遗传学的标记，这种甲基化能通过体细胞的分裂进行遗传。在植物和哺乳动物中胞嘧啶残基第5位碳原子上的甲基化现象是研究最广泛的表观遗传修饰。除了CG甲基化外，还有CHG和CHH的甲基化(H＝A、C或T)，绝大多数存在于CG序列上。目前，已经有一些重要的模式真核生物如人类、鼠、拟南芥、水稻等基因组数据已经公布，而且部分物种基于重亚硫酸盐测序的全基因组甲基化谱结果也已经发表，但是DNA甲基化现象并不依赖完全序列的变异，它与环境胁迫、生物胁迫以及各世代间的基因印记等有关，同一物种的不同组织或者同一组织不同发育时期的DNA甲基化状态并不是一成不变的。

此外，尚有大量生物物种的基因组是未知的，这些物种从基因组序列完全测序、组装注释完成需要耗费大量的时间及人力财力。即使我们得到了较完整的基因组序列，但由于真核生物在基因组甲基化与转录水平调控的复杂性，仍然要不断研究不同条件下的基因甲基化的改变和转录本特定调控之间的联系。其关键问题就是揭示细胞在特定时空背景特定条件下的基因甲基化状态。目前，在植物研究领域许多研究都在直接或间接的说明植物DNA甲基化对基因表达调控过程的重要意义。研究较多的有盐胁迫、氮处理、重金属处理及干旱胁迫、热胁迫等。早期的基因组DNA甲基化分析技术有SssI甲基转移酶分析法、氯乙醛反应法和免疫学抗体技术等，但这些方法已经不能满足现代表观遗传学研究的需求。随着测序技术的发展，全基因组范围内的DNA甲基化水平也得以了解。开展全基因组DNA甲基化研究的方法，大致可分为3类：利用甲基化敏感的限制性内切酶结合聚丙烯酰胺凝胶电泳(MSAP)进行多态性检测、利用重亚硫酸盐修饰法和芯片技术。根据检测的目的可以选择不同的分析方法。

MSAP(Methylation-sensitiveamplifiedpolymorphism，DNA甲基化敏感扩增多态性)是一种敏感性好、实用性强的检测DNA甲基化的技术。该方法是在AFLP技术的基础上发展而来的，利用对DNA甲基化敏感性不同的同工酶(HpaII和MspI)分别切割DNA，它们都能识别并切割5’-CCGG序列，但该过程受识别序列的胞嘧啶的甲基化程度影响。HpaII对甲基化敏感，当识别序列中有1个或2个嘧啶碱基被甲基化时则不能切割(2条链都甲基化)，MspI对甲基化不敏感，能切割内甲基化的5’-CCGG，但不能切割C5’CGG。EcoRI酶切位点广泛的分别在基因组上，利用EcoRI/HapII和EcoRI/MspI两种双酶切组合分别对基因组DNA限制消化，将产生的不同酶切产物添加接头，随后进行PCR扩增、PAGE电泳、银染，产生可见的具有不同酶切型式的谱带，即可得知DNA甲基化信息。该方法的优势在于成本较低，数据反应直观，可以反映全基因组甲基化水平的变化趋势。但是该方法无法应对大样品数的甲基化水平的检测，同时存在人为实验和数据读取的误差，还有流程繁琐、重复差、数据覆盖度低等不足之处。

重亚硫酸盐(Sodiumbisulfite)法可将DNA上未甲基化的胞嘧啶C全部转化为尿嘧啶U，后续的PCR扩增可以使U与A配对转变成T，而甲基化的C则不会被重亚硫酸盐修饰，这样DNA包含的甲基化信息就转变为具有差异的DNA序列。目前，基于重亚硫酸盐法产生了许多甲基化检测的方法，甲基化特异位点检测包括甲基化特异性PCR法、DNA甲基化荧光PCR检测、结合亚硫酸氢钠处理和酶解分析法(COBRA)和甲基化敏感的单核苷酸的扩增(Ms-SnuPE)等。但是，以上这些方法只能检测特定的已知位点区域的甲基化状态，不能进行基因组层面的检测，因此只能在部分基因研究中采用。为了进行基因组层面的DNA甲基化水平的研究，近年来将重亚硫酸盐法与高通量测序的方法结合，发展出来了全基因组重亚硫酸盐测序(wholegenomebisulfitesequencing，WGBS)和简化基因组甲基化测序(reducedrepresentationbisulfitesequencing，RRBS)两种方法。WGBS方法可以检测单碱基C的甲基化状态，其原理是先将基因组DNA利用超声波破碎仪进行打断，打断的片段进行修复与纯化，平末端产物进行加A与连接，连接接头使用特异的甲基化了的胞嘧啶C的引物序列，然后进行重亚硫酸盐法处理，产物进行PCR富集扩增，最后将PCR文库进行上机测序，测序深度一般为20×-30×。而RRBS法的原理是先用MspI酶对基因组进行单酶切，酶切后的产物进行末端修复与加A连接反应，连接接头同样使用的是特异的甲基化了的胞嘧啶C的引物序列，然后进行重亚硫酸盐法处理，产物进行PCR富集扩增，最后将PCR文库进行上机测序，测序深度一般为20×-30×。前者最大的优点是可进行全基因组单碱基分辨率的甲基化水平的检测，后者虽对基因组进行了简化酶切，但会导致覆盖率下降，同时这两种方法只适用于有参考基因组的物种，若进行大样本数目或者对大基因组样本的测序，测序成本会陡然升高，同时分析成本也非常高。若前期重亚硫酸氢盐处理不充分，会直接导致非甲基化胞嘧啶C未完全转变为U，后续下机的数据无法开展分析或者分析的数据与理论值相差甚远，另外重亚硫酸盐测序的文库碱基分布极不平衡，测序的错误率较高。

甲基化芯片技术主要以不同的DNA预处理方法为基础，包括限制性内切酶和免疫沉淀两种预处理方法。限制性内切酶可用于与芯片技术结合检测DNA甲基化，主要有甲基化依赖型限制性内切酶、对甲基化敏感性不同的同工酶以及甲基化敏感性内切酶三种限制性内切酶。免疫沉淀与芯片方法的结合应用主要包括依赖5-甲基胞嘧啶抗体免疫沉淀富集甲基化片段法和甲基化结合蛋白(MBD)免疫沉淀甲基化DNA片段法两种。它们的主要原理是设计已知的甲基化区段的检测芯片探针，利用上述的三种限制性内切酶对DNA样品进行酶切或者对破碎后的DNA样本进行免疫沉淀，将酶切或者免疫沉淀后的片段进行回收，然后对这些回收样本进行芯片探针杂交反应，最后进行芯片成像和数据读取。结合限制性酶的芯片方法具有较高的灵敏度，而免疫沉淀方法则特异性高，但是目前国际上仅有少数研究小组在开展DNA甲基化芯片的研究工作，基因芯片技术的出现虽然为检测DNA甲基化的高通量提供了技术平台，然而检测芯片的研究仍然起步较晚，检测芯片的制备较难，同时芯片的制备尚需大量实验数据的支撑。

目前，通过有效对基因组层面的甲基化数据的检测方法并不多，WGBS和RRBS的方法还未大规模的应用。因此，有必要建立一种既发挥以上技术的优点也克服以上技术的不足的新技术方法来检测基因组的甲基化的差异。

发明内容

本发明的目的在于提供了一种新的基因组简化甲基化测序文库的制备方法。本发明将这种新的基因组简化甲基化测序称为甲基化敏感多态性测序(Methylation-sensitiveamplifiedpolymorphism-sequencing，MASP-seq)，它将MSAP的限制性内切酶酶切原理与高通量测序方法有机地结合起来，具有高覆盖率、低冗余、高灵敏度、大规模样品和高性价比等优点。本发明普遍适于常规分子生物学实验室进行各种基因组甲基化差异研究，尤其是在植物、动物及人类疾病的分子生物学诊断等领域中具有潜在而广泛的应用价值。

为了实现上述的目的，本发明采用以下技术方案：

上述简化甲基化测序(MSAP-seq)为：利用双酶切组合的方法，分别选取EcoRI/MspI和EcoRI/HapII两种双酶切组合对基因组DNA进行酶切，相比RRBS的单酶切而言，可以保证较高的数据覆盖率和合适的扩增片段长度。酶切后的片段进行纯化，设计特异的接头引物(包含条码标签(barcode)，可以极大提高检测样本数目)，对上述酶切纯化后的两种DNA片段进行连接。连接后的产物分成EcoRI/MspI酶切连接组和EcoRI/HapII连接组，分别将两组不同样本的酶切连接组的连接产物混合成两个池(poolings)。将混合池样本进行纯化，纯化后的产物进行琼脂糖凝胶电泳，电泳完成后切胶回收300～400bp范围的片段，两端接头之间的插入片段为225～325bp。利用所设计的特异PCR引物(包含指示标签(Index)，与Illumina公司二代测序仪兼容)，对回收后的片段进行PCR富集，PCR产物进行琼脂糖凝胶电泳，切胶回收350～450bp范围的片段，即得到测序文库。检测文库DNA浓度和DNA片段长度范围，将检测合格后的文库(浓度大于1ng/μL，大小350～450bp)利用Illumina公司的二代测序进行高通量测序。采用高通量测序技术，检测基因组甲基化敏感区域具有较高的覆盖度和分辨率，免去了传统的PAGE电泳、PAGE显色以及差异胶带回收、克隆和测序，提高了样品的数据可信度，非常适用于研究各种环境胁迫、生物胁迫以及各世代间的基因印记等DNA甲基化相关的表观遗传学研究。

新的基因组简化甲基化测序文库的制备方法，即甲基化敏感多态性测序(MSAP-seq)文库的制备方法，其流程示意图如图1所示，具体包括以下步骤：

(1)提取同一物种不同组织或者相同组织不同发育时期的基因组DNA。

(2)分别选取EcoRI/MspI和EcoRI/HpaII两种双酶切组合对不同样品的基因组DNA进行酶切；对酶切后的片段进行纯化。

(3)用T4DNA连接酶连接EcoRI接头、纯化的酶切片段、MspI(HpaII)接头(MspI与HpaII为同工酶，HpaII对甲基化敏感，接头一样)。EcoRI接头、MspI(HpaII)接头的序列如下：

EcoR接头序列为：

F1(5’-3’)：ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN，N为A、T、C或G，下同。

R1(5’-3’)：/5Phos/AATTNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT；

MspI/HpaII接头序列为：

F2(5’-3’)：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，

R2(5’-3’)：/5Phos/CGAGATCGGAAGAGCGAGAACAA。

其中，EcoRI接头序列中的NNNNN代表条码(barcode)序列，F1、R1引物中的NNNNN为互补的序列，条码(barcode)用于标记不同样本，不同条码序列的接头用于连接不同酶切样本。本发明总共公布了48种不同条码的EcoRI接头引物，条码信息见表1，表1中条码序列与F1上的NNNNN五碱基序列相同，R1的NNNNN序列与条码序列反向互补，引物合成时需注意。此外，/5Phos/代表5’端起始碱基为磷酸基团(-PH₃)修饰。

(4)分别将EcoRI/MspI酶切连接组和EcoRI/HpaII酶切连接组连接产物混合成两个池(poolings)。将两个池样本进行纯化，纯化后的样本进行琼脂糖凝胶电泳，电泳完成后切胶回收片段大小约为300～400bp的DNA片段，DNA插入片段约为225～325bp。

(5)利用含指示标签(Index)序列的PCR引物(包含指示标签序列，与Illumina公司二代测序仪兼容)对回收的片段进行PCR富集，PCR产物通过琼脂糖凝胶电泳回收350～450bp的片段，回收的片段即为测序文库。

PCR引物序列为：

F3(5’-3’)：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACG，

R3(5’-3’):CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGC。

其中，PCR引物R3序列中的NNNNNN代表指示标签序列，指示标签用于标记不同池文库，不同指示标签序列的引物用于扩增不同池文库。本发明总共设计了24种不同指示标签的EcoRI接头，指示标签信息见表1，注意表1中指示标签序列与R3引物中的NNNNNN六碱基序列反向互补，引物合时需注意，这些标记主要为了方便安排上机测序。

将检测合格后的文库利用Illumina公司的Hiseq或者Miseq二代测序进行高通量测序，本发明设计的最大检测样本数为48×24＝1152个(即48个条码和24个指示标签组合所产生的最大样本数)。

优选的，步骤(2)中酶切的体系为50μL，EcoRI、MspI和HapII酶量分别为20U、10U和10U；动物组织的酶切时间为3h，植物组织的酶切时间为6h；不同样品的酶切体系中基因组DNA的起始量相同，起始量为100～500ng之间。

优选的，步骤(3)中连接的体系为40μL，两种接头终浓度均为1μM，T4DNA连接酶终浓度为40U；不同样品的连接体系中酶切纯化后的DNA的起始量相同，起始量为100～500ng之间。

步骤(3)中设计了特异的接头引物，可以与每种酶切后的样本的粘性进行连接，并且每种样本的EcoRI接头上设计了5个碱基的条码，用于标记每个样品。

优选的，步骤(2)和(4)中的纯化为用磁珠进行纯化。

优选的，步骤(4)和(5)中的琼脂糖凝胶电泳为2％琼脂糖凝胶电泳，电泳条件分别为120V2h和120V50min。

表1.条码(Barcode)和(指示标签)信息表

条码编号	条码序列	条码编号	条码序列	指示标签编号	指示标签序列
						条码1	GCATG	条码25	CTGCG	指示标签1	ATCACG
条码2	AACCA	条码26	CTGTC	指示标签2	CGATGT
						条码3	CGATC	条码27	CTTGG	指示标签3	TTAGGC
条码4	TCGAT	条码28	GACAC	指示标签4	TGACCA
						条码5	TGCAT	条码29	GAGAT	指示标签5	ACAGTG
条码6	CAACC	条码30	GAGTC	指示标签6	GCCAAT
						条码7	GGTTG	条码31	GCCGT	指示标签7	CAGATC
条码8	AAGGA	条码32	GCTGA	指示标签8	ACTTGA
						条码9	AGCTA	条码33	GGATA	指示标签9	GATCAG
条码10	ACACA	条码34	GGCCA	指示标签10	TAGCTT
						条码11	AATTA	条码35	GGCTC	指示标签11	GGCTAC
条码12	ACGGT	条码36	GTAGT	指示标签12	CTTGTA
						条码13	ACTGG	条码37	GTCCG	指示标签13	AGTCAA
条码14	ACTTC	条码38	GTCGA	指示标签14	AGTTCC
						条码15	ATACG	条码39	TACCG	指示标签15	ATGTCA
条码16	ATGAG	条码40	TACGT	指示标签16	CCGTCC
						条码17	ATTAC	条码41	TAGTA	指示标签17	GTCCGC
条码18	CATAT	条码42	TATAC	指示标签18	GTGAAA
						条码19	CGAAT	条码43	TCACG	指示标签19	GTGGCC
条码20	CGGCT	条码44	TCAGT	指示标签20	GTTTCG
						条码21	CGGTA	条码45	TCCGG	指示标签21	CGTACG
条码22	CGTAC	条码46	TCTGC	指示标签22	GAGTGG
						条码23	CGTCG	条码47	TGGAA	指示标签23	ACTGAT
条码24	CTGAT	条码48	TTACC	指示标签24	ATTCCT

本发明的甲基化敏感多态性测序基于MSAP法结合高通量测序，是全基因组甲基化谱策略中性价比最高和最为切实可行的策略之一。它省略了包括PCR、聚丙烯胺凝胶电泳、硝酸银染色、克隆和测序在内的常规分子生物学技术繁琐的步骤，无需进行各种引物的组合和电泳显色等，可以对大样本数和大基因组的样本进行简化甲基化测序，极大的提高了MSAP的数据覆盖度和可信度。同时，DNA的投入量可少至100ng，通过较少数据的高通量测序，就可以实现数据极大化显示的要求。测序的数据可用于后续实验和分析，如BLAST分析和亚硫酸氢钠法PCR验证等。基于MSAP结合高通量测序的策略是确实可行的，它优于传统的MSAP技术，又不同于WGBS和RRBS法，因无需进行重亚硫酸盐处理，因此既适用于具有已知参考基因组序列的物种，也适用于未知参考基因组序列的物种；既可用于检测已知基因甲基化差异，也可用于发现未知的基因组甲基化的检测。MASP-seq技术通过DNA酶切(EcoRI+MspI或者HspII双酶切组合)、接头连接以及混样回收后PCR富集等几个简单实验流程，流程中对连接接头和PCR引物进行了改造，兼容了高通量测序仪，实现了大样本数目的高通量测序。通过该方法极大的提高了传统的MSAP覆盖度，同时还克服了PAGE电泳、PAGE显色以及差异胶带回收与测序等人为因素造成的误差。

本发明与现有技术相比具有以下优点和效果：

1、适用范围广。本发明适用于所有已知或者未知参考基因组的真核生物物种，不受基因组大小和检测样本数目的限制，同时本方法发明适用于一般普通分子生物学实验室采用。

2、高通量。本发明设计兼容Illumina二代测序仪的引物，极大的提高了检测样本的数目和数据覆盖度。

3、结果可靠性高、实验可重复性好。本发明简化了传统MSAP技术，克服了PAGE电泳、PAGE显色以及差异胶带回收与测序等人为因素造成的数据误差，从而使结果更加可信，重复性好。

附图说明

图1是MSAP-seq文库的构建流程简化示意图。(1)基因组DNA双酶切组合，DNA双链用N序列表示，每份材料分别用EcoRI+MspI和EcoRI+HpaII两个组合进行酶切；(2)将酶切后样品进行连接，MspI和HpaII为共用接头，EcoRI接头根据条码(barcode)共设计48种；(3)连接后的样品混样回收进行PCR反应，条码端的PCR引物F为共用引物；引物R根据指示标签种类设计了24种；(4)文库纯化，最终文库序列两端为已知序列，连续的N序列表示DNA插入片段序列。

图2是实施例1所制备文库利用安捷伦2100核酸分析仪进行毛细管电泳的结果图。A：HpaII组文库，文库峰值平均值为412bp，文库浓度为2.46ng/μL。B：MspI组文库，文库峰值平均值为401bp，文库浓度为5.10ng/μL。横轴代表碱基数目，纵轴代表荧光强度，中间峰为文库样品的检测峰，左、右两侧峰为参照峰，检测峰中间横线代表文库片段范围。

图3是实施例2所制备的HM文库利用安捷伦2100核酸分析仪进行毛细管电泳的结果图。文库峰值平均值为395bp，文库浓度为5.86ng/μL。横轴代表碱基数目，纵轴代表荧光强度，中间峰为文库样品的检测峰，左、右两侧峰为参照峰，检测峰中间横线代表文库片段范围。

具体实施方式

下面结合具体实施例进一步阐述本方法发明。这些实施例仅用于说明本发明而不用于限制本发明要求保护的范围。下列实施例中未注明具体实验条件和方法，实验条件和方法参照相关试剂说明书或者《分子克隆实验指南》(第3版)(J.萨姆布鲁克，D.W.拉塞尔主编，2008出版)。

实施例1光温敏不育系水稻武香S(WXS)和常规稻9311的MSAP-seq文库制备

材料背景：武香S(WXS)为水稻光温敏不育系水稻，长日照高温不育，短日低温可育，育性受光温调控，属于表观遗传学范畴。表观遗传学是研究基因的核苷酸序列不发生改变的情况下，基因表达的可遗传变化的一门遗传学分支学科。9311为水稻籼稻常规稻，长日照高温、短日低温均为可育，9311为阳性对照。

样品处理与取材：

表2.样品处理

9311两组材料为阴性对照，作为背景杂除；WXS两组材料为阳性对照。分别取上述四种样本的叶片、幼穗和茎三个组织，共12份材料，每份材料对应的barcode的序列和预混样后的指示标签序列如下表。

表3.水稻武香S(WXS)和9311MSAP-seq文库制备中条码(Barcode)和(指示标签)信息表

MASP-seq文库构建包括以下步骤：

(1)DNA样品的提取。利用2×CTAB提取液提取水稻WXS和9311不同处理的12种组织中的基因组DNA。经RnaseI(Fermentas，美国)处理，进行酚仿(体积比1:1)抽提和75％(体积百分比)乙醇沉淀后，将纯化的基因组DNA溶于50μLTE缓冲液中。

(2)双酶切与磁珠纯化。每种组织的DNA分别利用EcoRI+MspI(NEB公司，美国)和EcoRI+HpaII(NEB公司，美国)进行双酶切。酶切体系50μL：基因组DNA100ng，EcoRI、MspI和HapII酶量分别为20U、10U和10U。酶切条件是37℃6h。然后选用AgencourtAMPureXP磁珠对每种酶切后的产物进行纯化，纯化时往50μL酶切产物中加入80μLAMPureXP磁珠(即磁珠的加入量为纯化目标体积的1.6×)，利用磁力架吸附磁珠，80％的酒精漂洗磁珠两次，室温晾干5min后，用30μLTE洗脱DNA片段。

(3)接头连接与磁珠纯化。利用T4DNA连接酶连接EcoRI接头、上述纯化的各酶切样本和MspI/HpaII(MspI与HpaII为同工酶，接头一样)。保证每种样本的起始连接量一致，且选取不同的MspI/HpaII接头连接不同的样本。连接体系40μL：MspI/HpaII接头和EcoRI接头终浓度1μM，T4DNA连接酶为40U，保证每种酶切样本连接时的DNA起始量相同(均为90ng)。EcoRI接头序列为：

F(5’-3’)：ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN，

R(5’-3’)：/5Phos/AATTNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT；

MspI/HpaII接头序列为：

F(5’-3’)：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，

R(5’-3’)：/5Phos/CGAGATCGGAAGAGCGAGAACAA。

NNNNN为条码序列，每种样本对应的条码序列见表3，共有12种，引物合成采用PAGE纯化，部分引物5’端进行磷酸化修饰。

(4)混样与片段选择。将EcoRI+MspI双酶切连接组的12个样本按照体积等量混合成一个池(pooling)，共480μL，标记为MspI组；EcoRI+HpaII双酶切连接组的12个样本等量混合成第二个池，共480μL，标记为HpaII组。通过磁珠对这两个池样品分别进行磁珠纯化，AMPureXP磁珠用量为1.6×即768μL。纯化的样品进行2％琼脂糖凝胶电泳(120V，2h)，回收300～400bp之间的片段，最终用23μLTE溶解。

(5)PCR扩增和胶回收。将上述回收的片段23μL，进行PCR扩增，扩增酶选用Q5HiFi热启动酶(NEB，美国)，PCR引物序列为：

F(5’-3’)：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACG，

R(5’-3’):CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGC。

PCR引物R序列中的NNNNNN代表指示标签序列，共有2种，具体序列见表2，用于扩增不同pooling文库。

PCR扩增体系50μL：23μL回收产物，25μLQ5HiFi热启动酶mix，1.0μLPCRF引物(15μM)，1.0μLPCRR引物(15μM)。

PCR扩增程序为：98℃1min，1个循环；98℃10s，65℃60s，72℃30s，10循环；72℃5min，1个循环；4℃终止反应。扩增后的PCR产物进行2％琼脂糖凝胶电泳(120V，50min)，回收350～450之间的片段，最终用18μLTE溶解。回收的产物分别记为MspI文库和HpaII文库。

(6)文库质检。分别从MspI文库和HpaII文库各取1μL，利用安捷伦2100核酸分析仪进行毛细管电泳检测。再各取1μL，利用Qubit2.0核酸定量检测仪进行浓度定量检测。安捷伦2100核酸分析仪检测结果如图2所示。从图2中可以看出HpaII组(图A)和MspI组(图B)文库片段范围均处于350～450bp之间，检测浓度分别为2.46ng/μL和5.10ng/μL，文库片段范围和浓度符合上机测序要求。

实施例2香樟树新叶和成熟叶的MSAP-seq文库制备

样品取材：在武汉大学校生科院旁边选取三个棵长势健康的香樟树，分别取三片新鲜叶片和三片成熟叶片，制备研究同一组织的不同发育时期的甲基化状态变化的MSAP-seq文库。

表4.香樟树新叶和成熟叶MSAP-seq文库制备中条码(Barcode)和指示标签信息表

注：由于样品较少，可以将样品混合成一个池，共用一个指示标签PCR引物，节约建库和测序成本。

具体MSAP-seq文库制备流程如下：

(1)DNA样品的提取。利用2×CTAB提取液提取樟树新鲜叶和成熟叶组织的基因组DNA。经酚仿(体积比1:1)抽提、RnaseI(Fermentas，美国)处理和75％(体积百分比)乙醇沉淀后，将纯化的基因组DNA溶于50μLTE中。测定DNA浓度，保证基因组DNA起始酶切量相同。

(2)双酶切与磁珠纯化。两种叶片组织的基因组DNA分别利用EcoRI+MspI(NEB公司，美国)和EcoRI+HpaII(NEB公司，美国)进行双酶切，酶切体系为50μL：基因组DNA500ng，EcoRI、MspI和HapII酶量分别为20U、10U和10U。酶切条件是37℃6h。酶切产物用磁珠对每种酶切后的产物进行磁珠纯化，AMPureXP磁珠用量为1.6×即80μL。利用磁力架吸附磁珠，80％的酒精漂洗磁珠两次，晾干5min后，用30μLTE洗脱DNA片段。

(3)接头连接与磁珠纯化。利用T4DNA连接酶连接EcoRI接头、上述纯化的各酶切样本和MspI/HpaII。Qubit2.0定量检测每种酶切产物的浓度，保证每个样品酶切后进行连接的总量相同，每个样品起始量连接总量均为300ng。连接体系40μL：MspI/HpaII接头和EcoRI接头终浓度1μM，T4DNA连接酶为40U，每种酶切样本DNA量为300ng。

EcoRI接头序列为：

F(5’-3’)：ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN，

R(5’-3’)：/5Phos/AATTNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT；

MspI/HpaII接头序列为：

F(5’-3’)：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，

R(5’-3’)：/5Phos/CGAGATCGGAAGAGCGAGAACAA。

其中NNNNN为barcode序列，每种酶切产物对应的barcode序列见上述表4，共有4种。

(4)混样与片段选择。将四个酶切连接组的产物按照体积等量混合成一个池，等量分成两份，取一份别标记为HM组，另外一份备份使用，每份80μL。混合样品通过磁珠对HM组样品进行纯化，AMPureXP磁珠用量为1.6×即128μL。回收的样品进行2％琼脂糖凝胶电泳(120V，2h)，回收300-400bp之间的胶块，最终用25μLTE溶解。

(5)PCR扩增和胶回收。将上述回收的片段，进行PCR扩增，扩增酶选用Q5HiFi热启动酶(NEB，美国)，PCR引物序列为：

F(5’-3’)：AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACG，

R(5’-3’):CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGC。

PCR引物R序列中的NNNNNN代表指示标签序列，只采用1种，见上述表4。

PCR扩增体系为50μL，其中10μM正反引物各取1μL，Q5HiFi热启动酶mix取25μL，上述回收产物取23μL。PCR扩增程序为：98℃1min，1个循环；98℃10s，65℃30s，72℃30s，循环数10个；72℃5min，1个循环；4℃终止反应。

扩增后的PCR产物进行2％琼脂糖凝胶电泳(120V，50min)，回收350～450之间的片段，最终用18μLTE溶解。回收的产物就是预混样文库，标记为HM文库，此文库包含了新鲜叶片和成熟叶片两种酶切组合的两种文库信息。

(6)文库的质检。取1μLHM文库，利用安捷伦2100核酸分析进行毛细管电泳检测。再取1μL，利用Qubit2.0核酸定量检测仪进行浓度定量检测。结果如图3，HM文库峰值范围350～450bp之间，浓度为5.86ng/μL，符合上机测序要求。

上述结果表明本方法发明能够制备不同组织类型DNA或者相同组织不同发育时期的MSAP-seq文库，文库质检后可以进行高通量上机测序。据此，它适用于同一物种的不同组织或者同一组织在不同的发育时期和不同生理病理条件下的样本DNA甲基化差异研究。本发明具有较高灵敏度、精确度、覆盖率、高通量和重复性的特点，成本低廉，普遍适用于不同的实验室进行多个样本的基因组甲基化差异的研究，因而本发明在同领域中具有极高的性价比。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种新的基因组简化甲基化测序文库的制备方法，其特征在于包括以下步骤：

(1)提取同一物种不同组织或者相同组织不同发育时期的基因组DNA；

(2)分别选取EcoRI/MspI和EcoRI/HpaII两种双酶切组合对不同样品的基因组DNA进行酶切；对酶切后的片段进行纯化；

(3)用T4DNA连接酶连接EcoRI接头、纯化的酶切片段、MspI(HpaII)接头；EcoRI接头、MspI(HpaII)接头的序列如下：

EcoR接头序列为：

F1(5’-3’)：ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN，

R1(5’-3’)：/5Phos/AATTNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT；

MspI/HpaII接头序列为：

F2(5’-3’)：GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT，

R2(5’-3’)：/5Phos/CGAGATCGGAAGAGCGAGAACAA；

其中，EcoRI接头序列中的NNNNN代表条码序列，F1、R1引物中的NNNNN为互补的序列，条码信息见表1，表1中条码序列与F1上的NNNNN五碱基序列相同，R1的NNNNN序列与条码序列反向互补；/5Phos/代表5’端起始碱基为磷酸基团修饰；

表1.条码和指示标签信息表

条码编号条码序列条码编号条码序列指示标签编号指示标签序列条码1 GCATG 条码25 CTGCG 指示标签1 ATCACG 条码2 AACCA 条码26 CTGTC 指示标签2 CGATGT 条码3 CGATC 条码27 CTTGG 指示标签3 TTAGGC 条码4 TCGAT 条码28 GACAC 指示标签4 TGACCA 条码5 TGCAT 条码29 GAGAT 指示标签5 ACAGTG 条码6 CAACC 条码30 GAGTC 指示标签6 GCCAAT 条码7 GGTTG 条码31 GCCGT 指示标签7 CAGATC 条码8 AAGGA 条码32 GCTGA 指示标签8 ACTTGA 条码9 AGCTA 条码33 GGATA 指示标签9 GATCAG 条码10 ACACA 条码34 GGCCA 指示标签10 TAGCTT 条码11 AATTA 条码35 GGCTC 指示标签11 GGCTAC 条码12 ACGGT 条码36 GTAGT 指示标签12 CTTGTA

条码13 ACTGG 条码37 GTCCG 指示标签13 AGTCAA 条码14 ACTTC 条码38 GTCGA 指示标签14 AGTTCC 条码15 ATACG 条码39 TACCG 指示标签15 ATGTCA 条码16 ATGAG 条码40 TACGT 指示标签16 CCGTCC 条码17 ATTAC 条码41 TAGTA 指示标签17 GTCCGC 条码18 CATAT 条码42 TATAC 指示标签18 GTGAAA 条码19 CGAAT 条码43 TCACG 指示标签19 GTGGCC 条码20 CGGCT 条码44 TCAGT 指示标签20 GTTTCG 条码21 CGGTA 条码45 TCCGG 指示标签21 CGTACG 条码22 CGTAC 条码46 TCTGC 指示标签22 GAGTGG 条码23 CGTCG 条码47 TGGAA 指示标签23 ACTGAT 条码24 CTGAT 条码48 TTACC 指示标签24 ATTCCT

(4)分别将EcoRI/MspI酶切连接组和EcoRI/HpaII酶切连接组连接产物混合成两个池，将两个池样本进行纯化，纯化后的样本进行琼脂糖凝胶电泳，电泳完成后切胶回收片段大小为300～400bp的DNA片段；

(5)利用含指示标签序列的PCR引物对回收的片段进行PCR富集，PCR产物通过琼脂糖凝胶电泳回收350～450bp的片段，回收的片段即为测序文库；

PCR引物序列为：

F3(5’-3’):AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACG，

R3(5’-3’):CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGC；

其中，PCR引物R3序列中的NNNNNN代表指示标签序列，指示标签信息见表1，表1中指示标签序列与R3引物中的NNNNNN六碱基序列反向互补。

2.根据权利要求1所述的新的基因组简化甲基化测序文库的制备方法，其特征在于：步骤(2)中的酶切体系为50μL，EcoRI、MspI和HapII酶量分别为20U、10U和10U；动物组织的酶切时间为3h，植物组织的酶切时间为6h；不同样品的酶切体系中基因组DNA的起始量相同，起始量为100～500ng之间。

3.根据权利要求1所述的新的基因组简化甲基化测序文库的制备方法，其特征在于：步骤(3)中连接的体系为40μL，两种接头终浓度均为1μM，T4DNA连接酶终浓度为40U；不同样品的连接体系中酶切纯化后的DNA的起始量相同，起始量为100～500ng之间。

4.根据权利要求1所述的新的基因组简化甲基化测序文库的制备方法，其特征在于：步骤(2)和(4)中的纯化为用磁珠进行纯化。

5.根据权利要求1所述的新的基因组简化甲基化测序文库的制备方法，其特征在于：步骤(4)和(5)中的琼脂糖凝胶电泳为2％琼脂糖凝胶电泳，电泳条件分别为120V2h和120V50min。