CN105696088A

CN105696088A - 一种双酶切简化基因组二代测序文库构建方法及配套试剂盒

Info

Publication number: CN105696088A
Application number: CN201510765534.8A
Authority: CN
Inventors: 杨国骞; 郭岑; 陈云梅; 郭英; 王晓燕; 郭振华; 李德铢
Original assignee: Kunming Institute of Botany of CAS
Current assignee: Kunming Institute of Botany of CAS
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2016-06-22
Anticipated expiration: 2035-11-11
Also published as: CN105696088B

Abstract

本发明提供了一种基于双酶切的简化基因组二代测序文库构建方法及试剂盒，本发明针对现有双酶切简化基因组测序文库构建方法不足，扩展了双酶切组合范围，减少了简化基因组文库构建对贵重仪器的过分依赖，简化了建库流程，降低了建库成本并改善了测序效率，同时该技术操作简单灵活更容易的被科研人员掌握并能在普通的分子实验室中实现。特别适用于需要对大量参考基因组不完善的物种进行SNP分子标记开发、遗传图谱构建、群体遗传学研究及系统发育生物学研究等研究的微型或中等规模实验室。本发明在农业分子育种领域，保护生物学领域及进化生物学领域将具有良好的实际应用价值和应用前景。

Description

一种双酶切简化基因组二代测序文库构建方法及配套试剂盒

技术领域

本发明属于生物技术领域，具体涉及一种基于双酶切的简化基因组二代测序文库构建方法及用于二代测序文库构建的配套试剂盒。

背景技术

限制性酶切位点相关DNA(Restriction-siteAssociatedDNA，RAD)测序技术，即RAD-seq技术是在二代测序基础上发展起来的一项基于全基因组酶切位点的简化基因组测序技术(BairdN.J.,etal,2008)。该技术利用一种限制性内切酶对基因组进行单酶切，结合物理方法将其打断产生一定大小的DNA片段并构建测序文库，从而可以实现对酶切位点附近的序列进行高通量测序。由于RAD标记是全基因组范围的特异性酶切位点附近的DNA片段，故它可以代表整个基因组的序列特征，因此通过RAD-seq能够在大多数物种种内获得成千上万的单核苷酸多态性(Singlenucleotidepolymorphism，SNP)标记及亲缘关系较近物种种间的SNP标记。该技术不受模式生物和野生物种的限制，可以通过一次测序就可以获得数万甚至数十万的SNP标记，大大降低了基因组标记的开发成本。目前，RAD-seq技术已成功应用于大麦、玉米、茄子、竹子、棘鱼、果蝇及甲虫等多种动植物的SNP标记开发、高密度遗传图谱的构建、数量性状基因定位、居群遗传学以及系统发育生物学等研究领域。但一方面该技术流程比较复杂，如要利用Covaris超声破碎仪等比较贵重的仪器，因而它需要受过专业培训的技术骨干人员才能掌握；另一方面该技术流程实施过程中用物理方法随机打断会损失大量的DNA，从而导致最后上机测序产出的片度(Tag)数目不可控制。所以国内外多个实验室对传统的RAD-seq方法进行了改进并衍生出多种简化基因组测序方法。目前,在RAD-seq技术上发展起来的简化基因组测序技术主要有分型测序(Genotypingbysequencing，GBS)(Elshireetal.,2011)技术，双酶切RAD(DoubledigestRAD,ddRAD)(Petersonetal.,2012)测序技术以及IIB型限制性内切酶的RAD(IIBdigestRAD,2b-RAD)(Wangetal.,2012)测序技术等。这些技术都对RAD复杂的技术流程做了相应的改善，比如GBS技术的出发点是简化建库流程，从而使文库构建实施起来更加容易，但低覆盖度测序易造成分型错误；2b-RAD测序技术从选酶的角度较好地控制了不同个体测序片段的一致性，但序列长度太短限制了可发现的SNP数目；而ddRAD测序技术一方面从选酶的角度控制测序片段的产出，另一方面也简化了建库流程。ddRAD-seq技术与RAD-seq技术的区别在于，ddRAD-seq通过一个稀有酶与一个常见酶相结合对基因组DNA进行双酶切，免去随机打断的过程，使酶切片段具有方向性，便于进行目的片段的筛选。在第二端的酶切位点后通过PCR扩增引入Index,从而使更多的样品能够混在一起进行测序。因此，ddRAD-seq技术是一种非常有前景的简化基因组测序技术。

ddRAD测序文库构建的实验流程如下：

1、提取目标物种的全基因组DNA；2、使用两种限制性内切酶EcoRI和MspI(分别为一种稀有碱基酶和一种常见碱基酶)对目标基因组进行酶切，将目标基因组切成长短不一的具有粘性末端的DNA片段；3、使用AmpureXP磁珠纯化上述酶切产生的DNA片段并定量；4、将人工合成的OligoP1接头正义链和反义链及OligoP2接头正义链和反义链分别退火，制成双链的P1接头和P2接头。在酶切后的基因组DNA片段两端分别连接P1接头和P2接头；其中，P1接头为带有EcoRI酶切位点的粘性末端序列，且P1接头上还具有高通量测序所需的其他序列，比如条形码(barcode)序列以及read1测序引物序列；P2接头为带有MspI酶切位点的粘性末端序列，且P2接头含有index测序引物序列以及read2测序引物序列。5、将来自不同样品的上述连接片段按预先设定的体积比进行混合；6、对上述混合物使用AmpureXP磁珠纯化，移除未连接接头及缓冲液成分；7、使用DNA片段自动回收仪器Pippin-Prep选择一定范围长度的片段并回收，回收产物构成一个DNA混池；8、对上述加过接头的DNA混池进行PCR扩增以富集所选的片段并连上和二代测序仪匹配的P5接头序列和P7接头序列。9、对上述PCR产物使用AmpureXP磁珠纯化，移除PCR引物等成分；10、使用Agilent2100Bioanalyzer进行片段分布检查和定量；11、使用qPCR再次定量并上机测序。

ddRAD虽然在建库流程上相比RAD做了一定程度的简化，但仍然包括11步，因此实验耗时较长。同时ddRAD通过一个稀有酶与一个常见酶相结合对基因组DNA进行双酶切，这种组合方式是基于酶切产生片段数目的考虑，但它限制了酶的选择。另外，实验流程使用了磁珠纯化DNA以及DNA片段自动回收仪器选择片段，磁珠纯化时需要使用的磁力架及DNA片段自动回收仪Pippin-Prep都是较为贵重的试验耗材和仪器，普通的分子实验室难以配置。此外，合成P1接头和P2接头的寡核苷酸单链因需要使用高效液相色谱法(HPLC)纯化及末端磷酸化，仅合成P1接头和P2接头的花费就会造成普通的实验室难以承受。进一步ddRAD技术流程提供的48种barcode序列长度完全一致，这会造成酶切位点位置碱基严重不平衡，从而导致该位置测序质量下降，无法根据质量值判断文库酶切是否完全以及是否出现了星号活性。大量的时间消耗和相对高的建库费用严重制约了ddRAD的广泛应用。因此，仍需要对现有的ddRAD简化基因组测序文库构建方法进行改进，以克服现有方法选酶范围有限、使用仪器复杂、流程繁琐、成本高昂以及酶切位点处碱基测序质量低的缺陷，改善测序效率并使文库构建能在人数为5-10人资金并不充裕的中小型实验室得以顺利实施，而不需要依赖于大型的区域仪器中心或测序中心。

发明内容

本发明的主要目的在于提供一种双酶切简化基因组(ModifiedddRAD，MiddRAD)二代测序文库构建方法及配套试剂盒，以扩大简化基因组选酶范围，减少对贵重仪器的依赖，简化建库流程，节约成本，改善测序效率，使之更容易的被科研人员掌握并能在仅具有常规仪器的普通分子实验室中实现。与ddRAD-seq方法相比，MiddRAD-seq方法主要从以下几个方面做了改进和优化：

(1)MiddRAD-seq方法使用两种常见的限制性内切酶进行酶切组合，摆脱了必须依靠一个稀有酶与一个常见酶相结合对基因组DNA进行双酶切的限制，扩大了选酶的范围；

(2)该方法将复杂的磁珠纯化优化为为简单的柱式纯化，从而摆脱了对磁力架的依赖，将利用DNA片段自动回收仪选择片段优化为利用普通低熔点琼脂糖凝胶切胶回收选择片段，从而摆脱了对贵重仪器Pippin-Prep的依赖，将使用Agilent2100Bioanalyzer进行片段分布检查优化为使用普通低熔点琼脂糖凝胶电泳检查，从而摆脱了对精密仪器Agilent2100Bioanalyzer的依赖；

(3)该方法同时减少了纯化酶切产物、连接前定量及混样后纯化连接产物的步骤，简化了建库流程；

(4)该方法将A1接头(原流程为P1接头)由37碱基简化为25碱基(barcode按5碱基计算)，大大降低了接头合成成本；

(5)该方法设计出一套新的barcode-adapter体系，含有20对长短不一的barcode，可以整数倍(20*n)叠加使用，而不是原流程提供的48种等长的barcode，这不但增加了barcode使用的灵活性，同时也提高了接头位置碱基测序的质量值，对于判断文库酶切是否完全以及是否出现了星号活性提供了有力的保障。

由于整个文库构建流程中间步骤尽可能地减少纯化步骤，酶切片段随机丢失也大大减少，该高度简化的文库制备流程允许仅使用100ngDNA即可完成文库构建。

本发明的上述目的是通过以下技术方案加以实现的：

一种双酶切简化基因组二代测序文库构建方法，该方法包括下述步骤：

第1步、基因组DNA的提取：利用改良CTAB法提取基因组DNA，基因组DNA经过琼脂糖凝胶电泳完整度检测及微量分光光度计纯度检测，且稀释成40～60ng/μl；

第2步、基因组DNA的酶切：利用两种常见限制性内切酶对基因组DNA进行酶切消化，得到限制性酶切片段；

第3步、使用T4DNA连接酶对限制性片段连接上DNA条形码接头A1接头和A2接头，得到形如“A1接头-DNA插入片段-A2接头”的序列对；

第4步、将来自不同个体的“A1接头-DNA-A2接头”的序列对按预先设定的任意体积比进行混合；

第5步、将混合物经琼脂糖凝胶电泳回收得到目标DNA片段；

第6步、以回收的DNA片段作为模板进行PCR扩增以富集目标DNA片段；

第7步、对PCR产物进行纯化；

第8步、扩增后的产物使用低熔点琼脂糖凝胶电泳进行片段分布检查和文库评价；

第9步、使用Qubit2.0定量并使用二代测序平台上机测序。

根据所述的方法，其中第2步所述的两种限制性内切酶为4-5碱基常见限制性内切酶，且不含稀有碱基限制性内切酶。

根据所述的方法，其中第3步所述的A1接头由正链和负链组成：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

其中：正链中的XXXXX代表DNA条形码序列，负链中YYYYY代表与DNA条形码互补序列，W代表碱基A或T，所述的DNA条形码由20个4-9碱基序列组成：AACAA、CCACC、TTGTT、GGTGA、AACAGT、CCATGA、ATTGCC、TGGCTA、GAACATC、CCTAGCC、TTCGCAA、AGGTTCC、GAACATTA、CCTAGAAT、TTCGCCTA、AGGATTCT、GAATAACAT、CCTCCTAGA、TTCTTCGCA、AGGAGGCTT。

根据所述的方法，其中第3步所述的A2接头由正链和负链组成：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

根据所述的方法，其中第6步所述的PCR扩增中所采用的引物对由引物序列1.1和引物序列2.1组成，其中：

引物序列1.1为：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1为：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’，

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体；index包括4个序列：TTCAGT、GGAGTA、AAGCAC、CCTTCA。

根据所述的方法，其中第7步所述的纯化方法为过柱纯化。

根据所述的方法，其中第9步所述的二代测序平台为IlluminaHiseq2000、Hiseq2500、Hiseq4000或Miseq。

本发明的一种双酶切简化基因组二代测序文库构建方法，更具体地是包括下述步骤：

第1步、基因组DNA提取：

采用改良CTAB法分别提取两种竹子的幼嫩叶片全基因组DNA：

(1)取10ml4％CTAB60℃预热，加入2‰二硫苏糖醇DTT后混匀，

(2)称取60mg新鲜幼嫩叶片，加液氮快速研磨成粉末状，转入盛有1ml60℃CTAB缓冲液的2ml小离心管，振荡混匀，60℃水浴，55min，期间混匀4-5次，

(3)取出离心管冷却2min，加入1ml氯仿-异戊醇24:1，上下颠倒3-5min以充分混匀，之后室温下11,000rpm离心5min，

(4)取离心液上清，转移至一新2ml离心管，沿管壁轻轻加入700μl氯仿-异戊醇24:1，上下颠倒3-5min混匀，室温下10,000rpm离心5min，

(5)取离心液上清，转移至一1.5ml离心管，加600μl冷藏异丙醇，-20℃下沉降DNA50min，

(6)室温下10,000rpm离心上述离心管8min，弃去上清，保留白色沉淀，

(7)室温下使用1ml70％乙醇洗涤白色沉淀两次，10,000rpm离心5min，弃上清，

(8)室温下使用1ml无水乙醇洗涤白色沉淀两次，10,000rpm离心5min，弃上清，

(9)室温下37℃烘干15min，使无水乙醇挥发干净，

(10)加80μl无菌水充分溶解，加4μlRNase，37℃消化30min即完成DNA提取；

DNA提取完成后用0.8％的琼脂糖凝胶电泳检测所提取DNA的完整程度及杂质污染情况，然后，利用NanoDropND1000测定DNA的浓度和纯度，之后，DNA稀释至40ng/μl备用；

第2步、双酶切消化：

利用两种限制性内切酶AvaII和MspI对第一步中提取的基因组DNA进行双酶切消化，限制性内切酶AvaII识别序列如下：

5’–G|GWCC-3’

3’-CCWG|G-5’

限制性内切酶MspI识别序列如下：

5’–C|CGG-3’

3’–GGC|C-5’

“|”表示限制性内切酶的酶切位点，“W”代表A或T；

AvaII和MspI消化反应体系为：

基因组DNA(20ng/μl)	5.0μl
		AvaII(10，000U/ml)	0.8μl
MspI(20，000U/ml)	0.4μl
		10XCutSmartbuffer	4.0μl
ddH₂O	29.8μl
		总反应体积	40.0μl

酶切反应条件为：37℃水浴4h；65℃失活20min；4℃保存酶切产物；

第3步、连接A1和A2接头：

使用T4DNA连接酶对第二步中的限制性片段连接上DNA条形码接头A1接头和A2接头，得到形如“A1接头-DNA插入片段-A2接头”的序列对；

连接体系为：

酶切产物	40.0μl
		A1接头(5μM)	1.0μl
A2接头(10μM)	4.0μl
		10XT4连接酶缓冲液	4.0μl
T4DNA连接酶	0.5μl
		ddH₂O	0.5μl
总反应体积	50.0μl

连接反应条件为：23℃连接2h；65℃失活20min；4℃保存连接产物；

其中A1接头条形码序列共20种，分别为：

编号	DNA条形码序列	编号	DNA条形码序列
				1	AACAA	11	TTCGCAA
2	CCACC	12	AGGTTCC
				3	TTGTT	13	GAACATTA
4	GGTGA	14	CCTAGAAT
				5	AACAGT	15	TTCGCCTA
6	CCATGA	16	AGGATTCT
				7	ATTGCC	17	GAATAACAT
8	TGGCTA	18	CCTCCTAGA
				9	GAACATC	19	TTCTTCGCA
10	CCTAGCC	20	AGGAGGCTT

A1接头由正链和负链组成：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’；

其中：正链中的XXXXX代表DNA条形码序列，负链中YYYYY代表与DNA条形码互补序列，W代表碱基A或T；

A2接头由正链和负链组成：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’；

第4步、样品混合：

将第三步中连接好的片段的两个竹子样品按体积比6∶1混合；

第5步、目的DNA片段琼脂糖凝胶电泳回收：

将第四步中混合产物进行2.0％琼脂糖凝胶电泳，电泳缓冲液为新配制的1XTAE，电泳电压为4v/cm，电泳时间为90min，切割600～700bp片段范围构建DNA文库；

第6步、PCR富集目标DNA片段：

以回收的DNA片段作为模板进行PCR扩增以富集目标DNA片段，所述的PCR扩增中所采用的引物对包括引物序列1.1和引物序列2.1，其碱基序列分别为：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’；

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体，所述的index包括两个序列，具体为：Index1为AACAGT，Index2为CCAGTA；

PCR扩增体系为：

第四步混合后的样品基因组DNA	20.0μl
		PCRphusionmix	25.0μl
引物1.1(10μM)	1.0μl
		引物2.1(10μM)	1.0μl
ddH₂0	3.0μl
		总反应体积	50.0μl

PCR反应条件为：98℃预变性3min；后进入循环程序：98℃变性20s、62℃退火30s、72℃延伸30s，共计16个循环；72℃延伸15min，4℃保存备用；

第7步、对上述PCR产物进行柱式纯化：

柱式纯化使用E.Z.N.A.Cycle-PureKit所提供的离心柱，具体操作为：

1、将PCR产物转移到新的1.5ml离心管中，加入5倍体积的BufferCP；

2、将上述混合液全部转移到HiBindDNA吸附柱中，10，000rpm室温离心1min，弃废液；

3、向HiBindDNA吸附柱中加入700μl的DNAWashBuffer，10，000rpm室温离心1min，弃废液，重复洗涤一次；

4、13，000rpm室温离心2min，甩干HiBindDNA吸附柱结合膜上的液体；

5、将HiBindDNA吸附柱套入新的1.5ml离心管中，向HiBindDNA吸附柱的结合膜正中央加入30μl的ElutionBuffer，室温放置1min，13，000rpm离心1min；

6、将离心管中的洗脱液重复加入HiBindDNA吸附柱的结合膜正中央，室温放置1-2min，13，000rpm室温离心2min，得到的回收产物即为待测序文库；

第8步、片段分布检查和文库评价：

将第7步中纯化后的文库用2％的低熔点琼脂糖凝胶进行质量检测，跑胶电压为120v，跑胶时间为90min；

第9步、Qubit2.0定量并上机测序：

将第7步中通过质量检测的文库稀释成10nM进行测序，测序平台为IlluminaHiSeq2000，测序长度为PE100bp。

本发明同时还提供了一种用于上述任一方法的SNP检测的二代测序文库构建试剂盒，所述试剂盒由以下述部分组成：

1)由20个序列组成的A1接头，浓度为5μM，体积30μl，每对序列结构为：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’，

其中：正链中的XXXXX代表DNA条形码序列，负链中YYYYY代表与DNA条形码互补序列，W代表碱基A或T；所述的DNA条形码由20个4-9碱基序列组成：AACAA、CCACC、TTGTT、GGTGA、AACAGT、CCATGA、ATTGCC、TGGCTA、GAACATC、CCTAGCC、TTCGCAA、AGGTTCC、GAACATTA、CCTAGAAT、TTCGCCTA、AGGATTCT、GAATAACAT、CCTCCTAGA、TTCTTCGCA、AGGAGGCTT；

2)由4个序列组成的A2接头，浓度为10μM，体积30μl，每对序列结构为：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’；

3)10，000U/mL的限制性核酸内切酶AvaII、MspI及酶切缓冲液，其中AvaII、MspI体积各为0.1mL，缓冲液体积为1.25mL；缓冲液成分为：50mMKAc、20mMTris-Ac、10mMMg(Ac)₂、100μg/mlBSA，该缓冲液的pΗ7.9，保存温度为-20℃；

4)400，000U/mL的T4DNA连接酶，其中连接缓冲液成分为：50mMTris-HCl、10mMMg(Cl)₂、10mMDDT，1mMATP，该缓冲液的pΗ7.5，保存温度为-20℃；

5)高保真PCR聚合酶Mix，其组分为：20units/mlPhusionDNApolymerase、0.2mMdNTP混合物、1XPhusionGC缓冲液，保存温度为-20℃；

6)引物序列1.1和引物序列2.1：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’；

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’；

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体，index包括4个序列：TTCAGT、GGAGTA、AAGCAC、CCTTCA。

本发明首次使用了两种常见内切酶组合对目的基因组进行双酶切，扩展了酶的选用范围，同时本发明减少了简化基因组文库构建对贵重仪器的过分依赖，简化了建库流程，降低了建库成本并改善了测序效率。该技术操作简单灵活、检测成本低、检测通量高，更易被科研人员掌握并能在普通的分子实验室中实现。特别适用于需要对大量个体进行SNP分子标记开发、遗传图谱构建、群体遗传学及系统发育生物学等研究的微型或中等规模实验室。因而MiddRAD-seq未来在农业分子育种领域，保护生物学领域及进化生物学领域都具有良好的应用前景。

附图说明

图1是双酶切简化基因组二代测序文库构建的基本操作流程图；

图2是实施例2粉绿竹和矢竹高质量DNA电泳图；图中泳道从左到右依次为100bpDNA分子量Marker、粉绿竹DNA-1、粉绿竹DNA-2、矢竹DNA-1、矢竹DNA-2、100bpDNA分子量Marker。100bpDNA分子量Marker条带分布范围为100bp-1500bp，共11条条带，前10条为100bp-1000bp，它们之间间隔为100bp，最亮的条带为500bp，第11条条带为1500bp。

图3是实施例2粉绿竹DNA经限制性内切酶AvaII和MspI酶切消化后产物的电泳图；图中从左到右依次为100bpDNA分子量Marker、粉绿竹DNA酶切产物、100bpDNA分子量Marker。

图4是实施例2两种竹子文库构建质量琼脂糖凝胶电泳检测图；图中从左到右依次为100bpDNA分子量Marker、粉绿竹简化基因组文库、矢竹简化基因组文库、100bpDNA分子量Marker。

图5是实施例3测序产生的read1中碱基的质量值(Qualityscore)分布图；

图6是实施例3每个样品测序产生的原始数据与高质量数据产出统计图；

图7是实施例3每个样品高质量数据占其原始数据的比率统计图；

图8是实施例3每个样品测序reads中含有接头reads的比例统计图；

图9是实施例3每个样品测序reads中含有正确酶切位点reads占原始数据比例统计图；

图10是实施例3经过Stacks软件聚类后每个样品得到的片段(Tag)数目；

图11是实施例3经过Stacks软件聚类后每个样品片段(Tag)的平均测序深度。

具体实施方式

下面结合附图，用本发明的实施例来对本发明做进一步详细说明，但并不以此为限。本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

双酶切简化基因组二代测序文库构建的基本操作流程：

第一步、基因组DNA的提取：利用改良CTAB法提取新鲜幼嫩竹子叶片基因组DNA，

第二步、基因组DNA的酶切：利用两种常见限制性内切酶对基因组DNA进行酶切消化，得到两端分别含有相应限制性酶切位点的DNA片段；

所述的基因组DNA经过琼脂糖凝胶电泳检测有明显主带及微量分光光度纯度检测260nm/280nm值位于1.8-2.2之间，且稀释成40～60ng/μl备用；

所述的常见限制性内切酶优选为一种识别4.5碱基序列的限制性内切酶和一种识别4碱基序列的限制性内切酶，进一步优选为AvaII和MspI；

第三步、使用T4DNA连接酶对限制性片段连接上A1接头(DNA条形码接头)和A2接头，得到形如“A1接头-DNA插入片段-A2接头”的序列对；

所述的A1接头由正链和负链组成，具体为：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

其中：正链中的XXXXX代表DNA条形码序列，负链中YYYYY代表与DNA条形码互补序列，W代表碱基A或T。

所述的DNA条形码包括20个序列，具体见下表：

编号	DNA条形码序列	编号	DNA条形码序列
				1	AACAA	11	TTCGCAA
2	CCACC	12	AGGTTCC
				3	TTGTT	13	GAACATTA
4	GGTGA	14	CCTAGAAT
				5	AACAGT	15	TTCGCCTA
6	CCATGA	16	AGGATTCT
				7	ATTGCC	17	GAATAACAT

8	TGGCTA	18	CCTCCTAGA
				9	GAACATC	19	TTCTTCGCA
10	CCTAGCC	20	AGGAGGCTT

所述的A2接头由正链和负链组成，具体为：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

第四步、将来自不同个体的“A1接头-DNA-A2接头”的序列对按设定的体积比进行混合；

第五步、将混合物经琼脂糖凝胶电泳回收得到的600～700bp的DNA片段。

第六步、以回收的DNA片段作为模板进行PCR扩增以富集目标DNA片段。

所述的PCR扩增中所采用的引物对包括：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’。

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体。

所述的index包括4个序列，具体为：

Index1	TTCAGT
		Index2	GGAGTA
Index3	AAGCAC
		Index4	CCTTCA

第七步、对上述PCR产物进行柱式纯化；

所述的柱式纯化使用的过滤柱优选为E.Z.N.A.Cycle-PureKit所提供的离心柱。

第八步、扩增后的产物使用琼脂糖凝胶电泳进行片段分布检查和文库评价；

所述的琼脂糖凝胶为2.0％的低熔点琼脂糖凝胶，跑胶电压为4v/cm，跑胶时间为90min。

第九步、使用Qubit2.0定量并上机测序。

本发明的一种与MiddRAD配套的测序文库构建试剂盒，该试剂盒包括：

1)由20个序列组成的A1接头序列对，每对序列结构为：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

其中：正链中的XXXXX代表DNA条形码序列，负链中YYYYY代表与DNA条形码互补序列，W代表碱基A或T。本试剂盒仅提供AvaII相对应的A1接头序列对，其余的酶相对应的A1接头序列对可以直接从生物公司合成。

2)A2接头序列，具体为：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

仅提供MspI相对应的A2接头序列，其余的酶相对应的A2接头序列对可以直接从生物公司合成。

3)10，000U/ml的限制性核酸内切酶AvaII、MspI及酶切缓冲液，其中AvaII、MspI体积各为0.1mL，缓冲液体积为1.25mL；缓冲液成分为：50mMKAc、20mMTris-Ac、10mMMg(Ac)₂、100μg/mlBSA，该缓冲液的pH7.9，保存温度为-20℃；

4)T4DNA连接酶及反应匹配的缓冲液，其中T4DNA连接酶为400,000U/ml，匹配的缓冲液成分为50mMTris-HCl、10mMMgCl₂、10mMDDT、1mMATP，该缓冲液的pH7.5，保存温度为-20℃；

6)引物序列1.1和引物序列2.1：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’；

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’。

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体。index包括4个序列，具体为：TTCAGT、GGAGTA、AAGCAC、CCTTCA。

所述的试剂盒中试剂均可通过试剂公司购买得到，序列均可通过生物公司合成。

实施例2

双酶切简化基因组二代测序文库构建方法的建立：

本实施例选择禾本科竹亚科刚竹属粉绿竹(Phyllostachysviridi-glaucescens(Carr.)A.etC.Riv.)和矢竹属矢竹(Pseudosasajaponica(Sieb.etZucc.)Makino)两种竹子为实验材料，双酶切简化基因组二代测序文库构建基本操作流程见图1，包括如下步骤：

第一步、基因组DNA提取

采用改良CTAB法分别提取粉绿竹(P.viridi-glaucescens(Carr.)A.etC.Riv.)和矢竹(P.japonica(Sieb.etZucc.)Makino)的幼嫩叶片全基因组DNA，具体步骤如下：

(1)取10ml4％CTAB60℃预热，加入2‰二硫苏糖醇DTT后混匀。

(2)称取60mg新鲜幼嫩叶片，加液氮快速研磨成粉末状，转入盛有1ml60℃CTAB缓冲液的2ml小离心管，振荡混匀，60℃水浴，55min，期间混匀4-5次。

(3)取出离心管冷却2min，加入1ml氯仿-异戊醇(24:1)，上下颠倒3-5min以充分混匀，之后室温下11,000rpm离心5min。

(4)取离心液上清，转移至一新2ml离心管，沿管壁轻轻加入700μl氯仿-异戊醇(24:1)，上下颠倒3-5min混匀。室温下10,000rpm离心5min。

(5)取离心液上清，转移至一1.5ml离心管，加600μl冷藏异丙醇，-20℃下沉降DNA50min。

(6)室温下10,000rpm离心上述离心管8min，弃去上清，保留白色沉淀。

(7)室温下使用1ml70％乙醇洗涤白色沉淀两次，10,000rpm离心5min，弃上清。

(8)室温下使用1ml无水乙醇洗涤白色沉淀两次，10,000rpm离心5min，弃上清。

(9)室温下37℃烘干15min，使无水乙醇挥发干净。

(10)加80μl无菌水充分溶解，加4μlRNase，37℃消化30min即完成DNA提取。

DNA提取完成后利用0.8％的琼脂糖凝胶电泳检测所提取DNA的完整程度及杂质污染情况，琼脂糖凝胶电泳如图2显示DNA主带完整，无蛋白等杂质污染。然后，利用NanoDropND1000测定DNA的浓度和纯度。之后，DNA稀释至40ng/μl备用。

第二步、双酶切消化

利用两种限制性内切酶AvaII和MspI对第1步中提取的高质量基因组DNA进行双酶切消化。

限制性内切酶AvaII识别序列如下：

5’–G|GWCC-3’

3’-CCWG|G-5’

限制性内切酶MspI识别序列如下：

5’–C|CGG-3’

3’–GGC|C-5’

“|”表示限制性内切酶的酶切位点，“W”代表A或T。

AvaII和MspI消化反应体系为：

酶切反应条件为：37℃水浴4h；65℃失活20min；4℃保存酶切产物。图3显示AvaII和MspI消化后经琼脂糖凝胶电泳检测呈现出均匀分布的弥散条带，540～640bp目的片段范围无明显的未切开条带，适合第三步连接反应的要求，如图2所示。

第三步、连接A1和A2接头

使用T4DNA连接酶对第二步中的限制性片段连接上A1接头(DNA条形码接头)和A2接头，得到形如“A1接头-DNA插入片段-A2接头”的序列对；

连接体系为：

连接反应条件为：23℃连接2h；65℃失活20min；4℃保存连接产物。其中A1接头条形码序列共20种，分别为：

A1接头由正链和负链组成，具体为：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

A2接头由正链和负链组成，具体为：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

第四步、样品混合

将第三步中连接好的片段的粉绿竹和矢竹两个个体样品按体积比6：1混合。

第五步、目的DNA片段琼脂糖凝胶电泳回收

将第四步中混合产物进行2.0％琼脂糖凝胶电泳，电泳缓冲液为新配制的1XTAE，电泳电压为4v/cm，电泳时间为90min。由于测序文库为540～640bp范围，但经过第三步barcode-adapter连接增加了目的片段的长度，大约60个bp，因此切割600～700bp片段范围构建DNA文库。

第六步、PCR富集目标DNA片段

以回收的DNA片段作为模板进行PCR扩增以富集目标DNA片段。所述的PCR扩增中所采用的引物对包括引物序列1.1和引物序列2.1，其碱基序列分别为：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’。

所述的index包括两个序列，具体为：

Index1	AACAGT
		Index2	CCAGTA

引物由生物工程公司合成。

PCR扩增体系为：

基因组DNA(第四步混合后的样品)	20.0μl
		PCRphusionmix	25.0μl
引物1.1(10μM)	1.0μl
		引物2.1(10μM)	1.0μl
ddH₂0	3.0μl
		总反应体积	50.0μl

PCR反应条件为：98℃预变性3min；后进入循环程序：98℃变性20s、62℃退火30s、72℃延伸30s，共计16个循环；72℃延伸15min，4℃保存备用。

第七步、对上述PCR产物进行柱式纯化：

柱式纯化使用的是E.Z.N.A.Cycle-PureKit所提供的离心柱。具体操作为：

6、将离心管中的洗脱液重复加入HiBindDNA吸附柱的结合膜正中央，室温放置1min，13，000rpm室温离心2min，得到的回收产物即为待测序文库。

第八步、片段分布检查和文库评价

将第七步中纯化后的文库用2％的低熔点琼脂糖凝胶进行质量检测，跑胶电压为120v，时间为90min。检测结果如图4所示，片段范围基本符合660～760bp范围，结果符合预期。

第九步、Qubit2.0定量并上机测序

将第七步中通过质量检测的文库稀释到10nM进行测序，测序平台为IlluminaHiSeq2000，测序长度为PE100bp。

测序结果如下：

1)粉绿竹共产生13,719,139条原始reads(即2.7Gb原始数据)，GC含量为52％；barcode识别效率为98.56％；由barcode识别出的数据中，含有正确酶切位点的数据所占比例为99.44％，read2含有正确酶切位点的数据所占比例为97.01％；去掉含有接头的reads得到可用数据，read1可用数据占原始reads的比率为96.9％，read2可用数据占原始reads的比率为96.7％。

2)矢竹共产生1,956,307条原始reads(即391Mb原始数据)，GC含量为52％；barcode识别效率为99.13％；由barcode识别出的数据中，read1含有正确酶切位点的数据所占比例为99.44％，read2含有正确酶切位点的数据所占比例为97.09％；去掉含有接头的reads得到可用数据，read1可用数据占原始reads的比率为97.3％，read2可用数据占原始reads的比率为97.0％。

3)碱基质量得分是衡量测序质量的重要指标，质量得分越高代表碱基被测错的概率越小，质量值20和30分别代表该碱基被测错的概率为1％和0.1％。粉绿竹和矢竹测序产生原始reads每个碱基平均质量值均超过20，即每个碱基平均被测错的概率低于1％。

综合文库片段分布检查、GC含量分析、barcode识别效率、正确酶切位点比例、可用数据量及碱基质量值分析可见，本实施例结果可靠。

实施例3

20种温带木本竹子全基因组范围种间变异SNP检测：

利用双酶切简化基因组二代测序文库构建试剂盒进行研究。双酶切简化基因组二代测序文库构建试剂盒包含：

1)由20个序列组成的A1接头序列对，每对序列结构为：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

2)A2接头序列，具体为：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

6)引物序列1.1和引物序列2.1：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’。

20种温带木本竹子竹子名称如下：

按照实施例2中第一步提取待检测竹子基因组DNA；按照实施例1中第二步进行基因组DNA酶切打断；按照实施例1中第三步进行adapter连接；按照实施例1中第四步进行样品混合(体积比为1∶1)；按照实施例1中第五步进行片段选择；按照实施例1中第六步进行PCR扩增；按照实施例1中第七步进行PCR产物纯化；按照实施例1中第八步进行文库片段分布检查和文库评价；按照实施例1中第九步进行定量与上机测序。

本次共对20个样品进行建库测序，涵盖禾本科竹亚科温带木本竹子第四分支、第五分支和第六分支的20个竹种。文库构建共使用2天的时间，测序方式为Hiseq2500PE150bp测序。

测序结果显示，本次测序共产生209.45M条原始reads，每条read单端长度为150bp，GC含量为50％。每条read上各碱基平均质量值均大于30(即该位置的碱基测定错误率小于0.1％)，如图5所示。在原始reads中，有201.45Mreads即96.18％的reads为高质量reads(高质量reads指带有正确barcode和酶切位点序列，以及未出现adaptor序列、Ns和质量值小于10的碱基)，高质量reads在20个体间的分布及其占原始reads的比例分别见图6和图7，个体间产生reads数变异较大是由于不同个体来源于不同的物种，而种间的基因组大小差异较大导致的。统计含有接头的reads在各个个体间的比例，发现基本所有个体的含有接头reads的比例都较低，平均为2.52％，只有一个个体接头含量较高(>5％)，这与该个体接头连接有关，见图8。统计各个个体含有正确酶切位点数据的比例，发现所有个体含有正确酶切位点的数据所占比例都比较高，如图9所示；其中read1含有正确酶切位点的比例平均为98.05％，而read2含有正确酶切位点的比例为94.26％，整体都保持了高质量的酶切标准。由此可以看出本文库构建方法及试剂盒可产生较高质量的测序结果。

使用Stacks软件(主要参数：-m10，-M3)对所有个体的高质量数据进行聚类，统计每个样品得到的片段(Tag)数目为37,602～248,050个，平均157,433个，Tag平均深度为29.04X，如图10和图11所示。若温带竹子基因组平均大小按2Gb计算，则产生数据大约覆盖全基因组的2.36％，即简化率为2.36％，说明这种简化方式的简化效率较高。进一步使用Stacks软件(主要参数：-n8)统计得到20个竹种共有1,920个种内固定而种间变异的Tag，含27,954个SNP位点，这些大量的SNP将用于温带木本竹子的系统发育研究。MiddRAD文库构建成本约500元人民币/个体，而ddRAD大约产生10万个tag，目前价格为大约平均为800元人民币/个体(单个个体数据按1Gb计算)。

从以上可以看出，使用MiddRAD文库构建方法及配套的试剂盒可以在相对低的研究成本下，快速获得理想的实验数据，在农业分子育种领域，保护生物学领域及进化生物学领域都具有良好的应用价值和推广前景。

Claims

1.一种双酶切简化基因组二代测序文库构建方法，其特征在于，该方法包括下述步骤：

第4步、将来自不同个体的“A1接头-DNA-A2接头”的序列对按设定的任意体积比例进行混合；

第5步、将混合物经琼脂糖凝胶电泳回收得到目标DNA片段；

第7步、对PCR产物进行纯化；

第9步、使用Qubit2.0定量并使用二代测序平台上机测序。

2.根据权利要求1所述的方法，其特征是，其中第2步所述的两种限制性内切酶为4-5碱基常见限制性内切酶，且不含稀有碱基限制性内切酶。

3.根据权利要求1所述的方法，其特征是，其中第3步所述的A1接头由正链和负链组成：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’。

4.根据权利要求1所述的方法，其特征是，其中第3步所述的A2接头由正链和负链组成：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’。

5.根据权利要求1所述的方法，其特征是，其中第6步所述的PCR扩增中所采用的引物对由引物序列1.1和引物序列2.1组成，其中：

引物序列1.1为：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1为：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’，

6.根据权利要求1所述的方法，其特征是，其中第7步所述的纯化方法为过柱纯化。

7.根据权利要求1所述的方法，其特征是，其中第9步所述的二代测序平台为IlluminaHiseq2000、Hiseq2500、Hiseq4000或Miseq。

8.一种双酶切简化基因组二代测序文库构建方法，其特征在于该方法包括下述步骤：

第1步、基因组DNA提取：

采用改良CTAB法分别提取两种竹子的幼嫩叶片全基因组DNA：

(1)取10ml4％CTAB60℃预热，加入2‰二硫苏糖醇DTT后混匀，

(9)室温下37℃烘干15min，使无水乙醇挥发干净，

第2步、双酶切消化：

5’–G|GWCC-3’

3’-CCWG|G-5’

限制性内切酶MspI识别序列如下：

5’–C|CGG-3’

3’–GGC|C-5’

“|”表示限制性内切酶的酶切位点，“W”代表A或T；

AvaII和MspI消化反应体系为：

基因组DNA(20ng/μl) 5.0μl AvaII(10，000U/ml) 0.8μl MspI(20，000U/ml) 0.4μl 10X CutSmart buffer 4.0μl ddH₂O 29.8μl 总反应体积 40.0μl

第3步、连接A1和A2接头：

连接体系为：

酶切产物 40.0μl2 --> A1接头(5μM) 1.0μl A2接头(10μM) 4.0μl 10XT4连接酶缓冲液 4.0μl T4DNA连接酶 0.5μl ddH₂O 0.5μl 总反应体积 50.0μl

其中A1接头条形码序列共20种，分别为：

编号 DNA条形码序列编号 DNA条形码序列 1 AACAA 11 TTCGCAA 2 CCACC 12 AGGTTCC 3 TTGTT 13 GAACATTA 4 GGTGA 14 CCTAGAAT 5 AACAGT 15 TTCGCCTA 6 CCATGA 16 AGGATTCT 7 ATTGCC 17 GAATAACAT 8 TGGCTA 18 CCTCCTAGA 9 GAACATC 19 TTCTTCGCA 10 CCTAGCC 20 AGGAGGCTT

A1接头由正链和负链组成：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’；

A2接头由正链和负链组成：

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’；

第4步、样品混合：

将第三步中连接好的片段的两种竹子两个个体样品按体积比6∶1混合；

第5步、目的DNA片段琼脂糖凝胶电泳回收：

第6步、PCR富集目标DNA片段：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’，

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’；

其中：引物序列2.1中的NNNNN代表index序列，用于区分不同的个体，

所述的index包括两个序列，具体为：Index1为AACAGT，Index2为CCAGTA；

PCR扩增体系为：

第四步混合后的样品基因组DNA 20.0μl PCR phusion mix 25.0μl 引物1.1(10μM) 1.0μl 引物2.1(10μM) 1.0μl ddH₂0 3.0μl 总反应体积 50.0μl

第7步、对上述PCR产物进行柱式纯化：

3、向HiBindDNA吸附柱中加入700μl的DNAWashBuffer，10000rpm室温离心1min，弃废液，重复洗涤一次；

第8步、片段分布检查和文库评价：

第9步、Qubit2.0定量并上机测序：

9.一种用于权利要求1-8中任一所述方法的SNP检测的二代测序文库构建试剂盒，其特征在于，所述试剂盒由以下述部分组成：

正链：5’TACACGACGCTCTTCCGATCTXXXXX3’，

负链：5’GWCYYYYYAGATCGGAAGAGCGTCGTGTA3’，

正链：5’CGATAGATCGGAAGAGCCTCTTAGC3’，

负链：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAT3’；

6)引物序列1.1和引物序列2.1：

引物序列1.1：

5’AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCC3’；

引物序列2.1：

5’CAAGCAGAAGACGGCATACGAGATNNNNNGTGACTGGAGTTCAGACGTGTGC3’；