CN103571822A

CN103571822A - 一种用于新一代测序分析的多重目的dna片段富集方法

Info

Publication number: CN103571822A
Application number: CN201210253791.XA
Authority: CN
Inventors: 漆小泉; 池旭; 张英春
Original assignee: Institute of Botany of CAS
Current assignee: Hangzhou heknight future Biotechnology Co.,Ltd.
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2014-02-12
Anticipated expiration: 2032-07-20
Also published as: CN103571822B

Abstract

本发明公开了一种DNA测序模板的制备方法。该方法包括如下步骤：（1）将待测序的DNA分子依次进行片段化、末端修复和补齐，3’端加A，以及连接接头；（2）通过三轮半巢式PCR扩增富集目的DNA片段；前两次PCR所用引物均为一条特异性引物和一条通用引物；第三次PCR所用引物由两条通用引物组成；前两次PCR可为多重PCR反应。与Illumina GA样品前处理过程相比，本发明所提供的方法减少了样品处理的步骤，节约了时间和经济成本，同时降低了起始DNA样品的需求量；最重要的是，循环数的降低和Phusion高保真DNA聚合酶的使用降低了由于PCR而引入的突变，使得对所得数据的处理变得相对简单清晰，同时本方法在应用到各种重测序的实验中时对测序深度的要求也降低。

Description

一种用于新一代测序分析的多重目的DNA片段富集方法

技术领域

本发明属于基因工程领域，涉及一种DNA测序模板的制备方法，特别涉及一种用于新一代测序分析的目的DNA片段的富集方法。

背景技术

新一代测序技术（Next Generation Sequencing,NGS）是近年来新兴的一系列测序技术的总称，他们都是基于边合成边测序（Sequencing by Synthesis）的原理，具有高通量、时间短、数据量庞大的特点，已经被广泛应用于基因组（重）测序、转录组测序、单核苷酸多态性（Single Nucleotide Polymorphism,SNP）开发等等方面，成为人们研究分子生物学、分子遗传学等等的有力工具。

在多种新一代测序技术中，Illumina公司开发的基因组分析仪（Genome Analyzer,GA)由于具有成本相对较低、通量大、前处理较为简单等等优势，成为目前应用的最为广泛的技术之一。

Illumina GA的DNA样品前处理过程主要包括：（1）DNA样品的片段化；（2）修复并补齐末端，以及3’端加A（腺嘌呤脱氧核苷酸）；（3）连接接头；（4）切胶纯化；（5）使用Illumina公司提供的引物进行18个循环的PCR扩增；（6）切胶纯化；（7）样品质量监控（纯度、浓度等）。随后即可上机进样开始测序。

Illumina GA的DNA样品前处理方法不具有选择性，因此，若只关注基因组（或转录组）中某一特定区域的序列，则需要在进行Illumina GA样品前处理之前完成选择性富集的过程。目前通用的选择性富集方法有：

聚合酶链式反应（PCR）：通过使用特异性引物对目的片段进行选择性扩增。

水相杂交：如MIP（molecular inversion probe），通过带有特异序列的探针与基因组样品杂交后，连接成环并扩增，获得目的片段；或使用生物素标记的RNA探针与基因组碎片杂交，而后通过磁珠吸附生物素进而将特异序列与基因组碎片分离，而后进行富集。

固相杂交：使用类似于DNA微阵列（Microarray）处理的方法，在固相支持物上固定特异的探针序列来捕获目的片段

上述三种方法都是在进行Illumina GA样品前处理之前完成的，其中水相杂交和固相杂交涉及的技术相对复杂，成本不菲（尤其是DNA微阵列的固相支持物的获得需要大量合成的特异序列），需要的起始基因组DNA用量很大，且在处理后仍需要对获得的目的片段进行富集（通常也是靠PCR）。而PCR虽然是一种具有良好选择性并且技术要求较低的方法，但是其扩增中会发生碱基的突变，虽然使用高保真的聚合酶能够改善突变发生的频率，但是随着扩增循环数的增加，碱基突变的概率会愈加提高。由于Illmunia GA样品前处理中有18个循环的PCR扩增，在Illumina GA样品前处理之前的PCR反应过程中引入的碱基突变会在随后的Illumina GA的样品前处理中被放大，并且测序得到的突变碱基的测序质量与未突变碱基的测序质量没有显著差异，无法分辨，这在检测点突变（point mutation）或单核苷酸多态性（single nucleotidepolymorphism,SNP）的时候会对结果产生很大干扰，造成过多的假阳性结果。

发明内容

本发明的目的是提供一种DNA测序模板的制备方法，所述DNA测序模板适宜采用Illumina公司的GA测序仪进行测序。

本发明所提供的DNA测序模板的制备方法，具体包括如下步骤：

（1）将具有待测序位点的DNA样品依次进行片段化、末端修复和补齐，3’端加A，以及连接接头，得到用于第一次PCR反应的模板；

所述待测序位点的上游核苷酸序列为已知，且存在PCR特异引物对应的特异区域；所述待测序位点可以为一个也可为多个。

所述接头为由长链和短链组成的一端是平末端另一端是5’粘性末端的双链DNA，所述长链的5’端突出；在实际应用中，可通过化学合成得到组成所述接头的所述长链和所述短链，再自行变性退火后得到所述接头。

（2）用特异性引物1ros和通用引物1对步骤（1）得到的用于第一次PCR反应的模板进行第一次PCR扩增，得到包含所述待测序位点的DNA片段；

所述特异性引物1ros与所述特异区域互补；所述通用引物1的序列含有选自步骤（1）所述接头中所述长链的5’端突出部分的序列。当对多个位点或区域进行同时检测时，应保持各引物的退火温度一致，这将有利于多重PCR反应的进行。

（3）用特异性引物2ros和通用引物2对步骤（2）得到的所述DNA片段进行第二次PCR扩增，得到包含所述待测序位点的DNA片段；

所述特异性引物2ros自5’端至3’端分为片段1和片段2，所述片段2与所述特异区域互补，且所述特异性引物2ros自3’端起第一个核苷酸与所述待测序位点之间的距离比所述特异性引物1ros自3’端起第一个核苷酸与所述待测序位点之间的距离更近；所述片段1与所述待测序位点的上游不互补；所述通用引物2的序列为选自步骤（1）所述接头中所述长链的5’端突出部分的序列。当对多个位点或区域进行同时检测时，应保持各引物的退火温度一致，这将有利于多重PCR反应的进行。

（4）用通用引物3和通用引物4对步骤（3）得到的所述DNA片段进行第三次PCR扩增，得到DNA测序模板；

所述通用引物3的自5’端至3’端分为片段3和片段4，所述片段4为选自步骤（3）所述片段1，所述片段3为如下a）：

a）AATGATACGGCGACCACCGAGATCTACACTCTTTCCC（固相支持物结合区域）

所述通用引物4自5’端至3’端分为片段5和片段6，所述片段6选自步骤（1）所述接头中所述长链的5’端突出部分的序列，所述片段5为如下b）：

b）CAAGCAGAAGACGGCATA（固相支持物结合区域）。

经过上述步骤的处理后，所得DNA测序模板还需经过标准样品纯化处理、纯度、浓度鉴定等步骤后可用于Illumina GA测序。

为了增加测序的准确性，减少扩增中随机错配的出现，上述步骤中的三次PCR反应均使用Phusion高保真聚合酶。

在本发明的一个实施例中，所述接头中所述长链的序列具体如序列表中序列1-10所示，所述接头中所述短链的序列为如下中的任一种：

A）序列表中序列1的自3’端起倒数第9位-倒数第2位的反向互补序列；

B）序列表中序列2-序列10中任一个的自3’端起倒数第10位-倒数第2位的反向互补序列。

在本发明的一个实施例中，用于所述第一次PCR反应的所述通用引物1序列具体为序列表中序列11。

在本发明的一个实施例中，用于所述第二次PCR反应的所述通用引物2序列具体为序列表中序列12。

在本发明的一个实施例中，用于所述第三次PCR反应的所述通用引物3和所述通用引物4的序列具体分别为序列表中序列13和序列14。

通常情况下，上述步骤中所述第一次PCR反应进行10-15个循环的扩增；所述第二次PCR反应进行10-15个循环的扩增；所述第三次PCR反应进行15-18个循环的扩增。在本发明的实施例中，所述第一次PCR反应具体进行了15个循环的扩增；所述第二次PCR反应进行了15个循环的扩增；所述第三次PCR反应进行了18个循环的扩增。

本发明针对Illumina GA样品前处理的过程进行改进，得到了新的用于Illumina GA测序的DNA测序模板的制备方法，该方法减少了样品处理的步骤，节约了时间和经济成本，同时降低了对起始DNA样品的需求量。最为重要的是，循环数的降低（相对于PCR扩增与样品制备过程分离的方法，本申请可降低10个以上的循环数）和Phusion高保真DNA聚合酶的使用可以大大降低在样品富集过程中由于PCR而引入的突变，使得对所得数据的处理变得相对简单清晰，使得本方法在应用到各种重测序的实验中时对测序深度的要求大大降低。在此基础上，我们引入了多重PCR（MultiplexPolymerase Chain Reaction）的方法，大大增加了样品处理的效率。

附图说明

图1为三次PCR反应过程示意图。其中，A为第一次PCR反应过程示意图；B为第二次PCR反应过程示意图；C为第三次PCR反应过程示意图。

图2为在琼脂糖胶上检测到的第三轮PCR产物。其中，泳道M代表100bp ladder，泳道1和泳道2代表第三轮PCR的产物。

图3为在琼脂糖胶上检测胶纯化后的第三轮PCR产物。其中，泳道M代表100bpladder，泳道1代表胶纯化后的第三轮PCR的产物。

图4为两种聚合酶获得的可用产物数量的比较图。其中，PMP为使用Phusion高保真聚合酶；PMM为使用Multiplex多重聚合酶。

图5为两种聚合酶不同引物个数所得平均深度分析图。其中，PMP为使用Phusion高保真聚合酶；PMM为使用Multiplex多重聚合酶；PM后的数值表示引物个数。

图6为两种聚合酶不同引物个数所得数据的利用率比较图。其中，PM后的数值表示引物个数。纵坐标表示数据的利用率。其中，1表示Multiplex多重聚合酶（PMM），2表示Phusion高保真聚合酶（PMP）。

图7为index03的碱基C变化为碱基T的频率图。其中，横坐标为各个碱基在OSC8基因上的位置坐标，纵坐标为发生C到T的变化的碱基个数与该位置碱基测序深度的比值（即碱基变化频率）。图中圆圈圈出的点为经过其它实验及sanger法测序所验证的已知阳性点。

图8为所有数据中某位置上C到T碱基变化的个数和该位置的测序深度的关系图。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、用于Illumina公司GA测序的测序模板的制备及其测序

一、用于Illumina公司GA测序的测序模板的制备方法

在本实施例中，用于Illumina公司GA测序的测序模板的制备方法具体包括如下步骤：

所述待测序位点的上游核苷酸序列已知，且存在PCR特异引物对应的特异区域；

所述接头为由长链和短链组成的一端是平末端另一端是5’粘性末端的双链DNA，所述长链的5’端突出；

所述特异性引物1ros与所述特异区域互补；所述通用引物1的序列含有选自步骤（1）所述接头中所述长链的5’端突出部分的序列；

所述特异性引物2ros自5’端至3’端分为片段1和片段2，所述片段2与所述特异区域互补，且所述特异性引物2ros自3’端起第一个核苷酸与所述待测序位点之间的距离比所述特异性引物2ros自3’端起第一个核苷酸与所述待测序位点之间的距离更近；所述片段1与所述待测序位点的上游不互补；所述通用引物2的序列选自步骤（1）所述接头中所述长链的5’端突出部分的序列；

所述通用引物3的自5’端至3’端分为片段3和片段4，所述片段4为步骤（3）所述片段1，所述片段3为如下a）：

a）AATGATACGGCGACCACCGAGATCTACACTCTTTCCC（固相支持物结合区域）；

所述通用引物4自5’端至3’端分为片段5和片段6，所述片段6为步骤（1）所述接头中所述长链的5’端突出部分的序列，所述片段5为如下b）：

b）CAAGCAGAAGACGGCATACGAGATCGTGAT（固相支持物结合区域）。

二、步骤一所述的方法的实际应用

本试验将利用步骤一所述方法，以水稻品种中花11的基因组为待测序DNA样品，针对其上的14个SNP位点（14个所述待测序位点）设计水稻基因组特异引物（14个所述特异性引物1ros和14个所述特异性引物2ros），制备用于Illumina公司GA测序的测序模板。

1、引物设计

（1）第一轮PCR引物序列的设计

用primer5.0软件设计用于检测位于水稻目的基因OsOSCs基因和CYP51基因上的上述14个待测序位点的第一轮PCR特异引物序列（特异性引物1ros），设计引物序列原则为：GC%为40%-60%，长度为25个碱基，TM值为65℃左右。引物序列具体如表1所示，引物序列由上海生工合成。

表1第一轮PCR基因组特异性引物序列

引物名称	序列（5’-3’）
		OSC8(5)primer1ros	GCGTGCCTCCTTCCAGTCAATCTTT
OSC8(1708)primer1ros	TATGGACAATCCTTCTGGTGACTTC
		OSC8(1535)primer1ros	TGTTTTGCTGTAGGAAATGATCGGA
OSC12_NO.41ros	GAATGTGGTGTGGACTTCGCTCTAC
		OSC12_2013_20371ros	GCTAAGGCACAGTTCGATCCAGCAT
H9_172_1961ros	GGCGTTTCCCTGATAATTCCGGTGA
		G3_265_2891ros	AGCCAGGATGAGGTCTCGCAATTCA
H9_650_6741ros	ACGAGCTCATGGACAACAGCATGCA
		H4_302_3261ros	ACGCGCCAGAGTTGGAGATAGCTAT
H5_962_9861ros	GGGATCGCATAAACTGGGGCATCTT
		H5_201_2251ros	TCTACCGGCTGTGATCCATGACCTA
H47547781ros	AAGATGTCTGGACGTGTTGAGGACG
		G1_310_3341ros	AGCCAGCAGGAGGTCTACAAGTTCA
G1_1110_11341ros	TGGCAAAGAGTTCGACATCCCGAAG

（2）第二轮PCR引物序列的设计

用primer5.0软件设计用于检测位于水稻目的基因OsOSCs基因和CYP51基因上的上述14个待测序位点的第二轮PCR特异引物序列（特异性引物2ros），设计引物序列原则为：GC%为40%-60%，长度为18-20个碱基，TM值为58-60℃；此次引物序列要错后第一轮PCR的引物序列（5’-3’）2个碱基以上。引物序列具体如表2所示，引物序列由上海生工合成。

表2重叠序列和第二轮PCR基因组特异性引物序列

引物名称	序列（5’-3’）
		OSC8(5)primer2ros	TACACGACGCTCTTCCGATCTGAATATGTAGCTCTTCCCTT
OSC8(1708)primer2ros	TACACGACGCTCTTCCGATCTGCAGAAAGTACCGTCACATA
		OSC8(1535)primer2ros	TACACGACGCTCTTCCGATCTTGGCCCCTTGTGTTATATGG
OSC12_NO.42ros	TACACGACGCTCTTCCGATCTTGAGGGAGAGAGCTTTGGATAG
		OSC12_2013_20372ros	TACACGACGCTCTTCCGATCTGAAAAGAAGTAAGCCAAAGTCAGTT
H9_172_1962ros	TACACGACGCTCTTCCGATCTGATGACGGTGCCCATGTTT
		G3_265_2892ros	TACACGACGCTCTTCCGATCTGTCGCTTTTGATGTGGATTA
H9_650_6742ros	TACACGACGCTCTTCCGATCTCATGTCCGACAACGAGATCA
		H4_302_3262ros	TACACGACGCTCTTCCGATCTAAAGAAGTTGGCTACGACATC

H5_962_9862ros	TACACGACGCTCTTCCGATCTTGACCACACTGACTCACTGC
		H5_201_2252ros	TACACGACGCTCTTCCGATCTGATCCATGACCTACACTCGAG
H4_754_7782ros	TACACGACGCTCTTCCGATCTGGACCTGATAGACTCGACGTAC
		G1_310_3342ros	TACACGACGCTCTTCCGATCTAGGAGCAGTTCAGGTTCTTCAC
G1_1110_11342ros	TACACGACGCTCTTCCGATCTACAGGCTCCCTCACATCTTCA

注：每个引物序列的前21位为重叠序列（illumina GA的序列，5’-TACACGACGCTCTTCCGATCT-3’，记作片段1），其后的序列为基因组特异性序列（记作片段2）。

（3）接头引物序列的设计及三次PCR反应通用引物序列的设计

接头引物序列及三次PCR反应所用的通用引物序列均来自于illumina公司GA测序引物。具体序列信息如表3和表4所示。引物序列由上海生工合成，并且对MAP2、MAP4、MAP6、MAP8、MAP10、MAP12、MAP14、MAP16、MAP18、MAP20的5’端均进行磷酸化修饰，3’端均进行氨基化修饰。

表3接头引物序列及第一轮和第二轮通用引物

注：“PM3P、PM5P、PM8P、PM11P、PM14P、PM3M、PM5M、PM8M、PM11M、PM14M”这10个名称中含有“PMP三个宁母的”表示进行PCR反应时使用Phusion高保真聚合酶；含有“PMM三个字母的”表示进行PCR反应时使用QIAGEN Multiplex PCR Master Mix多重聚合酶；这10个名称中在“PM”后的数值表示进行PCR反应体系中特异性引物的条数；这10个名称后的MAP1-MAP20表示对应名称下各自使用的“接头”的两条单链DNA序列。MAP1、MAP3、……、MAP19共10个长链序列中，前46位核苷酸序列(非粗体部分)一致，为Illumina公司测序引物序列(5′-CGAGATCGTGATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3′)，其后的粗体核苷酸序列为用于区分各自测序结果的标签(index)。“PM3P、PM5P、PM8P、PM11P、PM14P、PM3M、PM5M、PM8M、PM11M、PM14M”这10组中，各自短链与其对应长链中下划线部分的核苷酸反向互补，从而形成各自的接头。第一轮PCR通用引物(AP1)的第5-26位(非粗体部分)的核苷酸序列为上述Illumina公司测序引物序列的第1-22位核苷酸序列；第二轮PCR通用引物(AP2)的核苷酸序列为上述Illumina公司测序引物序列的第10-33位核苷酸序列。

表4第三轮PCR的引物序列(Illumina上机引物序列)

引物名称	序列(5’-3’)
		Index 1.2	CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGT
MultiplexingPCRprimer1.0	AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT

注：Index 1.2(通用引物4，序列14)中下划线部分的序列(记作片段6)为上述Illumina公司测序引物序列的第1-3l位核苷酸序列，无下划线的部分序列为固相支持物结合区域以及索引(记作片段5)。MultiplexingPCRprimer1.0(通用引物3，序列13)下划线部分的序列为重叠序列(Illumina GA的序列，记作片段4，即为片段1)，无下划线的部分序列为固相支持物结合区域(记作片段3)。

2、水稻基因组的准备

采用CTAB法提取水稻品种中花11(Neal SC，Via LE(1993)A rapid CTAB DNAisolation technique useful for RAPD fingerprinting and other PCR applications.BioTechniques 14：748-751，公众可从中国科学院植物研究所获得)的基囚组DNA，基因组DNA浓度调整为50ng/μl。取30μl DNA样品，用KQ-50E型超声波清洗器打碎基因组DNA，波长70W，40KhZ，打碎2分钟，将基因组打碎到400-600bp，得到片段化的DNA。

3、打碎基因组DNA样品的前处理

（1）末端钝化

反应体系（100μl）：片段化的DNA(50ng/μl)20μl；ddH₂O55μl；10×Buffer（含有10mM ATP的T4DNA连接酶缓冲液）10μl；10mM dNTP mix4μl；T4DNA聚合酶(3000U/ml)5μl；DNA聚合酶I(Klenow)片段(5000U/ml)1μl；T4多聚核苷酸激酶(10000U/ml)5μl。

反应程序：用PCR仪20℃孵育30分钟。

反应结束后，用QIAquick PCR Purification Kit试剂盒，按照说明书对孵育后的样品进行纯化，得到32μl洗脱样品。

（2）在DNA片段的3’端加A

反应体系（50μl）：步骤（1）所得洗脱样品32μl；10×NEBuffer2 5μl；1mM dATP10μl；DNA聚合酶I(Klenow)片段(5000U/ml)3μl。

反应程序：37℃温育30分钟。

反应结束后，用MinElute PCR Purification Kit试剂盒，按照说明书对温育后的样品进行纯化，得到15μl洗脱样品。

（3）在DNA片段上加接头

A）双链接头的制备

将表3中的组成接头的较长单链DNA（如MAP1）和与之匹配的较短单链DNA（如MAP2）分别稀释到100μΜ。

反应体系（100μl）：较长单链DNA（如MAP1）(100μΜ)25μl；与较长单链DNA匹配的较短单链DNA（如与MAP1匹配的MAP2）(100μΜ)25μl；10×NEBuffer410μl；ddH₂O40μl。

反应程序：95℃变性2分钟，94℃36秒（70循环）进行复性，（从开始，每进行一个循环温度下降1℃），最后降到24℃，得到形成双链的接头。

B）加接头反应

反应体系（50μl）：步骤（2）所得洗脱样品(1.5pmol/μl)12μl；2×快速连接酶Buffer25μl；步骤A）制备的双链接头MAP_xP_x+1(25pmol/μl)6μl；T4DNA快速连接酶5μl；ddH₂O2μl。

反应程序：室温(20℃)温育15分钟连接产物。

反应结束后，用MinElute PCR Purification Kit试剂盒，按照说明书对连接产物进行纯化，得到20μl洗脱样品。

C）洗脱样品的DNA浓度检测

取1μl步骤B）所得洗脱样品溶液测定其DNA含量，用ND-1000分光光度计（Thermo）测定，OD260/280=1.16，OD260/230=0.60，DNA浓度=286ng/μl，剩余19μl洗脱DNA用于下述步骤。

（4）三步PCR富集目的DNA片段（制备DNA测序模板）

三次PCR反应过程示意图如图1所示。

1）稀释引物及引物混合

将第一轮PCR15个（见表1中14个特异性引物和表3中1个通用引物AP1）引物均稀释100pmol/μl，将第二轮PCR15（见表2中14个引物和表3中1个通用引物AP2）个引物均稀释到100pmol/μl。

根据需要，共设置了五个引物混合的梯度试验：

引物混合为10×引物混合液(每个引物浓度均为2pmol/μl)，按照下面表5的要求进行混合。

表510×引物混合液(每个引物浓度均为2pmol/μl)的准备

引物储存浓度	50pmol/μl	100pmol/μl
			每个引物	20μl	10μl
1×TE缓冲液	变量	变量
			总体积	500μl	500μl

第一个试验（三个特异性引物），按照表5的方法将表1中的第一轮引物OSC8(5)primer1ros、OSC8(1708)primer1ros、OSC8(1535)primer1ros（三个引物储存浓度均为100pmol/μl），各取1μl混在一起，加47μl1×TE缓冲液补齐到50μl混匀离心后再用，第一轮混合引物的混合物称为1rM3（10×）；相对应的，将表2中的OSC8(5)primer2ros、OSC8(1708)primer2ros、OSC8(1535)primer2ros（三个引物储存浓度均为100pmol/μl），各取1μl混在一起，同样用47μl1×TE缓冲液补齐到50μl，混匀离心后再用，第二轮混合引物的混合物称为2rM3（10×）。

第二个试验（五个特异性引物），按照表5的方法将表1中的第一轮引物OSC8(5)primer1ros、OSC8(1708)primer1ros、OSC8(1535)primer1ros、OSC12_NO.41ros、OSC12201320371ros（五个引物储存浓度均为100pmol/μl），各取1μl混在一起，用45μl1×TE缓冲液补齐到50μl，混匀离心后再用，第一轮混合引物的混合物称为1rM5（10×）；相对应的，将表2中的OSC8(5)primer2ros、OSC8(1708)primer2ros、OSC8(1535)primer2ros、OSC12NO.42ros、OSC12201320372ros（五个引物储存浓度均为100pmol/μl），各取1μl混在一起，用45μl1×TE缓冲液补齐到50μl，混匀离心后再用，第二轮混合引物的混合物称为2rM5（10×）。

第三个试验（八个特异性引物），按照表5的方法将表1中的第一轮引物OSC8(5)primer1ros、OSC8(1708)primer1ros、OSC8(1535)primer1ros、OSC12_NO.41ros、OSC12_2013_20371ros、H9_172_1961ros、G3_265_2891ros、H9_650_6741ros（八个引物储存浓度均为100pmol/μl），各取1μl混在一起，用42μl1×TE缓冲液补齐到50μl，混匀离心后再用，第一轮混合引物的混合物称为1rM8（10×）；相对应的，将表2中的OSC8(5)primer2ros、OSC8(1708)primer2ros、OSC8(1535)primer2ros、OSC12_NO.42ros、OSC12_2013_20372ros、H9_172_1962ros、G3_265_2892ros、H9_650_6742ros（八个引物储存浓度均为100pmol/μl），各取1μl混在一起，用42μl1×TE缓冲液补齐到50μl，混匀离心后再用，第二轮混合引物的混合物称为2rM8（10×）。

第四个试验（十一个特异性引物），按照表5的方法将表1中的第一轮引物OSC8(5)primer1ros、OSC8(1708)primer1ros、OSC8(1535)primer1ros、OSC12_NO.41ros、OSC12_2013_20371ros、H9_172_1961ros、G3_265_2891ros、H9_650_6741ros、H4_302_3261ros、H5_962_9861ros、H5_201_2251ros（十一个引物储存浓度均为100pmol/μl），各取1μl混在一起，用39μl1×TE缓冲液补齐到50μl，混匀离心后再用，第一轮混合引物的混合物称为1rM11（10×）；相对应的，将表2中的OSC8(5)primer2ros、OSC8(1708)primer2ros、OSC8(1535)primer2ros、OSC12_NO.42ros、OSC12_2013_20372ros、H9_172_1962ros、G3_265_2892ros、H9_650_6742ros、H4_302_3262ros、H5_962_9862ros、H5_201_2252ros（十一个引物储存浓度均为100pmol/μl），各取1μl混在一起，用39μl1×TE缓冲液补齐到50μl，混匀离心后再用，第二轮混合引物的混合物称为2rM11（10×）。

第五个试验（十四个特异性引物），按照表5的方法将表1中OSC8(5)primer1ros、OSC8(1708)primer1ros、OSC8(1535)primer1ros、OSC12_NO.41ros、OSC12_2013_20371ros、H9_172_1961ros、G3_265_2891ros、H9_650_6741ros、H4_302_3261ros、H5_962_9861ros、H5_201_2251ros、H4_754_7781ros、G1_310_3341ros、G1_1110_11341ros（十四个引物储存浓度均为100pmol/μl），第一轮引物各取1μl混在一起，用36μl1×TE缓冲液补齐到50μl，混匀离心后再用，第一轮混合引物的混合物称为1rM14（10×）；相对应的，将表2中OSC8(5)primer2ros、OSC8(1708)primer2ros、OSC8(1535)primer2ros、OSC12_NO.42ros、OSC12_2013_20372ros、H9_172_1962ros、G3_265_2892ros、H9_650_6742ros、H4_302_3262ros、H5_962_9862ros、H5_201_2252ros、H4_754_7782ros、G1_310_3342ros、G1_1110_11342ros（十四个引物储存浓度均为100pmol/μl），各取1μl混在一起，用36μl1×TE缓冲液补齐到50μl，混匀离心后再用，第二轮混合引物的混合物称为2rM14（10×）。

第三轮引物为MultiplexingPCRprimer1.0和Index1.2（具体序列见表4），2个引物均稀释成25pmol/μl。

2）第一轮PCR反应

取上述步骤3（3）B）中加接头后的洗脱DNA作为PCR的模板。

PCR反应体系（30μl）：DNA模板(286ng/μl)2μl；10×1rM3或10×1rM5或10×1rM8或10×1rM11或10×1rM143μl；AP1（第一轮PCR通用引物，10μM）0.4μl；2×Phusion高保真聚合酶PCR master mix（或2×QIAGEN Multiplex PCR master mix）15μl；ddH₂O9.6μl。每管PCR的反应体系为30μl，每种引物组合要得到3管第一轮的PCR产物，那么每种引物组合可以得到共90μl的第一轮PCR产物。

PCR反应程序：95℃1min；15个循环（95℃20s，60℃1min，68℃2min）；68℃5min；10℃保温。

反应结束后，用QIAquick PCR purification kit试剂盒，按照说明书对第一轮PCR产物进行纯化，每种引物组合得到3管PCR产物共90μl，将90μl第一轮的PCR产物进行纯化及洗脱，得到20μl的洗脱液。

第一轮洗脱溶液的DNA浓度检测：取1μl第一轮的洗脱溶液测定其DNA含量，用ND-1000分光光度计（Thermo）测定，每管DNA浓度=80ng/μl，并用1.2%的琼脂糖胶检测洗脱液的浓度。洗脱DNA用于下述步骤3）第二轮PCR反应的模板。

3）第二轮PCR反应

将上述步骤2）得到的DNA洗脱液作为PCR的模板，每种引物组合平行做3管第二轮PCR反应。

PCR反应体系（30μl）：DNA模板(80ng/μl)5μl；10×2rM3或10×2rM5或10×2rM8或10×2rM11或10×2rM143μl；AP2（第二轮PCR通用引物，10μM）0.6μl；2×Phusion高保真聚合酶PCR master mix（或2×QIAGEN Multiplex PCR master mix）15μl；ddH₂O6.4μl。每种引物组合得到3管PCR产物。

反应结束后，用QIAquickPCR purification kit试剂盒，按照说明书对第二轮PCR产物进行纯化，每种引物组合得到3管PCR产物共90μl，进行纯化及洗脱，最后每种引物组合得到21μl洗脱液。

第二轮洗脱溶液的DNA浓度检测：取1μl步骤4）的洗脱溶液测定其DNA含量，用ND-1000分光光度计（Thermo）测定，每管DNA浓度=100ng/μl，并用1.2%的琼脂糖胶检测洗脱液的浓度。第二轮的洗脱液作为第三轮的PCR模板。

4）第三轮PCR反应

将上述步骤3）得到的得到的DNA洗脱溶液作为PCR的模板，每种引物组合平行做3管第三轮PCR反应。

PCR反应体系（30μl）：DNA模板(100ng/μl)2μl；MultiplexingPCRprimer1.0(25μM)0.6μl；Index1.2(25μM)0.6μl；2×Phusion高保真聚合酶PCR master mix（或QIAGENMultiplex PCR master mix）15μl；ddH₂O11.8μl。且第二轮PCR反应采用的聚合酶与第三轮PCR反应采用的聚合酶前后保持一致。

PCR反应程序：98℃30s；18个循环（98℃10s，65℃30s，72℃30s）；72℃5min；10℃保温。

反应结束后，用1.2%的琼脂糖胶检测第三轮PCR产物，取1μl第三轮PCR产物在琼脂糖胶上检测。结果如图2所示，从图2中可以看出，经过3轮PCR后可以有效的富集DNA片段，但是引物序列较多，需要经过切胶回收后除去目的片段以外的序列。

用QIAquick Gel Extraction Kit纯化第三轮PCR产物，按照试剂盒说明书对第三轮PCR产物进行纯化，得到30μl的DNA洗脱液。该DNA洗脱液即为用于Illumina GA测序上机所用的DNA测序模板。

用1.2%琼脂糖检测胶纯化后的DNA，取1μl胶纯化后DNA洗脱液样品用1.2%琼脂糖胶检测。结果如图3所示，从图3中可以看出，经过切胶回收后的第三轮PCR产物，浓度明显降低。要经过检测并定量后再上Illumina GA测序。

4、Illumina GA测序及数据分析

将步骤3得到的纯化后DNA测序模板经定量后，采用图1中所示的测序引物2对图1中所示的随机区进行Illumina GA标准测序，对所得数据进行分析如下：

（1）数据总量：9Gb

（2）去除低质量数据及标签部分没有测出的reads后，剩余数据7Gb

（3）本实验共涉及10个tag（如下index02和index04除外），其序列与标签对应的关系为：

tag添加在测序引物2的下游，因此以双端测序的数据2为标准按照标签将数据分开，结果如下：

从该结果中发现，能被分到12个标签中的reads数/clean reads数为17508368/17649070(99%)

（4）使用bowtie将各个index的数据分别比对到参考序列上，而后用samtools 2.0处理比对结果，生成pile up后的结果。分析比对结果如表4所示：

表6不同引物个数测序平均深度对比图

注：PMP为使用Phusion高保真聚合酶进行试验的结果，PMM为使用Multiplex多重聚合酶试验的结果。index行为标签编号。引物个数行为各个标签的实验中所进行的多重PCR特异性引物的个数。“阴影部分”为各个比对区域的平均测序深度，其中浅色背景表示正常，深色背景表示无比对序列或只有引物数据或深度过低（无比对序列的数值为0，过高的为数值大于7000，过低的为数值低于2000）。正常产物个数为各个标签（对应不同引物个数）所得的可用产物个数。reads利用率为各个标签比对在参考序列上的数据量与各个标签的数据量之比（每一个标签的数据只有一部分能够比对在基因组上，因此有数据利用率的问题。计算的方法是：标签中能比对到基因组上的数据量(bp)/本标签的总数据量）。数据量为各个标签得到的文件大小。

分析以上结果，得到如下几点：

A）两种聚合酶获得的可用产物数量的比较：如图4所示，从图中可以看出，两种聚合酶进行多重PCR的实验中，PMP获得的可用产物数量稍多于PMM获得的可用产物数量（在使用11个引物同时扩增时）。随着引物数量的增加，实际可用产物数量越发远离理论产物数量，但仍未达到平台期，引物数量仍然可以增加。

B）两种聚合酶不同引物个数所得平均深度分析：如图5所示，由图可以明显看出，PMM所得深度变化无明显规律，标准差较大，说明深度差异大。PMP所得平均深度随着引物数量的增加而减少，标准差逐渐增加，但相对于PMM仍然较小，因此PMP进行多重PCR更有利于测序深度的均一化，使得所有目的位置都能得到有效检测，否则有些位置检测的数据量很大造成浪费，而另一些目的位置检测数据很少则无法得出有效分析结果。

C）两种聚合酶不同引物个数所得数据的利用率比较：如图6所示，整体看来都有增加的趋势。PMM对数据的利用率增加缓慢，而PMP在11个引物之前随着引物数量的增加对测序数据的利用率显著增大，在14个引物时出现回落。这种现象说明在引物数量在一定范围内增加时，能够抑制PCR反应中的非特异性扩增。

D）index03的碱基C变化为碱基T（对实验材料进行了于叠氮化钠溶液中浸泡的处理，这种处理会特异性地诱导碱基C变成碱基T，或是碱基G变化为碱基A。）的频率分析：如图7所示，可以看出已知阳性点（阳性点是指已经知道在该点位置上存在突变的点，将阳性点放入实验中可以检查本方法是否能够有效检测真实的碱基变化）的碱基变化频率均明显高出非阳性点（非阳性点在本例中指的是存在由测序错误造成的碱基变化的碱基位置。本实验的目的即证明本方法可以将阳性点（真实突变）与非阳性点（测序错误）有效区别开）的变化频率。另外两个频率明显高于其它非阳性点的碱基有可能为实验材料中存在但未被其它实验发现的突变点，因为在其它index中这两个位点均存在较高的C到T突变频率。

E）所有数据中某位置上C到T碱基变化的个数和该位置的测序深度的关系：如图8所示，可以观察到C到T碱基变化的个数与该位置上的测序深度之间并无明显的线性关系。计算相关系数可以得到Cor=0.0269702，两者基本独立，可以认为C到T变化的个数与测序深度无关。因此，只要真正的突变发生的个数的期望值明显高于测序错误所得的碱基变化个数，即可将真正的突变产生的信号同测序错误的背景信号分别开。

综上：通过本发明的试验验证了多重PCR富集DNA，并直接用于Illumina GA测序的可行性与可靠性。从实验数据的分析结果可以作出以下结论：

①Phusion高保真聚合酶相对于Multiplex聚合酶更适合用于本实验中的PCR反应。

②多重PCR反应中的引物数量可以在10个以上，增加引物数量可以增加数据的利用率，同时测序深度会缓慢减少，平均深度的变化会更加剧烈。

③突变位点可以通过简单的频率分布图清晰明了地看到，突变位点的确定简单明了。

④C到T的变化碱基个数与测序深度无关。

本发明同时采用Illumina公司标准前处理建库的测序方法对样品进行了测序，其检测的阳性率只有10%，即阳性点和非阳性点完全无法分开。

Claims

1.DNA测序模板的制备方法，包括如下步骤：

所述特异性引物2ros自5’端至3’端分为片段1和片段2，所述片段2与所述特异区域互补，且所述特异性引物2ros自3’端起第一个核苷酸与所述待测序位点之间的距离比所述特异性引物1ros自3’端起第一个核苷酸与所述待测序位点之间的距离更近；所述片段1与所述待测序位点的上游不互补；所述通用引物2的序列选自步骤（1）所述接头中所述长链的5’端突出部分的序列；

所述通用引物3的自5’端至3’端分为片段3和片段4，所述片段4选自步骤（3）所述片段1，所述片段3为如下a）：

a）AATGATACGGCGACCACCGAGATCTACACTCTTTCCC；

b）CAAGCAGAAGACGGCATA。

2.根据权利要求1所述的方法，其特征在于：权利要求1步骤（2）-（4）的三次所述PCR反应所用的DNA聚合酶均为Phusion高保真DNA聚合酶。

3.根据权利要求1或2所述的方法，其特征在于：所述接头中所述长链的序列如序列表中序列1-10所示，所述接头中所述短链的序列为如下中的任一种：

4.根据权利要求1-3中任一所述的方法，其特征在于：用于所述第一次PCR反应的所述通用引物1序列为序列表中序列11。

5.根据权利要求1-4中任一所述的方法，其特征在于：用于所述第二次PCR反应的所述通用引物2序列为序列表中序列12。

6.根据权利要求1-5中任一所述的方法，其特征在于：用于所述第三次PCR反应的所述通用引物3和所述通用引物4的序列分别为序列表中序列13和14。