CN103882530A

CN103882530A - 用随机序列标记质粒对dna片段进行高通量两端测序的方法

Info

Publication number: CN103882530A
Application number: CN201410116844.2A
Authority: CN
Inventors: 刘晓; 徐志超; 尉晓林; 吴仲义; 阮珏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2014-06-25
Anticipated expiration: 2034-03-26
Also published as: CN103882530B; US20200131504A1; WO2015144045A1

Abstract

本发明公开了一种用随机序列标记质粒对DNA片段进行高通量两端测序的方法。本发明还提供了一种用于对DNA片段进行高通量两端测序的质粒库，质粒库中每个质粒均由质粒骨架片段和自上游到下游依次由标记序列1、待测DNA插入位点序列和标记序列2组成的DNA片段连接而成；且质粒库中任两种质粒，所述标记序列1和所述标记序列2的组合彼此不同；且所述质粒骨架片段中不含有与所述待测DNA插入位点序列相同的序列。利用本发明所提供的质粒库构建的文库除了拥有传统文库的特点外，还可以使用高通量的测序法对其中的基因组DNA进行两端测序。本发明使得长片段DNA两端测序具有了快速、便宜且准确的特点。

Description

用随机序列标记质粒对DNA片段进行高通量两端测序的方法

技术领域

本发明属于基因组学领域，涉及一种用随机序列标记质粒对DNA片段进行高通量两端测序的方法。

背景技术

基于第二代测序技术的全基因组散弹枪法以其成本低，速度快的特点使基因组学领域在过去的十多年间取得了飞速进展。但是，当测序片段长度大于1kb或者更长时，第二代测序技术也会遇到不可控性、错误率和成本骤升的瓶颈。由于测序片段长度的限制，基因组中长度大于1kb的重复序列将无法被有效测得而产生间隙（gap），从而给全基因组组装、单倍体分型、宏基因组学等研究带来很大麻烦。

而细菌人工染色体（BAC）质粒、酵母人工染色体（YAC）质粒、Fosmid、Cosmid质粒等文库的构建则不仅提供了长片段的基因组DNA以供Sanger法进行两端测序，建立跨间隙的联系，弥补了第二代测序读长不足的缺点，同时还可以作为一个文库，随时为该物种的遗传学、分子生物学及生物化学研究提供素材。这一技术的缺点则是使用Sanger法测序太慢且昂贵。

发明内容

本发明的一个目的是提供一种用于对待测DNA片段进行高通量两端测序的质粒库。

本发明所提供的质粒库中，每个质粒均为由质粒骨架片段和具有特定结构的DNA片段连接而成的双链环形DNA，所述具有特定结构的DNA片段自上游到下游依次由标记序列1、待测DNA插入位点序列和标记序列2组成；

所述质粒库中的任意两种质粒，所述标记序列1和所述标记序列2的组合彼此不同；且

所述质粒库中，所述质粒骨架片段中不含有与所述待测DNA插入位点序列相同的序列。

在本发明的一个实施例中，所述质粒库中的任意两种质粒，所述质粒骨架片段和所述待测DNA插入位点序列均彼此相同。

所述质粒库中的质粒在100种以上。

其中，所述标记序列1和所述标记序列2的组合彼此不同，可理解为：所述质粒库中的任意两种质粒，各自所携带的两个标记序列中至少有一个彼此不同，最好为两个标记序列均彼此不同。

其中，所述标记序列1和所述标记序列2的长度均可为10-200bp，如10-40bp，再如15-25bp。

所述待测DNA插入位点序列可为酶切位点识别序列、用于同源重组的上下游同源臂序列、其他用于插入待测DNA的结构序列，或者在以上各序列基础上增加其它DNA序列但同样能够用于插入待测DNA的序列。所述待测DNA插入位点序列的长度可为4bp-1Kb。当所述待测DNA插入位点序列为酶切位点识别序列时，其长度可为4bp-100bp；当所述待测DNA插入位点序列为用于同源重组的上下游同源臂序列时，其长度可为50bp-1Kb。

在本发明的一个实施例中，所述待测DNA插入位点序列具体为酶切位点识别序列，所述质粒库中的每个质粒，除所述酶切位点识别序列外的部分不含有所述酶切位点识别序列对应的酶切位点。

所述质粒骨架片段可来自于细菌人工染色体质粒、酵母人工染色体质粒、Fosmid质粒或Cosmid质粒。

在本发明的一个实施例中，所述质粒骨架片段来自于Fosmid质粒—pcc2FOS质粒。具体而言，所述质粒骨架片段为将pcc2FOS质粒从第362位至第403位之间的核苷酸去除，同时将第355位的A碱基突变为C碱基，410位的T碱基突变为G碱基，437位的A碱基突变为G碱基后得到的片段。相应的，所添加的所述酶切位点识别序列为将BamH I、Nhe I和Hind III的识别序列顺次连接后形成的序列。

在所述质粒库中，所述标记序列1和所述标记序列2可全部由随机序列（核苷酸的排列顺序是随机的）组成，也可由随机序列与特定序列以多形式组合而成（如含有多个离散的1bp或1bp以上随机序列的序列）。无论是哪种情况，其原则是所述标记序列1和所述标记序列2的具体核苷酸序列组合在理论上均有100种以上可能，将质粒库中的质粒分为超过100种（且绝大多数质粒中任两种的所述标记序列1和所述标记序列2均彼此不同），从而满足高通量测序的要求。

本发明的还一个目的是提供一种制备所述质粒库的方法。

本发明所提供的制备所述质粒库的方法，具体可包括如下（a）和（b）的步骤：

（a）按照如下（a1）-（a3）的步骤设计正向引物丙和反向引物丙：

（a1）根据出发质粒的待插入位点或待取代区域上游的序列设计用于扩增质粒骨架片段的反向引物甲，根据所述出发质粒的所述待插入位点或所述待取代区域下游的序列设计用于扩增质粒骨架片段的正向引物甲；

（a2）在所述反向引物甲的5’末端连接长度为10-200bp的序列A，得到的引物记为反向引物乙；在所述正向引物甲的5’末端连接长度为10-200bp的序列B，得到的引物记为正向引物乙；

所述序列A和所述序列B为随机序列（核苷酸的排列顺序是随机的）或至少含有多个离散的1bp或1bp以上随机序列的序列；

（a3）在所述反向引物乙的5’末端连接序列C，得到的引物记为反向引物丙；在所述正向引物乙的5’末端连接序列D，得到的引物记为正向引物丙；

所述序列C和所述序列D满足如下条件：所述序列C的5’端和所述序列D的5’端均含有一个所述质粒骨架片段上不存在的酶切位点K；且所述序列C的5’端和所述序列D的5’端反向互补；且所述序列C为所述待测DNA插入位点序列的一条链的5’端的反向互补序列；所述序列D为所述DNA插入位点序列的所述一条链的3’端的序列；

（b）以所述出发质粒为模板，以所述正向引物丙和所述反向引物丙进行PCR扩增，将所得PCR产物用核酸内切酶K消化后自连，即得到所述质粒库。

其中，将所述PCR产物自连后还包括将连接产物转化受体菌（如大肠杆菌，具体如大肠杆菌EPI300）的步骤，从转化后的菌株中提取质粒得到所述质粒库。

在所述方法中步骤（a2）中，所述序列A和所述序列B的长度进一步可为10-40bp。在本发明的一个实施例中，所述序列A和所述序列B的长度均具体为15-25bp。

在上述方法的步骤（a3）中，所述待测DNA插入位点序列可为酶切位点识别序列、用于同源重组的上下游同源臂序列，或其他用于插入待测DNA的结构序列。所述待测DNA插入位点序列的长度可为4bp-1Kb。当所述待测DNA插入位点序列为酶切位点识别序列时，其长度可为4bp-100bp；当所述待测DNA插入位点序列为用于同源重组的上下游同源臂序列时，其长度可为50bp-1Kb。

在所述质粒骨架片段中，不含有与所述待测DNA插入位点序列相同的序列。

在本发明的一个实施例中，所述待测DNA插入位点序列具体为酶切位点识别序列。

在上述方法中，所述出发质粒为细菌人工染色体质粒、酵母人工染色体质粒、Fosmid质粒或Cosmid质粒。在本发明的一个实施例中，所述出发质粒具体为Fosmid质粒—pcc2FOS质粒。相应的，所述出发质粒的待取代区域为pcc2FOS质粒的第362-403位核苷酸所组成的序列；所述质粒骨架片段为将pcc2FOS质粒从第362位至第403位之间的核苷酸去除，同时将第355位的A碱基突变为C碱基，410位的T碱基突变为G碱基，437位的A碱基突变为G碱基后得到的片段；作为所述待测DNA插入位点序列的所述酶切位点识别序列为将BamH I、Nhe I和Hind III的识别序列顺次连接后形成的序列。

在本发明的一个实施例中，上述方法的步骤（a3）具体为：

在所述反向引物乙的5’末端连接如下序列得到反向引物丙：将酶切位点Nhe I和BamH I的识别序列顺次连接后形成的序列（对应所述序列C）；

在所述正向引物乙的5’末端连接如下序列得到正向引物丙：将酶切位点Nhe I和Hind III的识别序列顺次连接后形成的序列（对应所述序列D）。

即所述酶切位点K为酶切位点Nhe I。

相应的，上述方法的步骤（b）为：以所述出发质粒为模板，以所述正向引物丙和所述反向引物丙进行PCR扩增，用限制性内切酶Nhe I酶切所得PCR产物，酶切产物自连，即得到所述质粒库。

所述质粒库在对待测DNA片段进行高通量两端测序中的应用也属于本发明的保护范围。

在所述应用中，所述待测DNA片段的长度可为15kb-400kb。

另外，满足如下条件的线性化质粒库也属于本发明的保护范围：

所述线性化质粒库与将上述本发明所提供的所述质粒库从所述待测DNA插入位点序列处进行线性化后得到的线性化片段，在序列上相同。

本发明的另一个目的是提供一种利用所述质粒库或所述线性化质粒对待测DNA片段进行高通量两端测序的方法。

本发明所提供的利用所述质粒库对待测DNA片段进行高通量两端测序的方法，流程图如图1所示，具体可包括如下步骤：

（1）按照如下设计正向引物A和反向引物A：

根据所述质粒骨架片段的3’端的序列设计正向引物1，根据所述质粒骨架片段的5’端的序列设计反向引物1；在所述正向引物1的5’端连接用于高通量测序的接头序列1，得到的引物记为正向引物A；在所述反向引物1的5’端连接与所述接头序列1配对使用的接头序列2，得到的引物记为反向引物A；

（2）以所述质粒库为模板，以所述正向引物A和所述反向引物A进行PCR扩增，得到PCR产物1；根据所述接头序列1和所述接头序列2将所得PCR产物1进行高通量测序，获得所述质粒库中每个质粒的所述标记序列1和所述标记序列2的序列，将存在于同一质粒中的所述标记序列1和所述标记序列2配对；

（3）将批量待测DNA片段克隆到所述质粒库的所述待测DNA插入位点序列，所述质粒库中每个质粒克隆入一个所述待测DNA片段，将得到的重组质粒转化受体菌，获得DNA文库；

（4）从步骤（3）获得的DNA文库中提取重组质粒，获得重组质粒库；

（5）平行进行如下I）和II）：

I）用限制性内切酶M酶切步骤（4）获得的重组质粒库，超声破碎，将破碎的DNA片段环化，得到环化DNA分子库1；

II）用限制性内切酶M’酶切步骤（4）获得的重组质粒库，超声破碎，将破碎的DNA片段环化，得到环化DNA分子库2；

所述限制性内切酶M和所述限制性内切酶M’满足如下条件：所述限制性内切酶M在所述质粒库中位于所述质粒骨架片段的3’端，所述限制性内切酶M’在所述质粒库中位于所述质粒骨架片段的5’端，且两者距离所述标记序列1或所述标记序列2的距离小于10kb；

所述限制性内切酶M和所述限制性内切酶M’可为相同的限制性内切酶，也可为不同的限制性内切酶；

（6）按照如下设计正向引物B、反向引物B、正向引物C和反向引物C：

根据所述质粒骨架片段的3’端的序列设计正向引物2和反向引物2，根据所述质粒骨架片段的5’端的序列设计正向引物3和反向引物3；

在所述正向引物2的5’端连接用于高通量测序的接头序列3，得到的引物记为正向引物B；在所述反向引物2的5’端连接与所述接头序列3配对使用的接头序列4，得到的引物记为反向引物B；

在所述正向引物3的5’端连接所述接头序列3，得到的引物记为正向引物C；在所述反向引物3的5’端连接所述接头序列4，得到的引物记为反向引物C；

（7）以步骤（5）获得的所述环化DNA分子库1为模板，以所述正向引物B和所述反向引物B进行PCR扩增，得到PCR产物2；

以步骤（5）获得的所述环化质粒库2为模板，以所述正向引物C和所述反向引物C进行PCR扩增，得到PCR产物3；

根据所述接头序列3和所述接头序列4将所得PCR产物2和所述PCR产物3分别进行高通量测序，从所述环化DNA分子库1中获得所述标记序列1及其下游的所述待测DNA片段的5’端序列，从所述环化DNA分子库2中获得所述标记序列2及其上游的所述待测DNA片段的3’端序列；

（8）根据步骤（2）中获得所述标记序列1和所述标记序列2的配对关系，确定每个所述待测DNA片段的两端序列，从而实现对所述待测DNA片段的高通量两端测序。

在所述方法的步骤（3）中，所述受体菌可为大肠杆菌。在本发明的一个实施例中，所述受体菌为大肠杆菌DH10b菌株。

在所述方法中，所述高通量测序可为第二代DNA测序。进行高通量测序时所采用的接头序列根据使用的测序仪确定。在本发明中，所采用的测序仪具体为illumina公司生产的Hiseq2000和Miseq测序仪。步骤（1）中的高通量测序（第一轮高通量测序）采用的为Hiseq2000测序仪；步骤（7）中的高通量测序（第二轮高通量测序）采用的为Miseq测序仪。相应的，所采用的接头序列如下：所述接头序列1和所述接头序列3的序列为：5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’；所述接头序列2和所述接头序列4的序列均为5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’（其中NNNNNN为反应索引index，用于和同一批上流室的其他样品区分开的序列）。

在所述方法的步骤（5）中，所述“超声破碎”具体可为使用Covaris公司生产的S220/E220聚焦超声破碎仪，瞬时最高功率105W，占空比5%处理40秒。所述“将破碎的DNA片段环化”具体可为使用DNA末端修复酶（NEB）将破碎的DNA片段两端修复为平末端后用T4DNA连接酶（NEB）连接DNA两端实现环化。

在本发明的一个实施例中，步骤（5）中所述的限制性内切酶M和所述限制性内切酶M’均具体为限制性内切酶PvuII。

在所述方法中，所述待测DNA片段的长度可为15kb～400kb。

作为本领域技术人员，可以预见如下利用所述线性化质粒库进行高通量测序的方法的可行性：

（I）将所述线性化质粒库（如HindIII）直接连入所述待测DNA片段构建所述DNA文库（对应以上步骤（3））；一方面，对所述DNA文库直接进行高通量测序（对应同以上步骤（4）-（7）），从而获得所述标记序列1及其下游的所述待测DNA片段的5’端序列，以及所述标记序列2及其上游的所述待测DNA片段的3’端序列；另一方面，将所述DNA文库中连入的所述待测DNA片段（如使用与之前线性化相同的酶HindIII）去除后，再将质粒骨架环化得到空质粒，然后再对所述空质粒进行高通量测序（对应以上步骤（1）-（2）），从而获得所述标记序列1和所述标记序列2的配对关系；

（II）根据步骤（I）中获得的信息，确定每个所述待测DNA片段的两端序列，从而实现对所述待测DNA片段的高通量两端测序。

以上方法也属于本发明的保护范围。

本发明制备了用随机序列标记的质粒库，使用这种质粒库构建的文库除了拥有传统文库的特点外，还可以使用高通量的测序法，如第二代测序法对其中的基因组DNA进行两端测序。本发明使得长片段DNA两端测序具有了快速、便宜且准确的特点。

附图说明

图1为利用本发明所提供的对待测DNA片段进行高通量两端测序的流程图。

图2为本发明所提供的随机序列标记的质粒库的构建方法示意图。

图3为以表1中的BAC载体a为例，其插入片段两端序列分别匹配到酵母基因组4号染色体的两处，而由于之前对空载体的测序可知插入片段两端序列相连的随机序列标签来自同一个载体，于是得到相距153,401bp的两段相互配对序列。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

pcc2FOS质粒：Epicentre公司产品，其产品目录号为ccfos059。

酵母S288C：美国模式菌种收集中心（ATCC），编号204508。

大肠杆菌EPI300：Epicentre公司产品，其产品目录号为EC300105。

大肠杆菌DH10b：Life technologies公司产品，其产品目录号为18297-010。

实施例1、用随机序列标记的质粒库的制备

本实施例以pcc2FOS质粒为例，构建将含有随机序列的外源片段替换pcc2FOS质粒的第362-403位核苷酸的质粒库。具体如下：

（1）根据pcc2FOS质粒待插入位置上游的序列设计用于扩增质粒骨架片段的反向引物甲，根据pcc2FOS质粒的待插入位置下游的序列设计用于扩增质粒骨架片段的正向引物甲。

（2）在所述反向引物甲的5’末端和所述正向引物的5’末端分别连接长度为15-25bp的随机序列为标签，得到的引物分别记为反向引物乙和正向引物乙；

在所述反向引物乙的5’末端顺次连接酶切位点Nhe I和BamH I的识别序列，得到的引物记为反向引物丙（序列如下）；在所述正向引物乙的5’末端顺次连接酶切位点Nhe I和Hind III的识别序列，得到的引物记为正向引物丙（序列如下）。

正向引物丙：

5’-TAGC-GCTAGC-AAGCTT-CC-(N)_15-25-GTGGGAGCCTCTAGAGTCG-3’（下划线部分依次为酶切位点Nhe I和Hind III的识别序列，(N)15-25后的序列为正向引物甲的序列，粗斜体的碱基G为pcc2FOS质粒的第410位的突变碱基）；

反向引物丙：

5’-CGAT-GCTAGC-GGATCC-(N)_15-25-GTGGGAGCCCCGGGTA-3’（下划线部分依次为酶切位点Nhe I和BamH I的识别序列，(N)_15-25后的序列为反向引物甲的序列，粗斜体的碱基G为pcc2FOS质粒的第355位的突变碱基）。

其中，(N)_15-25表示随机引物序列，N可为A、T、C或G；下角标处15-25表示随机引物碱基数目。

（3）以pcc2FOS质粒为模板，先以如下正向突变引物和反向突变引物进行PCR扩增，得到突变后的pcc2FOS。

正向突变引物：5’-ttcctaggctgtttcctggtgggaGcctctagagtcgacctgcaggcatgcGagctt-3’（第一个大写的G为410位的T碱基突变的G碱基，第二个大写的G为437位的A碱基突变的G碱基）

反向突变引物：5’-gtctaggtgtcgttgtacgtgggaGccccgggtaccgagctc-3’（大写的G为第355位的A碱基突变的C碱基的反向互补碱基）

再以突变后的pcc2FOS为模板，以步骤（2）中的所述正向引物丙和所述反向引物丙进行PCR扩增，将PCR产物切胶回收，用NheI酶切，最后将酶切产物回收后自连环化得到随机序列标记的质粒库（图2），再将质粒转化入大肠杆菌EPI300后-80℃保存。

实施例2、利用实施例1制备的质粒库对待测DNA长片段进行高通量两端测序

本实施例中待测DNA长片段来自于酵母S288C的基因组（http://downloads.yeastgenome.org/sequence/S288C_reference/genome_releases/S288C_reference_genome_Current_Release.tgz）。

利用实施例1制备的质粒库对待测DNA长片段进行高通量两端测序的方法具体如下：

1、第一轮高通量测序

测序仪：Illumina公司生产的Hiseq2000测序仪。

（1）根据pcc2FOS质粒待插入位点上游的序列设计正向引物1，根据pcc2FOS质粒的待插入位点下游的序列设计反向引物1；在所述正向引物1的5’末端连接用于高通量测序的接头序列1，得到的引物记为正向引物A（序列如下）；在所述反向引物1的5’末端连接与所述接头序列1配对使用的接头序列2，得到的引物记为反向引物A（序列如下）。

正向引物A：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-acgactcactatagggcgaat-3’（大写字母序列为接头序列1，小写字母序列为正向引物1的序列）；

反向引物A：

5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-cgccaagctatttaggtgagac-3’（大写字母序列为接头序列2，小写字母序列为反向引物1的序列）；

其中，反向引物A的“NNNNNN”是反应索引（index），N可为A、T、C或G，用于和同一批上流室的其他样品区分开的序列。

（2）取实施例1冻存的含有质粒库的大肠杆菌EPI300转基因株，在LB液体培养基中培养后提取质粒。以所得质粒为模板，利用以所述正向引物A和所述反向引物A进行PCR扩增，得到PCR产物（随机序列-酶切位点识别序列-随机序列）；根据所述接头序列1和所述接头序列2将所得PCR产物进行高通量测序，获得所述质粒库中每个质粒中两个随机序列的具体序列信息，将存在于同一质粒中的两个随机序列配对，即得到不同的随机序列相互配对关系。

2、插入待测DNA长片段建立文库

（1）酵母基因组DNA长片段的获得：收集液体培养的酵母S288C，消化细胞壁后，将酵母原生质体均匀地包埋在低熔点胶栓中。用蛋白酶K处理去掉蛋白质。将含酵母的胶栓用限制性内切酶Hind III预酶切，最终确定采用20U/ml的酶浓度37℃反应10分钟。最后用脉冲电泳回收120kb到300kb大小的酵母基因组DNA片段。

（2）用限制性内切酶Hind III酶切实施例1制备的质粒库，使用去磷酸化法或者部分补平法进行末端补平处理，使其无法自连，再加入步骤（1）中提取完毕的长片段基因组DNA进行连接。将插有长片段基因组DNA的质粒转化大肠杆菌DH10b，得到酵母S288C的基因组BAC文库。

3、第二轮高通量测序

测序仪：Illumina公司生产的Miseq测序仪。

（1）将整个BAC文库中的大肠杆菌一起培养，提取插有基因组片段的质粒（另随机抽取11个质粒，编号为a-k，进行Sanger测序，用于对本发明方法准确性的验证）。将质粒先使用限制性内切酶PvuII（在pcc2FOS质粒的待插入位置的上游和下游不远处，即第218bp和第651bp处均有一个PvuII酶切位点识别序列）酶切，再使用Covaris公司生产的S220/E220聚焦超声破碎仪，瞬时最高功率105W，占空比5%处理40秒。然后将碎片的DNA片段使用DNA末端修复酶（NEB公司）修复为平末端后用T4DNA连接酶（NEB公司）连接片段两端实现环化，得到环化DNA分子库。

（2）根据pcc2FOS质粒待插入位置上游的序列设计正向引物2和反向引物2，根据pcc2FOS质粒待插入位置下游的序列设计正向引物3和反向引物3；在所述正向引物2的5’末端连接用于高通量测序的接头序列3，得到的引物记为正向引物B（序列如下）；在所述反向引物2的5’末端连接与所述接头序列3配对使用的接头序列4，得到的引物记为反向引物B（序列如下）；在所述正向引物3的5’末端连接所述接头序列3，得到的引物记为正向引物C（序列如下）；在所述反向引物3的5’末端连接所述接头序列4，得到的引物记为反向引物C（序列如下）。

正向引物B：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-acgactcactatagggcgaat-3’（大写字母序列为接头序列3，小写序列为正向引物2的序列）；

反向引物B：

5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-aatcgccttgcagcacatcc-3’（大写字母序列为接头序列4，小写字母序列为反向引物2的序列）。

正向引物C：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-ttccagtcgggaaacctgtc-3’（大写字母序列为接头序列3，小写字母序列为正向引物3的序列）；

反向引物C：

5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-cgccaagctatttaggtgagac-3’（大写字母序列为接头序列4，小写字母序列为反向引物3的序列）。

其中，反向引物B和反应引物C中，“NNNNNN”是反应索引（index），N可为A、T、C或G，用于和同一批上流室的其他样品区分开的序列。

（3）以步骤（1）获得的所述环化DNA分子库为模板，以由所述正向引物B和所述反向引物B组成的引物对，以及由所述正向引物C和所述反向引物C组成的引物对，分别进行PCR扩增，得到PCR产物；根据所述接头序列3和所述接头序列4将所得PCR产物分别进行高通量测序，最终得到随机序列标签和长片段基因组DNA末端序列的关系。

最后，利用步骤1得到的随机序列标签配对关系，以及随机序列和长片段基因组DNA末端序列的关系得到每个待测长片段DNA两端的序列。

以上述被编号为a-k的11个提取于步骤2获得的酵母S288C的基因组BAC文库中的BAC重组载体为例，将经过第二轮测序获得的序列结果，通过BLAST与酵母S288C基因组序列进行比对。结果显示，11个质粒中各个随机序列均能正确地引导各自连接的长片段基因组序列进行配对。除了一个BAC重组载体的插入片段落入基因组重复区以外，其他载体的插入片段均能被正确地定位到酵母S288C的基因组上，且片段大小正常。具体结果详见表1和图3。

表111个BAC重组载体的测序比对结果

可见，利用本发明实施例1制备的质粒库，参照实施例2的方法，可实现快速、准确的对待测DNA长片段进行高通量两端测序。

Claims

1.质粒库，其特征在于：所述质粒库中的每个质粒均为由质粒骨架片段和具有特定结构的DNA片段连接而成双链环形DNA，所述具有特定结构的DNA片段自上游到下游依次由标记序列1、待测DNA插入位点序列和标记序列2组成；且

2.权利要求1所述质粒库的制备方法，包括如下步骤：

（a1）根据出发质粒的待插入位点或待取代区域上游的序列设计用于扩增质粒骨架片段的反向引物甲，根据所述出发质粒的待插入位点或待取代区域下游的序列设计用于扩增质粒骨架片段的正向引物甲；

（a2）在所述反向引物甲的5’末端连接长度为10-200bp的序列A，得到的引物记为反向引物乙；在所述正向引物甲的5’末端连接长度为10-200bp的序列B，得到的引物记为正向引物乙；所述序列A和所述序列B为随机序列或含有多个离散的1bp或1bp以上随机序列的序列；

（b）以所述出发质粒为模板，以所述正向引物丙和所述反向引物丙进行PCR扩增，将所得PCR产物用核酸内切酶K消化并自连后得到所述质粒库。

3.根据权利要求1所述的质粒库，其特征在于：所述标记序列1和所述标记序列2的长度均为10-200bp。

4.根据权利要求1-3中任一所述的质粒库或方法，其特征在于：所述待测DNA插入位点序列为酶切位点识别序列；

所述酶切位点识别序列的长度具体为4bp-100bp。

5.根据权利要求1-4中任一所述的质粒库或方法，其特征在于：

所述质粒骨架片段来自于细菌人工染色体质粒、酵母人工染色体质粒、Fosmid质粒或Cosmid质粒；或

所述出发质粒为细菌人工染色体质粒、酵母人工染色体质粒、Fosmid质粒或Cosmid质粒。

6.根据权利要求5所述的质粒库或方法，其特征在于：所述细菌人工染色体质粒为pcc2FOS质粒；或

所述质粒骨架片段为将pcc2FOS质粒从第362位至第403位之间的核苷酸去除，同时将第355位的A碱基突变为C碱基，410位的T碱基突变为G碱基，437位的A碱基突变为G碱基后得到的片段。

7.根据权利要求6所述的质粒库或方法，其特征在于：在所述质粒库中，所述酶切位点识别序列为将BamH I、Nhe I和Hind III的识别序列顺次连接后形成的序列；或

在所述方法的步骤（a3）中，所述序列C为将酶切位点Nhe I和BamH I的识别序列顺次连接后形成的序列；所述序列D为将酶切位点Nhe I和Hind III的识别序列顺次连接后形成的序列；或

在所述方法的步骤（b）中，所述核酸内切酶K为限制性内切酶Nhe I。

8.线性化质粒库，其特征在于：所述线性化质粒库与将权利要求1和3-7中任一所述的质粒库从所述待测DNA插入位点序列处进行线性化后得到的线性化片段在序列上相同。

9.权利要求1和3-8中任一所述的质粒库或所述的线性化质粒库在对待测DNA片段进行高通量两端测序中的应用。

10.一种利用权利要求1和3-8中任一所述的质粒库或所述的线性化质粒库对待测DNA片段进行高通量两端测序的方法，包括如下步骤：

（1）按照如下设计正向引物A和反向引物A：

根据权利要求1和3-8任一中所述的质粒骨架片段的3’端的序列设计正向引物1，根据所述质粒骨架片段的5’端的序列设计反向引物1；在所述正向引物1的5’末端连接用于高通量测序的接头序列1，得到的引物记为正向引物A；在所述反向引物1的5’末端连接与所述接头序列1配对使用的接头序列2，得到的引物记为反向引物A；

（2）以权利要求1和3-8中任一所述的质粒库为模板，以所述正向引物A和所述反向引物A进行PCR扩增，得到PCR产物1；根据所述接头序列1和所述接头序列2将所得PCR产物1进行高通量测序，获得所述质粒库中每个质粒的所述标记序列1和所述标记序列2的序列，将存在于同一质粒中的所述标记序列1和所述标记序列2配对；

（3）将批量待测DNA片段克隆到所述质粒库的所述酶切位点识别序列，所述质粒库中每个质粒克隆入一个所述待测DNA片段，将得到的重组质粒转化受体菌，获得DNA文库；

（5）平行进行如下I）和II）：

所述限制性内切酶M和所述限制性内切酶M’满足如下条件：所述限制性内切酶M在所述质粒库中位于所述质粒骨架片段的3’端，所述限制性内切酶M’在所述质粒库中位于所述质粒骨架片段的5’端，且两者距离权利要求1和3-8任一中所述的标记序列1或所述标记序列2的距离小于10kb；

根据权利要求1和3-8任一中所述的质粒骨架片段的3’端的序列设计正向引物2和反向引物2，根据所述质粒骨架片段的5’端的序列设计正向引物3和反向引物3；

在所述正向引物2的5’末端连接用于高通量测序的接头序列3，得到的引物记为正向引物B；在所述反向引物2的5’末端连接与所述接头序列3配对使用的接头序列4，得到的引物记为反向引物B；

在所述正向引物3的5’末端连接所述接头序列3，得到的引物记为正向引物C；在所述反向引物3的5’末端连接所述接头序列4，得到的引物记为反向引物C；

（7）以步骤（5）获得的所述环化质粒库1为模板，以所述正向引物B和所述反向引物B进行PCR扩增，得到PCR产物2；

根据所述接头序列3和所述接头序列4将所得PCR产物2和所述PCR产物3进行高通量测序，从所述环化DNA分子库1中获得所述标记序列1及其下游的所述待测DNA片段的5’端序列，从所述环化DNA分子库2中获得所述标记序列2及其上游的所述待测DNA片段的3’端序列；