CN102690809A

CN102690809A - Dna标签及其在构建和测序配对末端标签文库中的应用

Info

Publication number: CN102690809A
Application number: CN2011100711762A
Authority: CN
Inventors: 程磊
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Huada Qinglan Biotechnology Wuxi Co ltd; BGI Technology Solutions Co Ltd
Priority date: 2011-03-24
Filing date: 2011-03-24
Publication date: 2012-09-26
Anticipated expiration: 2031-03-24
Also published as: HK1175196A1; WO2012126398A1; CN102690809B

Abstract

本发明提供了一组DNA标签及其在构建和测序配对末端标签文库中的应用，所述DNA标签具有选自SEQ ID NO：1-24的序列。本发明还提供了构建和测序配对末端标签文库的方法，其只需通过2次独立测序反应，即可实现在单个测序芯片分区中对多个配对末端文库进行混合测序，从而加速了高通量测序，降低了时间和试剂花费，降低了单位数据产出的成本。

Description

DNA标签及其在构建和测序配对末端标签文库中的应用

技术领域

本发明涉及第二代高通量测序，特别是对配对末端文库进行混合测序的领域。更具体地，本发明涉及DNA标签及其在构建和测序配对末端标签文库中的应用。

背景技术

配对末端文库(mate-paired library)测序是指通过构建大片段文库，获得较大跨度(2-10kb)片段两端的序列。这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异的发掘具有非常重要的作用，特别适合于新基因组测序(De novosequencing)项目。目前，ABI SOLiD测序平台提供的配对末端文库制备方法(Applied Biosystems SOLiD^TM 4 System Library PreparationGuide P/N 4445673)如图1所示，其包括步骤：(1)片段化大核酸分子，产生目标核酸；(2)对片段化的目标核酸进行纯化和精修(End-Polishing)；(3)将帽接头(Cap Adaptor)连接至片段化的目标核酸的两个末端，以形成连接物标记的目标核酸；(4)通过生物素化的中间接头(Internal Adaptor)将上述连接有帽接头的核酸片段环化连接，形成带有生物素标记的环形分子产物；(5)在目标核酸区片段化所述环形核酸分子，产生含目标核酸的两个末端区的DNA构建体；(6)通过生物素-链霉亲和素亲和作用，使用链霉亲和素磁珠富集目标核酸片段；(7)对富集的目标核酸片段进行精修，并用接头P1和接头P2进行平末端连接，然后进行PCR扩增以形成配对末端文库。接着，对配对末端文库的测序包括：使用乳液PCR(emPCR)法将文库模版扩增到1μm的磁珠上，在单个磁珠上形成包含4-6万条分子模板的单克隆分子簇；对模板磁珠进行修饰，然后将其涂布在测序芯片上进行测序；其中第一个配对末端区(TAG1)利用和P1接头特异配对的一组测序引物进行测序，第二个配对末端区(TAG2)利用与中间接头和帽接头特异配对的一组测序引物进行测序。图2显示的是SOLiD测序平台对2×50配对末端文库的测序流程(Applied BiosystemsSOLiD^TM 4 System Library Preparation Guide P/N 4445673)。

DNA标签文库测序可最大化测序容量，减少样品制备流程，实现对多个DNA样品的混合测序。目前，在SOLiD系统中，在单分区芯片上对多个样品进行混合测序利用的是Barcode技术(SOLiD^TM SystemBarcoding)。图3为将SOLiD Barcodes整合到片段文库或配对末端文库的流程图。特别地，对于配对末端文库而言，文库构建的前期流程与图1相同，但在进行P1和P2接头连接步骤时，对P2接头进行修饰，即，添加SOLiD-Barcode序列以用于区分和识别样品，从而实现多个DNA样品的混合测序。具体地，在P2接头的连接位置附近添加一段由5-10个特异碱基组成的Barcode序列，从而在文库制备过程中，随着P2接头的连接，Barcode序列相应地被引入到待测序列的3′端；不同的样品对应不同的Barcode序列，从而对未知DNA序列和已知的Barcode序列的测序，使得能够利用不同的Barcode序列来区分不同样品的数据(参见图3右侧)。

目前，SOLiD Barcode s技术只在随机片段文库的混合测序中得到应用(SOLiD^TM 4 System Library Preparation Quick Reference CardP/N 4445674B，Multiplex Sequencing on the SOLiD^TM Platform with10，16，or 96 Barcodes)，其中，通过2次独立的测序反应，分别测定目标序列(TAG1)和Barcode序列(参见图3左侧)。在理论上，也可将SOLiD Barcode技术应用于多个配对末端文库的混合测序，其中必须分别对两段目标序列(TAG1和TAG2)及Barcode进行3次独立的测序反应(参见图3右侧)。然而，一方面，3次独立的测序反应导致测序成本大大提高；另一方面，在现有的SOLiD测序技术中，用于测定Barcode的引物序列和用于测定配对末端的TAG2区的引物序列是完全一致的，因此，不可能在同一个测序流程中既测定TAG2，又测定Barcode序列(相同的测序引物导致无法区分测序结果)。因此，到目前为止，SOLiD Barcoding技术还没有正式应用于多个配对末端文库的混合测序。

相反地，目前通常将不同的配对末端文库样品的模板磁珠分别涂布在测序芯片的不同分区内，然后再进行测序，最后通过不同的分区来区分文库样品。然而，测序芯片的分区将占用芯片空间，减少单个芯片的利用率，从而导致数据产出量降低。表1显示不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的对比。此外，现有的SOLiD测序仪第四版测序芯片最多可以分为8个区，即，每张测序芯片最多可以对8个配对末端文库样品进行测序，这远远不能满足测序通量日益增长的需要。

表1：不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的对比

因此，迫切需要对现有的配对末端文库的构建及测序方法进行改进，以提供更高效，且成本更低的配对末端文库混合测序方法。

发明内容

在本发明中，除非另有说明，否则本文中使用的科学和技术术语具有本领域技术人员所通常理解的含义。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

术语“标签(index)”和“DNA标签(DNA index)”在本文中可互换使用，其是指具有特定碱基序列的一段双链寡核苷酸。在本发明中，DNA标签为长度5bp的双链寡核苷酸，并且其一条链的序列选自SEQ ID NO：1-24。特别地，在本说明书中，当用序列标志符(SEQID NO：)表示标签时，其表示标签的一条链的序列为该序列标志符所示的序列。例如，当用SEQ ID NO：1描述标签时，其表示标签的一条链的序列为SEQ ID NO：1。另外，在本说明书中，所有DNA序列以5′至3′的方向给出。

如本文中使用的，“标签帽接头(indexed-cap adaptor)”是指带有标签的帽接头。

如本文中使用的，“配对末端标签文库(mate-paired indexedlibrary)”是指使用标签帽接头构建的配对末端文库。由于配对末端标签文库所使用的标签帽接头含有特异于样品的标签，因此，配对末端标签文库中的分子可以通过标签序列与样品一一对应。

本发明基于目前ABI SOLiD测序平台提供的配对末端文库制备方法，提供了一组DNA标签(DNA index)及利用其构建和测序配对末端标签文库的方法，从而克服了ABI SOLiD测序平台利用Barcode技术对多个配对末端文库进行混合测序需要3次独立的测序反应并且还未能得到实际应用的缺陷。

将DNA标签用于构建并测序配对末端文库时，为了保证测序仪流程运行正常，使信息分析流程足够简便，其序列必须满足如下原则：①用于混合测序的各样品的标签序列等长；②进行混合测序的标签序列组合在同一SOLiD测序循环中应保证4种荧光染料信号都可以被读出；③进行混合测序的标签序列两两之间应至少具有两个碱基的差异，以确保一个碱基的错读不至于混淆样品来源；④标签序列的最后一位必须为G。

因此，在本发明的一个方面，提供了一组DNA标签，所述标签为长度5bp的寡核苷酸，并且其序列选自SEQ ID NO：1-24(参见表2)。

在本发明的一个优选实施方案中，任意两个所述标签的序列之间至少具有2个碱基差异。

在本发明的一个优选实施方案中，一组标签包含选自SEQ ID NO：1-24的至少2种，优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签；更优选地，一组标签至少包括SEQ ID NO：1和2，或SEQ ID NO：3和4，或SEQ IDNO：5和6，或SEQ ID NO：7和8，或SEQ ID NO：9和10，或SEQ ID NO：11和12，或SEQ ID NO：13和14，或SEQ ID NO：15和16，或SEQ ID NO：17和18，或SEQ ID NO：19和20，或SEQ ID NO：21和22，或SEQ ID NO：23和24所示的标签，或者其任何两个或者多个的组合。

在一个优选实施方案中，本发明的标签用于标记帽接头，所述帽接头的两条链的序列分别为SEQ ID NO：25和SEQ ID NO：26。

在本发明的另一个方面，提供了本发明的DNA标签的用途，其可用于制备标签帽接头和/或用于构建和测序配对末端标签文库。优选地，本发明的标签用于标记其两条链的序列分别为SEQ ID NO：25和SEQ ID NO：26的帽接头，从而制备本发明的标签帽接头。

本发明的DNA标签还可以用于制备试剂盒，所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。

在本发明的另一个方面，提供了一种标签帽接头，其具有下式的结构：

5′-ACAGCAG(N)₅ 5′-phos-ACAGCAG(N)₅

5′-phos-(N′)₅CTGCTGTAC或5′-phos-(N′)₅CTGCTGTAC

其中，(N)₅表示选自SEQ ID NO：1-24的标签序列，(N′)₅表示所述标签序列的互补序列。

可用于构建配对末端文库的帽接头有两种，其分别为EcoP15I帽接头和LMP帽接头，其中EcoP15I帽接头的两条链的5′端都被磷酸化，而LMP帽接头只有一条链的5′端被磷酸化。

在本发明的另一个方面，提供了本发明的标签帽接头的用途，其可以用于构建和测序配对末端标签文库。本发明的标签帽接头还可以用于制备试剂盒，所述试剂盒用于构建和测序配对末端标签文库。

在本发明的另一个方面，提供了一种试剂盒，其包含本发明的一组标签，或本发明的标签帽接头。在本发明的一个优选实施方案中，本发明的试剂盒还包含其他试剂，例如，其两条链的序列分别为SEQ IDNO：25和SEQ ID NO：26的帽接头。

在本发明的另一个方面，提供了本发明的试剂盒的用途，其可以用于构建和测序配对末端标签文库。

在本发明的另一个方面，提供了一种构建和测序DNA样品的配对末端标签文库的方法，其包括以下步骤：

1)片段化样品DNA，其中，优选地，片段化后的DNA片段长度为1000-4000bp；优选地，片段化方法选自雾化法，超声法和Hydroshear法；

2)通过下列步骤构建DNA样品的配对末端标签文库：

a.使用本发明的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端，或者将本发明的标签帽接头连接至片段化后的DNA片段的两个末端，从而形成带有标签帽接头的DNA片段，其中，每一种DNA样品使用一种标签帽接头；

b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段；任选地，对环化连接产物进行片段大小的选择，优选的选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层析；优选地，所述中间接头的两条链的序列分别为SEQ ID NO：27和SEQ ID NO：28；

c.断裂所得的环化连接产物，优选地，使用超声断裂法和酶切法，例如限制性内切酶法和缺刻平移-外切酶法；

d.使用链霉亲和素磁珠富集步骤c)所得的DNA片段，并将P1接头和P2接头分别连接到富集所得的DNA片段的5′端和3′端；

e.根据P1接头和P2接头的序列设计引物，并扩增步骤d)所得的DNA片段，形成配对末端标签文库文库；

3)任选地，将使用不同标签帽接头的样品的配对末端标签文库等摩尔量混合，从而获得混合的配对末端标签文库；

4)使用乳液PCR法将步骤2)的配对末端标签文库或步骤3)的混合的配对末端标签文库扩增到P1磁珠上，所述磁珠上固定有P1接头引物；

5)利用高通量测序技术例如用ABI SOLiD测序平台对步骤4)的产物进行测序，其中一个配对末端区(TAG1)利用和P1接头特异配对的一组测序引物进行测序，另一个配对末端区(TAG2)利用和由中间接头及部分标签帽接头组成的序列特异配对的一组测序引物进行测序，从而获得片段化后的DNA片段的两个末端的序列；

6)对步骤5)获得的测序数据进行处理，其中，利用标签序列将不同的测序读段对应到不同的DNA样品，然后通过序列重叠和连锁关系，从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列。

在本发明的一个优选实施方案中，所述DNA样品是原核生物或真核生物DNA样品。

在本发明的一个优选实施方案中，使用酶切法断裂所得的环化连接产物。优选地，所述酶切法包括限制性内切酶法和缺刻平移-外切酶法；其中限制性内切酶法利用的是III型限制性内切酶，例如EcoP15I。

在本发明的一个优选实施方案中，由中间接头及部分标签帽接头组成的中间测序接头的两条链分别为

5′-CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG-3′(SEQ ID NO：29)，

5′-CTGCTGTACGGCCAAGGCGGATGTACGGTACAGCAG-3′(SEQ ID NO：30)。

在本发明的一个优选实施方案中，在将不同的测序读段对应到不同的DNA样品后，剔除测序读段中的标签序列。

本发明的另一方面提供了一种配对末端标签文库，其使用本发明提供的方法制得。

利用本发明的DNA标签对文库样品进行测序，只需2次独立的测序反应，即可实现在一个芯片分区上对多个配对末端文库进行混合测序。特别地，对于50+50bp的配对末端测序类型来说，测序后得到的结果是：第二个配对末端(TAG2)的前5个碱基序列为标签序列，其用于确定序列的样品来源；TAG2的剩余序列及第一个配对末端(TAG1)的全部序列则来自样品，可用于进一步的信息分析。

对短片段测序技术的深入研究表明，25-30bp的读长可满足重测序研究中的生物信息学分析要求；当读长达到100bp或以上时，即可进行基因组的从头组装和测序工作(Whiteford N，Haslam N，WeberG，et al.An analysis of the feasibility of short read sequencing.Nucleic Acids Res，2005，33：e171)。因此，将TAG2的前5个碱基序列用作标签序列以标记样品来源，不会妨碍进一步的信息分析。

表2：DNA标签序列

SEQ ID NO：	名称	碱基序列	荧光信号序列
				1	Index1	GGAAG	00202
2	Index2	TCATG	12131
				3	Index3	CAAGG	31020
4	Index4	ATACG	23313
				5	Index5	AGCCG	22303
6	Index6	TTCGG	10230
				7	Index7	GCCAG	03012
8	Index8	CACTG	31121
				9	Index9	TTCTG	10221
10	Index10	CGCCG	33303
				11	Index11	GACAG	02112
12	Index12	ACCGG	21030
				13	Index13	CGATG	33231
14	Index14	ACCCG	21003
				15	Index15	TCGAG	12322
16	Index16	GGTGG	00110
				17	Index17	ACGTG	21311
18	Index18	TCAGG	12120
				19	Index19	GCCCG	03003
20	Index20	CCTAG	30232
				21	Index21	AAGAG	20222
22	Index22	GATGG	02310
				23	Index23	TAATG	13031
24	Index24	CACCG	31103

发明的有益效果

A)本发明在SOLiD配对末端文库构建过程中在帽接头连接步骤引入了5-10个碱基的标签序列，从而只需通过2次独立测序反应(一个测序反应针对TAG1，另一个测序反应针对TAG2和标签)，即可实现在SOLiD测序仪的单个测序芯片分区内对多个配对末端文库进行混合测序，加速了高通量测序，降低了时间和试剂花费。

B)本发明无需使用芯片分区方法即可在单张芯片上对多个配对末端标签文库样品进行混合测序，提高了芯片面积的利用率，提高了单个测序反应的数据产量，降低了单位数据产出的成本。

C)本发明可以对多至48个配对末端文库进行混合测序，与现有技术中的芯片分区方法(其只能对8个配对末端文库进行混合测序)相比，进一步提高了测序效率。

下面将结合附图和实施例对本发明的实施方案进行详细描述，但是本领域技术人员将理解，下列附图和实施例仅用于说明本发明，而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述，本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。

附图说明

图1显示了SOLiD测序平台配对末端文库的构建流程。

图2显示了SOLiD测序平台2×50配对末端文库的测序流程，其中，F3 Tag引物组和P1接头杂交，用于TAG1测序；R3 Tag引物组和中间接头杂交，用于TAG2测序。Primer：引物；Cycle：循环；I.A.：中间接头。

图3显示了将SOLiD Barcode整合到片段文库或配对末端文库的流程。

图4显示了本发明实施例2中构建的带有标签的配对末端文库的结构和测序流程，其中方框部分为所引入的标签序列。Primer：引物；Cycle：循环；I.A.：中间接头。

图5显示了本发明实施例3中的测序统计数据的期望值和实际值的相关性分析。

具体实施方式

实施例1：制备标签帽接头

在本实施例中，以表2中的Index1序列为例合成了Index1 LMP帽接头。

a)合成制备标签帽接头所需的两条寡核苷酸序列：

Index1 LMP帽接头-a：5′-ACAGCAGGGAAG-3′(SEQ ID NO：31)；

Index1 LMP帽接头-b：5′-phos-CTTCCCTGCTGTAC-3′(SEQ ID NO：32)。

b)将干粉状或薄膜状寡核苷酸稀释至125μM。

c)将125μM Index1帽接头-a溶液、125μM Index1帽接头-b溶液、5X T4连接酶缓冲液(Invitrogen)依照2∶2∶1的体积比混合，并分装至PCR管中，每管100μl。

d)在热循环仪(96-wellPCR System 9700)上依照如下程序进行退火杂交。

e)取出退火后的双链Index1帽接头在-20℃下保存备用。

类似地，制备Index2-8LMP帽接头，-20℃保存备用。

实施例2：构建2×50bp配对末端标签文库

在本实施例中，以人血单核细胞的基因组DNA为例制备了2×50bp配对末端标签文库，构建流程参考图1。

2.1主要试剂

除非另有注明，本实施例中的相关蛋白溶液、缓冲液、接头或引物序列等均来自试剂盒Applied Biosystems SOLiD^TM Mate-PairedLibrary Oligo kit(4400468)或Applied Biosystems SOLiD^TM LongMate-Paired Library Construction kit(4443474)。

2.2实验步骤

操作步骤参考Applied Biosystems SOLiD^TM 4 System LibraryPreparation Guide P/N 4445673，section 3.1。

1)检测DNA样品：不少于20μg，在1％琼脂糖凝胶上电泳40分钟(130V)，以检测DNA完整性；样品中不允许存在RNA和蛋白质污染。

2)使用Hydroshear法将样品DNA打断为1000bp-4000bp大小的DNA片段，并进行末端精修(End-Polishing)。

3)在DNA片段上连接实施例1中制备的带有标签的LMP帽接头(Index1-8LMP帽接头)；每个样品使用一种标签LMP帽接头。

4)通过脉冲凝胶电泳选择1.5-2kb大小的连接产物片段。

5)利用T4DNA连接酶，将经过片段选择的连接产物和生物素化的中间接头进行环化连接，并使用Plasmidsafe核酸酶(Epicentre)对未环化的DNA分子进行消化；使用的中间接头的序列如下：

正义链5′-phos-CGTACATCCGCCTTGGCCGT-3′(SEQ ID NO：27)，

反义链5′-phos-GGCCAAGGCGGATGTACGGT-3′(SEQ ID NO：28)。

6)利用缺刻平移-外切酶消化法打断环化的连接产物分子。

7)通过Dynal链霉亲和素磁珠(Invitrogen)对带有生物素标记的目的片段进行富集，并进行分子末端精修(End-Polishing)，然后在其上连接P1和P2接头。

P1接头的序列如下：

正义链5′-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT-3′(SEQ ID NO：33)，

反义链5′-pho s-ATCACCGACTGCCCATAGAGAGGAAAGCGGAGGCGTAGTGGTT-3′(SEQ ID NO：34)。

P2接头的序列如下：

正义链5′-phos-AGAGAATGAGGAACCCGGGGCAGTT-3′(SEQ ID NO：35)，

反义链5′-CTGCCCCGGGTTCCTCATTCTCT-3′(SEQ ID NO：36)。

8)使用如下引物对步骤7)获得的连接产物进行PCR扩增从而得到文库产物(Index1-8文库)：

PCR引物15′-CCACTACGCCTCCGCTTTCCTCTCTATG-3′(SEQ ID NO：37)，

PCR引物25′-CTGCCCCGGGTTCCTCATTCT-3′(SEQ ID NO：38)。

9)使用ABI 3730测序仪检测步骤8)获得的Index1-8文库，每个文库至少测随机挑选的48个阳性克隆。

经鉴定，每个文库的所有克隆均包含目的标签序列，且都没有非目的标签序列的污染。特别地，以Index1文库的阳性克隆的测序结果为例，SEQ ID NO：39-60显示利用3730测序仪获得的Index1文库的部分阳性克隆序列。其中，经鉴定发现，SEQ ID NO：39-60的每条序列都包括中间测序接头序列(即，帽接头序列(CTGCTGTAC)+中间接头序列(CGTACATCCGCCTTGGCCGT)+帽接头序列(ACAGCAG)，完整序列为CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG(SEQ ID NO：29))，并且在中间测序接头序列下游的5碱基序列均为文库构建过程中期望引入帽接头的Index1序列(GGAAG)。

由此可知，通过上述建库流程所得到的所有文库产物均包含了期望得到的中间测序接头序列和标签序列，并且该建库流程可重复性良好，可靠。

图4显示的是依据本实施例的方法构建的适用于SOLiD测序的带有标签的配对末端文库的结构图，其中方框部分为标签序列。在SOLiD测序过程中，TAG2测序引物和中间测序接头序列配对，并且产生的测序结果(TAG2序列)的前5bp为导入的标签序列，从而可以根据该标签序列确定该文库产物的样品来源，并将标签序列后的序列将用于信息分析。

实施例3：配对末端标签文库的混合测序

3.1主要试剂

除非另有注明，本实施例中涉及到的试剂均来自AppliedBiosystems公司。

3.2实验步骤

1)混合文库

将依照实施例2所示流程构建的Index1-4文库按等物质的量混合，作为文库9；将依照实施例2所示流程构建的Index5-8文库按等物质的量混合，作为文库10；将依照实施例2所示流程构建的Index1-8文库按等物质的量混合成为文库11。

2)扩增

分别使用文库9-11，依照Applied Biosystems提供的emPCR标准流程(Applied Biosystems SOLiD^TM 3 System Templated BeadPreparation Guide P/N4407421B)进行乳液PCR(emPCR)，从而获得带有模板链的磁珠。

3)测序

对磁珠上的DNA进行3′末端的修饰，使其可以固定在SOLiD测序芯片上。然后，依照Applied Biosystems提供的SOLiD3测序仪操作流程(Applied Biosystems SOLiD^TM 3 System Instrument OperationGuide P/N4407430B)进行测序。特别地，使用ABI SOLiD 3测序平台进行测序，每个混合文库占用1/4张测序芯片(预计每个文库混合总TAG产量为50M对)。

4)数据处理

由于不同的样品对应不同的标签序列，因此，可以利用测序数据中的标签序列来确定数据的样品来源。在样品来源区分完毕后，剔除TAG25′端的标签序列，并将剩下的序列应用于后续分析。通过序列重叠和连锁关系，从打断后的DNA片段的两个末端的序列拼接出完整的目的核酸。

表3的测序结果统计分析显示了3个文库的总产量和各标签的检出数分布。其中，采用bioscopeV 1.2软件取TAG1全长和TAG2的第6-50bp进行比对分析。

表3：混合文库的测序数据统计

从表3统计数据可以看出，3个混合文库内各标签检出百分比均一性良好，且没有非目的标签的污染。因为测序中不可避免地会出现错误，因此，我们将对标签位置存在测序错误的TAG直接作为未识别处理。目前，SOLiD测序平台的初始错误率约为3％。在本实施例中，未识别的TAG所占的比例和该值基本一致，这充分说明了本发明的方法的可靠性。

利用软件bioscope V1.2对TAG1全长和TAG2第6-50bp进行比对分析。结果表明，依据本发明方法所构建的标签文库中，可比对数据约占原始数据70％(本实验中，均值为70.32％，标准差为1.11％)。这与采用常规方法建库所得的比对比率(70-72％)一致，从而证明本发明的标签建库方法不会显著影响TAG的比对效率。

图5显示了对上述三组数据的标签检出百分比的期望值和实际值进行相关性分析的结果，其中横坐标为标签检出百分比的期望值，纵坐标为标签检出百分比的实测值。在理想状态下，期望值和实测值应满足Y＝X。而在本实施例中，二者的线性拟合为Y＝0.953X+0.254，相关系数为R²＝0.997，即，期望值和实测值的偏差在5％以内，这充分表明，本发明的标签文库的测序结果可重复性强，结果可靠。

尽管本发明的具体实施方式已经得到详细的描述，但本领域技术人员将理解：根据已经公开的所有教导，可以对细节进行各种修改和变动，并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

1.一组标签，其包含选自SEQ ID NO：1-24的至少2种，优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签；更优选地，其包括至少SEQ ID NO：1和2，或SEQ ID NO：3和4，或SEQ ID NO：5和6，或SEQ ID NO：7和8，或SEQ ID NO：9和10，或SEQ ID NO：11和12，或SEQ ID NO：13和14，或SEQ ID NO：15和16，或SEQ ID NO：17和18，或SEQ ID NO：19和20，或SEQ ID NO：21和22，或SEQ ID NO：23和24所示的标签，或者其任何两个或者多个的组合；优选地，所述标签用于标记帽接头，所述帽接头的两条链的序列分别为SEQ ID NO：25和SEQ ID NO：26。

2.权利要求1的一组标签的用途，其用于制备标签帽接头和/或用于构建和测序配对末端标签文库。

3.权利要求1的一组标签在制备试剂盒中的用途，所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。

4.一种标签帽接头，其具有下式的结构：

5′-ACAGCAG(N)₅

5′-phos-(N′)₅CTGCTGTAC，或

5′-phos-ACAGCAG(N)₅

5′-phos-(N′)₅CTGCTGTAC，

5.权利要求4的标签帽接头的用途，其用于构建和测序配对末端标签文库或者制备试剂盒，所述试剂盒用于构建和测序配对末端标签文库。

6.一种试剂盒，其包含权利要求1的一组标签，或权利要求5的标签帽接头，优选其还包含其他试剂，例如，其两条链的序列分别为SEQID NO：25和SEQ ID NO：26的帽接头。

7.权利要求6的试剂盒用于构建和测序配对末端标签文库的用途。

8.构建和测序DNA样品的配对末端标签文库的方法，其包括以下步骤：

1)片段化样品DNA，其中，优选片段化后的DNA片段为1000-4000bp；优选片段化方法选自雾化法，超声法和Hydroshear法；

2)通过下列步骤构建DNA样品的配对末端标签文库：

a.使用权利要求1的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端，或者将权利要求4的标签帽接头连接至片段化后的DNA片段的两个末端，从而形成带有标签帽接头的DNA片段，其中，每一种DNA样品使用一种标签帽接头；

b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段；任选地，对环化连接产物进行片段大小的选择，优选选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层析；优选地，所述中间接头的两条链的序列分别为SEQ ID NO：27和SEQ ID NO：28；

c.断裂所得的环化连接产物，优选使用超声断裂法和酶切法，例如限制性内切酶法和缺刻平移-外切酶法；

6)对步骤5)获得的测序数据进行处理，其中，利用标签序列将不同的测序读段对应到不同的DNA样品，然后通过序列重叠和连锁关系，从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列；

其中，所述DNA样品优选是原核生物或真核生物DNA样品。

9.一种配对末端标签文库，其根据权利要求8所述的方法制得。