CN102690809A - Dna标签及其在构建和测序配对末端标签文库中的应用 - Google Patents

Dna标签及其在构建和测序配对末端标签文库中的应用 Download PDF

Info

Publication number
CN102690809A
CN102690809A CN2011100711762A CN201110071176A CN102690809A CN 102690809 A CN102690809 A CN 102690809A CN 2011100711762 A CN2011100711762 A CN 2011100711762A CN 201110071176 A CN201110071176 A CN 201110071176A CN 102690809 A CN102690809 A CN 102690809A
Authority
CN
China
Prior art keywords
label
library
seq
sequence
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100711762A
Other languages
English (en)
Other versions
CN102690809B (zh
Inventor
程磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Qinglan Biotechnology Wuxi Co ltd
BGI Technology Solutions Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN2011100711762A priority Critical patent/CN102690809B/zh
Priority to PCT/CN2012/072970 priority patent/WO2012126398A1/zh
Publication of CN102690809A publication Critical patent/CN102690809A/zh
Priority to HK13102245.4A priority patent/HK1175196A1/xx
Application granted granted Critical
Publication of CN102690809B publication Critical patent/CN102690809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一组DNA标签及其在构建和测序配对末端标签文库中的应用,所述DNA标签具有选自SEQ ID NO:1-24的序列。本发明还提供了构建和测序配对末端标签文库的方法,其只需通过2次独立测序反应,即可实现在单个测序芯片分区中对多个配对末端文库进行混合测序,从而加速了高通量测序,降低了时间和试剂花费,降低了单位数据产出的成本。

Description

DNA标签及其在构建和测序配对末端标签文库中的应用
技术领域
本发明涉及第二代高通量测序,特别是对配对末端文库进行混合测序的领域。更具体地,本发明涉及DNA标签及其在构建和测序配对末端标签文库中的应用。
背景技术
配对末端文库(mate-paired library)测序是指通过构建大片段文库,获得较大跨度(2-10kb)片段两端的序列。这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异的发掘具有非常重要的作用,特别适合于新基因组测序(De novosequencing)项目。目前,ABI SOLiD测序平台提供的配对末端文库制备方法(Applied Biosystems SOLiDTM 4 System Library PreparationGuide P/N 4445673)如图1所示,其包括步骤:(1)片段化大核酸分子,产生目标核酸;(2)对片段化的目标核酸进行纯化和精修(End-Polishing);(3)将帽接头(Cap Adaptor)连接至片段化的目标核酸的两个末端,以形成连接物标记的目标核酸;(4)通过生物素化的中间接头(Internal Adaptor)将上述连接有帽接头的核酸片段环化连接,形成带有生物素标记的环形分子产物;(5)在目标核酸区片段化所述环形核酸分子,产生含目标核酸的两个末端区的DNA构建体;(6)通过生物素-链霉亲和素亲和作用,使用链霉亲和素磁珠富集目标核酸片段;(7)对富集的目标核酸片段进行精修,并用接头P1和接头P2进行平末端连接,然后进行PCR扩增以形成配对末端文库。接着,对配对末端文库的测序包括:使用乳液PCR(emPCR)法将文库模版扩增到1μm的磁珠上,在单个磁珠上形成包含4-6万条分子模板的单克隆分子簇;对模板磁珠进行修饰,然后将其涂布在测序芯片上进行测序;其中第一个配对末端区(TAG1)利用和P1接头特异配对的一组测序引物进行测序,第二个配对末端区(TAG2)利用与中间接头和帽接头特异配对的一组测序引物进行测序。图2显示的是SOLiD测序平台对2×50配对末端文库的测序流程(Applied BiosystemsSOLiDTM 4 System Library Preparation Guide P/N 4445673)。
DNA标签文库测序可最大化测序容量,减少样品制备流程,实现对多个DNA样品的混合测序。目前,在SOLiD系统中,在单分区芯片上对多个样品进行混合测序利用的是Barcode技术(SOLiDTM SystemBarcoding)。图3为将SOLiD Barcodes整合到片段文库或配对末端文库的流程图。特别地,对于配对末端文库而言,文库构建的前期流程与图1相同,但在进行P1和P2接头连接步骤时,对P2接头进行修饰,即,添加SOLiD-Barcode序列以用于区分和识别样品,从而实现多个DNA样品的混合测序。具体地,在P2接头的连接位置附近添加一段由5-10个特异碱基组成的Barcode序列,从而在文库制备过程中,随着P2接头的连接,Barcode序列相应地被引入到待测序列的3′端;不同的样品对应不同的Barcode序列,从而对未知DNA序列和已知的Barcode序列的测序,使得能够利用不同的Barcode序列来区分不同样品的数据(参见图3右侧)。
目前,SOLiD Barcode s技术只在随机片段文库的混合测序中得到应用(SOLiDTM 4 System Library Preparation Quick Reference CardP/N 4445674B,Multiplex Sequencing on the SOLiDTM Platform with10,16,or 96 Barcodes),其中,通过2次独立的测序反应,分别测定目标序列(TAG1)和Barcode序列(参见图3左侧)。在理论上,也可将SOLiD Barcode技术应用于多个配对末端文库的混合测序,其中必须分别对两段目标序列(TAG1和TAG2)及Barcode进行3次独立的测序反应(参见图3右侧)。然而,一方面,3次独立的测序反应导致测序成本大大提高;另一方面,在现有的SOLiD测序技术中,用于测定Barcode的引物序列和用于测定配对末端的TAG2区的引物序列是完全一致的,因此,不可能在同一个测序流程中既测定TAG2,又测定Barcode序列(相同的测序引物导致无法区分测序结果)。因此,到目前为止,SOLiD Barcoding技术还没有正式应用于多个配对末端文库的混合测序。
相反地,目前通常将不同的配对末端文库样品的模板磁珠分别涂布在测序芯片的不同分区内,然后再进行测序,最后通过不同的分区来区分文库样品。然而,测序芯片的分区将占用芯片空间,减少单个芯片的利用率,从而导致数据产出量降低。表1显示不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的对比。此外,现有的SOLiD测序仪第四版测序芯片最多可以分为8个区,即,每张测序芯片最多可以对8个配对末端文库样品进行测序,这远远不能满足测序通量日益增长的需要。
表1:不同规格的分区芯片的单芯片磁珠涂布总量和预期数据产出量的对比
Figure BDA0000051776220000031
因此,迫切需要对现有的配对末端文库的构建及测序方法进行改进,以提供更高效,且成本更低的配对末端文库混合测序方法。
发明内容
在本发明中,除非另有说明,否则本文中使用的科学和技术术语具有本领域技术人员所通常理解的含义。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
术语“标签(index)”和“DNA标签(DNA index)”在本文中可互换使用,其是指具有特定碱基序列的一段双链寡核苷酸。在本发明中,DNA标签为长度5bp的双链寡核苷酸,并且其一条链的序列选自SEQ ID NO:1-24。特别地,在本说明书中,当用序列标志符(SEQID NO:)表示标签时,其表示标签的一条链的序列为该序列标志符所示的序列。例如,当用SEQ ID NO:1描述标签时,其表示标签的一条链的序列为SEQ ID NO:1。另外,在本说明书中,所有DNA序列以5′至3′的方向给出。
如本文中使用的,“标签帽接头(indexed-cap adaptor)”是指带有标签的帽接头。
如本文中使用的,“配对末端标签文库(mate-paired indexedlibrary)”是指使用标签帽接头构建的配对末端文库。由于配对末端标签文库所使用的标签帽接头含有特异于样品的标签,因此,配对末端标签文库中的分子可以通过标签序列与样品一一对应。
本发明基于目前ABI SOLiD测序平台提供的配对末端文库制备方法,提供了一组DNA标签(DNA index)及利用其构建和测序配对末端标签文库的方法,从而克服了ABI SOLiD测序平台利用Barcode技术对多个配对末端文库进行混合测序需要3次独立的测序反应并且还未能得到实际应用的缺陷。
将DNA标签用于构建并测序配对末端文库时,为了保证测序仪流程运行正常,使信息分析流程足够简便,其序列必须满足如下原则:①用于混合测序的各样品的标签序列等长;②进行混合测序的标签序列组合在同一SOLiD测序循环中应保证4种荧光染料信号都可以被读出;③进行混合测序的标签序列两两之间应至少具有两个碱基的差异,以确保一个碱基的错读不至于混淆样品来源;④标签序列的最后一位必须为G。
因此,在本发明的一个方面,提供了一组DNA标签,所述标签为长度5bp的寡核苷酸,并且其序列选自SEQ ID NO:1-24(参见表2)。
在本发明的一个优选实施方案中,任意两个所述标签的序列之间至少具有2个碱基差异。
在本发明的一个优选实施方案中,一组标签包含选自SEQ ID NO:1-24的至少2种,优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签;更优选地,一组标签至少包括SEQ ID NO:1和2,或SEQ ID NO:3和4,或SEQ IDNO:5和6,或SEQ ID NO:7和8,或SEQ ID NO:9和10,或SEQ ID NO:11和12,或SEQ ID NO:13和14,或SEQ ID NO:15和16,或SEQ ID NO:17和18,或SEQ ID NO:19和20,或SEQ ID NO:21和22,或SEQ ID NO:23和24所示的标签,或者其任何两个或者多个的组合。
在一个优选实施方案中,本发明的标签用于标记帽接头,所述帽接头的两条链的序列分别为SEQ ID NO:25和SEQ ID NO:26。
在本发明的另一个方面,提供了本发明的DNA标签的用途,其可用于制备标签帽接头和/或用于构建和测序配对末端标签文库。优选地,本发明的标签用于标记其两条链的序列分别为SEQ ID NO:25和SEQ ID NO:26的帽接头,从而制备本发明的标签帽接头。
本发明的DNA标签还可以用于制备试剂盒,所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。
在本发明的另一个方面,提供了一种标签帽接头,其具有下式的结构:
5′-ACAGCAG(N)5        5′-phos-ACAGCAG(N)5
5′-phos-(N′)5CTGCTGTAC或5′-phos-(N′)5CTGCTGTAC
其中,(N)5表示选自SEQ ID NO:1-24的标签序列,(N′)5表示所述标签序列的互补序列。
可用于构建配对末端文库的帽接头有两种,其分别为EcoP15I帽接头和LMP帽接头,其中EcoP15I帽接头的两条链的5′端都被磷酸化,而LMP帽接头只有一条链的5′端被磷酸化。
在本发明的另一个方面,提供了本发明的标签帽接头的用途,其可以用于构建和测序配对末端标签文库。本发明的标签帽接头还可以用于制备试剂盒,所述试剂盒用于构建和测序配对末端标签文库。
在本发明的另一个方面,提供了一种试剂盒,其包含本发明的一组标签,或本发明的标签帽接头。在本发明的一个优选实施方案中,本发明的试剂盒还包含其他试剂,例如,其两条链的序列分别为SEQ IDNO:25和SEQ ID NO:26的帽接头。
在本发明的另一个方面,提供了本发明的试剂盒的用途,其可以用于构建和测序配对末端标签文库。
在本发明的另一个方面,提供了一种构建和测序DNA样品的配对末端标签文库的方法,其包括以下步骤:
1)片段化样品DNA,其中,优选地,片段化后的DNA片段长度为1000-4000bp;优选地,片段化方法选自雾化法,超声法和Hydroshear法;
2)通过下列步骤构建DNA样品的配对末端标签文库:
a.使用本发明的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端,或者将本发明的标签帽接头连接至片段化后的DNA片段的两个末端,从而形成带有标签帽接头的DNA片段,其中,每一种DNA样品使用一种标签帽接头;
b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段;任选地,对环化连接产物进行片段大小的选择,优选的选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层析;优选地,所述中间接头的两条链的序列分别为SEQ ID NO:27和SEQ ID NO:28;
c.断裂所得的环化连接产物,优选地,使用超声断裂法和酶切法,例如限制性内切酶法和缺刻平移-外切酶法;
d.使用链霉亲和素磁珠富集步骤c)所得的DNA片段,并将P1接头和P2接头分别连接到富集所得的DNA片段的5′端和3′端;
e.根据P1接头和P2接头的序列设计引物,并扩增步骤d)所得的DNA片段,形成配对末端标签文库文库;
3)任选地,将使用不同标签帽接头的样品的配对末端标签文库等摩尔量混合,从而获得混合的配对末端标签文库;
4)使用乳液PCR法将步骤2)的配对末端标签文库或步骤3)的混合的配对末端标签文库扩增到P1磁珠上,所述磁珠上固定有P1接头引物;
5)利用高通量测序技术例如用ABI SOLiD测序平台对步骤4)的产物进行测序,其中一个配对末端区(TAG1)利用和P1接头特异配对的一组测序引物进行测序,另一个配对末端区(TAG2)利用和由中间接头及部分标签帽接头组成的序列特异配对的一组测序引物进行测序,从而获得片段化后的DNA片段的两个末端的序列;
6)对步骤5)获得的测序数据进行处理,其中,利用标签序列将不同的测序读段对应到不同的DNA样品,然后通过序列重叠和连锁关系,从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列。
在本发明的一个优选实施方案中,所述DNA样品是原核生物或真核生物DNA样品。
在本发明的一个优选实施方案中,使用酶切法断裂所得的环化连接产物。优选地,所述酶切法包括限制性内切酶法和缺刻平移-外切酶法;其中限制性内切酶法利用的是III型限制性内切酶,例如EcoP15I。
在本发明的一个优选实施方案中,由中间接头及部分标签帽接头组成的中间测序接头的两条链分别为
5′-CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG-3′(SEQ ID NO:29),
5′-CTGCTGTACGGCCAAGGCGGATGTACGGTACAGCAG-3′(SEQ ID NO:30)。
在本发明的一个优选实施方案中,在将不同的测序读段对应到不同的DNA样品后,剔除测序读段中的标签序列。
本发明的另一方面提供了一种配对末端标签文库,其使用本发明提供的方法制得。
利用本发明的DNA标签对文库样品进行测序,只需2次独立的测序反应,即可实现在一个芯片分区上对多个配对末端文库进行混合测序。特别地,对于50+50bp的配对末端测序类型来说,测序后得到的结果是:第二个配对末端(TAG2)的前5个碱基序列为标签序列,其用于确定序列的样品来源;TAG2的剩余序列及第一个配对末端(TAG1)的全部序列则来自样品,可用于进一步的信息分析。
对短片段测序技术的深入研究表明,25-30bp的读长可满足重测序研究中的生物信息学分析要求;当读长达到100bp或以上时,即可进行基因组的从头组装和测序工作(Whiteford N,Haslam N,WeberG,et al.An analysis of the feasibility of short read sequencing.Nucleic Acids Res,2005,33:e171)。因此,将TAG2的前5个碱基序列用作标签序列以标记样品来源,不会妨碍进一步的信息分析。
表2:DNA标签序列
  SEQ ID NO:   名称   碱基序列   荧光信号序列
  1   Index1   GGAAG   00202
  2   Index2   TCATG   12131
  3   Index3   CAAGG   31020
  4   Index4   ATACG   23313
  5   Index5   AGCCG   22303
  6   Index6   TTCGG   10230
  7   Index7   GCCAG   03012
  8   Index8   CACTG   31121
  9   Index9   TTCTG   10221
  10   Index10   CGCCG   33303
  11   Index11   GACAG   02112
  12   Index12   ACCGG   21030
  13   Index13   CGATG   33231
  14   Index14   ACCCG   21003
  15   Index15   TCGAG   12322
  16   Index16   GGTGG   00110
  17   Index17   ACGTG   21311
  18   Index18   TCAGG   12120
  19   Index19   GCCCG   03003
  20   Index20   CCTAG   30232
  21   Index21   AAGAG   20222
  22   Index22   GATGG   02310
  23   Index23   TAATG   13031
  24   Index24   CACCG   31103
发明的有益效果
A)本发明在SOLiD配对末端文库构建过程中在帽接头连接步骤引入了5-10个碱基的标签序列,从而只需通过2次独立测序反应(一个测序反应针对TAG1,另一个测序反应针对TAG2和标签),即可实现在SOLiD测序仪的单个测序芯片分区内对多个配对末端文库进行混合测序,加速了高通量测序,降低了时间和试剂花费。
B)本发明无需使用芯片分区方法即可在单张芯片上对多个配对末端标签文库样品进行混合测序,提高了芯片面积的利用率,提高了单个测序反应的数据产量,降低了单位数据产出的成本。
C)本发明可以对多至48个配对末端文库进行混合测序,与现有技术中的芯片分区方法(其只能对8个配对末端文库进行混合测序)相比,进一步提高了测序效率。
下面将结合附图和实施例对本发明的实施方案进行详细描述,但是本领域技术人员将理解,下列附图和实施例仅用于说明本发明,而不是对本发明的范围的限定。根据附图和优选实施方案的下列详细描述,本发明的各种目的和有利方面对于本领域技术人员来说将变得显然。
附图说明
图1显示了SOLiD测序平台配对末端文库的构建流程。
图2显示了SOLiD测序平台2×50配对末端文库的测序流程,其中,F3 Tag引物组和P1接头杂交,用于TAG1测序;R3 Tag引物组和中间接头杂交,用于TAG2测序。Primer:引物;Cycle:循环;I.A.:中间接头。
图3显示了将SOLiD Barcode整合到片段文库或配对末端文库的流程。
图4显示了本发明实施例2中构建的带有标签的配对末端文库的结构和测序流程,其中方框部分为所引入的标签序列。Primer:引物;Cycle:循环;I.A.:中间接头。
图5显示了本发明实施例3中的测序统计数据的期望值和实际值的相关性分析。
具体实施方式
实施例1:制备标签帽接头
在本实施例中,以表2中的Index1序列为例合成了Index1 LMP帽接头。
a)合成制备标签帽接头所需的两条寡核苷酸序列:
Index1 LMP帽接头-a:5′-ACAGCAGGGAAG-3′(SEQ ID NO:31);
Index1 LMP帽接头-b:5′-phos-CTTCCCTGCTGTAC-3′(SEQ ID NO:32)。
b)将干粉状或薄膜状寡核苷酸稀释至125μM。
c)将125μM Index1帽接头-a溶液、125μM Index1帽接头-b溶液、5X T4连接酶缓冲液(Invitrogen)依照2∶2∶1的体积比混合,并分装至PCR管中,每管100μl。
d)在热循环仪(96-wellPCR System 9700)上依照如下程序进行退火杂交。
Figure BDA0000051776220000112
e)取出退火后的双链Index1帽接头在-20℃下保存备用。
类似地,制备Index2-8LMP帽接头,-20℃保存备用。
实施例2:构建2×50bp配对末端标签文库
在本实施例中,以人血单核细胞的基因组DNA为例制备了2×50bp配对末端标签文库,构建流程参考图1。
2.1主要试剂
除非另有注明,本实施例中的相关蛋白溶液、缓冲液、接头或引物序列等均来自试剂盒Applied Biosystems SOLiDTM Mate-PairedLibrary Oligo kit(4400468)或Applied Biosystems SOLiDTM LongMate-Paired Library Construction kit(4443474)。
2.2实验步骤
操作步骤参考Applied Biosystems SOLiDTM 4 System LibraryPreparation Guide P/N 4445673,section 3.1。
1)检测DNA样品:不少于20μg,在1%琼脂糖凝胶上电泳40分钟(130V),以检测DNA完整性;样品中不允许存在RNA和蛋白质污染。
2)使用Hydroshear法将样品DNA打断为1000bp-4000bp大小的DNA片段,并进行末端精修(End-Polishing)。
3)在DNA片段上连接实施例1中制备的带有标签的LMP帽接头(Index1-8LMP帽接头);每个样品使用一种标签LMP帽接头。
4)通过脉冲凝胶电泳选择1.5-2kb大小的连接产物片段。
5)利用T4DNA连接酶,将经过片段选择的连接产物和生物素化的中间接头进行环化连接,并使用Plasmidsafe核酸酶(Epicentre)对未环化的DNA分子进行消化;使用的中间接头的序列如下:
正义链5′-phos-CGTACATCCGCCTTGGCCGT-3′(SEQ ID NO:27),
反义链5′-phos-GGCCAAGGCGGATGTACGGT-3′(SEQ ID NO:28)。
6)利用缺刻平移-外切酶消化法打断环化的连接产物分子。
7)通过Dynal链霉亲和素磁珠(Invitrogen)对带有生物素标记的目的片段进行富集,并进行分子末端精修(End-Polishing),然后在其上连接P1和P2接头。
P1接头的序列如下:
正义链5′-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT-3′(SEQ ID NO:33),
反义链5′-pho s-ATCACCGACTGCCCATAGAGAGGAAAGCGGAGGCGTAGTGGTT-3′(SEQ ID NO:34)。
P2接头的序列如下:
正义链5′-phos-AGAGAATGAGGAACCCGGGGCAGTT-3′(SEQ ID NO:35),
反义链5′-CTGCCCCGGGTTCCTCATTCTCT-3′(SEQ ID NO:36)。
8)使用如下引物对步骤7)获得的连接产物进行PCR扩增从而得到文库产物(Index1-8文库):
PCR引物15′-CCACTACGCCTCCGCTTTCCTCTCTATG-3′(SEQ ID NO:37),
PCR引物25′-CTGCCCCGGGTTCCTCATTCT-3′(SEQ ID NO:38)。
9)使用ABI 3730测序仪检测步骤8)获得的Index1-8文库,每个文库至少测随机挑选的48个阳性克隆。
经鉴定,每个文库的所有克隆均包含目的标签序列,且都没有非目的标签序列的污染。特别地,以Index1文库的阳性克隆的测序结果为例,SEQ ID NO:39-60显示利用3730测序仪获得的Index1文库的部分阳性克隆序列。其中,经鉴定发现,SEQ ID NO:39-60的每条序列都包括中间测序接头序列(即,帽接头序列(CTGCTGTAC)+中间接头序列(CGTACATCCGCCTTGGCCGT)+帽接头序列(ACAGCAG),完整序列为CTGCTGTACCGTACATCCGCCTTGGCCGTACAGCAG(SEQ ID NO:29)),并且在中间测序接头序列下游的5碱基序列均为文库构建过程中期望引入帽接头的Index1序列(GGAAG)。
由此可知,通过上述建库流程所得到的所有文库产物均包含了期望得到的中间测序接头序列和标签序列,并且该建库流程可重复性良好,可靠。
图4显示的是依据本实施例的方法构建的适用于SOLiD测序的带有标签的配对末端文库的结构图,其中方框部分为标签序列。在SOLiD测序过程中,TAG2测序引物和中间测序接头序列配对,并且产生的测序结果(TAG2序列)的前5bp为导入的标签序列,从而可以根据该标签序列确定该文库产物的样品来源,并将标签序列后的序列将用于信息分析。
实施例3:配对末端标签文库的混合测序
3.1主要试剂
除非另有注明,本实施例中涉及到的试剂均来自AppliedBiosystems公司。
3.2实验步骤
1)混合文库
将依照实施例2所示流程构建的Index1-4文库按等物质的量混合,作为文库9;将依照实施例2所示流程构建的Index5-8文库按等物质的量混合,作为文库10;将依照实施例2所示流程构建的Index1-8文库按等物质的量混合成为文库11。
2)扩增
分别使用文库9-11,依照Applied Biosystems提供的emPCR标准流程(Applied Biosystems SOLiDTM 3 System Templated BeadPreparation Guide P/N4407421B)进行乳液PCR(emPCR),从而获得带有模板链的磁珠。
3)测序
对磁珠上的DNA进行3′末端的修饰,使其可以固定在SOLiD测序芯片上。然后,依照Applied Biosystems提供的SOLiD3测序仪操作流程(Applied Biosystems SOLiDTM 3 System Instrument OperationGuide P/N4407430B)进行测序。特别地,使用ABI SOLiD 3测序平台进行测序,每个混合文库占用1/4张测序芯片(预计每个文库混合总TAG产量为50M对)。
4)数据处理
由于不同的样品对应不同的标签序列,因此,可以利用测序数据中的标签序列来确定数据的样品来源。在样品来源区分完毕后,剔除TAG25′端的标签序列,并将剩下的序列应用于后续分析。通过序列重叠和连锁关系,从打断后的DNA片段的两个末端的序列拼接出完整的目的核酸。
表3的测序结果统计分析显示了3个文库的总产量和各标签的检出数分布。其中,采用bioscopeV 1.2软件取TAG1全长和TAG2的第6-50bp进行比对分析。
表3:混合文库的测序数据统计
Figure BDA0000051776220000151
从表3统计数据可以看出,3个混合文库内各标签检出百分比均一性良好,且没有非目的标签的污染。因为测序中不可避免地会出现错误,因此,我们将对标签位置存在测序错误的TAG直接作为未识别处理。目前,SOLiD测序平台的初始错误率约为3%。在本实施例中,未识别的TAG所占的比例和该值基本一致,这充分说明了本发明的方法的可靠性。
利用软件bioscope V1.2对TAG1全长和TAG2第6-50bp进行比对分析。结果表明,依据本发明方法所构建的标签文库中,可比对数据约占原始数据70%(本实验中,均值为70.32%,标准差为1.11%)。这与采用常规方法建库所得的比对比率(70-72%)一致,从而证明本发明的标签建库方法不会显著影响TAG的比对效率。
图5显示了对上述三组数据的标签检出百分比的期望值和实际值进行相关性分析的结果,其中横坐标为标签检出百分比的期望值,纵坐标为标签检出百分比的实测值。在理想状态下,期望值和实测值应满足Y=X。而在本实施例中,二者的线性拟合为Y=0.953X+0.254,相关系数为R2=0.997,即,期望值和实测值的偏差在5%以内,这充分表明,本发明的标签文库的测序结果可重复性强,结果可靠。
尽管本发明的具体实施方式已经得到详细的描述,但本领域技术人员将理解:根据已经公开的所有教导,可以对细节进行各种修改和变动,并且这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
Figure IDA0000051776290000011
Figure IDA0000051776290000021
Figure IDA0000051776290000031
Figure IDA0000051776290000041
Figure IDA0000051776290000051
Figure IDA0000051776290000061
Figure IDA0000051776290000071
Figure IDA0000051776290000081
Figure IDA0000051776290000091
Figure IDA0000051776290000101
Figure IDA0000051776290000111
Figure IDA0000051776290000121

Claims (9)

1.一组标签,其包含选自SEQ ID NO:1-24的至少2种,优选地至少4种、或至少6种、或至少8种、或至少10种、或至少12种、或至少16种、或至少20种或24种标签;更优选地,其包括至少SEQ ID NO:1和2,或SEQ ID NO:3和4,或SEQ ID NO:5和6,或SEQ ID NO:7和8,或SEQ ID NO:9和10,或SEQ ID NO:11和12,或SEQ ID NO:13和14,或SEQ ID NO:15和16,或SEQ ID NO:17和18,或SEQ ID NO:19和20,或SEQ ID NO:21和22,或SEQ ID NO:23和24所示的标签,或者其任何两个或者多个的组合;优选地,所述标签用于标记帽接头,所述帽接头的两条链的序列分别为SEQ ID NO:25和SEQ ID NO:26。
2.权利要求1的一组标签的用途,其用于制备标签帽接头和/或用于构建和测序配对末端标签文库。
3.权利要求1的一组标签在制备试剂盒中的用途,所述试剂盒用于制备标签帽接头和/或用于构建和测序配对末端标签文库。
4.一种标签帽接头,其具有下式的结构:
5′-ACAGCAG(N)5
5′-phos-(N′)5CTGCTGTAC,或
5′-phos-ACAGCAG(N)5
5′-phos-(N′)5CTGCTGTAC,
其中,(N)5表示选自SEQ ID NO:1-24的标签序列,(N′)5表示所述标签序列的互补序列。
5.权利要求4的标签帽接头的用途,其用于构建和测序配对末端标签文库或者制备试剂盒,所述试剂盒用于构建和测序配对末端标签文库。
6.一种试剂盒,其包含权利要求1的一组标签,或权利要求5的标签帽接头,优选其还包含其他试剂,例如,其两条链的序列分别为SEQID NO:25和SEQ ID NO:26的帽接头。
7.权利要求6的试剂盒用于构建和测序配对末端标签文库的用途。
8.构建和测序DNA样品的配对末端标签文库的方法,其包括以下步骤:
1)片段化样品DNA,其中,优选片段化后的DNA片段为1000-4000bp;优选片段化方法选自雾化法,超声法和Hydroshear法;
2)通过下列步骤构建DNA样品的配对末端标签文库:
a.使用权利要求1的标签制备标签帽接头并将所得的标签帽接头连接至片段化后的DNA片段的两个末端,或者将权利要求4的标签帽接头连接至片段化后的DNA片段的两个末端,从而形成带有标签帽接头的DNA片段,其中,每一种DNA样品使用一种标签帽接头;
b.利用生物素化的中间接头环化连接带有标签帽接头的DNA片段;任选地,对环化连接产物进行片段大小的选择,优选选择方法选自脉冲凝胶电泳、蔗糖或氯化铯梯度沉降和分子排阻层析;优选地,所述中间接头的两条链的序列分别为SEQ ID NO:27和SEQ ID NO:28;
c.断裂所得的环化连接产物,优选使用超声断裂法和酶切法,例如限制性内切酶法和缺刻平移-外切酶法;
d.使用链霉亲和素磁珠富集步骤c)所得的DNA片段,并将P1接头和P2接头分别连接到富集所得的DNA片段的5′端和3′端;
e.根据P1接头和P2接头的序列设计引物,并扩增步骤d)所得的DNA片段,形成配对末端标签文库文库;
3)任选地,将使用不同标签帽接头的样品的配对末端标签文库等摩尔量混合,从而获得混合的配对末端标签文库;
4)使用乳液PCR法将步骤2)的配对末端标签文库或步骤3)的混合的配对末端标签文库扩增到P1磁珠上,所述磁珠上固定有P1接头引物;
5)利用高通量测序技术例如用ABI SOLiD测序平台对步骤4)的产物进行测序,其中一个配对末端区(TAG1)利用和P1接头特异配对的一组测序引物进行测序,另一个配对末端区(TAG2)利用和由中间接头及部分标签帽接头组成的序列特异配对的一组测序引物进行测序,从而获得片段化后的DNA片段的两个末端的序列;
6)对步骤5)获得的测序数据进行处理,其中,利用标签序列将不同的测序读段对应到不同的DNA样品,然后通过序列重叠和连锁关系,从来自同一样品的DNA片段的两个末端的序列拼接出样品的完整DNA序列;
其中,所述DNA样品优选是原核生物或真核生物DNA样品。
9.一种配对末端标签文库,其根据权利要求8所述的方法制得。
CN2011100711762A 2011-03-24 2011-03-24 Dna标签及其在构建和测序配对末端标签文库中的应用 Active CN102690809B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011100711762A CN102690809B (zh) 2011-03-24 2011-03-24 Dna标签及其在构建和测序配对末端标签文库中的应用
PCT/CN2012/072970 WO2012126398A1 (zh) 2011-03-24 2012-03-23 Dna标签及其用途
HK13102245.4A HK1175196A1 (en) 2011-03-24 2013-02-21 Dna indexes and applications thereof on the mate-pair library construction and sequencing dna

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100711762A CN102690809B (zh) 2011-03-24 2011-03-24 Dna标签及其在构建和测序配对末端标签文库中的应用

Publications (2)

Publication Number Publication Date
CN102690809A true CN102690809A (zh) 2012-09-26
CN102690809B CN102690809B (zh) 2013-12-04

Family

ID=46856545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100711762A Active CN102690809B (zh) 2011-03-24 2011-03-24 Dna标签及其在构建和测序配对末端标签文库中的应用

Country Status (3)

Country Link
CN (1) CN102690809B (zh)
HK (1) HK1175196A1 (zh)
WO (1) WO2012126398A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
CN104630211A (zh) * 2013-11-15 2015-05-20 苏州吉玛基因股份有限公司 一种Small RNA cDNA文库的构建方法
CN104695027A (zh) * 2013-12-06 2015-06-10 中国科学院北京基因组研究所 测序文库及其制备和应用
CN105154444A (zh) * 2015-10-15 2015-12-16 南京普东兴生物科技有限公司 一种有效提高建库效率的非对称高通量测序接头及其应用
CN105420348A (zh) * 2014-09-04 2016-03-23 中国科学院北京基因组研究所 改进的测序文库及其制备和应用
CN105525357A (zh) * 2014-09-30 2016-04-27 深圳华大基因股份有限公司 一种测序文库的构建方法及试剂盒和应用
CN105926043A (zh) * 2016-04-19 2016-09-07 苏州贝康医疗器械有限公司 一种提高孕妇血浆游离dna测序文库中胎儿游离dna占比的方法
CN106795650A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 Pf快速建库方法及其应用
CN108779487A (zh) * 2015-11-16 2018-11-09 普罗格尼迪公司 用于检测甲基化状态的核酸和方法
CN109576800A (zh) * 2018-12-07 2019-04-05 北京安智因生物技术有限公司 一种遗传性扩张型心肌病的基因检测文库的构建方法及其试剂盒
CN111462818A (zh) * 2019-01-22 2020-07-28 武汉华大医学检验所有限公司 测序产量预测方法和建立测序产量预测模型的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103013A2 (en) * 2000-10-30 2002-12-27 Gene Logic, Inc. Partially double-stranded nucleic acids, methods of making, and use thereof
CN101921748A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 用于高通量检测人类乳头瘤病毒的dna分子标签

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100311602A1 (en) * 2006-10-13 2010-12-09 J. Craig Venter Institute, Inc. Sequencing method
CN101434988B (zh) * 2007-11-16 2013-05-01 深圳华因康基因科技有限公司 一种高通量寡核苷酸测序方法
CN101921840B (zh) * 2010-06-30 2014-06-25 深圳华大基因科技有限公司 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN101967476B (zh) * 2010-09-21 2012-11-14 深圳华大基因科技有限公司 一种基于接头连接的DNA PCR-Free标签文库构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103013A2 (en) * 2000-10-30 2002-12-27 Gene Logic, Inc. Partially double-stranded nucleic acids, methods of making, and use thereof
CN101921748A (zh) * 2010-06-30 2010-12-22 深圳华大基因科技有限公司 用于高通量检测人类乳头瘤病毒的dna分子标签

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐荣华等: "SSR分子标记的开发技术研究进展", 《西南农业学报》 *
毛建平等: "桥式PCR,一种简易连接DNA标签序列的方法(英文)", 《中国生物工程杂志》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104630211A (zh) * 2013-11-15 2015-05-20 苏州吉玛基因股份有限公司 一种Small RNA cDNA文库的构建方法
CN104630211B (zh) * 2013-11-15 2018-03-02 苏州吉玛基因股份有限公司 一种Small RNA cDNA文库的构建方法
CN104695027A (zh) * 2013-12-06 2015-06-10 中国科学院北京基因组研究所 测序文库及其制备和应用
CN104232760B (zh) * 2014-08-26 2017-03-15 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
CN105420348B (zh) * 2014-09-04 2019-10-15 中国科学院北京基因组研究所 改进的测序文库及其制备和应用
CN105420348A (zh) * 2014-09-04 2016-03-23 中国科学院北京基因组研究所 改进的测序文库及其制备和应用
CN106795650A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 Pf快速建库方法及其应用
CN106795650B (zh) * 2014-09-26 2021-03-09 深圳华大基因股份有限公司 Pf快速建库方法及其应用
CN105525357A (zh) * 2014-09-30 2016-04-27 深圳华大基因股份有限公司 一种测序文库的构建方法及试剂盒和应用
CN105525357B (zh) * 2014-09-30 2018-08-21 深圳华大基因股份有限公司 一种测序文库的构建方法及试剂盒和应用
CN105154444A (zh) * 2015-10-15 2015-12-16 南京普东兴生物科技有限公司 一种有效提高建库效率的非对称高通量测序接头及其应用
CN108779487A (zh) * 2015-11-16 2018-11-09 普罗格尼迪公司 用于检测甲基化状态的核酸和方法
CN105926043A (zh) * 2016-04-19 2016-09-07 苏州贝康医疗器械有限公司 一种提高孕妇血浆游离dna测序文库中胎儿游离dna占比的方法
CN109576800A (zh) * 2018-12-07 2019-04-05 北京安智因生物技术有限公司 一种遗传性扩张型心肌病的基因检测文库的构建方法及其试剂盒
CN111462818A (zh) * 2019-01-22 2020-07-28 武汉华大医学检验所有限公司 测序产量预测方法和建立测序产量预测模型的方法及装置
CN111462818B (zh) * 2019-01-22 2023-04-21 武汉华大医学检验所有限公司 测序产量预测方法和建立测序产量预测模型的方法及装置

Also Published As

Publication number Publication date
HK1175196A1 (en) 2013-06-28
WO2012126398A1 (zh) 2012-09-27
CN102690809B (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN102690809B (zh) Dna标签及其在构建和测序配对末端标签文库中的应用
US20240141426A1 (en) Compositions and methods for identification of a duplicate sequencing read
CN101967476B (zh) 一种基于接头连接的DNA PCR-Free标签文库构建方法
CN107002292B (zh) 一种核酸的双接头单链环状文库的构建方法和试剂
CN109468384B (zh) 一种同时检测45个y基因座的复合扩增检测试剂盒
US11913063B2 (en) Systems and methods for combined detection of genetic alterations
CN106048009B (zh) 一种用于超低频基因突变检测的标签接头及其应用
US20110257031A1 (en) Nucleic acid, biomolecule and polymer identifier codes
CN108300716A (zh) 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法
JP7332733B2 (ja) 次世代シークエンシングのための高分子量dnaサンプル追跡タグ
CN102409049A (zh) 一种基于pcr的dna标签文库构建方法
CN102181533A (zh) 多样本混合测序方法及试剂盒
CN102409048A (zh) 一种基于高通量测序的dna标签文库构建方法
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
CN102409045A (zh) 一种基于dna接头连接的标签文库构建方法及其所使用标签和标签接头
CN105986324A (zh) 环状小rna文库构建方法及其应用
CN101633961B (zh) 循环“连接-延伸”基因组测序法
CN105039322B (zh) Dna标签序列及测序文库构建方法和试剂盒
CN102839168A (zh) 核酸探针及其制备方法和应用
US20180334709A1 (en) Novel adaptor for nucleic acid sequencing and method of use
CN104093854A (zh) 表征组合物中的rna的方法和试剂盒
WO2020243597A1 (en) Flexible and high-throughput sequencing of targeted genomic regions
JP2022522221A (ja) 腫瘍を特性決定し、腫瘍の不均質性を識別するための方法及びシステム
CN103789414A (zh) 17个x染色体短串联重复序列的复合扩增试剂盒
US20220348987A1 (en) Methods and compositions for processing samples containing nucleic acids

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1175196

Country of ref document: HK

ASS Succession or assignment of patent right

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130715

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130715

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130715

Address after: 518083 science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201

Applicant after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI SHENZHEN Co.,Ltd.

Applicant before: BGI SHENZHEN

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1175196

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: No. 128, Hengtong Road, huankeyuan, Yixing, Wuxi, Jiangsu, 214205

Patentee after: Huada Qinglan Biotechnology (Wuxi) Co.,Ltd.

Patentee after: BGI TECH SOLUTIONS Co.,Ltd.

Address before: 518083 science and Technology Pioneer Park 201, Beishan Industrial Park, Yantian District, Shenzhen City, Guangdong Province

Patentee before: BGI TECH SOLUTIONS Co.,Ltd.

TR01 Transfer of patent right