CN103917654B - 用于对长核酸进行测序的方法和系统 - Google Patents

用于对长核酸进行测序的方法和系统 Download PDF

Info

Publication number
CN103917654B
CN103917654B CN201280027272.XA CN201280027272A CN103917654B CN 103917654 B CN103917654 B CN 103917654B CN 201280027272 A CN201280027272 A CN 201280027272A CN 103917654 B CN103917654 B CN 103917654B
Authority
CN
China
Prior art keywords
sequencing
extension
sequence
nucleic acid
primer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280027272.XA
Other languages
English (en)
Other versions
CN103917654A (zh
Inventor
伟·周
瑞·梅
菲利普·克洛诺哥拉克
廖国春
朱利安·卢卡斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sheng Jie Technology Holdings Ltd
Original Assignee
Sheng Jie Technology Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sheng Jie Technology Holdings Ltd filed Critical Sheng Jie Technology Holdings Ltd
Publication of CN103917654A publication Critical patent/CN103917654A/zh
Application granted granted Critical
Publication of CN103917654B publication Critical patent/CN103917654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

本发明提供了用于对长核酸片段进行测序的方法和系统。在本发明的一个方面,提供了用于对核酸靶序列进行测序的方法、系统和试剂盒。所述方法、系统和试剂盒的一些实施方案特别适用于对大量的片段特别是长片段进行测序。

Description

用于对长核酸进行测序的方法和系统
交叉引用
本申请要求提交于2011年4月1日的美国临时申请号61/470,497、提交于2011年4月20日的美国临时申请号61/477,173和提交于2011年5月24日的美国临时申请号61/489,662以及提交于2011年6月3日的美国实用新型申请号13/153,218的权益,各申请通过引用全文并入。
背景技术
核酸测序对于生物研究、临床诊断、个体化医疗及药物开发和其它许多领域是十分重要的。对于许多应用,例如但不限于对受试者的微生物或病原体检测和鉴定以及遗传鉴定,需要具有成本效益的、准确的及快速的测序。例如,这些应用可以包括但不限于亲子鉴定和法医学(Reynolds等人,Anal.Chem.,63:2-15(1991)),器官移植供体-受体配型(Buyse等人,Tissue Antigens,41:1-14(1993)和Gyllensten等人,PCR Meth.Appl.1:91-98(1991)),遗传病诊断、预后和产前咨询(Chamberlain等人,Nucleic Acids Res.,16:11141-11156(1988)和L.C.Tsui,Human Mutat.,1:197-203(1992)),以及药物代谢和致癌突变研究(Hollstein等人,Science,253:49-53(1991))。另外,例如用于传染病诊断的核酸分析的成本效益直接随批量测试的多重规模而变化。这些应用很多依赖于对大量有时紧密排列的基因座处的单碱基差异的辨别。
多种DNA杂交技术可用于检测在含有大量序列区域的样品中一种或多种选定的多核苷酸序列的存在。在一种依赖于片段捕获和标记的简单方法中,含有选定的序列的片段通过与固定的探针杂交而被捕获。捕获的片段可以通过与含有可检测的报告部分的第二探针杂交而进行标记。
另一广泛应用的方法是Southern印迹法。在该方法中,通过凝胶电泳对样品中的DNA片段混合物进行分级分离,随后将其固定于硝酸纤维素滤纸上。通过将滤纸与一种或多种标记的探针在杂交条件下反应,可以鉴定含有探针序列的条带的存在。该方法对于鉴定含有给定探针序列的限制酶DNA消化物中的片段和分析限制性片段长度多态性(“RFLP”)特别有用。
另一种检测多核苷酸样品中一种或多种给定序列的存在的方法涉及通过聚合酶链反应对该序列的选择性扩增,美国专利号4,683,202和R.K.Saiki等人,Science230:1350(1985)。在该方法中,使用与选定序列的相对端部分互补的引物,结合热循环,来推进连续数轮引物启动的复制。扩增的序列可以很容易地通过多种技术进行鉴定。该方法特别可用于检测含多核苷酸样品中低拷贝序列的存在,例如,用于检测体液样品中的病原体序列。
最近,报道了通过探针连接方法来鉴定已知靶序列的方法。美国专利号4,883,750;D.Y.Wu等人,Genomics4:560(1989);U.Landegren等人,Science241:1077(1988);和E.Winn-Deen等人,Clin.Chem.37:1522(1991)。在一种被称为寡核苷酸连接分析(“OLA”)的方法中,将跨越目的靶区域的两条探针或探针元件与该靶区域杂交。在探针元件与相邻靶碱基进行碱基配对之处,可以通过连接,例如通过连接酶处理,将探针元件的相对末端连接起来。然后分析连接的探针元件,以证实靶序列的存在。
在该方法的改进形式中,连接的探针元件作为一对互补探针元件的模板。在探针元件对的存在下,经过连续的变性、杂交和连接的循环,将靶序列线性扩增,从而使得非常少量的靶序列能够得到检测和/或扩增。该方法被称为连接酶检测反应。当使用两个互补探针元件对时,该方法被称为连接酶链反应,其可实现靶序列的指数扩增。F.Barany,Proc.Nat'l Acad.Sci.USA,88:189-93(1991)和F.Barany,PCR Methods andApplications,1:5-16(1991)。
美国专利号5,470,705公开了用于多重检测核酸序列差异的另一方案,其中可将具有可检测标记物和独特的电荷/平移摩擦曳力(charge/translational frictionaldrag)比例的序列特异性探针与靶标杂交并连接在一起。该技术在Grossman等人,Nucl.Acids Res.22(21):4527-34(1994)中用于囊性纤维化跨膜调节基因的大规模多重分析。Jou等人,Human Mutation5:86-93(1995)涉及使用所谓的“缺口连接酶链反应”方法来同时扩增多个外显子的选定区域,其扩增产物在具有针对每个外显子的探针上的不同半抗原的特异性抗体的免疫色谱条带上进行阅读。
等位基因特异性探针的连接一般应用固相捕获(U.Landegren等人,Science,241:1077-1080(1988);Nickerson等人,Proc.Natl.Acad.Sci.USA,87:8923-8927(1990))或依赖于大小的分离(D.Y.Wu等人,Genomics,4:560-569(1989)和F.Barany,Proc.Natl.Acad.Sci,88:189-193(1991))来分辨等位基因信号,后一种方法在多重规模应用中受到连接探针的大小范围狭窄的限制。进一步地,在多重形式中,单独的连接酶检测反应无法制备足够多的产物来检测和定量少量的靶序列。缺口连接酶链反应方法需要额外的步骤——聚合酶延伸。具有独特的电荷/平移摩擦曳力比例的探针在更加复杂的多重检测中的使用要么需要更长的电泳时间,要么需要使用替代的检测形式。
需要用于高效且准确地对长核酸片段进行测序的方法。对于快速、高通量且低成本的测序技术,如对于病原体的即时应用和现场检测,存在巨大需求。本发明允许使用简单化学过程和低成本设备来对大量基因组进行测序,这导致显著的成本降低和速度提高,以及其它相关优势。
发明内容
本文提供了用于对靶核酸进行测序的方法和系统。本发明的一些实施方案特别适用于对大量的靶核酸同时进行测序。
在本发明的一个方面,提供了用于对长核酸进行测序的方法、试剂盒、计算机软件产品。通常使用分步法对核酸进行测序,例如使用基于聚合酶延伸的测序或连接测序,其中每个测序步骤读取一个或多个碱基。这些基于分步的测序法通常受限于其分步低效率,例如,不完全掺入、不完全连接和产生前相(prephasing)或退相(dephasing)的其它问题。分步低效率可以在阅读长度上积累并限制阅读长度。
在一些实施方案中,提供了用于部分或完全重置分步测序的方法、试剂盒及计算机软件产品。
在第一方面,所述方法包括:(a)通过延伸与靶核酸杂交的第一测序引物以产生第一引物延伸产物来对靶核酸的一个或多个碱基进行测序,从而获得第一序列阅读值;(b)从靶核酸上释放第一引物延伸产物;(c)任选地在相同靶核酸的相同或相邻区域将第二测序引物与靶核酸杂交;(d)通过经受限或受控延伸将第二测序引物延伸而产生第二引物延伸产物(延伸的引物);和(e)通过进一步延伸第二引物延伸产物以产生第三引物延伸产物来对靶核酸的一个或多个碱基进行测序,从而获得第二序列阅读值。在一个实施方案中,第一测序引物与第二测序引物相同。在另一个实施方案中,第一测序引物与第二测序引物不同。受控或受限延伸可以通过脉冲延伸进行或执行,例如通过使延伸反应持续一段较短的时间,如小于一分钟或从约半分钟到一分钟,例如,1-5、5-10、10-30、30至60秒。在一些实施方案中,通过去除四种核苷酸中的1、2或3种控制延伸。可以通过加入诸如碱性磷酸酶或腺苷三磷酸双磷酸酶(apyrase)的核苷酸降解酶进行脉冲延伸。在一些其它实施方案中,可以使用可逆终止子核苷酸控制脉冲延伸。例如,可以通过包括一种或多种可逆终止子核苷酸如dATP、dCTP、dGTP、dTTP*来进行每个或一些延伸步骤,其中dTTP是可逆终止子。在可逆终止子控制的延伸中,去除终止子中的封闭基团的步骤可在随后的延伸步骤之前进行。
在一些实施方案中,可以通过延伸和洗涤循环进行受控延伸。与脉冲延伸相似,可以通过限制核苷酸的可用性或通过加入可逆终止子核苷酸进行受控延伸。
受限延伸可以通过使用核酸聚合酶和一组或多组核苷酸来进行。一个或多个组通常各自包含不超过三种不同的核苷酸(碱基)。在一些实施方案中,一个或多个组包含一至四种核苷酸,并且其中至少一种核苷酸是可逆终止子核苷酸。延伸可用超过一组核苷酸,例如至少1、2、3或更多组进行。核苷酸组可以包含一种、两种或三种不同的核苷酸。
在一个实施方案中,该方法进一步包括:获得一个或多个额外的序列阅读值,例如通过重复从靶核酸上释放引物延伸产物的步骤;将额外的种子测序引物(或延伸引物)(在一些实施方案中,额外的种子测序引物靶向靶核酸的相同或相似区域)与靶核酸杂交;通过经由受控延伸将额外的测序引物延伸以产生额外的引物延伸产物;和通过进一步延伸额外的引物延伸产物以产生额外的引物延伸产物来对靶核酸的一种或多种碱基进行测序,从而获得额外的序列阅读值。可以通过组装第一、第二和任选的一种或多种额外的序列阅读值确定靶核酸的序列。可以通过使用标记的可逆终止子延伸测序引物、连接或本领域已知的用于读取核苷酸序列的任何其它方法对靶核酸进行测序。
在另一个实施方案中,洗涤步骤或核苷酸降解步骤可在随后的核苷酸组添加之前进行。
靶核酸可以附着于基底上。基底可以是平面或珠子,例如流动池。在另一个实施方案中,基底可以包含已经过表面处理以固定模板链或寡核苷酸的玻璃、硅、金属或塑料。在另一个实施方案中,靶核酸可以通过捕获探针附着在基底上。
本文公开的方法和系统可进一步包括分析如通过本文所公开的方法产生的测序结果,从而为受试者提供诊断、预后或诊疗(theranosis)。
此外,本文公开的方法可以用于对多个靶核苷酸进行测序。
在第二方面,本文涉及用于对靶核酸进行测序的方法,包括:
(a)使用多个不同的测序引物从核酸模板获得多个序列阅读值,其中至少一个所述引物由模板依赖性延伸反应产生;和
(b)通过组合来自步骤(a)的多种序列阅读值产生有关靶核酸的序列信息。在一些实施方案中,序列信息包含长度大于500、1000、1500、2000或3000个碱基的核苷酸序列。在一些实施方案中,组装的序列阅读值产生平均质量评分为至少26、27、28、29、30或31的序列信息。在一些实施方案中,组装的序列阅读值产生对于任意核苷酸位置的质量评分为至少26、27、28、29、30或31的序列信息。在一些实施方案中,序列阅读值起始于模板核酸上相距至少5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、175或200个碱基的位置。在一些实施方案中,来自模板核酸互补链的序列阅读值进一步与所述序列阅读值组装。
(c)在第三方面,本发明涉及用于对靶核酸进行测序的试剂盒,其包含可与靶核酸杂交的引物和一个或多个不完整的核苷酸组。在一些实施方案中,多个不完整的核苷酸组包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、32、35、40、45、50或60个不完整的核苷酸碱基组。在一些实施方案中,试剂盒进一步包含至少一种DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA依赖性DNA聚合酶。在一些实施方案中,DNA聚合酶是RNA依赖性DNA聚合酶。在一些实施方案中,DNA聚合酶是Klenow exo(-)。在一些实施方案中,试剂盒进一步包含焦磷酸酶。在一些实施方案中,试剂盒进一步包含腺苷三磷酸双磷酸酶。在一些实施方案中,试剂盒进一步包含核酸变性剂。在一些实施方案中,变性剂包括尿素、甲酰胺或氢氧化钠。在一些实施方案中,试剂盒进一步包含单链结合蛋白质。在一些实施方案中,不完整的核苷酸组包含1、2或3种核苷酸。在一些实施方案中,试剂盒进一步包含核酸外切酶。在一些实施方案中,核酸外切酶是5’-3’核酸外切酶。在一些实施方案中,核酸外切酶是3’-5’核酸外切酶。
在第三方面,本发明涉及用于对靶核酸进行测序的方法,该方法包括利用合成测序从单一模板中产生长度为n的序列信息;其中序列信息保持至少26、27、28、29、30或31的质量评分;并且其中n大于100、150、200、300、400、500、700、1000、1500、2000或3000。
第四方面,本发明涉及用于对靶核酸进行测序的系统,该系统包含:
(d)经调整适于进行多个合成测序反应的测序仪;和
(e)可与靶核酸杂交的引物;和
(f)一个或多个不完整的核苷酸组。在一些实施方案中,多个不完整的核苷酸组包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、32、35、40、45、50或60个不完整的核苷酸碱基组。在一些实施方案中,该系统进一步包含至少一种DNA聚合酶。在一些实施方案中,DNA聚合酶是DNA依赖性DNA聚合酶。在一些实施方案中,DNA聚合酶是RNA依赖性DNA聚合酶。在一些实施方案中,DNA聚合酶是Klenowexo(-)。在一些实施方案中,该系统进一步包含焦磷酸酶。在一些实施方案中,该系统进一步包含腺苷三磷酸双磷酸酶。在一些实施方案中,该系统进一步包含核酸变性剂。在一些实施方案中,变性剂包含尿素、甲酰胺或氢氧化钠。在一些实施方案中,该系统进一步包含单链结合蛋白质。在一些实施方案中,不完整的核苷酸组包含1、2或3种核苷酸。在一些实施方案中,该系统进一步包含核酸外切酶。在一些实施方案中,核酸外切酶是5’-3’核酸外切酶。在一些实施方案中,核酸外切酶是3’-5’核酸外切酶。
在第五方面,本发明涉及用于对靶核酸进行测序的方法,其包括:
(g)提供与所述靶核酸杂交的第一延伸引物;
(h)将所述第一延伸引物延伸至限定的长度;和
(i)从延伸的第一延伸引物开始对靶核酸进行测序产生第一序列阅读值,从而用测序产物对延伸的第一延伸引物进行进一步延伸。在一些实施方案中,该方法进一步包括:
(d)去除所述延伸的第一延伸引物和测序产物;
(e)将第二延伸引物与所述靶核酸杂交;和
(f)用第二延伸引物代替第一延伸引物,重复步骤(b)和(c),对所述靶核酸的第二区域进行测序产生第二序列阅读值。在一些实施方案中,该方法进一步包括:
(d)去除所述测序产物的至少一部分;
(e)提供与所述靶核酸杂交的第二延伸引物;
(f)用第二延伸引物代替第一延伸引物,重复步骤b)和c),对所述靶核酸的第二区域进行测序产生第二序列阅读值,其中所述第二区域与所述第一区域不同。在一些实施方案中,所述去除包括从靶核酸上完全去除所述测序产物和所述第一延伸引物。在一些实施方案中,所述去除包括从所述靶核酸上使所述测序产物和所述第一延伸引物变性。在一些实施方案中,变性包括使所述测序产物接触NaOH、尿素或甲酰胺。在一些实施方案中,所述去除包括所述测序产物的酶消化。在一些实施方案中,所述去除包括核酸外切酶消化,其中在所述测序过程中在测序产物的位置掺入对核酸外切酶消化具有抗性的碱基。在一些实施方案中,所述提供包括:
(i)将测序引物与所述靶核酸杂交;
(ii)从测序引物开始对靶核酸的区域进行测序,从而用测序产物将测序引物延伸;和
(iii)去除所述测序产物的一部分。在一些实施方案中,所述提供包括:
(i)将测序引物与所述靶核酸杂交;
(ii)从测序引物开始对靶核酸的区域进行测序,从而用测序产物将测序引物延伸。
(iii)去除所述测序引物及其相关联的测序产物;和
(iv)将所述第一延伸引物与所述靶核酸杂交。在一些实施方案中,所述第一和第二延伸引物相同。在一些实施方案中,所述第一和第二延伸引物不同。在一些实施方案中,所述延伸包括受控延伸,该受控延伸包括:
(g)将所述第一延伸引物与包含不超过三种不同核苷酸的核苷酸组以及聚合酶接触。
在一些实施方案中,所述延伸包括重复步骤(g),其中在重复之前,去除所述核苷酸。在一些实施方案中,所述核苷酸组在随后的两个步骤之间是不同的。在一些实施方案中,通过洗涤去除所述核苷酸。在一些实施方案中,通过核苷酸降解酶去除所述核苷酸。在一些实施方案中,所述核苷酸组进一步包含可逆终止子核苷酸,其中在重复之前,将掺入的可逆终止子核苷酸去封闭(deblocked),并且使其准备就绪以备进一步延伸。在一些实施方案中,通过脉冲延伸来进行所述延伸。在一些实施方案中,通过使延伸反应持续30至60秒来进行所述脉冲延伸。在一些实施方案中,通过组装所述第一、第二和任选地额外的序列阅读值来确定所述靶核酸的序列。在一些实施方案中,所述靶核酸附着于基底上。在一些实施方案中,所述基底是平面或珠子。在一些实施方案中,所述基底是流动池。在一些实施方案中,所述基底包含玻璃。在一些实施方案中,所述靶核酸通过捕获探针附着于基底上。在一些实施方案中,该方法进一步包括分析所述测序的结果以向受试者提供诊断、预后或诊疗。在一些实施方案中,该方法进一步包括对多个靶核酸进行测序。在一些实施方案中,所述组装得到包含长度大于500、1000、1500、2000或3000个碱基的核苷酸序列的序列信息。在一些实施方案中,组装得到包含至少为26、27、28、29、30或31的平均质量评分的序列信息。在一些实施方案中,组装得到包含对于任意核苷酸位置至少为26、27、28、29、30或31的质量评分的序列信息。在一些实施方案中,第一和第二序列阅读值起始于在模板核酸上相距至少5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、175或200个碱基的位置。在一些实施方案中,来自模板核酸互补链的序列阅读值与第一和第二序列阅读值进一步组装。在一些实施方案中,聚合酶是Klenow exo(-)。在一些实施方案中,核苷酸降解酶包含焦磷酸酶或腺苷三磷酸双磷酸酶。在一些实施方案中,通过包含5’-3’核酸外切酶或3’-5’核酸外切酶活性的酶进行所述测序产物的酶消化。
在第六方面,本发明涉及用于对靶核酸进行测序的方法,包括:
(a)进行靶核酸的第一区域的第一测序,产生第一阅读值;
(b)进行靶核酸的第二区域的第二测序,产生第二阅读值,其中所述第一和第二区域不同;
(c)组合所述第一和第二区域以产生组合阅读值。
在一些实施方案中,使用来自靶核酸同一条链的多核苷酸作为模板进行所述第一和第二测序。在一些实施方案中,所述第一和第二测序中的至少一个测序包括:
(i)将延伸引物延伸至限定的长度;和
(ii)使用延伸的引物进行测序。
在一些实施方案中,所述延伸包括受控延伸,该受控延伸包括:
(1)将所述第一延伸引物与包含不超过三种不同核苷酸的核苷酸组以及聚合酶接触。
在一些实施方案中,所述延伸包括重复步骤1,其中在重复之前,去除所述核苷酸。在一些实施方案中,所述核苷酸组在随后的两个步骤之间是不同的。在一些实施方案中,通过洗涤去除所述核苷酸。在一些实施方案中,通过核苷酸降解酶去除所述核苷酸。在一些实施方案中,所述核苷酸组进一步包含可逆终止子核苷酸,其中在重复之前,对掺入的可逆终止子核苷酸去封闭,并且使其准备就绪以备进一步延伸。在一些实施方案中,在计算机中通过将所述第一和第二区域拼接(stitching)为靶核酸的组装序列而进行所述组合。在一些实施方案中,组装的序列包含长度为n的缺口。在一些实施方案中,n小于2、3、4、5、6、7、8、9、10、15、20、25、30、50或100个核苷酸。在一些实施方案中,用相同的多核苷酸进一步进行所述第一和第二测序。在一些实施方案中,使用天然核苷酸进行所述延伸。在一些实施方案中,通过脉冲延伸进行所述延伸。在一些实施方案中,通过使延伸反应持续30至60秒进行所述脉冲延伸。在一些实施方案中,所述靶核酸附着于基底上。在一些实施方案中,所述基底是平面或珠子。在一些实施方案中,所述基底是流动池。在一些实施方案中,所述基底包含玻璃。在一些实施方案中,所述靶核酸通过捕获探针附着于所述基底上。在一些实施方案中,该方法进一步包括分析所述测序的结果以向受试者提供诊断、预后或诊疗。在一些实施方案中,该方法进一步包括对多个靶核酸进行测序。在一些实施方案中,所述组合阅读值包含含有长度大于500、1000、1500、2000或3000个碱基的核苷酸序列的序列信息。在一些实施方案中,所述组合阅读值包含含有至少为26、27、28、29、30或31的平均质量评分的序列信息。在一些实施方案中,所述组合阅读值包含含有对于任意核苷酸位置至少为26、27、28、29、30或31的质量评分的序列信息。在一些实施方案中,第一和第二阅读值起始于模板核酸上相距至少5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、175或200个碱基的位置。在一些实施方案中,来自模板核酸的互补链的序列阅读值进一步组合产生组合阅读值。在一些实施方案中,聚合酶是Klenowexo(-)。在一些实施方案中,核苷酸降解酶包括焦磷酸酶或腺苷三磷酸双磷酸酶。
用于受控延伸的核苷酸组是任意数目的不同类型的核苷酸的组合,包括天然的、可逆终止的或其它修饰的核苷酸,只要其组合允许控制(或设计)即可。换言之,核苷酸组是不导致失控延伸(不受限的延伸)的任意数目的天然的、可逆终止的或以其它方式操纵的核苷酸的任意组合。有时,受控延伸核苷酸组被描述为含有不超过三种不同的核苷酸。如本文所使用的,“不超过三种不同的核苷酸”是指三种不同的核苷酸,每种具有不同的碱基(即A、C、G、T碱基中的三种或A、C、G、U碱基中的三种。在一些实施方案中,T和U碱基可被认为是等同的)。若核苷酸组包含A、C、T和U,则其含有三种不同的核苷酸,因为T和U在一些实施方案中被认为是等同的。如果核苷酸的碱基经过修饰,修饰的核苷酸可根据其配对性质进行归类。例如,如果dATP在碱基中被修饰,但是一旦掺入,该修饰的核苷酸的碱基仍与T碱基配对,则经修饰的dATP仍然具有A碱基。
援引并入
本说明书中提及的全部出版物、专利和专利申请均通过引用并入本文,如同特别和单独地指出每个单独的出版物、专利或专利申请通过引用并入本文。
附图说明
本发明的新特征在随附的权利要求中具体描述。通过参考以下对利用了本发明原理的说明性实施方案进行阐述的详细描述和附图,可以更好地理解本发明的特征和优点,附图中:
图1是说明对长核酸进行测序的示例性过程的示意图。
图2是说明对所获得的阅读值具有缺口的长核酸进行测序的示例性过程的示意图。
图3是说明创建用于测序的延伸的测序引物的示例性过程的示意图。
图4是说明通过剥离测序产物或通过消化测序产物去除测序产物以构建延伸的测序引物的示例性过程的示意图。
图5是说明通过消化测序产物去除测序产物以构建延伸的测序引物的示例性过程的示意图。
图6是说明通过部分消化测序引物以构建延伸的测序引物的示例性过程的示意图。
图7描述了通过计算机系统可以获得、处理、分析和/或组装核酸序列信息。
图8描述了模板和三碱基延伸反应的实例。
图9描述了黑暗碱基(天然核苷酸)延伸实验设计的示例性实施方案。
图10描述了本发明的示例性实施方案的结果,其中12步的3-碱基延伸产生了124个碱基对(bp)的产物(延伸加上引物),其中模板是寡核苷酸。
图11描述了本发明的示例性实施方案的结果,其中12步的3-碱基延伸产生了124个bp的产物(延伸加上引物),其中模板是PCR产物。
图12描述了对于本发明示例性实施方案中的泳道1,每个测序步骤的碱基判定值百分数,其中黑暗碱基延伸的最后一步是缺少T的步骤,并且如所预期的,第一测序碱基100%是“T”。
图13描述了对于本发明示例性实施方案中的泳道3,每个测序步骤的碱基判定值百分数,其中黑暗碱基延伸的最后步骤是缺少C的步骤,并且如所预期的,第一测序碱基100%是“C”。
图14描述了黑暗碱基延伸在泳道1(10个步骤)和泳道3(4个步骤)中的分布。
图15描述了在本发明的另一示例性实施方案中,黑暗碱基延伸在泳道4(10个步骤)、泳道5(16个步骤)和泳道6(20个步骤)中的分布。
图16是实施例5中测序结果的总结。
图17示出了在阅读长度上质量评分的变化。
图18是与实施例6相关的在阅读长度上Q-评分变化的总结。X轴是以bp为单位的阅读长度。Y轴是测量的或经验性的Q-评分。
具体实施方式
除非另有说明,在此使用的所有技术和科学术语均具有与本发明所属领域的普通技术人员的常规理解相同的含义。虽然与在此描述的方法和材料相似或等同的任何方法和材料均可用于本发明的实践或检测中,但是在此还是对代表性的说明性方法和材料进行了描述。这些常规技术和描述可见于标准实验室手册中,例如Genome Analysis:ALaboratory Manual Series(第I-IV卷),Using Antibodies:A Laboratory Manual,Cells:A Laboratory Manual,PCR Primer:A Laboratory Manual,和Molecular Cloning:A Laboratory Manual(均来自Cold Spring Harbor Laboratory Press);Stryer,L.(1995)Biochemistry(第四版)Freeman,New York;Gait,“Oligonucleotide Synthesis:APractical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,(2004)Principles of Biochemistry第四版,W.H.Freeman Pub.,New York,N.Y.and Berg等人(2006)Biochemistry,第六版,W.H.Freeman Pub.,New York,N.Y.,所有这些出于任何目的均通过引用整体并入本文。
本文提供了对靶核酸进行测序的方法和系统。本发明的一些实施方案特别适于对大量的靶核酸同时进行测序。
在本发明的一个方面,提供了用于对长核酸进行测序的方法、试剂盒、计算机软件产品。通常采用分步法对核酸进行测序,例如基于聚合酶延伸的测序或连接测序,其中每个测序步骤读取一个或多个碱基。这些基于分步法的测序法通常受限于其分步低效率,例如,不完全掺入、不完全连接和产生前相或退相的其它问题。分步低效率可以在阅读长度上积累并限制阅读长度。
例如,基于可逆终止子核苷酸的测序(购自Helicos,Inc.、Illumina,Inc.、Intelligent Biosystems,Inc./Azco Biotech,Inc.并且在供应商文献及其专利申请文件以及在http://www.helicosbio.com、http://www.illumina.com、http://www.azcobiotech.com中有所描述)受掺入可逆终止子核苷酸的效率所限制,该可逆终止子核苷酸在3’羟基处被修饰或经其它方式被修饰从而中断经由聚合酶的进一步延伸。如果测序检测是基于添加有可检测标记如荧光基团的修饰核苷酸的掺入,那么掺入效率可能进一步降低。可以通过混合未标记的和标记的可逆终止子核苷酸来部分地缓解此问题。然而,即使有改进的化学过程和效率,分步低效率也可以显著地限制阅读末端的阅读长度和阅读质量。
分步效率问题可以用以下的情况说明,其中每个测序步骤具有约99%的恒定的分步掺入效率,并且在群簇中有1,000个模板分子。在第一掺入步骤之后,10个测序引物未被延伸,而是被加帽或以其它方式不再参与测序。在此情况下,在100个测序步骤之后,只有(0.99)100=36.6%或360个分子留在群簇中用于额外的测序。在第200步时,只有(0.99)200=13.4%或134个分子留在群簇中用于额外的测序。如果效率下降到98%,在第100步时,只剩下13.4%的分子用于额外的测序反应,而在第200步时,只有1.8%的分子可有潜力用于进一步测序。
对于核苷酸限制添加测序法,例如基于焦磷酸检测的测序(购自Roche/454并在供应商文献及专利申请文件以及在http:www.454.com中有所描述)或基于pH检测的测序(购自Ion Torrent,Inc./Life Technologies,Inc.并在供应商文献和专利申请文件中有所描述),效率可受不完全掺入、错误掺入、丧失结合的聚合酶(脱落)所限制。由于分步效率受例如连接反应效率和标记移除所限制,基于分步连接的测序具有类似的效率问题。
在本发明的一个方面,提供了对核酸进行测序的方法、试剂盒、设备和计算机软件产品。在一些实施方案中,依次从模板获得核酸靶序列的两个或更多个片段。然后将片段组装以产生核酸靶序列的连续序列或有缺口的序列。图1说明了一些实施方案中的过程。对靶核酸(101)的一部分(102)进行测序(图1A)。也对靶核酸(101)的另一部分(103)进行测序(图1B)。该过程可以重复(图1C)多次。如图1所示,测序的部分是重叠的,所以可基于重叠序列和/或其它信息来组装序列。
在一些实施方案中,同时对大量的靶核酸(例如至少10、100、1,000、10,000、100,000或1,000,000)进行测序。这些靶核酸可以是DNA、RNA或经修饰的核酸。虽然它们可以作为单个分子进行测序,但是它们也可作为克隆或群簇进行测序。克隆或群簇(例如在珠子上)中的每一个源自单个核酸分子。对在单个分子或克隆分子群簇或珠子中的大量靶核酸进行测序的方法是本领域所熟知的。为了简单说明,一些实施方案可使用诸如“一个靶核酸”或“一个延伸引物”的单数术语进行描述,本领域技术人员将会理解许多实施方案可用于同时或依次对许多靶核酸进行测序,并且这种测序可在靶核酸的拷贝(多于10、100、1,000、100,000个拷贝)上进行。
当数据量很大时,一般采用计算机软件产品组装序列。计算机软件产品通常输入每个靶核酸的原始序列,并且一旦发现重叠区域就组装连续序列,并且任选地,使用诸如与参考序列的比对、关于测序运行的起始位置的信息、或测序运行之间的相对位置差异等附加信息验证重叠区域。可以通过例如与靶核酸的参考序列的比对进一步验证所得的连续序列(105)。可以采用例如之前讨论的分步测序法来进行测序。虽然单个测序运行(例如102、103和104)具有基于基础测序阅读技术的阅读长度限制,但是组装的连续序列可以明显更长,例如超过单个测序阅读(102、103和104)的1.5、2、3、4或5倍。单个测序运行可以依次进行。在一些实施方案中,测序运行的顺序不重要。例如,图1C中的步骤可以在图1A中的步骤之前进行。如果靶核酸被拷贝至若干不同位置,则使用备选测序引物的测序运行也可以平行进行。
单个测序阅读并不是必须重叠。图2说明了用三种独立的测序运行进行的长核酸测序。测序阅读202和203不重叠,因此所得的组装的序列205具有缺口。在一些实施方案中,提供的计算机软件产品不仅可以输出具有缺口的序列,也可以基于与参考序列的比对估计缺口的大小。可以估计测序阅读间的位置差异,例如,基于不同测序引物的起始位置。位置差异可以用于估计缺口大小。
由于单个测序运行可以独立进行,每个测序运行重置测序起始条件,并且不受累积的低效率或误差的影响或影响较小。通过将靶核酸的测序片段化,具有固有长度限制的测序方法和化学过程可以用于对靶核酸进行测序,获得比这些测序方法和化学过程的原始长度限制更长的序列信息。例如,对于测序长度限制为250个碱基的可逆终止子测序化学过程,可以通过将250个碱基长的可逆终止子测序进行4次或更多次来对1,000个碱基长的靶核酸连续地进行测序。在各种实施方案中,来自单个模板的总阅读长度可高达100、200、250、500、1000、2000个碱基或更多。
在本发明的另一方面,提供了用于构建测序引物的方法和试剂盒。所得的测序引物可以具有不同的长度。用于同一靶核酸的不同测序引物可以用于对靶核酸的不同片段进行测序。
在一些实施方案中,提供了与靶核酸杂交的延伸引物。在一个实施方案中,延伸引物通过受控延伸得以延伸。可以采用聚合酶延伸反应、分步连接反应和其它方法进行受控延伸。对于聚合酶延伸反应,可以通过例如三核苷酸循环或可逆终止子反应进行受控延伸。以下章节和整个说明书中也对受控延伸进行了非常详细的描述。
延伸的延伸引物可以用于测序。图3说明了此过程的一些实施方案。图3A示出了靶核酸(301)与延伸引物(302)杂交。在图1B中,延伸引物(302)随后通过采用一种或多种核酸聚合反应或一种或多种连接反应延伸若干碱基,从而产生延伸的引物(302和303,其中303是延伸的部分)。延伸的引物(302、303)随后作为测序引物用于测序(图3C,测序产物示为304)。
在一些实施方案中,靶核酸与测序产物(例如图3C得到的产物)杂交。测序产物可以是可逆终止子测序或核苷酸添加测序的结果。通常,在靶核酸的克隆群簇中,由于导致例如退相或前相产物的测序反应的低效率,不同长度的测序产物可与克隆群簇中的靶核酸拷贝杂交。本领域技术人员将会理解,虽然通常使用单数术语描述本发明的实施方案,但可以用分子克隆进行典型的测序反应,其中每个克隆含有相同分子的大量拷贝,由于桥式扩增、乳液PCR、滚环扩增和其它扩增反应的误差,这些拷贝具有微小的差异。本领域技术人员也将理解,以大规模平行方式对大量靶核酸并由此对大量分子克隆群簇同时进行测序。
可以在延伸引物与测序模板杂交之前去除该测序产物(或在对群簇进行测序的情况下,去除多个产物)。图4说明了此过程的一些实施方案。在图4A中,测序模板(401)与测序引物(402)杂交,测序引物用于测序,测序得到测序产物(403)。通过变性或通过酶消化去除测序引物(402)和测序产物(403)的结构(图4B)。用于从双链核酸结构中去除一条核酸链的方法是本领域中所熟知的。例如,可以通过将测序结构与NaOH溶液(例如约0.1N NaOH)或另一变性试剂接触使之变性。也可以通过核酸外切酶消化或其它酶处理去除测序产物结构。如果使用酶消化,可以使用例如5'端和/或3'端的保护碱基来保护靶核酸链。在许多情况下,模板固定在基底上,致使只有一端可潜在地易被核酸酶消化。在一些情况下,保护模板不是必要的,因为某些核酸外切酶仅沿特定的方向(5'-3'或3'-5')进行消化。例如,核酸外切酶III主要消化双链DNA的凹入的3'端。如果靶核酸在其3'端固定,那么可能不必要保护5'端。如上所述以及如以下章节所详述的,在去除测序产物之后,延伸引物可进行杂交和延伸(图4C)以产生延伸的引物,该延伸的引物可以作为引物用于测序(图4D)。
在一些其它实施方案中,测序产物结构不需要完全去除。其可以部分去除。如图5和图6所示,测序产物部分(503或603)可完全去除(图6)或部分去除(图5,505比503小)。测序引物部分(502或602)可以是之前延伸反应如图3、图4、图5和图6中描述的反应的产物。可用核酸外切酶消化(例如核酸外切酶III消化)实现核酸的部分消化。如果合成引物被用作502,则最后一个碱基可以是不能被核酸外切酶消化的碱基。例如,如果从502到503的方向是5'到3',那么可以使用对特定核酸外切酶消化具有抗性的硫醇键连接502部分的最后一个碱基。众所周知,含α-硫代磷酸的磷酸二酯键对由噬菌体T4DNA聚合酶和核酸外切酶III的3'至5'核酸外切活性引起的水解具有抗性。也可以通过在需要的位置引入一个或多个硫代三磷酸核苷酸产生含有硫代磷酸的二酯键。正如Yang等人(2007),“Nucleoside Alpha-Thiotriphosphates,Polymerases and the Exonuclease III Analysis ofOligonucleotides Containing Phosphorothioate Linkages”,Nucleic AcidsResearch,2007,Vol.35:3118–3127(通过引用并入本文)中所报导的,推荐了硫代三磷酸的纯S-非对映异构体形式,因为R-非对映异构体形式可能对核酸外切酶III消化不稳定。
图5B说明了测序产物的部分消化。例如,在测序过程中,可以将核苷酸硫代三磷酸掺入到一个或多个特定位置中。在可逆终止子测序中,可逆终止子核苷酸可以是核苷酸硫代三磷酸。该位置可以用于终止图5B中所说明的步骤中的核酸外切酶消化。当测序的早期步骤未掺入太多的前相或退相或其它低效率时,测序产物的部分移除可能是有益的。其可减少对图5C中所说明的延伸步骤的需要,因为504加505的总大小长于图4中的405,并且将下一个测序(506)进一步延伸超过406。然而,通过掺入测序产物(505)的一部分,如果在群簇中的504片段在长度上变化过大,则该过程可能影响后续的测序质量。
靶标或靶核酸
在一个方面,本发明提供了一种用于对靶核酸分子或靶核酸集合进行测序的方法。如本文所用的“靶核酸分子”、“靶分子”、“靶多核苷酸”、“靶多核苷酸分子”或其语法上的等同术语是指目的核酸。靶核酸例如可以是DNA或RNA或任何具有DNA或RNA的相似性质的合成结构。如本文所用的,测序是指靶核酸中至少单个碱基、至少2个连续的碱基、至少10个连续的碱基或至少25个连续的碱基的确定。测序准确度可以是总体上或每个碱基至少65%、75%、85%、95%、99%、99.9%和99.99%。测序可以直接对靶核酸上或对源自靶核酸的核酸进行。在一些应用中,同时对大量靶核酸,例如至少1,000、10,000、100,000或1,000,000个靶核酸进行测序。
在一些实施方案中,靶核酸是来源于特定生物体的染色体中的遗传材料的基因组DNA和/或非染色体遗传材料中的DNA如线粒体DNA。基因组克隆文库是由一组随机产生的、代表生物体整个基因组的重叠DNA片段组成的克隆的集合。基因组文库是生物体基因组DNA中至少2%、5%、10%、30%、50%、70%、80%或90%的一个序列或多个序列的集合。
靶核酸包括天然存在的或遗传改变的或合成制备的核酸(如来自哺乳动物疾病模型的基因组DNA)。靶核酸可以从几乎任何来源获得,并可使用本领域已知的方法制备。例如,使用本领域已知的方法,靶核酸可无需扩增直接分离,所述方法包括但不限于从生物体(例如,细胞或细菌)提取基因组DNA的片段以获得靶核酸。在另一个实例中,靶核酸也可通过使用本领域已知的方法扩增而分离,所述方法包括但不限于聚合酶链反应(PCR)、全基因组扩增(WGA)、多重置换扩增(MDA)、滚环扩增(RCA)、滚环扩增(RCR)以及其它扩增方法。靶核酸还可通过克隆获得,所述克隆包括克隆至诸如质粒、酵母和细菌人工染色体的载体内。“扩增”是指增加靶序列的拷贝数的任何过程。扩增可以采用本领域已知的任何方法进行。用于对靶多核苷酸进行引物引导的扩增的方法是本领域已知的,且包括但不限于基于聚合酶链反应(PCR)的方法。可使用的PCR技术的实例包括但不限于定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RTPCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、热启动PCR、巢式PCR、原位聚合酶群落(polony)PCR、原位滚环扩增(RCA)、桥式PCR、微滴(picotiter)PCR和乳液PCR。有利于通过PCR对靶序列进行扩增的条件在本领域是已知的,可以在该过程的多个步骤中进行优化,并且取决于反应中的元件的特征,例如靶标类型、靶标浓度、待扩增的序列长度、靶标的序列和/或一种或多种引物、引物长度、引物浓度、使用的聚合酶、反应体积、一种或多种元件与一种或多种其它元件的比例等等,上述一些或全部可以变化。通常,PCR包含以下步骤,待扩增的靶标进行变性(如果是双链的),将一种或多种引物与靶标杂交,以及通过DNA聚合酶对引物进行延伸,重复(或“循环”)这些步骤从而扩增靶序列。该过程的步骤可针对各种结果进行优化,例如提高产率、降低假产物的形成和/或提高或降低引物退火的特异性。优化方法是本领域所熟知的,并且包括调整扩增反应中的元件类型或数量和/或该过程中给定步骤的条件,例如特定步骤的温度、特定步骤的持续时间和/或循环数。在一些实施方案中,扩增反应包含至少5、10、15、20、25、30、35、50个或更多个循环。在一些实施方案中,扩增反应包含不超过5、10、15、20、25、35、50个或更多个循环。循环可包含任意数量的步骤,例如1、2、3、4、5、6、7、8、9、10个或更多个步骤。步骤可以包含任意温度或温度梯度,其适于实现该给定步骤的目的,包括但不限于3’端延伸(例如衔接头补平)、引物退火、引物延伸和链变性。步骤可以持续任意时间,包括但不限于大约、低于约或超过约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600秒或更多秒,包括无限期直至手动中断。包含不同步骤的任意数目的循环可以以任意顺序组合。在一些实施方案中,包含不同步骤的不同循环进行组合,使得组合中的总循环数为大约、低于约或超过约5、10、15、20、25、30、35、50个或更多个循环。其它合适的扩增方法包括连接酶链反应(LCR)、转录扩增、自动维持序列复制、靶多核苷酸序列的选择性扩增、共有序列引物聚合酶链反应(CP-PCR)、任意引物聚合酶链反应(AP-PCR)、简并寡核苷酸引物PCR(DOP-PCR)和基于核酸的序列扩增(NABSA)。可用于本文的其它扩增方法包括美国专利号5,242,794、5,494,810、4,988,617和6,582,938中描述的那些方法。在一些实施方案中,扩增在细胞内进行。
在任意实施方案中,扩增可发生在载体上,例如珠子或表面上。在本文的任意实施方案中,靶标可从单个细胞的提取物扩增。
靶核酸还可含有外源序列,例如在如经由连接或扩增过程制备文库过程中引入的通用引物序列或条形码序列。本文所用的术语“测序模板”可指靶核酸本身或指与靶核酸片段或靶核酸的互补链的核苷酸序列完全相同或基本相似的核苷酸序列。在一个实施方案中,靶核酸分子包含核糖核酸(RNA)。
在一个实施方案中,靶多核苷酸是基因组DNA或基因组DNA的一部分。尽管一个实施方案是用于对全基因组进行测序,如超过50%的覆盖范围,但是这些实施方案也适合对靶区域如与药物代谢有关的基因组区域进行测序。在一个实例中,靶多核苷酸是人基因组DNA。
如本文所用,靶核酸也可以指用于测序的核酸结构。这些结构通常包含位于靶核酸序列的一端或两端的衔接头序列。例如,源于样品基因组DNA的序列或源于样品RNA分子的序列可与扩增衔接头和/或测序衔接头连接。文库构建方法是本领域所熟知的。核酸测序文库可采用桥式扩增、乳液PCR扩增、滚环扩增或其它扩增方法以克隆的方式在基底上进行扩增。该过程可以手动进行或使用诸如cBot(Illumina,Inc.)或OneTouchTM(Ion Torrent)的自动化设备进行。
“核酸”或“寡核苷酸”或“多核苷酸”或语法上等同的术语一般是指共价连接在一起的至少两个核苷酸。本发明的核酸通常含有磷酸二酯键,虽然在如下所示的一些情况下(例如在引物和探针如标记探针的构建中),也包括可具有替代骨架的核酸类似物,其包含例如磷酰胺(参见例如Beaucage等人,Tetrahedron49(10):1925(1993);Letsinger,J.Org.Chem.35:3800(1970);Sprinzl等人,Eur.J.BioChem.81:579(1977);Letsinger等人,Nucl.Acids Res.14:3487(1986);Sawai等人,Chem.Lett.805(1984),Letsinger等人,J.Am.Chem.Soc.110:4470(1988);和Pauwels等人,Chemica Scripta26:141(1986))、硫代磷酸(Mag等人,Nucleic Acids Res.19:1437(1991);和美国专利号5,644,048)、二硫代磷酸(参见例如Briu等人,J.Am.Chem.Soc.111:2321(1989))、O-甲基亚磷酰胺(methylphophoroamidite)连接(参见例如Eckstein,Oligonucleotides and Analogues:APractical Approach,Oxford University Press)和肽核酸(此处也称为“PNA”)骨架和连接(参见例如Egholm,J.Am.Chem.Soc.114:1895(1992);Meier等人,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlsson等人,Nature380:207(1996))。
其它核酸类似物包括那些具有双环结构的核酸,包括锁定核酸,此处也称为“LNA”),(参见例如Koshkin等人,J.Am.Chem.Soc.120.132523(1998);阳性骨架(Denpcy等人,Proc.Natl.Acad.Sci.USA92:6097(1995);非离子骨架(参见例如美国专利号5,386,023,5,637,684,5,602,240,5,216,141和4,469,863;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30:423(1991));Letsinger等人,J.Am.Chem.Soc.110:4470(1988);Y.S.Sanghui和P.Dan Cook编;Mesmaeker等人,Bioorganic & MedicinalChem.Lett.4:395(1994);Jeffs等人,J.Biomolecular NMR34:17(1994);TetrahedronLett.37:743(1996))和非核糖骨架,包括在美国专利号5.235,033和5,034,506和ASCSymposium Series580第6和7章,Y.S.Sanghui和P.Dan Cook编著的"CarbohydrateModifications in Antisense Research"中描述的那些。
含有一个或更多个碳环糖的核酸也包括在核酸的定义内(参见例如Jenkins等人,Chem.Soc.Rev.(1995)pp169176)。一些核酸类似物描述于Rawls,C&E News,1997年6月2日,第35页。
如所指出的,靶核酸可以是单链或双链的,或既含有双链序列部分又含有单链序列部分。根据应用,核酸可以是DNA(包括基因组DNA和cDNA)、RNA(包括mRNA和rRNA)或杂合体,其中核酸含有脱氧核糖核苷酸和核糖核苷酸的任意组合,和包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等在内的碱基的任意组合。
在一个实施方案中,本发明的方法包括靶多核苷酸的捕获。靶多核苷酸可以来自基因组的已知区域。在一个实施方案中,寡核苷酸探针可固定在珠子上,这些便宜且可重复使用的寡核苷酸珠子可用于捕获靶基因组多核苷酸。在另一个实施方案中,利用微阵列捕获靶多核苷酸。
在一个实施方案中,靶多核苷酸可以片段化成合适的长度或多个合适的长度,如长度在大约100-200、200-300、300-500、500-1000、1000-2000之间或更多个碱基。
在一个实施方案中,通过全基因组扩增(WGA)(参见例如Hawkins等人:Wholegenome amplification--applications and advances.Curr.Opin.Biotechnol.2002年二月;13(1):65-7))制备靶多核苷酸。在另一个实施方案中,通过全基因组取样分析(WGSA)制备靶多核苷酸。通常,WGSA通过扩增样品中的片段亚组而降低了核酸样品的复杂性。用一种或多种限制性酶将核酸样品片段化,并在片段两端连接上衔接头。使用与衔接头序列互补的引物利用PCR扩增该片段。在PCR过程中选择性地扩增选定大小范围的片段。大小范围可以是例如400-800或400-2000个碱基对。在选定大小范围之外的片段没有被有效扩增。可以通过计算机模拟的消化来预测由WGSA扩增的片段,并可选择限制酶组合使得所得到的WGSA扩增片段可代表具有特定意义的基因组区域。所得到的通常具有期望的衔接头序列(包括任选的条形码序列和一个或多个测序引物杂交位点)的文库可用于测序和用于与基因分型阵列杂交。在这样的实施方案中,文库可以用于测序,并且可以通过将同一文库与阵列杂交来确认所检测的SNP或插入缺失(indel)。Kennedy等人(2003),Nat Biotechnol,Vol.,pp.1233-1237,和美国专利申请序列号10/316,517、10/442,021、10/463,991、10/316,629和美国专利号6,361,947、6,548,810、7,267,966、7,297,778和7,300,788公开了WGSA,所有这些均通过引用并入本文。
在一个实施方案中,通过PCR如长片段PCR(long-range PCR)制备靶多核苷酸或靶多核苷酸的集合。长片段PCR允许扩增比用常规Taq聚合酶能够得到的产物大得多的PCR产物。通常,在合适的条件下,可以从高质量的基因组DNA制备长达27kb的片段,虽然通常只能得到10-20kb的片段。在一些实施方案中,获得了超过27kb的片段。该方法通常依赖于热稳定的DNA聚合酶的混合物,通常为具有高度持续合成能力(即5’-3’聚合酶活性)的Taq DNA聚合酶和具有3’-5’校正能力的另一DNA聚合酶(通常为Pwo)。该特征组合允许比单独的Taq所能获得的更长的引物延伸。
在一个实施方案中,通过基因座特异性多重PCR制备靶多核苷酸。多重基因座特异性扩增可用于从复杂核酸背景扩增多个预选定的靶序列。利用用于修饰片段末端的夹板(splint)寡核苷酸筛选靶标以供扩增。该片段具有已知的末端序列,且夹板设计为与末端互补。夹板可将片段末端汇合到一起,末端被连接形成一个环。夹板还可以用于在靶片段末端增加一个通用引发位点。将特异性基因座扩增,并可随后进行分析。
在又另一个实施方案中,利用多重PCR产生靶多核苷酸,并且用标签序列标记每个PCR片段。该标签序列可以作为用于PCR的引物之一的一部分加入。因此,每个产生的PCR片段可以独特地被识别。这些应用可以用于对物种如微生物物种的鉴定。
其它合适的扩增方法包括但不限于连接酶链反应(LCR)(例如,Wu和Wallace,Genomics4,560(1989),Landegren等人,Science241,1077(1988)和Barringer等人Gene89:117(1990))、转录扩增(Kwoh等人,Proc.Natl.Acad.Sci.USA86,1173(1989)和WO88/10315)、自动维持序列复制(Guatelli等人,Proc.Nat.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶多核苷酸序列的选择性扩增(美国专利6,410,276)、共有序列引物聚合酶链反应(CP-PCR)(美国专利号4,437,975)、任意引物聚合酶链反应(AP-PCR)(美国专利号5,413,909、5,861,245)和基于核酸的序列扩增(NABSA)。(参见美国专利号5,409,818、5,554,517和6,063,603,其中每个均通过引用并入本文)。在美国专利号5,242,794、5,494,810、4,988,617和美国序列号09/854,317中描述了其它可用的扩增方法,其中每个均通过引用并入本文。在Dong等人,Genome Research11,1418(2001),美国专利号6,361,947、6,391,592、6,632,611、6,872,529、6,958,225和美国序列号09/916,135中描述了其它样品制备方法和降低核酸样品复杂性的技术。
可直接在细胞裂解物中,在核酸提取物中,或在对核酸组分进行部分纯化而使它们富集目标靶标后分析天然存在的靶标。在一个实例中,靶多核苷酸是人基因组DNA。待测多核苷酸靶标可以是未修饰的或修饰的。有用的修饰包括但不限于放射性和荧光标记物以及诸如生物素或地高辛配基的锚定配体。修饰可以在靶标内部或在5’或3'末端进行。靶标修饰可在合成后通过化学或酶促反应例如连接或聚合酶辅助的延伸进行。或者,可以在酶促聚合反应中使用少量修饰的NTP作为底物将内部标记物和锚定配体直接引入扩增的靶标或其互补体中。
靶多核苷酸可以从受试者中分离。该受试者不限于人类,也可以是其它生物体,包括但不限于哺乳动物、植物、细菌、病毒或真菌。在一个实例中,靶多核苷酸是从人体中提取的基因组DNA。
输入核酸可以是DNA或复杂DNA,例如基因组DNA。输入DNA也可以是cDNA。cDNA可以由RNA例如mRNA产生。输入DNA可以是特定物种的,例如人类、大鼠、小鼠、其它动物、植物、细菌、藻类、病毒等。输入核酸也可以来自不同物种的基因组的混合物,如宿主-病原体、细菌群体等。输入DNA可以是由不同物种基因组的混合物制得的cDNA。或者,输入核酸可以来自合成来源。输入DNA可以是线粒体DNA。输入DNA可以是无细胞DNA。该无细胞DNA可以从例如血清或血浆样品中获得。输入DNA可以包含一种或多种染色体。例如,如果输入DNA来自人类,那么该DNA可包含染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一种或多种。该DNA可以来自线性或环状基因组。该DNA可以是质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。输入DNA可以来自超过一个个体或生物体。输入DNA可以是双链的或单链的。输入DNA可以是染色质的一部分。输入DNA可以与组蛋白关联。本文所述的方法可以应用于高分子量DNA,例如从组织或细胞培养物中分离,和高度降解的DNA,例如来自血液和尿液的无细胞DNA和/或从福尔马林固定、石蜡包埋的组织中提取的DNA。
衍生出靶多核苷酸的不同样品可以包含来自相同个体的多个样品、来自不同个体的样品或其组合。在一些实施方案中,样品包含来自单个个体的多种多核苷酸。在一些实施方案中,样品包含来自两个或多个个体的多种多核苷酸。个体是可衍生出靶多核苷酸的任意生物体或其部分,其非限制性实例包括植物、动物、真菌、原生生物、原核生物、病毒、线粒体和叶绿体。样品多核苷酸可从受试者中分离,如由其衍生的细胞样品、组织样品或器官样品,包括例如培养的细胞系、活组织检查、血液样品或含有细胞的流体样品。受试者可以是动物,包括但不限于诸如牛、猪、小鼠、大鼠、鸡、猫、狗等动物,并且通常是哺乳动物,如人类。样品也可以人工获得,如通过化学合成。在一些实施方案中,样品包含DNA。在一些实施方案中,样品包含基因组DNA。在一些实施方案中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中,样品包含通过使用任意合适的引物组合和DNA聚合酶的引物延伸反应(包括但不限于聚合酶链反应(PCR)、逆转录及其组合)所产生的DNA。当用于引物延伸反应的模板是RNA时,逆转录的产物被称为互补DNA(cDNA)。可用于引物延伸反应的引物可以包含对一种或多种靶标、随机序列、部分随机序列及其组合具有特异性的序列。适于引物延伸反应的反应条件是本领域已知的。通常,样品多核苷酸包含在样品中存在的任意多核苷酸,其可包括或可以不包括靶多核苷酸。
用于核酸提取和纯化的方法是本领域所熟知的。例如,核酸可以使用苯酚、苯酚/氯仿/异戊醇或类似配方包括TRIzol和TriReagent通过有机提取进行纯化。提取技术的其它非限制性实例包括:(1)有机提取之后进行乙醇沉淀,例如使用苯酚/氯仿有机试剂(Ausubel等人,1993),使用或不使用自动化核酸提取仪,例如购自Applied Biosystems(Foster City,Calif.)的341型DNA Extractor;(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);和(3)盐诱导的核酸沉淀法(Miller等人,(1988),该沉淀法通常被称为“盐析”法。核酸分离和/或纯化的另一实例包括使用核酸可与之特异性或非特异性结合的磁性颗粒,随后使用磁体分离珠子,并洗涤和从珠子上洗脱核酸(参见例如美国专利号5,705,628)。在一些实施方案中,上述分离方法之前可进行酶消化步骤以帮助从样品中消除不需要的蛋白质,例如用蛋白酶K或其它类似蛋白酶消化。参见例如美国专利号7,001,724。如果需要,可将RNA酶抑制剂加入裂解缓冲液中。对于某些细胞或样品类型,可能需要在试验方案中增加蛋白质变性/消化步骤。纯化方法可涉及分离DNA、RNA或此两者。当DNA和RNA两者在提取步骤过程中或在提取步骤后被一起分离时,可采用进一步的步骤将一种或两种单独地与另一种进行纯化。也可以产生所提取的核酸的亚组分,例如,根据大小、序列或其它物理或化学特征进行纯化。除了起始核酸分离步骤之外,核酸的纯化还可以在本发明方法的任意步骤之后进行,如去除过量或不需要的试剂、反应物或产物。
受控的引物延伸
受控的延伸是将延伸引物的长度增加到限定的长度或限定的距离。如本文所用,限定的长度是指依赖于延伸条件且可能依赖于模板序列的延伸的长度。对于延伸反应,限定的延伸长度可能不是已知的,但是可以确定。例如,三核苷酸延伸的单个步骤可以将引物延伸至对于正确的进一步延伸而言需要缺失的核苷酸的位置。这样的位置依赖于核苷酸组合及模板序列,因此是限定的。但是如果模板序列是未知的且延伸产物没有经过测量,那么该位置可能不被获知。一旦模板或靶核酸序列得以确定,就可以估算延伸长度。
然而,在一些其它实施方案中,限定的长度可能不依赖于模板序列。例如,如果受控延伸通过分步连接反应进行,则限定的延伸长度可能不依赖于模板序列。有许多进行分步连接的方式来使引物生长。在一个实例中,将随机六聚物(具有随机序列的六聚物的集合)连接至延伸引物的5’端。该随机六聚物不具有5’磷酸,所以它不能连接到已经延伸的引物上(加入的六聚物不提供5’磷酸)。5’磷酸可以通过激酶反应加入,而延伸的引物随后在另外一次延伸中被读取。在这个实例中,每个延伸步骤加入6个碱基。相似的分步连接可以在延伸引物的3’端进行。
对于用于测序的分子克隆群簇,受控延伸是至少55%、65%、70%、75%、80%、85%、95%、98%、99%、99,9%、99.99%同步的,因为群簇中至少大部分分子在每个步骤中被延伸相同的长度。
在一些实施方案中,利用聚合作用进行受控引物延伸。在这些实施方案中,延伸引物从其3’端沿5’-3’方向进行延伸。在一些实施方案中,通过掺入利用一个或多个受控引物延伸反应获得的序列阅读值对长核酸进行测序。在一些实施方案中,受控引物延伸包含使用天然核苷酸或修饰核苷酸。
在一个实施方案中,进行一系列连续反应,以使得该序列的每个反应将延伸引物如脱氧核糖核酸(DNA)引物或测序引物延伸至不同长度,从而创建与测序模板(靶核酸或靶多核苷酸分子)互补的增长的(incremental)序列。对于每个延伸反应(通常具有增加的步骤数),延伸引物可以与该系列中的其它延伸引物相同或相似。如本文所用,两个相似的引物可靶向靶核酸的相同区域或靶向邻近区域,通常在10、20、50、100个碱基以内。两个相似的引物可以靶向相同区域但是长度不同。在许多测序反应中,靶核苷酸的所期望区域可能被衔接头和/或钥匙序列(key sequence)环绕或与衔接头和/或钥匙序列相邻。在一个实例中,生物来源的序列可与衔接头序列连接(如在用于Illumina HiSeq的可逆终止子测序或用于Ion Torrent的pH检测测序的测序文库中)。
测序引物通常设计成与衔接头序列的全部或一部分杂交,并且可以设计成与衔接头序列的最后一个3’碱基杂交,使得第一碱基阅读值是源自生物样品的序列(IlluminaHiSeq文库)。然而,在一些情况下,测序引物可设计成与位于源自生物样品的序列的5’侧的区域杂交,因为待读取的序列的第一部分可以是条形码或指标运行(index run)或钥匙序列(例如在Ion Torrent PGM测序中)。这些测序引物也可以用作延伸引物。
在一些实施方案中,延伸引物序列被设计成与衔接头序列的相同或不同部分(通常位于生物来源的序列的5’侧)杂交。延伸引物可以是相同的或相似的。
延伸引物和经延伸的延伸引物也可以用作测序引物。延伸引物或测序引物的延伸可用一种或多种核苷酸和聚合酶如天然或天然性能核苷酸和天然或天然性能聚合酶或经修饰的聚合酶进行。在RNA延伸可以使用RNA聚合酶类似地进行时,各种实施方案采用DNA延伸作为实例进行说明。
可以通过诸如脉冲延伸的受控延伸对延伸引物进行延伸从而生成或产生这些经延伸的延伸引物。在一些实施方案中,生成一系列长度增加的经延伸的测序引物。在另一个实施方案中,可以通过延伸诸如用不完整的核苷酸组(即用包含不超过三种不同核苷酸的核苷酸组)对延伸引物进行延伸从而生成或生产长度增加的测序引物。每个不完整的核苷酸组可以对延伸引物进行延伸直至延伸到达靶核酸(或模板)具有互补的核苷酸碱基的位置。例如,在含有C、G和T的不完整核苷酸组中,测序引物可被延伸直至其到达在模板靶核酸中的T碱基。
多个延伸步骤可以使用不同的不完整核苷酸组进行。延伸反应可以用至少两个不同的核苷酸组进行。例如,多个延伸步骤可以使用由dATP、dCTP、dGTP组成的第一核苷酸组和由dATP、dCTP、dTTP组成的第二核苷酸组进行。因为某些DNA聚合酶可以掺入核苷酸二磷酸,所以如果该DNA聚合酶用于延伸,那么核苷酸可以是二磷酸而不是三磷酸的。
在延伸步骤之间,需要去除未掺入的核苷酸以避免失控(run-offs)。在一些实施方案中,两个延伸步骤之间采用洗涤步骤。因为靶核酸或延伸引物通常固定在诸如玻璃片或珠子的基底上,所以洗涤可相对容易地进行。洗涤溶液可任选地包括核苷酸降解酶,如腺苷三磷酸双磷酸酶和/或碱性磷酸酶。
当延伸以连续添加各种核苷酸组进行,其中每组包含一种、两种或三种不同的核苷酸时,受控延伸可使用脉冲延伸进行,在延伸步骤之间没有洗涤步骤。在脉冲模式下,通常以特定时间间隔(如1-10、10-20、20-30、30-60秒)连续地加入核苷酸组。通常在下一次加入核苷酸之前通过反应溶液中的核苷酸降解酶如腺苷三磷酸双磷酸酶和/或碱性磷酸酶降解核苷酸。
可以组合具有洗涤和脉冲延伸步骤的延伸。例如,延伸可在脉冲模式下进行。在特定数目的脉冲延伸步骤之后(如20-40、41-60、61-100个步骤),可以洗涤反应混合物以去除残留的核苷酸或副产物。随后可以进行新的一系列脉冲延伸步骤。
在一些实施方案中,受控延伸使用未修饰的核苷酸进行。未修饰的核苷酸通常比标记的核苷酸更有效地被掺入。然而,可以使用标记的核苷酸,只要其掺入效率高即可。掺入效率可受所用的聚合酶影响。因此,核苷酸的选择可以依赖于用来掺入该核苷酸的相应的聚合酶。具有诸如荧光标记的大体积基团的修饰核苷酸可显著地降低掺入效率,对于一些实施方案可能不是良好的核苷酸。
在一个实施方案中,可以使用聚合酶在适合该聚合酶催化聚合酶反应的缓冲液中进行受控延伸。除了聚合酶之外,核苷酸也加入到延伸反应中。在一个实施方案中,反应含有聚合酶和一组核苷酸,其中该核苷酸组包含不超过三种不同的核苷酸。例如,核苷酸组由四种类型的核苷酸中的一种至三种(例如,对于DNA聚合酶,四种核苷酸dATP、dCTP、dTTP、dGTP中的一种、两种或三种)组成。在一个实施方案中,包含不同核苷酸中的三种的反应在与缺少的核苷酸互补的模板碱基处停止。例如,对于含有dATP、dCTP、dGTP的反应,延伸在模板上的碱基“A”处停止,因为“A”与缺少的核苷酸dTTP互补,从而限制与模板杂交的引物的延伸。或者,可以在每组中使用核苷酸聚合物,如二聚物、三聚物或者更长的核苷酸聚合物。例如,组中可以包含GA、GG、GC、GT、AA、AG、AC、AT、CA、CC、CG和CT。
可以采用各种核苷酸组或用核苷酸组的多个循环多次进行碱基延伸。对于随机选择的基因组序列,每单个“三核苷酸”延伸步骤的平均延伸长度为约4个碱基。为了延伸约96个碱基的平均长度,平均需要总共24个延伸步骤。相比之下,如Ion Torrent的PGM中或焦磷酸测序中所用的“单核苷酸”延伸需要总共154个延伸步骤以达到约96个碱基的平均延伸长度。48个三碱基延伸步骤可以达到约192个碱基的平均延伸长度。三核苷酸延伸比单核苷酸延伸快6倍以上。
优化受控延伸的条件对于许多需要将退相或前相最小化的实施方案至关重要。DNA聚合酶如Bst DNA聚合酶和Klenow DNA聚合酶(此两者都适用于受控延伸)可能会掺入错误的碱基,特别是如果缺少正确的核苷酸。对于一些酶,错误掺入倾向于比正确掺入发生得更慢。因此,可能希望快速完成延伸,例如,在30秒、1分钟、2分钟或5分钟的掺入时间内。另一方面,延伸时间太短可能会因缺乏足够的掺入时间而导致不完全掺入。然而,许多DNA聚合酶具有非常快的掺入时间。
对于受控延伸,核苷酸浓度是另一个重要的考量。较高的核苷酸浓度易于导致错误掺入,而较低的浓度易于导致不完全掺入。在一些实施方案中,核苷酸浓度在1-100μM、2-60μM、3-50μM、3-25μM、3-10μM、5-8μM之间。本领域技术人员将会理解最佳的核酸浓度是变化的。可以通过使用不同核苷酸浓度进行延伸并测定相对于正确延伸产物的错误掺入和/或不完全延伸产物而获得最佳核苷酸浓度。各种延伸产物可通过凝胶电泳、HPLC分析或测序来检测。最佳核苷酸浓度可依赖于受控延伸的其它条件。
在至少一些实施方案中,许多DNA聚合酶适用于受控延伸。合适的DNA聚合酶包括Klenow片段、Bst和其它本领域已知的DNA聚合酶。当核苷酸混合物中没有可逆终止子核苷酸时,Bst DNA聚合酶特别适用于受控延伸。如果包括可逆终止子,那么经修饰的聚合酶可用于提高掺入效率。
受控延伸可在多种温度设置下进行。通常,所用的聚合酶具有优选的或最佳的反应温度或温度范围。靶核酸的GC含量可能是选择延伸温度的一个考量。受控延伸可以例如在室温、约20℃、约37℃、约65℃或约70-75℃下进行。反应缓冲液可基于所用的聚合酶进行选择。任选地,可以包括焦磷酸酶/无机磷酸酶以去除延伸副产物。在一些实施方案中,缓冲液包含腺苷三磷酸双磷酸酶以消化核苷酸,使得聚合酶仅仅短时间暴露于核苷酸中。可以调整腺苷三磷酸双磷酸酶的浓度以影响掺入期间的核苷酸浓度曲线。在一些实施方案中,在延伸反应中使用单链DNA结合蛋白质(SSB)以减少二级结构的影响。可以适量地加入其它添加剂如GC Melt、甜菜碱和甲酰胺。
在一些实施方案中,在第一延伸反应之前,含有聚合酶如BstDNA聚合酶的缓冲液可以用来孵育杂交的延伸引物/模板(靶核酸)复合物,使得该酶具有足够的时间与复合物结合。孵育时间可以通过测定延伸结果进行优化。通常,延伸时间为30秒至10分钟。
在随后的延伸步骤中,可在每个步骤中或一些步骤中加入额外的聚合酶以提高多步延伸的总效率。然而,在一些实施方案中,在延伸步骤中不加入聚合酶,尤其是在脉冲模型中,其中当没有洗涤步骤时,聚合酶仍留在缓冲液中。
在一些实施方案中,不是在延伸反应中缺少一种或多种核苷酸,而是一种至三种类型的核苷酸(如dATP、dCTP、dTTP)与可逆终止子核苷酸(如dGTP)混合,并可以用于对延伸进行控制。许多可逆终止子核苷酸适用于该方法,并且在例如Wu等人(2007),3′-O-modified nucleotides as reversible terminators for pyrosequencing,PNASvol104no.4216462-16467;和Bently等人(2008),Accurate whole human genomesequencing using reversible terminator chemistry,Nature456,53-59中讨论,所有这些均通过引用并入本文。在一个实施方案中,使用具有3’磷酸的核苷酸作为可逆终止子。用碱性磷酸酶处理可以有效地去除3’磷酸,并且逆转链终止。对于每一步,延伸在与溶液中可逆终止子互补的模板上的第一碱基(如模板中的C碱基和可逆终止子中的G碱基)处停止。对于哪种碱基用作可逆终止子碱基通常没有特别的偏好,除了当靶模板碱基组成是已知的且偏向于使用特定碱基时。例如,如果目标是使每一步的延伸长度最大化,可优选使用C或G作为可逆终止子。为了避免均聚物(例如GGGGG)的缓慢延伸的情况,需要交替使用两种或多种可逆终止子,例如G、C或G、C、A或G、C、A、T。在一些实施方案中,混合物可包含超过两种或三种可逆终止子与一种或两种无终止子核苷酸。
掺入可逆终止子碱基之后,洗掉未掺入的核苷酸,并且通过去除可逆终止子碱基中的终止基团逆转链终止。在传统可逆终止子测序中,特别是当一些终止子用荧光标记物标记时,使用可逆终止子会导致低效聚合并且可能会导致测序质量的逐渐下降,并且进一步限制阅读长度。在延伸混合物中使用可逆终止子来对延伸引物进行延伸将会引起较少的掺入低效率,因为在随机序列中平均每四个或五个碱基掺入这些可逆终止子,而不是像在传统可逆终止子测序中每个步骤掺入。因此,即使当使用可逆终止子时,三种无终止子核苷酸与一种可逆终止子的混合物也可以有效地延伸测序引物。
可逆终止子可以任选地进行标记。在这样的情况下,可以监控掺入。在一些实施方案中,延伸反应可通过例如测量聚合副产物如焦磷酸或磷酸或pH变化来进行监测。
经延伸的引物随后可以用作测序引物来确定模板的序列。例如,引物延伸产物可在标记的核苷酸的存在下进行延伸以产生模板的序列阅读值。可用例如可逆终止子测序、基于连接的测序、基于焦磷酸检测的测序、基于质子检测的测序或本领域已知的任何合适的测序反应进行测序。
在一个实施方案中,对靶核酸进行测序包含增长的碱基延伸,编译由检测在每个增长延伸的序列中存在的碱基的存在而生成的数据,并且通过分析收集的数据确定靶核酸的序列。例如,对于作为模板的靶核酸序列,生成或产生具有不同长度的多个引物延伸产物。该多个引物延伸产物可以用于产生多个序列阅读值。可以通过组装多个序列阅读值获得靶多核苷酸分子的序列。组装可包含将例如源自特定靶序列的重叠的序列信息拼接到一起。在其它方法中,可以通过定位、通过特异性靶标或条形码序列或本领域已知的任意其它合适的方法来确定靶序列的起源。例如,条形码特异性寡核苷酸或者可以用作种子/延伸引物或者可以连接到种子/延伸引物上。连接产物随后可以用于引发测序反应或引物延伸反应。
在本发明的一个方面,所述方法包括通过使用与靶核酸杂交的第一测序引物对靶核酸的一个或多个碱基进行测序。可以使用合成测序例如分步可逆终止子测序、掺入标记的核苷酸、基于焦磷酸检测的测序、基于离子检测的测序或者备选地分步连接或其它方法进行此种测序,从而获得第一序列阅读值。第一引物和第一测序产生的从该引物的任何延伸随后可以从靶核酸上释放,例如通过加热靶核酸、将靶核酸与氢氧化钠溶液、尿素溶液、甲酰胺溶液或本领域已知的任何其它合适的变性溶液接触而使靶核酸变性。随后靶核酸与第二测序引物杂交,该第二测序引物可以与第一测序引物相同。通过延伸第二测序引物生成引物延伸产物,例如通过受控受限的延伸以产生延长的引物。可以利用延长的测序引物,通过使用多种测序方法之一,例如从延长的引物开始的分步可逆终止子测序、掺入标记的核苷酸、基于焦磷酸检测的测序、基于离子检测的测序、分步连接或其它方法,对靶核酸的一个或多个碱基进行测序,从而获得第二序列阅读值。可以多次重复以下步骤:释放引物延伸产物,使测序引物杂交,延伸测序引物以产生延长的引物,和延伸延长的引物产物以获得序列阅读值。当重复这些步骤时,受控延伸长度可以不同。本文使用的“受控延伸”是指将核酸序列延伸至特定长度。特定长度可以是已知的或未知的。例如,在由核酸聚合酶驱动的三碱基模板依赖性延伸反应中,延伸长度可以依赖于模板的序列。由于模板序列在测序前可能是或可能不是已知的,所以可能直到模板得到测序或长度得到确定才能获知特定延伸长度。然而,延伸长度通常不是随机的,而是可由模板序列决定。在模板分子群簇的情况下,例如在通过桥式扩增从单个模板产生的群簇或具有经由乳液PCR从单个模板核酸分子拷贝的分子的珠子上,与该群簇中的靶核酸杂交的大部分引物延伸分子(例如至少55%、70%、85%、90%、95%、99%、99.9%、99.99%、99.999%)在单个延伸步骤中被延伸至相同长度。可能发生一些退相或前相。在多个延伸步骤之中,早期步骤中的一些退相或前相可通过一个或多个后期延伸步骤克服。
每个引物延伸可包括一个或多个延伸循环,并且可将测序引物延伸不同的碱基数。可将多个序列阅读值进行组装,如通过重叠的序列阅读值,以产生靶核酸的序列。
例如,对于第一种子测序引物使用相同的起始寡核苷酸,并且如果第二引物延伸产物比第一序列阅读值(第一引物延伸)短,那么第一序列阅读值与第二序列阅读值之间将存在重叠序列。如果第二引物延伸产物比第一序列阅读值长,那么第一序列阅读值与第二序列阅读值之间可能存在缺口。然而,可利用随后的延伸产物去除和用于获得额外的序列阅读值的新的一轮或多轮引物延伸而获得额外的序列阅读值。可以采用更少的延伸步骤产生更多的在对更多模板进行的连续测序之间重叠的序列结果。或者,可采用更多的延伸步骤以产生更多的非重叠序列。
通常,第一序列阅读值和后续的阅读值的长度依赖于所用的测序技术,该测序技术可以以给定的准确度产生不同的长度。优选地,序列阅读值为25至100bp、200bp、500bp、1kb或高达2kb。本领域技术人员将会理解测序的顺序可能是不重要的。例如,可以首先采用延伸和测序,随后使用引物而不采用延伸和测序,以获得长序列。
在一些实施方案中,对大量的核酸靶标同时进行测序。在这些实施方案中,靶核酸通常固定在基底上。可以通过形成至少部分非重叠的单分子群簇在空间上分离至少一些靶核酸。用于对大量单分子群簇进行测序的方法是本领域所熟知的,并且用于进行此种测序的试剂盒、设备和说明书已经可购自例如Illumina,Inc.(San Diego,CA)、LifeTechnologies,Inc.(Foster City,CA)。此外,可以从Complete Genomics,Inc.(MountainView,CA)和Centrillion Biosciences,Inc.(Mountain View,CA)处获得测序服务。
预测受控延伸距离
在一些实施方案中,受控延伸的一个或多个步骤的延伸距离通过计算延伸起始位置(Ps)与延伸终止位置(Pe)之间的差异(Pe-Ps)进行估算。如果靶核酸序列是已知的,对于每个延伸步骤,终止位置可以通过例如寻找在该延伸步骤中与缺少的碱基互补的靶核酸碱基的位置来发现。终止位置是在第一互补碱基位置之前的一个碱基。例如,含有A、C和G的核苷酸组合的延伸用于沿模板序列TTGCATTG延伸引物。终止位置是碱基4(“C”),因为模板碱基A与缺少的碱基“T”互补。如果可逆终止子核苷酸在延伸步骤中与三种其它核苷酸(例如A、C、G和终止子T)一起使用,那么终止位置应该是第一互补碱基位置(位置5或第一个“A”)。若单个延伸步骤是第一延伸步骤,则系列中该单个延伸步骤的起始位置可以是该系列的起始位置。单个延伸步骤的起始位置也可以是与缺少的碱基互补的下一个互补靶核苷酸或与可逆终止子互补的下一个互补靶核苷酸之后的一个碱基。可以通过累计每一步的延伸距离计算总延伸距离。
例如,如所描述的,在对靶核苷酸进行测序之后,可以计算延伸距离。然而,如果靶核酸序列是未知的,延伸距离仍可以通过例如使用模拟的随机序列来估测。在第一延伸步骤之后,每个三核苷酸延伸步骤的平均延伸距离为每步延伸约4个碱基。如果使用可逆终止子,在第一延伸步骤之后,单个延伸步骤的平均延伸距离为每步约5个碱基。
在每个延伸进行约20秒的实施方案中,1,000个碱基的延伸需要平均250步或1.4小时。相比之下,在每个延伸进行约10秒的实施方案中,延伸时间少于1小时。如果使用可逆终止子,那么单步延伸时间可能更长从而允许有去封闭和其它任选的步骤的时间。
用于受控延伸的设备和计算机软件产品设备、自动化和计算机软件
在一些实施方案中,受控延伸在合适的反应容器如试管、微量滴定板的孔或流动池中进行。虽然受控延伸和测序可以手动进行,但是若一些步骤用自动化设备进行则会更加方便且可能更加一致。
在一些实施方案中,使用计算机控制设备进行受控延伸。在一个实施方案中,使用计算机控制的泵或自动化移液管将核苷酸组递送至反应位点,例如流动池中的泳道或芯片的流动室。计算机控制的泵可从许多商业来源以许多形式和规格获得。注射泵和蠕动泵特别适合在很短的时间内递送小体积试剂。控制泵运行的计算机软件可使用本领域已知的任何合适的语言编码,例如C/C++、objective C、C#、Java或多种脚本语言。
虽然每种试剂如洗涤溶液或核苷酸组可以使用其专用的泵进行递送,但是通常希望将泵与一个或多个阀门组合使用。计算机控制的阀门可以使系统更加通用。在一些实施方案中,例如Life Technologies的IonTorrent,可以通过增压容器对试剂产生反压力,而不是使用泵,来操控液体试剂。
一些可商业购得的测序仪如Hiseq2000、Hiscan测序仪、MiSeq测序仪以及IonTorrent PGM测序仪包括计算机控制的试剂递送系统。在一些实施方案中,这些系统可重新编程以进行测序方法。
其它液体操作装置如cBot群簇工作站和购自Illumina,Inc.的MiSeq以及多种液体操作机器人如Tecan Freedom Evo和Beckman Coulters Biomek系列液体操作机器人可以重新编程(使用脚本)以进行受控延伸。
试剂可包装成试剂盒以有助于自动化。
受控延伸,包括剥离或去除测序产物,可以在具有合适的试剂递送能力的测序仪中有序进行。在一些实施方案中,流动池在保持群簇比对的测序仪中测序、剥离、延伸和测序,从而使所得的序列数据可以与正确的群簇相关。保持比对可能是重要的,因为可以容易地同时对大量群簇进行测序。然而,保持比对并不一定意味着流动池不可移动。
对于一些群簇产生方法,例如芯片形式的Ion Torrent珠子,将不同阅读值与相同群簇/珠子进行比对是直接的,因为每个珠子在芯片中有其专属的坐标。对于在Hiseq或MiSeq测序仪中的群簇,每个经鉴定的群簇都具有坐标,并且只要比对没有明显变化就可被定位。
在一些实施方案中,如果在不同测序之间没有保持群簇比对,那么仍可以通过比较两个不同运行之间的坐标、使用重叠序列以及与参考序列的比对来关联来自不同测序运行的群簇。如果揭示了像素偏移的一致模式,那么不同测序运行中高百分比的群簇仍可进行关联。
测序
通过延伸测序引物或通过对延伸引物进行延伸的测序可使用多种方法进行。例如,可以用标记的可逆终止子进行测序或通过与标记的寡核苷酸连接进行测序。可以采用任何可商业购得的方法进行测序,例如购自如Illumina,Inc.(San Diego,CA)、Helicos,Inc.(Boston,MA)和Azco Biotech,Inc.(San Diego,CA)等公司的基于可逆终止子的测序方法。
测序可以通过本领域公知的经典Sanger测序法完成。在一些实施方案中,可以使用受控延伸和测序方法对长靶核酸(例如长度至少是1,000、2,000、10,000、50,000个碱基)进行测序。序列阅读可使用可以读取约500-1200个碱基/反应的Sanger测序进行。在一个实施方案中,受控延伸在一系列延伸反应中进行。1,800个碱基长的DNA片段可通过一个1,000个碱基的Sanger序列阅读和在约800个碱基的受控延伸之后的另一个1,000个碱基的Sanger序列阅读进行测序。受控延伸需要约2-5小时。在一些实施方案中,在受控延伸过程中,优选在最后一步,使用可切割的核苷酸。在Sanger测序反应之后,受控延伸产物可从Sanger测序产物中去除以使得受控延伸产物不会将碱基添加至Sanger片段。通过去除受控延伸产物,可以使用标准Sanger测序凝胶或毛细管测序仪进行Sanger阅读。
可切割的核苷酸可以是dUTP。一旦掺入,可以使用尿嘧啶-DNA糖基化酶(UDG)从碱基U上释放尿嘧啶。所得的无嘌呤/无嘧啶(AP)位点可以使用例如可破坏DNA片段的AP裂合酶切割。除了dUTP/糖基化酶/AP裂合酶系统,也可以使用本领域已知的其它合适的可切割碱基系统。
测序也可以使用高通量系统完成,一些高通量系统允许在测序核苷酸掺入生长链之后或之时就对其立即进行检测,即实时或基本实时地检测序列。在一些情况下,高通量测序产生至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列阅读值/小时,每个阅读值为至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少150个碱基/阅读。
在一些实施方案中,高通量测序包括监测聚合过程中的pH变化。在一些实施方案中,高通量测序包括使用可从Helicos BioSciences Corporation(Cambridge,Massachusetts)获得的技术,如单分子合成测序(SMSS)方法。SMSS在美国公开申请号2006002471I、20060024678、20060012793、20060012784和20050100932中有部分描述。
在一些实施方案中,高通量测序包括使用可从454Lifesciences,Inc.(Branford,Connecticut)获得的技术。采用珠子扩增随后进行纤维光学检测的方法在Marguiles,M.等人"Genome sequencing in microfabricated high-density picolitre reactors",Nature,doi:10.1038/nature03959以及在美国公开申请号20020012930、20030058629、20030100102、20030148344、20040248161、20050079510、20050124022和20060078909中有所描述。
在一些实施方案中,采用克隆单分子阵列(Clonal Single Molecule Array)(Solexa,Inc./Illumina,Inc.)或利用可逆终止子化学的合成测序法(SBS)进行高通量测序。这些技术在例如美国专利号6,969,488、6,897,023、6,833,246、6,787,308和美国公开申请号20040106130、20030064398、20030022207和Constans,A.,The Scientist2003,17(13):36中有部分描述。
在一些实施方案中,RNA或DNA的高通量测序可使用AnyDot.chjps(Genovoxx,Germany)进行。特别地,AnyDot-芯片允许对核苷酸荧光信号检测有10倍-50倍的增强。AnyDot.芯片及其使用方法在国际公开申请号WO02/088382、WO03/020968、WO03/031947、WO2005/044836、PCT/EP05/105657、PCT/EP05/105655和德国专利申请号DE10149786、DE10214395、DE10356837、DE102004009704、DE102004025696、DE102004025746、DE102004025694、DE102004025695、DE102004025744、DE102004025745和DE102005012301中有部分描述。
其它高通量测序系统包括Venter,J.等人Science16February2001;Adams,M.等人Science24March2000;和M.J,Levene等人Science299:682-686,January2003;以及美国公开申请号20030044781和2006/0078937中所公开的那些系统。这些系统总体上包括通过经由聚合反应暂时添加碱基而对具有多个碱基的靶核酸分子进行测序,该聚合反应在核酸的分子上进行测量,即实时跟踪待测序的模板核酸分子上的核酸聚合酶活性。随后可以通过确定在碱基添加顺序的每个步骤中哪种碱基通过核酸聚合酶的催化活性被掺入靶核酸的互补生长链中而对序列进行推断。在适于沿靶核酸分子移动并在活性位点处延伸寡核苷酸引物的位置上提供了靶核酸分子复合物上的聚合酶。在活性位点附近提供了多个标记类型的核苷酸类似物,每种可区分类型的核苷酸类似物与靶核酸序列中不同的核苷酸互补。通过使用聚合酶将核苷酸类似物添加到核酸链的活性位点处来延伸生长核酸链,其中加入的核苷酸类似物与靶核酸在活性位点处的核苷酸互补。鉴定由于聚合步骤而被添加到寡核苷酸引物上的核苷酸类似物。重复以下步骤:提供标记的核苷酸类似物、聚合生长核酸链以及鉴定加入的核苷酸类似物,使得核酸链进一步得到延伸并且靶核酸序列得到确定。
在一个实施方案中,测序可以用标记的核苷酸如带有标记物的dNTP进行。可如下检测碱基:通过在聚合酶的存在下使杂交复合物依次接触标记的dATP、dCTP、dGTP和dTTP之一而延伸增长的片段,并检测标记的dATP、dCTP、dGTP和dTTP的掺入,从而从每个反应获得序列阅读值。
在一个实施方案中,使用标记的dATP、dCTP、dGTP和dTTP的混合物。通常,由于修饰的dNTP如标记的dNTP具有普遍较低的掺入效率,为了产生强信号仅延伸前几个碱基。“连缀(run-on)”延伸的可能性相当低,且使用本文提供的或本领域已知的方法可将这种“连缀”延伸产生的信号作为噪音而过滤掉。在一个实施方案中,使用标记的ddATP、ddCTP、ddGTP和ddTTP的混合物,并且不允许“连缀”延伸。在一个实施方案中,对于每个增长的片段仅进行一轮覆盖所有四种可能的碱基的探询。例如,在每轮探询中依次添加一种标记的dNTP提供了一次可能添加一个可检测的碱基(即在每个基底上)。这通常导致每轮可组装的短阅读值(如一个碱基或几个碱基)。在另一个实施方案中,利用超过一轮的探询产生较长阅读值。
在另一个实施方案中,加入标记的ddATP、ddCTP、ddGTP、ddTTP和少量(<10%(例如5%、6%、7%、8%或9%)或<20%(例如,10%、11%、12%、13%、14%、15%、16%、17%、18%或19%))天然dATP、dCTP、dGTP和dTTP的混合物。
在一个实施方案中,标记的核苷酸是可逆终止子。可通过信号强度检测多个碱基,或对于可逆终止子,通过碱基添加检测来检测。核苷酸可逆终止子是使用给3′-OH基团加帽以暂时性终止聚合酶反应的可逆化学部分修饰的核苷酸类似物。这样,即使在同聚物区域通常也只有一个核苷酸掺入生长的DNA链。例如,可以使用氨基-2-羟丙基基团对3’端进行加帽。也可以使用烯丙基或2-硝基苄基基团作为可逆部分对四种核苷酸的3′-OH加帽。可逆终止子的例子包括但不限于3′-O-修饰的核苷酸,如3′-O-烯丙基-dNTP和3′-O-(2-硝基苄基)-dNTP。
在一个实施方案中,在检测溶液探针上存在的切割位点后,通过不同的去保护方法重新生成引物延伸产物的3′-OH。DNA延伸产物3′-OH上的加帽部分可在检测切割位点后通过化学方法、酶促反应或光解作用有效移除,即从切割位点切下该帽。为了对DNA进行测序,在一个实施方案中,将含有同聚物区域的模板固定于Sepharose珠子上,随后通过在DNA珠子上使用核苷酸可逆终止子进行延伸–信号检测–去保护循环以明确译解DNA模板的序列。在一个实施方案中,该可逆终止子-测序方法在本发明的方法中使用,以精确测定DNA序列。(所述帽在本文中可以称为“保护基团”)。
本发明的多核苷酸可以被标记。在一个实施方案中,分子或化合物连接有至少一种可检测的标记物(例如同位素或化合物)以能够检测该化合物。通常,本发明中使用的标记物包括但不限于同位素标记物(其可以是放射性或重同位素)、磁标记物、电标记物、热标记物、着色和发光染料、酶和磁性颗粒。标记物也可以包括金属纳米颗粒,如重金属元素或大原子序数元素,其在电子显微镜术中提供高对比度。本发明中使用的染料可以是发色团、磷光体或荧光染料,它们由于其强信号而为解码提供了良好的信噪比。
在一个实施方案中,标记物可包括荧光标记物的使用。用于本发明的合适的染料包括但不限于包括铕和铽的荧光镧系元素的络合物、荧光素、罗丹明、四甲基罗丹明、曙红、赤藓红、香豆素、甲基-香豆素、芘、孔雀绿(Malacite green)、均二苯乙烯、荧光黄、CascadeBlue、德克萨斯红和其它在Richard P.Haugland的Molecular Probes Handbook第11版中描述的染料,特此通过引用整体并入本文。容易掺入标记寡核苷酸的商业上可获得的荧光核苷酸类似物包括,例如,Cy3-dCTP、Cy3-dUTP、Cy5-dCTP、Cy5-dUTP(GE Healthcare)、荧光素-12-dUTP、四甲基罗丹明-6-dUTP、德克萨斯红Cascade FL-14-dUTP、 TR-14-dUTP、罗丹明绿TM-5-dUTP、俄勒冈绿488-5-dUTP、德克萨斯红630/650-14-dUTP、650/665-14-dUTP、488-5-dUTP、532-5-dUTP、568-5-dUTP、594-5-dUTP、546-14-dUTP、荧光素-12-UTP、四甲基罗丹明-6-UTP、德克萨斯红FL-14-UTP、 TMR-14-UTP、 TR-14-UTP、罗丹明绿TM-5-UTP、488-5-UTP和546-14-UTP(Invitrogen)。其它可用于合成后连接的荧光团尤其包括Alexa BODIPY493/503、BODIPY FL、BODIPY R6G、BODIPY530/550、BODIPYTMR、BODIPY558/568、BODIPY558/568、BODIPY564/570、BODIPY576/589、BODIPY581/591、BODIPY630/650、BODIPY650/665、Cascade Blue、Cascade Yellow、丹酰、丽丝铵罗丹明B、Marina Blue、俄勒冈绿488、俄勒冈绿514、太平洋蓝、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、德克萨斯红(可获自Invitrogen)和Cy2、Cy3.5、Cy5.5和Cy7(GE Healthcare)。
在一个实施方案中,使用多重检测形式进行碱基检测或测序。可以使用的多重形式的实例包括但不限于标记的/加标签的珠组(例如,Luminex生产的),其中每个标记物指定给个体探针特异性引物,或玻片上的寡核苷酸阵列,其中特异性寡核苷酸点/位置被指定给个体探针特异性引物。回收的靶标特异性探针的有限的序列复杂性可为更容易和更高水平的多重化(multiplexing)提供条件,特别是与通用和Zip-code/ID序列标签一起使用。在引物与靶标-探针复合物杂交后,可通过核苷酸聚合酶延伸引物。在某些实施方案中,聚合酶选自RNA聚合酶和逆转录酶。
在使用阵列时,该过程的检测阶段可以涉及扫描和鉴定测试样品中的靶多核苷酸序列。扫描可通过扫描探针显微镜术(SPM)进行,包括扫描隧道显微镜术(STM)和原子力显微镜术(AFM)、扫描电子显微镜术、共聚焦显微镜术、电荷耦合器件、红外显微镜术、电导、透射电子显微镜术(TEM)和荧光或磷光成像,例如荧光共振能量转移(FRET)。光学探询/检测技术包括但不限于近场扫描光学显微镜术(NSOM)、共聚焦显微镜术和隐失波激发。这些技术的更加特别的形式包括远场共聚焦显微镜术、双光子显微镜术、广域落射光照和全内反射(TIR)显微镜术。上述技术中有许多也可以以光谱模式使用。实际检测方法包括电荷耦合器件(CCD)摄像机和增强的CCD、光电二极管和光电倍增管。这些方法和技术是本领域熟知的。各种检测方法在公开号为US2004/0248144的美国专利申请中公开,其通过引用并入本文。
对于多色成像而言,可通过多重采集或通过拆分信号同时采集、使用RGB探测器或分析全波长来获得不同波长的信号(Richard Levenson,Cambridge HealthtechInstitutes,Fifth Annual meeting on Advances in Assays,Molecular Labels,Signaling and Detection,May17-18th Washington D.C.)。一些光谱线可利用滤光轮或单色仪获得。电子可调滤波器如声光可调滤波器或液晶可调滤波器可用于获得多谱成像(例如Oleg Hait,Sergey Smirnov和Chieu D.Tran,2001,Analytical Chemistry73:732-739)。获得光谱的一种替代方法是高光谱成像(Schultz等人,2001,Cytometry43:239-247)。
用于信号检测和强度数据处理的方法和设备在例如美国专利号5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758、5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625、7,689,022和WO99/47964中公开,其同样为了全部目的而通过引用整体并入本文。用于DNA序列分析和阅读值解释的荧光成像和软件程序或算法对本领域普通技术人员而言是已知的,并且公开于Harris TD等人“Single-Molecule DNA Sequencing of a ViralGenome”Science4April2008:Vol.320.no.5872,pp.106–109,其通过引用整体并入本文。在一个实施方案中,Phred软件用于DNA序列分析。Phred阅读DNA测序仪的追踪数据、判定碱基、对碱基指定质量值,并将碱基判定值(base calls)和质量值写成输出文件。Phred是用于碱基判定DNA测序跟踪文件的广泛使用的程序。Phred可以阅读来自SCF文件和ABI373和377型DNA测序仪chromat文件的追踪数据,自动检测文件格式。判定碱基后,Phred将序列写成FASTA格式、适于XBAP的格式、PHD格式或SCF格式的文件。将碱基的质量值写成FASTA格式文件或PHD文件,该文件可以被phrap序列组装程序使用以增加组装序列的精确度。质量值是log转换的误差概率,具体为Q=-10log10(Pe),其中Q和Pe分别为特定碱基判定值的质量值和误差概率。已就区分正确和不正确的碱基判定值的精确度和能力对Phred质量值进行了充分检验。Phred可以使用质量值来进行序列修剪。
基于DNA聚合酶的测序反应通常具有效率问题。与非天然核苷酸(如标记的核苷酸或可逆终止子)的效率降低的掺入相比,天然核苷酸可以以相对高的效率掺入。因此,在核苷酸延伸反应的生长链中,延长的可能性会随着延伸长度而下降。因此,随着反应的进行,即使在单个核苷酸掺入效率上的微小差别也可能导致显著的不同。降低的掺入效率导致错误率增加,因此导致沿着生长链的序列信息质量降低。所得的序列信息由相对较短的序列阅读值组成,这些阅读值由于低到不可接受的正确序列信号而已被终止。本发明提供了克服测序反应中的这些问题的方法和组合物。可以使用高掺入效率的核苷酸如天然核苷酸延伸种子引物。因此,大量的模板可以在越来越下游处开始引发以启动测序反应,例如,与另一测序引物相比处于下游n个碱基。起始位置处的测序反应会以较高的整体效率开始并且持续s个碱基,直到测序信息的质量降到低于可接受的水平。由于起始的n个碱基,可获得靶模板上直至n+s个碱基的序列信息。不同长度的测序引物因此可以提供在相距n个碱基处结束的测序信息。通过在测序之前改变高效延伸反应的长度n,可以从单个模板获得高质量的重叠序列信息。在各种实施方案中,使用启动相距小于3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、150、200个或更多个碱基的测序反应的一组测序引物。在一些实施方案中,获得高达500、1000、2000个或更多个碱基的序列信息。本文所描述的方法允许在超过80、90、95、98、99、99.5、99.9%或更多的模板中获得高达500、1000、2000个或更多个碱基的序列信息。
在一个实施方案中,通过依次添加标记的A、C、G、T,之后在每次添加之后进行洗涤和检测来进行一个检测循环。在一个实施方案中,可使用具有可去除的标记物的核苷酸进行多个检测循环。
在一个实施方案中,为测序反应进一步延伸增长的片段的系列(因此,作为测序引物)以获得靶分子的序列信息。序列信息是靶分子上相邻的一系列片段序列,可将其组装以获得靶分子的长片段或全长序列。
在本发明的一个实施方案中,将靶多核苷酸的系列测序转换为平行测序以缩短对靶多核苷酸的给定数目碱基进行测序所需的时间。
固定的靶标
在一个实施方案中,核酸靶标附着于基底上或固定在基底上。基底可以是珠子、平基底、流动池或其它合适的表面。在一个实施方案中,基底包括玻璃。
在一个实施方案中,靶核酸通过捕获探针附着于或固定在基底上。捕获探针是附着于基底表面且能够结合测序模板的寡核苷酸。捕获探针可以是各种长度的,例如从18个碱基到100个碱基,例如20个碱基到50个碱基。
在一个实施方案中,捕获探针具有与测序模板互补的序列。例如,如果本发明方法用于对至少部分序列已知的基因组进行测序,则捕获探针可设计为与已知序列互补。在一个实施方案中,捕获探针与经由例如特异性连接、作为用于PCR反应的引物的一部分添加到测序模板上的“条形码”或“标识符”序列互补。在这样的反应中,测序模板特异性引物和包含独特条形码的引物用于扩增,因此所有具有相同序列的靶分子连接有相同的条形码。
捕获探针可以在5’端或3’端连接至基底。在一些实施方案中,捕获探针在5’端连接至基底,且可如本文所述通过核苷酸的掺入而延伸捕获探针的3’端,以产生增长的延伸片段,转而可通过进一步掺入标记的核苷酸而对该片段进行测序。在另一个实施方案中,捕获探针在3’端连接至基底,因此捕获探针的5’端不能通过核苷酸的掺入而延伸。第二探针(或测序引物)与测序模板杂交,并且其3’端如本文所述通过核苷酸的掺入而延伸,以产生增长的延伸片段,转而可通过进一步掺入标记的核苷酸而对该片段进行测序。在这种情况下,延伸朝向捕获探针的方向。通常,测序引物与当直接由基因组DNA或由亲本靶分子产生测序模板时引入到测序模板末端的接头杂交。因此作为“通用引物”的种子/测序引物可以用于对不同靶分子进行测序。在一个实施方案中,使用靶分子特异性的测序引物。
在一个实施方案中,捕获探针在与测序模板结合前被固定于固体载体上。在一个实施方案中,捕获探针的5’端连接于固体表面或基底上。捕获探针可以通过多种本领域已知的多种方法进行固定化,包括但不限于共价交联至表面(例如,光化学交联或化学交联),通过锚配体与相应受体蛋白质的相互作用(例如生物素-链霉亲和素或地高辛配基-抗地高辛配基抗体)非共价连接至表面,或通过与锚核酸或核酸类似物杂交。锚核酸或核酸类似物与测序模板具有足够的互补性(即,形成的双链体具有足够高的Tm),以致锚-测序模板-探针复合物不会被除去未结合的靶标和探针的严格洗涤所洗脱,但是它们与互补于探针反义序列的靶位点并不重叠。
在一个实施方案中,捕获模板或靶核酸用作桥式扩增的模板。在这样的实施方案中,使用两种或多种不同的固定探针。在一些情况下,单分子模板用于通过桥式扩增在基底上产生核酸群簇。在一个实施方案中,核酸群簇中的每一个包含基本相同(>95%)类型的核酸,因为它们源自单个模板核酸。这些群簇通常被称为单分子群簇。可采用例如Bently等人,Accurate whole human genome sequencing using reversible terminatorchemistry,Nature456,53-59(2008)(其通过引用并入本文)中所描述的方法,或者使用购自例如Illumina,Inc.(San Diego,CA)的试剂盒和设备产生这些具有单分子群簇的基底。
产生用于测序的合适核酸的另一种方法在Church等人的美国专利申请公开号US20090018024A1中有所描述,其通过引用并入本文。产生用于测序的合适模板的其它示例性方法包括具有DNA捕获的乳液PCR,其使用用于创建随机阵列的珠子(购自例如LifeTechnologies,Inc.)或在滚环扩增与靶分子接触的构建体和在图案化阵列上沉积之后创建的纳米球(使用该技术的商业服务可从例如Complete Genomics,Inc.获得)。
固体基底可由能够直接或间接结合分子的任何材料制成。合适的固体基底的例子包括平板玻璃、石英、硅片、云母、陶瓷和有机聚合物如塑料,包括聚苯乙烯和聚甲基丙烯酸酯。表面可设置为作为电极或导热基底(其增强杂交或鉴别过程)。例如,可使用平板印刷技术在合适的基底表面上形成微电极和次微电极。更小的纳米电极可以通过电子束成像/光刻来实现。还可以使用导电聚合物制备电极,该导电聚合物能利用喷墨印刷装置通过软刻蚀技术图案化处理基底或通过湿化学法均匀地应用。TnO2包被的玻璃基底是可获得的。可以按一定密度提供电极,从而使各固定化分子具有其自己的电极,或者以更高密度提供电极,从而使分子或元件组连接至单个电极。或者,一个电极可以作为阵列表面下方的层提供,该层形成单一的电极。固体基底可选地可以与渗透层或缓冲层交界。也可以使用半透膜例如硝化纤维素或尼龙膜,它们是广泛可得的。半透膜可安置在更坚固的固体表面例如玻璃上。表面层可包含溶胶-凝胶。表面可选地可以包被有一层金属,例如金、铂或其它过渡金属。合适的固体基底的一个具体的例子是商业上可获得的SPR BIACoreTM芯片(GEHealthcare)。Heaton等人,2001(PNAS98:3701-3704)将静电场施加于SPR表面并使用该静电场控制杂交。
固体基底一般是具有刚性或半刚性表面的材料。在一个实施方案中,基底的至少一个表面基本上是平的,虽然在一些实施方案中可能期望用例如凸起区域或蚀刻的沟槽物理分隔分立元件。例如,固体基底可包含纳米瓶—在平面上的微小的腔,例如直径为10μm、深为10μm。其它形式包括但不限于合成或天然的珠子、膜或滤器、包括微阵列玻片在内的玻片、微量滴定板、微毛细管和微量离心管。
在一个实施方案中,寡核苷酸捕获探针被涂覆或附着于珠子上用于捕获测序模板。捕获探针与测序模板多核苷酸之间的杂交可以在控制的温度和盐浓度下在柱子中的珠子上进行。杂交产物可用适当的压力从珠子上洗脱下来。
具有捕获寡核苷酸阵列的固体载体的使用在美国专利号6,852,487中公开,其特此通过引用而并入。
可以通过流动和/或电力,包括由差异电荷和/或疏水性区域产生的扩散力和表面力,来调节和/或控制核酸向这些基底上的上样。可调整应用至基底的核酸数量(即,采用上样缓冲液或其它溶液)以保证非重叠核酸分子对线性特征的最大占据,从而使基底上的空线性特征的数量最小化。在一个示例性实施方案中,基底的至少50%的线性特征被至少一种核酸分子占据。在进一步的实施方案中,至少60%、70%、80%、90%和95%的线性特征被一种或更多种核酸占据。
在此为了说明性目的而在下文中公开了两种布置探针的示例性方法。第一种方法是“原位”寡核苷酸合成,其中探针位于X-Y坐标平面上已知的地理位置。在一个实施方案中,寡核苷酸探针在表面上合成。允许进行表面上寡核苷酸合成的技术的例子包括但不限于光刻法和喷墨法。在另一个实施方案中,将预合成的寡核苷酸探针点样在表面上。各种微阵列方案,例如,Agilent喷墨沉积预合成的寡核苷酸阵列的方案是本领域技术人员已知的。
诸如核酸或多肽等聚合物可使用光刻法和其它掩模技术(masking techniques)原位合成,由此通过在利用掩模技术和光不稳定反应物控制的特定位置处引入单体以分步方式合成分子。例如,美国专利号5,837,832描述了一种基于超大规模集成技术产生固定至硅基底的DNA阵列的方法。具体而言,美国专利号5,837,832描述了一种被称为“覆瓦(tiling)”的策略,该策略在基底上空间限定的位置处合成特异性探针组。美国专利号5,837,832还提供了也可使用的较早技术的参考。光引导的合成也可以通过如(Singh-Gasson等人,(1999)Nature Biotechnology17:974-978)所述使用数字光微镜芯片(TexasInstruments)来进行。可使用常规的去保护基团如二甲氧基三苯甲基代替使用直接被光处理的光去保护基团用于光引导的方法,其中例如以空间可寻址的方式生成带有能接收UV辐射的发色团的光生酸(photoacid)分子,其选择性地对DNA单体进行去保护(McGall等人,PNAS199693:1355-13560;Gao等人,J.Am.Chem Soc.1998120:12698-12699)。酸的电化学产生是本发明的方法中可以使用的另一种方法。
原位阵列可具有约1至10、10至100、100至1000或1,000至100,000,000个探针。原位阵列可具有超过100,000,000个阵列探针。在一个实施方案中,原位阵列携带约200,000,000个探针。
可在阵列中固定的分子包括核酸,如DNA,及其类似物和衍生物,如PNA。核酸可获自任何来源,例如基因组DNA或cDNA,或使用已知的技术例如分步合成法进行合成。核酸可以是单链或双链的。也可以固定DNA纳米结构或其它超分子结构。其它分子包括但不限于由酰胺键连接的化合物,如肽、寡肽、多肽、蛋白质或含有它们的复合物;确定的化学实体,例如有机分子;偶联的聚合物和碳水化合物或其组合文库。
在一个实施方案中,生物素化的珠子用于锚定靶核酸并通过在珠子系统中进行碱基掺入而进行测序。
在另一个实施方案中,“芯片”是用于固定或附着靶标的基底。芯片的几何设计可以改变。例如,芯片可以是内有可用表面的管。芯片可呈流动池形式以促进液体处理。在一个实施方案中,芯片是如通过引用并入本文的PCT/US2010/048526中公开的等位基因特异性测序芯片。
在一个实施方案中,芯片是膜多芯片(membrane multichip)。产生了多层有孔(例如1微米至50微米)基底。将靶分子加载至孔内,其中一些孔含有单分子靶标。在孔内扩增靶标。将层剥离。每层具有一些连接至孔的分子。在分子方面,各层基本上是相似的(彼此的拷贝)。可直接使用这些层或将其转移至合适的测序基底进行测序。
其它芯片也可用于本发明中,包括但不限于光可裂解的寡核苷酸多芯片、有孔的多层基底和纳米转印芯片。
在一个实施方案中,生物素化的珠子用于锚定靶序列并通过在珠子系统中进行碱基掺入而进行测序。
固定或附着的靶核酸随后可以与引物(或多重引物)杂交。随后加入在其合适的缓冲液中的聚合酶使其与固定的或附着的模板或靶核酸接触。引物可以直接用作测序引物或可用作种子引物以生成各种长度的引物延伸产物。这些引物延伸产物可以进一步用作测序反应中的延伸引物。引物延伸反应在本文别处进一步详细讨论。可选择受控延伸反应以产生引物延伸产物。缓冲液可含有一组核苷酸(四种可能的核苷酸中的1-3种核苷酸)或者可以稍后加入这组核苷酸以启动反应。在合适的时间之后(如对于天然碱基约5、10、15、20、25或30至90秒),去除缓冲溶液,并且洗涤固定的模板以去除核苷酸。任选地,将核苷酸降解酶如腺苷三磷酸双磷酸酶或碱性磷酸酶在反应结束时加到反应缓冲液中和/或加到洗涤溶液中以使来自前一延伸的核苷酸对下一轮延伸的污染最小化。
在一些实施方案中,采用如本文所述的脉冲方法进行引物延伸。在一些实施方案中,固定的模板与多酶缓冲液接触,该缓冲液含有聚合酶(如用于DNA测序的Klenow exo(-))、一种或多种核苷酸降解酶如腺苷三磷酸双磷酸酶、碱性磷酸酶。任选地加入无机焦磷酸酶以降解由聚合酶反应生成的焦磷酸。将核苷酸组按30-90秒的间隔(优选30秒)依次加入到反应缓冲液中。核苷酸由聚合酶使用用于聚合酶反应,并且同时被腺苷三磷酸双磷酸酶或碱性磷酸酶降解。
模板群簇
为了对多个靶多核苷酸(或单个大多核苷酸靶标的片段)进行测序,可以将大量不同的靶多核苷酸或其片段固定于基底上。多次复制该基底以产生一组基底。
在一个实施方案中,将多个靶核酸或模板固定于基底上,且每个模板群簇源自单个分子(参见例如Bentley等人Nature456,53-59,(2008)及其补充材料,其通过引用整体并入本文)。因为模板群簇的位置是已知的,所以可以容易地确定对于相同模板来自第一轮测序的第一序列和来自第二轮测序的第二序列。
在一个实施方案中,进行平行测序。在平行测序(通常称作下一代测序)中,通常用单个引物同时对数百万个或更多个模板(群簇)进行测序。在一个实施方案中,优化核苷酸添加以控制引物延伸长度。
在另一个实施方案中,采用固定顺序的核苷酸添加如步骤一:dATP、dCTP、dGTP;步骤二:dCTP、dGTP、dTTP;步骤三:dGTP、dTTP、dATP;步骤四:dTTP、dATP、dCTP;步骤五:dATP、dCTP、dGTP等来控制引物延伸的长度。因为模板序列不同,所以所得的延伸引物长度也不同。
在一个实施方案中,同时对多个靶标如10,000、100,000、1百万、1千万或1亿个序列或靶标进行测序。因此,对于每个基底,有多个捕获位点,每个捕获位点具有识别不同靶标(测序模板)的不同捕获探针。如果靶标是较长序列的片段,那么可以组装重叠群(contig)以获得更长的序列,如全基因组序列。通常,多个靶标测序通常以芯片形式完成,但是其也可以以珠子形式进行。
在一个实施方案中,芯片包含从单分子开始的随机群簇(如Illumina流动池)。可将靶分子的分子克隆转印(print)至许多基底上以产生用于测序的复制基底。在一个实施方案中,芯片为通过尼龙膜压印和转印或其它本领域已知的方法得到的复制芯片。
测序系统
另一方面,本发明提供了用于测序的系统。在一些实施方案中,本文所公开的一种或多种测序方法通过一种系统进行,诸如由用户控制的自动化测序系统设备(例如,如在图7中示意描述的)。在一个实施方案中,用户控制计算机,计算机可以操作各种设备、液体操作装置或本发明的分析步骤。在一个实施方案中,计算机控制的收集、操作或分析系统用于控制、激活、起始、继续或终止如本文所述的方法的任意步骤或过程。在一个实施方案中,计算机装置用于控制、激活、起始、继续或终止流体或试剂的操作和/或移动进入并穿过如本文所述的系统或装置,一种或多种试剂向一个或更多个室或一个或多个筒(cartridges)中的多个室的操作或移动,获取或分析数据,等等。在一个实施方案中,将测序反应的芯片置于一个或更多个室/流动池或一个或多个筒中的多个室/流动池内。芯片可包含提供进行测序反应的位点的基底。
在一个实施方案中,计算机是任意类型的计算机平台,如工作站、个人计算机、服务器或任何其它现有的或未来的计算机。计算机通常包括已知的部件,如处理器、操作系统、系统内存、存储设备和输入-输出控制器、输入-输出设备和显示设备。这些显示设备包括提供视觉信息的显示设备,该信息通常可以在逻辑上和/或物理上组织为像素阵列。在一个实施方案中,包括了图形用户界面(GUI)控制器,其包含任意各种已知的或未来的、用于提供图形输入和输出界面的软件程序。在一个实施方案中,GUI向用户提供一个或多个图形呈现,并且能利用相关领域普通技术人员已知的选择或输入手段通过GUI对用户输入进行处理。
相关领域普通技术人员将理解,存在很多可能的计算机部件的配置,并且一些通常可包含在计算机中的部件未进行描述,例如高速缓冲存储器、数据备份单元和许多其它设备。在本实例中,每个执行内核可作为独立的处理器运行,其使得能够进行多线程的并行执行。
在一个实施方案中,处理器执行操作系统,该操作系统是例如来自MicrosoftCorporation的WINDOWSTM型操作系统(如WINDOWSTM XP);来自Apple Computer Corp.的MacOS X操作系统(如7.5Mac OS X v10.4“Tiger”或7.6Mac OS X v10.5“Leopard”操作系统);从许多供应商获得的UNIXTM或Linux型操作系统,或那些被称作开放源码的系统;或其组合。操作系统与固件和硬件以众所周知的方式接合,并且帮助处理器协调并执行各种计算机程序的功能,这些计算机程序可用各种编程语言编写。操作系统通常与处理器配合,协调并执行计算机其它部件的功能。操作系统也提供调度(scheduling)、输入-输出控制、文档和数据管理、存储器管理和通信控制及相关服务,以上所有这些都依照已知的技术。
在一个实施方案中,系统内存是各种已知的或未来的记忆存储设备。实例包括任何通常可以获得的随机存取存储器(RAM)、磁性介质如常驻硬盘或磁带、光学介质如读写光盘或其它记忆存储设备。记忆存储设备可以是任何各种已知的或未来的设备,包括光盘驱动器、磁带驱动器、可移动硬盘驱动器、USB或闪存驱动器或磁盘驱动器。这些类型的记忆存储设备通常分别从程序存储介质(未示出)如光盘、磁带、可移动硬盘、USB或闪存盘或软盘中读取和/或写入。
在一个实施方案中,描述了一种计算机程序产品,其包含其中存储有控制逻辑(计算机软件程序,包括程序代码)的计算机可用介质。控制逻辑当由处理器执行时会使处理器执行本文所述的功能。在其它实施方案中,一些功能主要在硬件中使用例如硬件状态机执行。为执行本文所述的功能而运行硬件状态机对于相关领域技术人员而言是显而易见的。
在一个实施方案中,输入-输出控制器包括任何各种已知的用于接受和处理来自用户(不论是人类还是机器,不论是本地的还是远程的)的信息的设备。这些设备包括例如调制解调器卡、无线网卡、网络接口卡、声卡或用于任何各种已知输入设备的其它类型的控制器。输入-输出控制器的输出控制器可包括用于任何各种已知的用于向用户(不论是人类还是机器,不论是本地的还是远程的)呈现信息的显示设备的控制器。在一个实施方案中,计算机的功能元件通过系统总线进行彼此通讯。这些通讯中的一些可在使用网络或其它类型的远程通讯的替代实施方案中完成。
在一个实施方案中,应用程序与一个或多个服务器、一个或多个工作站和/或一个或多个仪器的一个或多个元件或过程进行通讯,并且接收其指令或信息,或对其进行控制。在一个实施方案中,其中存储有执行应用程序的服务器或计算机位于本地或远处,并且与一个或多个另外的服务器和/或一个或多个其它计算机/工作站或仪器进行通讯。在一个实施方案中,应用程序具有数据加密/解密功能。例如,出于数据安全性和保密目的,可能需要对与GUI相关的数据、文档、信息或可能经由网络转移至一个或多个远程计算机或服务器的其它信息进行加密。
在一个实施方案中,应用程序包括仪器控制特征,其中将单个类型的控制功能或特定仪器如温度控制装置、成像装置或流体处理系统的控制功能组织成为该应用程序的插入型模块。在一个实施方案中,仪器控制特征包括对一个或多个仪器中的一个或多个元件的控制,例如,其包括流体处理仪器、温度控制装置或成像装置的元件。在一个实施方案中,仪器控制特征能够接收来自一个或多个仪器的信息,包括实验或仪器状态、处理步骤、或其它相关信息。在一个实施方案中,仪器控制特征处于该应用程序的界面元件的控制下。在一个实施方案中,用户通过GUI之一输入期望的控制命令和/或接收仪器控制信息。
在一个实施方案中,自动化测序系统是由第一用户控制,进行本文所述的测序方法,如本文所述分析原始数据,如本文所述组装序列阅读值,然后将测序信息发送至与第一用户处于不同位置的远程第二用户。
数据处理和数据分析
在一个实施方案中,用计算机鉴定靶多核苷酸序列并整合序列以组装基因组信息。在一个实施方案中,本发明包括设计用于对通过本发明的方法获得的序列信息进行分析和组装的计算机软件或算法。
在原位阵列的序列阅读值解释方面,阵列特征处的阅读值对应于映射目标基因座的X-Y坐标。“阅读值”典型地指来源于原始数据的观察到的序列,例如对应于单个核苷酸的循环添加的检测信号的顺序。在一个实施方案中,针对10-bp基因座处预期的参照基因组序列对阅读值进行质量控制检验。参照序列使得使用短阅读长度成为可能。然后对通过质量控制检验的阅读值进行组合以生成各基因座处的共有序列。在一个实例中,减去没有通过质量控制检验的任何阅读值,每个目的基因座有10个独特的探针。
在“坪(lawn)”方法的序列阅读值解释方面,阅读值处于表面例如流动池上的随机位置。在一个实施方案中,针对目的基因座处预期的参照基因组序列亚组对阅读值进行质量控制检验。将通过质量控制检验的阅读值定位到单个目的基因座。然后将对应于各基因座的阅读值进行组合以生成共有序列。在一个实施方案中,每10-bp基因座有大于3,000个阅读值。
序列阅读值的组装
在一个实施方案中,本发明提供通过组装来自每个基底的序列阅读值来获得靶分子的序列信息的方法。如上所述,可以通过一系列多核苷酸的碱基延伸获得序列阅读值,这些多核苷酸由于使用相同靶分子对相同捕获探针的不同碱基延伸而具有不同的长度。因此,它们代表靶分子序列的连续片段,并且可以组装以提供靶分子的连续序列。
可使用计算机程序追踪从不同基底上的相同捕获探针获得的序列阅读值用于组装。
在一些实施方案中,使用模板的独特标识符如模板位置或标签序列来识别来源于单个模板的测序信息。可以将重叠序列信息拼接在在一起以产生来自于单个模板的较长的序列信息。在一些实施方案中,也对模板的互补序列进行测序。在一些实施方案中,利用来自于模板及其互补序列的序列阅读值将序列信息拼接在一起。
应用
本发明的方法具有几个优点。在一个实施方案中,本文提供的测序方法允许使用未修饰的核苷酸和酶,它们利用天然核酸合成化学。这不但降低了成本,而且由于通过演变过程产生的高保真化学而增加了准确度。
本发明提供的测序方法可用于对DNA/RNA进行测序。其可用于对病原体/微生物基因组进行测序以快速地鉴定物种/菌株。本发明提供的测序方法的一个优点是可以适应低效率的测序化学过程(可逆终止子、连接等),因此缩短测序的时间。此外,该方法可对非常长的片段(例如,100-10000个碱基对或更长)进行测序。
此外,当使用基因座特异性和等位基因特异性测序模板时,它们能够用于SNP,并且可以携带多个信号报告标记物或配体,提供不同靶序列的更高水平的多重化。
因此,本发明可以提供低成本、高通量且准确的用于对具有长阅读值的靶多核苷酸进行测序的方法。在一些实施方案中,长阅读值从采用本文所讨论的可用测序技术而获得的测序阅读值组装而成,并且采用本发明的方法、组合物和系统来进行组装。
本发明的测序方法可以多重化至极高的程度。在一个实施方案中,样品可包括分别来自目标受试者群体和对照受试者群体的合并的基因组。群体可以是任何性别(sex)、种族、性别(gender)或年龄的。群体也可以包括出于兽医或药品开发的目的而筛查的动物受试者,特别是哺乳动物受试者如狗、猫、马、小鼠、大鼠等。
在一些实施方案中,靶多核苷酸是DNA,例如组成生物体基因组的至少50%的DNA。一些实施方案进一步包括对超过一种细胞的基因序列进行鉴定和/或计数,并将来自各种细胞的序列信息进行关联。这些实施方案应用于医学遗传学。其它实施方案将正常细胞的DNA序列与非正常细胞的DNA序列进行比较以检测遗传性变型。对这些变型的鉴定可用于诊断和/或预后应用。
在一些实施方案中,计算(enumeration)可确定基因数的变化,其表明例如基因出现了三次而非两次(如在三体性中)或基因没有出现(如纯合性缺失)。还可确定二倍性中等位基因的丢失和改变的其它类型,包括与例如体细胞重组、易位和/或重排以及散发性突变相关的改变。
这些实施方案可用于诊断和预后应用,其也在本发明中表征。例如,纯合性缺失可能指示癌症的某种形式。本领域技术人员将会理解,基于二倍性中识别的改变还可以鉴定其它疾病、病症和/或状况。例如,三个拷贝的染色体21基因可以指示染色体21三体性,其与唐氏综合征有关。
遗传性变型的检测
本发明的方法允许在单分子水平上快速分析DNA序列,适用于依赖单个序列的详细分析的应用。本发明的其它方面包括这样的应用。
例如,某些实施方案通过鉴定单核苷酸在已知SNP的位点向靶多核苷酸序列的互补链内的掺入来提供SNP检测。本发明的变化、实施方案和/或方面中的任意一种可用于这种SNP检测。这些方法也可以用于鉴定其它由于包括置换、移码突变、插入、缺失和倒位在内的点突变、错义突变、无义突变、启动子突变、剪接位点突变、散发性突变等而引起的变型。
此外,本发明的特征还在于通过鉴定这些遗传性变型来诊断代谢状况、病理状况、癌症或其它疾病、病症或状况(包括对药物的反应)的方法。例如,采用本文所描述的方法可以区分已知的野生型与已知的变型。通过本发明的方法可以容易地确定靶多核苷酸是展示野生型序列还是变型序列。此外,来源于单个模板的长序列信息可以提供通过其它方法难以获得的单元型分型信息。连接两个或多个基因座的单元型分型信息可以用于遗传分析。
某些实施方案通过鉴定超过一个核苷酸在基本上已知的变异区域或在基本上未知的区域向靶多核苷酸序列的互补链中的掺入来提供对额外的遗传性变型的检测。本发明的变化、实施方案和方面中的任意一种可用于这种检测。对来自超过一个个体的序列的比较允许鉴定遗传性变型,包括置换、移码突变、插入、缺失、倒位、错义突变、无义突变、启动子突变、剪接位点突变、散发性突变、重复、可变数目串联重复、短串联重复多态性等等。
在另一个实施方案中,为了精确分析等位基因频率和/或单元型频率,本文提供的测序方法采用单分子计数。由于可以探测每个分子上多于一个的单一位点,因此能够容易地确定单元型信息。在另一个实施方案中,本文公开的方法和系统可以用于获得单元型频率。这些方法能够适用于关联研究,其中将群体中的基因型频率(例如SNP频率)与疾病相关联。当每个研究需要进行上百万个单独反应时,单SNP分型反应的花费可能过于昂贵;本发明则允许在单一阵列表面上进行并分析上百万个单独的反应。
在一个实施方案中,本文提供的测序方法用于鉴定位于大量药物代谢酶和转运体(DMET)基因的调控元件和编码区域的高价值的多态性。在一个实施方案中,关于DMET基因表达的信息提供关于药物的吸收、分布、代谢和排泄谱的信息。在一个实施方案中,本发明的方法提供所收集的关于对各种药物的复杂转录响应的信息,并且随后的生理效果预测对于有效治疗剂的开发而言是很重要的。在一个实施方案中,本文提供的测序方法用于在基因表达谱与生理效果之间建立联系。生理效果可以包括受试者对候选药物的可能的反应。
可通过本发明的方法检测众多疾病。在一个实施方案中,本文提供的测序方法用于检测传染性疾病。传染性疾病可以由诸如细菌、病毒、寄生虫或真菌传染原的病原体导致。在一个实施方案中,采用本发明的方法来确定各种传染原对药物的抗性。
在一个实施方案中,本文提供的测序方法用于对病原体/微生物进行测序。在一个实施方案中,本文提供的测序方法用于鉴定物种/菌株。在一个实施方案中,本文所提供的测序方法用于对病原体/微生物进行测序以鉴定物种/菌株。
例如,本文提供的测序方法可以用于检测一种或多种微生物。微生物的检测可以通过对来自微生物如病毒或细菌的PCR产物进行测序来实现。例如,病毒或细菌的PCR产物可与5’-3’芯片(直接测序)或3’-5’芯片(需要额外的测序引物)杂交。在一个实施方案中,使用大约20-50个碱基或更长的测序来检测微生物。在一个实施方案中,使用约10-20个芯片,其中10k的芯片密度可产生大约200k-500k的碱基序列。
本发明还提供了通过鉴定这些遗传性变型来诊断代谢状态、病理状态、癌症和/或其它疾病、病症或状态(包括对药物的反应)的方法。在一个实施方案中,通过产前或产后筛查染色体和遗传畸变或遗传疾病来进行检测。在一些实施方案中,经鉴定的序列变型指示遗传性状况的疾病或携带者状态。可检测的遗传疾病的实例包括但不限于21羟化酶缺乏症、腺瘤性结肠息肉、成人多囊肾病、α1-抗胰蛋白酶缺乏症、囊性纤维化、家族性高胆固醇血症、脆性X综合征、血色沉着病、甲型血友病、遗传性非息肉性结直肠癌、马凡综合征、肌强直性营养不良、I型多发性神经纤维瘤、成骨不全症、视网膜母细胞瘤、特纳综合征、杜氏肌营养不良症、唐氏综合征或其它三体性疾病(trisomies)、心脏疾病、单基因疾病、HLA分型、苯丙酮尿症、镰状细胞性贫血、泰-萨克斯病(Tay-Sachs Disease)、地中海贫血、克兰费尔特综合征(Klinefelter Syndrome)、亨廷顿病、自身免疫性疾病、脂沉积、肥胖缺陷、血友病、先天性代谢紊乱、糖尿病,以及唇裂、畸形足、先天性心脏缺损、神经管缺损、幽门狭窄、酒精中毒、阿尔茨海默病、双相情感障碍、癌症、I型糖尿病、II型糖尿病、心脏病、中风和精神分裂症。
遗传性癌症的研究和检测
在一个实施方案中,本文提供的测序方法用于检测癌症或进行遗传性癌症研究,其中来自癌细胞的序列信息与来自非癌细胞的信息相关联或与处于癌症的不同阶段的另一个癌细胞相关联。在某些实施方案中,可获得例如至少约10个细胞、至少约20个细胞、至少约50个细胞、至少约70个细胞以及至少约100个细胞的序列信息。癌症不同阶段的细胞例如包括来自处于疾病进程各个时期的特定患者的结肠息肉细胞与结肠癌细胞与结肠癌转移细胞。也可使用其它类型癌症的癌细胞,包括例如骨癌、脑瘤、乳腺癌、内分泌系统癌症、胃肠癌、妇科癌症、头颈癌、白血病、肺癌、淋巴瘤、转移癌、骨髓瘤、儿科癌症、阴茎癌、前列腺癌、肉瘤、皮肤癌、睾丸癌、甲状腺癌和尿道癌。在一个实施方案中,癌症检测包括对一种或多种癌症标志物的检测。癌症标志物的实例包括但不限于癌基因、肿瘤抑制基因或与DNA扩增、复制、重组或修复有关的基因。具体实例包括但不限于BRCA1基因、p53基因、APC基因、Her2/Neu扩增、Bcr/Ab1、K-ras基因和16型和18型人乳头瘤病毒。本文提供的测序方法可用于鉴定以下人类癌症中基因的扩增、大缺失以及点突变和小缺失/插入或其它突变:白血病、结肠癌、乳腺癌、肺癌、前列腺癌、脑瘤、中枢神经系统肿瘤、膀胱肿瘤、黑色素瘤、肝癌、骨肉瘤和其它骨癌、睾丸癌和卵巢癌、头颈部肿瘤和宫颈肿瘤。
例如,为了筛查癌症标志物,可以制备来自受试者的基因组DNA作为测序模板,并可以使其与固定于基底上的捕获探针结合。在这个实例中,可以有多个基底,每个具有相同的捕获探针,其中每个基底随后可以暴露于完全相同形式的测序模板。在去除任何未结合的测序模板后,对阵列或芯片进行增长的碱基延伸。捕获探针可以作为引物,并可以与在可用于检测指示疾病的相关差异的位置附近的测序模板区域特异性结合。在癌症和筛查Bcr/Abl的情况下,捕获探针可以非常接近地结合到预期的易位位点。碱基的增长的延伸可以揭示测序模板是否含有仅来自目的区域中一个基因的DNA或来自易位基因区域的DNA。在读取了横跨多个芯片的分步杂交事件的结果并对原始数据进行处理之后,可以随即确定受试者DNA是否具有Bcr/Abl易位,并因此检测指示癌症的遗传序列的存在。
在一个实施方案中,本发明的测序方法用于环境监测。环境监测包括但不限于检测、鉴定和监控天然和工程化生态系统和微环境如城市废水净化系统和蓄水池或正在进行生物除污的污染区域中的病原性和原生性微生物。在一个实施方案中,本发明的方法用于检测含有能够代谢异生素的基因的质粒,在种群动态研究中监控特定目标微生物,或检测、鉴定或监控环境和工业厂房中的遗传修饰的微生物。
在一个实施方案中,本文提供的测序方法用于多个法医领域。法医领域的实例包括但不限于军事人员和刑事侦查的人体鉴定、亲子鉴定和家庭关系分析、HLA相容性分型,和筛查血液、精子或移植器官的污染。
在食品和饲料工业,本发明具有许多应用。在一个实施方案中,本文提供的测序方法用于鉴定和表征生产生物。生产生物的实例包括但不限于用于生产啤酒、葡萄酒、奶酪、酸奶和面包的酵母。在一个实施方案中,本发明的方法用于产品和工艺(例如,家畜、巴氏消毒和肉类加工)针对污染物的质量控制和认证。在一个实施方案中,本文提供的测序方法用于为了育种目的对植物、鳞茎和种子的表征,植物特异性病原体的存在的鉴定,和兽医学传染病的检测和鉴定。
RNA应用
在一些实施方案中,靶多核苷酸是RNA,和/或对应于RNA的cDNA拷贝。在一些实施方案中,RNA包括一种或多种类型的RNA,包括例如mRNA、tRNA、rRNA和snRNA。在一些实施方案中,RNA包括RNA转录物。
一些实施方案使用了与靶多核苷酸杂交的引物,所述靶多核苷酸的互补链是待合成的。在其中一些实施方案中,所用的引物包含多聚T区域和任选地简并核苷酸区域。这有助于对真核生物细胞中的随机mRNA序列的鉴定和/或计数,因为多聚T可以与mRNA的多聚A区域杂交,并且简并核苷酸可以与相对应的随机序列杂交。简并核苷酸向种子引物内的掺入也避免了当利用通用种子引物进行引物延伸时对多聚A尾自身进行测序。
在一些实施方案中,所述RNA包含来自细胞、来自细胞器和/或来自微生物的RNA分子。RNA分子的数目可以为约100、约200、约300、约400、约500、约600、约700、约800、约900、约1000、约2000、约3000、约4000、约5000、约6000、约7000、约8000、约9000、约1000个,高达包括该细胞、细胞器和/或微生物中的全部RNA分子。一些实施方案包含对来自超过一个细胞、细胞器和/或微生物的RNA分子进行鉴定/测序和/或计数。可以针对不同细胞、细胞器和/或微生物绘制经鉴定的各种类型RNA分子拷贝数的直方图,并用于对每个经分析的细胞编译RNA互补序列的转录模式。不同的细胞、细胞器和/或微生物可能处于不同的状态,例如疾病细胞与正常细胞;或处于不同的发育阶段,例如全能细胞与多能细胞与分化的细胞;或经受不同的刺激,例如细菌细胞与暴露于抗生素的细菌细胞。在一些实施方案中,所述方法可以检测细胞、细胞器和/或微生物之间在拷贝数上的任何统计学上显著的差异。
注释基因组
本发明的特征还在于基于RNA转录物的计数和鉴定对基因组进行注释的方法。经鉴定的转录物表明,例如经测序的基因实际上如何被转录和/或表达。通过将经鉴定的转录物的分析序列与一个或多个预测的表达序列进行比较,可以确定、修正或推翻预测,这提供了一种对基因组进行注释的手段。
确定系统发育关系
本发明的又另一个特征涉及确定各物种的系统发育关系的方法。这些实施方案提供编译来自不同物种的细胞的转录模式并分析同源转录物之间的关系。此类信息可用于确定物种之间的进化关系。
确定细胞对刺激的响应
本发明的另一个特征涉及一种确定微生物对各种刺激的响应的方法,例如,当暴露于药物或经受其它治疗如剥夺某种代谢产物时的响应。在这些实施方案中,可以对施用药物或其它治疗之前和之后的微生物细胞如细菌细胞的转录模式进行比较。
虽然本文已经显示和描述了本发明优选的实施方案,但是对于本领域技术人员而言显然这些实施方案仅仅是作为示例提供的。本领域技术人员在不偏离本发明的前提下将会想到大量的变化、改变和替换。应当理解,在本发明的实践中可以使用本文描述的本发明实施方案的各种替代方案。以下权利要求旨在限定本发明的范围,由此覆盖在这些权利要求的范围内的方法和结构及其等同物。
实施例
实施例1:受控延伸
将测序模板经由其5’生物素固定在链霉亲和素包被的珠子上,并且通过于70℃孵育3分钟、于55℃孵育15分钟和于25℃孵育5分钟与测序引物进行杂交。在50μl的反应中,加入8U Klenow exo(-)、65mU腺苷三磷酸双磷酸酶、10mU无机焦磷酸酶和5μg单链结合蛋白质(SSB)。在室温下进行延伸反应。以一分钟为间隔,在混合下将连续的核苷酸组(每个的终浓度为6.7μM)加入反应缓冲液中。如图8所示在每步加入三种黑暗碱基(天然核苷酸)。在如图8所示的5步核苷酸添加后,洗涤珠子,并将含有酶和SSB的新鲜反应缓冲液加至珠子。在几个核苷酸添加步骤后,例如在如图8所示的步骤9、步骤10和步骤12(其中结果显示于图3中)之后,取出一份珠子,用NaOH处理以释放延伸的引物。利用变性聚丙烯酰胺凝胶检查延伸产物并用ImageJ(获自National Institute of Heath)对信号进行分析。图9中描述了该实验方案的总体示意图。
图10中描述了延伸产物的结果。最大的条带是预期的延伸产物。延伸的初级产物在长度上与预期相同。几乎没有检测到较小的条带,其可能是不完全掺入的产物并代表一小部分反应产物。图11中描述了85个碱基对(bp)的步骤9延伸产物,其对应于22bp引物的63bp延伸,98bp的步骤10延伸产物,其对应于22bp引物的76bp延伸,以及124bp的步骤12延伸产物,其对应于22bp引物的102bp延伸。
实施例2:用PCR产物作为模板的受控延伸
在本实施例中使用PCR产物作为模板。将PCR模板经由其5’生物素固定在链霉亲和素包被的珠子上,并且通过于70℃孵育3分钟、于55℃孵育15分钟和于25℃孵育5分钟与测序引物进行杂交。在50μl的反应中,加入8U Klenow exo(-)、65mU腺苷三磷酸双磷酸酶、10mU无机焦磷酸酶和5μg单链结合蛋白质(SSB)。在室温下进行延伸反应。以一分钟为间隔,在混合下将连续的核苷酸组(每个的终浓度为6.7μM)加入反应缓冲液。如图8所示在每步加入三种黑暗碱基。
图11中描述了延伸产物的结果。最大的条带是延伸产物。延伸的初级产物在长度上与预期相同。几乎没有检测到较小的条带,其可能是不完全掺入的产物,并代表了一小部分反应产物。
图11中描述了85个碱基对(bp)的步骤9延伸产物,其对应于22bp引物的63bp延伸,98bp的步骤10延伸产物,其对应于22bp引物的76bp延伸,以及124bp的步骤12延伸产物,其对应于22bp引物的102bp延伸。
实施例3:黑暗碱基延伸后的大规模平行测序
使用具有8个泳道的测序流动池(商购自Illumina,San Diego,CA)演示黑暗碱基+S延伸后的大规模平行测序。准备从基因组样品(包括外显子区域富集的样品)制备的测序文库,并利用Illumina HiScanSQ测序仪根据标准实验方案进行100个碱基的测序。
然后用0.1N NaOH对所有流动池泳道进行剥离(strip)以去除用荧光信号标记的测序延伸产物。用柠檬酸钠盐水(SSC)洗涤液洗涤所得的流动池泳道。测序引物(P1)与仍在流动池泳道中的测序模板于60℃杂交30分钟。然后用SSC洗涤流动池泳道/通道。
对于泳道1,加载含有Klenow、NEB2、焦磷酸酶的预孵育缓冲液并保持1分钟。加载在缓冲液中含有各为13.4μM的dTTP、dGTP和dCTP的黑暗碱基(+S)三联体溶液一分钟,随后去除。将腺苷三磷酸双磷酸酶洗涤溶液(1mU/μl)加载至泳道内,并在三分钟后去除。然后进行黑暗碱基延伸的另一个循环。依据缺少的核苷酸,黑暗碱基延伸的顺序是A、T、G、C、A、T、G、C、A和T。使用总共十个黑暗碱基延伸步骤,最后缺少的核苷酸是dTTP。
对于泳道3,加载含有Klenow、NEB2、焦磷酸酶和腺苷三磷酸双磷酸酶(1mU/μl)的预孵育缓冲液并保持1分钟。将黑暗碱基三联体溶液掺入到含有各为13.4μM的dTTP、dGTP和dCTP的预孵育溶液中。将混合的溶液加载至流动池泳道内1分钟。然后进行黑暗碱基添加/延伸的另一个循环。依据缺少的核苷酸,黑暗碱基延伸的顺序是A、T、G和C。使用总共四个黑暗碱基延伸步骤,最后缺少的核苷酸是dCTP。
在黑暗碱基延伸后,将流动池加载到Illumina HiScanSQ测序仪上以对25个碱基进行测序(第二测序)。第二测序后,再次使用0.1NNaOH对流动池泳道进行剥离,并使用变性凝胶分析被剥离的核苷酸。
泳道1产生了约27800万个碱基阅读值,约1100万个群簇通过过滤器。泳道3产生了约65300万个碱基阅读值,约2560万个群簇通过过滤器。
图12示出了对于泳道1的每个测序步骤的碱基判定值(base calls)百分数。如所预期的,100%的第一个碱基被判定为“T”,因为黑暗碱基延伸的最后一个步骤是“缺少T”的步骤,正如预期的在测序仪中第一个碱基之后的第一次碱基增加应当是“T”。
图13示出了对于泳道3的每个测序步骤的碱基判定值百分数。也如预期的,100%的第一个碱基判定值是“C”。
来自第二测序的序列与来自第一测序的序列进行匹配,因为其模板相同。因为在第一和第二测序之间存在比对变化(从测序仪上移除流动池以供黑暗碱基延伸),使用一种检索算法在来自Illumina qseq文件的x、y坐标的150个单位的范围内对这些序列进行匹配。对一百万个来自泳道1、第二测序(25个碱基长)的通过过滤器的序列进行核对,71.3%的序列与来自第二测序(100个碱基长)的部分序列匹配。类似地,对一百万个来自泳道3、第二测序(25个碱基长)的通过过滤器的序列进行核对,76.56%的序列与来自第二测序(100个碱基长)的部分序列匹配。
还对序列匹配位置进行了分析。图14示出了泳道1(10个步骤)和泳道3(4个步骤)中黑暗碱基延伸的分布。这些分布与预期的分布一致。高度准确的序列匹配以及正确的分布都表明黑暗延伸后的测序进行得相当好。
当对来自泳道1的880万个序列进行核对以检查实际黑暗延伸与根据来自序列1的序列的预期是否匹配时,发现98.2%的黑暗碱基延伸如同预期。在880万个序列中,870万个序列与10个步骤(ATGC循环)的黑暗碱基延伸相匹配。来自第二测序的另外5,673个序列没有第一个碱基判定值。假设这些序列的首个碱基如预期地是“T”,那么他们与10个步骤的黑暗碱基延伸相匹配。
实施例4:受控延伸之后的大规模平行测序
使用Illumina HiScanSQ测序仪再次演示受控延伸之后的大规模平行测序。使用八个外显子区域富集的基因组样品来制备Illumina配对末端测序文库,并基于Agilent和Illumina试剂和方案按照标准方案对每个末端75个碱基(2x75个碱基)进行测序。在第二末端测序(阅读2)后,使用由Centrillion Biosciences,Inc.定制编程从而可以用定制组装的试剂盒进行受控延伸的cBot群簇生成系统(Illumina)将泳道1-6和8用于受控延伸。
对cBot群簇生成系统进行重新编程,从而可以利用定制编辑的方案以特定的时间间隔来递送核苷酸组合以及其它试剂。在用0.1NNaOH(120μl)对所有泳道进行剥离以去除测序延伸产物后,将Illumina测序引物(SP2,95μl)引入至所有泳道中以与流动池表面上的ssDNA模板群簇进行杂交。杂交于60℃进行15分钟,然后以3℃/min的速度缓慢冷却至20℃。
通过重复引入未标记的天然核苷酸三联体(85μl进行1分钟)以及随后的含有腺苷三磷酸双磷酸酶的洗涤溶液(120μl进行2分钟)完成受控延伸。最后,在继续进行接下来的黑暗碱基延伸步骤前,将NEB2洗涤溶液(120μl,1X)泵送通过流动池。例如,泳道4-(10个步骤),核苷酸组合是:-缺少A、C、G、T、A、C、G、T、A、C;泳道5-(16个步骤)-缺少A、C、G、T、A、C、G、T、A、C、A、C、G、T、A、C;泳道6-(20个步骤)-缺少A、C、G、T、A、C、G、T、A、C、A、C、G、T、A、C、G、T、A、C;以及泳道7-(0个步骤)-对照,只有测序引物(无黑暗碱基延伸)。
在黑暗碱基延伸后,将流动池加载到Illumina HiScanSQ测序仪上以对75个碱基进行测序(第二测序)。
泳道4产生约19.27亿个碱基阅读值,约2570万个群簇通过过滤器。泳道5产生约13.24亿个碱基阅读值,约1760万个群簇通过过滤器。泳道6产生约8.84亿个碱基阅读值,约1180万个群簇通过过滤器。
将来自第二测序的序列与来自第一测序的第二阅读的序列进行匹配。因为第二测序比第一测序的第二阅读延伸得更长,所以来自第二测序的序列可能与来自同一群簇的第一测序的第二阅读的序列重叠或可能不与之重叠。将来自两个测序运行的序列映射到人类基因组,并使用检索算法比较人类染色体上的映射位置从而基于其映射位置确定两个序列是否来自同一群簇。因为在第一和第二测序之间存在群簇比对变化(从测序仪上移除流动池以供黑暗碱基延伸),所以考虑检索算法在来自Illumina qseq文件的x、y坐标的600个单位的范围内对序列进行匹配。
对一百万个来自泳道4、第二测序(75个碱基长)的通过过滤器的序列进行核对,80.4%的序列映射到的位置紧靠来自第一测序的序列(75个碱基长)的映射位置。类似地,对一百万个来自泳道5、第二测序(75个碱基长)的通过过滤器的序列进行核对,81.8%的序列映射到的位置紧靠来自第一测序的序列(75个碱基长)的映射位置。类似地,对一百万个来自泳道6、第二测序(75个碱基长)的通过过滤器的序列进行核对,82%的序列映射到的位置紧靠来自第一测序的序列(75个碱基长)的映射位置。
还对序列匹配位置进行了分析。图15示出了泳道4(10个步骤)、泳道5(16个步骤)和泳道6(20个步骤)中的黑暗碱基延伸的分布。这些分布与预期的分布一致。高度序列映射位置匹配和正确的分布均表明了黑暗延伸后的测序进行得相当好。
实施例5:人类和大肠杆菌(E.Coli)DNA样品的测序
简介
全基因组测序提供了对基因组真正公正的视角。它允许对个体的全部遗传密码一次进行推断,并揭示关于个人医疗保健的全面的遗传信息。对于罕见的、其根本突变目前尚属未知的遗传性疾病而言,全基因组测序可能是唯一可行的鉴定致病变型的方法。然而,全基因组测序的高额花费依然阻止了对庞大的个体人群进行常规遗传筛查。
下一代测序(NGS)技术代表了在精确度、阅读长度和费用上的重大改进。使用聚合酶(Illumina,454,Ion Torrent)和连接酶(Solid)的DNA合成测序(SBS)技术已经被整合到许多市售的NGS平台中,并取得显著成功。虽然这些平台在其工程配置和测序化学上有所不同,但他们有一个共同的技术范式,其中通过聚合酶介导的荧光标记的核苷酸延伸的迭代循环或通过连续的荧光标记寡核苷酸连接,依序对碱基进行阅读。由于荧光标记的核苷酸并不是聚合酶的天然底物,所以反应难以达到100%完成。每个步骤中不完全延伸的累积效应导致退相,这最终导致长阅读值中信号强度的显著降低。另外,标记的核苷酸上的终止基团的不完全去除可以导致进一步的信号丢失。为了优化酶-底物系统,目前的NGS平台广泛依赖于昂贵的专利酶,以及荧光核苷酸、光学器件和仪器。
这些基本的系统要求限制了当前的平台在保持高阅读质量的同时增加阅读长度的能力。+STM技术—上述一些实施方案的一种实施技术,通过利用控制长度的延伸重置测序化学而克服了这个障碍。因此,可以经由+S到达远离测序引物的DNA模板区域,这有效地提高了阅读长度,而不存在当前NGS平台所固有的信号丢失和质量下降。本实施例证明了除测序之外还采用受控延伸的+STM技术极大地改善了长阅读值的测序质量。
材料与方法
文库制备:
使用Covaris方案(Covaris,Inc.,Woburn,Massachusetts,USA)对人类DNA样品和大肠杆菌(菌株ATCC11303)DNA样品进行剪切以获得期望的长度分布。根据AgilentSureSelectTM外显子组方案(Exome Protocols)加工所得到的片段化人类DNA样品以制备用于测序的人类外显子组文库。使用2%的琼脂糖凝胶进一步分离所得的片段化大肠杆菌DNA,切下600至700bp的条带。在DNA提取后,根据Illumina TruSeq DNA样品制备指南加工样品以产生用于测序的文库。
标准的Illumina群簇生成和配对末端测序:
根据Illumina TruSeq cBot程序,通过qPCR对人类外显子组和大肠杆菌文库进行定量,将其稀释到合适的浓度,并用0.1N NaOH进行变性。将变性的人类文库和1%的大肠杆菌文库与TruSeq PE群簇v3平板和v3流动池一起加载到cBot中。在完成群簇生成后,将流动池与TruSeq SBS试剂盒v3和多重化试剂一起加载到HiScanSQ测序仪中。测序运行使用2x100TruSeq v3配对末端方案进行,并在进行任何+S相关步骤前全部完成。
针对+S的流动池准备:
在标准Illumina配对末端测序的第二个100bp阅读完成后,将泳道1立即保护起来,不进行进一步加工(无+S步骤)。这个泳道保留第二个阅读结束时的条件,并将作为对照,代表超过100bp长度的Illumina测序的延续。
另一方面,用0.1N NaOH(200μl)处理流动池的泳道2和泳道3以去除未附着至流动池的合成链(即第二个100bp阅读)。因此,仅保留附着于流动池的单链模板分子。
通过在杂交混合物(5xSSC,0.05%的吐温-20)中加入Illumina多重阅读2测序引物(PN1005721)至最终浓度为0.5μM,来制备测序引物混合物。根据标准Illumina cBot方案将泳道2和泳道3与测序引物混合物进行杂交。此时泳道2也受到保护直至进一步测序。
+S延伸:
泳道3进行+S延伸法。总计,在泳道3中于37℃进行了24个三碱基+S延伸循环。在每个添加步骤(形成一个循环)一起加入三种核苷酸(三联体形式)。为了清楚起见,我们将三核苷酸的添加命名为“减号第四种核苷酸混合物”。因此,-A混合物由(dC、dG、dT)组成;-C混合物含有(dA、dG、dT);-G混合物含有(dA、dC、dT);最后,-T是(dA、dC、dG)的添加。在+S延伸过程中,三核苷酸(三联体)循环的顺序是“-A、-C、-G、-T、-A、-C、-G、-T、-A、-C、-G、-T、-A、-C、-G、-T、-A、-C、-G、-T、-A、-C、-G、-T”,共24个循环。+S延伸混合物包括:1x Thermopol缓冲液(NEB)、0.5M GC-Melt(Clonetech)、4mM DTT(Sigma)、1mg/ml BSA(NEB)、0.2mg/ml PVP-10(Sigma)、0.8μg/ul SSB(Epicentre)、2mU/μl焦磷酸酶(NEB)和1.6U/μl Bst聚合酶(NEB)。
往+S延伸混合物中加入合适的核苷酸组合至终浓度为5μM(每个核苷酸洗涤溶液均用1x Thermopol、4mM DTT和1mU/ul腺苷三磷酸双磷酸酶(NEB)制备)。
在+S延伸之前,用85μl不含核苷酸的+S延伸混合物填充泳道3,然后孵育30秒。通过泵送含有核苷酸的+S延伸混合物(35μl)、随后以60μl/min的速度泵送3μl空气来进行+S延伸循环。结果,泵送洗涤混合物(120μl)并孵育1分钟,随后泵送1x Thermopol洗涤液(120μl)。将此试剂泵送顺序重复24个循环,在每个循环中具有指定的核苷酸三联体组合(即-A、-C等)。最后,+S延伸后,泳道3用保持缓冲液加载并进行保护直至进一步测序。
标准Illumina测序(单个阅读)的再运行:
携带所有准备就绪的泳道(1、2、3),流动池与TruSeq SBS试剂盒v3一起被加载到HiScanSQ测序仪中。为了在S+过程后用HisScanSQ有效地聚焦,所有泳道(1、2、3)都进行一个循环的TruSequ v3。采用单个阅读1X100TruSeq v3方案进行新的测序运行,正如从新的流动池开始一样。实际上,这个新的单个阅读1X100运行是对之前已经完成的配对末端方案的第二个阅读值进行重新测序,其中泳道1是读取碱基位置102-201作为之前运行的延续;泳道2是重新读取碱基2-101因为其仅以测序引物起始;而泳道3在由+S延伸引起的位置范围处起始。更确切的说,泳道3中+S延伸的24个循环导致测序引物平均延伸96bp。
数据分析:
使用测序比对工具BWA,将大肠杆菌测序阅读值与组装的大肠杆菌基因组(菌株ATCC11303)进行比对。大肠杆菌菌株ATCC11303的基因组使用来自标准Illumina测序运行的相同菌株的测序阅读值组装而成。只有经独特比对的阅读值才用于质量计算。在一个质量计算中,对每一个经独特比对的阅读值的所有碱基进行计数,而不管质量值如何。对于单个阅读值,基于与参照大肠杆菌基因组的比较,将每个位置上的碱基记录为正确或错误,然后作为该碱基位置处错误率E的负对数计算出每个碱基位置的Phred型质量评分Q:
Q=-10*log10E
其中E=(记录为错误的碱基数)/(记录为正确的碱基数+记录为错误的碱基数)
还使用基因组分析工具盒(GATK,http://www.broadinstitute.org/gsa/wiki/index.php/The_Genome_Analysis_Toolkit)对测序质量进行测量。首先,使用测序比对工具BWA,将所有序列阅读值与组装的大肠杆菌基因组(菌株ATCC11303)进行比对。然后使用GATK的CountCovariates模型来计算质量。在此计算中,在计算平均质量前,略去每个阅读值末端的连续的低质量碱基(原始Illumina质量评分为2的碱基)。
在图16中,对于泳道1(S1)和泳道3(S3),使用标准Illumina方案从测序阅读值中取得碱基1至100的Q-评分(即2x100配对末端方案的第二次阅读)。对于泳道1,采用标准的无+S延伸的Illumina方案(1x100)从延续测序运行中获得碱基101至200的Q-评分。对于泳道3,在使用标准Illumina测序方案(1x100)对阅读值进行测序前,引入+S延伸的24个步骤,这提供了泳道3的Q-评分。
结果
Illumina测序平台上的+S技术
本实施例证明了+S技术使用Illumina的HiScanSQ测序仪在保持阅读质量的同时增加阅读长度的能力。在泳道3上24个循环的+S延伸后,标准测序引物在运行1x100Illumina测序(参见方法与材料)前平均延伸约100bp。泳道3中的+S延伸在长度方面与泳道1的情况相似,其包含原始Illumina的SBS的100bp阅读值。因此,单个阅读1x100Illumina测序是读取泳道1和3两者中的位置101-200,其不同之处在于,泳道1是早先的Illumina测序的延续,而泳道3包含新鲜制备的平均长度为100bp的+S延伸。用这种方式,这两个泳道可以并排进行比较以评价+S延伸在保持阅读质量的同时增加阅读长度的效率。最后,泳道2是测序引物杂交、群簇保留和流动池性能的对照泳道。
图16A比较了泳道3进行+S延伸后不同泳道的群簇密度。在整个+S过程中,泳道1都受到保护。泳道2用NaOH处理,随后与泳道3一起用测序引物再杂交。泳道1和泳道2都未用+S进行延伸。泳道2和泳道3中相似的群簇密度表明+S后良好的群簇保留。泳道1(延续测序101-200个碱基)具有较低的群簇密度,这可能是标准Illumina测序中退相的结果。明显地,在大体相似的测序长度上,泳道3(+S)具有比泳道1(标准Illumina测序)更高的密度。
图16B示出了群簇通过过滤器比率的%。重新启动测序仪后,泳道1上仅有10%的群簇通过过滤器。相比之下,泳道3上有70%的群簇通过过滤器。
图16C示出了不同泳道通过过滤器的阅读值的数量。泳道3(+S)通过过滤器的比率比泳道1高得多,而只比泳道2略低,泳道2从碱基1至100进行测序,与之相比泳道3在平均位置101至200进行测序。类似地,不同泳道的预测质量评分(图16D)显示出相似的模式,其中较之泳道1,+S测序显著地改善了Q30或以上阅读值的数量。
我们还对另一个泳道(泳道8)进行了+S延伸及随后的标准Illumina测序。泳道8的结果显示出与泳道3相似的模式(数据未在此示出)。
图17A和17B示出了使用GATK计算的经验性Q-评分(阅读长度上的实际Q-评分分布)。图17A示出了100bp的标准Illumina测序运行。图17B示出了额外的100bp的Illumina测序运行,其在图17A所示的100bp测序运行和额外的1bp测序运行之后进行。对于泳道1,图17A中的x轴位置1至100是所测序的每个DNA片段上的实际碱基位置1至100;图17B中的x轴位置1至100是所测序的每个DNA片段上的实际碱基位置102至201。对于泳道3,图17A中的x轴位置1至100是所测序的每个DNA片段上的实际碱基位置;图17B中的x轴位置1至100在每个DNA片段上的实际碱基位置取决于每个单个DNA片段的实际+S延伸大小。基于+S延伸大小分布,泳道3上的平均延伸大小是97个碱基。因此,图17B中的x轴位置1至100在DNA片段上的实际碱基位置的平均值是98(97加上来自额外的1bp测序运行的1)至197。因为泳道1在图17B中的x轴位置94之后能获得的碱基极少,所以未计算泳道1在图17B中的x轴位置94之后的经验性质量评分。明显地,即使已经略去阅读值末端的低质量碱基,Illumina延续测序(泳道1)的实际碱基位置102至193的质量也比+S测序(泳道3)差得多。泳道3的Q-评分的若干个骤降归因于流动池中的气泡,它们妨碍了那些碱基位置处群簇的适当成像。
因为在GATK经验性质量(图17A和17B)计算中略去了阅读值末端的低质量碱基,所以计算正确碱基的数目以显示全部正确碱基随着阅读长度的增加而发生的变化(图17C和17D)。图17C中的x轴与图17A中的相同,而图17D中的x轴与图17B中的相同。将每个阅读值与组装的参照大肠杆菌基因组(菌株ATCC11303)进行比对。如果与参照基因组上的比对碱基相同,那么阅读值上的碱基被判定为正确。在图17C和图17D中,计算每个x轴位置处的正确碱基的数目,作为该泳道该位置处具有正确碱基的阅读值的数目。明显地,+S延伸后的额外的测序中来自泳道3的阅读值具有高得多的正确碱基数目。
总之,泳道3中碱基101-200处的+S测序的输出和质量比没有+S延伸步骤(泳道1在碱基101-200处)的情况好得多。我们还对另一个泳道(泳道8)进行了+S延伸。泳道8的结果显示出与泳道3相似的模式(数据未在此示出)。
实施例6:使用Ion Torrent PGM的+S测序
本实施例证明了可以使用Ion Torrent PGM进行三核苷酸受控延伸。它也证明了可以使用Ion Torrent作为读出装置来进行受控延伸测序过程(+S测序)的商业实施。
材料与方法
根据Ion Torrent的指导(Ion Amplicon Library Preparation(Fusion Method)p/n4468326Rev.B)设计了具有176bp插入大小的“融合”PCR构建体。PCR构建体的基础序列来自于质粒pBR322。在用Herculase II DNA聚合酶(Agilent#600675)扩增25个循环后,用Qiagen凝胶提取试剂盒(Qiagen#28704)提取扩增子。使用Ion Torrent的Ion XpressTemplate200试剂盒(Life p/n Life#4471253)将输入DNA扩增到Ion SphereTM颗粒(ISP)上。将富集的ISP与测序引物进行杂交,并根据方案(Ion Torrent protocol4469714Rev.B)结合DNA聚合酶。(聚合酶和引物来自Ion的测序试剂盒Life#4468995)。
用来自测序试剂盒的试剂初始化Ion Torrent个人基因组检测仪(PersonalGenome Machine)。初始化后,根据200方案(Life p/n4471999Rev.B)将引发的且与聚合酶结合的ISP加载到含有来自Ion Sequencing200试剂盒(Life#4471258)的试剂的314R芯片上。用320个核苷酸流按Ion Torrent的SAMBA流动顺序在PGM上对加载到芯片上的ISP进行测序。延伸后,将芯片贮存在冰箱中来自Ion Torrent的配对末端测序演示方案(Paired-End Sequencing Demonstrated Protocol,p/n MAN0006191;900μl来自测序试剂盒的退火缓冲液与48μl8%PVP-10混合)的含有PVP的退火缓冲液中。
在PGM上进行测序后,用0.1N NaOH剥离延伸的测序引物,并将ISP结合的模板与测序引物混合物(25μl退火缓冲液中的5μl测序引物)于65℃杂交5分钟,接着在室温杂交15分钟。再次对个人基因组检测仪进行清洗和初始化,并根据配对末端测序演示方案将聚合酶结合到芯片中的ISP上(将1.5μl来自测序试剂盒的聚合酶加入到6μl含有PVP的退火缓冲液中;将混合物注入芯片并孵育5分钟)。在PGM初始化期间,将20μl的每种核苷酸替换为20μl所提供的其它三种核苷酸中的每一种。例如,将20μl dATP替换为20μl dCTP、20μldGTP、20μl dTTP,并且将混合物插入到PGM上的dATP位置。在个人基因组检测仪上对每个核苷酸位置重复该步骤。用16个核苷酸-三联体流按Ion Torrent的SAMBA流动顺序在PGM上对加载到芯片的ISP进行延伸。
+S延伸后,将芯片贮存在冰箱中来自Ion Torrent的配对末端测序演示方案的含有PVP的退火缓冲液中。根据v2.0方案对PGM进行清洗并重新初始化之后,用50μl酶变性溶液(来自PE演示方案:1X TE,50mM NaCl,2%SDS)将芯片清洗2遍,重新加载到机器上,并与聚合酶一起孵育(见上)。用320个流按SAMBA流动顺序对延伸的芯片进行测序。使用TorrentSuite v2.0.1(Ion Torrent/Life Technologies,Inc.)在Torrent服务器上作出序列判定。为了在+S延伸后对测序作出判定,使用对应于176mer的测序起始位置的不同的钥匙。对于第一测序,使用Torrent Suite软件(一种扩增子类型的所有分子具有相同的条形码,该条形码与实验中包括的其它扩增子不同)按条形码对扩增子进行分类。+S延伸后,每个扩增子调用不同的序列钥匙,因此由Torrent Suite产生的阅读值仅代表调用该钥匙的扩增子群体。使用在线Prinseq(http://edwards.sdsu.edu/prinseq_beta/#)目测检查FastQ文件的质量和阅读长度。
在图18中,BAM文件由Torrent Suite自动生成,并用IGV(http://www.broadinstitute.org/igv/)可视化。比对结果清楚地表明,对于一种构建体而言,+S延伸后的阅读值起始于统一的位置,这指示最小的退相。

Claims (19)

1.一种用于对靶核酸进行测序的方法,包括:
(a)通过延伸与靶核酸杂交的第一测序引物以产生第一引物延伸产物来对所述靶核酸的一个或多个碱基进行测序,从而获得第一序列阅读值;
(b)从所述靶核酸上释放所述第一引物延伸产物;
(c)将第二测序引物与所述靶核酸杂交;
(d)通过经受限延伸对所述第二测序引物进行延伸而产生第二引物延伸产物;和
(e)通过进一步延伸所述第二引物延伸产物以产生第三引物延伸产物来对所述靶核酸的一个或多个碱基进行测序,从而获得第二序列阅读值,
其中所述方法并非用于诊断疾病的目的。
2.如权利要求1所述的方法,其中所述第一测序引物与所述第二测序引物相同。
3.如权利要求1所述的方法,其中所述第一测序引物与所述第二测序引物不同。
4.如权利要求1所述的方法,其中所述受限延伸通过脉冲延伸进行。
5.如权利要求4所述的方法,其中所述脉冲延伸通过使延伸反应持续30至60秒而进行。
6.如权利要求1所述的方法,其中所述受限延伸通过使用核酸聚合酶和一个或多个核苷酸组进行,其中每个核苷酸组包含不超过三种不同的核苷酸。
7.如权利要求6所述的方法,其中所述受限延伸用超过一个核苷酸组进行。
8.如权利要求7所述的方法,其中所述核苷酸组包含一种、两种或三种不同的核苷酸。
9.如权利要求1所述的方法,其进一步包括通过释放步骤(e)中产生的引物延伸产物来重复步骤(b)至(e),从而获得一个或多个额外的序列阅读值。
10.如权利要求1至9中的任一项所述的方法,其中所述靶核酸的序列通过组装所述第一、第二和任选地额外的序列阅读值而确定。
11.如权利要求1至9中的任一项所述的方法,其中所述测序通过使用标记的可逆终止子来延伸测序引物而进行。
12.如权利要求6所述的方法,其中在后续的核苷酸组添加之前进行洗涤步骤。
13.如权利要求6所述的方法,其中在后续的核苷酸组添加之前进行核苷酸降解步骤。
14.如权利要求1至9、12、和13中的任一项所述的方法,其中所述靶核酸附着于基底上。
15.如权利要求14所述的方法,其中所述基底是平面或珠子。
16.如权利要求14所述的方法,其中所述基底是流动池。
17.如权利要求14所述的方法,其中所述基底包括玻璃。
18.如权利要求14所述的方法,其中所述靶核酸通过捕获探针附着于所述基底上。
19.如权利要求1所述的方法,其包括对多个靶核酸进行测序。
CN201280027272.XA 2011-04-01 2012-04-02 用于对长核酸进行测序的方法和系统 Active CN103917654B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201161470497P 2011-04-01 2011-04-01
US61/470,497 2011-04-01
US201161477173P 2011-04-20 2011-04-20
US61/477,173 2011-04-20
US201161489662P 2011-05-24 2011-05-24
US61/489,662 2011-05-24
US13/153,218 US20120252682A1 (en) 2011-04-01 2011-06-03 Methods and systems for sequencing nucleic acids
US13/153,218 2011-06-03
PCT/US2012/000185 WO2012134602A2 (en) 2011-04-01 2012-04-02 Methods and systems for sequencing long nucleic acids

Publications (2)

Publication Number Publication Date
CN103917654A CN103917654A (zh) 2014-07-09
CN103917654B true CN103917654B (zh) 2017-10-27

Family

ID=46928004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280027272.XA Active CN103917654B (zh) 2011-04-01 2012-04-02 用于对长核酸进行测序的方法和系统

Country Status (5)

Country Link
US (4) US20120252682A1 (zh)
EP (1) EP2694679A4 (zh)
CN (1) CN103917654B (zh)
HK (1) HK1200492A1 (zh)
WO (1) WO2012134602A2 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10174368B2 (en) 2009-09-10 2019-01-08 Centrillion Technology Holdings Corporation Methods and systems for sequencing long nucleic acids
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
US20120252682A1 (en) 2011-04-01 2012-10-04 Maples Corporate Services Limited Methods and systems for sequencing nucleic acids
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
US20140024542A1 (en) * 2012-07-17 2014-01-23 Counsyl, Inc. Methods and compositions for enrichment of target polynucleotides
US9822408B2 (en) * 2013-03-15 2017-11-21 Nugen Technologies, Inc. Sequential sequencing
CA2921620C (en) 2013-08-19 2021-01-19 Abbott Molecular Inc. Next-generation sequencing libraries
GB201319779D0 (en) * 2013-11-08 2013-12-25 Cartagenia N V Genetic analysis method
EP3628747B1 (en) 2013-12-05 2022-10-05 Centrillion Technology Holdings Corporation Fabrication of patterned arrays
US10385335B2 (en) 2013-12-05 2019-08-20 Centrillion Technology Holdings Corporation Modified surfaces
EP3077545B1 (en) 2013-12-05 2020-09-16 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
DK3080302T3 (da) * 2013-12-10 2020-10-26 Conexio Genomics Pty Ltd Metoder og sonder til identifikation af genalleler
US10537889B2 (en) 2013-12-31 2020-01-21 Illumina, Inc. Addressable flow cell using patterned electrodes
US11060139B2 (en) 2014-03-28 2021-07-13 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
GB201410420D0 (en) 2014-06-11 2014-07-23 Illumina Cambridge Ltd Methods for estimating cluster numbers
US9909167B2 (en) * 2014-06-23 2018-03-06 The Board Of Trustees Of The Leland Stanford Junior University On-slide staining by primer extension
GB201419731D0 (en) 2014-11-05 2014-12-17 Illumina Cambridge Ltd Sequencing from multiple primers to increase data rate and density
CN104762405A (zh) * 2015-04-22 2015-07-08 北京嘉宝仁和医疗科技有限公司 一种单细胞基因组扩增后扩增产物质量鉴定的方法和试剂盒
EP3103885B1 (en) 2015-06-09 2019-01-30 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
CN106434873B (zh) * 2015-08-13 2021-08-27 生捷科技控股公司 使核酸分子同步化的方法
CN106702497B (zh) * 2015-11-17 2020-01-10 安诺优达基因科技(北京)有限公司 用于孕妇外周血中游离dna检测的试剂盒及建库方法
CN106702498B (zh) * 2015-11-17 2020-03-24 安诺优达基因科技(北京)有限公司 一种构建测序用dna文库的方法
CN106811510A (zh) * 2015-12-01 2017-06-09 上海市质量监督检验技术研究院 基于高通量测序的动物源成分鉴别方法及其应用
CN108699600A (zh) * 2016-02-23 2018-10-23 诺维信公司 改进的新一代测序
CA3031586A1 (en) * 2016-07-27 2018-02-01 The Board Of Trustees Of The Leland Stanford Junior University Highly-multiplexed fluorescent imaging
CN108629157B (zh) * 2017-03-22 2021-08-31 深圳华大基因科技服务有限公司 一种用于核酸测序数据压缩和加密的方法
CN108728430B (zh) * 2017-04-21 2022-04-05 胤安国际(辽宁)基因科技股份有限公司 一种制备含有多个重复单元dna长探针的方法
US20200109446A1 (en) * 2017-06-14 2020-04-09 Board Of Regents, The University Of Texas System Chip hybridized association-mapping platform and methods of use
EP3559266A4 (en) 2017-12-29 2020-12-02 ACT Genomics (IP) Co., Ltd. METHOD AND SYSTEM FOR ALIGNING SEQUENCES AND CALLING A VARIANT
CN112805394B (zh) * 2018-12-07 2024-03-19 深圳华大生命科学研究院 长片段核酸测序的方法
EP3963104A4 (en) * 2019-05-03 2023-11-08 Ultima Genomics, Inc. FAST-FORWARDING SEQUENCING THROUGH SYNTHESIS METHODS
CN111020022B (zh) * 2019-08-01 2020-12-29 温州医科大学 检测染色体重排的方法和试剂盒

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097626A2 (en) * 2008-02-03 2009-08-06 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis

Family Cites Families (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4437975A (en) 1977-07-20 1984-03-20 Mobil Oil Corporation Manufacture of lube base stock oil
US4458066A (en) 1980-02-29 1984-07-03 University Patents, Inc. Process for preparing polynucleotides
US4469863A (en) 1980-11-12 1984-09-04 Ts O Paul O P Nonionic nucleic acid alkyl and aryl phosphonates and processes for manufacture and use thereof
US4883750A (en) 1984-12-13 1989-11-28 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US5235033A (en) 1985-03-15 1993-08-10 Anti-Gene Development Group Alpha-morpholino ribonucleoside derivatives and polymers thereof
US5034506A (en) 1985-03-15 1991-07-23 Anti-Gene Development Group Uncharged morpholino-based polymers having achiral intersubunit linkages
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
IL86724A (en) 1987-06-19 1995-01-24 Siska Diagnostics Inc Methods and kits for amplification and testing of nucleic acid sequences
CA1340843C (en) 1987-07-31 1999-12-07 J. Lawrence Burg Selective amplification of target polynucleotide sequences
JP2650159B2 (ja) 1988-02-24 1997-09-03 アクゾ・ノベル・エヌ・ベー 核酸増幅方法
CA1340807C (en) 1988-02-24 1999-11-02 Lawrence T. Malek Nucleic acid amplification process
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5216141A (en) 1988-06-06 1993-06-01 Benner Steven A Oligonucleotide analogs containing sulfur linkages
AU4829690A (en) 1988-12-16 1990-07-10 Siska Diagnostics, Inc. Self-sustained, sequence replication system
US5856092A (en) 1989-02-13 1999-01-05 Geneco Pty Ltd Detection of a nucleic acid sequence or a change therein
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5547839A (en) 1989-06-07 1996-08-20 Affymax Technologies N.V. Sequencing of surface immobilized polymers utilizing microflourescence detection
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5871928A (en) 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
US5386023A (en) 1990-07-27 1995-01-31 Isis Pharmaceuticals Backbone modified oligonucleotide analogs and preparation thereof through reductive coupling
US5602240A (en) 1990-07-27 1997-02-11 Ciba Geigy Ag. Backbone modified oligonucleotide analogs
DE69128545D1 (de) 1990-08-24 1998-02-05 Univ Tennessee Res Corp Technik des genetischen fingerabdrucks mit dns-vervielfältigung
WO1992007095A1 (en) 1990-10-15 1992-04-30 Stratagene Arbitrarily primed polymerase chain reaction method for fingerprinting genomes
US5756285A (en) * 1991-09-27 1998-05-26 Amersham Life Science, Inc. DNA cycle sequencing
US5644048A (en) 1992-01-10 1997-07-01 Isis Pharmaceuticals, Inc. Process for preparing phosphorothioate oligonucleotides
US5470705A (en) 1992-04-03 1995-11-28 Applied Biosystems, Inc. Probe composition containing a binding domain and polymer chain and methods of use
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6045996A (en) 1993-10-26 2000-04-04 Affymetrix, Inc. Hybridization assays on oligonucleotide arrays
US5631734A (en) 1994-02-10 1997-05-20 Affymetrix, Inc. Method and apparatus for detection of fluorescently labeled materials
US6090555A (en) 1997-12-11 2000-07-18 Affymetrix, Inc. Scanned image alignment systems and methods
US5578832A (en) 1994-09-02 1996-11-26 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US5637684A (en) 1994-02-23 1997-06-10 Isis Pharmaceuticals, Inc. Phosphoramidate and phosphorothioamidate oligomeric compounds
US6287850B1 (en) 1995-06-07 2001-09-11 Affymetrix, Inc. Bioarray chip reaction apparatus and its manufacture
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US6362002B1 (en) 1995-03-17 2002-03-26 President And Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5882867A (en) * 1995-06-07 1999-03-16 Dade Behring Marburg Gmbh Detection of nucleic acids by formation of template-dependent product
US5545531A (en) 1995-06-07 1996-08-13 Affymax Technologies N.V. Methods for making a device for concurrently processing multiple biological chip assays
US6518189B1 (en) 1995-11-15 2003-02-11 Regents Of The University Of Minnesota Method and apparatus for high density nanostructures
US6440662B1 (en) 1995-12-01 2002-08-27 Innogenetics N.V. Impedimetric detection system and method of production thereof
US6852487B1 (en) 1996-02-09 2005-02-08 Cornell Research Foundation, Inc. Detection of nucleic acid sequence differences using the ligase detection reaction with addressable arrays
US6114122A (en) 1996-03-26 2000-09-05 Affymetrix, Inc. Fluidics station with a mounting system and method of using
US5867266A (en) 1996-04-17 1999-02-02 Cornell Research Foundation, Inc. Multiple optical channels for chemical analysis
JP2000512744A (ja) 1996-05-16 2000-09-26 アフィメトリックス,インコーポレイテッド 標識材料を検出するシステムおよび方法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6201639B1 (en) 1998-03-20 2001-03-13 James W. Overbeck Wide field of view and high speed scanning microscopy
US6185030B1 (en) 1998-03-20 2001-02-06 James W. Overbeck Wide field of view and high speed scanning microscopy
US5936324A (en) 1998-03-30 1999-08-10 Genetic Microsystems Inc. Moving magnet scanner
US6287821B1 (en) * 1998-06-11 2001-09-11 Orchid Biosciences, Inc. Nucleotide analogues with 3'-pro-fluorescent fluorophores in nucleic acid sequence analysis
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
AU2144000A (en) 1998-10-27 2000-05-15 Affymetrix, Inc. Complexity management and analysis of genomic dna
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
US20060275782A1 (en) * 1999-04-20 2006-12-07 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6218803B1 (en) 1999-06-04 2001-04-17 Genetic Microsystems, Inc. Position sensing with variable capacitance transducers
EP1192453B1 (en) 1999-06-22 2012-02-15 President and Fellows of Harvard College Molecular and atomic scale evaluation of biopolymers
US6464842B1 (en) 1999-06-22 2002-10-15 President And Fellows Of Harvard College Control of solid state dimensional features
US7258838B2 (en) 1999-06-22 2007-08-21 President And Fellows Of Harvard College Solid state molecular probe device
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
WO2001032930A1 (en) 1999-11-04 2001-05-10 California Institute Of Technology Methods and apparatuses for analyzing polynucleotide sequences
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6386749B1 (en) 2000-06-26 2002-05-14 Affymetrix, Inc. Systems and methods for heating and mixing fluids
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
EP1337541B1 (en) 2000-10-06 2007-03-07 The Trustees of Columbia University in the City of New York Massive parallel method for decoding DNA and RNA
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
US6391592B1 (en) 2000-12-14 2002-05-21 Affymetrix, Inc. Blocker-aided target amplification of nucleic acids
WO2002065515A2 (en) 2001-02-14 2002-08-22 Science & Technology Corporation @ Unm Nanostructured devices for separation and analysis
EP2801624B1 (en) 2001-03-16 2019-03-06 Singular Bio, Inc Arrays and methods of use
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
US6777187B2 (en) 2001-05-02 2004-08-17 Rubicon Genomics, Inc. Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates
US6632611B2 (en) 2001-07-20 2003-10-14 Affymetrix, Inc. Method of target enrichment and amplification
US7297778B2 (en) 2001-07-25 2007-11-20 Affymetrix, Inc. Complexity management of genomic DNA
US6872529B2 (en) 2001-07-25 2005-03-29 Affymetrix, Inc. Complexity management of genomic DNA
US6548810B2 (en) 2001-08-01 2003-04-15 The University Of Chicago Scanning confocal electron microscope
DE10239504A1 (de) 2001-08-29 2003-04-24 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression
JP2003101204A (ja) 2001-09-25 2003-04-04 Nec Kansai Ltd 配線基板及び配線基板の製造方法並びに電子部品
WO2003031947A2 (de) 2001-10-04 2003-04-17 Genovoxx Gmbh Gerät zur sequenzierung von nukleinsäuremolekülen
DE10149786B4 (de) 2001-10-09 2013-04-25 Dmitry Cherkasov Oberfläche für Untersuchungen aus Populationen von Einzelmolekülen
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
WO2003106693A2 (en) 2002-01-01 2003-12-24 Princeton University Gradient structures interfacing microfluidics and nanofluidics, methods for fabrication and uses thereof
DE60332406D1 (de) 2002-03-15 2010-06-17 Affymetrix Inc System und Verfahren zur Abtastung von biologischen Materialien
US20030186279A1 (en) 2002-03-28 2003-10-02 Affymetrix, Inc. Large scale genotyping methods
US20030186280A1 (en) 2002-03-28 2003-10-02 Affymetrix, Inc. Methods for detecting genomic regions of biological significance
DE10214395A1 (de) 2002-03-30 2003-10-23 Dmitri Tcherkassov Verfahren zur Analyse von Einzelnukleotidpolymorphismen
US20070065816A1 (en) 2002-05-17 2007-03-22 Affymetrix, Inc. Methods for genotyping
US20040072217A1 (en) 2002-06-17 2004-04-15 Affymetrix, Inc. Methods of analysis of linkage disequilibrium
US7300788B2 (en) 2002-10-08 2007-11-27 Affymetrix, Inc. Method for genotyping polymorphisms in humans
JP4480715B2 (ja) 2003-01-29 2010-06-16 454 コーポレーション 二重末端シーケンシング
GB2398383B (en) 2003-02-12 2005-03-09 Global Genomics Ab Method and means for nucleic acid sequencing
DE10356837A1 (de) 2003-12-05 2005-06-30 Dmitry Cherkasov Modifizierte Nukleotide und Nukleoside
WO2005044836A2 (de) 2003-11-05 2005-05-19 Genovoxx Gmbh Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050186576A1 (en) 2004-02-19 2005-08-25 Intel Corporation Polymer sequencing using selectively labeled monomers and data integration
DE102004009704A1 (de) 2004-02-27 2005-09-15 Dmitry Cherkasov Makromolekulare Nukleotidverbindungen und Methoden zu deren Anwendung
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
JP5007440B2 (ja) 2004-05-13 2012-08-22 ナノバイオシン, インコーポレイテッド ナノ−pcr:核酸増幅及び検出のための方法及び装置
DE102004025746A1 (de) 2004-05-26 2005-12-15 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zur hochparallelen Sequenzierung von Nukleinsäureketten
DE102004025744A1 (de) 2004-05-26 2005-12-29 Dmitry Cherkasov Oberfläche für die Analysen an einzelnen Nukleinsäuremolekülen
DE102004025694A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zu hochparallelen Analysen von Nukleinsäureketten
DE102004025695A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zur parallelen Sequenzierung von Nukleinsäureketten
DE102004025696A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zu hochparallelen Analysen von Nukleinsäureketten
DE102004025745A1 (de) 2004-05-26 2005-12-15 Cherkasov, Dmitry Oberfläche für die Analysen an einzelnen Molekülen
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
CN102183630A (zh) 2005-04-06 2011-09-14 哈佛大学校长及研究员协会 用碳纳米管控制的分子鉴定
WO2007120208A2 (en) 2005-11-14 2007-10-25 President And Fellows Of Harvard College Nanogrid rolling circle dna sequencing
JP4789271B2 (ja) * 2005-12-02 2011-10-12 シンセティック ゲノミクス、インク. エラーが最小化された核酸分子の合成
CN101415839B (zh) * 2006-02-08 2012-06-27 亿明达剑桥有限公司 对多核苷酸模板进行测序的方法
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
US20080242560A1 (en) * 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
KR100777230B1 (ko) * 2006-11-30 2007-11-28 한국해양연구원 써모코커스 유래 돌연변이 dna 중합효소들 및 그의유전자들
EP2245198A1 (en) 2008-02-04 2010-11-03 Massachusetts Institute of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
US8034568B2 (en) * 2008-02-12 2011-10-11 Nugen Technologies, Inc. Isothermal nucleic acid amplification methods and compositions
US20090291475A1 (en) 2008-04-23 2009-11-26 Kai Qin Lao Sequence amplification with linear primers
US8993230B2 (en) 2008-12-04 2015-03-31 Pacific Biosciences of Californ, Inc. Asynchronous sequencing of biological polymers
EP2607496B1 (en) * 2008-12-23 2014-07-16 Illumina, Inc. Methods useful in nucleic acid sequencing protocols
WO2010141390A2 (en) * 2009-06-05 2010-12-09 Life Technologies Corporation Nucleotide transient binding for sequencing methods
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
US8674086B2 (en) * 2010-06-25 2014-03-18 Intel Corporation Nucleotides and oligonucleotides for nucleic acid sequencing
CN103429754B (zh) 2010-09-23 2016-08-10 桑特里莱恩科技控股公司 天然延伸平行测序
EP2670894B1 (en) 2011-02-02 2017-11-29 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
US20190360034A1 (en) * 2011-04-01 2019-11-28 Centrillion Technology Holdings Corporation Methods and systems for sequencing nucleic acids
US20120252682A1 (en) 2011-04-01 2012-10-04 Maples Corporate Services Limited Methods and systems for sequencing nucleic acids
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
WO2015017759A1 (en) 2013-08-02 2015-02-05 Stc.Unm Dna sequencing and epigenome analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097626A2 (en) * 2008-02-03 2009-08-06 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis

Also Published As

Publication number Publication date
US9689032B2 (en) 2017-06-27
WO2012134602A3 (en) 2013-12-27
EP2694679A2 (en) 2014-02-12
US20120252682A1 (en) 2012-10-04
US10801062B2 (en) 2020-10-13
US20140315724A1 (en) 2014-10-23
US20140065604A1 (en) 2014-03-06
CN103917654A (zh) 2014-07-09
EP2694679A4 (en) 2014-10-22
US20210180123A1 (en) 2021-06-17
WO2012134602A2 (en) 2012-10-04
HK1200492A1 (zh) 2015-08-07

Similar Documents

Publication Publication Date Title
CN103917654B (zh) 用于对长核酸进行测序的方法和系统
US10167506B2 (en) Method of sequencing nucleic acid colonies formed on a patterned surface by re-seeding
US20190360034A1 (en) Methods and systems for sequencing nucleic acids
Van Dijk et al. Ten years of next-generation sequencing technology
US20210024996A1 (en) Method for verifying bioassay samples
US20140357497A1 (en) Designing padlock probes for targeted genomic sequencing
CA3114759A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
Myllykangas et al. Targeted deep resequencing of the human cancer genome using next-generation technologies
Masoudi-Nejad et al. Emergence of Next-Generation Sequencing
US11578320B2 (en) High density sequencing and multiplexed priming
Zıplar et al. Genomic and Transcriptomic Sequencing and Analysis Approaches
Udayaraja Personal diagnostics using DNA-sequencing
Chikara et al. 10 Functional Genomics: Current

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1200492

Country of ref document: HK

CB02 Change of applicant information

Address after: The British Grand Cayman

Applicant after: Sheng Jie Technology Holdings Ltd.

Address before: The British Grand Cayman

Applicant before: Centrillion Technology Holding Corp.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1200492

Country of ref document: HK