CN101932729A - 测序反应中碱基的有效确定 - Google Patents

测序反应中碱基的有效确定 Download PDF

Info

Publication number
CN101932729A
CN101932729A CN2008801260526A CN200880126052A CN101932729A CN 101932729 A CN101932729 A CN 101932729A CN 2008801260526 A CN2008801260526 A CN 2008801260526A CN 200880126052 A CN200880126052 A CN 200880126052A CN 101932729 A CN101932729 A CN 101932729A
Authority
CN
China
Prior art keywords
adapter
nucleic acid
probe
target nucleic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2008801260526A
Other languages
English (en)
Other versions
CN101932729B (zh
Inventor
拉多杰·德玛纳克
马修·卡洛
安德鲁·斯帕克斯
弗雷德里克·达尔
克里福德·雷德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Complete Genomics Inc
Original Assignee
Callida Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/265,593 external-priority patent/US7901890B2/en
Priority claimed from US12/266,385 external-priority patent/US7897344B2/en
Application filed by Callida Genomics Inc filed Critical Callida Genomics Inc
Priority to CN201310051522.XA priority Critical patent/CN103290106B/zh
Publication of CN101932729A publication Critical patent/CN101932729A/zh
Application granted granted Critical
Publication of CN101932729B publication Critical patent/CN101932729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及核酸鉴定和检测的组合物及方法。本发明的组合物及方法包括从样品中提取靶核酸并进行片段化,利用片段化的靶核酸产生靶核酸模板并将这些靶核酸模板经扩增方法形成核酸纳米球。发明还涉及利用包括连接法测序的各种测序应用来检测和鉴定序列的方法。

Description

测序反应中碱基的有效确定
相关申请的交叉引用
本申请要求2007年12月5日提交的美国专利申请60/992,485、2008年2月5日提交的61/026,337、2008年3月12日提交的61/035,914、2008年6月13日提交的61/061,134、2008年11月19日提交的61/116,193、2008年10月3日提交的61/102,586、2008年11月5日提交的12/265,593以及2008年11月6日提交的12/266,385的优先权,上述专利申请均通过引用全文并入本文。
发明背景
大规模基因组序列分析是有助理解多种生物现象的一个关键步骤。对低费用、高通量的测序和再测序的需求导致了新的测序方法的开放,这些方法采用了同时对多个核酸目标物的平行分析。
常规的测序方法通常局限于在信号明显降解之前可以确定几十个核苷酸,因此整个测序效率受到很大的限制。常规测序方法还经常受限于信噪比,使得这类方法不适合用于单分子测序。
如果可以设计出能够提高测序反应效率以及由较短阅读长度组装成完整序列的效率的方法和组合物,整个领域将获益良多。
发明概述
相应地,本发明提供了测序反应方法和组合物。
本发明的一个方面提供了确定靶核酸的序列的方法。该方法包括以下步骤:(a)提供测序模板,所述模板包含靶核酸片段和含有至少第一锚定位点(anchor site)的衔接子(adaptor);(b)使锚定探针杂交至锚定位点,所述锚定探针包含与衔接子位点互补的区域以及三个或更多个结合靶核酸序列的简并碱基;(c)与测序探针集合进行杂交以便确定相对衔接子的确定位点中的一或多个核苷酸的序列,其中所述测序探针被可检测地标记从而可以鉴定到存在的特定碱基;(d)连接锚定探针和测序探针;和(e)检测测序探针,从而确定靶核酸的序列。
本发明另一方面提供了确定包含多个检测位点的靶序列中某个检测位点的第一核苷酸的身份的方法。该方法包括以下步骤:(a)提供带有多个多联体(concatemers)的表面,其中每个多元体包含多个单体,每个单体包含:(i)包含第一组靶检测位点的靶序列的第一靶结构域;(ii)至少第一衔接子,其包含(1)第一锚定位点和(2)第二相邻锚定位点;(b)使第一锚定探针杂交至第一锚定位点;(c)使第二锚定探针杂交至第二锚定位点,其中第二锚定探针还与第二锚定位点之外的序列杂交;(d)使至少第一测序探针与第一靶结构域杂交,其中所述第一测序探针包含:(i)与靶结构域互补的第一探针结构域;(ii)位于第一询问位点的独特核苷酸;以及(iii)标记物;杂交条件是如果所述独特核苷酸与第一核苷酸互补,则测序探针与多元体杂交;(e)连接锚定探针和测序探针;和(f)鉴定第一核苷酸。
附图简述
图1示意了将核酸碎成片段的方法的实施方案。
图2示意了与长片段阅读(LFR)技术相关的本发明实施方案。图2A显示了通过标准多重置换扩增法(MDA)将核酸碎成片段的方法。图2B显示通过利用5’核酸外切酶进行的多重置换扩增法将核酸碎成片段的方法。图2C是整个LFR过程的实施方案的示意图。
图3示意了用于发明所述方法的条形码衔接子设计的实施方案。
图4示意了利用切口平移法将核酸碎成片段的发明实施方案。
图5示意了可以用于本发明的实施方案的衔接子。图5A提供了四种不同的衔接子序列。图5B显示了本发明的衔接子设计中可以包含的不同成分。
图6示意了本发明中制备包含多个衔接子的环状核酸模板的实施方案。
图7示意了本发明中控制衔接子插入靶核酸的方向的实施方案。
图8示意了示范性的实施方案,其中衔接子和靶核酸分子可以以不同方向相互连接。
图9示意了组装发明所述核酸模板的方法的一个方面。
图10示意了可以用于控制衔接子插入靶核酸的方式的衔接子成分。
图11示意了将衔接子插入靶核酸的臂连臂连接过程的实施方案。图11A显示了臂连臂连接过程的示范性实施方案,图11B显示了用于该过程的衔接子臂的示范性成分。
图12示意了可能的衔接子插入方向。
图13示意了切口平移连接法的一个实施方案。
图14示意了插入多个衔接子的方法的一个实施方案。
图15示意了切口平移连接法的一个实施方案。
图16示意了切口平移连接法的一个实施方案。
图17示意了利用切口平移环反转(nick translation circle inversion)(图17A)以及切口平移环反转结合尿嘧啶降解(图17B)进行的切口平移连接法的一个实施方案。
图18示意了切口平移连接法的实施方案。
图19示意了插入多个衔接子的方法的一个实施方案。
图20示意了插入多个衔接子的方法的一个实施方案。
图21示意了插入多个衔接子的方法的一个实施方案。
图22示意了插入多个衔接子的方法的一个实施方案。
图23示意了复合探针-锚定分子连接法的一个实施方案。
图24示意了复合探针-锚定分子连接法的一个实施方案。
图25示意了复合探针-锚定分子连接法的一个实施方案。
图26示意了复合探针-锚定分子连接法的一个实施方案。
图27的图形是利用双重复合在特定位点每个碱基达到的荧光强度水平。
图28的图形是利用复合探针-锚定分子连接法在被询问位点获得的数据拟合度打分。
图29的图形是利用单一和双重复合探针-锚定分子连接法在不同时间点单个碱基询问获得的荧光强度水平。
图30的图形是利用单一复合探针-锚定分子连接法在不同时间点单碱基询问获得的数据拟合度打分。
图31的图形是与单一复合探针-锚定分子连接法相比,利用多种第二锚定探针在双重复合探针-锚定分子连接法中,不同位点达到的荧光强度水平。
图32的图形是与单一复合探针-锚定分子连接法相比,利用多种第二锚定探针在双重复合探针-锚定分子连接法中,不同位点获得的数据拟合度打分。
图33的图形显示了与单一复合探针-锚定分子连接法相比,利用多种第二锚定探针在双重复合探针-锚定分子连接法中,不同位点获得的荧光强度水平。
图34的图形显示了利用各种不同长度的第一锚定探针在双重复合探针-锚定分子连接法中,不同位点得到的数据拟合度打分。
图35的图形显示了在有激酶的情况下,于不同温度利用双重复合探针-锚定分子连接法,特定位点上每个碱基得到的荧光强度水平。
图36的图形显示了在有激酶的情况下,于不同温度利用双重复合探针-锚定分子连接法,特定位点得到的数据拟合度打分。
图37的图形显示了在有激酶的情况下,不同激酶保温时间下,利用双重复合探针-锚定分子连接法,特定位点上每个碱基得到的荧光强度水平。
图38的图形显示了在有激酶的情况下,不同激酶保温时间下,利用双重复合探针-锚定分子连接法,特定位点得到的数据拟合度打分。
发明详述
除非另外说明,可以采用有机化学、高分子技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学领域内的常规技术和描述来实施本发明。这些常规技术包括高分子阵列合成、杂交、连接和利用标记物检测杂交。参考下文中的实施例可以得到对适宜技术的详尽阐述。当然也可以使用其他等同的常规程序。这类常规技术和描述可见于标准的实验室手册,比如Genome Analysis:A Laboratory Manual Series(Vols.I-IV)、Using Antibodies:A Laboratory Manual、Cells:A Laboratory Manual、PCR Primer:ALaboratory Manual以及Molecular Cloning:A Laboratory Manual(均由Cold Spring Harbor Laboratory Press出版)、Stryer,L.(1995)Biochemistry(4th Ed.)Freeman,New York、Gait,“Oligonucleotide Synthesis:A Practical Approach”1984,IRL Press,London、Nelson and Cox(2000),Lehninger,Principles ofBiochemistry 3rd Ed.,W.H.Freeman Pub.,New York,N.Y.以及Berg et al.(2002)Biochemistry,5th Ed.,W.H.Freeman Pub.,New York,N.Y.,全部通过引用并入本文。
注意本文中和随附的权利要求中,单数形式的“一个/一种”(″a″、″an″和″the″)包括复数指称对象,除非上下文清楚地另有说明。因此,例如,提及“聚合酶”是指一种试剂或者这类试剂的混合物,提及“方法”包括本领域技术人员已知的等同步骤和方法,等等。
除非另外定义,文中使用的所有技术和科学名词与本发明所属领域的普通技术人员通常理解的含义相同。文中提及的所有出版物通过引用并入本文,以便于描述和公开这些出版物中描述过的并且可能用在这里描述的发明中的装置、组合物、制剂和方法学。
在提供了数值范围的情况中,应当理解为除非上下文清楚地另有说明,该范围中上限和下限之间的每个居间数值,到该下限的第十个单位处,以及所声称的范围内的任何其他提到的数值或居间数值,均包含在发明内。这些较小范围的上限和下限可以独立包含在这些较小范围内,它们也涵盖在本发明内,受限于所述范围中任何具体排除的限值。当所声称的范围包括上下限之一或两者时,排除了上下限之一种或两者的范围也涵盖在本发明内。
在以下描述中,给出了大量细节以便更全面地理解本发明。但是,对本领域技术人员,很显然可能不需要这些细节中的一种或多种即可实施本发明。其他情况中,那些本领域技术人员熟知的特性和程序未做描述以避免使本发明含混不清。
尽管主要通过参考具体的实施方案对本发明进行了描述,可以想象得到在阅读了本公开文本后,其他实施方案对本领域技术人员也将是显而易见的,在本发明方法中也意图包含这类实施方案。
I.概述
本发明涉及用于核酸鉴定和检测的组合物和方法,如本文所述,这些组合物和方法在大量应用中都有用途。
利用本发明的组合物和方法给靶核酸测序的完整方法包括从样品中提取靶核酸并使之碎成片段。片段化的合适被用于制备通常包含一或多个衔接子的靶核酸模板。将靶核酸模板用于扩增方法以形成核酸纳米球,这些纳米球一般被安置在表面上。在本发明的核酸纳米球上进行测序应用,通常是通过包括复合探针-锚定分子连接(“cPAL”)法的连接技术进行的测序,这在下文中有更详细的描述。cPAL和其他测序方法还可以用于检测特定序列,例如本发明的核酸构建体(包括核酸纳米球和线性以及环状的核酸模板)中的单核苷酸多态性(“SNPs”)。
II.制备基因组核酸片段
如下文进一步讨论的,本发明的核酸模板包含靶核酸和衔接子。为了获得用于构建本发明的核酸模板的靶核酸,本发明提供了从样品中获取基因组核酸的方法,以及将这些基因组核酸片段化的方法,片段化得到的片段将被用在构建本发明的核酸模板的后续方法中。
IIA.制备基因组核酸片段的概述
利用本领域已知的方法可以从样品中获取靶核酸。可以理解,样品可能包含任何数量的物质,包括但不限于,体液(包括但不限于几乎任何生物体的血液、尿、血清、淋巴液、唾液、肛门和阴道分泌物、汗和精液,优选哺乳动物样品,尤其优选人的样品);环境样品(包括但不限于,空气、农业、水和土壤样品);生物战剂样品;研究样品(即,对于核酸,样品可以是扩增反应的产物,包括象PCT/US99/01705中大概描述的目标和信号扩增,比如PCR扩增反应的产物);纯化的样品,比如纯化的基因组DNA、RNA、蛋白等;粗样品(细菌、病毒、基因组DNA等),正如本领域技术人员能够理解的,可以对样品进行几乎任何试验操作。一个方面中,本发明的核酸构建体形成自基因组DNA。在某些实施方案中,基因组DNA从全血或来自全血或细胞培养物的细胞制备物中获得。
在示范性实施方案中,基因组DNA分离自靶生物体。“靶生物体”意味着目标生物体,正如可以理解的,该名词包含可以从中获得核酸的任何生物体,尤其是哺乳动物,包括人,尽管在某些实施方案中,靶生物体是病原体(例如要检测细菌或病毒感染时)。由靶生物体获得核酸的方法是本领域已知的。包含人基因组DNA的样品在许多实施方案中都有用。在某些方面,比如全基因组测序,优选获得等同于大约20个到约1,000,0000或更多个基因组的DNA以保证靶DNA片段群足以涵盖整个基因组。获得的基因组等同物的数量可能部分取决于本发明中进一步制备基因组DNA片段所使用的方法。例如,在下文中进一步描述的长片段阅读法中,通常使用约20到约50个基因组的等同物。对于同样在下文进一步描述的利用多重置换扩增的方法,通常使用约1000到约100,000个基因组的等同物。对于那些在片段化前不进行扩增的方法,使用大约100,000到大约1,000,000个基因组的等同物。
利用常规技术,例如Sambrook and Russell,Molecular Cloning:ALaboratory Manualcited(同前)中公开的技术分离靶基因组DNA。然后通过包括酶消化、剪切或超声波破碎的常规技术(后两种技术尤其适用于本发明)将靶基因组DNA分割或者片段化。
靶核酸的片段大小根据所来源的靶核酸以及使用的文库构建方法而不同,但一般长度在50到600个核苷酸的范围内。在另一个实施方案中,片段长300到600个或者200到2000个核苷酸。在再一个实施方案中,片段长10-100、50-100、50-300、100-200、200-300、50-400、100-400、200-400、300-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000和50-2000个核苷酸。
在另一个实施方案中,分离特定大小或特定大小范围内的片段。这类方法是本领域已知的。例如,可以利用凝胶分级来制备某碱基对范围内特定大小的片段群,例如500碱基对±50碱基对。
许多情况中,不需要对提取的DNA进行酶消化,因为裂解和提取过程中形成的剪切力会产生所需大小范围的片段。在另一个实施方案中,可以利用限制性内切核酸酶通过酶片段化产生较短的片段(1-5kb)。在再一个实施方案中,等同大约10到约1,000,000个基因组的DNA保证片段群覆盖整个基因组。因此含有由这些片段群产生的核酸模板的文库将包含靶核酸,而所述靶核酸的序列一经鉴定和组装能够提供整个基因组的大部分或全部序列。
某些情况中,当仅有少量样品DNA并且还有可能由于与例如容器壁等的非特异结合而损失DNA时,提供载体DNA(例如无关的环状合成双链DNA)与样品DNA混合并使用是有益的。
一个实施方案中,DNA在片段化后被变性从而产生单链片段。
一个实施方案中,片段化后(实际上在本文概括的任何步骤之前或之后),可以对片段化的核酸群进行扩增步骤以保证全部片段有足够大的浓度提供给随后的步骤,以产生本发明的修饰的核酸和利用这些核酸获取序列信息。这类扩增方法是本领域已知的,包括但不限于聚合酶链式反应(PCR)、连接酶链式反应(有时被称为寡核苷酸连接酶扩增OLA)、环状探针技术(CPT)、链置换法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及有创切割技术(invasive cleavage technology)。
另一个实施方案中,片段化后,将靶核酸进一步修饰以备根据发明所述方法给它们插入多个衔接子。需要进行这类修饰是因为片段化的过程有可能使产生的靶核酸所带有的末端无法进行插入衔接子要使用的程序,尤其是使用诸如连接酶和聚合酶的酶类。对于文中概述的所有步骤,这个步骤是任选的,可以与任何步骤组合。
在示范性实施方案中,物理片段化后,靶核酸经常含有平末端和突出末端的组合,以及磷酸和羟基化学物质末端。在该实施方案中,靶核酸用几种酶处理从而形成带有特定化学物质的平末端。在一个实施方案中,利用聚合酶和dNTPs将突出末端的5’单链填平形成平末端。用具有3’核酸外切酶活性的聚合酶(通常但也不总是与具有5’核酸外切酶活性的聚合酶是一样的,比如T4聚合酶)除去3’突出端。合适的聚合酶包括,但不限于T4聚合酶、Taq聚合酶、大肠杆菌DNA聚合酶1、Klenow片段、逆转录酶、Φ29相关的聚合酶(包括野生型Φ29聚合酶和该聚合酶的衍生物)、T7DNA聚合酶、T5DNA聚合酶、RNA聚合酶。这些技术可以用于产生具有多种用途的平末端。
在另外的任性实施方案中,末端的化学物被改变以避免靶核酸相互连接。例如,除了聚合酶,还可以在产生平末端的过程中使用蛋白激酶,利用其3’磷酸酶活性将3’磷酸基团转化为羟基基团。这类激酶包括但不限于诸如T4激酶的商品激酶,以及还没有商业产品但具有所需活性的激酶。
类似地,可以利用磷酸酶将末端的磷酸基团转化为羟基基团。合适的磷酸酶包括,但不限于碱性磷酸酶(包括小牛肠碱性磷酸酶(CIP))、Antarctic Phosrphatase、腺苷三磷酸双磷酸酶(Apyrase)、焦磷酸酶、无机(酵母)热稳定无机焦磷酸酶等,这些酶是本领域已知的,并且可以从例如New England Biolabs购买到。
如图16所示,这些修饰能够防止靶核酸在发明所述方法中后面的步骤里相互连接,因此保证了在将衔接子(和/或衔接子臂)连接到靶核酸末端的步骤中,靶核酸会与衔接子而不是其他靶核酸连接。优选靶核酸1601和1602与衔接子1603和1604以所需方向连接(如该图所示,所需方向是那种具有相同形状(圆形或方形)的末端连接在一起的方向)。将末端修饰以避免不希望的构型1607、1608、1609和1610,这几种构型中靶核酸相互连接,衔接子相互连接。此外,如下文将详细讨论的,还可以通过控制衔接子和靶核酸末端的化学物质来控制每次衔接子-靶核酸连接的方向。控制末端化学成分可以通过本领域已知的和本文描述的方法来实现。
本领域技术人员可以理解,对于文中概述的所有步骤,可以任何方式地组合使用这些步骤和酶。例如,某些酶法片段化技术,比如使用限制性内切酶,可能使得这些酶法“末端修补”步骤中的一种或多种成了多余的。
以上描述的修饰可以防止形成含有以未知构型连接的不同片段的核酸模板,因此减少了和/或消除了由这类不希望的模板造成的序列鉴定和组装中的错误。
某些情况中,级联片段化方法与本文描述的任意酶学或机械片段化方法组合使用。这类方法在美国专利申请11/451,692和已出版的PCT申请WO 2006/138284中有描述,这两份文献通过引用全部并入本文,尤其是与级联片段化相关的所有教导。
在某些实施方案中,受控的随机酶促(“CoRE”)片段化方法被用于制备发明中使用的片段。CoRE片段化是酶促终点法,具有酶学片段法的优点(比如可以用于低量和/或小体积),而没有它的许多缺陷(包括对底物或酶浓度变化的敏感性以及对消化时间的敏感性)。简而言之,CoRE片段化涉及一系列的三个酶促步骤,如图1所示。首先,在有dNTPs的情况下,将核酸101进行酶催化的多重置换扩增(MDA),其中dNTPs中加入了与dTTP成一定比例的dUTP或UTP。这导致扩增产物的两条链上的T以一定的和可控的比例被脱氧尿嘧啶(“dU”)或尿嘧啶(“U”)所取代(103)。然后一般是通过UDG、EndoVIII和T4PNK联用将U部分切除(104),产生带有功能性5’磷酸和3’羟基端的单碱基缺口(105)。产生单碱基缺口的平均间隔由MDA产物中U的出现频率决定。用聚合酶处理带有缺口的核酸(105)导致切口平移直至相反链上的切口汇合到一点,从而形成双链断裂,得到大小相对匀一的双链片段群(107)。因为双链片段(107)的大小分布是由MDA反应中使用的dTTP与DUTP或UTP的比率决定的,而不是酶处理的时长或程度决定的,这种CoRE片段化方法的片段化具有高度重复性。
在某些情况中,尤其是希望分离到长片段(比如长约150到约750kb)的情况,本发明提供的方法中细胞被裂解,通过温和的离心步骤将完整细胞核沉淀。经由利用例如蛋白酶K和RNase消化几小时的酶消化释放基因组核酸,通常是基因组DNA。然后将得到的物质过夜透析或者直接稀释以降低残留细胞废物的浓度。由于这类分离核酸的方法不包含许多破坏性的过程(比如乙醇沉淀、离心和漩涡混匀),基因组核酸可以保持基本完整,得到多数超过150kb的片段。
某些情况中,与上面描述的片段化方法组合,本发明还提供了将基因组核酸片段群分成小份的方法,这就使得能够重构二倍体基因组,例如鉴定父本和母本染色体或序列。这比现有技术具有明显优势。
在该实施方案中,将基因组片段分成小份,使核酸被稀释到每份含有大约10%单倍体基因组的浓度。在这一稀释水平,每个特定小份中大约95%的碱基对是没有重叠的。这种分小份的方法,文中又称为长片段阅读(LFR)片段化方法,在特定实施方案中可以用于根据以上和文中进一步描述的方法分离到的大分子量的片段。图2C中示意了LFR方法的一个实例。LFR通常一开始是用5’核酸外切酶将基因组核酸,一般是基因组DNA做短时处理,产生3’单链突出。这种单链突出作为多重置换扩增(MDA)的起始位点(图2A)。然后将5’核酸外切酶处理过的DNA稀释到亚基因组浓度,分成许多小份,一般是分到多孔板上的多个孔中。将每个孔中的片段扩增,一般是利用标准MDA法(图2A)和/或使用核酸外切酶的MDA法(图2B)。某些情况中,扩增方法给片段引入了尿嘧啶部分,因此在扩增后可以利用以上描述的CoRE方法将每个孔中的片段进一步片段化。还可以通过超声波或酶处理将MDA产物片段化。一般来说,MDA产物片段化后,将所得片段的末端通常用T4聚合酶和T4多核苷酸激酶修复。然后用碱性磷酸酶处理片段,给片段带上衔接子标签。通常,标签衔接子臂被设计成有两个区段,一个区段是所有孔共有的,利用文中进一步描述的方法直接通过平末端连接与片段连接。第二个区段是每个孔特有的,含有“条形码”序列,因此当每个孔的内容物结合起来,可以鉴定出每个孔的片段。图3显示了发明这一方面,可以给片段添加的某些示范性的条形码衔接子。
某些情况中,利用LFR方法分析单个细胞的基因组。这种情况中分离DNA的过程与以上描述的方法类似,但在更小体积进行。DNA一旦分离好,在分到各个小孔之前,必须小心地将基因组DNA片段化以避免材料的损失,特别是避免丢失每个片段的末端序列,因为丢失这种材料会导致最后的基因组组装存在缺口。某些情况中,通过使用罕见切口酶来避免序列的丢失,所述切口酶产生相距大约100kb的聚合酶(比如phi29聚合酶)起始位点。随着聚合酶产生新的DNA链,旧链被置换,最后的结果是聚合酶起始位点附近存在着重叠序列(图4),使得序列缺少很少。
某些情况中,当仅有少量样品DNA并且还有可能由于与例如容器壁等的非特异结合而损失DNA时,提供载体DNA(例如无关的环状合成双链DNA)与样品DNA混合并使用是有益的。在一个实施方案中,片段化后将DNA变性从而产生单链片段。
在一个实施方案中,片段化后(实际上在本文概括的任何步骤之前或之后),可以对片段化的核酸群进行扩增步骤以保证全部片段有足够大的浓度提供给随后的步骤,以产生本发明的修饰的核酸和利用这些核酸获取序列信息。这类扩增方法是本领域已知的,包括但不限于聚合酶链式反应(PCR)、连接酶链式反应(有时被称为寡核苷酸连接酶扩增OLA)、环状探针技术(CPT)、链置换法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及有创切割技术。
在其他实施方案中,片段化后,将靶核酸进一步修饰以备根据发明所述方法给它们插入多个衔接子。需要进行这类修饰是因为片段化的过程有可能使产生的靶核酸所带有的末端无法进行插入衔接子要使用的程序,尤其是使用诸如连接酶和聚合酶的酶类。对于文中概述的所有步骤,这个步骤是任选的,可以与任何步骤组合。将片段修饰以备它与其他核酸分子定向连接的方法包括使用酶,比如聚合酶和磷酸酶来修饰片段的末端,从而使得它们只能以所需的方向与其他核酸分子连接。这类方法在文中有进一步描述。
IIB.CoRE片段化
正如以上讨论过的,用于本发明的片段化方法包括机械和酶促片段化方法,以及酶促和机械片段化方法的组合。许多机械和酶促片段化方法是本领域已知的。
本发明一个方面提供了文中称为可控随机酶促(CoRE)片段化法的片段化方法。文中描述的CoRE片段化方法可以单独使用或者与其他本领域已知的机械和酶促片段化方法组合使用。CoRE片段化涉及一系列的三个酶促步骤,如图1所示。首先,在有dNTPs的情况下,将核酸101进行酶催化的多重置换扩增(MDA),其中dNTPs中加入了一定比例的dUTP或UTP,导致扩增产物的两条链上的T以一定的和可控的比例被dUTP或UTP所取代(103)。有多种扩增方法可以用于发明的这个步骤,包括但不限于聚合酶链式反应(PCR)、连接酶链式反应(有时被称为寡核苷酸连接酶扩增OLA)、环状探针技术(CPT)、链置换法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及有创切割技术。在某些实施方案中,利用dNTPs中加入了与dTTP成一定比例的dUTP或UTP的多重置换扩增(MDA)来产生两条链上某些位点被dUTP或UTP取代的扩增产物(103)。
扩增并插入尿嘧啶部分后,一般是通过UDG、EndoVIII和T4PNK联用将尿嘧啶切除(104),产生带有功能性5’磷酸和3’羟基端的单碱基缺口(105)。产生单碱基缺口的平均间隔由MDA产物中U的出现频率所决定。这就是说,dUTP的量越高,所得片段越短。本领域技术人员可以理解,也可以使用其他能使核苷酸被某修饰核苷酸选择性地置换,从而导致类似切割的技术,例如对化学物质或其他酶易感的核苷酸。
用带有核酸外切酶活性的聚合酶处理带有缺口的核酸(105)导致切口沿着核酸“平移”或“移位”直至相反链上的切口汇合到一点,从而形成双链断裂,得到大小相对匀一的双链片段群(107)。聚合酶(比如Taq聚合酶)的核酸外切酶活性将毗邻切口的短DNA链切除,而聚合酶活性填上切口和该链中后续的核苷酸(基本上,Taq沿着链移动,利用核酸外切酶活性将碱基切除并添加相同的碱基,其结果就是切口沿链平移直至酶达到链末端)。
因为双链片段(107)的大小分布是由MDA反应中使用的dTTP与DUTP或UTP的比率决定的,而不是酶处理的时长或程度决定的,这种CoRE片段化方法的片段化具有高度重复性。因此,CoRE片段化产生全部类似大小的双链核酸片段群。
IIC.长片段阅读技术
本发明的长片段阅读(LFR)法基于对许多不同小份进行长基因组DNA片段的物理分离,以至于母本和父本成分中基因组的某给定区域同时出现在相同小份中的可能性非常低。通过在每个小份中放入独特的鉴别物,对许多小份进行分析,归结起来可以由DNA长片段组装出二倍体基因组,例如,可以提供每个亲代染色体的序列,因此比现有技术具有明显的优越性。虽然本文中的讨论集中在利用DNB阵列和连接法测序的LFR方法的应用上,但应当明白这些LFR方法可以与各种其他阵列和其他测序方法一起使用,从而将二倍体基因组以两个分开的单倍体基因组测序。这将有助于家族性遗传病的鉴定等方面。
为了将片段恰当地分开,一般要将DNA稀释成每份大约10%单倍体基因组的浓度(图2C)。在这样的浓度,小份中95%的碱基对没有重叠。这样的稀释达到的统计学上的分离可以使得母本和父本片段通常落在不同小份中(图2C,第二个图块)。应当明白,稀释因子可能取决于片段的原始大小。即,利用温和的技术来分离基因组DNA,可以得到大概100kb的片段,这些片段然后被分成小份。能够产生较大片段的技术需要更少小份,而产生较短片段的技术可能需要更大稀释度。
在某些实施方案中,每个小份中的片段被扩增,而在其他实施方案中,每个小份中的片段被进一步片段化,然后标记上衔接子,这样同一小份中的片段全部包含相同的标记衔接子;参见例如US 2007/0072208,该文献通过引用全部并入本文,尤其可以参考其中关于进一步分小份和覆盖度的讨论。
许多实施方案中,每个小份包含在多孔板(例如,384孔板)的单独小孔中。应当明白,虽然以下关于LFR的讨论针对多孔板的情况,但可以使用任何数量的不同类型的容器和系统来容纳该方法中产生的不同小份。这类容器和系统是本领域已知的,本领域技术人员很容易知道什么类型的容器和系统适合用于发明的这一方面。
诸如以上的讨论,可以通过多种不同方法从细胞中分离基因组核酸的长片段。在一个实施方案中,细胞被裂解,以温和的离心步骤将完整细胞核沉淀。然后通过蛋白酶K和RNase消化几小时释放基因组DNA。在某些实施方案中,然后可以处理材料以降低存留细胞废物的浓度-这类处理在本领域是公知的,可以包括但不限于透析一段时间(即,2-16小时)和/或稀释。因为这类分离核酸的方法不包括许多破坏性过程(比如乙醇沉淀、离心和涡旋混匀),基因组核酸基本上保持完整,产生的片段大部分长度超过150kb。某些实施方案中,片段长度在大约100到750kb。其他实施方案中,片段长度在大约150到大约600、大约300到大约600、大约200到大约500、大约250到大约400、以及大约300到大约350kb。
图2中示意了LFR方法的一个实例。通常LFR开始是用5’核酸外切酶短时处理基因组核酸,一般是基因组DNA,从而产生3’单链突出。这种单链突出可以作为MDA起始部位(图2)。使用核酸外切酶还免除了在扩增前需要加热或碱变性的步骤,不会再次给片段群体引入偏向性。在某些实施方案中,碱变性与5’核酸外切酶处理联用,这样偏向性的降低程度比单独使用其中任一种处理降低得大。
经过5’核酸外切酶和任选的碱变性处理的DNA然后可以稀释到亚基因组浓度,分散到大量小份中,通常是多孔板的许多小孔中。某些实施方案中,多孔板的每个小孔中分到等同于10%基因组的量。如果使用的是384孔板,每孔中分到等同于10%基因组的量导致每个微量板共包含38个基因组。在其他实施方案中,每个孔中分到等同于5-50%基因组的量。正如上文提到的,小份的数量和基因组等同物可能要取决于最初的片段大小。
分离到多个孔后,通常利用MDA方法将每个孔中的片段扩增。在特定实施方案中,所述MDA反应是经过改良的基于Phi29聚合酶的扩增反应。虽然本文中的讨论主要是就MDA反应而言,本领域技术人员可以理解,许多不同种类的扩增反应可以用于本发明,这些扩增反应是本领域公知的,在Maniatis et al.,Molecular Cloning:A Laboratory Manual,2d Edition,1989和Short Protocols in Molecular Biology,ed.Ausubel,et al.(通过引用并入本文)中有概述。
在某些实施方案中,设计MDA反应使得扩增产物中被引入尿嘧啶。某些实施方案中,利用标准MDA反应来扩增每孔中的片段,所述MDA反应中采用随机六聚体。许多实施方案中,利用随机8聚体引物,而不是随机六聚体来减少片段群体中的扩增偏向性。其他实施方案中,还可以给MDA反应中加入几种不同的酶来减少扩增偏向性。例如,可以利用低浓度的非进行性5’核酸外切酶和/或单链结合蛋白来产生8聚体的结合位点。还可以利用诸如甜菜碱、DMSO或海藻糖的化学试剂通过类似的机制减少偏向性。
扩增各孔中的片段后,在许多实施方案中扩增产物随后进行再一轮的片段化。某些实施方案中在扩增后使用以上描述的CoRE方法将每个孔中的片段进一步片段化。正如以上讨论过的,为了使用CoRE方法,用于扩增各孔中的片段的MDA反应被设计成能够给MDA产物引入尿嘧啶。MDA产物的片段化还可以通过超声波处理或酶处理来实现。这个实施方案中可以使用的酶处理包括,但不限于使用DNase I、T7核酸内切酶I、微球菌核酸酶等。
某些实施方案中,当利用CoRE方法将MDA产物片段化时,用尿嘧啶DNA糖基化酶(UDG)、DNA糖基化酶-裂解酶核酸内切酶VIII和T4多核苷酸激酶混合物处理含有MDA产物的各个孔,从而切除尿嘧啶碱基,产生带有功能性5’磷酸和3’羟基基团的单碱基缺口。通过利用诸如Taq聚合酶的聚合酶经切口平移产生双链平末端断裂,得到可以进行连接的片段,其大小取决于MDA反应中加入的dUTP浓度。某些实施方案中,所用CoRE方法包括通过聚合反应去除尿嘧啶,以及经phi29进行的链置换(参见图4)。
一般来说,MDA产物被片段化后,要将得到的片段的末端修复。这类修复之所以必要,是因为许多片段化技术会产生在之后的连接反应中没有用的带有突出端的末端和带有功能性基团的末端,比如3’和5’羟基基团和/或3’和5’磷酸基团。在本发明的许多方面,经修复带有平末端的片段是有用的,某些情况中,可能希望改变末端的化学属性使得没有处于正确方向的磷酸和羟基基团,从而防止靶序列的聚合。可以利用本领域已知的方法来控制末端的化学属性。例如,某些情形中,可以用磷酸酶除去所有的磷酸基团,因此全部末端含有羟基基团。然后可以选择性地改变每个末端以便所希望的成分之间发生连接。然后片段的一个末端可以被活化,在某些实施方案中,这是通过用碱性磷酸酶进行处理。许多实施方案中,片段随后被标记上衔接子。一般来说,可以利用这些标签衔接子来鉴定来自LFR方法中同一小孔的片段。
图3提供了用于LFR方法作为标签的衔接子设计的某些实施方案的示意图。通常,衔接子被设计为两个区段,一个区段是所有小孔共有的,利用文中进一步描述的方法与片段直接平末端连接。在图3显示的实施方案中,添加的“共有”衔接子具有两个衔接子臂-一个臂与片段的5’端平末端连接,另一个臂与片段的3’末端平末端连接。标签衔接子的第二个区段是每个小孔独特的“条形码”区段。该条形码通常是一个独特的核苷酸序列,特定小孔中的每个片段被给予相同的条形码。然后,当来自所有小孔的标签片段被重新合并在一起进行测序时,可以通过鉴定条形码衔接子来鉴定来自相同小孔的片段。在图3示意的实施方案中,条形码被连接到共有衔接子臂的5’端。共有衔接子和条形码衔接子可以顺序或者同时连接至片段。正如文中将进一步详细地描述的那样,可以修饰共有衔接子和条形码衔接子的末端使得每个衔接子区段可以连接成正确的方向并与合适的分子连接。这类修饰通过确保片段不会相互连接,并且衔接子区段只能以示意的方向连接,从而防止衔接子区段的“聚合”。
在其他实施方案中,用于给每个小孔中的片段标记的衔接子可以采用三区段设计。该实施方案与上面描述的条形码衔接子设计类似,除了条形码衔接子区段被分成两个区段(参见图3)。通过将不同条形码区段连接在一起形成全长条形码区段因此产生组合条形码衔接子区段,该设计允许更多可能的条形码。这种组合设计提供了更大的可能条形码衔接子库,而减少了需要产生的全长条形码衔接子的数量。
每个小孔中的片段被标记后,将所有片段合并形成单个群体。然后如下文更详细描述的,可以利用这些片段产生本发明的核酸模板。由这些带标签片段产生的核酸模板可以通过每个片段上附着的条形码标签衔接子鉴定出属于哪个特定小孔。
某些情况中,利用LFR方法来分析少量细胞,包括单个细胞的基因组。这种情况中分离DNA的过程与以上描述的方法类似,但是在更小体积中进行。一旦分离到DNA,在将样品分份到单个小孔中之前,必须仔细将基因组DNA片段化以避免材料的损失,特别是避免损失每个片段的末端序列,因为丢失这类材料会导致最终的基因组组装中出现缺口。某些情况中,通过使用罕见切口酶来避免序列丢失,这种切口酶产生各自相隔大约100kb距离的聚合酶(比如phi29聚合酶)起始位点。随着聚合酶产生新的DNA链,它将取代旧链,最终的结果是聚合酶起始部位附近存在重叠的序列(图4),使得序列缺失非常少。在其他实施方案中,可以按照以上描述的方法,然后将DNA稀释并分到多个小孔中。某些实施方案中,有控制地使用5’核酸外切酶(MDA反应之前或反应中)可以促进来自单细胞的原始DNA的多重复制,从而减少早期错误通过拷贝的复制被传播。
应当明白,利用本领域已知的任何测序方法,本文描述的LFR方法可以用于将二倍体基因组测序。本文描述的LFR方法在其他实施方案中可以用于任何数量的测序平台,包括但不限于,例如GeneChip(Affymetrix)、CodeLink Bioarray(Amersham)、Expression Array System(Applied Biosystems)、SurePrint microarrays(Agilent)、Sentrix LD BeadChip或Sentrix Array Matrix(Illumina)和Verigene(Nanosphere)。
某些实施方案中,这里描述的LFR方法不包括多重水平或层次的片段化/分份,如2006年6月13日提交的美国专利申请11/451,692中描述的,该文献通过引用全文并入本文,特别是与片段化和核酸分份方法有关的教导。这就是说,某些实施方案中仅进行了单轮分份,并且允许将小份重新汇合用于单个阵列,而不是给每个小份使用单独的阵列。
III.本发明的核酸模板
本发明提供了包含靶核酸和多个散在分布的衔接子的核酸模板。通过在每个靶核酸中的多个位点插入衔接子组装出核酸模板构建体。分散的衔接子允许从靶序列的多个位点顺序或同时地获取序列信息。
名词“靶核酸”是指目的核酸。本发明的一个方面中,靶核酸是基因组核酸,虽然可以使用包括mRNA(及相应的cDNAs等)的其他靶核酸。靶核酸包括天然的或基因改变的或者合成制备的核酸(比如来自哺乳动物疾病模型的基因组)。靶核酸几乎可以从任何来源获得,也可以利用本领域已知的方法制备。例如,靶核酸可以不经扩增直接分离,通过利用本领域已知的方法经扩增分离,所述扩增方法包括但不限于聚合酶链式反应(PCR)、链置换法(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、滚环复制(RCR)和其他扩增方法。靶核酸还可以通过克隆获得,包括但不限于克隆到诸如质粒、酵母菌和细菌人工染色体的载体中。
在某些方面,靶核酸包含mRNAs或cDNAs。在特定实施方案中,靶DNA是利用从生物样品中分离的转录物产生的。同样如Genome Analysis:ALaboratory Manual Series(Vols.I-IV)or Molecular Cloning:A LaboratoryManual中描述的,分离的mRNA可以利用常规技术反转录成cDNAs。
靶核酸可以是具体指明的单链的或双链的,或者既含有双链又含有单链序列部分。根据具体应用,核酸可以是DNA(包括基因组和cDNA)、RNA(包括mRNA和rRNA)或者它们的混合体,在所述混合体核酸中含有脱氧核糖-和核糖核苷酸的任何组合,以及碱基的任何组合,包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等。
“核酸”或“寡核苷酸”或“多核苷酸”或者文中的语法等同名词意味着至少两个共价连接的核苷酸。本发明的核酸通常含有磷酸二酯键,尽管在某些情况中,如下文列出的(例如在引物和诸如标记探针的探针构建中),包含了可能含有替代的骨架的核酸类似物,例如包含磷酰胺(Beaucage et al.,Tetrahedron 49(10):1925(1993)及其中的参考文献;Letsinger,J.Org.Chem.35:3800(1970);Sprinzl et al.,Eur.J.Biochem.81:579(1977);Letsinger et al.,Nucl.Acids Res.14:3487(1986);Sawai et al,Chem.Lett.805(1984),Letsingeret al.,J.Am.Chem.Soc.110:4470(1988);和Pauwels et al.,Chemica Scripta26:14191986))、硫代磷酸酯(Mag et al.,Nucleic Acids Res.19:1437(1991);和美国专利5,644,048)、二硫代磷酸酯(Briu et al.,J.Am.Chem.Soc.111:2321(1989)、O-甲基磷酰胺酯键(参见Eckstein,Oligonucleotides and Analogues:APractical Approach,Oxford University Press)以及肽核酸(文中又称为“PNA”)骨架和键(参见Egholm,J.Am.Chem.Soc.114:1895(1992);Meier et al.,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlssonet al.,Nature 380:207(1996),所有这些文献均通过引用并入本文)。其他核酸类似物包括那些具有双环结构的,包括锁核酸(本文中又称为“LNA”),Koshkin et al.,J.Am.Chem.Soc.120:132523(1998);正电荷骨架(Denpcy etal.,Proc.Natl.Acad.Sci.USA 92:6097(1995);非离子性骨架(美国专利5,386,023、5,637,684、5,602,240、5,216,141和4,469,863;Kiedrowshi et al.,Angew.Chem.Intl.Ed.English 30:423(1991);Letsinger et al.,J.Am.Chem.Soc.110:4470(1988);Letsinger et al.,Nucleoside&Nucleotide 13:1597(1994);Chapters 2and 3,ASC Symposium Series 580,″Carbohydrate Modifications inAntisense Research″,Ed.Y.S.Sanghui and P.Dan Cook;Mesmaeker et al.,Bioorganic&Medicinal Chem.Lett.4:395(1994);Jeffs et al.,J.Biomolecular NMR 34:17(1994);Tetrahedron Lett.37:743(1996))以及非核糖骨架,包括美国专利5,235,033和5,034,506以及ASC Symposium Series 580,″Carbohydrate Modifications in Antisense Research″(Ed.Y.S.Sanghui and P.Dan Cook)的第6和7章中描述的那些。含有一或多个碳环糖的核酸也包含在核酸的定义范围内(参见Jenkins et al.,Chem.Soc.Rev.(1995),169-176页)。Rawls,C&ENews Jun.2,1997,35页描述了几种核酸类似物。“锁核酸”(LNATM)也包含在核酸类似物的定义范围内。LNAs是这样一类核酸类似物,其中的核糖环被连接2’-O原子和4’-C原子的亚甲基桥“锁定”。为了所有目的,尤其是与核酸有关的全部教导,这些参考文献均通过引用明确地并入本文。可以进行核糖-磷酸骨架的这些修饰以便提高这类分子在生理环境中的稳定性和半寿期。例如,PNA:DNA和LNA-DNA混合体可以显示出更高的稳定性,因此可以用于某些实施方案。
本发明的核酸模板(文中又称为“核酸构建体”和“文库构建体”)包含靶核酸和衔接子。名词“衔接子”用于本文是指序列已知的寡核苷酸。本发明中使用的衔接子可以包含多种元件。所述衔接子中包含的元件(文中又称为“特征”)的类型和数量取决于衔接子的预期用途。用于本发明的衔接子通常包括但不限于限制性核酸内切酶的识别和/或切割位点(特别是II型识别位点,如下文描述,这种识别位点允许核酸内切酶结合位于衔接子内部的识别位点,而在衔接子之外切割);引物结合位点(用于扩增核酸构建体)或锚定引物(文中有时又称为“锚定探针”)结合(用于给核酸构建体中的靶核酸测序)、切口酶位点等。在某些实施方案中,衔接子包含限制性核酸内切酶的单个识别位点,而在其他实施方案中,衔接子包含一或多种限制性核酸内切酶的两个或更多个识别位点。如文中的概述,识别位点经常(但不是必然)存在于衔接子的末端,以便双链构建体的切割在离衔接子结尾最可能远的位置进行。
在某些实施方案中,本发明的衔接子根据衔接子中包含的特征的数量和大小,长度为大约10到大约250个核苷酸。在特定实施方案中,本发明的衔接子长度大约50个核苷酸。在其他实施方案中,本发明使用的衔接子长度为约20到约225、约30到约200、约40到约175、约50到约150、约60到约125、约70到约100,和约80到约90个核苷酸。
在其他实施方案中,衔接子任选包含的元件可以作为两个“臂”连接到靶核酸上。这些臂中的一个或两者可以包含限制性核酸内切酶的完整识别位点,或者两个臂可以包含限制性核酸内切酶的部分识别位点。在后一种情况中,包含靶核酸的构建体每端结合着衔接子臂,其环化将构成完整的识别位点。
还有一些实施方案中,本发明使用的衔接子在其5’和3’端包含不同的锚定分子结合位点。正如文中进一步描述的,这类锚定分子结合位点可以用于测序应用,包括本文和美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593和12/266,385、11/938,106、11/938,096、11/982,467、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214以及11/451,691中描述的复合探针锚定分子连接(cPAL)的测序方法,以上文献均通过引用全部并入本文,特别是与通过连接来测序有关的公开内容。
本发明的衔接子在一个方面是分散衔接子。本文中的“分散衔接子”意味着在靶核酸内部插入间隔位置的寡核苷酸。一方面,就靶核酸而言的“内部”意味着在诸如环化和切割的处理之前,靶核酸以内的位点,上述处理可能引入序列反转或者类似的转变,因此打乱了靶核酸中核苷酸的顺序。
本发明的核酸模板构建体含有以特定方向插入靶核酸的多重分散衔接子。正如文中进一步讨论的,靶核酸是由从一个或多个细胞(包括一个到几百万个细胞)中分离的核酸制备的。然后这些核酸利用机械或酶促方法被片段化。
作为发明所述核酸模板构建体的一部分的靶核酸在靶核酸的连续区域内预先确定的位置上可能含有间隔插入的分散衔接子。间隔可能是相同或不同的。某些方面中,分散衔接子之间的间距可能只能准确知道到一至几个核苷酸。其他方面中,衔接子的间距是已知的,每个衔接子相对库构建体中其他衔接子的方向是已知的。这就是说,在许多实施方案中,衔接子以已知距离插入,因此一个末端的靶序列与另一个末端的靶序列是连续的天然基因组序列。例如,对于从距离识别位点16个碱基处切割的II型限制性核酸内切酶,3个碱基位于衔接子内,核酸内切酶从离衔接子末端13个碱基处切割。当插入第二个衔接子时,衔接子“上游”的靶序列和衔接子“下游”的靶序列实际上在原始靶序列中是连续序列。
虽然本文中描述的发明实施方案是就环形核酸模板构建体而言的,可以理解所述核酸模板构建体也可以是线性的。此外,本发明的核酸模板构建体可以是单链或双链的,某些实施方案中优选后一种。
本发明提供了包含靶核酸的核酸模板,所述靶核酸含有一或多个分散的衔接子。另一个实施方案中,由多个基因组片段形成的核酸模板可以用于产生核酸模板库。这类核酸模板库在某些实施方案中涵盖的靶核酸合在一起能够覆盖整个基因组全部或部分。这就是说,通过使用足够数量的起始基因组(例如细胞),结合随机片段化,所得的用于产生本发明的环形模板的特定大小的靶核酸能够有效地覆盖基因组,虽然可以理解,少数情况中,可能会引入偏性而阻碍整个基因组均得以表现。
本发明的核酸模板构建体包含多个分散衔接子,在某些方面中,这些分散的衔接子包含限制性核酸内切酶的一或多个识别位点。另一方面,所述衔接子包含II型核酸内切酶的识别位点。II型核酸内切酶通常可以购买到,是本领域公知的。与它们的II型对应物一样,II型核酸内切酶识别双链多核苷酸序列中的特异核苷酸碱基对序列。当识别到该序列时,核酸内切酶将切割该多核苷酸序列,通常会留下序列中一条链的突出,或“粘末端”。并且II型核酸内切酶通常是在其识别位点之外切割,取决于具体的核酸内切酶,这个距离可能离识别位点在大约2到30个核苷酸之间。某些II型核酸内切酶是从离识别位点数量已知的碱基处切割的“精确切刀”。在某些实施方案中,所用的II型核酸内切酶不是“精确切刀”,而是在特定范围内切割(例如6到8个核苷酸)。通常本发明中使用的II型限制性核酸内切酶的切割位点与其识别位点相隔至少6个核苷酸(即,识别位点结尾与最近的切割点之间的核苷酸数量)。示范性的II型限制性核酸内切酶包括,但不限于Eco57MI、Mme I、Acu I、Bpm I、BceA I、Bbv I、BciV I、BpuE I、BseM II、BseRI、Bsg I、BsmF I、BtgZ I、Eci I、EcoP15 I、Eco57M I、Fok I、Hga I、HphI、Mbo II、Mnl I、SfaN I、TspDT I、TspDW I、Taq II等。在某些示范性的实施方案中,本发明中使用的II型限制性核酸内切酶是AcuI,该酶的切割长度大约16个碱基,产生2个碱基的3’突出;和EcoP15,该酶切割长度约25个碱基,产生2个碱基的5’突出。正如以下将进一步讨论的,在发明所述核酸模板构建体中的衔接子中包含上II型位点提供了一个便于在靶核酸的限定位置上插入多个衔接子的工具。
可以理解,衔接子还可以包含其他元件,包括文中进一步描述的其他(非II型)限制性核酸内切酶的识别位点、用于扩增的引物结合位点以及测序反应中使用的探针(“锚定探针”)的结合位点。
一个方面中,本发明使用的衔接子具有如图5所示的序列。如图5中的一个衔接子的示意图所表明的,衔接子可以包含多个功能性特征,包括II型限制性核酸内切酶的识别位点(503和506)、切口核酸内切酶的位点(504)以及能够影响二级特性的序列,比如破坏发夹结构的碱基(501和502)。本发明使用的衔接子还可以含有回文序列,正如下文更详细讨论的,如果包含这类衔接子的核酸模板被用于产生多联体,回文序列可以促进分子内部的结合。
IV.制备本发明的核酸模板
IVA.产生环形模板的概述
本发明涉及核酸鉴定和检测的组合物和方法。核酸的鉴定和检测具有广泛的应用,包括各种测序和基因分型应用。本文描述的方法允许构建可以用于扩增反应的环形核酸模板,这类反应利用所述环形模板产生单体环形模板的多联体,形成下文描述的“DNA纳米球”,它在测序和基因分型应用中有广泛应用。本发明的环形或线性构建体包含靶核酸序列,通常是基因组DNA的片段(尽管如文中所述,也可以使用诸如cDNA的其他模板),以及散在分布的外源核酸衔接子。本发明提供了制备核酸模板构建体的方法,所述模板构建体中每个后续的衔接子加在限定的位置,并且任选相对一或多个之前插入的衔接子限定的方向。这些核酸模板构建体通常是环形核酸(尽管在特定实施方案中,所述构建体可以是线性的),包含带有多个散在分布的衔接子的靶核酸。所述衔接子,正如下文描述的,是用于测序和基因分型应用的外源序列,通常含有限制性核酸内切酶位点,尤其是针对诸如II型的在识别位点之外切割的核酸内切酶的位点。为了分析方便,发明所述反应优选采用那些衔接子以特定方向,而非随机地插入的实施方案。因此发明提供的方法可以制备含有处于特定方向,并且相隔限定距离的多个衔接子的核酸构建体。
能够控制每个后续衔接子的间隔和插入方向比随机插入散在分布的衔接子具有许多优势。特别是本文描述的方法提高了衔接子插入过程的效率,因此减少了在插入每个后续衔接子时引入扩增步骤的需要。此外,控制每个添加的衔接子的间隔和方向保证了每个衔接子中通常含有的限制性核酸内切酶识别位点所处方位使得随后的切割和连接步骤在核酸构建体的适宜位点发生,从而通过减少或消除含有处于不合适位置或方向的衔接子的核酸模板形成而进一步提高所述过程的效率。另外,控制每个随后加入的衔接子的位置和方向对得到的核酸构建体的某些用途是有益的,因为衔接子在测序应用中行使多种功能,包括作为序列已知的参照点,从而协助确认靶核酸中特定位点上鉴定到的碱基的相对空间位置。文中进一步描述了衔接子在测序应用中的这类用途。
基因组核酸,通常是双链DNA(图6中的601),获得自复数个细胞,一般是大约10到100到1000或更多个细胞。使用复数个细胞使得最终的DNA纳米球有足够高的冗余程度,可以达到很好的基因组测序覆盖率。如本文描述的,利用标准技术比如物理或酶促分级法结合大小分级将基因组核酸分离成适当的大小。
如文中所述,任选调节双链片段的5’和3’端。例如,许多用于将核酸分级的技术产生的是长度和化学性质各异的片段末端。例如,末端可能含有重叠,用于许多目的,优选平末端双链片段。利用已知技术,比如聚合酶和dNTPs可以做到这一点。类似地,分级技术也有可能得到各种末端,比如3’和5’羟基基团和/或3’和5’磷酸基团。在某些实施方案中,正如下文描述的,可能希望酶法改变这些末端。例如,为了防止不含衔接子的多个片段发生连接,可能希望改变末端的化学性质,使得不存在正确的磷酸和羟基基团方向,从而防止靶序列的“聚合”。利用本领域已知的方法可以控制末端的化学性质。例如,在某些情况中,利用磷酸酶除去所有磷酸基团,从而使得全部末端含有羟基基团。然后可以对每个末端进行选择性地改变以允许期望的成分连接在一起。
此外,按照需要还任选利用大量已知技术进行扩增来增加基因组片段的数量以便之后的操作,虽然在许多实施方案中,在这个阶段不需要扩增步骤。
分级和任选的末端调节后,给基因组片段末端加上一套衔接子“臂”。两个衔接子臂,当连接在一起时,形成第一衔接子。例如,如图6中描述的,每个末端带有一个衔接子臂的线性构建体的环化(605)将两个臂连在一起形成完整衔接子(606)和环形构建体(607)。因此,基因组片段的一个末端加上了第一衔接子的第一衔接子臂(603),该基因组片段的另一个末端加上第一衔接子的第二衔接子臂(604)。一般来说,正如下文更充分描述的,根据需要的系统,衔接子臂之一或两者包含II型核酸内切酶的识别位点。替代地,衔接子臂可以各自含有部分识别位点,当臂发生连接时,重新构成完整识别位点。
为了将后续衔接子按照希望的位置和方向连接以便测序,本发明提供了这样的方法,所述方法中II型限制性核酸内切酶与环形核酸构建体的第一衔接子内的识别位点结合,然后在基因组片段(文中又称为“靶核酸”)中该第一衔接子之外的点进行切割。然后在发生切割的这个点连接上第二衔接子(同样通常是通过给第二衔接子加上两个衔接子臂)。为了在已知位点切割靶核酸,也许希望将靶核酸中可能随机包含的同一酶的任何其他识别位点阻断,从而使得限制性核酸内切酶可以结合的唯一位点在第一衔接子内,因此避免构建体发生不需要的切割。一般来说,首先保护第一衔接子中的识别位点不被失活,然后通常通过甲基化将构建体中任何其他未被保护的识别位点失活。即,甲基化的识别位点不会与酶结合,因此不发生切割。只有衔接子中未被甲基化的识别位点能够与酶结合,并随后发生切割。
保护第一衔接子中的识别位点不被失活的一个方法是使该位点变成单链,因为甲基化酶不会与单链结合。因此,保护第一衔接子中的识别位点的一种方法是通过利用尿嘧啶修饰过的引物,扩增与两个第一衔接子臂连接的线性基因组片段。所述引物与衔接子臂互补,并且经尿嘧啶修饰过,因此在扩增(通常是利用PCR)时,得到的线性构建体含有尿嘧啶镶嵌在一个第一衔接子臂的识别位点中。利用已知技术切割尿嘧啶使所述第一衔接子臂(或者任何含有尿嘧啶的片段)变成单链。然后给线性构建体使用序列特异的甲基化酶,该酶将与第一衔接子中含有的相同核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能甲基化第一衔接子臂中的单链识别位点,因此第一衔接子臂中的识别位点被保护免于经甲基化失活。正如下文描述的,如果限制性位点被甲基化,其将不会被限制性核酸内切酶切割。
正如下文将充分描述的,某些情况中,单个衔接子可能含有两个相同的识别位点,以便能够从同一衔接子的“上游”及“下游”切割。在该实施方案中,如图7所示意的,引物和尿嘧啶位置经过了适当的选择,从而使得“上游”或者“下游”识别位点可以被选择性地保护,而免于失活或被失活。例如,在图7中,两个不同衔接子臂(以长方形表示)各自包含限制性核酸内切酶的一个识别位点(在一个衔接子臂中以圆圈表示,另一个中以三角形表示)。如果需要利用以上描述的尿嘧啶降解法来保护带有以圆圈表示的识别位点的衔接子臂,则设计尿嘧啶修饰的扩增引物给该识别位点引入尿嘧啶。然后一经尿嘧啶降解,该衔接子臂变成单链(以半个长方形表示),从而保护识别位点免于失活。
保护第一衔接子臂中的识别位点不被甲基化后,通过利用例如桥寡核苷酸和T4连接酶将线性构建体环化。环化使得第一衔接子臂中的限制性核酸内切酶重新形成双链。在某些实施方案中,桥寡核苷酸具有被封闭的末端,这使得借助桥接寡核苷酸进行环化,未封闭末端的连接,并在识别位点附近留下切口。这个切口如下文的讨论可以被进一步利用。应用限制性核酸内切酶产生第二个线性构建体,其包含位于靶核酸内部的第一衔接子和包含(取决于酶)双碱基突出的末端。
将第二衔接子的第二套衔接子臂连接到第二线性构建体上。某些情况中,当利用切口时,为了确保衔接子以恰当的方向连接,通过利用具有核酸外切酶活性的聚合酶将第一衔接子中的切口“平移”(或“移位”)。聚合酶(比如Taq聚合酶)的核酸外切酶活性将切除邻接切口的短DNA链,而聚合酶活性将在该链“填上”切口和随后的核苷酸(基本上,Taq沿着链移动,利用核酸外切酶活性切除碱基并加上相同的碱基,结果就是切口沿着链移位,直至酶到达链末端)。
此外,为了形成模板的不对称,构建体的一个末端被修饰上一个碱基。例如,某些聚合酶(比如Taq)会进行没有模板的核苷酸添加,因此造成在平DNA双链体的3’端添加一个核苷酸,产生3’突出。本领域技术人员理解,根据溶液中的dNTP浓度,可以添加任何碱基。在特定实施方案中,所用的聚合酶只能添加单独一个核苷酸。例如Taq聚合酶能够添加单个G或A。也可以使用其他聚合酶来添加其他核苷酸从而产生突出端。在一个实施方案中,使用了过量的dGTP,造成在一条链的3’端没有模板地添加了鸟嘌呤。第二线性构建体3’端的这个“G尾”造成末端的不对称,因此能够与带有C-尾的第二衔接子臂连接,使得第二衔接子臂与第二线性构建体的3’端复性。意图连接到5’端的衔接子带有C-尾,其位置使得它能够与5’G-尾连接。第二衔接子臂连接后,将构建体环化产生包含两个衔接子的第二环形构建体。第二衔接子通常含有II型核酸内切酶的识别位点,而该识别位点与第一衔接子中含有的识别位点可能是相同的或者是不同的,后一种情况有许多应用。
通过用限制性核酸内切酶切割,可以在第一衔接子的另一侧插入第三衔接子,所述内切酶结合第一衔接子的第二个臂中的识别位点(即最初通过甲基化失活的识别位点)。为了使这个识别位点可以使用,利用与第一衔接子中的识别位点互补的尿嘧啶修饰引物来扩增环形构建体产生第三线性构建体,该线性构建体中的第一衔接子包含镶嵌在第二限制性识别位点中的尿嘧啶。将尿嘧啶降解使第一衔接子变成单链,这样就保护衔接子中的识别位点免于甲基化。然后采用序列特异性甲基化酶将所有未被保护的识别位点失活。一经环化,第一衔接子中的识别位点重新形成,施用限制性核酸内切酶将切割环形,在第三线性构建体中产生可以插入第三衔接子的位点。第三衔接子臂与第三线性构建体的连接遵循与以上描述相同的基本程序-第三线性构建体将带有A-或G-尾,第三衔接子臂带有T-或C-尾,使得衔接子臂能够与第三线性构建体复性,被连接。然后将包含第三衔接子臂的线性构建体环化形成第三环形构建体。与第二衔接子一样,第三衔接子通常包含与第一衔接子所含有的识别位点不同的限制性核酸内切酶识别位点。
通过利用在第二和第三衔接子中有识别位点的II型限制性核酸内切酶可以添加第四衔接子。用这些限制性核酸内切酶进行的切割将产生第四线性构建体,然后该构建体与第四衔接子臂连接。连接了第四衔接子臂的第四线性构建体的环化将产生本发明的核酸模板构建体。正如本领域技术人员可以理解的,还可以添加其他衔接子。因此,本文描述的方法允许两个或更多个衔接子以方向、有时是距离依赖性的方式加入。
本发明还提供了方法来控制每个后加入的衔接子的插入方向。这类“切口平移”法提供了一种控制靶核酸与衔接子连接方式的方法。通过防止衔接子与其他衔接子连接和靶核酸分子与其他靶核酸分子连接(大致就是避免衔接子和靶核酸分子各自的“聚合”),这些方法还能够防止形成假核酸构建体。图8图示了衔接子和靶核酸分子连接可以采取的不同方向的实例。靶核酸801和802优选与衔接子803和804以希望的方向连接(正如该图中显示的,希望的方向是具有相同形状-圆圈或方形-的末端相互连接的那个方向)。修饰分子的末端可以避免不希望的构象807、808、809和810,这些构象中靶核酸相互连接,衔接子相互连接。此外,正如下文将更详细讨论的,可以通过控制衔接子和靶核酸的末端的化学性质来控制每次衔接子-靶核酸连接的方向。利用本领域已知方法可以控制末端的化学性质。例如,某些情形中,使用磷酸酶除去所有磷酸基团,使得全部末端含有羟基基团。然后可以限制性地改变每个末端以便希望的成分之间进行连接。下文更详细地描述了本发明的切口平移法中末端修饰和控制衔接子插入的这些和其他方法。
然后这些核酸模板构建体(包含散布了这些衔接子的靶序列的“单体”)可以用于产生多联体,而这些多联体又可以形成用于正如测序和检测特异靶序列的下游应用的核酸纳米球。
本发明提供了形成核酸模板构建体的方法,其中所述模板构建体包含插入靶核酸的多个散在分布的衔接子。正如文中进一步讨论的,本发明的方法允许通过利用衔接子中包含的II型限制性核酸内切酶的识别位点来插入每个后续衔接子。为了以希望的顺序和/或方向插入多个衔接子,可能有必要将靶核酸中含有的限制性核酸内切酶识别位点封闭,从而使得只有衔接子中的识别位点可供酶的结合和随后的切割。这类方法的优势之一是每个衔接子中可以使用相同的限制性核酸内切酶位点,这就简化了最终用于制备多联体的环形模板的产生过程,衔接子的插入可以利用先前插入的衔接子作为下一个衔接子的“垫脚石”,每个新的衔接子通过顺着片段“走”即可实现添加。控制可供限制性酶使用的识别位点还避免了切除某些序列,因此只能达到有限的序列代表(如果可以接近靶核酸内部的位点,就可能发生这种情况)。
IVB.添加第一衔接子
作为产生本发明的核酸模板的第一步,将第一衔接子与靶核酸连接。可以将整个第一衔接子添加到一个末端,或者将第一衔接子的文中称为“衔接子臂”的两部分与靶核酸的两个末端分别连接。第一衔接子臂被设计成通过连接可以重新构成完整的第一衔接子。正如上面具体描述的,第一衔接子通常包含一或多个II型限制性核酸内切酶的识别位点。在某些实施方案中,II型限制性核酸内切酶识别位点分到两个衔接子臂上,因此位点只有在两个衔接子臂发生连接后,才能供限制性核酸内切酶进行结合。
图6是组装衔接子/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一个方面的示意图。利用以上描述的标准技术分离DNA,比如基因组DNA 601,并片段化为靶核酸602。然后片段化的靶核酸602被修复,使得每个链的5′和3′端是齐的或平的末端。这个反应后,利用没有校正功能的聚合酶给片段化的靶核酸每个链的3’端添加单个A,使每个片段带上“A-尾”。加A尾通常是通过使用聚合酶(比如Taq聚合酶)并仅提供腺嘌呤核苷酸实现的,这样聚合酶被迫以模板序列非依赖性的方式给靶核酸的末端添加一或多个A。
在图6显示的示范性方法中,第一衔接子的第一臂(603)和第二臂(604)与各个靶核酸连接,产生带有连接到各末端的衔接子臂的靶核酸。在一个实施方案中,衔接子臂是“加T尾的”,因此与靶核酸的A尾互补,这样通过提供一种方式使衔接子臂首先与靶核酸复性,然后采用连接酶将衔接子臂连到靶核酸上,协助了衔接子臂与靶核酸的连接。
在其他实施方案中,本发明提供了衔接子与各片段连接的方式使分子内或分子间连接artifacts的产生最小化。这是有益的因为靶核酸随机片段相互形成连接假象会产生假的靶核酸片段间的基因组邻近关系,使序列比对过程复杂化。利用加A和T尾将衔接子附着到DNA片段上防止了衔接子和片段的随机分子内或分子间关联,这就减少了自连接(衔接子-衔接子或片段-片段连接)会产生的假象。
作为加A/T尾(或加G/C尾)的替代,可以采取各种其他方法来防止靶核酸和衔接子形成连接假象,以及衔接子臂相对靶核酸的定向,包括利用靶核酸和衔接子臂中的互补NN突出,或者采用合适的靶核酸与衔接子的比率进行平末端连接从而优化单片段核酸/衔接子臂连接比率。
产生包含靶核酸并且每个末端都带有衔接子臂的线性构建体后,将线性靶核酸环化(605)(这个过程在文中将更详细地讨论),产生包含靶核酸和衔接子的环形构建体607。注意环化过程导致第一衔接子的第一和第二臂被带到一起在环形构建体中形成连续的第一衔接子(606)。在某些实施方案中,环形构建体607利用例如随机六聚体和Φ29或螺旋酶,通过比如环依赖性扩增被扩增。替代地,靶核酸/衔接子结构可以保持线性,通过从衔接子臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程,使用高忠实度、有校正活性的聚合酶,产生序列准确的扩增靶核酸/衔接子构建体文库,其中被查询的基因组或基因组的一或多个部分有足够的代表。
IVC.添加多个衔接子
图6是组装衔接子/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一个方面的示意图。利用标准技术分离DNA,比如基因组DNA 601,并片段化为靶核酸602。然后在某些实施方案中(如文中所述)片段化的靶核酸602被修复,使得每个链的5′和3′端是齐的或平的末端。
在图6显示的示范性方法中,第一衔接子的第一臂(603)和第二臂(604)与各个靶核酸连接,产生带有连接到各末端的衔接子臂的靶核酸。
产生包含靶核酸并且每个末端都带有衔接子臂的线性构建体后,将线性靶核酸环化(605)(这个过程在文中将更详细地讨论),产生包含靶核酸和衔接子的环形构建体607。注意环化过程导致第一衔接子的第一臂和第二臂被带到一起在环形构建体中形成连续的第一衔接子(606)。在某些实施方案中,环形构建体607利用例如随机六聚体和Φ29或螺旋酶,通过比如环依赖性扩增被扩增。替代地,靶核酸/衔接子结构可以保持线性,通过从衔接子臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程,使用高忠实度、有校正活性的聚合酶,产生序列准确的扩增靶核酸/衔接子构建体文库,其中被查询的基因组或基因组的一或多个部分有足够的代表。
与添加第一衔接子过程类似,可以给线性分子(609)的每个末端添加第二套衔接子臂(610)和(611),然后连接(612)形成完整衔接子(614)和环形分子(613)。同样,通过利用切割衔接子(609)另一侧的II型核酸内切酶可以给衔接子(609)的另一侧添加第三衔接子,然后将第三套衔接子臂(617)和(618)连接到线性化分子的各个末端。最后,通过再次切割环形构建体并给线性化分子添加第四套衔接子臂来加上第四衔接子。图6所画的实施方案是采用了衔接子(620)和(614)中有其识别位点的II型核酸内切酶来切割环形构建体的一个方法。衔接子(620)和(614)中的识别位点可以是相同或不同的。类似地,图6显示的所有衔接子中的识别位点可以说相同或不同的。
如图9大概展示的,包含第一衔接子的环形构建体在该衔接子中可能含有两个II型限制性核酸内切酶识别位点,其位置使得识别序列之外(衔接子之外)的靶核酸被切割(910)。结构510周围的箭头指示识别位点和限制位点。在过程911中,使用了一种II型限制性核酸内切酶EcoP15来切割环形构建体。注意在图9所显示的方面中,每个文库构建体中做图到部分靶核酸的的部分将被从构建体中切割掉(结构910中箭头之间的靶核酸部分)。过程911中用EcoP15限制性切割文库构建体产生了含有第一衔接子的线性构建体文库,其中第一衔接子位于线性构建体912末端以内。得到的线性文库构建体的大小由核酸内切酶识别位点和核酸内切酶限制位点之间的距离加上衔接子的大小决定。在过程913中,线性构建体912,与片段化的靶核酸904一样,通过常规方法处理变成平的或齐的末端,利用不具有校正活性的聚合酶给线性文库构建体的3’端加上包含单个A的A尾,通过A-T复性和连接将第二衔接子的第一臂和第二臂连接到线性化的文库构建体的末端913。得到的文库构建体包含914处可以看到的结构,其中第一衔接子位于线性构建体末端以内,靶核酸通过第一衔接子侧接在一个末端,另一端通过第二衔接子的第一臂或第二臂。
在过程915中,双链线性文库构建体被处理成为单链916,然后单链文库构建体916被连接(917)形成散在分布着两个衔接子的靶核酸918单链环。917中的连接/环化过程是在使分子内连接最优化的条件下进行的。在特定浓度和反应条件下,更倾向于每个核酸构建体末端的局部分子内连接,而不是分子之间的连接。
IVD.控制靶核酸和衔接子之间的连接方向
本发明一个方面提供的方法中衔接子与靶核酸的连接,如上文所述是以希望的方向进行的。这种方向控制是有益的,因为靶核酸随机片段相互形成连接假象会产生假的靶核酸片段间的基因组邻近关系,使序列比对过程复杂化。有几种方法可以用来控制衔接子的插入方向。如上文所述,可以改变靶核酸和衔接子末端的化学性质,从而使连接仅发生在方向正确的情况下。替代地,可以进行“切口平移法”,如下面概述的,该方法同样依赖于末端的化学性质。最后,可以按照下面的描述,采取涉及用特别选择的引物进行扩增的方法。
图12示意了第二衔接子可以添加到核酸构建体的不同方向。同样,过程1200以含有已插入第一衔接子1210的环形文库构建体1202开始。第一衔接子1210具有特定的方向,其中的三角形示意第一衔接子的外链(“outer strand”),菱形示意第一衔接子的内链(“inner strand”)(Ad1方向1210)。箭头1201的尾部指示了第一衔接子1210中的II型限制性核酸内切酶位点,箭头的头部指示切割位点。过程1203包含以II型限制性核酸内切酶进行切割,连接第二衔接子的第一臂和第二臂,以及重新环化。从得到的文库构建体1204和1206可以看出,第二衔接子可以相对第一衔接子以两种不同的方式插入。在希望的方向1204中,椭圆形插入带三角形的外链,蝴蝶结插入了带菱形的内链(Ad2方向1220)。在不希望的方向中,椭圆形插入了带菱形的内链,蝴蝶结形插入了带三角形的外链(Ad2方向1230)。
尽管为了清楚起见,以下讨论和提及的示意图主要针对第二衔接子相对第一衔接子的插入,但可以理解下文讨论的过程适用于第二衔接子之后添加的衔接子,将产生带有三、四、五、六、七、八、九、十或更多个插入衔接子的文库构建体。
在一个实施方案中,使用了加A尾和加T尾将衔接子附着于核酸片段。例如,按照以上描述的修饰来修复片段末端,利用不具有校正活性的聚合酶给片段化的靶核酸每条链的3’端添加单个A,将每个片段“加A尾”。加A尾通常是利用聚合酶(比如Taq聚合酶)并且仅提供腺嘌呤核苷酸(或者过量的腺嘌呤核苷酸),这样聚合酶被迫以模板-序列-非依赖性的方式将一或多个A添加到靶核酸末端。在采用“加A尾”的实施方案中,与衔接子(或衔接子臂)的连接是通过给衔接子/衔接子臂添加“T尾”,从而与靶核酸的A尾互补,这样通过提供一种方式使衔接子臂首先与靶核酸复性,然后采用连接酶将衔接子臂连到靶核酸上,协助了衔接子臂与靶核酸的连接。
因为当核酸模板处于所需大小并且包含来源于单个片段的靶核酸时,所述发明的各方面实现最优化,所以保证产生核酸模板的整个过程环化反应是在分子内进行的是有益的。这就是说,确保靶核酸在与第一、第二、第三等衔接子连接的过程中,不会自身相互连接是有益的。图10展示了控制环化过程的一个实施方案。如图10所示,封闭寡核苷酸1017和1027被分别用于封闭结合区域1012和1022。封闭寡核苷酸1017与结合序列1016互补,封闭寡核苷酸1027与结合序列1026互补。在5’衔接子臂和3’衔接子臂的示意图中,带下划线的碱基是双脱氧胞嘧啶(ddC),粗体碱基是磷酸化的。封闭寡核苷酸1017和1027与衔接子臂不是共价结合,可以在衔接子臂与文库构建体连接后和环化之前“融化掉”;并且,双脱氧核苷酸(这里是ddC,或者替代的另一种无法连接的核苷酸)防止封闭分子与衔接子发生连接。另外或者作为一种替代,在某些方面中,封闭寡核苷酸-衔接子臂的杂交体在衔接子臂和封闭分子之间含有一或多个碱基的缺口以减少封闭分子与衔接子的连接可能。在某些方面中,封闭分子/结合区杂交体的Tms约为37℃以便封闭序列在衔接子臂连接(环化)前容易融化。
IVD(i).连接方向的控制:臂连臂连接
在一个方面中,利用“臂连臂”连接方法可以控制衔接子的方向性插入,而无需修饰靶核酸末端。一般来说,这是一个有两个步骤的连接过程,其中衔接子臂被加至靶核酸,伴随链置换的引物延伸产生两个双链分子,每个有一个衔接子臂位于一端,然后可以给没有衔接子臂的末端添加第二衔接子臂。这个过程可以防止产生两端含有相同衔接子臂的核酸分子-例如,象图11A显示的,臂连臂连接过程可以防止形成两端均被衔接子A或衔接子B占据的核酸分子。在许多实施方案中,优选靶核酸的每端与不同的衔接子臂连接,这样当两个臂连在一起时它们能够形成完整的一个衔接子。这在添加各衔接子臂后减少需要的扩增步骤的数量尤其有用,因为臂连臂连接减少了每个连接反应中无用分子的数量。
图11显示了臂连臂连接方法的一个实施方案。在这个实施方案中,去磷酸化的靶核酸的两条链均被加上了第一衔接子臂A的一条链。通常利用碱性磷酸酶将该衔接子臂的一端(显示为闭合环形)封闭。引物置换可以用来换下带有封闭端的链。伴随链置换的引物延伸(在一个示范性实施方案中,这可以通过利用phi29或Pfu聚合酶来实现)从两个末端开始,延伸过整个插入片段,产生两个双链核酸分子,每个一端带有衔接子臂A,一端为平末端。在替代实施方案中,衔接子臂A可以先与引物在被封闭链的上游杂交从而起动引物延伸,而无需引物置换反应。链置换聚合酶反应后,即可给通常是靶核酸的平末端连接上第二衔接子臂,而不是已带有衔接子臂的末端。这种臂连臂连接过程可以防止形成两端包含相同衔接子臂的靶核酸。
IVD(ii).连接方向的控制:切口平移法
在一个实施方案中,本发明提供了用于构建核酸分子的“切口平移法”。在一个实施方案中,所述切口平移法被用于以希望的方向来连接核酸分子。在另一个实施方案中,切口平移法被用于以希望的方向插入衔接子。这些方法通常涉及将待连接的核酸分子之一或者两者的一个或两个末端进行修饰。例如,将衔接子连接至靶核酸时,要连接的靶核酸和衔接子中的一个或者这两者的一个或两个末端被修饰。这类修饰后,插入到构建体一条链中的切口的“移位”或“平移”提供了控制连接好的衔接子-靶核酸构建体的最终方向的能力。如下文更详细描述的,本文描述的“切口平移法”还可以包括引物延伸或缺口填平法。虽然以下讨论是就控制衔接子与靶核酸的连接而言的,可以理解这些方法并不限于衔接子与靶核酸的连接,这些方法还可以用于控制任何两个核酸分子的连接。例如,切口平移法和本文描述的任何其他控制连接的方法可以作为基因和/或DNA工程方法的一部分,比如构建新的质粒或其他DNA载体,基因或基因组合成或修饰,以及用于构建纳米技术构建体的组件。
图13示意了这种“切口平移”类型的过程。图13中的构建体1306是利用本文讨论的方法形成的,其含有散在的衔接子1304,限制性核酸内切酶识别位点(图13中的箭头尾部)和切割位点。在图14中,文库构建体未被环化,而是靶核酸片段1406(含有限制性核酸内切酶识别位点1404)和衔接子1412交替的分支多联体;但是,图13中显示的切口平移类型的过程也可以在文库构建体构型上进行。名词“文库构建体”用在文中是指包含一或多个衔接子的核酸构建体,与名词“核酸模板”可以互换。
带有插入的第一衔接子的文库构建体经限制性核酸内切酶消化(过程1301),在某些方面中,是切割靶核酸产生3’核苷酸突出1308的II型限制性核酸内切酶。在图11中,显示了两个核苷酸(NN-3′)的1308,虽然不同方面中突出端核苷酸的数目至少部分取决于所用限制性核酸内切酶而各不相同。文库构建体1310被线性化,其中的第一个插入的衔接子显示为1304。第一个插入的衔接子1304被工程化成包含位于衔接子片段边界的切口1312;或者包含核酸切口内切酶的识别位点,可以在衔接子内部引入切口1314。两种情况下,均用聚合酶1316处理(1303)文库构建体,该聚合酶能够将文库构建体1310的上链从切口1312或1314延伸至下链末端形成一端带有3’突出,另一端为平末端的链。过程1305中给这个文库构建体1310连接上第二衔接子1318,该第二衔接子1318一端有简并核苷酸突出,另一端为单个3’核苷酸(例如dT)突出形成文库构建体1320。然后在过程1307中处理文库构建体1320在其平末端添加3′dA。然后可以利用例如含有尿嘧啶的引物经PCR扩增文库构建体1322。替代地,可以在过程1309中将文库构建体1322环化,这种情况中可以进行CDA(比如在图14中的步骤1421)。这里讨论的过程与图13中显示的切口平移过程联合可以选择后续添加的衔接子与任何先前插入文库构建体的衔接子的相对位置和相对方向。
为了利用切口平移类型的程序,象上文讨论过的将靶核酸和/或衔接子的一个或两个末端修饰可能是有益的。在一个示范性实施方案中,意欲与靶核酸3’端连接的衔接子的第一臂可以设计成其3’末端被封闭,因此只有衔接子臂的5’端可供与靶核酸的3’端连接。类似的,意欲与靶核酸5’端连接的第二臂可以设计成其5’端被封闭,因此只有第二臂的3’端可以与靶核酸的5’端连接。封闭衔接子臂和/或靶核酸的一端的方法是本领域已知的。例如,用上文讨论过的能够产生特定功能的末端并从3’和5’端除去磷酸的酶处理靶核酸(文中又称为“核酸插入”或“DNA插入”或“插入”)。除去全部磷酸基团使得靶核酸分子不能相互连接。该实施方案中的衔接子也被设计成有一条链可以进行连接(例如通过产生或者保留5’磷酸基团),互补链的3’端被保护不能连接。通常,对3’端的保护是利用双脱氧核苷酸将3’端失活而实现的。因此,当被修饰的靶核酸两端都没有磷酸基团,修饰的衔接子在一个5’端包含磷酸基团,互补链上3’被封闭(例如,双脱氧),唯一可能形成的连接产物是靶核酸连接至带有磷酸基团的衔接子5’端。该连接步骤之后,衔接子被保护的3’端可以置换为含有功能性3’端的链。实现这个置换通常是利用了3’被保护的链一般较短,容易变性这一事实。带有功能性3’端的置换链较长,因此能够更有效地结合互补链-在其他实施方案中,带有功能性末端的链同时添加浓度更高,从而进一步影响反应向着被保护的链被带有功能性末端的链置换进行。然后通过加入具有切口平移活性的DNA聚合酶将带有功能性3’端的链引发,聚合酶从靶核酸的5’端核酸外切地除去碱基,从而暴露出功能性5’磷酸。这个新产生的5’磷酸可以经连接酶连接至延伸产物上。(如果延伸反应过程中没有连接酶,两个聚合酶分子将从靶核酸的每个末端切口平移直至相遇,产生断裂的分子)。例如,如图2所示,靶核酸(插入)首先被末端修复形成特定功能的末端,优选是平末端。然后,为了避免插入物形成多联体,去除5’端磷酸。然后将插入物与DNA连接酶和DNA衔接子混合。所述DNA衔接子含有两个寡核苷酸,当两个寡核苷酸同时杂交时,有一个平末端和一个粘末端。平末端一侧含有一个带有被保护/失活的3’端的“上游链(top-strand)”,和一个带有功能性5’端磷酸的“下游链(bottom-strand)”,因此也不能自身连接。这样唯一可能的连接组合是每个末端平末端连接一个“下游链”的一个插入物。然后带有3’端保护的“上游链”与含有功能性3’端的寡核苷酸置换,该寡核苷酸可以作为聚合酶延伸反应中的引物。一加入聚合酶和连接酶,即可通过切口平移和连接反应嵌入第二个寡核苷酸。当聚合酶延伸至插入物内,它会引入一个带有功能性5’磷酸的切口,该切口可以被DNA连接酶所识别和封上。得到的每条链的每端带有衔接子或衔接子臂的插入物这时可以利用衔接子特异引物进行PCR。
通常在诸如上文描述的切口平移反应中,在加入聚合酶之前或者与聚合酶同时,混合物中存在或者要加入活性连接酶。在某些实施方案中,使用低活性聚合酶(低切口平移)条件可能是有益的。在聚合酶之前或者同时加入连接酶以及低活性条件都有助于保证平移的切口在到达DNA片段相反一端前被封上。在某些实施方案中,这可以通过在37℃(该温度通常导致低聚合酶活性和高连接酶活性)温育Taq聚合酶和T4连接酶来实现。然后反应可以在更高温度(比如50-60℃)继续进行温育以便保证反应中的多数/全部构建体都完成切口平移连接。
在其他实施方案中,本发明提供了形成核酸模板构建体的方法,所述核酸模板构建体包含多个散在分布的衔接子。本发明的方法包括插入多个衔接子,使每个后续的衔接子在相对先前添加的衔接子的特定位置上插入的方法。插入多个散在分布的衔接子的某些方法是本领域已知的,例如象美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/679,124、11/981,761、11/981,661、11/981,605、11/981,793和11/981,804中讨论的,为了所有目的,特别是涉及产生包含多个散在分布衔接子的核酸模板的方法和组合物,以及这类核酸模板的所有使用方法的全部教导,这些文献均通过引用全文并入本文。将已知衔接子序列插入靶序列,从而使得连续的靶序列被多个散在分布的衔接子打断,提供了给每个衔接子“上游”和“下游”测序的能力,因此增加了由每个核酸模板可以产生的序列信息量。本发明提供了相对一或多个先前添加的衔接子特定位置插入每个后续衔接子的其他方法。
切口平移连接通常是在连接了第一链之后通过向反应至少添加聚合酶来进行的。在某些实施方案中,切口平移反应可以通过将所有成分一次性加入以一步反应进行,而在另一些实施方案中,反应步骤顺序进行。切口平移反应的“一步”法有多种可能的实施方案。例如,可以使用含有引物的单一混合物,其中Taq在反应开始加入。使用热稳定的连接酶提供了通过简单提高温度来进行引物交换和切口平移连接(以及PCR,如果需要)的能力。在另一个示范性的实施方案中,反应混合物含有最低浓度的非进行性的切口平移聚合酶,和能够活化3’封闭链的弱3’核酸外切酶。
在其他实施方案中,利用T4多核苷酸激酶(PNK)或碱性磷酸酶来改变衔接子和/或靶核酸的3’端,准备切口平移过程。例如,可以作为环化反应的一部分插入衔接子。末端修复并且碱性磷酸酶处理过的靶核酸与衔接子连接,在该示范性实施方案中被设计成能够形成自身互补的发夹形单元(图16)。所述发夹被设计成在给定位置含有可以被酶或化学物识别和切割的修饰。例如,如果发夹含有脱氧尿苷,脱氧尿苷可以被UDG/EndoVIII识别和切割。切割后,两个发夹变成其各自的3’端带有磷酸的单链。然后这些3’磷酸可以经T4多核苷酸激酶(PNK)或碱性磷酸酶(SAP)除去以便如文中进一步描述的进行切口平移法。在示范性实施方案中,比如图4A中示意的实施方案,两个发夹被设计成相互部分互补,因此可以通过分子内杂交形成环形分子。最后,环化的分子进入切口平移过程,过程中聚合酶延伸至插入物中,引入能够被DNA连接酶识别和封上的带有功能性5’端磷酸的切口。
除了如上所述利用发夹结构,还可以使用一对互相部分互补的双链衔接子进行环化。一对一条链上含有可以被UDG/EndoVIII识别和切割的脱氧尿苷。还可以使用其他在一条链做切口的方法,包括但不限于:切口酶、引入可以被内切核苷酸类的酶识别的肌苷修饰的DNA,以及给DNA引入可以被RNA-核酸内切酶识别的RNA修饰。可以如上文所述,将靶核酸和衔接子准备好进行受控的连接,例如通过用碱性磷酸酶处理靶核酸产生不能与其他靶核酸连接的平末端。环化的激活是通过将衔接子中的短3’保护的链从与靶核酸连接的链中变性,在靶核酸插入的每个末端留下两个部分互补的单链末端。然后这些末端通过分子内杂交连到一起,进行切口平移和连接,形成共价闭合环。然后用UDG/EndoVIII处理这些环,产生供下一个衔接子定向插入的环。
图15显示的再一些实施方案中,用虾碱性磷酸酶(SAP)处理线性靶核酸以除去5’磷酸。然后,将靶核酸与衔接子的一个臂(臂A)连接,所述臂包含带有5’磷酸的一条链,和带有被保护的3’末端的较短互补链。然后对连接产物进行切口平移。环化反应中产生的切口位于第一衔接子的上游链,可以作为切口平移反应中聚合酶使用的引物。聚合酶将上游链延伸至衔接子-插入物会合处的切口,释放衔接子A臂之一,产生平末端或A或G突出。然后,得到的聚合酶产生的插入物末端与第二衔接子臂(臂B)连接。通过设计第一衔接子在环化反应中产生切口,后续的衔接子可以以预先确定的方向加入。这个策略可以应用于所有II型限制性酶或其它酶促或非酶促片段化方法中,不论它们产生的消化产物是带有平末端、3’突出还是5’突出。之后的引物置换、延伸、连接和PCR与图2中描述的类似。还可以利用非扩增方式来封闭环形,包括将被封闭的寡核苷酸熔解,然后经切口平移连接反应实现DNA环化。
具有校正活性的聚合酶(具有3’-5’核酸外切酶活性,比如Pfu聚合酶)和不具有校正活性的聚合酶(缺乏3’-5’核酸外切酶活性,比如Taq),都可以用于本文描述的切口平移和包括链置换过程的链合成。具有校正活性的聚合酶在切口平移过程中可以有效地产生平末端,但其缺点是会同样降解未保护的3’突出。因此得到的切口平移产物会有两个平末端,因此不能以特定的方向与随后的衔接子连接。一个解决方法是例如在3’端上使用双脱氧核糖核苷三磷酸(ddNTP)以保护已连接的衔接子(例如图15中的臂A)的3’端不被降解。但是,ddNTP保护也保护了3’端不能进行之后的延伸,因此限制了衔接子在直接环化过程中被向前推进。另一种潜在的解决方法是利用3’端上的修饰(例如3’磷酸)保护3’端不被聚合酶降解,其中所述修饰可以在切口平移环化之前去除(例如利用碱性磷酸酶)。另一种方法是在切口平移反应中利用发夹形的衔接子结合具有校正活性的聚合酶。这些衔接子能够免于被降解,但缺点是需要额外的UDG/EndoVIII步骤。此外,发明人发现有一种具有校正活性的聚合酶Pfu聚合酶,能够在不降解未被保护3’突出的情况下有效地产生平末端,表明其具有较低的3’-5’核酸外切酶活性。
不具有校正活性的聚合酶,比如Taq聚合酶,在切口平移过程中既可以产生平末端,也可以产生单碱基突出(Taq除了平末端,还可以产生不依赖模板的A-和G-尾)。在切口平移过程中使用不具有3’-5’核酸外切酶活性的聚合酶的优点是未被保护的3’突出可以保持完整。这使得不需要保护3’突出免于降解,即可以特定的方向连接随后的衔接子。许多具有校正活性的聚合酶的潜在缺点是它们有在不依赖模板的过程中,向3’端添加单个核苷酸的功能。这个过程非常难以控制,经常会产生混合的3’末端群体,导致低衔接子对插入物连接产率。一般来说,采用平末端连接的方法比单碱基突出连接效率更高。
在一个实施方案中,连接第一衔接子后,不是形成环形然后用第一衔接子中含有其识别位点的II型核酸内切酶切割(这是本发明产生核酸模板的某些实施方案中的一个步骤,比如图6和图9中图示的实施方案),而是利用切口平移法的一种变化来添加第二衔接子。图17中图示了这种变化的示范性实施方案。通常,如以上详细描述及图6和图9中显示的,这些实施方案开始是给靶核酸添加第一衔接子,然后环化。在图17A显示的实施方案中,利用具有5’-3’核酸外切酶活性的聚合酶(比如Taq聚合酶)进行切口平移,产生的是第一衔接子位于靶核酸内部的反转圆环。然后可以将这个产物末端修复,进行与衔接子2的连接(利用以上详细描述过的方法)。这个实施方案的一个缺点是靶核酸可能比测序所需要的更长,而在由模板产生的任何核酸多联体(由本发明的核酸模板产生多联体在下文有更详细的讨论)中,这种长模板可能很容易形成二级结构.当这些多联体被用于测序应用(比如下文讨论的cPAL方法)时,这类二级结构可能导致信号下降。克服这个缺点的一种方式是通过将靶核酸变短-图17B画出了这种方法的一个示范性实施方案。在该实施方案中,利用本文描述的方法用尿嘧啶修饰第一衔接子。切口平移-包含第一衔接子的环反转之后,衔接子C臂被添加到末端修复过的分子的两个末端。尿嘧啶修饰的衔接子1经处理除去尿嘧啶,产生缺口,并且经处理产生被活化的3’端。通常,通过使用UDG/EndoVIII酶混合物除去尿嘧啶,用PNK和/或碱性磷酸酶除去3’磷酸产生活化的3’端。衔接子1的活化3’端和衔接子臂C的3’端被切口平移聚合酶(即具有5’-3’核酸外切酶活性的聚合酶)识别,产生的产物中衔接子1被已修剪到其原始长度大约一半的靶核酸围绕。如果衔接子1被其他切口修饰(包括但不限于引入肌苷、RNA修饰等等)所修饰过,可以反复进行这一聚合酶切割程序以便进一步降低靶核酸的大小。
如图17C所示的其他实施方案中,图17A和B中显示的切口平移法可以扩展到插入多个衔接子。通过修饰衔接子,可以形成切口、缺口和功能性3’端由多个衔接子同时引导切口平移反应。如图17C所示,包含靶核酸和两个衔接子(每个的一条链上含有尿嘧啶修饰)的核酸构建体被环化。然后,用诸如UDG/EndoVIII的酶混合物处理圆环以便除去尿嘧啶并引入缺口。这些缺口可以同时进行切口平移将圆环反转,使得构建体可以与另外的衔接子连接。通过在相同衔接子上加上多个修饰,可以进行随后的切口/缺口和切口平移反转来引入多个衔接子。在某些实施方案中,可以将尿嘧啶加回到衔接子中的相同位置,使衔接子适合进行进一步切口平移反应。可以通过例如将切口平移反应与单独尿嘧啶温育给衔接子重建修饰,然后添加更高浓度未修饰的核苷酸来填充构建体的其他部分将尿嘧啶加回去。
图17D显示的再一些实施方案中,通过控制切口平移酶的速度可以修短靶核酸。例如,可以通过改变温度或限制试剂使切口平移酶变慢,可能导致环化插入物中被引入两个切口,利用切口平移过程从衔接子中的原始位点开始移动。类似的,利用链置换聚合酶(比如phi29)会导致切口被移动,由于核酸的一个区段被置换而产生分支点。这些切口或分支点可以被多种酶(包括但不限于,S1核酸内切酶、Bal31、T7核酸内切酶、绿豆核酸内切酶以及酶的组合,比如5’-)3’核酸外切酶,比如T7核酸外切酶和S1或绿豆核酸内切酶)识别,这些酶会切割切口的相反链,产生线性产物。该产物然后可以被末端修复(如果需要),并与下一个衔接子连接。剩下的靶核酸的大小将被切口平移反应速度所控制,同样通过例如降低试剂(比如dNTPs)浓度,或通过在不是最佳的温度下进行反应。靶核酸的大小还可以通过切口平移反应的温育时间来控制。
其他实施方案中,可以利用切口平移法不经任何环化步骤的转换来形成核酸模板。图18中展示了这类方法的示范性实施方案,该图显示了利用以上描述的连接方法,比如通过用虾碱性磷酸酶处理靶核酸以除去磷酸基团从而控制可供与第一衔接子连接的靶核酸的末端,发夹形的第一衔接子1801与靶核酸1802连接。连接第一衔接子后,进行受控的双链特异性5’-3’核酸外切酶反应来产生单链3’端。在某些实施方案中,使用T7核酸外切酶进行核酸外切酶反应,虽然可以理解发明的这些实施方案中可以使用其他双链特异性核酸外切酶。其他实施方案中,核酸外切酶反应产生了长度大约100到大约3000碱基的单链3’端。再一些实施方案中,核酸外切酶反应产生长度大约150到大约2500、大约200到大约2000、大约250到大约1500、大约300到大约1000、大约350到大约900、大约400到大约800、大约450到大约700和大约500到大约600碱基的单链3’端。
可以理解,本文描述的切口平移过程可以与文中描述的任何其他添加衔接子的方法联用。例如,上面描述过并在图11A中示意的臂连臂连接过程可以与切口平移过程联用来制备用于PCR扩增的构建体。
其他实施方案中,臂连臂连接反应中使用的衔接子臂A可以设计成不需PCR直接环化,然后经切口平移连接封上圆环。在示范性实施方案中,用于直接环化,衔接子臂A可以设计成图11B画的那样。区段1101被设计成与衔接子臂B互补。图11B中的构建体可以通过链置换聚合酶(比如phi29)直接引物延伸,而不需要引物交换反应来除去被封闭的末端(聚合酶不会延伸跨过区段1102上的3’磷酸)。这个构建体还提供了用于环化的3’突出。区段1102防止衔接子臂A与衔接子臂B在环化前杂交。在某些实施方案中,可能不需要区段1102来防止与臂B杂交(比如当衔接子臂B处于非常高的浓度)或者区段1102可以作为衔接子臂B而不是衔接子臂A的设计的一部分。
产生单链3’端后,第二衔接子1803与靶核酸的单链3’末端杂交,通过切口平移连接反应(在一个实施方案中,所述切口平移连接是“引物延伸”或“缺口填平”反应)与第一衔接子相连。第二衔接子带有5’磷酸和3’封闭(标识为竖线1804)。某些实施方案中,3’封闭可以是可除去的封闭,比如3’磷酸,这在某些示范性实施方案中,可以利用多核苷酸激酶(PNK)和/或虾碱性磷酸酶除去。第二衔接子在某些实施方案中在3’和/或5’端带有简并碱基。某些示范性实施方案中,第二衔接子在5’端有大约2-6个简并碱基,在3’端有4-9个简并碱基,但可以理解,本发明涵盖第二衔接子一端或两端带有任何数量组合的简并碱基。在图18图示的实施方案中,第二衔接子包含5’端3个简并碱基(“N3”),3’端7个简并碱基(“N7”)。在某些实施方案中可以在有利于衔接子与靶核酸杂交的反应条件下实现第一衔接子与第二衔接子的接合。某些示范性实施方案中,这种反应条件可能包括从大约20到大约40℃的温度。可以在这种反应条件下使用的聚合酶包括但不限于phi29、Klenow、T4聚合酶和Pol I。
然后将连接产物1805变性和/或进一步用5’-3’核酸外切酶处理,之后通过重新退火步骤形成两个单链核酸分子(以图18中的“x2”指示)。在重新退火过程中,第二衔接子的N7部分可以与离第一杂交序列基元随机距离的区段杂交,从而形成单链圈1806。某些实施方案中,第二衔接子的N7末端可能不发生杂交,直至变性产生长的单链核酸区域1807。两个被捕获的基因组区段(它们的通常长度为大约20到大约200个碱基)的平均距离在许多实施方案中在大约0.5到大约20kb之间。这个平均距离部分取决于衔接子中简并碱基(“Ns”)的数量和杂交条件的严紧度。然后重新退火步骤之后可以进行另一轮衔接子杂交和切口平移连接。最后的衔接子(图18中,这个最后的衔接子显示为第三衔接子1808,但可以理解,最后的衔接子可以是按照本文描述的任何方法插入的第四、第五、第六、第七或更多衔接子)与第二衔接子类似,但在许多实施方案中缺少3’端的简并碱基。其他实施方案中,最后的衔接子可能包含扩增反应引物,例如PCR引物的结合位点。
其他实施方案中,扩增反应,比如PCR反应(参见图18中的1809),可以通过利用第一和最后的衔接子中包含的引物结合位点来进行。再一些实施方案中,第一和最后的衔接子可能是同一衔接子的两个臂,可以在添加最后的衔接子前插入一个以上衔接子。还有一些实施方案中,扩增产物可以用于形成环形双链核酸分子,以便利用本文描述的或者本领域已知的任何过程进一步插入衔接子。
IVD(iii).后续衔接子的受控插入:限制性核酸内切酶识别位点的保
除了如上所述控制插入靶核酸的衔接子的方向,还可以相对先前插入的衔接子以特定的位置在靶核酸中插入多个衔接子。这种方法包括的实施方案中,某些限制性核酸内切酶识别位点,特别是先前插入的衔接子中含有的识别位点,被保护不被失活。为了将随后的衔接子以希望的位置和方向连接,本发明提供的方法中II型限制性核酸内切酶与环形核酸构建体中第一衔接子内的识别位点结合,然后在第一衔接子外,基因组片段(文中又称为“靶核酸”)内的某个点切割。然后可以在发生切割的点上连接第二衔接子(同样一般是通过添加第二衔接子的两个衔接子臂)。为了在已知点切割靶核酸,有必要封闭靶核酸中可能随机包含的相同酶的任何其他识别位点,这样限制性核酸内切酶可以结合的唯一位点在第一衔接子内,从而避免对构建体进行不需要的切割。通常,首先保护第一衔接子中的识别位点不被失活,然后一般是通过甲基化将构建体中任何其他未被保护的识别位点失活。文中限制性核酸内切酶识别位点的“失活”意味着以某种方式使所述识别位点不能被限制性核酸内切酶结合,从而阻止了该酶的下游切割步骤。例如,甲基化的识别位点不能与限制性核酸内切酶结合,因此不发生切割。一旦核酸构建体中的所有未被保护的识别位点被甲基化,只有衔接子内的未甲基化识别位点允许酶结合以及随后的切割。使识别位点失活的其他方法包括但不限于给识别位点使用甲基化酶阻断剂、利用封闭寡核苷酸封闭识别位点、利用诸如锌指蛋白的其它封闭分子来封闭识别位点,以及给识别位点做切口来防止甲基化。这类保护所需识别位点的方法在2008年11月5日提交的美国专利申请12/265,593和2008年11月6日提交的12/266,385中有描述,为了所有目的,尤其是与在靶核酸中插入多个散在分布的衔接子有关的全部教导,这两份文献通过引用全文并入本文。
可以理解,以上描述的用于控制衔接子与靶核酸相互连接的方向的方法还可以与下文描述的控制每个随后加入的衔接子的间隔的方法联用。
本发明一个方面提供了保护第一衔接子中的识别位点不被失活的方法,所述方法通过使第一衔接子中的识别位点成为单链,这样只能将双链分子甲基化的甲基化酶不能甲基化被保护的识别位点。使第一衔接子中的识别位点单链化的一种方法是利用经尿嘧啶修饰的引物扩增与两个第一衔接子臂连接的线性基因组片段。引物与衔接子臂互补,并用尿嘧啶修饰,这样在扩增(通常利用PCR)时,得到的线性构建体含有镶嵌在一个衔接子臂的识别位点中的尿嘧啶。引物产生的PCR产物中尿嘧啶靠近第一衔接子的第一和/或第二臂中的II型限制性核酸内切酶识别位点。针对尿嘧啶进行消化使得衔接子臂中包括II型识别位点的区域被保护单链化。然后给线性构建体使用序列特异性甲基化酶,该酶将与第一衔接子中含有的相同核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能将第一衔接子臂中的单链识别位点甲基化,因此第一衔接子臂内的识别位点被保护免于通过甲基化失活。
某些情况中,如下文更充分描述的,单个衔接子可能有两个相同的识别位点,可以允许从同一衔接子的“上游”和“下游”切割。在该实施方案中,如图7阐述的,恰当地选择引物和尿嘧啶位置,从而使“上游”或“下游”识别位点选择性地受保护免于失活或被失活。
可以通过用与第一衔接子的第二臂中的识别位点(即开始通过甲基化被失活的识别位点)结合的限制性核酸内切酶切割来将第三衔接子插入到第一衔接子的另一侧。为了使这个识别位点可供使用,利用尿嘧啶修饰的引物(该引物与第一衔接子中的第二识别位点互补)扩增环形构建体产生第三线性构建体,其中第一衔接子包含镶嵌在第二限制性识别位点的尿嘧啶。降解尿嘧啶使第一衔接子单链化,从而保护衔接子中的识别位点不被甲基化。然后使用序列特异性甲基化酶将所有未被保护的识别位点失活。当环化时,第一衔接子中的识别位点重新构成,使用限制性核酸内切酶切割环形,产生第三衔接子可以在此插入第三线性构建体的位置。第三衔接子臂与第三线性构建体的连接遵循以上描述的同一大概程序-第三线性构建体将被加A或G尾,第三衔接子臂将被加T或C尾,使得衔接子臂与第三线性构建体退火,并连接。然后将包含第三衔接子臂的线性构建体环化形成第三环形构建体。与第二衔接子相同,第三衔接子通常包含的限制性核酸内切酶的识别位点与第一衔接子中含有的识别位点不同。
利用第二和第三衔接子中含有其识别位点的II型限制性核酸内切酶,可以加入第四衔接子。用这些限制性核酸内切酶进行切割产生第四线性构建体,然后与第四衔接子臂连接。连接了第四衔接子臂的第四线性构建体的环化将产生本发明的核酸模板构建体。
总的来说,本发明的方法提供了特异保护II型核酸内切酶识别位点不被失活的方式,这样一旦构建体中所有其他未保护识别位点失活后,加入II型核酸内切酶将导致与被保护位点的结合,因此可以控制构建体中何处发生随后的切割。以上描述的方法提供了如何保护所需识别位点不被失活的一种实施方案。可以理解,利用本领域已知技术可以改进上述方法,并且这些改进的方法也涵盖在本发明内。
在一个示范性实施方案中,每个随后插入的衔接子的插入方法中联用一些方法保护识别位点不被失活。图19图示的实施方案中第二衔接子以希望的位置相对第一衔接子插入,其采用的过程是组合使用尿嘧啶降解和切口酶来甲基化和保护不被甲基化。图19显示目的基因组DNA1902带有位于1904的II型限制性核酸内切酶识别位点。所述基因组DNA在过程1905中分级或片段化产生带有II型限制性核酸内切酶识别位点1904的片段1906。过程1907中衔接子臂1908和1910与片段1906连接。过程1911中,利用与衔接子臂1908和1910互补的尿嘧啶修饰的引物1912,经PCR扩增片段1906与第一和第二衔接子臂1908和1910(文库构建体)。引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程1913中,利用例如尿嘧啶-DNA糖基化酶(Krokan,et al.,(1997)Biochem.J.325:1-16)特异降解尿嘧啶,留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链的。正如已显示的,可以利用尿嘧啶的引入和降解使II型限制性核酸内切酶识别位点单链化;但是,正如本文进一步描述的,可以采用其他方法,包括使用3′或5′核酸外切酶有限地消化使这些区域单链化。
过程1915中,利用序列特异的切口酶将每个双链的II型限制性核酸内切酶识别位点做切口以便保护这些位点不被II型限制性核酸内切酶识别。但是,第一和第二衔接子臂1908和1910中单链的II型限制性核酸内切酶识别位点部分不会被切开,一旦环化并连接(1917),第一和第二衔接子臂中的II型限制性核酸内切酶识别位点重新形成,该II型限制性核酸内切酶识别位点可以被限制消化。当选择用于这个过程的切口酶和II型限制性核酸内切酶时,优选这两个酶识别相同的序列或者一个酶识别另一个酶的亚序列(某序列内的序列)。替代地,所述切口酶可以识别不同的序列,但是该序列位于衔接子内,因此切口酶在II型限制性核酸内切酶识别位点内切开。利用尿嘧啶或者3′或5′降解允许整个过程使用一种切口酶。替代地,可以采用一种以上序列特异性切口酶。然后在过程1919中用II型限制性核酸内切酶切割环化的构建体,其中II型限制性核酸内切酶识别位点指示为1922,构建体在1920切割,切口如1918所示,得到的线性构建体可以用于第二套衔接子臂在过程1921中连接添加到构建体中。
连接过程1921将第二衔接子的第一(1924)和第二(1926)衔接子臂加入线性化构建体,过程1923中经PCR进行第二次扩增,同样是使用与衔接子臂1924和1926互补的尿嘧啶修饰过的引物1928。与上面一样,引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程1925中,尿嘧啶被特异降解,留下的PCR产物在第二衔接子的第一和第二衔接子臂1924和1926中的II型限制性核酸内切酶识别位点是单链的。连接过程1921同样可以修复靶核酸片段1906中的II型限制位点1904中的切口1918。过程1927中,再次利用序列特异的切口酶将靶核酸片段(发生II型限制性核酸内切酶识别位点1904的切开1914)和第一衔接子1930中的双链II型限制性核酸内切酶识别位点的碱基切开,以保护这些位点不被II型限制性核酸内切酶识别。
带有切口的构建体然后在过程1929被环化和连接,其中第二衔接子的第一和第二臂1924和1926中的II型限制性核酸内切酶识别位点重新形成(1932),重复进行这一过程,环化的构建体在过程1931中被再次用II型限制性核酸内切酶切割产生另一个线性化的构建体(这个中已加入了第一和第二衔接子)供第三对衔接子臂1936和1938连接到构建体中。所述II型限制性核酸内切酶识别位点如1922所示,限制位点如1920所示,靶核酸片段中的被切开的II型限制性核酸内切酶识别位点如1918所示,第一衔接子中的切口如1934所示。可以重复这一过程以便加入所需数量的衔接子。正如这里显示的,第一个加入的衔接子含有一个II型限制性核酸内切酶识别位点;但是,在其他方面中,第一个加入的衔接子可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。
一个方面,衔接子可以设计成含有在II型限制性核酸内切酶识别位点周围或与之部分重叠的序列特异性切口酶位点。通过利用切口酶,可以选择性地保护每个衔接子中的II型限制性核酸内切酶识别位点不被甲基化。其他实施方案中,切口酶可以识别另一个序列或位点,但是在II型限制性核酸内切酶识别位点切开。切口酶是识别双链DNA中特异识别序列的核酸内切酶,并能在相对识别序列的特异位置切开一条链,从而在双链体DNA中造成单链断裂,切口酶包括但不限于Nb.BsrDI、Nb.BsmI、Nt.BbvCI、Nb.Bbv.Nb.BtsI和Nt.BstNBI。通过组合使用序列特异性切口酶和II型限制性核酸内切酶,靶核酸中的所有II型限制性核酸内切酶识别位点以及任何先前已插入的衔接子中的II型限制性核酸内切酶识别位点可以受到保护不被消化(当然假设II型限制性核酸内切酶是切口敏感的,即不会结合到已被切开的识别位点上)。
图20图示了发明所述方法的实施方案,其中利用甲基化和序列特异性切口酶选择了所需的第二衔接子与第一衔接子的相对位置。图20显示了目的基因组DNA 2002,其带有位于2004的II型限制性核酸内切酶识别位点。该基因组DNA在过程2005中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2004的片段2006。衔接子臂2008和2010在过程2007中连接至片段2006。带有衔接子臂2008和2010的片段2006(文库构建体)在过程2009中环化,在过程2011中通过环依赖性扩增被扩增,得到靶核酸片段2006(其中的II型限制性核酸内切酶识别位点位于2004)和第一衔接子2012交替的高度分支多联体。
过程2013中,序列特异性切口酶2030被用于在文库构建体中的衔接子里的特异II型限制性核酸内切酶识别位点中的或者其附近的核酸做切口,从而阻止这些位点的甲基化。这里,衔接子臂2012和2014中的II型限制性核酸内切酶识别位点被序列特异性切口酶2030切开。过程2015中,构建体中没有被切开的II型限制性核酸内切酶识别位点被甲基化(这里是II型限制性核酸内切酶识别位点2004的甲基化2016)以保护这些位点不被II型限制性核酸内切酶识别。但是,衔接子2012和2014中的II型限制性核酸内切酶识别位点因为有切口存在不被甲基化。
过程2017中,文库构建体中的切口被修复,产生的文库构建体中衔接子2012里的II型限制性核酸内切酶识别位点可以用于识别和限制性消化2018,而基因组片段2004中的II型限制性核酸内切酶识别位点不能。然后甲基化的构建体与第二对衔接子臂连接,环化,并借助环依赖扩增在过程2021扩增,得到靶核酸片段2006(II型限制性核酸内切酶识别位点在2004)、第一衔接子2012和第二衔接子2020交替的多联体。然后,在过程2023中,再次进行序列特异型切开,这次用的是识别第二衔接子2020中的位点的序列特异性切口酶,从而阻止第二衔接子2020中的II型限制性核酸内切酶识别位点的甲基化,但无助于构建体中的其他II型限制性核酸内切酶识别位点(即,片段中的II型限制性核酸内切酶识别位点2004和第一衔接子2012中的II型限制性核酸内切酶识别位点)。过程继续进行甲基化2015,如果需要可以进一步加入衔接子臂。每个不同衔接子中使用不同的序列特异性切口酶位点,以便整个过程中可以进行序列特异性切开。
图21图示的过程中利用甲基化和序列特异性甲基化酶阻断剂选择了所需的第二衔接子与第一衔接子的相对位置。图21显示了目的基因组DNA(靶核酸)2212,其带有位于2214的II型限制性核酸内切酶识别位点。该基因组DNA在过程2105中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2104的片段2106。衔接子臂2108和2110在过程2107中连接至片段2106。带有衔接子臂2108和2110的片段2106(文库构建体)在过程2109中环化,在过程2111中通过环依赖性扩增被扩增,得到靶核酸片段2106(其中的II型限制性核酸内切酶识别位点位于2104)和第一衔接子2112交替的高度分支多联体。
过程2113中,利用序列特异性甲基化酶阻断剂2130(比如锌指)来阻断文库构建体中特异II型限制性核酸内切酶识别位点发生甲基化。这里,衔接子臂2112和2114中的II型限制性核酸内切酶识别位点被甲基化酶阻断剂2130所封闭。当选择用于该过程的甲基化酶阻断剂和II型限制性核酸内切酶时,不需要这两个实体识别相同的位点序列或者一个实体识别另一个实体的亚序列。所述阻断剂序列可以在II型限制性核酸内切酶识别位点的上游或下游,但处于甲基化酶阻断剂封闭所述位点的构型(比如锌指或其他核酸结合蛋白或其他实体)。过程2115中,构建体中未被保护的II型限制性核酸内切酶识别位点被甲基化-这里,是II型限制性核酸内切酶识别位点2104的甲基化2116)-保护这些位点不被II型限制性核酸内切酶识别。但是,衔接子2112和2114中的II型限制性核酸内切酶识别位点因为存在甲基化酶阻断剂不被甲基化。
过程2117中,甲基化酶阻断剂从文库构建体中释放,得到的文库构建体中衔接子2112里的II型限制性核酸内切酶识别位点可以被识别和限制性消化2118,而基因组片段2104中的II型限制性核酸内切酶识别位点不能。然后将甲基化的构建体与第二对衔接子臂连接,环化,并在过程2121经环依赖性扩增被扩增,得到靶核酸片段2106(带有位于2104的II型限制性核酸内切酶识别位点)、第一衔接子2112和第二衔接子2120交替的多联体。然后,在过程2123中,再次进行甲基化酶封闭,这次是用识别第二衔接子2120中的位点的甲基化酶阻断剂来阻断第二衔接子2120中的II型限制性核酸内切酶识别位点的甲基化,但无助于构建体中其他的II型限制性核酸内切酶识别位点(即,片段中的II型限制性核酸内切酶识别位点2104和第一衔接子2112中的II型限制性核酸内切酶识别位点)。过程继续进行甲基化2115,如果需要可以进一步加入衔接子臂。每个不同衔接子中使用不同的甲基化酶阻断剂位点,以便整个过程中可以进行序列特异性甲基化酶阻断。虽然图9和21显示了第二衔接子相对第一衔接子的插入,应当明白这个过程可以应用于在第二衔接子之后加入的衔接子,产生带有多达四个、六个、八个、十个或更多个插入衔接子的文库构建体。
图22图示的过程中利用甲基化和尿嘧啶降解选择了所需的第二衔接子与第一衔接子的相对位置。图22显示了目的基因组DNA 2202,其带有位于2204的II型限制性核酸内切酶识别位点。该基因组DNA在过程2205中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2204的片段2206。衔接子臂2208和2210在过程2207中连接至片段2206。带有第一和第二衔接子臂2208和2210的片段2206(文库构建体)在过程2211中,利用与衔接子臂2208和2210互补的尿嘧啶修饰的引物2212经PCR扩增。引物产生的PCR产物中带有位于或者靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程2213中,利用例如尿嘧啶-DNA糖基化酶(Krokan,et al.,(1997)Biochem.J.325:1-16)特异降解尿嘧啶,留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链的。正如已显示的,可以利用尿嘧啶的引入和降解可以使II型限制性核酸内切酶识别位点单链化;但是,正如本文进一步描述的,也可以采用其他方法,包括使用3′或5′核酸外切酶有限地消化使这些区域单链化。
过程2215中,利用序列特异性甲基化酶将每个双链II型限制性核酸内切酶识别位点中的碱基甲基化(这里II型限制性核酸内切酶识别位点2204的甲基化2214),以保护这些位点不被II型限制性核酸内切酶识别。但是,第一和第二衔接子臂2208和2210中单链的II型限制性核酸内切酶识别位点不被甲基化,一旦环化和连接2217,II型限制性核酸内切酶识别位点重新形成2216,因此该II型限制性核酸内切酶识别位点可以被限制消化。但选择用于该过程的甲基化酶和II型限制性核酸内切酶时,这两种酶需要识别相同的序列或者一种酶识别的是另一种酶的亚序列(某序列内的序列)。然后在过程2219中,环化构建体被II型限制性核酸内切酶切割,其中II型限制性核酸内切酶识别位点显示位于2218,构建体在2220切割,得到线性化的构建体可以在过程2221中供第二套衔接子臂连接加入构建体。
连接过程2221在线性化的构建体中加入第二衔接子的第一(2222)和第二(2224)衔接子臂,过程2223中再次使用与衔接子臂2222和2224互补的尿嘧啶修饰的引物2226,经PCR进行第二次扩增。与上面一样,引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程2225中,尿嘧啶被特异降解,留下的PCR产物在第二衔接子的第一和第二衔接子臂2222和2224中的II型限制性核酸内切酶识别位点区域是单链的。过程2227中,再次利用序列特异性甲基化酶将靶核酸片段中双链的II型限制性核酸内切酶识别位点的碱基(同样,这是II型限制性核酸内切酶识别位点2204的甲基化2214)和第一衔接子2228中的II型限制性核酸内切酶识别位点的碱基甲基化,以保护这些位点不被II型限制性核酸内切酶识别。然后甲基化的构建体在过程2229中被环化,其中第二衔接子的第一和第二臂2222和2224中的II型限制性核酸内切酶识别位点重新形成2230,重复这一过程,在过程2219中再次用II型限制性核酸内切酶切割环化的构建体产生另一个线性构建体(这一个已加入第一和第二衔接子),以供第三对衔接子臂与构建体连接。可以重复这一过程以便加入所需数量的衔接子。正如这里显示的,第一个加入的衔接子含有一个II型限制性核酸内切酶识别位点;但是,在其他方面中,第一个加入的衔接子可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。
除了上述控制多个散在分布的衔接子的插入的方法,包含处于特定方向的衔接子的构建体还可以通过富集这样的构建体群来进一步挑选,这些构建体中带有的衔接子即处于所需方向。这类富集方法在美国专利申请60/864,992(11/09/06提交)、11/943,703(11/02/07提交)、11/943,697(11/02/07提交)、11/943,695(11/02/07提交)和PCT/US07/835540(11/02/07提交)中有描述,为了所有目的,特别是与挑选特定方向衔接子的方法和组合物有关的全部教导,这些文献均通过引用并入本文。
V.制备DNBs
一个方面中,本发明的核酸模板被用于制成核酸纳米球,其在文中又称为“DNA纳米球”、“DNBs”和“扩增子”。虽然本发明的核酸纳米球可以利用这里描述的方法由任何核酸分子制成,这些核酸纳米球通常是包含多拷贝发明所述核酸模板的多联体。
一个方面中,利用滚环复制(RCR)来产生本发明的多联体。RCR过程曾被用于制备连续拷贝的M13基因组(Blanco,et al.,(1989)J Biol Chem264:8935-8940)。在这种方法中,核酸经线性多联体化复制。本领域技术人员可以在许多参考文献中找到关于选择RCR反应的条件和试剂的指南,包括美国专利5,426,180、5,854,033、6,143,495和5,871,921,为了所有目的,特别是与利用RCR或其他方法制备多联体有关的全部教导,这些文献均通过引用全文并入本文。
通常,PCR反应成分包括单链DNA环、能够与DNA环退火的一或多种引物、具有链置换活性的DNA聚合酶,能够延伸与DNA环退火的引物的3’末端、核苷三磷酸和常规的聚合酶反应缓冲液。在允许引物退火到DNA环上的条件下将这些成分合并。通过DNA聚合酶延伸这些引物形成DNA环互补链的多联体。在某些实施方案中,本发明的核酸模板是双链环,这些双链环变性形成可以用于RCR反应的单链环。
某些实施方案中,环形核酸的扩增可以通过从含有所有可能序列的混合物中连续连接上短的寡核苷酸(例如6聚体),或者如果环是合成的,通过这些短寡核苷酸的有限混合物含有用于环复制的选定序列来实现,该过程被称为“环依赖性扩增”(CDA)。“环依赖性扩增”或“CDA”是指利用与环形模板的两条链均能退火的引物,多次置换扩增双链环形模板产生能够代表模板的两条链的产物,造成一系列多重-杂交、引物延伸和链置换事件。这导致引物结合位点的数量指数增加,结果产生的产物的量随时间也呈指数增加。所用引物可能是随机序列(例如,随机六聚体)或者具有特异序列以便选择用于所需产物的扩增。CDA导致一组多联体双链片段的形成。
在存在与靶分子的开头和末端均互补的桥连模板DNA的情况下,还可以通过将靶DNA连接,产生多联体。一群不同的靶DNA可借助相应桥连模板的混合物而在多联体内转换(converted)。
某些实施方案中,可以根据特定特征,比如所需数目或类型的衔接子来分离核酸模板群的一个亚组。这个群体可以利用常规技术(例如常规的离心柱等)进行分离或另外的加工(例如按大小挑选过)形成可以利用诸如RCR的技术由其产生多联体群的群体。
形成本发明的DNBs的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730(2007年10月31日提交)、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与形成DNB有关的全部教导,这些文献均通过引用全文并入本文。
VI.制备DNBs阵列
一个方面中,本发明的DNBs排列在表面上形成单个分子的随机阵列。DNBs可以通过多种技术,包括共价连接和非共价附着被固定在表面上。在一个实施方案中,所述表面可能包含与多核苷酸分子的成份(比如衔接子寡核苷酸)形成复合体,例如双链体的捕获探针。在其他实施方案中,捕获探针可能包含如美国专利5,473,060(Gryaznov等,全文并入本文)中描述的与衔接子形成三链螺旋的寡核苷酸钳,或者类似的结构。
形成本发明的DNBs阵列的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与形成DNBs阵列有关的全部教导,这些文献全部通过引用并入本文。
某些实施方案中,表面可能带有反应性功能团能够与多核苷酸分子上的互补功能团反应形成共价键,例如借助和附着cDNAs到阵列上所用的技术相同的方式,例如Smirnov et al(2004),Genes,Chromosomes&Cancer,40:72-77和Beaucage(2001),Current Medicinal Chemistry,8:1213-1244,这两份文献通过引用并入本文。DNBs还可以有效地附着到疏水性表面,比如带有低浓度的各种反应功能团(比如-OH基团)的干净的玻璃表面。经由多核苷酸分子和表面上的反应性功能团之间形成的共价键附着在本文中又称为“化学附着”。
在其他实施方案中,多核苷酸分子可以吸附到表面上。在这种实施方案中,多核苷酸通过与表面的非特异性相互作用,或者通过诸如氢键、范德华力等的非共价相互作用被固定。
附着可能还包括不同严紧度的清洗步骤以便除去没有完全附着的单个分子或来自前面的制备步骤的其他试剂,这些试剂的存在是不需要的或者它们非特异性地结合在表面。
一个方面中,表面上的DNBs被限定在分立区域面积内。分立区域可以是利用本领域已知的以及本文进一步描述的方法整合到表面上的。示范性实施方案中,分立区域含有反应性功能团或者可以用来固定多核苷酸分子的捕获探针。
所述分立区域可能位于规则阵列上的限定位置,可能对应着直线式样、六边形式样等。这些区域的规则阵列对于在分析过程中从阵列收集的信号的检测和数据分析是有益的。同时,局限于分立区域中的限定面积上的第一和/或第二阶段的扩增子可以提供更集中或强烈的信号,特别是当分析操作中使用荧光探针时,从而给出更高的信噪比。在某些实施方案中,DNBs随机分布在分立区域上,因此一个给定区域接收到任一不同单个分子的可能性相同。换句话说,这样得到的阵列不是在制造后立即可以立体寻址的,但可以通过执行鉴定、测序和/或解码操作成为可立体寻址的。这样,表面上排列的本发明的多核苷酸分子的身份是可以辨别的,但不是它们排列到表面上时开始就知道的。某些实施方案中,分立面积的选择,和附着化学物,采用的大分子结构等,与本发明的单分子大小对应,从而使得当单分子被施加到表面上基本每个区域被不超过一个单分子占据。某些实施方案中,DNBs排列在包含构成特定样式的分立区域的表面上,因此特异DNBs(在示范性实施方案中,通过标签衔接子或其他标记鉴定出来的)排列在特定的分立区域或一群分立区域上。
在某些实施方案中,分立区域的面积小于1μm2;在某些实施方案中,分立区域的面积在0.04μm2到1μm2的范围内;在某些实施方案中,分立区域的面积在0.2μm2到1μm2的范围内。在分立区域大约为圆形或方形,因此它们的大小可以通过单个线性尺寸来表示的实施方案中,这类区域的大小在125nm到250nm的范围内,或者在200nm到500nm的范围内。在某些实施方案中,最近的分立区域的中心到中心距离在0.25μm到20μm的范围内;某些实施方案中,这一距离在1μm到10μm的范围内,或者50到1000nm范围内。通常,所述分立区域被设计成它们中的大部分是可以光学分辨的。在某些实施方案中,所述区域可以以几乎任何样式安排在表面上,只要区域在样式中有限定的位置。
另外的实施方案中,分子被导向表面上的分立区域,因为分立区域之间的面积(文中称为“区域间面积”)是惰性的,因为多联体或其他大分子结构不与它们结合。某些实施方案中,可以用阻断剂,例如与多联体DNA无关的DNA、其他高分子等处理这种区域间面积。
有许多种支持物可以利用来与本发明的组合物和方法形成随机阵列。一个方面中,支持物是具有表面的刚性固体,优选基本上是平面区域,这样待询问的单分子处于同一平面。后一种特性允许通过例如检测光学进行有效的信号收集。另一方面,所述支持物包含珠子,这种情况中珠子表面含有可以用来固定多核苷酸分子的反应性功能团或捕获探针。
再一方面,本发明的固体支持物是无孔的,特别是当单分子随机阵列是通过杂交反应进行分析时,需要小体积。合适的固体支持物材料包括诸如玻璃、聚丙烯酰胺涂层的玻璃、陶瓷、硅石、硅、石英、各种塑料等的材料。一个方面中,平面区域的面积可以在0.5到4cm2的范围内。一个方面中,所述固体支持物是玻璃或石英,比如具有均匀硅烷化表面的显微镜载片。这可以使用常规试验方案来达到,例如酸处理后浸泡在80℃的3-缩水甘油醚氧丙基三甲氧基硅烷、N,N-二异丙基乙胺和无水二甲苯(8∶1∶24v/v)溶液中,形成环氧硅烷化的表面(例如Beattie et a(1995),Molecular Biotechnology,4:213)。这样的表面很容易经过处理被捕获寡核苷酸末端附着,例如通过在施加到表面前,给捕获寡核苷酸提供3’或5’三乙二醇磷酰间隔臂(参见以上引用的Beattie et al)。将表面功能化和进一步准备以用于本发明的其他实施方案在例如美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中有描述,为了所有目的,特别是与制备形成阵列的表面有关的全部教导以及与形成阵列、尤其是DNBs阵列有关的全部教导,以上文献均通过引用全文并入本文。
在本发明中要求分立区域处于特定样式的实施方案中,可以利用光刻法、电子术光刻、纳米压印光刻和纳米印刷在多种表面上产生这类样式,例如Pirrung et al,美国专利5,143,854、Fodor et al,美国专利5,774,305、Guo,(2004)Joumal of Physics D:Applied Physics,37:R123-141,这些文献通过引用并入本文。
一个方面中,含有复数个分立区域的表面是通过光刻法制造的。将商品光学平面的石英基片旋涂上100-500nm厚的光阻层。然后将光阻层烧到石英基片上。利用步进器,将带有待激活区域样式的标线图像投射到光阻层表面。曝光后,给光阻层显影,除去投射样式中暴露在UV源下的区域。这是通过等离子蚀刻,一种能够产生非常细微的细节的干式显影技术实现的。然后将基片烘烤来强化剩下的光阻层。烘烤后,石英晶片即可以进行功能化。然后将晶片经过3-氨基丙基二甲基乙氧基硅烷气相沉积。通过改变单体的浓度和基片的曝光时间,可以严格控制氨基功能化单体的密度。只有接受等离子蚀刻过程的石英区域可以与所述单体反应并捕获单体。然后基片再次被烘烤将单层的氨基功能化单体烤到暴露的石英上。烘烤后,用丙酮除去剩下的光阻剂。因为光阻剂和硅烷的附着化学特性的不同,基片上氨基硅烷功能化的面积在丙酮清洗过程中保持完整。可以通过与溶于吡啶和N-N-二甲基甲酰胺的溶液中的p-次亚苯基二异硫氰酸盐反应将这些面积进一步功能化。然后基片能够与胺修饰的寡核苷酸反应。替代地,可以用5’-羧基-改性剂-c10连接分子(Glen Research)将寡核苷酸准备好。这项技术允许寡核苷酸直接附着到胺修饰过的支持物上,从而避免另外的功能化步骤。
另一方面中,含有复数个分立区域的表面是通过纳米压印光刻法(NIL)制造的。为了制备DNA阵列,给石英基片旋涂一层光阻剂,通常被称为转移层。然后在转移层上施加第二类光阻剂,通常称为压印层。然后主压印工具在压印层上留下压痕。然后通过等离子蚀刻减小压印层的总厚度,直至压印层较低的区域碰到转移层。因为转移层比压印层更难除去,其基本不受影响。然后通过加热使压印层和转移层硬化。然后将基片放入等离子蚀刻仪,直至压印层较低的区域碰到石英。然后通过如上描述的气相沉积将基片衍生化。
另一方面中,含有复数个分立区域的表面是通过纳米印刷术制造的。这个过程利用光、压印或电子束刻印术产生主模具,它是打印头上需要的特征图样的负片图像。打印头通常是由软的柔性聚合物,比如聚二甲基硅氧烷(PDMS)制成的。属性不同的这种材料或者材料层旋涂到石英基片上。然后在控制好的温度和压力条件下,用模具将特征图样浮雕到光阻材料的表层。然后对打印头进行基于等离子的蚀刻过程以便提高打印头的长宽比,并消除由于被加浮雕的材料随时间松弛而造成的打印头的变形。随机阵列基片是利用纳米印刷术通过在均质衍生化表面上留下胺修饰的寡核苷酸图样制造的。这些寡核苷酸将作为RCR产物的捕获探针。纳米印刷术的一个可能的优势是能够将不同捕获探针的交织图样印刷到随机阵列支持物上。这可以用多个打印头通过接连印刷来实现,其中每个打印头带有不同图样,所有图样配合在一起形成最终的带结构的支持物图样。这类方法允许在随机阵列中对DNA元件进行一些定位编码。例如,含有特异序列的对照多联体可以以规律的间隔结合在随机阵列上。
再一方面中,利用打印头或压印主机(imprint-master)制备亚微米大小的捕获寡核苷酸点的高密度阵列,其中所述打印头或压印主机是由一束或多束大约10,000到1亿包含轴芯和被覆材料的光纤制备的。通过光纤的拉丝和熔接产生独特的材料,含有大约50-1000nm的轴芯,被类似大小或者小或大2-5倍大小的被覆材料隔开。通过被覆材料的差异蚀刻(溶解)获得含有非常大量纳米级的小杆(posts)的纳米打印头。这种打印头可以用于放置寡核苷酸或者其他生物(蛋白质、寡肽、DNA、适配子)或化学化合物,比如带有各种活性基团的硅烷。在一个实施方案中,玻璃纤维工具被用作带有图样的支持物来存放寡核苷酸或其他生物或化学化合物。这种情况中,只有通过蚀刻产生的小杆可以与待存放的材料接触。可以利用熔接纤维束平切来引导光穿过轴芯,只允许光诱发的化学物发生在轴芯头表面,因此不需要进行蚀刻。两种情况中,同一支持物然后可以作为给寡核苷酸或其他反应物贴标签使用的荧光标记成像的光导/收集装置。该装置提供具有大数值孔径(可能>1)的大视野。可以利用实施活性材料或寡核苷酸的存放的印章或印刷工具将2到100个不同的寡核苷酸印刷为交织的式样。这个过程需要将打印头精确地定位在大约50-500nm。这种类型的寡核苷酸阵列可以用于附着2到100个不同的DNA群体,比如不同的源DNA。它们还可以通过利用DNA特异性锚定分子或标签,用于平行读取亚光分辨率光点。可以通过DNA特异性标签(例如针对16种DNA的16种特异锚定分子)获取信息,通过5-6种颜色的组合,利用16个连接循环或者一个连接循环和16个解码循环来读取2个碱基。如果每个片段只需求有限的信息(例如,少量循环),这种制备阵列的方式是有效的,因此每个循环可以提供更多信息或者每个表面可以做更多循环。
一个方面,本发明的多重阵列可以放置在单个表面上。例如,可以生产定型的阵列基片与标准96或384孔板格式匹配。生产格式可以是在单片玻璃或塑料和其他光学兼容材料上的6mmx6mm阵列,间距9mm的8x12式样,或者3.33mmx3.33mm阵列,间距4.5mm的16x24式样。在一个实例中,每个6mmx6mm阵列由3千6百万个间隔1微米的250-500nm方形区域构成。可以利用疏水性或者其他表面的或物理的障碍来防止单元阵列之间发生不同反应的混合。
形成分子阵列的其他方法是本领域已知的,可以用来形成DNBs阵列。
可以理解,各种密度的本发明的DNBs和/或核酸模板可以放置在包含分立区域的表面上形成阵列。某些实施方案中,每个分立区域可能包含大约1到大约1000个分子。其他实施方案中,每个分立区域可能包含大约10到大约900、大约20到大约800、大约30到大约700、大约40到大约600、大约50到大约500、大约60到大约400、大约70到大约300、大约80到大约200、和大约90到大约100个分子。
在某些实施方案中,核酸模板和/或DNBs阵列的密度为每平方毫米至少有50万、1、2、3、4、5、6、7、8、9百万或者1千万个分子。
VII.DNBs的使用方法
根据以上描述的方法制备的DNBs在鉴定靶核酸的序列方面带来了优势,因为DNBs中含有的衔接子提供了已知序列点,当与使用锚定分子和测序探针的方法组合时,可以确定空间方位和序列。本发明中DNBs的使用方法包括给靶核酸测序和探测靶核酸中的特异序列(例如,探测特定的靶序列(例如,具体基因)和/或鉴定和/或探测SNPs)。文中描述的方法还可以用于检测核酸重排和拷贝数变化。核酸定量,比如数字化基因表达(即,分析样品中存在的整个转录子组-全部mRNA),和检测样品中特异序列或序列组的数量,也可以利用本文描述的方法来实现。尽管文中的大部分讨论是针对鉴定DNBs的序列,可以理解包含衔接子的其他非多联体核酸构建体也可以用于本文描述的实施方案中。
VIIA.cPAL测序的概述
按照本发明,如下文所述利用文中称为复合探针-锚定分子连接(“cPAL”)的方法及其改进形式鉴定DNBs的序列。简单来说,cPAL包括通过检测探针连接产物来鉴定靶核酸中特定检测位置上的核苷酸,所述探针连接产物是通过至少一个锚定探针和测序探针的连接形成的,其中的锚定探针与衔接子完全或部分杂交,测序探针在对应(例如,会杂交到)检测位置的“询问位点”上含有特定核苷酸。测序探针含有独特的鉴定标记。如果询问位点上的核苷酸与检测位置上的核苷酸互补,可以发生连接,形成的连接产物含有所述独特标记,即可被检测到。下文中提供了对cPAL方法的不同示范性实施方案的描述。可以理解,以下描述并非出于限制目的,下述实施方案的变形涵盖在本发明中。
“互补”或“基本互补”是指核苷酸或核酸之间的杂交或碱基配对或者形成双链体,比如象双链DNA分子两条链之间或者寡核苷酸引物和单链核酸上的引物结合位点之间。互补核苷酸一般是A和T(或A和U)或者C和G。当一条链的核苷酸,在最佳地比对和比较并适当地进行了核苷酸插入或缺失的情况下,与另一条链的至少大约80%、通常至少大约90%到约95%,甚至大约98%到100%配对,这两个单链RNA或DNA分子被称为基本互补。
“杂交”用于本文是指两个单链多核苷酸非共价结合形成稳定的双链多核苷酸的过程。得到的(通常)双链多核苷酸是“杂交体”或“双链体”。“杂交条件”一般包括低于大约1M,更常见的是低于大约500mM,可能是低于大约200mM的盐浓度。“杂交缓冲液”是缓冲盐溶液,比如5%SSPE或其他本领域已知的这类缓冲液。杂交温度可以低至5℃,但一般高于22℃,更典型的是高于大约30℃,一般超过37℃。杂交一般在严紧条件下进行,即那种探针能够与其靶亚序列杂交但不会与其他不互补的序列杂交的条件。严紧条件是序列依赖性的,在不同情形中是不同。例如,较长的片段可能需要比短片段更高的杂交温度以进行特异杂交。虽然其他因素,包括碱基组成和互补链长度、有机溶剂的存在以及碱基错配程度,可能影响杂交的严紧度,参数的组合比任何单独一个参数的绝对度量更重要。通常,严紧条件是在限定的离子强度和pH下,选择比特异序列的Tm低大约5℃的温度。示范性的严紧条件包括至少0.01M到不超过1M钠离子浓度(或其他盐)的盐浓度,pH大约7.0到大约8.3,温度至少25℃。例如,5x SSPE(750mMNaCl、50mM磷酸钠、5mM EDTA,pH 7.4)和30℃的条件适合等位特异探针杂交。严紧条件的其他实例是本领域已知的,参见例如Sambrook J et al.(2001),Molecular Cloning,A Laboratory Manual,(3rd Ed.,Cold Spring HarborLaboratory Press。
名词“Tm”用于本文通常是指半数的双链核酸分子解离成单链的温度。计算核酸的Tm的公式是本领域公知的。正如标准参考文献指出的,当核酸处于阳离子浓度为0.5M或更低的水溶液中,(G+C)含量在30%和70%之间,可以通过公式Tm=81.5+16.6(log10[Na+])0.41(%[G+C])-675/n-1.0m简单估计Tm值,n是碱基数,m是错配碱基对(参见例如,Sambrook J et al.(2001),Molecular Cloning,A Laboratory Manual,(3rd Ed.,Cold Spring Harbor Laboratory Press).其他参考文献包含更复杂的计算方法,这些方法在计算Tm时考虑到结构和序列特性(还可以参见,Anderson and Young(1985),Quantitative Filter Hybridization,Nucleic Acid Hybridization,and Allawi and SantaLucia(1997),Biochemistry 36:10581-94)。
在cPAL方法的一个实例中,如图23显示的文中称为“单一cPAL”,锚定探针2302与DNB 2301的衔接子2308中的互补区杂交。锚定探针2302与直接挨着靶核酸2309的衔接子区域杂交,但在某些情况中,如图24图示并在以下进一步描述的,可以通过在锚定探针末端引入希望数量的简并碱基,将锚定探针设计成可以“伸进”靶核酸。区别标记的测序探针集合2305与靶核酸的互补区杂交,通常通过使用连接酶,邻近锚定探针杂交的测序探针连接形成探针连接产物。测序探针通常是包含两个部分的寡核苷酸的组或集合,即询问位点上的不同寡核苷酸,和其他位置上的所有可能碱基(或通用碱基);因此每个探针代表特定位置上的每个碱基类型。测序探针标记有可检测的标记,将每个测序探针与在该位置含有其他核苷酸的测序探针区别开。因此,在图23显示的实例中,邻近锚定探针2302杂交并与该锚定探针连接的测序探针2310将鉴定出靶核酸中离衔接子5个碱基的位置上的碱基是“G”。图23描绘的情形中,询问碱基离连接位点5个碱基,但是正如以下更充分描述的,询问碱基可以离连接位点“更近”,某些情况中就在连接点。一旦连接好,洗去未发生连接的锚定和测序探针,利用标记检测阵列上存在的连接产物。锚定探针和测序探针的多重杂交和连接循环可以用来鉴定出DNB中每个衔接子每侧的靶核酸的希望数量的碱基。锚定探针和测序探针的杂交可以顺序或者同时发生。碱基测定(base call)的忠实度部分依赖于连接酶的忠实度,如果在连接位点附近有错配,通常不会连接。
本发明还提供了在每个杂交-连接循环中使用两个或以上锚定探针的方法。图25显示了“带有突出的双重cPAL”方法的另外一个实例,其中第一锚定探针2502和第二锚定探针2505各自与衔接子的互补区杂交。在图25显示的实例中,第一锚定探针2502与衔接子2511的第一区域完全杂交,第二锚定探针2505与和第一锚定探针杂交位置相邻的第二衔接子区互补。第二锚定探针不与第一锚定探针相邻的末端同样包含简并碱基。这样,第二锚定探针能够与靶核酸2512中靠近衔接子2511的区域(“突出”部分)杂交。第二锚定探针通常太短,不能独自保持在双链体杂交状态,但与第一锚定探针连接后形成较长的锚定探针,在随后的方法中能够稳定杂交。正如以上对“单一cPAL”方法的讨论,测序探针集合2508与衔接子-锚定探针双链体杂交,并连接在连在一起的锚定探针的末端5’或3’碱基上,所述测序探针集合代表靶核酸检测位置上每个碱基类型并标记了可检测的标记能够将每个测序探针与在该位置含有其他核苷酸的测序探针区分开。在图25显示的实例中,测序探针被设计成询问碱基距离测序探针2514和连接的锚定探针2513之间的连接点5’端5个核苷酸。因为第二衔接子探针2505在其5’端有5个简并碱基,它达到靶核酸2512之内5个碱基处,允许测序探针询问从靶核酸2512和衔接子2511之间的交界处开始的整整10个碱基。
在以上描述的双重cPAL方法的实例的某些变化中,如果第一锚定探针结束得更靠近衔接子的末端,第二衔接子探针将成比例地更简并,因此有更大的可能性不仅与第一衔接子探针末端连接,还能与DNB上多个位点上的其他第二衔接子探针连接。为了防止这种连接假象,可以选择性地活化第二锚定探针以便其参与和第一锚定探针或者测序探针的连接。这种活化方法在下文有更详细的描述,包括比如选择性地修饰锚定探针的末端从而使它们只能够以相对衔接子特定的方向与特定锚定探针或测序探针连接。
与以上描述的双重cPAL方法类似,可以理解使用三种或更多种锚定探针的也被本发明所涵盖。
此外,测序反应可以在每个衔接子的一端或两端进行,例如测序反应可以是“单向的”,在衔接子的3’或5或者另一端进行检测;或者反应可以是“双向的”,其中在衔接子的3’和5’检测位置检测碱基。双向测序反应可以同时进行,即衔接子两侧的碱基同时被检测;或者以任何顺序依次进行。
多循环cPAL(不管是单一、双重、三重的等)将鉴定到与衔接子相邻的靶核酸区域中的多个碱基。简单来说,通过循环进行锚定探针杂交和酶促连接反应,并将设计用于检测不同位置之核苷酸的测序探针集合从衔接子和靶核酸的交界处移开,重复cPAL方法询问靶核酸中多个相邻碱基。在任何给定循环中,所用的测序探针被设计成一个或多个位置上的一个或多个碱基的身份与附着在该测序探针上的标记的身份呼应。连接的测序探针(以及询问位点处的碱基)一旦被检测到,连接复合体即被剥离DNB,并进行新一轮衔接子和测序探针的杂交和连接。
可以理解,除了以上描述的cPAL方法,本发明的DNBs可以用于其他测序方法,包括其他连接法测序的方法以及其他测序方法,包括但不限于杂交法测序、合成法测序(包括引物延伸法测序)、可切割探针连接法链式测序(chained sequencing by ligation of cleavable probes)等。
与以上描述的类似的测序方法还可以用于检测靶核酸中的特异序列,包括检测单核苷酸多态性(SNPs)。这类方法中,将采用能够与特定序列(比如含有SNP的序列)杂交的测序探针。所述测序探针可以区别标记以鉴定靶核酸中存在哪个SNP。还可以将锚定探针与这类测序探针组合使用提供更高的稳定性和特异性。
VIIB.测序
本发明的一个方面提供了通过利用连接来测序的方法来鉴定DNBs的序列的方法。本发明一个方面提供了鉴定DNBs序列的方法,所述方法利用了复合探针-锚定分子连接(cPAL)法。通常,cPAL涉及通过检测探针连接产物来鉴定靶核酸中检测位置上的核苷酸,所述探针连接产物是由锚定探针和测序探针连接形成的。本发明的方法可以用于测定DNB和代表一部分或者全部基因组的许多DNBs中包含的靶核酸的部分或者全部序列。
正如本文进一步讨论的,每个DNB包含重复的单体单元,每个单体单元包含一或多个衔接子和靶核酸。靶核酸包含复数个检测位置。名词“检测位置”是指靶核酸中希望获得其序列信息的位置。正如本领域技术人员可以理解的,通常靶序列含有多个需要其序列信息的检测位置,例如象文中描述的全部基因组的测序。某些情况中,例如在SNP分析中,可能希望仅读取特定区域中的单个SNP。
本发明提供了组合使用锚定探针和测序探针的测序方法。文中使用的“测序探针”是指设计用于提供靶核酸特定检测位置上的核苷酸身份的寡核苷酸。测序探针与靶序列内的结构域杂交,例如第一测序探针可能与第一靶结构域杂交,第二测序探针与第二靶结构域杂交。名词“第一靶结构域”和“第二靶结构域”或文中的语法等同体意味着接受检验的核酸内靶序列的两个部分。第一靶结构域可能与第二靶结构域之间相邻,或者第一和第二靶结构域被插入的序列(例如衔接子)隔开。名词“第一”和“第二”并非希望传达序列就靶序列的5’-3’方向而言的方向。例如,假设互补靶序列是5′-3′方向,第一靶结构域可能位于第二结构域的5’方向,或者第二结构域的3’方向。测序探针可以重叠,例如第一测序探针可以与衔接子一个末端相邻的最开始的6个碱基杂交,第二测序探针可以与从衔接子末端开始的第4到第9个碱基杂交(例如当锚定探针有三个简并碱基)。替代地,第一测序探针可以与衔接子“上游”末端相邻的6个碱基杂交,第二测序探针可以与衔接子“下游”末端相邻的6个碱基杂交。
测序探针一般包含许多简并碱基和位于探针内特定位置上的特异核苷酸以便查询检测位置(文中又称为“询问位点”)。
一般来说,当利用简并碱基时,使用测序探针集合。就是说,具有序列“NNNANN”的探针实际上是一组含有5个位点上4种核苷酸碱基的所有可能组合,并且在第6个位点上是腺嘌呤的探针(即,1024种序列)。(如文中指出的,该技术还可以用于衔接子探针:例如,当衔接子探针含有“三个简并碱基”,它实际上是这样一组衔接子探针,其包含与锚定位点对应的序列和3个位点上的所有可能组合,所以是64种探针的集合)。
某些实施方案中,对于每个询问位点,可以将四个不同标记的集合合并到单个集合中,用于测序步骤。因此,在任何特定测序步骤中,使用4个集合,每个在询问位点带有不同的特异碱基,并有不同标记与询问位点的碱基对应。即,测序探针同样被标记,其中特定询问位点上的特定核苷酸所关联的标记与在相同询问位点带有不同核苷酸的测序探针的标记不同。例如,在一个步骤中可以使用四个集合:NNNANN-染料1、NNNTNN-染料2、NNNCNN-染料3和NNNGNN-染料4,只要这些染料是光学可分辨的。某些实施方案中,例如用于SNP检测,可能只需要包含两个集合,因为所述SNP只能是C或A等。类似的,某些SNPs包含三种可能。替代地,在某些实施方案中,如果反应是顺序而非同时进行的,可以使用同一染料,只是要在不同的步骤中:例如,可以在反应中单独使用NNNANN-染料1探针,检测到或者未检测到信号,洗去探针;任何引入第二个集合NNNTNN-染料1。
在本文描述的任何一种测序方法中,测序探针可以有多变的长度,包括大约3到大约25个碱基。其他实施方案中,测序探针的程度可能在大约5到大约20、大约6到大约18、大约7到大约16、大约8到大约14、大约9到大约12和大约10到大约11个碱基的范围内。
本发明的测序探针被设计成与靶序列中的序列互补,并且一般是完全互补,使得能够发生部分靶序列和发明所述探针的杂交。具体来说,询问位点碱基和检测位点碱基完全互补是非常重要的,除非它们的确完全互补本发明的方法不会产生信号。
许多实施方案中,测序探针和它们所杂交的靶序列是完全互补的;即,试验在如本领域已知的有利于形成完全碱基配对的条件下进行。本领域技术人员可以理解,与靶序列第一结构域完全互补的测序探针只能与相同靶序列的第二结构域基本互补;即本发明许多情况中依赖于使用一组探针,例如一组与某些靶序列完全互补,而不与其他互补的六聚体。
在某些实施方案中,取决于具体应用,序列探针和靶序列之间的互补性不需要是完美的;可以有任意数量的可能干扰靶序列和发明所述单链核酸之间杂交的碱基对错配。但是,如果错配数量太高,即使在最不严紧的杂交条件下都不能发生杂交,该序列不与靶序列互补。因此,文中的“基本互补”意味着测序探针与靶序列的互补程度足够在正常的反应条件下发生杂交。但对于多数应用来说,只有存在完全互补,条件才设定为有利于探针杂交的。替代地,要有足够的互补性以便连接酶反应发生,即序列的某些部分可能有错配,但询问位点的碱基应当在只有该位点存在完全互补,才允许连接发生。
某些情况中,本发明的探针在简并碱基之外或者代替简并碱基,还可以使用与一个以上碱基杂交的通用碱基。例如,可以使用肌苷。可以采用这些系统和探针成分的任意组合。
用于本发明的方法中的测序探针通常带有可检测的标记。文中的“标记”、“带有标记”意味着化合物至少附着了一种元素、同位素或化学物质从而能够对化合物进行检测。一般来说,用于本发明的标记包括但不限于同位素标记,可以是放射性或者重金属同位素、磁性标记、电子标记、热敏标记、显色和发光染料、酶和磁球等。用于发明的染料可以是生色团、磷或荧光染料,因为它们产生的信号强烈,可以提供良好的信噪比用于解码。测序探针还可以用量子点、荧光纳米珠或其他包含一个以上相同荧光团分子的结构。包含相同荧光团的多个分子的标记通常能提供更强的信号,对淬火的敏感性低于包含单个荧光团分子的标记。此处关于包含荧光团的标记的任何讨论应当理解为适用于包含单个或多个荧光团分子的标记。
本发明的许多实施方案中涉及使用荧光标记。适用于本发明的染料包括,但不限于荧光稀土(包括铕和铽的)配合物、荧光素、罗丹明、四甲基罗丹明、伊红、赤藓红、香豆素、甲基香豆素、芘、孔雀石绿(Malacite green)、芪类(stilbene)、萤光黄(Lucifer Yellow),Cascade BlueTM、Texas Red和第6版Molecular Probes Handbook by Richard P.Haugland中描述的其他染料,为了所有目的,特别是关于符合本发明的标记使用的全部教导,该文献通过引用明确全文并入本文。用于与任何核苷酸使用引入核酸的商品荧光染料包括,但不限于:Cy3&Cy5(Amersham Biosciences,Piscataway,New Jersey,USA)、荧光素、四甲基罗丹明、
Figure BPA00001188964800631
Figure BPA00001188964800632
Rhodamine GreenTM
Figure BPA00001188964800633
Figure BPA00001188964800634
(Molecular Probes,Inc.Eugene,OR,USA)、Quasar 570、Quasar 670、Cal Red610(BioSearch Technologies,Novato,Ca)。其他可供合成后附着的荧光团包括,
Figure BPA00001188964800635
Figure BPA00001188964800636
BODIPY 493/503、BODIPY FL、BODIPY R6G、BODIPY 530/550、BODIPY TMR、BODIPY 558/568、BODIPY558/568、BODIPY 564/570、BODIPY 576/589、BODIPY 581/591、BODIPY630/650、BODIPY 650/665、Cascade Blue、Cascade Yellow、Dansyl、丽斯胺罗丹明(lissamine rhodamine)B、Marina Blue、Oregon Green 488、OregonGreen 514、Pacific Blue、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、Texas Red(可从Molecular Probes,Inc.,Eugene,OR,USA购买)以及Cy2、Cy3.5、Cy5.5和Cy7(Amersham Biosciences,Piscataway,NJ USA,and others)等等。某些实施方案中,包括荧光素、Cy3、Texas Red、Cy5、Quasar 570、Quasar 670和Cal Red 610的标记被用于本发明的方法中。
可以利用本领域已知的方法将标记附着到核酸上形成本发明的标记测序探针,以及附着到核苷上的各种位置。例如,附着可以在核酸的一个或两个末端,或者在内部位置或者两种情况都有。例如,在一个实施方案中,标记可以通过酰胺或胺键附着到核糖-磷酸骨架中核糖的2’或3’位置(后一种情况用于末端标记)。还可以经由核糖-磷酸骨架中的磷酸来进行附着,或者附着到核苷酸的碱基上。标记可以附着到探针的一个或两个末端,或者沿着探针上的任何一个核苷酸上。
根据所希望的询问位点,测序探针的结构有所不同。例如,对于标记了荧光团的测序探针,每个测序探针中的一个位点将与标记探针使用的荧光团的身份呼应。一般来说,荧光团分子会被附着到测序探针中将与锚定探针连接的末端相反的一端。
文中使用的“锚定探针”意味着被设计成与衔接子的至少一部分(文中称为“锚定位点”)互补的寡核苷酸。如文中所述,衔接子可以含有多个锚定位点与多个锚定探针杂交。正如文中进一步讨论的,用于本发明的锚定探针可以设计成与衔接子杂交,从而使锚定探针的至少一端与衔接子一个末端齐平(“上游”或“下游”或者这两者)。其他实施方案中,锚定探针可以设计成与衔接子的至少一部分(第一衔接子位点)和邻接衔接子的靶核酸中的至少一个核苷酸(“突出”)杂交。如图24所示,锚定探针2402包含与衔接子的一部分互补的序列。锚定探针2402在一个末端也包含4个简并碱基。这一简并性允许锚定探针群体的一部分与邻接衔接子的靶核酸序列完全或部分匹配,并允许锚定探针与衔接子杂交并伸进与衔接子邻接的靶核酸,而无论与衔接子邻接的靶核酸的核苷酸身份为何。锚定探针末端碱基移到靶核酸内使得待测定的碱基位点更靠近连接位点,从而保持了连接酶的忠实性。一般来说,如果探针与其杂交的靶核酸区域完全互补,连接酶能够更高效地连接探针,但是连接酶的忠实度随着离开连接位点的距离增加而下降。因此,为了减少和/或防止测序探针和靶核酸之间不正确配对造成的错误,保持待检测核苷酸与测序和锚定探针的连接位点之间的距离可能是有用的。通过设计使锚定探针伸进靶核酸,可以保持连接酶的忠实度,但仍然能够鉴定到更多数量的与每个衔接子连接的核苷酸。虽然图24显示的实施例是测序探针与衔接子一侧的靶核酸区域杂交,可以理解测序探针杂交到衔接子另一侧的实施方案也涵盖在本发明中。在图24中,“N”代表简并碱基,“B”代表未测定序列的核苷酸。正如可以理解的,在某些实施方案中,可以使用通用碱基而非简并碱基。
本发明的锚定探针可以包含使得锚定探针能与DNB,通常是DNB上的衔接子杂交的任何序列。这类锚定探针可能包含这样的序列,当锚定探针与衔接子杂交时,锚定探针的全部长度包含在衔接子中。某些实施方案中,锚定探针可以包含与衔接子的至少一部分互补的序列,还包含能够与邻接衔接子的靶核酸杂交的简并碱基。某些示范性实施方案中,锚定探针是包含3个与衔接子互补的碱基和3个简并碱基的六聚体。某些示范性实施方案中,锚定探针是包含3个与衔接子互补的碱基和5个简并碱基的8聚体。其他实施方案中,特别是使用了多种锚定探针时,第一锚定探针在一端包含多个与衔接子互补的碱基,另一端包含简并碱基,而第二锚定探针包含的全部是简并碱基,被设计成与第一锚定探针包含简并碱基的一端相连接。可以理解,这些是示范性的实施方案,已知和简并碱基的多种组合可以用于产生适合本发明使用的锚定探针。
本发明提供了鉴定DNBs序列的连接法测序方法。某些方面中,本发明的连接法测序方法包括提供不同组合的锚定探针和测序探针,这两种探针当杂交到DNB上相邻区域时,可以连接形成探针连接产物。然后检测探针连接产物,可以提供靶核酸中的一或多个核苷酸的身份。文中使用的“连接”是指将两个或多个核苷酸相互连在一起的任何方法。连接可以包括化学和酶法连接。一般来说,文中讨论的连接法测序方法利用连接酶进行酶法连接。发明中使用的这类连接酶可以和以上讨论的用于形成核酸模板的连接酶相同或不同。这类连接酶包括但不限于DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV、大肠杆菌DNA连接酶、T4 DNA连接酶、T4 RNA连接酶1、T4 RNA连接酶2、T7连接酶、T3 DNA连接酶和热稳定连接酶(包括但不限于Taq连接酶)等。正如以上讨论的,连接法测序方法经常依赖连接酶的忠实度,只将和它们所杂交的核酸完全互补的探针连接起来。这一忠实度随着探针中特定位点上的碱基和两个探针之间的连接点的距离的增加而下降。因此,常规的连接法测序方法只能鉴定到有限数量的碱基。正如文中进一步描述的,本发明采用多个探针集合来提高可以鉴定的碱基数量。
多种杂交条件可以用于连接法测序方法和文中讨论的其他测序方法。这些条件包括高、中等和低严紧度条件,参见通过引用并入本文的例如Maniatis et al.,Molecular Cloning:A Laboratory Manual,2d Edition,1989,和Short Protocols in Molecular Biology,ed.Ausubel,et al。严紧条件是序列依赖性的,并且在不同情形中是不同的。较长的序列在较高温度特异杂交。关于核酸杂交的全面指南可见于Tijssen,Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes,″Overview of principles of hybridization and the strategy of nucleic acid assays,″(1993)。通常,严紧条件选择比特异序列在限定离子强度和pH的熔点(Tm)低大约5-10℃。Tm是平衡时,与靶互补的探针有50%杂交到靶序列时的温度(限定离子强度、pH和核酸浓度下)(因为存在着过量的靶序列,在Tm,50%的探针在平衡时被占据)。严紧条件可以是这样一些条件,其中盐浓度低于大约1.0M钠离子,一般是大约0.01到1.0M钠离子浓度(或其他盐),pH 7.0到8.3,温度对于短的探针(例如,10到50个核苷酸)是至少大约30℃,对于长探针(例如,超过50个核苷酸)是至少大约60℃。严紧条件还可以通过加入诸如甲酰胺的螺旋去稳定剂来达到。如本领域已知的,当使用非离子型骨架,即PNA时,杂交条件也可能发生变化。此外,可以在靶结合后,加入交联剂来将杂交复合体的两条链交联,即共价附着。
虽然关于测序方法的描述是就本发明的核酸模板而言的,可以理解,正如本文描述的,这些测序方法也涵盖了鉴定由这些核酸模板产生的DNBs的序列。
对于本领域已知的和文中描述的利用本发明的核酸模板进行的任何测序方法,本发明提供了确定靶核酸中至少大约10到大约200个碱基的方法。其他实施方案中,本发明提供了确定靶核酸中至少约20到约180、约30到约160、约40到约140、约50到约120、约60到约100和约70到约80个碱基的方法。还有一些实施方案中,测序方法被用于鉴定邻接发明所述核酸模板中的每个衔接子的一端或两端的至少5、10、15、20、25、30或更多碱基。
本文描述的和本领域已知的任何测序方法都可以应用到处于溶液中的本发明的核酸模板和/或DNBs,或者排列在表面和/或阵列中的核酸模板和/或DNBs。
VIIB(i).单一cPAL
本发明一个方面提供了通过利用测序探针和锚定探针的组合来鉴定DNBs的序列的方法,其中所述测序和锚定探针杂交到DNB的相邻区域,并通常通过使用连接酶连接在一起。这种方法文中一般称为cPAL(复合探针-锚定分子连接)法。一个方面中,本发明的cPAL法产生包含单一锚定探针和单一测序探针的探针连接产物。只使用单一锚定探针的cPAL方法在文中称为“单一cPAL”。
图23显示了单一cPAL的一个实施方案。DNB的单体单元2301包含靶核酸2309和衔接子2308。锚定探针2302与衔接子2308上的互补区域杂交。在图23显示的实例中,锚定探针2302与直接邻接靶核酸2309的衔接子区域杂交,虽然如文中进一步讨论的,也可以通过在锚定探针末端引入需要数量的简并碱基,将锚定探针设计成可以伸进邻接衔接子的靶核酸内。区别标记的测序探针集合2306与靶核酸中的互补区域杂交。邻接锚定探针2302,与靶核酸2309的区域杂交的测序探针2310与锚定探针连接形成探针连接产物。当探针中询问位点的碱基与靶核酸的检测位点中的未知碱基互补时,杂交和连接的效率增加。这一增加的效率有利于完全互补的(而不是含有错配的)测序探针和锚定探针连接。如上文讨论过的,连接通常是利用连接酶经酶促实现的,但也可以使用适合本发明的其他连接方法。图23中,“N”代表简并碱基,“B”蛋白未确定序列的核苷酸。可以理解,某些实施方案中,可以使用通用碱基代替简并碱基。
正如上文还讨论过的,测序探针可以是代表特定位点上各种碱基类型并标记来可检测标记的寡核苷酸,其中所述标记可以将每种测序探针与在该位置上带有其他核苷酸的测序探针区分开。因此,在图23显示的实例中,邻接锚定探针2302杂交并被连接到该锚定探针上的测序探针2310鉴定出靶核酸中离衔接子5个碱基的位点上的碱基是“G”。可以利用多个循环的锚定探针和测序探针杂交和连接来鉴定出DNB中每个衔接子每侧的靶核酸中希望数量的碱基。
可以理解,文中描述的任何cPAL方法中的锚定探针和测序探针的杂交可以是顺序的或同时的。
在图23显示的实施方案中,测序探针2310杂交到衔接子“上游”区域,但可以理解,所述测序探针也可以与衔接子“下游”杂交。名词“上游”和“下游”是指取决于系统的方向,在衔接子5’和3’方向的区域。一般来说,“上游”和“下游”是相对名词,不是限制性的;它们只是为了便于理解。如图6所示,测序探针607可以杂交到衔接子604下游,从而鉴定出距离衔接子和靶核酸603的交界处4个碱基的核苷酸。其他实施方案中,测序探针可以与衔接子上游和下游杂交来鉴定衔接子两侧的核酸位点上的核苷酸。这些实施方案允许单一cPAL方法中每个杂交-连接-检测循环,由每个衔接子产生多个信息点。
某些实施方案中,用于单一cPAL方法的探针可能含有对应衔接子的大约3到大约20个碱基,以及大约1到大约20个简并碱基(即,锚定探针集合中)。这些锚定探针还可以包含通用碱基,以及简并碱基和通用碱基的组合。
某些实施方案中,含有简并碱基的锚定探针,为了增加简并碱基完全匹配杂交的稳定性,可能与衔接子序列有大约1-5个错配。这样的设计提供了另一种方式来控制连接在一起的锚定和测序探针的稳定性,以便有利于那些与靶(未知)序列完全匹配的探针。其他实施方案中,锚定探针中简并碱基部分的多个碱基可以用脱碱基位点(即糖上没有碱基的位点)或其他核苷酸类似物代替来影响杂交探针的稳定性,从而有利于锚定探针简并部分的远端(如文中所述将参与和测序探针的连接反应)形成完全匹配杂交体。可以在内部的碱基,特别是包含大量(即5个以上)简并碱基的锚定探针的内部碱基引入这类修饰。此外,如下文进一步描述的,锚定探针远端的某些简并或通用碱基可以设计成杂交后可以切割(例如通过引入尿嘧啶)从而为测序探针或第二锚定探针产生连接位点。
其他实施方案中,可以通过操纵反应条件,例如杂交的严紧度来控制锚定探针的杂交。在示范性实施方案中,锚定杂交过程可以从高严紧度(较高的温度、较低盐浓度、较高pH、甲酰胺浓度较高等)条件开始,这些条件可以逐渐或逐步放松。这可能需要连续的杂交循环,其中不同锚定探针集合被移开,然后加入随后的循环中。这样的方法提供了更高百分比的靶核酸被完全互补的锚定探针占据,特别是在将与测序探针连接的远端位点完全互补的锚定探针。还可以控制各严紧度条件下的杂交时间来获得更多数量的完全匹配杂交体。
VIIB(ii).双重(及以上)cPAL
再一些实施方案中,本发明提供了每个杂交-连接循环中使用两种连接在一起的锚定探针的cPAL方法。参见例如美国专利申请60/992,485、61/026,337、61/035,914和61/061,134,这些文献通过引用全文,特别是实施例和权利要求并入本文。图25显示了“双重cPAL”方法的一个实例,其中第一锚定探针2502和第二锚定探针2505杂交至衔接子的互补区域;即第一锚定探针与第一锚定位点杂交,第二锚定探针与第二锚定位点杂交。在图25显示的实例中,第一锚定探针2502与衔接子2511的一个区域(第一锚定位点)完全互补,第二锚定探针2505与邻接第一锚定探针杂交位点的衔接子区域(第二锚定位点)互补。一般说来,第一和第二锚定位点是相邻的。
第二锚定探针任选在不与第一锚定探针相邻的那个末端也包含简并碱基,因此它将与靶核酸2512中邻接衔接子2511的区域杂交。这使得能够获得离衔接子/靶交界处更远的靶核酸碱基的序列信息。同样,如文中概括的那样,说到探针含有“简并碱基”时,意味着该探针实际上包含一组探针,是简并位点所有可能序列的组合。例如,如果锚定探针长度为9个碱基,有6个已知碱基和3个简并碱基,则锚定探针实际上是64种探针的集合。
第二锚定探针通常太短,不能单独维持双链体杂交状态,但是在与第一锚定探针连接后,形成较长的在随后的方法中稳定的锚定探针。某些实施方案中,第二锚定探针含有与衔接子互补的大约1到大约5个碱基和大约5到大约10个简并序列的碱基。正如以上“单一cPAL”方法中讨论过的,代表靶核酸检测位点的每个碱基类型并标记了可检测标记(能将每个测序探针与在该位点带有其他核苷酸的测序探针区分开)的测序探针集合2508与衔接子-锚定探针双链体杂交2509,并连接到相连的锚定探针的末端5’或3’碱基上。在图25所示的实例中,测序探针被设计成询问距离测序探针2514和相连的锚定探针2513之间的连接点5’方向5个位点的碱基。因为第二锚定探针2505在其5’端有5个简并碱基,它向靶核酸2512伸进5个碱基,允许测序探针在距离靶核酸2512和衔接子2511之间的交界处整整10个碱基的地方进行询问。图25中“N”代表简并碱基,“B”代表未确定序列的核苷酸。可以理解,某些实施方案中,可以使用通用碱基代替简并碱基。
在某些实施方案中,第二锚定探针可能含有与衔接子对应的大约5-10个碱基和与靶核酸对应的一般是简并碱基的大约5-15个碱基。该第二锚定探针可能首先在最佳条件下进行杂交,从而有利于高百分比的靶序列在两种锚定探针连接点周围的少数碱基上是完全匹配杂交的。第一衔接子探针和/或测序探针可以在单一步骤中或顺序地杂交并连接至第二锚定探针。某些实施方案中,第一和第二锚定探针可能在它们的连接点有大约5到大约50个互补碱基不与衔接子互补,因此形成“分支”杂交体。这种设计允许杂交的第二锚定探针的衔接子特异性稳定。某些实施方案中,第二锚定探针在与第一锚定探针杂交前先连接到测序探针上;某些实施方案中,第二锚定探针在与测序探针杂交前,先连接到第一锚定探针上;某些实施方案中,第一和第二锚定探针以及测序探针同时杂交,第一和第二锚定探针之间以及第二锚定探针和测序探针之间同时或基本同时发生连接,而在其他实施方案中,第一和第二锚定探针之间的以及第二锚定探针和测序探针之间的连接以任何顺序依次发生。可以利用严紧清洗条件来除去未发生连接的探针(例如,温度、pH、盐、含有最佳浓度的甲酰胺的缓冲液都可以使用,其中的最佳条件和/或浓度利用本领域已知方法确定)。这种方法在使用带有大量简并碱基的第二锚定探针的方法中尤其有用,其中所述简并碱基在锚定探针和靶核酸之间的相应交接点以外杂交。
特定实施方案中,双重cPAL方法利用两种锚定探针的连接,其中一个锚定探针与衔接子完全互补,第二个锚定探针全部是简并碱基(同样,实际上是探针集合)。图26显示了这类双重cPAL方法的一个实例,其中第一锚定探针2602与DNB2601的衔接子2611杂交。第二锚定探针2605全部是简并碱基,因此能够与邻接衔接子2611的靶核酸区域中的未知核苷酸杂交。第二锚定探针被设计成短得无法单独维持在双链体杂交状态,但在与第一锚定探针连接后形成较长的相连锚定探针构建体,提供了cPAL过程中后续步骤需要的稳定性。完全简并的第二锚定探针在某些实施方案中可以长大约5到大约20个碱基。为了较长的长度(即,10个碱基以上),可以对杂交和连接条件进行改动以降低简并锚定探针的有效Tm。较短的第二锚定探针通常会与靶核酸和衔接子非特异性地结合,但它的较短长度影响杂交动力学,因此一般来说只有那些与邻接衔接子和第一锚定探针的区域完全互补的第二锚定探针有能力使连接酶将第一和第二锚定探针连在一起,产生较长的相连锚定探针构建体。非特异杂交的第二锚定探针没有能力与DNB杂交足够长的时间以便随后与任何相邻杂交的测序探针发生连接。某些实施方案中,第二和第一锚定探针连接后,通常通过清洗步骤除去任何没有连接的锚定探针。图26中,“N”代表简并碱基,“B”代表未确定序列的核苷酸。可以理解,在某些实施方案中,可以使用通用碱基代替简并碱基。
其他示范性实施方案中,第一锚定探针是包含3个与衔接子互补的碱基和3个简并碱基的六聚体,而第二锚定探针仅包含简并碱基,并且第一和第二锚定探针被设计成只有第一锚定探针带有简并碱基的末端能够与第二锚定探针连接。其他示范性实施方案中,第一锚定探针是包含3个与衔接子互补的碱基和5个简并碱基的8聚体,同样第一和第二锚定探针被设计成第一锚定探针只有带有简并碱基的末端能够与第二锚定探针连接。可以理解,这些是示范性实施方案,已知的和简并碱基的许多种组合可以用在第一和第二(某些实施方案中,第三和/或第四)锚定探针的设计中。
在上述双重cPAL方法的实例的改进方法中,如果第一锚定探针结束在更靠近衔接子的末端处,第二锚定探针将成比例地含有更多简并碱基,因此更有可能不仅与第一锚定探针末端连接,还会与DNB上多个位点的其他第二锚定探针连接。为了防止这类连接假象,可以选择性地活化第二锚定探针使它限于与第一锚定探针或测序探针的连接。这类活化包括选择性地修饰锚定探针的末端,使它们只能与相对衔接子特定方向的特定锚定探针或测序探针连接。例如,可以给第二锚定探针引入5’和3’磷酸基团,这样被修饰的第二锚定探针能够与杂交到衔接子上的第一锚定探针的3’端连接,但两个第二锚定探针不能相互连接(因为3’末端被磷酸化,将阻止酶促连接)。一旦第一和第二锚定探针连在一起来,可以通过除去3’磷酸基团(例如用T4多核苷酸激酶或者诸如虾碱性磷酸酶和小牛肠磷酸酶的磷酸酶)来活化第二锚定探针的3’端。
如果希望连接发生在第二锚定探针的3’端和第一锚定探针的5’端,可以设计和/或修饰第一锚定探针使其5’端被磷酸化,设计和/或修饰第二锚定探针使其不带有5’或3’磷酸。同样,第二锚定探针将能够与第一锚定探针连接,但不能与其他第二锚定探针连接。第一和第二锚定探针连接之后,可以在第二锚定探针的自由末端上引入5’磷酸基团(例如,通过使用T4多核苷酸激酶)使它可用于在cPAL过程的随后步骤中与测序探针连接。
某些实施方案中,两种锚定探针被同时加到DNBs。某些实施方案中,两种锚定探针是顺序加给DNBs,允许一种锚定探针在另一种之前与DNBs杂交。某些实施方案中,在第二衔接子与测序探针连接之前,两种锚定探针先相互连接。某些实施方案中,锚定探针和测序探针在一个步骤中连接。两种锚定探针和测序探针是在一个步骤中连接的实施方案中,可以将第二衔接子设计成有足够的稳定性维持其位置,直至三种探针(两种锚定探针和测序探针)就位进行连接。例如,可以使用包含5个与衔接子互补的碱基和5个用于与邻接衔接子的靶核酸区域杂交的简并碱基的第二锚定探针。这样的第二锚定探针可能有足够的稳定性在低严紧洗涤时维持,因此在第二锚定探针杂交和测序探针杂交步骤之间不需要连接步骤。在随后的测序探针与第二锚定探针的连接步骤中,第二锚定探针也将连接到第一锚定探针上,产生的双链体稳定性高于单独的任何一种锚定探针或测序探针。
与以上描述的双重cPAL方法类似,可以理解,有三种或更多种锚定探针的cPAL也涵盖在本发明中。这些锚定探针可以按照本文描述的和本领域已知的方法设计成在与衔接子区域杂交时,其中一种锚定探针的一个末端可以与邻接末端锚定探针杂交的测序探针连接。示范性实施方案中,提供了三种锚定探针-两种与衔接子内的不同序列互补,第三种包含简并碱基与靶核酸内的序列杂交。其他实施方案中,与衔接子内的序列互补的两种锚定探针之一其末端还可以包含一或多个简并碱基,以便该锚定探针伸进靶核酸内与第三锚定探针连接。其他实施方案中,锚定探针中的一种可能与衔接子完全或部分互补,第二和第三锚定探针完全是简并碱基用于与靶核酸杂交。其他实施方案中,四个或多个完全简并的锚定探针可以与三个相连的锚定探针顺序连接,从而使测定进一步延伸进靶核酸序列内。在示范性实施方案中,包含与衔接子互补的12个碱基的第一锚定探针可以与第二六聚体锚定探针连接,所述六聚体锚定探针中的6个碱基全部是简并碱基。同样是完全简并的六聚体的第三锚定分子也可以与第二锚定探针连接,进一步伸进靶核酸未知序列内。还可以加入第四、第五、第六等锚定探针以便进一步延伸进未知序列内。再一些实施方案中,根据本文描述的任何cPAL方法,一种或多种锚定探针可以包含一种或多种标记,所述标记用于给锚定探针做“标签”和/或用于鉴定DNB的衔接子上杂交的特定锚定探针。
VIIB(iii).检测荧光标记的测序探针
正如以上讨论的,可以用各种标记将用于本发明的测序探针可检测地标记。虽然以下描述主要是针对测序探针以荧光团标记的实施方案,可以理解,使用了包含其他类型标记的测序探针的类似实施方案也涵盖在本发明中。
多个循环的cPAL(无论是单一、双重、三重等)将鉴定到邻接衔接子的靶核酸区域内的多个碱基。简单来说,通过循环进行锚定探针杂交和酶促连接反应,并从衔接子和靶核酸的交界处移走测序探针集合(设计用于检测不同位点的核苷酸)来重复进行cPAL方法以便询问靶核酸内的多个碱基。任何给定循环中,使用的测序探针被设计成一或多个位点上的一或多个碱基的身份与附着在该测序探针上的标记的身份呼应。一旦对发生连接的测序探针(以及因此询问位点的碱基)进行了检测,连接复合体即被剥离DNB,执行新一轮的衔接子和测序探针杂交和连接。
一般来说,通常使用四个荧光团来鉴定测序探针内询问位点上的碱基,每个杂交-连接-检测循环查询一个碱基。但是,可以理解,使用8、16、20和24或更多种荧光团的实施方案也涵盖在本发明内。增加荧光团的数量将增加任意一个循环中可以鉴定的碱基的数量。
一个示范性实施方案中,采用了具有以下结构的一组7聚体测序探针集合:
3’-F1-NNNNNNAp
3’-F2-NNNNNNGp
3’-F3-NNNNNNCp
3’-F4-NNNNNNTp
其中的“p”代表可供连接的磷酸,“N”代表简并碱基。F1-F4代表四种不同的荧光团-因此每种荧光团与特定的碱基相关联。这组示范性探针在测序探针与杂交到衔接子的锚定探针连接后,能够检测出紧邻衔接子的碱基。就用于连接测序探针和锚定探针的连接酶能够区别探针询问位点的碱基和靶核酸检测位点的碱基之间的互补性而言,测序探针杂交和连接时将检测到的荧光信号提供了靶核酸检测位点的碱基身份。
某些实施方案中,一组测序探针将包含三种区别标记的测序探针,留下第四种任选的测序探针未标记。
进行杂交-连接-检测循环后,将锚定探针-测序探针连接产物剥离,开始新的循环。某些实施方案中,可以获取距离锚定探针和测序探针之间的连接点6个或更多个碱基,以及距离靶核酸和衔接子之间的交界处12个或更多个碱基的准确序列信息。利用本文描述的方法,包括使用带有简并末端能够进一步伸进靶核酸内的锚定探针,可以增加能够被鉴定的碱基数量。
可以利用本领域已知的方法,包括利用诸如Metamorph(Molecular Devices,Sunnyvale,CA)的商品成像软件包来进行图像获取。数据提取可以通过一系列以例如C/C++写的二进制文件进行,碱基测定和测定-做图可以通过一系列Matlab和Perl script进行。
在示范性实施方案中,排列在表面上的DNBs如文中所述经历一轮cPAL,其中使用的测序探针标记了四种不同荧光团(每种对应探针内询问位点上的特定碱基)。为了确定表面上排列的每个DNB的碱基的身份,每个视野(“相框”)用对应四种荧光标记的测序探针的四个波长成像。每个循环得到的所有图像存储在循环目录中,其中图像的数量是相框的四倍(使用四种荧光团时)。任何可以将循环图像数据存储到为下游数据加工组织的目录结构中。
某些实施方案中,数据提取依赖于两种类型的图像数据:亮视野图像来区分表面上的所有DNBs的位置,和每个测序循环中获取的多组荧光图像。可以利用数据提取软件以亮视野图像识别出所有对象,任何对于每个这种对象,利用软件计算每个测序循环的平均荧光值。对于任意给定循环,共有四个数据点,它们对应不同波长下摄取的四个图像来查询该碱基是否A、G、C或T。将这些原始数据点(文中又称为“碱基测定”)进行整理,给每个DNB产生不连续测序结果。
然后可以将鉴定到的碱基群组装以提供靶核酸的序列信息和/或鉴定靶核酸中是否存在某特定序列。某些实施方案中,通过由多个DNBs上进行的多个测序循环获得的重叠序列的比对,将鉴定到的碱基组装成完整序列。名词“完整序列”用于本文是指部分或整个基因组的序列以及部分或整个靶核酸的序列。在其他实施方案中,组装方法利用了可以将重叠序列“拼接”以提供完整序列。再一些实施方案中,利用参照表来协助将鉴定到的序列组装成完整序列。可以利用所选生物体的已有测序数据汇总成参照表。例如,人基因组数据可以从National Center for Biotechnology Information (ftp.ncbi.nih.gov/refseq/release),或者J.Craig Venter Institute(http://www.jcvi.org/researchhuref/)获取。可以利用全部人基因组信息或其子集来制作特定测序查询的参照表。此外,可以由来源于特定群体的经验数据构建具体参照表,包括来自特定种族、地理传承、宗教或文化限定的人群体的基因序列,因为根据参照数据中含有的信息的来源,人基因组内的差异可能歪曲这些数据。
本文讨论的任何发明的实施方案中,核酸模板和/或DNBs群可以包含许多靶核酸从而基本覆盖整个基因组或整个靶多核苷酸。“基本覆盖”用于本文意味着被分析的核苷酸(即靶序列)的数量至少等同于两个拷贝的靶多核苷酸;或者在另一方面中,至少十个拷贝;或者在另一方面中,至少二十个拷贝;或者在另一方面中,至少100个拷贝。靶多核苷酸可以包括DNA片段(包括基因组DNA片段和cDNA片段)和RNA片段。可以在以下通过引用并入本文的文献中找到关于重构靶多核苷酸序列的步骤的指南:Landeret al,Genomics,2:231-239(1988);Vingron et al,J.Mol.Biol.,235:1-12(1994)及类似的参考文献。
VIIB(iv).探针组
正如可以理解的,可以根据以上描述的各种cPAL方法,使用测序和锚定探针的不同组合。以下关于本发明中使用的探针组(文中还称为“探针集合”)的描述是示范性的实施方案,可以理解本发明并不局限于这些组合。
一方面,探针组被设计成鉴定离衔接子特定距离的位点上的核苷酸。例如,一定的探针组可以用于鉴定离衔接子最多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30和更多个位点的碱基。正如以上讨论过的,一端带有简并碱基的锚定探针可以设计成伸进与衔接子相邻的靶核酸内,允许测序探针连接到离衔接子更远的位置,从而提供离衔接子更远的碱基的身份。
在示范性实施方案中,一组探针包含至少两种被设计成与衔接子邻接区域杂交的锚定探针。一个实施方案中,第一锚定探针与衔接子区域完全互补,而第二锚定探针与衔接子邻接区域互补。某些实施方案中,第二锚定探针包含一个或多个简并碱基,这些碱基伸进与衔接子相邻的靶核酸内,并与其核苷酸杂交。在示范性实施方案中,第二锚定探针包含至少1-10个简并碱基。其他示范性实施方案中,第二锚定探针包含2-9、3-8、4-7和5-6个简并碱基。再一些示范性实施方案中,第二锚定探针的一端或两端和/或其序列内部区域包含一个或多个简并碱基。
其他实施方案中,一组探针还可以包含一或多个测序探针群,用于确定靶核酸内一或多个检测位点上的碱基。在一个实施方案中。所述探针组包含足够的不同测序探针群,能够鉴定靶核酸内的大约1到大约20个位点。其他示范性实施方案中,所述探针组包含足够的测序探针群,能够鉴定靶核酸内的大约2到大约18、大约3到大约16、大约4到大约14、大约5到大约12、大约6到大约10和大约7到大约8个位点。
其他示范性实施方案中,按照本发明使用了10个标记了的或带标签的探针集合。再一些实施方案中,探针组包含两种或更多种序列不同的锚定探针。还有一些实施方案中,探针组包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多种序列不同的锚定探针。
其他示范性实施方案中,提供的一组探针包含一或多个测序探针群和三种锚定探针。第一锚定探针与第一衔接子区域互补,第二锚定探针与第二衔接子区域互补,并且第一和第二衔接子区域是相邻的。第三锚定探针包含三个或更多个简并核苷酸,能够与邻接衔接子的靶核酸内的核苷酸杂交。第三锚定探针在某些实施方案中还可以与第三衔接子区域互补,所述第三区域可以与第二区域相邻,从而第二锚定探针侧接着第一和第三锚定探针。
某些实施方案中,锚定和/或测序探针组包含不同浓度的每种探针,并且该浓度部分取决于锚定探针中可能含有的简并碱基。例如,具有较低杂交稳定性的探针,比如有较多A和/或T的探针,可以相对浓度较高从而弥补它们的较低稳定性。在其他实施方案中,相对浓度的差别是通过独立制备小的探针集合,然后将这些独立制备的探针集合以合适的量混合来实现的。
VIIB(v).其他测序方法
一个方面中,本发明的方法和组合物与比如WO2007120208、WO2006073504、WO2007133831和US2007099208以及美国专利申请60/992,485、61/026,337、61/035,914、61/061,134、61/116,193、61/102,586、12/265,593、12/266,385、11/938,096、11/981,804、11/981,797、11/981,793、11/981,767、11/981,761、11/981,730、11/981,685、11/981,661、11/981,607、11/981,605、11/927,388、11/927,356、11/679,124、11/541,225、10/547,214、11/451,692和11/451,691中描述的技术组合使用,为了所有目的,特别是与测序,尤其是与多联体的测序有关的全部教导,上述文献通过引用全文并入本文。
另一方面中,鉴定DNBs的序列使用了本领域已知的方法,包括但不限于基于杂交的方法,比如Drmanac,美国专利6,864,052、6,309,824和6,401,267;以及Drmanac et al,美国专利公开2005/0191656;和合成法测序方法,例如Nyren et al,美国专利6,210,891、Ronaghi,美国专利6,828,100、Ronaghi et al(1998),Science,281:363-365、Balasubramanian,美国专利6,833,246、Quake,美国专利6,911,345、Li et al,Proc.Natl.Acad.Sci.,100:414-419(2003)、Smith et al,PCT公开WO 2006/074351;以及基于连接的方法,例如Shendure et al(2005),Science,309:1728-1739、Macevicz,美国专利6,306,597,其中为了所有目的,特别是涉及(尤其是与测序有关的)描述组合物、组合物使用方法和组合物制备方法的图、图标和附带文字,这些文献分别通过引用全文并入本文。
某些实施方案中,本发明的核酸模板以及由这些模板产生的DNBs被用于合成法测序方法中。与常规合成法测序方法相比,这些方法使用的核酸不包含多个散在分布的衔接子,利用本发明的核酸模板进行的合成法测序方法的效率提高。本发明的核酸模板允许从模板中的各个衔接子开始进行多个较短测定,而不是单个的长测定。这种短测定使用较少的标记dNTPs,因此能够节约试剂费用。此外,可以在DNB阵列上进行合成法测序反应,所述阵列提供高密度的测序靶和多拷贝的单体单元。这种阵列提供单分子水平的可检测信号,同时提供的序列信息量增加,因为多数或全部DNB单体单元在不影响测序进程的情况下被延伸。阵列的高密度还可以降低试剂费用-在某些实施方案中试剂费用的减少是常规合成法测序方法的大约30到大约40%。某些实施方案中,本发明核酸模板中散在分布的衔接子如果相互间隔大约30到大约100个碱基来插入,可以提供一种方式以合并大约两个到大约十个标准测定值。这样的实施方案中,后续测序循环不需要剥离新合成的链,从而允许使用单个DNB阵列通过合成循环进行大约100到大约400次测序。
VIIC.两阶段测序
本发明一个方面提供了“两阶段”测序方法,文中又称为“鸟枪法测序”。这种方法在2008年12月1日提交的美国专利申请12/325,922中有描述,为了所有目的,特别是与两阶段或鸟枪测序有关的全部教导,该文献通过引用全文并入本文。
通常,用于本发明的两阶段-测序法包括以下步骤:(a)测定靶核酸序列,产生包含一或多个目标序列的初级靶核酸序列;(b)合成复数个靶特异的寡核苷酸,其中所述复数靶特异的寡核苷酸中的每个对应至少一个目标序列;(c)提供靶核酸片段库(或者包含这种片段并进一步包含例如文中描述的衔接子和其他序列的构建体),与复数个靶特异的寡核苷酸杂交;以及(d)测定片段库(或包含这种片段的构建体)的序列,产生次级靶核酸序列。为了填补丢失序列造成的缺口或者解决基因组DNA(比如人基因组DNA)初级序列中低可信度的碱基测定,合成用于这些方法的靶特异的寡核苷酸数量可以在大约1万到大约1百万,因此本发明考虑了使用至少大约10,000个靶特异的寡核苷酸,或者大约25,000、或大约50,000、或大约100,000、或大约20,000、或大约50,000、或大约100,000、或大约200,000或更多个靶特异的寡核苷酸。
说到复数个靶特异的寡核苷酸“对应”至少一个目标序列,意味着这种靶特异的寡核苷酸被设计成与接近,包括但不限于邻接目标序列的靶核酸杂交,这样很大的可能性与该寡核苷酸杂交的靶核酸片段将包含目标序列。因此所述靶特异的寡核苷酸可以用于杂交体捕获方法来产生富集了目标序列的片段库,作为给目标序列测序的测序引物,扩增目标序列的扩增引物或用于其他目的。
根据本发明的鸟枪法测序和其他测序方法,组装测定后,本领域技术人员容易理解,组装好的序列中存在缺口,或者序列特定位点上的一或多个碱基或一串碱基可信度较低。通过将初级靶核酸序列与参照序列进行比较,也可以鉴定到可能包含这类缺口、低可信度序列,或者只是特定位置上不同的序列(即靶序列中一或多个核苷酸的变化)的目标序列。
根据这些方法的一个实施方案,测定靶核酸序列产生初级靶核酸序列包括计算机处理的序列测定输入和计算机处理的序列测定组装来产生初级靶核酸序列。此外,设计靶特异寡核苷酸也可以计算机化,而且这种计算机化的靶特异寡核苷酸的合成可以与输入的计算机处理和序列测定的计算机组装以及靶特异寡核苷酸的设计合并在一起。由于待合成的靶特异寡核苷酸的数量对于高等生物体,比如人的基因组,可能在几万或几十万,这一点特别有用。因此发明可以自动集成由已确定序列和已鉴定区域产生寡核苷酸集合的过程以便进一步处理。某些实施方案中,计算机驱动程序利用已鉴定的区域和确定的序列来设计寡核苷酸用于分离和/或产生覆盖这些区域的新片段,其中所述确定的序列靠近或者邻接所述已鉴定区域。然后可以如本文所述用寡核苷酸从第一测序库、从第一测序库的前体、从由相同靶核酸产生的不同测序库、直接从靶核酸等分离片段。其他实施方案中,鉴定需进一步分析的区域和/或分离/产生第二文库的自动集成限定了寡核苷酸集合内的寡核苷酸序列并指导这些寡核苷酸的合成。
在本发明的两阶段测序方法的某些实施方案中,杂交体捕获过程后进行释放步骤,该技术的其他方面中,第二个测序过程前进行扩增步骤。
再一些实施方案中,鉴定步骤中通过比较已确定序列和参照序列鉴定到某些或者全部区域。某些方面中,第二鸟枪测序库是根据参照序列,利用包含寡核苷酸的寡核苷酸集合分离的。同样,某些方面中,所述寡核苷酸集合包含至少1000个序列不同的寡核苷酸,其他方面中,所述寡核苷酸集合包含至少10,000、25,000、50,000、75,000或100,000或更多个序列不同的寡核苷酸。
本发明的某些方面中,所述两阶段测序方法中采用的一或多个测序过程是通过连接法测序进行的;在其他方面中,一或多个测序过程是通过杂交法测序或合成法测序进行的。
发明的某些方面中,大约1到大约30%的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序;其他方面中,大约1到大约10%的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序。某些方面中,对于复杂靶核酸的鉴定百分比的覆盖度在大约25x到100x。
其他方面中,给每个在所述方法的阶段II中重新测序的靶核酸区域确定和合成1到大约10个靶特异的选择寡核苷酸;其他方面中,给每个在所述方法的阶段II中重新测序的靶核酸区域确定大约3到大约6个靶特异的选择寡核苷酸。
该技术的再一些方面中,通过自动程序确定和合成靶特异的选择寡核苷酸,其中鉴定复杂核酸中丢失核酸序列或者核酸序列可信度低的区域的过程以及确定靶特异的选择寡核苷酸的序列的过程与寡核苷酸合成软件和硬件进行交流,从而合成靶特异的选择寡核苷酸。该技术的其他方面中,靶特异的选择寡核苷酸长度在大约20到大约30个碱基,并且在某些方面中是未修饰的。
不是所有被鉴定要进行进一步分析的复杂靶核酸的区域实际上存在。某区域预期缺少覆盖度的一个原因可能是被预测存在于复杂靶核酸中的区域实际上并不存在(例如,所述区域可能在靶核酸中被删除或重排),因此不是所有集合产生的寡核苷酸可以分离到片段包含在第二个鸟枪测序库中。某些实施方案中,对于每个被鉴定要进行进一步分析的区域至少要设计和制备一个寡核苷酸。其他实施方案中,对于被鉴定要进行进一步分析的区域平均提供三个或更多个寡核苷酸。本发明的一个特点是寡核苷酸集合可以直接用于通过利用来源于靶核酸的模板,经聚合酶延伸所述寡核苷酸产生第二个鸟枪测序库。发明的另一个特点是寡核苷酸集合可以直接用于利用所述寡核苷酸集合经环依赖性复制产生复制子。发明的再一个特点是所述方法能够提供序列信息来鉴定缺少的目标区域,例如被鉴定做进一步分析但由于例如删除或重排而实际不存在的预测区域。
以上描述的两阶段测序方法的实施方案可以与本文描述的以及本领域已知的任何核酸构建体和测序方法组合使用。
VIID.SNP检测
以上讨论的方法和组合物在其他实施方案中可以用于检测诸如DNBs的核酸构建体中的特异序列。特别是使用测序和锚定探针的cPAL方法可以用于检测多态性或者与基因突变相关的序列,包括单核苷酸多态性(SNPs)。例如,为了检测是否存在SNP,可以使用两组区别标记的测序探针,这样检测到一种而非另一种探针表明样品中是否存在多态性。这种测序探针可以与类似于上述cPAL方法中的锚定探针联合使用,进一步提高SNP检测的特异性和效率。
VIII.示范性实施方案
本发明的一个方面提供了确定靶核酸中的序列的方法。所述方法包括的步骤:(a)提供包含靶核酸片段和衔接子的测序模板,其中所述衔接子包含至少第一锚定位点;(b)将锚定探针与锚定位点杂交,所述锚定探针包含与衔接子位点互补的区域以及用于结合靶核酸序列的3个或更多个简并碱基;(c)用测序探针集合进行杂交,以确定相对衔接子限定位置的一或多个核苷酸的序列,其中所述测序探针被区别标记以鉴定特定碱基的存在;(d)连接锚定探针与测序探针;和(e)检测测序探针,从而确定靶核酸中的序列。
与以上一致,本发明另一方面提供了确定靶序列某检测位点上的第一核苷酸的身份的方法,所述靶序列包含复数个检测位点。该方法包括的步骤:(a)提供带有复数个多联体的表面,其中每个多联体包含复数个单体,每个单体包含:(i)靶序列的第一靶结构域,其包含第一组靶检测位点和(ii)包含(1)第一锚定位点和(2)相邻的第二锚定位点的至少第一衔接子;(b)使第一锚定探针与第一锚定位点杂交;(c)使第二锚定探针与第二锚定位点杂交,其中所述第二锚定探针还与第二锚定位点外的序列杂交;(d)使至少第一测序探针与第一靶结构域杂交,其中所述第一测序探针包含:(i)与靶结构域互补的第一探针结构域;(ii)位于第一询问位点的独特核苷酸;和(iii)标记,杂交条件是如果所述独特核苷酸与第一核苷酸互补,则测序探针与所述多联体杂交;(e)连接锚定探针和测序探针;以及(f)鉴定第一核苷酸。
与以上一致,本发明的一个实施方案中提供了确定靶序列中某检测位点的第一核苷酸的身份的方法,其中一组测序探针与包含复数个多联体的表面进行接触。在该实施方案中,每个测序探针包含:(a)与靶结构域互补的第一探针结构域;(b)位于第一询问位点的独特核苷酸;和(c)标记,其中每组的标记对应独特核苷酸。
其他实施方案中,与以上一致,多联体中的每个单体包含复数个衔接子。
再一些实施方案中,与以上一致,多联体中的至少一个衔接子包含至少一个II型核酸内切酶识别位点。
还有一些实施方案中,与以上一致,重复进行使第一锚定探针与第一锚定位点杂交、使第二锚定探针与第二锚定位点杂交、使至少第一测序探针与第一靶结构域杂交、和连接锚定探针和测序探针的步骤,从而鉴定第二检测位点上的第二核苷酸。
其他实施方案中,与以上一致,第二锚定探针包括一组含有至少3个简并碱基的第二锚定探针,其中所述简并碱基与第二锚定位点外的序列杂交。
再一些实施方案中,与以上一致,第二锚定探针包含至少一个末端可以选择性地活化用于连接。
还有一些实施方案中,与以上一致,所述带有复数个多联体的表面是功能化的表面。再一些实施方案中,所述表面用选自胺、硅烷和羟基的功能部分进行了功能化。
再一些实施方案中,与以上一致,所述表面包含复数个空间分立的区域,区域包含固定的多联体。
再一些实施方案中,与以上一致,所述多联体利用捕获探针固定在表面上。
再一些实施方案中,与以上一致,基因组核酸被片段化形成靶序列。
再一些实施方案中,与以上一致,所述靶序列是基因组核酸序列。
再一些实施方案中,与以上一致,所述基因组核酸序列是人的。
与以上一致,本发明的一个方面提供了与测序模板使用的包含本文描述的探针组的试剂盒。一般来说,本发明的试剂盒可以包含锚定探针对、锚定探针对和其他与模板中的靶核酸相邻的锚定探针,以及用于确定核酸模板中特异位点上的碱基的测序探针。这种试剂盒可以进一步包含用于产生本发明中使用的核酸模板的衔接子。
与以上一致,本发明的一个方面提供了这样的核酸测序系统,所述系统包含10个标记了或者带标签的探针集合、包含序列不同的4种或更多种探针的锚定探针组、含有3个或更多个简并碱基的锚定探针组,以及连接酶。其他实施方案中,所述核酸测序系统还包含将锚定探针、测序探针和相连的测序和锚定探针从核酸模板上变性的试剂。
实施例
实施例1:制备DNBs
以下是由本发明的核酸模板制备DNBs(文中又称为“复制子”)的示范性试验方案,其中所述核酸模板包含散在分布着一或多个衔接子的靶核酸。首先用磷酸化的5′引物和生物素化的3’引物将单链线性核酸模板扩增,得到生物素标签的双链线性核酸模板。
首先,通过将MagPrep-链霉亲和素磁珠(Novagen Part.No.70716-3)重悬于无核酸酶的微量离心管中的1x磁珠结合缓冲液(150mM NaCl和20mMTris,pH 7.5溶于无核酸酶的水)制备链霉亲和素磁珠。将离心管放在磁性离心管架上,允许磁性颗粒澄清,移出上清丢掉。然后磁珠在800μl 1x磁珠结合缓冲液中洗两次,重悬于80μl 1x磁珠结合缓冲液中。来自PCR反应的经扩增的核酸模板加至60μl体积,向管中加入20μl 4x磁珠结合缓冲液。然后向含有MagPrep磁珠的离心管中加入核酸模板,温和混匀,室温下温育10分钟,允许MagPrep珠子澄清。移出上清丢掉。然后MagPrep珠子(与经扩增的文库构建体混合)在800μl 1x磁珠结合缓冲液中洗两次。洗后,将MagPrep珠子重悬于80μl 0.1N NaOH中,温和混匀,室温下温育并允许澄清。移出上清并加入新的无核酸酶离心管中。每份上清加入4μl 3M醋酸钠(pH 5.2)并温和混匀。
接下来,每个离心管中加入420μl PBI缓冲液(QIAprep PCR Purification Kits中提供),将样品混匀,然后上样到放在2ml收集管上的QIAprepMiniprep柱(Qiagen Part No.28106)中,在14,000rpm离心1分钟。流过液丢弃,每个柱中加入0.75ml PE缓冲液(QIAprep PCR Purification Kits中提供),柱再离心1分钟。再次将流过液丢弃。将柱子转移到新的离心管上,加入50μl EB缓冲液(QIAprep PCR Purification Kits中提供)。将柱子在14,000rpm离心1分钟洗脱单链核酸模板。然后测量每个样品的量。
利用CircLigase将单链模板环化:首先,取10pmol单链线性核酸模板转移到无核酸酶的PCR管中。加入无核酸酶的水使反应体积达到30μl,将样品保持在冰上。然后,给每个管中加入4μl 10x CircLigase Reaction Buffer(Epicentre Part.No.CL4155K)、2μl 1mM ATP、2μl 50mM MnCl2和2μl CircLigase(100U/μl)(总起来是4x CircLigase Mix),样品在60℃温育5分钟。每个管中再加入10μl 4x CircLigase Mix,样品在60°温育2小时,80℃温育20分钟,然后置于4℃。然后测量每个样品的量。
通过核酸外切酶消化除去CircLigase反应中残留的线性DNA。首先,每个CircLigase样品取30μl加入无核酸酶的PCR管中,然后每个样品中加入3μl水、4μl 10x Exonuclease Reaction Buffer(New England Biolabs Part No.B0293S)、1.5μl Exonuclease I(20U/μl,New England Biolabs Part No.M0293L)和1.5μl Exonuclease III(100U/μl,New England Biolabs Part No.M0206L)。样品在37℃温育45分钟。然后,每个样品中加入75mM EDTA(pH8.0)并于85℃温育5分钟,随后冷却至4℃。样品然后转移到干净的无核酸酶离心管中。接下来,每管中加入500μl PN缓冲液(QIAprep PCR Purification Kits中提供)并混匀,将样品上样到放在2ml收集管上的QIAprep Miniprep柱(Qiagen Part No.28106)中,14,000rpm离心1分钟。丢弃流过液,每个柱加入0.75ml PE缓冲液(QIAprep PCR Purification Kits中提供),柱子再离心1分钟。再次丢弃流过液。将柱子转移到新的收集管上,加入40μl EB缓冲液(QIAprep PCR Purification Kits中提供)。柱子在14,000rpm离心1分钟洗脱单链文库构建体。然后测量每个样品的量。
制备DNB的环依赖性复制:将核酸模板进行环依赖性复制来制备包含靶核酸和衔接子序列的多联体的DNBs。向无核酸酶的PCR管条加入40fmol经核酸外切酶处理的单链环,加水至终体积10.0μl。然后,每管中加入10μl 2x Primer Mix(7μl水、2μl 10x phi29 Reaction Buffer(New England Biolabs PartNo.B0269S)和1μl引物(2μM)),于室温温育30分钟。之后,每管中加入20μl phi 29Mix(14μl水、2μl 10x phi29 Reaction Buffer(New England Biolabs Part No.B0269S)、3.2dNTP混合液(dATP、dCTP、dGTP和dTTP各2.5mM)和0.8μl phi29 DNA聚合酶(10U/μl,New England Biolabs Part No.M0269S))。管子在30℃温育120分钟。然后取出管子,每份样品加入75mM EDTA(pH 8.0)。然后测量环依赖性复制产物的量。
确定DNB的质量:给DNBs定量后,通过观察颜色纯度评价DNBs的质量。将DNBs悬浮在复制子稀释缓冲液(0.8x phi29 Reaction Buffer(New England Biolabs Part No.B0269S)和10mM EDTA,pH 8.0)中,各种稀释度加入flowslide的泳道,在30℃温育30分钟。然后用缓冲液洗flowslides,向每个泳道加入含有用Cy5、Texas Red、FITC或Cy3标记的四种不同的随机12聚体探针的探针溶液。将flow slides转移入预热到30℃的加热块中,在30℃温育30分钟。然后用Imager 3.2.1.0软件给flow slides成像。然后测量环依赖性复制产物的量。
实施例2:单一和双重c-PAL
不同长度完全简并的第二锚定探针在双锚定探针检测系统中进行了测试。所用组合为:1)使用锚定分子和9聚体测序探针的标准的一种锚定分子连接,其中所述锚定分子结合与靶核酸相邻的衔接子,从距离衔接子4个位点处开始测定;2)使用相同的第一锚定分子和包含简并5聚体的第二锚定分子以及9聚体测序探针的双锚定分子连接,从距离衔接子9个位点处开始测定;3)使用相同的第一锚定分子和包含简并6聚体的第二锚定分子以及9聚体测序探针的双锚定分子连接,从距离衔接子10个位点处开始测定;和4)使用相同的第一锚定分子和包含简并8聚体的第二锚定分子以及9聚体测序探针的双锚定分子连接,从距离衔接子12个位点处开始测定。将1μM第一锚定探针和6μM简并的第二锚定探针与连接酶反应缓冲液中的T4DNA连接酶合并,点样到反应片基表面30分钟,之后从反应片基上洗去未反应的探针和试剂。引入含有连接酶和5’Fl-NNNNNBNNN或5’Fl-NNBNNNNNN 5’Fl-NNNBNNNNN 5’Fl-NNNNBNNNN型荧光探针的第二反应混合物。Fl代表四种荧光团中的一种,N代表随机引入的四种碱基A、G、C或T中的一种,B代表与荧光团特异关联的四种碱基A、G、C或T中的一种。连接1小时后,从片基上洗去未反应的探针和试剂,检测每个DNA靶关联的荧光强度。
图27显示了与系统中不同长度的简并第二锚定探针关联的信号强度,其中信号强度随着第二锚定探针长度增加而下降。从图28可以看出,这些强度的拟合度打分也随着简并第二锚定探针的长度而下降,但直到碱基10的测定仍能产生合理的拟合度打分。
图29和30显示了一种锚定探针法和两种锚定探针法使用时间的影响。标准锚定分子和简并5聚体均与9聚体测序探针使用分别从离开衔接子的位点4和9开始测定。尽管双锚定探针法中强度水平差别更大,标准的一个锚定分子法和双锚定探针法两次均展现出相当的拟合度打分,每个都超过了0.8。
简并第二锚定探针的长度对信号强度和拟合度打分的影响:第一和第二锚定探针的不同组合(其中第二锚定探针的长度和组成不同)被用于比较用于鉴定衔接子5’方向的碱基时,简并探针对信号强度和拟合度打分的影响。使用两种锚定探针法与标准的一种锚定探针法比较信号强度和拟合度打分,所述两种锚定探针法用的或者是含有与衔接子互补的某些区域的部分简并探针,或者是完全简并的第二锚定探针。5聚体到9聚体的简并第二锚定探针使用同一浓度,还对其中的两种-6聚体和7聚体探针的4x浓度进行了检测。还以第一种浓度测试了包含与衔接子互补的两个核苷酸以及位于3’端的不同长度简并核苷酸的第二锚定探针。每个反应都使用了相同的四种测序探针来鉴定位于靶核酸测定位点上的核苷酸。
试验中使用的组合如下:
反应1:1μM 12碱基的第一锚定探针
没有第二锚定探针
测定位点:离衔接子末端2nt
反应2:1μM 12碱基的第一锚定探针
20μM 5个简并碱基的第二锚定探针
测定位点:离衔接子末端7nt
反应3:1μM 12碱基的第一锚定探针
20μM 6个简并碱基的第二锚定探针
测定位点:离衔接子末端8nt
反应4:1μM 12碱基的第一锚定探针
20μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端9nt
反应5:1μM 12碱基的第一锚定探针
20μM 8个简并碱基的第二锚定探针
测定位点:离衔接子末端10nt
反应6:1μM 12碱基的第一锚定探针
20μM 9个简并碱基的第二锚定探针
测定位点:离衔接子末端11nt
反应7:1μM 12碱基的第一锚定探针
80μM 6个简并碱基的第二锚定探针
测定位点:离衔接子末端8nt
反应8:1μM 12碱基的第一锚定探针
80μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端9nt
反应9:1μM 12碱基的第一锚定探针
20μM 6nt的第二锚定探针(4个简并碱基-2个已知碱基)
测定位点:离衔接子末端6nt
反应10:1μM 12碱基的第一锚定探针
20μM 7nt的第二锚定探针(5个简并碱基-2个已知碱基)
测定位点:离衔接子末端7nt
反应11:1μM 12碱基的第一锚定探针
20μM 8nt的第二锚定探针(6个简并碱基-2个已知碱基)
测定位点:离衔接子末端8nt
图31和32显示了不同锚定探针和测序探针组合的结合。图中显示简并第二锚定探针的长度最好使用6聚体,不管是完全简并或部分简并的。使用较高浓度的完全简并6聚体表现出的信号强度与使用部分简并的6聚体的信号强度类似(图31)。所有的数据都有较好的拟合度打分(参见图32),除了使用最长的第二锚定分子的反应6,该反应在所有进行的反应中也表现最低的信号强度评分(图31)。
第一锚定探针长度对信号强度和拟合度打分的影响:第一和第二锚定探针的不同组合(其中第一锚定探针具有不同长度)被用于比较用于鉴定衔接子3’方向的碱基时,第一锚定探针的长度对信号强度和拟合度打分的影响。使用两种锚定探针法与标准的一种锚定探针法比较信号强度和拟合度打分,所述两种锚定探针法用的或者是含有与衔接子互补的某些区域的部分简并探针,或者是完全简并的第二锚定探针。每个反应都使用了相同的四种测序探针来鉴定位于靶核酸测定位点上的核苷酸。试验中使用的组合如下:
反应1:1μM 12个碱基的第一锚定探针
没有第二锚定探针
测定位点:离衔接子末端5nt
反应2:1μM 12个碱基的第一锚定探针
20μM 5个简并碱基的第二锚定探针
测定位点:离衔接子末端10nt
反应3:1μM 10个碱基的第一锚定探针
20μM 7nt的第二锚定探针(5个简并碱基-2个已知碱基)
测定位点:离衔接子末端10nt
反应4:1μM 13个碱基的第一锚定探针
20μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端12nt
反应5:1μM 12个碱基的第一锚定探针
20μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端12nt
反应6:1μM 11个碱基的第一锚定探针
20μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端12nt
反应7:1μM 10个碱基的第一锚定探针
20μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端12nt
反应8:1μM 9个碱基的第一锚定探针
80μM 7个简并碱基的第二锚定探针
测定位点:离衔接子末端12nt
观察到的信号强度(图33)和拟合度打分(图34)显示在使用较长的第一锚定探针时产生最佳的强度,这可能部分因为较长探针给合并的锚定探针提供了更高的熔解温度。
使用两种锚定引物方法时,激酶温育对信号强度和拟合度打分的影响:在不同温度下进行如上所述的反应3天,反应在有1Unit/ml激酶的情况下,使用1μM 10个碱基的第一锚定探针、20μM 7聚体第二锚定探针和结构为Fluor-NNNNBNNNN的测序探针来测定衔接子外的位点10。使用15聚体第一锚定探针和测序探针的反应作为阳性对照。结果如图35和36所示。虽然与对照相比,激酶的确对信号强度有影响,但从4℃到37℃范围没有变化,拟合度打分与对照保持相当。激酶温育确实造成影响的温度是42℃,该温度下数据拟合度打分低。
然后使用与以上描述的相同的探针和条件检验了激酶需要的最少时间。如图37和38所示,激酶温育5分钟或以上产生有效等同的信号强度和拟合度打分。
本说明书对此处描述的技术的方法学、系统和/或结构及其在实例方面的用途进行了充分的描述。虽然以上对所述技术各个方面的描述有一定程度的特殊性,或者是针对一或多个个别方面,本领域技术人员可以在不脱离该技术的精神或范围的情况下,对公开的方面做各种改进。因为在不脱离这里描述的技术的情况下,可以进行许多改动,合适的发明范围存在于后面所附的权利要求书。因此还考虑了其他方面。此外,应当明白,任何操作都可以按任何顺序进行,除非明确地另有说明或者权利要求的语言要求某个特定顺序。以上说明书中含有的和附图中显示的所有事物应当被理解为只是对特定方面的说明,并不限于上述实施方案。除非根据上下文很清楚或者明确地申明了,文中给出的任何浓度值通常都是就混合液值或者百分比而言的,没有考虑在加入混合物的特定成分时或者之后的任何转换。对于没有已经明确并入文中的,为了所有目的,本公开文本中提及的所有已出版的参考文献和专利文件均通过引用全文并入本文。在不脱离以下权利要求中限定的本发明的技术的基本元素情况下,可以对细节或结构进行改变。

Claims (14)

1.确定靶序列中检测位点上第一个核苷酸的身份的方法,其中所述靶序列包含复数个检测位点,所述方法包括:
(a)提供包含复数个多联体的表面,其中每个多联体包含复数个单体,每个单体包含:
i)所述靶序列的第一靶结构域,包含第一组靶检测位点,
ii)至少第一衔接子,其包含
1)第一锚定位点,和
2)相邻的第二锚定位点;
(b)使第一锚定探针与所述第一锚定位点杂交;
(c)使第二锚定探针与所述第二锚定位点杂交,其中所述第二锚定探针还与第二锚定位点外的序列杂交;
(d)使至少第一测序探针与所述第一靶结构域杂交,其中所述第一测序探针包含:
i)与所述靶结构域互补的第一探针结构域,
ii)位于第一询问位点的独特核苷酸,和
iii)标记,
杂交条件是如果所述独特核苷酸与所述第一核苷酸互补,则所述测序探针与所述多联体杂交;以及
e)连接所述锚定探针和所述测序探针;
f)鉴定所述第一核苷酸。
2.权利要求1的方法,其中一组测序探针与所述表面进行接触,每个测序探针包含:
a)与所述靶结构域互补的第一探针结构域,
b)位于第一询问位点的独特核苷酸,和
c)标记,
其中所述探针组的每种标记与所述独特核苷酸对应。
3.权利要求1的方法,其中所述单体中的每个包含复数个衔接子。
4.权利要求3的方法,其中所述衔接子中的至少一个包含至少一个II型核酸内切酶识别位点。
5.权利要求1的方法,其中步骤b)-e)被重复进行以便鉴定第二检测位点上的第二核苷酸。
6.权利要求1的方法,其中所述第二锚定探针包含一组第二锚定探针,每个第二锚定探针包含至少三个与所述第二锚定位点外的序列杂交的简并碱基。
7.权利要求1的方法,其中所述第二锚定探针包含至少一个能被选择性地活化以进行连接的末端。
8.权利要求1的方法,其中所述表面是功能化的。
9.权利要求8的方法,其中所述功能化表面包含选自胺、硅烷和羟基的功能部分。
10.权利要求1的方法,其中所述表面包含复数个空间上分立的区域,所述分立区域包含固定的所述多联体。
11.权利要求1的方法,其中所述多联体利用捕获探针固定在所述表面上。
12.权利要求1的方法,还包含将基因组核酸片段化形成靶序列。
13.权利要求1的方法,其中所述靶序列是基因组核酸序列。
14.权利要求13的基片,其中所述基因组核酸序列是人的核酸序列。
CN200880126052.6A 2007-12-05 2008-12-05 测序反应中碱基的有效确定 Active CN101932729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310051522.XA CN103290106B (zh) 2007-12-05 2008-12-05 测序反应中碱基的有效确定

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US99248507P 2007-12-05 2007-12-05
US60/992,485 2007-12-05
US2633708P 2008-02-05 2008-02-05
US61/026,337 2008-02-05
US3591408P 2008-03-12 2008-03-12
US61/035,914 2008-03-12
US6113408P 2008-06-13 2008-06-13
US61/061,134 2008-06-13
US10258608P 2008-10-03 2008-10-03
US61/102,586 2008-10-03
US12/265,593 2008-11-05
US12/265,593 US7901890B2 (en) 2007-11-05 2008-11-05 Methods and oligonucleotide designs for insertion of multiple adaptors employing selective methylation
US12/266,385 2008-11-06
US12/266,385 US7897344B2 (en) 2007-11-06 2008-11-06 Methods and oligonucleotide designs for insertion of multiple adaptors into library constructs
US11619308P 2008-11-19 2008-11-19
US61/116,193 2008-11-19
PCT/US2008/085741 WO2009076238A2 (en) 2007-12-05 2008-12-05 Efficient base determination in sequencing reactions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201310051522.XA Division CN103290106B (zh) 2007-12-05 2008-12-05 测序反应中碱基的有效确定

Publications (2)

Publication Number Publication Date
CN101932729A true CN101932729A (zh) 2010-12-29
CN101932729B CN101932729B (zh) 2013-03-27

Family

ID=42270394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880126052.6A Active CN101932729B (zh) 2007-12-05 2008-12-05 测序反应中碱基的有效确定

Country Status (8)

Country Link
EP (1) EP2227563B1 (zh)
JP (1) JP5362738B2 (zh)
CN (1) CN101932729B (zh)
AU (1) AU2008335362B2 (zh)
CA (1) CA2707901C (zh)
HK (2) HK1176095A1 (zh)
SG (1) SG193776A1 (zh)
WO (1) WO2009076238A2 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016090584A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
WO2016124069A1 (zh) * 2015-02-04 2016-08-11 深圳华大基因研究院 一种构建长片段测序文库的方法
CN106715713A (zh) * 2014-09-12 2017-05-24 深圳华大基因科技有限公司 试剂盒及其在核酸测序中的用途
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107075512A (zh) * 2014-10-14 2017-08-18 深圳华大基因科技有限公司 一种接头元件和使用其构建测序文库的方法
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107075513A (zh) * 2014-09-12 2017-08-18 深圳华大基因科技有限公司 分离的寡核苷酸及其在核酸测序中的用途
CN108431233A (zh) * 2015-11-11 2018-08-21 分析生物科学有限公司 Dna文库的高效率构建
CN108463559A (zh) * 2016-01-15 2018-08-28 文塔纳医疗系统公司 肿瘤的深度测序概况分析
CN109715825A (zh) * 2016-05-16 2019-05-03 纳米线科技公司 用于检测样品中目标核酸的方法
US11279969B2 (en) 2016-11-21 2022-03-22 Nanostring Technologies, Inc. Chemical compositions and methods of using same
US11319594B2 (en) 2016-08-25 2022-05-03 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in DNA samples
CN114649055A (zh) * 2022-04-15 2022-06-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质
US11549139B2 (en) 2018-05-14 2023-01-10 Nanostring Technologies, Inc. Chemical compositions and methods of using same
US11999949B2 (en) 2012-12-10 2024-06-04 Resolution Bioscience, Inc. Methods for targeted genomic analysis

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010242073C1 (en) 2009-04-30 2015-12-24 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
WO2011050340A1 (en) * 2009-10-23 2011-04-28 Life Technologies Corporation Systems and methods for error correction in dna sequencing
US9163281B2 (en) * 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
US9725765B2 (en) 2011-09-09 2017-08-08 The Board Of Trustees Of The Leland Stanford Junior University Methods for obtaining a sequence
CN103890161A (zh) 2011-10-31 2014-06-25 株式会社日立高新技术 核酸扩增方法、核酸基板、核酸分析方法及核酸分析装置
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
JP2015035212A (ja) * 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
US20190194718A1 (en) * 2014-01-14 2019-06-27 Qiagen Gmbh Generation of tagged dna fragments
US11408024B2 (en) 2014-09-10 2022-08-09 Molecular Loop Biosciences, Inc. Methods for selectively suppressing non-target sequences
EP3208336B1 (en) * 2014-10-14 2019-11-13 MGI Tech Co., Ltd. Linker element and method of using same to construct sequencing library
EP4095261A1 (en) 2015-01-06 2022-11-30 Molecular Loop Biosciences, Inc. Screening for structural variants
WO2016133764A1 (en) * 2015-02-17 2016-08-25 Complete Genomics, Inc. Dna sequencing using controlled strand displacement

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8445194B2 (en) * 2005-06-15 2013-05-21 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
CA2624896C (en) * 2005-10-07 2017-11-07 Callida Genomics, Inc. Self-assembled single molecule arrays and uses thereof
EP2495337A1 (en) * 2006-02-24 2012-09-05 Callida Genomics, Inc. High throughput genome sequencing on DNA arrays
CA2649725A1 (en) * 2006-04-19 2007-10-25 Applera Corporation Reagents, methods, and libraries for gel-free bead-based sequencing

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11999949B2 (en) 2012-12-10 2024-06-04 Resolution Bioscience, Inc. Methods for targeted genomic analysis
CN107075513A (zh) * 2014-09-12 2017-08-18 深圳华大基因科技有限公司 分离的寡核苷酸及其在核酸测序中的用途
CN106715713A (zh) * 2014-09-12 2017-05-24 深圳华大基因科技有限公司 试剂盒及其在核酸测序中的用途
CN106715713B (zh) * 2014-09-12 2020-11-03 深圳华大智造科技有限公司 试剂盒及其在核酸测序中的用途
CN107075513B (zh) * 2014-09-12 2020-11-03 深圳华大智造科技有限公司 分离的寡核苷酸及其在核酸测序中的用途
CN107075512B (zh) * 2014-10-14 2021-01-15 深圳华大智造科技股份有限公司 一种接头元件和使用其构建测序文库的方法
CN107075512A (zh) * 2014-10-14 2017-08-18 深圳华大基因科技有限公司 一种接头元件和使用其构建测序文库的方法
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
CN107077533B (zh) * 2014-12-10 2021-07-27 深圳华大生命科学研究院 测序数据处理装置和方法
WO2016090584A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107077538B (zh) * 2014-12-10 2020-08-07 深圳华大生命科学研究院 测序数据处理装置和方法
US10456769B2 (en) 2015-02-04 2019-10-29 BGI Shenzhen & BGI Shenzhen Co., Limited Method of constructing sequencing library
CN107002153A (zh) * 2015-02-04 2017-08-01 深圳华大基因研究院 一种构建长片段测序文库的方法
WO2016124069A1 (zh) * 2015-02-04 2016-08-11 深圳华大基因研究院 一种构建长片段测序文库的方法
CN108431233A (zh) * 2015-11-11 2018-08-21 分析生物科学有限公司 Dna文库的高效率构建
CN108431233B (zh) * 2015-11-11 2022-04-01 分析生物科学有限公司 Dna文库的高效率构建
US11339391B2 (en) 2015-11-11 2022-05-24 Resolution Bioscience, Inc. High efficiency construction of DNA libraries
CN108463559A (zh) * 2016-01-15 2018-08-28 文塔纳医疗系统公司 肿瘤的深度测序概况分析
US11649492B2 (en) 2016-01-15 2023-05-16 Roche Sequencing Solutions, Inc. Deep sequencing profiling of tumors
CN109715825A (zh) * 2016-05-16 2019-05-03 纳米线科技公司 用于检测样品中目标核酸的方法
US11319594B2 (en) 2016-08-25 2022-05-03 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in DNA samples
US11279969B2 (en) 2016-11-21 2022-03-22 Nanostring Technologies, Inc. Chemical compositions and methods of using same
US11821026B2 (en) 2016-11-21 2023-11-21 Nanostring Technologies, Inc. Chemical compositions and methods of using same
US11549139B2 (en) 2018-05-14 2023-01-10 Nanostring Technologies, Inc. Chemical compositions and methods of using same
CN114649055B (zh) * 2022-04-15 2022-10-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质
CN114649055A (zh) * 2022-04-15 2022-06-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Also Published As

Publication number Publication date
HK1176095A1 (zh) 2013-07-19
WO2009076238A3 (en) 2009-07-30
CA2707901A1 (en) 2009-06-18
WO2009076238A2 (en) 2009-06-18
HK1187078A1 (zh) 2014-03-28
SG193776A1 (en) 2013-10-30
EP2227563A2 (en) 2010-09-15
CN101932729B (zh) 2013-03-27
AU2008335362B2 (en) 2013-07-25
EP2227563B1 (en) 2012-06-06
CA2707901C (en) 2015-09-15
JP5362738B2 (ja) 2013-12-11
AU2008335362A1 (en) 2009-06-18
JP2011520420A (ja) 2011-07-21

Similar Documents

Publication Publication Date Title
CN101932729B (zh) 测序反应中碱基的有效确定
CN104039438B (zh) 用于稳定核酸阵列的处理方法
CN102459592B (zh) 用于长片段阅读测序的方法和组合物
US11434538B2 (en) Method of nucleic acid sequence detection
US20200165650A1 (en) Polynucleotide enrichment using crispr-cas system
US9023769B2 (en) cDNA library for nucleic acid sequencing
US9267172B2 (en) Efficient base determination in sequencing reactions
CN103649335B (zh) 定量核酸酶保护测定(qnpa)和测序(qnps)的改进
CN106995838B (zh) 解折叠邻近探针及其使用方法
CN105899680B (zh) 核酸探针和检测基因组片段的方法
JP6925424B2 (ja) 短いdna断片を連結することによる一分子シーケンスのスループットを増加する方法
CN104508145A (zh) 锚定前清洗
KR102592367B1 (ko) 게놈 및 치료학적 적용을 위한 핵산 분자의 클론 복제 및 증폭을 위한 시스템 및 방법
CN104245959B (zh) 基于探测和标记寡核苷酸切割及延伸试验的从靶核酸序列的核苷酸变异检测
CN103290106B (zh) 测序反应中碱基的有效确定
CN109072296A (zh) 利用核酸酶保护进行直接标靶测序的方法
US7947446B2 (en) High throughput mutation screening methods and kits using a universalized approach—differential sequence fill-in (DSF)-enabled sequential adapter ligation and amplification
JP4924014B2 (ja) Dnaメチル化測定方法
JP2008182985A (ja) Dnaメチル化測定方法
GB2492042A (en) Selector oligonucleotide-based methods and probes for nucleic acid detection or enrichment
US7862998B2 (en) Assist probe and method of using the same
JP2008154515A (ja) Dnaメチル化測定方法
Antson Genotyping RNA and DNA using padlock probes
AU2013202989A1 (en) Efficient base determination in sequencing reactions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: COMPLETE GENOMICS Inc.

Address before: California, USA

Patentee before: Complete Genomics, Inc.