CN104039438B

CN104039438B - 用于稳定核酸阵列的处理方法

Info

Publication number: CN104039438B
Application number: CN201280065478.1A
Authority: CN
Inventors: 诺曼·里·伯恩斯; 杰·威利斯·雪弗托
Original assignee: Callida Genomics Inc
Current assignee: Complete Genomics Inc
Priority date: 2011-11-02
Filing date: 2012-10-31
Publication date: 2016-03-09
Anticipated expiration: 2032-10-31
Also published as: US20130178369A1; CN104039438A; US11835437B2; EP2773452B1; WO2013066975A1; HK1201778A1; DK2773452T3; US20210131924A1; EP2773452A1; US10837879B2

Abstract

本发明涉及核酸分子处理方法，所述核酸分子与固体支撑物(support)附着或结合在一起以进行生化分析，该方法包括核酸测序。在加载于所述固体支撑物上之后，用含有浓缩剂的组合物、含有体积排除剂的组合物，或者含有这两者的组合物处理所述核酸分子，然后用含有蛋白质的组合物处理所述核酸分子。

Description

用于稳定核酸阵列的处理方法

相关申请的引用

本申请要求2011年11月2日提交的美国临时申请61/554,789的优先权。出于任何目的，优先权申请的全部内容在此并入本文。

背景技术

大规模的基因组序列分析是理解许多不同生物现象的关键步骤。对低成本、高通量的测序和重测序的需要使采用同时平行分析多个核酸标靶的新测序方法得以发展。

常规的测序方法一般局限于在信号显著衰变之前确定数十个核苷酸，因此整个测序效率受到很大限制。常规的测序方法还受到信噪比的限制，所述信噪比使该方法不适于单一分子测序。

如果方法和组合物可设计成提高测序反应效率和提高由较短阅读长度组装全序列的效率对本领域是有利的。许多基因组测序和其它分析方法已经发展成采用附着于固体或半固体支撑物的核酸分子(例如，单链或双链DNA或RNA)。尤其对于分析而言，所述方法和组合物需要稳定所附着的核酸分子以防止化学降解和物理降解。

发明内容

我们研发出一种处理该核酸分子的方法，所述方法在核酸分子接触并附着于(即，装载于)固体支撑物之后进行，以稳定核酸分子，防止化学降解和物理降解。一般而言，该方法包括浓缩所附着的核酸分子以及用蛋白包被(coat)所述核酸分子。

如本文详细描述的，一种上述分析方法涉及DNA测序，该DNA包括高容量(high-occupancy)和高密度纳米阵列上的DNA多联体(DNAconcatemer，也称为DNA纳米球或DNB)，所述纳米阵列通过DNB的静电吸附在光刻图案化的固相基底上自组装。本发明的组合物和方法还可用于与多种生物化学分析相关联，包括，例如，核酸杂交、酶促反应(例如，使用内切酶[包括限制性内切酶]，外切酶，激酶，磷酸酶，连接酶等)、核酸合成、核酸扩增(例如，通过聚合酶链式反应，滚环复制，全基因组扩增，多重置换扩增等进行)，以及使用附着于固体或半固体支撑物的核酸分子的本领域已知的生物化学分析的任何其它形式。

因此，本发明提供用于处理核酸阵列以提高核酸分析过程中的所述阵列稳定性的方法和组成物，所述核酸分析包括，但不限于，核酸测序、核酸杂交试验或酶辅助的核酸试验。

一种实施方式提供包括以下步骤的方法：(a)提供核酸阵列，所述核酸阵列包含(i)具有表面的支撑物和(ii)附着于所述表面的核酸分子(例如，单链或双链DNA或RNA，包括但不限于DNB)；(b)浓缩附着于所述表面的核酸分子，由此生成浓缩的核酸分子；以及(c)用蛋白包被所述浓缩的核酸分子。

根据一种上述实施方式，浓缩附着于所述基底的表面的核酸分子包括使所述阵列与包含核酸浓缩剂、包含体积排除剂、或包含核酸浓缩剂和体积排除剂这两者的组合物(例如，水溶液)接触。有用的核酸浓缩剂包括但不限于醇，例如异丙醇。有用的体积排除剂包括，但不限于，聚乙二醇。

根据另一这种实施方式，包被附着于所述基底的表面的核酸分子包括用含有蛋白的组合物包被所述核酸分子，所述蛋白结合所述表面且不干扰核酸分析。这种蛋白包括但不限于血清白蛋白，例如，牛血清白蛋白或人血清白蛋白。

根据另一实施方式，本发明提供包括以下步骤的方法：(a)提供DNB阵列，所述DNB阵列包含(i)具有表面的支撑物和(ii)非共价附着于所述表面的DNB；(b)使附着于所述表面的DNB与水溶液接触，所述水溶液包含核酸浓缩剂和体积排除剂，由此生成浓缩的DNB；以及(c)用蛋白包被所述浓缩的DNB。

根据本发明的另一实施方式，提供用于提高核酸分析过程中的核酸阵列稳定性的试剂盒，其中，所述阵列包含(i)具有表面的支撑物和(ii)附着于所述表面的核酸分子。这种试剂盒包含(a)核酸浓缩组合物，所述核酸浓缩组合物浓缩附着于所述表面的核酸分子，由此生成浓缩的核酸分子；和(c)包被组合物，所述包被组合物包含包被所述浓缩的核酸分子的蛋白。在一种实施方式中，所述核酸浓缩组合物包括核酸浓缩剂和体积排除剂。

附图说明

图1示意性说明了用于分割核酸的方法的一种实施方式。

图2示意性说明了涉及长片段读取(LFR)技术的本发明的实施方式。图2A举例说明了用于通过标准多重置换扩增方法(MDA)分割核酸的方法。图2B举例说明了通过多重置换扩增方法使用5’外切酶切割核酸的方法。图2C为整个LFR过程的实施方式的示意图。

图3示意性说明了设计成用于本发明的方法的条形码衔接子(adaptor)设计的实施方式。

图4示意性说明了使用切口平移方法分割核酸的本发明的实施方式。

图5示意性说明了可用于本发明的实施方式的衔接子。图5A提供了4个不同的衔接子序列。图5B说明了可包括在本发明的衔接子设计中的不同组分。

图6示意性说明了用于制备含有多个衔接子的环状核酸模板的本发明的实施方式。

图7示意性说明了用于控制插入靶核酸的衔接子的方向的本发明的实施方式。

图8示意性说明了可使衔接子和靶核酸分子彼此连接(ligate)的不同方向的示例性实施方式。

图9示意性说明了组装本发明的核酸模板的方法的一方面。

图10示意性说明了用于控制衔接子插入靶核酸的方式的所述衔接子的组分。

图11示意性说明了用于将衔接子插入靶核酸中的臂连臂连接(arm-by-armligation)方法的实施方式。图11A举例说明了臂连臂连接方法的示例性实施方式，图11B举例说明了用于该方法的衔接子臂的示例性组分。

图12示意性说明了衔接子插入的可能方向。

图13示意性说明了切口平移连接方法的一种实施方式。

图14示意性说明了用于插入多个衔接子的方法的一种实施方式。

图15示意性说明了切口平移连接方法的一种实施方式。

图16示意性说明了切口平移连接方法的一种实施方式。

图17示意性说明了使用切口平移环反转(nicktranslationcircleinversion，图17A)和与尿嘧啶降解组合的切口平移环反转(图17B)的切口平移连接方法的一种实施方式。

图18示意性说明了切口平移连接方法的一种实施方式。

图19示意性说明了用于插入多个衔接子的方法的一种实施方式。

图20示意性说明了用于插入多个衔接子的方法的一种实施方式。

图21示意性说明了用于插入多个衔接子的方法的一种实施方式。

图22示意性说明了用于插入多个衔接子的方法的一种实施方式。

图23示意性说明了复合探针锚定连接方法(combinatorialprobeanchorligationmethod)的一种实施方式。

图24示意性说明了复合探针锚定连接方法的一种实施方式。

图25示意性说明了复合探针锚定连接方法的一种实施方式。

图26示意性说明了复合探针锚定连接方法的一种实施方式。

图27为使用双重复合探针锚定连接方法使各碱基在限定位置达到的荧光强度水平图。

图28为使用复合探针锚定连接方法得到的询问(interrogation)位置的数据拟合分数图。

图29为使用单一复合探针锚定连接方法和双重复合探针锚定连接方法在不同时间点获得的单碱基询问的荧光强度水平图。

图30为使用单一复合探针锚定连接方法在不同时间点获得的单碱基询问的数据拟合分数图。

图31为与单一复合探针锚定连接方法相比，在双重复合探针锚定连接方法中使用多个不同的第二锚定探针的不同位置达到的荧光强度水平图。

图32为举例说明与单一复合探针锚定连接方法相比，在双重复合探针锚定连接方法中使用多个不同的第二锚定探针获得的不同位置数据拟合分数的图。

图33为举例说明与单一复合探针锚定连接方法相比，使用多种不同的双重复合探针锚定连接方法的不同位置达到的荧光强度的图。

图34为举例说明在双重复合探针锚定连接方法中使用多个不同长度的第一锚定探针获得的不同位置数据拟合分数的图。

图35为举例说明在不同温度下在存在激酶的条件下，使用双重复合探针锚定连接方法各碱基在限定位置达到的荧光强度水平的图。

图36为举例说明在不同温度下在存在激酶的条件下，使用双重复合探针锚定连接方法获得的限定位置的数据拟合分数的图。

图37为举例说明在存在激酶且激酶孵育时间不同下的条件下，使用双重复合探针锚定连接方法各碱基在限定位置达到的荧光强度水平的图。

图38为举例说明在存在激酶且激酶孵育时间不同下的条件下，使用双重复合探针锚定连接方法获得的限定位置的数据拟合分数的图。

图39示意性地说明本发明的一些实施方式。图39A举例说明根据本发明的测序方法的步骤。图39B举例说明含有四个衔接子的基因组DNA的片段。图39C举例说明生产DNB的滚环复制过程。图39D举例说明根据本发明的DNB阵列的实施方式。图39E举例说明使用标记的测序探针和两个锚定探针的测序方法的实施方式。

图40用于衔接子构建和插入的寡核苷酸表。

图41A至41C为用于本发明的构建体的定量PCR分析的标识物的表。

图42为显示本发明的中间构建体的定量PCR分析的数据图。

图43为举例说明分析DNB测序结果中的误差的数据图。

图44提供举例说明基因组覆盖率分析的图。图44A显示各基因组的累加覆盖率和模拟物的累加覆盖率。图44B显示按GC含量排序的基因组覆盖率。图44C显示作为NA07022中不同位点的覆盖深度的函数的探测InfiniumSNP和或纯合子Infinium基因分型的效率。

图45为举例说明编码序列中以3的倍数的大小插入和缺失的比例改善的图，说明其破坏性影响较低。

图46为举例说明与HapMapProject(release24)生成的NA07022的基因型一致以及那些基因组最高质量的Infinium试验子集以及IlluminaInfinium1M试验的基因分型的数据图。

图47为显示与HapMapProject(release24)生成的基因型一致以及HapMap基因型的或来自Affy500k基因分型的最高质量的Infinium试验子集。

图48显示了1MInfiniumSNP与所谓的变体的根据不同质量分数排序的数据的百分比一致。

图49显示举例说明随不同质量分数阈值变化的新的变种的比例的图。

图50A和50B显示了总结编码NA07022中的变体的影响的表。

图51示意性说明了本发明的核酸模板构建体的示例性实施方式。

图52示意性说明了根据本发明的读出数据格式。

具体实施方式

除非另有说明，本发明的实践通常可采用本领域技术范围内的有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和描述。这些常规技术包括聚合物阵列合成、杂交、连接和使用标记物探测杂交。可通过引用下文实例对合适的技术进行特定说明。然而，当然还可使用其它等同的常规步骤。这些常规技术和描述可在标准的实验室操作手册中找到，例如GenomeAnalysis:ALaboratoryManualSeries(Vols.I-IV),UsingAntibodies:ALaboratoryManual,Cells:ALaboratoryManual,PCRPrimer:ALaboratoryManual,andMolecularCloning:ALaboratoryManual(allfromColdSpringHarborLaboratoryPress),Stryer,L.(1995)Biochemistry(4thEd.)Freeman,NewYork,Gait,“OligonucleotideSynthesis:APracticalApproach”1984,IRLPress,London,NelsonandCox(2000),Lehninger,PrinciplesofBiochemistry3^rdEd.,W.H.FreemanPub.,NewYork,N.Y.andBergetal.(2002)Biochemistry,5^thEd.,W.H.FreemanPub.,NewYork,N.Y.，所有这些文献的全部内容基于所有目的通过引用并入本文。

注意除非上下文清楚地另有说明，否则本文和后附的权利要求中使用的单数形式("a,""an,"和"the")包括复数指示物。因此，例如，提及“聚合酶”是指一种试剂或者该试剂的混合物，提及“方法”包括本领域技术人员已知的等同步骤和方法，等等。

除非另有说明，否则本文使用的所有技术术语和科学术语与本发明所属领域的普通技术人员通常理解的含义相同。本文提及的所有出版物通过引用并入本文，以描述和公开所述出版物中描述的可与本发明关联使用的设备、组合物、制剂和方法。

在提供了数值范围的情况下，应当理解的是，除非上下文清楚地另有说明，否则该范围的上限和下限之间的每一中间数值，到该下限单元的十分之一处，以及所声称的范围内的任何其它提到的数值或中间数值，均包含在本发明内。这些较小范围的上限和下限可以独立包含在该较小范围内，这也涵盖在本发明内，受限于所述范围中任何特别排除的限值。当所声称的范围包括上下限之一或两者时，排除了上下限之一种或两者的范围也包含在本发明内。

在以下描述中，列出许多具体细节以提供对本发明的更全面的理解。然而，对本领域技术人员而言将会显而易见的是，可在缺少一个或一个以上这些具体细节的情况下实施本发明。在其它情况下，没有描述本领域技术人员所熟知的特征和步骤以避免导致本发明不清楚。

尽管本发明主要通过引用具体实施方式进行描述，但是还可预期的是，在阅读本发明的公开内容之后，其它实施方式对于本领域技术人员而言将会是显而易见的，并且意在将这些实施方式包含在本发明的方法范围之内。

I.概述

本发明涉及用于稳定核酸阵列上的核酸分子的组合物和方法。简言之，在将上述核酸分子加载至核酸阵列上之后，通过排列后处理(post-arrayingtreatment)稳定所述核酸分子防止在生化分析过程中的化学降解和物理降解，所述生化分析包括但不限于核酸测序。根据一种实施方式，所述核酸分子包被在一层部分变性的蛋白中以提高核酸分子阵列的稳定性，进而提高通过生化分析得到的信号强度和特异性，所述生化分析例如涉及荧光染料的测序反应。此外，已经观测到如果在最初的加载之后将阵列的核酸分子直接进行包被处理，则阵列的单个核酸分子将分别以一定程度涂抹在表面上。在包被之前的影响核酸浓缩的漂洗步骤和随后的洗涤步骤减少涂抹量和相邻核酸分子间潜在的物理相互作用，由此提高生化分析生成的数据质量。

本发明的一种实施方式涉及将这种加载后处理方法用于靶核酸测序的情况下，所述靶核酸测序过程包括从样品中提取靶核酸以及分割靶核酸。分割的核酸用于生成靶核酸模板，所述靶核酸模板一般包含一个或一个以上衔接子。将所述靶核酸模板用于扩增方法以生成核酸纳米球，通常将所述核酸纳米球设置在表面上。对本发明的核酸纳米球进行测序，一般通过连接技术测序，所述连接技术包括复合探针锚定连接(“cPAL”)法，所述复合探针锚定连接法在下文进一步详细描述。cPAL和其它测序方法还可用于探测特定序列，例如包括本发明的核酸构建体中的单核苷酸多态性(“SNP”)(本发明的核酸构建体包括核酸纳米球以及线性核酸模板和环状核酸模板)。

本发明的方法和组合物具有显著降低测序成本并允许测序反应规模扩大至有效的高通量(throughput)水平的数种特征。由于测序基底在均一温度下、具有高模板浓度(＞200亿/ml)的溶液相反应中通过的滚环复制生成，因此避免了重要的选择瓶颈和非克隆扩增子(本文也称作“DNA纳米球”和“DNB”)。这规避了需要精确滴定乳状液中的原位克隆扩增或桥式PCR的模板浓度的方法的随机低效现象。这些特征还允许每天在标准的96孔板中自动生成数百个基因组的DNB。

本发明的阵列适合较便宜且有效的成像技术。高容量和高密度的纳米阵列通过溶液相DNB的静电吸附在光刻图案化的固相基底上自组装。与随机位置的DNA阵列相比，这种图案化的阵列产生高比例的信息量大的像素。紧凑的(在一些实施方式中，直径约300nm)DNB中数百个反应位点生成用于快速成像的明亮信号。这种点密度和得到图像的效率以及降低的试剂消耗使得对用于研究和临床应用的大规模人基因组测序可能非常重要的高测序通量/仪器成为可能。

本发明的“未链化的(unchained)”cPAL测序生物化学使便宜准确的碱基读取称为可能。一般而言，除了本发明，将两种不同的测序化学用于现代测序平台：合成测序(SBS)和连接测序(SBL)。这两种测序均使用“未链化的”阅读，其中，用于循环N+1的基底取决于循环N的产物；因此，错误可能随多个循环累积且数据质量可能受之前循环中所产生的错误影响(尤其是不完全延伸)。因此，需要通过高浓度的昂贵的高纯度标记基底分子和酶驱动这些未链化的测序反应接近完成。因此，cPAL的独立、未链化性质避免错误累积并以其它高质量的阅读容许低质量碱基，从而降低试剂成本。

根据本发明的测序基底通过基于衔接子定向插入的改良的缺口平移法的DNA工程方法生成，使衔接子连接产量超过90％(尽管较低产量也可接受)以及嵌合率低至约1％。通过PCR进一步富集插有衔接子的DNA分子。该递归过程可以96个样本的批次(或者根据规定更多)实施并通过插入额外的衔接子延长以在每一DNB中阅读120个碱基或更多碱基。目前的阅读长度比得上其它大规模并行测序技术。

使用本发明的方法和组合物生成的测序数据使全基因组相关研究、与疾病或治疗处理有关的可能出现的罕见变体的鉴定，以及体细胞突变的鉴定具备足够的品质和准确性。耗材成本低以及有效成像使数百个个体的研究成为可能。临床诊断应用所需的较高准确性和完整性要求该技术和其它技术持续发展。

II.制备基因组核酸片段

如本文进一步讨论的那样，本发明的核酸模板包括靶核酸和衔接子。为了获得用于构建本发明的核酸模板的靶核酸，本发明提供用于从样品中获得基因组核酸的方法和用于分割那些基因组核酸的方法以制备随后构建本发明的核酸模板的方法中使用的片段。

在本发明的多种实施方式中使用的层状(tiered)核酸片段文库结构用于分解整个基因组(尤其是人基因组)的独特结构特征。如下文进一步详细描述的那样，在一些实施方式中，使用500bp片段跨过基因组中的多数重复元件，包括Alu重复子(repeat)，其组成基因组的10％。在其它实施方式中，用更长的片段使二倍体中的两套亲本染色体的独立测序和分析成为可能。这些更长片段的分析允许杂合子分阶段越过(phasingover)大间隔区(可能全部染色体)，甚至越过重组率高的区域中的间隔区。

IIA.基因组核酸片段的制备概述

总体而言，根据本发明制备的双末端文库包含每隔一定距离分散有已知的合成DNA序列(称为衔接子)的靶核酸序列(例如，基因组DNA，但是如本文所述，还可使用其它靶标)。所述衔接子可作为读取多个超出各衔接子-基因组DNA接合点的位置的碱基的起始点，任选地，可从衔接子两端读取碱基。

靶核酸可使用本领域已知的方法从样品中获得。应当理解的是，所述样品可包含任何数目的物质，包括，但不限于，体液(包括，但不限于，几乎任何器官的血液、尿、血清、淋巴、唾液、肛门分泌物和阴道分泌物、汗液和精液，优选哺乳动物样品，尤其优选人体样本)；环境样本(包括，但不限于，空气、农业样本、水和土壤样本)；生物战剂样本；研究样本(即，在核酸的情况下，该样本可为扩增反应的产物，包括如在PCT/US99/01705中总体描述的靶标扩增和信号扩增两者，例如PCR扩增反应)；纯化的样本，例如纯化的基因组DNA、RNA、蛋白等；原料样本(细菌、病毒、基因组DNA等)；如本领域技术人员应当理解的那样，几乎任何实验操作都在所述样本上进行过。一方面，本发明的核酸构建体由基因组DNA形成。在一些实施方式中，基因组DNA通过全血或来自血液或细胞培养物的细胞制剂获得。在其它实施方式中，靶核酸包含外显子DNA，即，用于转录序列的所富集的全基因组DNA的子集(subset)，所述转录序列包含基因组中的外显子组。在其它实施方式中，靶核酸包含转录组(即，细胞或细胞群中生成的所有mRNA或“转录子”的集合)或甲基化组(即，基因组中甲基化位点和甲基化模式的群体)。

在示例性的实施方式中，从靶标生物中分离基因组DNA。“靶标生物”是指目标生物，如应当理解的那样，尽管在一些实施方式中，靶标生物为病原体(例如用于细菌或病毒感染的检测)，但是该术语包括可从中获得核酸的任何生物，尤其是哺乳动物，包括人类。从靶标生物中获得核酸的方法为本领域熟知的。包含人体基因组DNA的样本可用于许多实施方式。在诸如全基因组测序之类的一些方面，优选地，获得约20个至约1,000,0000个或更多DNA的基因组等同物以确保靶DNA片段群体足以覆盖整个基因组。所获得的基因组等同物的数目可部分取决于用于进一步制备根据本发明使用的基因组DNA片段的方法。例如，在下文进一步描述的长片段阅读方法中，一般使用约20个至约50个基因组等同物。对于使用多重置换扩增的方法(也在下文进一步描述)而言，一般使用约1000个至约100,000个基因组等同物。对于在片段化之前不使用扩增的方法而言，使用约100,000个至约1,000,000个基因组等同物。

使用常规技术分离靶基因组DNA，所述常规技术例如在前引用的SambrookandRussell,MolecularCloning:ALaboratoryManual中公开的那些技术。随后通过常规技术将靶基因组DNA分离或片段化至理想尺寸，所述常规技术包括酶切、剪切或超声，其中，剪切和超声在本发明中具有特定用途。

靶核酸的片段尺寸可随所使用的源靶核酸和文库构建方法不同而不同，但是长度一般为50至600个核苷酸。在另一实施方式中，所述片段的长度为300至600个核苷酸或者200至2000个核苷酸。在又一实施方式中，所述片段的长度为10至100,50至100,50至300,100至200,200至300,50至400,100至400,200至400,300至400,400至500,400至600,500至600,50至1000,100至1000,200至1000,300至1000,400至1000,500至1000,600至1000,700至1000,700至900,700至800,800至1000,900至1000,1500至2000,1750至2000,以及50至2000个核苷酸。

在其它实施方式中，分离特定尺寸的片段或特定尺寸范围内的片段。这些方法是本领域熟知的。例如，可使用凝胶分离法生成碱基对范围(例如500碱基对+50碱基对)内特定尺寸的片段群。

许多情况下，不需要对提取的DNA进行酶切，因为在裂解和提取过程中产生的剪切力会生成理想范围内的片段。在其它实施方式中，较短的片段(1至5kb)可通过酶切使用限制性内切酶生成。在又一实施方式中，约10个至约1,000,000个DNA基因组等同物确保片段群覆盖整个基因组。因此，含有由这种片段群生成的核酸模板的文库会包括靶核酸，所述靶核酸的序列一旦鉴定并组装出来，将提供整个基因组的大多数或全部序列。

一些情况下，不管是只可用少量样本DNA的时候还是通过(例如，与容器壁等)非特异性结合有损失风险的时候，提供载体DNA(例如，不相关的合成的环状双链DNA)与样本DNA混合并一起使用都是有利的。

在一种实施方式中，在片段化之后使DNA变性以生成单链片段。

在一种实施方式中，在片段化之后，(事实上，在本文概述的任何步骤之前或之后)可将扩增步骤用于片段化的核酸群以确保浓度足够大的所有片段可用于随后生成本发明的修饰核酸以及使用这些核酸获得序列信息的步骤。这些扩增方法是本领域熟知的，包括，但不限于：聚合酶链式反应(PCR)、连接链式反应(有时称为寡核苷酸连接酶扩增OLA)、循环探针技术(cyclingprobetechnology，CPT)、链置换分析法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化片段)以及有创裂解技术(invasivecleavagetechnology)。

另一种实施方式中，片段化后，进一步修饰靶核酸以根据发明所述方法给它们插入多个衔接子。进行这类修饰是必要的，因为片段化的过程有可能使产生的靶核酸所带有的末端无法进行用于插入衔接子的步骤，尤其是无法使用诸如连接酶和聚合酶之类的酶类。对于文中概述的所有步骤，这个步骤是任选的，可与任何步骤组合。

在示例性实施方式中，物理片段化后，靶核酸通常含有平末端和突出末端的组合，以及末端处磷酸盐和羟基化学物质的组合。在该实施方式中，靶核酸用几种酶处理从而形成带有特定化学物质的平末端。在一种实施方式中，利用聚合酶和dNTPs将任一突出末端的5’单链填平以形成平末端。用具有3’核酸外切酶活性的聚合酶(通常但也不总是与具有5’核酸外切酶活性的聚合酶一样，例如T4聚合酶)除去3’突出端。合适的聚合酶包括，但不限于，T4聚合酶、Taq聚合酶、大肠杆菌DNA聚合酶1、Klenow片段、逆转录酶、包括野生型Φ29聚合酶在内的Φ29相关聚合酶和这些聚合酶的衍生物、T7DNA聚合酶、T5DNA聚合酶、RNA聚合酶。这些技术可以用于生成具有多种用途的平末端。

在其它任选的实施方式中，改变末端的化学性质以避免靶核酸相互连接。例如，除了聚合酶，还可以在产生平末端的过程中使用蛋白激酶，利用其3’磷酸酶活性将3’磷酸盐基团转化为羟基基团。这类激酶可包括但不限于诸如T4激酶之类的市售的激酶，以及还没有商业化但具有期望的活性的激酶。

类似地，可以利用磷酸酶将末端的磷酸基团转化为羟基基团。合适的磷酸酶包括，但不限于碱性磷酸酶(包括牛小肠碱性磷酸酶(CIP))、Antarctic磷酸酶、腺苷三磷酸双磷酸酶(Apyrase)、焦磷酸酶、无机(酵母)热稳定无机焦磷酸酶等，这些酶是本领域已知的，并且可购自例如NewEnglandBiolabs。

如图16所示，这些修饰防止靶核酸在本发明方法中随后的步骤中相互连接，因此保证了在将衔接子(和/或衔接子臂)连接到靶核酸末端的步骤中，靶核酸会与衔接子连接而不与其他靶核酸连接。优选靶核酸1601和1602以所期望的方向连接与衔接子1603和1604(如该图所示，所期望的方向是那种使具有相同形状(圆形或方形)的末端彼此连接的方向)。对末端进行修饰以避免不希望的构型1607、1608、1609和1610，这几种构型中靶核酸相互连接，衔接子相互连接。此外，如下文将进一步详细讨论的，还可以通过控制衔接子和靶核酸末端的化学性质来控制每一衔接子-靶核酸连接的方向。对末端化学成分的控制可以使用本领域已知的和本文进一步描述的方法来实现。

本领域技术人员可以理解的是，对于文中概述的所有步骤而言，可以使用这些步骤和酶的任何组合。例如，某些酶法片段化技术(如使用限制性内切酶)可能使得这些酶促“末端修补”步骤中的一个或多个成为多余的。

以上描述的修饰可以防止形成含有以未知构型连接的不同片段的核酸模板，因此减少和/或消除了可由这类不期望的模板所造成的序列鉴定和组装中的错误。

一些情况中，分级片段化(hierarchicalfragmentation)方法与任何本文描述的酶促片段化或机械片段化方法组合使用。这类方法在美国申请第11/451,692号和已公布的PCT申请WO2006/138284中描述，这两份文献的全部内容通过引用基于所有目的，尤其是基于与分级片段化相关的所有教导并入本文。

在一些实施方式中，采用受控的随机酶促(“CoRE”)片段化方法制备本发明中使用的片段。CoRE片段化是酶促终点法，具有酶促片段法的优点(例如可以用于少量和/或小体积的DNA)，而没有它的许多缺陷(包括对基底变化或酶浓度变化的敏感性以及对消化时间的敏感性)。简而言之，CoRE片段化涉及一系列的三个酶促步骤，如图1所简要图示的。首先，在有dNTPs的情况下，将核酸101进行酶催化的多重置换扩增(MDA)，其中dNTPs中掺杂有与dTTP成所限定的比例的dUTP或UTP。这导致扩增产物的两条链上的T位点以所限定的和可控的比例被脱氧尿嘧啶(“dU”)或尿嘧啶(“U”)所取代(103)。然后一般通过UDG、EndoVIII和T4PNK联合将U部分切除(104)，产生带有功能性5’磷酸和3’羟基端的单碱基缺口(105)。将产生的单碱基缺口的平均间隔由MDA产物中U的出现频率界定。用聚合酶处理带有缺口的核酸(105)导致切口平移直至相反链上的切口汇聚，从而形成双链断裂，得到大小相对匀一的双链片段群(107)。因为双链片段(107)的大小分布是由MDA反应中使用的dTTP与DUTP或UTP的比率决定的，而不是酶处理的时间或程度决定的，因此，这种CoRE片段化方法的片段化具有高度重复性。

在一些情况中，尤其是期望分离长片段(例如长约150至约750kb)时，本发明提供如下方法：在该方法中，细胞被裂解，通过温和的离心步骤使完整细胞核形成小球。通过利用例如蛋白酶K和RNase消化几小时的酶消化释放基因组核酸(通常是基因组DNA)。然后将得到的物质过夜透析或者直接稀释以降低残留细胞废物的浓度。由于这类分离核酸的方法不涉及许多破坏性过程(例如乙醇沉淀、离心和漩涡混匀)，基因组核酸可以保持基本完整，得到多数超过150kb的片段。

某些情况中，与上面描述的任何片段化方法组合，本发明还提供了将基因组核酸片段群分成小份的方法，这就使得能够重构二倍体基因组，例如鉴定父本和母本染色体或序列。这比现有技术具有明显优势。

在该实施方式中，将基因组片段分成小份，使核酸被稀释到每份含有大约10％单倍体基因组的浓度。在这一稀释水平，每个特定小份中大约95％的碱基对是没有重叠的。这种分小份的方法，文中又称为长片段阅读(LFR)片段化方法，在特定实施方式中可以用于根据以上和文中进一步描述的方法分离到的大分子量的片段。图2C中示意了LFR方法的一个实例。LFR通常一开始是用5’核酸外切酶将基因组核酸(一般是基因组DNA)做短时处理，产生3’单链突出。这种单链突出作为多重置换扩增(MDA)的起始位点(图2A)。然后将5’核酸外切酶处理过的DNA稀释到亚基因组浓度，分成许多小份，一般是分到多孔板上的多个孔中。将每个孔中的片段扩增，一般是利用标准MDA法(图2A)和/或使用核酸外切酶的MDA法(图2B)。某些情况中，扩增方法给片段引入了尿嘧啶部分，因此在扩增后可以利用以上描述的CoRE方法将每个孔中的片段进一步片段化。还可以通过超声波或酶处理将MDA产物片段化。一般来说，MDA产物片段化后，将所得片段的末端通常用T4聚合酶和T4多核苷酸激酶修复。然后用碱性磷酸酶处理片段，给片段带上衔接子标签。通常，标签衔接子臂被设计成有两个区段，一个区段是所有孔共有的，利用文中进一步描述的方法直接通过平末端连接与片段连接。第二个区段是每个孔特有的，含有“条形码”序列，因此当每个孔的内容物结合起来时，可以鉴定出每个孔的片段。图3显示了发明这一方面，可以给片段添加的某些示范性的条形码衔接子。

某些情况中，利用LFR方法分析单个细胞的基因组。这种情况中分离DNA的过程与以上描述的方法类似，但在更小体积进行。DNA一旦分离好，在分到各个小孔之前，必须小心地将基因组DNA片段化以避免材料的损失，特别是避免丢失每个片段的末端序列，因为丢失这种材料会导致最后的基因组组装存在缺口。某些情况中，通过使用罕见切口酶来避免序列的丢失，所述切口酶产生相距大约100kb的聚合酶(例如phi29聚合酶)起始位点。随着聚合酶产生新的DNA链，旧链被置换，最后的结果是聚合酶起始位点附近存在着重置序列(图4)，使得序列缺少很少。

某些情况中，当仅有少量样品DNA并且还有可能由于与例如容器壁等的非特异结合而损失DNA时，提供载体DNA(例如无关的环状合成双链DNA)与样品DNA混合并使用是有益的。在一种实施方式中，片段化后将DNA变性从而产生单链片段。

在一种实施方式中，片段化后(实际上在本文概括的任何步骤之前或之后)，可以对片段化的核酸群进行扩增步骤以保证全部片段有足够大的浓度提供给随后的步骤，以产生本发明的修饰的核酸和利用这些核酸获取序列信息。这类扩增方法是本领域已知的，包括但不限于聚合酶链式反应(PCR)、连接酶链式反应(有时被称为寡核苷酸连接酶扩增0LA)、环状探针技术(CPT)、链置换法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及有创切割技术。

在其他实施方式中，片段化后，将靶核酸进一步修饰以备根据发明所述方法给它们插入多个衔接子。需要进行这类修饰是因为片段化的过程有可能使产生的靶核酸所带有的末端无法进行插入衔接子要使用的程序，尤其是使用诸如连接酶和聚合酶的酶类。对于文中概述的所有步骤，这个步骤是任选的，可以与任何步骤组合。将片段修饰以备它们与其他核酸分子定向连接的方法包括使用酶，例如聚合酶和磷酸酶来修饰片段的末端，从而使得它们只能以所需的方向与其他核酸分子连接。这类方法在文中有进一步描述。

IIB.CoRE片段化

正如以上讨论过的，用于本发明的片段化方法包括机械和酶促片段化方法，以及酶促和机械片段化方法的组合。许多机械和酶促片段化方法是本领域已知的。

一方面，本发明提供了文中称为可控随机酶促(CoRE)片段化的片段化方法。文中描述的CoRE片段化方法可以单独使用或者与其他本领域已知的机械和酶促片段化方法组合使用。CoRE片段化涉及一系列的三个酶促步骤，如图1所示意性图示的。首先，核酸101要经历由在有dNTPs的情况下进行的扩增方法的处理，其中dNTPs中加入了一定比例的脱氧尿嘧啶(“dU”)或尿嘧啶(“U”)，导致扩增产物的两条链上的T位置以一定的和可控的比例被dUTP或UTP所取代(103)。有多种扩增方法可以用于发明的这个步骤，包括但不限于聚合酶链式反应(PCR)、连接链式反应(有时被称为寡核苷酸连接酶扩增OLA)、环状探针技术(CPT)、链置换法(SDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCA)(用于环化的片段)以及有创切割技术。在某些实施方式中，利用dNTPs中加入了与dTTP成一定比例的dUTP或UTP的多重置换扩增(MDA)来产生两条链上某些位点被dUTP或UTP取代的扩增产物(103)。

扩增并插入尿嘧啶部分后，一般是通过UDG、EndoVIII和T4PNK联用将尿嘧啶切除(104)，产生带有功能性5’磷酸和3’羟基端的单碱基缺口(105)。将产生的单碱基缺口的平均间隔由MDA产物中U的出现频率所决定。这就是说，dUTP的量越高，所得片段越短。本领域技术人员可以理解，也可以使用其他会使核苷酸被某修饰核苷酸选择性地置换，从而导致类似切割的技术，例如对化学物质或其他酶易感的核苷酸。

用带有核酸外切酶活性的聚合酶处理带有缺口的核酸(105)导致切口沿着核酸的长度方向“平移”或“移位”直至相反链上的切口汇合到一点，从而形成双链断裂，得到大小相对匀一的相对的双链片段群(107)。聚合酶(例如Taq聚合酶)的核酸外切酶活性将毗邻切口的短DNA链切除，而聚合酶活性填上切口和该链中后续的核苷酸(基本上，Taq沿着链移动，利用核酸外切酶活性将碱基切除并添加相同的碱基，其结果就是切口沿链平移直至酶达到链末端)。

因为双链片段(107)的大小分布是由MDA反应中使用的dTTP与DUTP或UTP的比率决定的，而不是酶处理的时长或程度决定的，因此这种CoRE片段化方法的片段化具有高度重复性。因此，CoRE片段化产生全部类似大小的双链核酸片段群。

IIC.长片段阅读技术

本发明的长片段阅读(LFR)法基于对许多不同小份进行长基因组DNA片段的物理分离，以至于母本和父本成分中基因组的任何给定区域同时出现在相同小份中的可能性非常低。通过在每个小份中放入独特的鉴别物，对许多小份进行分析，归结起来可以由DNA长片段组装出二倍体基因组，例如，可以提供每个亲代染色体的序列，因此比现有技术具有明显的优越性。虽然本文中的讨论集中在利用DNB阵列和连接法测序的LFR方法的应用上，但应当明白这些LFR方法可以与各种其他阵列和其他测序方法一起使用，从而将二倍体基因组以两个分开的单倍体基因组测序。这将有助于家族性遗传病的鉴定等方面。

可以理解的是，通过提供将来自二倍体样本中的两套染色体中的调用(call)区分出来的能力，LFR允许较高置信度调用低覆盖率的变异和非变异位点。LFR的其它应用包括分辨癌症基因组的大量重排和可选拼接转录子的全长测序。

为了将片段恰当地分开，一般要将DNA稀释成每份大约10％单倍体基因组的浓度(图2C)。在这样的浓度，小份中95％的碱基对没有重叠。这样的稀释达到的统计学上的分离可以使得母本和父本片段通常落在不同小份中(图2C，第二个图块)。应当明白，稀释因子可能取决于片段的原始大小。即，利用温和的技术来分离基因组DNA，可以得到大概100kb的片段，这些片段然后被分成小份。能够产生较大片段的技术需要更少小份，而产生较短片段的技术可能需要更大稀释度。

在一些实施方式中，每个小份中的片段被扩增，而在其他实施方式中，每个小份中的片段被进一步片段化，然后标记上衔接子，这样同一小份中的片段全部包含相同的标记衔接子；参见例如US2007/0072208，该文献通过引用全部并入本文，尤其可以参考其中关于进一步分小份和覆盖度的讨论。

许多实施方式中，每个小份包含在多孔板(例如，384孔板)的单独小孔中。应当明白，虽然以下关于LFR的讨论针对多孔板的情况，但可以使用任何数量的不同类型的容器和系统来容纳该方法中产生的不同小份。这类容器和系统是本领域已知的，本领域技术人员很容易知道什么类型的容器和系统适合用于发明的这一方面。

如以上讨论的，可以通过多种不同方法从细胞中分离基因组核酸的长片段。在一种实施方式中，细胞被裂解，以温和的离心步骤将完整细胞核沉淀(pellete)。然后通过蛋白酶K和RNase消化几小时释放基因组DNA。在某些实施方式中，然后可以处理材料以降低存留细胞废物的浓度-这类处理在本领域是公知的，可以包括但不限于透析一段时间(即，2-16小时)和/或稀释。因为这类分离核酸的方法不包括许多破坏性过程(例如乙醇沉淀、离心和涡旋混匀)，基因组核酸基本上保持完整，产生的片段大部分长度超过150kb。某些实施方式中，片段长度在大约100到750kb。其他实施方式中，片段长度在大约150到大约600、大约200到大约500、大约250到大约400、以及大约300到大约350kb。

图2中示意了LFR方法的一个实例。通常LFR开始是用5’核酸外切酶短时处理基因组核酸，一般是基因组DNA，从而产生3’单链突出。这种单链突出可以作为MDA起始部位(图2)。使用核酸外切酶还免除了在扩增前对加热或碱变性步骤的要求，不会再次给片段群体引入偏向性。在某些实施方式中，碱变性与5’核酸外切酶处理联用，这样偏向性的降低程度比单独使用其中任一种处理的降低程度要大。

经过5’核酸外切酶和任选的碱变性处理的DNA然后可以稀释到亚基因组浓度，分散到大量小份中，通常是分散到多孔板的许多小孔中。某些实施方式中，多孔板的每个小孔中分到等同于10％基因组的量。如果使用的是384孔板，每孔中分到等同于10％基因组的量导致每个微量板共包含38个基因组。在其他实施方式中，每个孔中分到等同于5-50％基因组的量。正如上文提到的，小份的数量和基因组等同物可能要取决于最初的片段大小。

分离到多个孔后，通常利用MDA方法将每个孔中的片段扩增。在特定实施方式中，所述MDA反应是经过改良的基于Phi29聚合酶的扩增反应。虽然本文中的讨论主要是就MDA反应而言，但本领域技术人员可以理解，许多不同种类的扩增反应可以用于本发明，这些扩增反应是本领域公知的，在Maniatisetal.,MolecularCloning：ALaboratoryManual,2dEdition,1989和ShortProtocolsinMolecularBiology,ed.Ausubel,etal.(通过引用并入本文)中有概述。

在某些实施方式中，设计MDA反应使得扩增产物中被引入尿嘧啶。某些实施方式中，利用标准MDA反应来扩增每孔中的片段，所述MDA反应中采用随机六聚体。许多实施方式中，利用随机8聚体引物，而不是随机六聚体来减少片段群体中的扩增偏向性。其他实施方式中，还可以给MDA反应中加入几种不同的酶来减少扩增偏向性。例如，可以利用低浓度的非进行性5’核酸外切酶和/或单链结合蛋白来产生8聚体的结合位点。还可以利用诸如甜菜碱、DMSO或海藻糖之类的化学试剂通过类似的机制减少偏向性。

扩增各孔中的片段后，在许多实施方式中扩增产物随后进行再一轮的片段化。某些实施方式中在扩增后使用以上描述的CoRE方法将每个孔中的片段进一步片段化。正如以上讨论过的，为了使用CoRE方法，用于扩增各孔中的片段的MDA反应被设计成能够给MDA产物引入尿嘧啶。MDA产物的片段化还可以通过超声波处理或酶处理来实现。这个实施方式中可以使用的酶处理包括，但不限于使用DNase1、T7核酸内切酶1、微球菌核酸酶等。

某些实施方式中，当利用CoRE方法将MDA产物片段化时，用尿嘧啶DNA糖基化酶(UDG)、DNA糖基化酶-裂解酶核酸内切酶VIII和Τ4多核苷酸激酶混合物处理含有MDA产物的各个孔，从而切除尿嘧啶碱基，产生带有功能性5’磷酸和3’羟基基团的单碱基缺口。通过利用诸如Taq聚合酶之类的聚合酶经切口平移产生双链平末端断裂，得到可以进行连接的片段，其大小取决于MDA反应中加入的dUTP浓度。某些实施方式中，所用CoRE方法包括通过聚合反应去除尿嘧啶，以及经phi29进行的链置换(参见图4)。

一般来说，MDA产物被片段化后，要将得到的片段的末端修复。这类修复可能是必要的，因为许多片段化技术会产生在之后的连接反应中没有用的带有突出端的末端和带有功能性基团的末端，例如3’和5’羟基基团和/或3’和5’磷酸基团。在本发明的许多方面，使片段经修复而带有平末端是有益的，某些情况中，可能希望改变末端的化学属性使得没有处于正确方向的磷酸和羟基基团，从而防止靶序列的聚合。可以利用本领域已知的方法来控制末端的化学属性。例如，某些情形中，可以用磷酸酶除去所有的磷酸基团，因此全部末端含有羟基基团。然后可以选择性地改变每个末端以便所希望的成分之间发生连接。然后片段的一个末端可以被活化，在某些实施方式中，这是通过用碱性磷酸酶进行处理实现的。许多实施方式中，片段随后被标记上衔接子。一般来说，可以利用这些标签衔接子来鉴定来自LFR方法中同一小孔的片段。

图3提供了用于LFR方法作为标签的衔接子设计的某些实施方式的示意图。通常，衔接子被设计为两个区段，一个区段是所有小孔共有的(common)，利用文中进一步描述的方法将片段与平末端直接连接。在图3显示的实施方式中，添加的“共有”衔接子具有两个衔接子臂-一个臂是平末端连接片段的5’端，另一个臂是平末端连接片段的3’末端。标签衔接子的第二个区段是对于每个小孔是独特的“条形码”区段。该条形码通常是一个独特的核苷酸序列，特定小孔中的每个片段被给予相同的条形码。然后，当来自所有小孔的标签片段被重新合并在一起进行测序时，可以通过鉴定条形码衔接子来鉴定来自相同小孔的片段。在图3示意的实施方式中，条形码被连接到共有衔接子臂的5’端。共有衔接子和条形码衔接子可以顺序或者同时连接至片段。正如文中将进一步详细地描述的那样，可以修饰共有衔接子和条形码衔接子的末端使得每个衔接子区段可以沿正确的方向连接并与合适的分子连接。这类修饰通过确保片段不会相互连接，并且衔接子区段只能以示意的方向连接，从而防止衔接子区段的“聚合”。

在其他实施方式中，用于给每个小孔中的片段标记的衔接子可以采用三区段设计。该实施方式与上面描述的条形码衔接子设计类似，不同的是条形码衔接子区段被分成两个区段(参见图3)。该设计通过将不同条形码区段连接在一起形成全长条形码区段而产生组合条形码衔接子区段，从而允许更多可能的条形码。这种组合设计提供了更大的可能条形码衔接子库，同时减少了需要产生的全长条形码衔接子的数量。

每个小孔中的片段被标记后，将所有片段合并形成单个群体。然后如下文更详细描述的，可以利用这些片段产生本发明的核酸模板。由这些带标签片段产生的核酸模板可以通过每个片段上附着的条形码标签衔接子鉴定出属于哪个特定小孔。

某些情况中，利用LFR方法来分析少量细胞，包括单个细胞的基因组。这种情况中分离DNA的过程与以上描述的方法类似，但是在更小体积中进行。一旦分离到DNA，并在将样品按份分到单个小孔中之前，必须仔细将基因组DNA片段化以避免材料的损失，特别是避免损失每个片段的末端序列，因为丢失这类材料会导致最终的基因组组装中出现缺口。某些情况中，通过使用罕见切口酶来避免序列丢失，这种切口酶产生各自相隔大约100kb距离的聚合酶(例如phi29聚合酶)起始位点。随着聚合酶产生新的DNA链，它将取代旧链，最终的结果是聚合酶起始部位附近存在重叠的序列(图4)，使得序列缺失非常少。在其他实施方式中，然后可以按照以上描述的方法，将DNA稀释并分到多个小孔中。某些实施方式中，有控制地使用5’核酸外切酶(MDA反应之前或反应中)可以促进来自单细胞的原始DNA的多重复制，从而减少早期错误通过拷贝的复制被传播。

应当理解的是，利用本领域已知的任何测序方法，本文描述的LFR方法可以用于将二倍体基因组测序。本文描述的LFR方法在其他实施方式中可以用于任何数量的测序平台，包括但不限于，例如GeneChip(Affymetrix)、CodeLinkBioarray(Amersham)、ExpressionArraySystem(AppliedBiosystems)、SurePrintmicroarrays(Agilent)、SentrixLDBeadChip或SentrixArrayMatrix(Illumina)以及Verigene(Nanosphere)。

某些实施方式中，这里描述的LFR方法不包括多重水平或层次的片段化/分份，如2006年6月13日提交的美国专利申请11/451,692中描述的，该文献基于所有目的，特别是基于与片段化和核酸分份方法有关的教导，通过引用全文并入本文。这就是说，某些实施方式中仅进行了单轮分份，并且允许将小份重新汇合用于单个阵列，而不是每个小份使用单独的阵列。

III.本发明的核酸模板

本发明提供了包含靶核酸和多个分散的衔接子的核酸模板。通过在每个靶核酸中的多个位点插入衔接子组装出核酸模板构建体。分散的衔接子允许从靶序列的多个位点顺序或同时地获取序列信息。

术语“靶核酸”是指目标核酸(nucleicacidofinterest)。一方面，本发明的靶核酸是基因组核酸，但可以使用包括mRNA(及相应的cDNAs等)的其他靶核酸。靶核酸包括天然的或基因改变的或者合成制备的核酸(例如来自哺乳动物疾病模型的基因组)。靶核酸几乎可以从任何来源获得，也可以利用本领域已知的方法制备。例如，靶核酸可以不经扩增直接分离，通过利用本领域已知的方法经扩增分离，所述方法包括但不限于聚合酶链式反应(PCR)、链置换法(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、滚环复制(RCR)和其他扩增方法。靶核酸还可以通过克隆获得，包括但不限于克隆到诸如质粒、酵母菌和细菌人工染色体等载体中。

在某些方面，靶核酸包含mRNAs或cDNAs。在特定实施方式中，靶DNA是利用从生物样品中分离的转录物产生的。同样如GenomeAnalysis：ALaboratoryManualSeries(Vols.1-1V)或MolecularCloning：ALaboratoryManual中描述的那样，分离的mRNA可以利用常规技术反转录成cDNAs。

靶核酸可以是具体指明的单链的或双链的，或者既含有双链又含有单链序列部分。根据具体应用，核酸可以是DNA(包括基因组和cDNA)、RNA(包括mRNA和rRNA)或者它们的混合体，其中，核酸含有脱氧核糖-和核糖核苷酸的任何组合，以及碱基的任何组合，包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等。

“核酸”或“寡核苷酸”或“多核苷酸”或者文中的语法等同术语是指至少两个共价连接的核苷酸。本发明的核酸通常会含有磷酸二酯键，但在某些情况中，如下文列出的(例如在引物和诸如标记探针之类的探针构件中)，包含了可能含有替代的骨架的核酸类似物，例如包含憐酸胺(Beaucageetal.,Tetrahedron49(10)：1925(1993)及其中的参考文献；Letsinger,J.Org.Chem.35:3800(1970)；Sprinzletal.，Eur.J.Biochem.81：579(1977)；Letsingeretal.，Nucl.AcidsRes.14:3487(1986)；Sawaietal,Chem.Lett.805(1984),Letsingeretal.,J.Am.Chem.Soc.110:4470(1988)；和Pauwelsetal.，ChemicaScripta26:14191986))、硫代憐酸酯(Magetal.，NucleicAcidsRes.19：1437(1991)；和美国专利5,644,048)、二硫代磷酸酯(Briuetal.，J.Am.Chem.Soc.1ll：2321(1989))、O-甲基憐酸胺酯键(参见Eckstein,OligonucleotidesandAnalogues：APracticalApproach,OxfordUniversityPress)以及妝核酸(文中又称为“PNA”)骨架和键(参见Egholm,J.Am.Chem.Soc.114：1895(1992)；Meieretal.，Chem.1nt.Ed.Engl.31：1008(1992)；Nielsen,Nature,365:566(1993)；Carlssonetal.,Nature380:207(1996)，所有这些文献均通过引用并入本文)。其他核酸类似物包括那些具有双环结构的，包括锁核酸(本文中又称为“LNA”)，Koshkinetal.，J.Am.Chem.Soc.120：132523(1998)；正电荷骨架(Denpcyetal.,Proc.Natl.Acad.Sc1.USA92:6097(1995)；非离子性骨架(美国专利No.5,386,023、No.5,637,684、No.5,602,240、No.5,216,141和No.4,469,863；Kiedrowshietal.,Angew.Chem.1ntl.Ed.English30:423(1991)；Letsingeretal.,J.Am.Chem.Soc.110:4470(1988)；Letsingeretal.,Nucleoside&Nucleotide13：1597(1994)；Chapters2and3,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Ed.Y.S.SanghuiandP.DanCook；Mesmaekeretal.,Bioorganic&MedicinalChem.Lett.4：395(1994)；Jeffsetal.,J.BiomolecularNMR34:17(1994)；TetrahedronLett.37:743(1996))以及非核糖骨架，包括美国专利No.5,235,033和No.5,034,506以及ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch"(Ed.Y.S.SanghuiandP.DanCook)的第6和7章中描述的那些。含有一或多个碳环糖的核酸也包含在核酸的定义范围内(参见Jenkinsetal.,Chem.Soc.Rev.(1995)，169-176页)。Rawls,C&ENewsJun.2，1997，35页描述了几种核酸类似物。“锁核酸”(LNA^TM)也包含在核酸类似物的定义范围内。LNAs是这样一类核酸类似物，其中的核糖环被连接2’-O原子和4’-C原子的亚甲基桥“锁定”。为了所有目的，尤其是与核酸有关的全部教导，这些参考文献均通过引用明确地并入本文。可以进行核糖-磷酸骨架的这些修饰以便提高这类分子在生理环境中的稳定性和半衰期。例如，PNA：DNA和LNA-DNA混合体可以显示出更高的稳定性，因此可以用于某些实施方式。

本发明的核酸模板(又称为“核酸构建体”和“文库构建体”)包含靶核酸和衔接子。术语“衔接子”用于本文是指序列已知的寡核苷酸。本发明中使用的衔接子可以包含多种元件。所述衔接子中包含的元件(文中又称为“特征”)的类型和数量取决于衔接子的预期用途。用于本发明的衔接子通常包括但不限于限制性核酸内切酶的识别和/或切割位点(特别是II型识别位点，如下文描述，这种识别位点允许核酸内切酶结合位于衔接子内部的识别位点，而在衔接子之外切割)；引物结合位点(用于扩增核酸构建体)或锚定引物(文中有时又称为“锚定探针”)结合(用于给核酸构建体中的靶核酸测序)、切口酶位点等。在某些实施方式中，衔接子会包含限制性核酸内切酶的单个识别位点，而在其他实施方式中，衔接子会包含一或多种限制性核酸内切酶的两个或更多个识别位点。如文中的概述，识别位点经常(但不是必然)存在于衔接子的末端，以便双链构建体的切割尽可能在离衔接子末端最远的位置进行。

在某些实施方式中，本发明的衔接子根据衔接子中包含的特征的数量和大小，长度为大约10到大约250个核苷酸。在特定实施方式中，本发明的衔接子长度大约50个核苷酸。在其他实施方式中，本发明使用的衔接子长度为约20到约225、约30到约200、约40到约175、约50到约150、约60到约125、约70到约100，和约80到约90个核苷酸。

在其他实施方式中，衔接子任选可以包含元件使得它们能作为两个“臂”连接到靶核酸上。这些臂中的一个或两者可以包含限制性核酸内切酶的完整识别位点，或者两个臂可以包含限制性核酸内切酶的部分识别位点。在后一种情况中，包含靶核酸的构建体每端结合着衔接子臂，其环化将构成完整的识别位点。

在又一些实施方式中，本发明使用的衔接子在其5’和3’端包含不同的锚定子(anchor)结合位点。正如文中进一步描述的，这类锚定子结合位点可以用于测序应用，包括本文和美国专利申请第60/992,485号,第61/026,337号、第61/035,914号、第61/061,134号、第61/116,193号、第61/102,586号、第12/265,593号和第12/266,385号、第11/938,106号、第11/938,096号、第11/982,467号、第11/981,804号、第11/981,797号、第11/981,793号、第11/981,767号、第11/981,761号、第11/981,730号、第11/981,685号、第11/981,661号、第11/981,607号、第11/981,605号、第11/927,388号、第11/927,356号、第11/679,124号、第11/541,225号、第10/547,214号以及第11/451,691号中描述的复合探针锚定子连接(cPAL)的测序方法，以上文献均通过引用全部并入本文，特别是与通过连接来测序有关的公开内容。

一方面，本发明的衔接子是分散衔接子。本文中的“分散衔接子”意味着在靶核酸内部插入间隔位置的寡核苷酸。一方面，就靶核酸而言的“内部”意味着在诸如环化和切割等处理之前，靶核酸以内的位点，上述处理可能引入序列反转或者类似的转变，因此打乱了靶核酸中核苷酸的顺序。

本发明的核酸模板构建体含有以特定方向插入靶核酸的多重分散衔接子。正如文中进一步讨论的，靶核酸是由从一个或多个细胞(包括一个到几百万个细胞)中分离的核酸制备的。然后这些核酸利用机械或酶促方法被片段化。

成为本发明所述核酸模板构建体的一部分的靶核酸在靶核酸的连续区域内预先确定的位置上可以含有间隔插入的分散衔接子。间隔可以是相同或不同的。某些方面中，分散衔接子之间的间距可能只能准确知道到一至几个核苷酸。其他方面中，衔接子的间距是已知的，每个衔接子相对库构建体中其他衔接子的方向是已知的。这就是说，在许多实施方式中，衔接子以已知距离插入，因此一个末端的靶序列与另一个末端的靶序列是连续的天然基因组序列。例如，对于从识别位点开始切割16个碱基的II型限制性核酸内切酶，3个碱基位于衔接子内，核酸内切酶从衔接子末端开始切割13个碱基。插入第二个衔接子后，衔接子“上游”的靶序列和衔接子“下游”的靶序列实际上在原始靶序列中是连续序列。这些“配对”序列扩大了可从构建体中连续阅读的数目，特别用于通读基因组中的重复元件。

虽然本文中描述的发明实施方式一般是就环形核酸模板构建体而言，但可以理解的是，所述核酸模板构建体也可以是线性的。此外，本发明的核酸模板构建体可以是单链或双链的，某些实施方式中优选双链。

本发明提供包含靶核酸的核酸模板，所述靶核酸含有一或多个分散的衔接子。另一种实施方式中，由多个基因组片段形成的核酸模板可以用于产生核酸模板库。这类核酸模板库在某些实施方式中涵盖的靶核酸合在一起能够覆盖整个基因组全部或部分。这就是说，通过使用足够数量的起始基因组(例如细胞)，结合随机片段化，所得的用于产生本发明的环形模板的特定大小的靶核酸能够有效地“覆盖”基因组，虽然可以理解的是，少数情况中，可能会不经意引入偏向性而阻碍整个基因组的呈现。

本发明的核酸模板构建体包含多个分散衔接子，在某些方面中，这些分散的衔接子包含限制性核酸内切酶的一或多个识别位点。另一方面，所述衔接子包含II型核酸内切酶的识别位点。II型核酸内切酶通常可以购买到，是本领域公知的。与它们的II型对应物一样，II型核酸内切酶识别双链多核苷酸序列中的特异核苷酸碱基对序列。当识别到该序列时，核酸内切酶将切割该多核苷酸序列，通常会留下序列中一条链的突出，或“粘末端”。并且II型核酸内切酶通常是在其识别位点之外切割，根据具体的核酸内切酶的情况，这个距离离识别位点可以在大约2到30个核苷酸之间。某些II型核酸内切酶是从离识别位点数量已知的碱基处切割的“精确切刀”。在某些实施方式中，所用的II型核酸内切酶不是“精确切刀”，而是在特定范围内切割(例如6到8个核苷酸)。通常本发明中使用的II型限制性核酸内切酶的切割位点与其识别位点相隔至少6个核苷酸(即，识别位点结尾与最近的切割点之间的核苷酸数量)。示范性的II型限制性核酸内切酶包括，但不限于Eco57MI、MmeI、AcuI、BpmI、BceAI、BbvI、BciVI、BpuEI、BseMII、BseRI、BsgI、BsmFI、BtgZI、EciI、EcoP15I、Eco57MI、FokI、HgaI、HphI、MboII、MnI、SfaNI、TspDTI、TspDWI、TaqII等。在某些示范性的实施方式中，本发明中使用的II型限制性核酸内切酶是Acul，该酶的切割长度大约16个碱基，产生2个碱基的3’突出和jPEcoP15，该酶切割长度约25个碱基，产生2个碱基的5’突出。正如以下将进一步讨论的，在发明所述核酸模板构建体的衔接子中包含II型位点提供了在靶核酸的限定位置插入多个衔接子的工具。

可以理解的是，衔接子还可以包含其他元件，包括文中进一步描述的其他(非II型)限制性核酸内切酶的识别位点、用于扩增的引物结合位点以及测序反应中使用的探针(“锚定探针”)的结合位点。

一方面，本发明使用的衔接子具有如图5所示的序列。如图5中的一个衔接子的示意图所表明的，衔接子可以包含多个功能性特征，包括II型限制性核酸内切酶的识别位点(503和506)、切口核酸内切酶的位点(504)以及能够影响二级特性的序列，例如破坏发夹结构的碱基(501和502)。本发明使用的衔接子还可以含有回文序列，正如下文更详细讨论的，如果包含这类衔接子的核酸模板被用于产生多联体，回文序列可以促进分子内部的结合。

IV.制备本发明的核酸模板

IVA.生成环形模板的概述

本发明涉及核酸鉴定和检测的组合物和方法。如本文所述，核酸的鉴定和检测具有广泛的应用，包括各种测序和基因分型应用。本文描述的方法允许构建可以用于扩增反应的环形核酸模板，这类反应利用所述环形模板产生单体环形模板的多联体，形成下文描述的“DNA纳米球”，它在测序和基因分型应用中有广泛应用。本发明的环形或线性构建体包含靶核酸序列，通常是基因组DNA的片段(尽管如文中所述，也可以使用诸如cDNA等其他模板)，以及散在分布的外源核酸衔接子。本发明提供了制备核酸模板构建体的方法，所述模板构建体中每个后续的衔接子加在限定的位置，并且任选相对一或多个之前插入的衔接子在限定的方向。这些核酸模板构建体通常是环形核酸(尽管在特定实施方式中，所述构建体可以是线性的)，包含带有多个散在分布的衔接子的靶核酸。所述衔接子，正如下文描述的，是用于测序和基因分型应用的外源序列，通常含有限制性核酸内切酶位点，尤其是针对诸如II型的在识别位点之外切割的核酸内切酶的位点。为了分析方便，本发明所述反应优选采用那些衔接子以特定方向，而非随机地插入的实施方式。因此本发明提供可以制备核酸构建体的方法，该核酸构建体含有处于特定方向，并且相隔限定距离的多个衔接子。

在含有多个衔接子的核酸模板构建体中，所述衔接子中的至少一个将插入靶核酸的连续核苷酸，从而从这些插入的(本文又称为“分散的”)衔接子的每一末端的读取可实现对连续碱基的阅读。例如，从一个分散的衔接子的每一末端读取10个碱基可提供对20个连续的靶核酸碱基的读取。

控制每个后续衔接子的间隔和插入方向比随机插入散在分布的衔接子具有许多优势。特别是本文描述的方法提高了衔接子插入过程的效率，因此减少了对在插入每个后续衔接子时引入扩增步骤的需求。此外，控制每个添加的衔接子的间隔和方向保证了每个衔接子中通常含有的限制性核酸内切酶识别位点所处方位使得随后的切割和连接步骤在核酸构建体的适宜位点发生，从而通过减少或消除含有处于不合适位置或方向的衔接子的核酸模板形成而进一步提高所述过程的效率。另外，控制每个随后加入的衔接子的位置和方向对得到的核酸构建体的某些用途是有益的，因为衔接子在测序应用中行使多种功能，包括作为序列已知的参照点，从而协助确认靶核酸中特定位点上鉴定到的碱基的相对空间位置。文中进一步描述了衔接子在测序应用中的这类用途。

基因组核酸(通常为双链DNA，图6中的601)，获得自多个细胞，一般是大约10到100到1000或更多个细胞。使用多个细胞使得最终的DNA纳米球有足够高的冗余程度，可以达到很好的基因组测序覆盖率。如本文描述的，利用标准技术(例如物理或酶促分级法结合大小分级)将基因组核酸分离成适当的大小。

如本文所述，任选调节双链片段的5’和3’端。例如，许多用于将核酸分级的技术产生的是长度和化学性质各异的片段末端。例如，末端可能含有重叠，且基于许多目的，优选平末端双链片段。利用已知技术，例如聚合酶和dNTPs可以做到这一点。类似地，分级技术也有可能得到各种末端，例如3’和5’羟基基团和/或3’和5’磷酸基团。在某些实施方式中，正如下文描述的，可能希望通过酶促法改变这些末端。例如，为了防止不含衔接子的多个片段发生连接，理想的可能是，改变末端的化学性质，使得不存在正确的磷酸和羟基基团方向，从而防止靶序列的“聚合”。利用本领域已知的方法可以控制末端的化学性质。例如，在某些情况中，利用磷酸酶除去所有磷酸基团，从而使得全部末端含有羟基基团。然后可以选择性地改变每一末端以使期望的成分连接在一起。

此外，根据需要还可任选地利用大量已知技术进行扩增来增加基因组片段的数量以便进一步操作，但在许多实施方式中，在这个步骤中不需要扩增。

分级和任选的末端调节后，给基因组片段末端加上一套衔接子“臂”。两个衔接子臂，当连接在一起时，形成第一衔接子。例如，如图6中描述的，每个末端带有一个衔接子臂的线性构建体的环化(605)将两个臂连在一起形成完整衔接子(606)和环形构建体(607)。因此，基因组片段的一个末端加上了第一衔接子的第一衔接子臂(603)，该基因组片段的另一个末端加上第一衔接子的第二衔接子臂(604)。一般来说，正如下文更充分描述的，根据所需要的系统的情况，衔接子臂之一或两者会包含II型核酸内切酶的识别位点。可选地，每个衔接子臂可以含有部分识别位点，所述部分识别位点在所述臂连接后重新构成。

为了将后续衔接子按照希望的位置和方向连接以便测序，本发明提供了一种方法，在该方法中II型限制性核酸内切酶与环形核酸构建体的第一衔接子内的识别位点结合，然后在基因组片段(文中又称为“靶核酸”)中该第一衔接子之外的点进行切割。然后在发生切割的这个点连接上第二衔接子(同样通常是通过给第二衔接子加上两个衔接子臂)。为了在已知位点切割靶核酸，也许希望将靶核酸中可能随机包含的同一酶的任何其他识别位点封闭，从而使得限制性核酸内切酶可以结合的唯一位点在第一衔接子内，因此避免构建体发生不需要的切割。一般来说，首先保护第一衔接子中的识别位点不失活，然后通常通过甲基化使构建体中任何其他未被保护的识别位点失活。即，甲基化的识别位点不会与酶结合，因此不发生切割。只有衔接子中未被甲基化的识别位点能够与酶结合，并随后发生切割。

保护第一衔接子中的识别位点不失活的一种方法是使该位点变成单链，因为甲基化酶不会与单链结合。因此，保护第一衔接子中的识别位点的一种方法是通过利用尿嘧啶修饰过的引物扩增与两个第一衔接子臂连接的线性基因组片段来实现的。所述引物与衔接子臂互补，并且经尿嘧啶修饰过，因此在扩增(通常是利用PCR)时，得到的线性构建体含有尿嘧啶镶嵌在一个第一衔接子臂的识别位点中。利用已知技术切割尿嘧啶使所述第一衔接子臂(或者任何含有尿嘧啶的片段)变成单链。然后给线性构建体使用序列特异的甲基化酶，该酶将与第一衔接子中含有的核酸内切酶相同的核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能甲基化第一衔接子臂中的单链识别位点，因此第一衔接子臂中的识别位点被保护免于因甲基化而失活。正如下文描述的，如果限制性位点被甲基化，其将不会被限制性核酸内切酶切割。

如下文更加充分描述的，某些情况中，单个衔接子可能含有两个相同的识别位点，以便能够从同一衔接子的“上游”及“下游”切割。在该实施方式中，如图7所示意的，引物和尿嘧啶位置经过了适当的选择，从而使得“上游”或者“下游”识别位点可以被选择性地保护，而免于失活或免于被导致失活。例如，在图7中，两个不同衔接子臂(以长方形表示)各自包含限制性核酸内切酶的识别位点(在一个衔接子臂中以圆圈表示，另一个中以三角形表示)。如果需要利用以上描述的尿嘧啶降解法来保护带有以圆圈表示的识别位点的衔接子臂，则设计尿嘧啶修饰的扩增引物给该识别位点引入尿嘧啶。然后一经尿嘧啶降解，该衔接子臂变成单链(以半个长方形表示)，从而保护识别位点免于失活。

保护第一衔接子臂中的识别位点不被甲基化后，通过利用例如桥寡核苷酸和T4连接酶将线性构建体环化。环化使得第一衔接子臂中的双链限制性核酸内切酶识别位点重新形成。在某些实施方式中，桥寡核苷酸具有被封闭的末端，这使得借助桥接寡核苷酸进行环化，未封闭末端连接，并在识别位点附近留下切口。这个切口如下文的讨论可以被进一步利用。应用限制性核酸内切酶产生第二线性构建体，其包含位于靶核酸内部的第一衔接子和末端，该末端包含(具体取决于酶)双碱基突出部分。

将第二衔接子的第二套衔接子臂连接到第二线性构建体上。某些情况中，当利用切口时，为了确保衔接子以恰当的方向连接，通过利用具有核酸外切酶活性的聚合酶将第一衔接子中的切口“平移”(或“移位”)。聚合酶(例如Taq聚合酶)的核酸外切酶活性将切除邻近切口的短DNA链，而聚合酶活性将在该链“填上”切口和随后的核苷酸(基本上，Taq沿着链移动，利用核酸外切酶活性切除碱基并加上相同的碱基，结果就是切口沿着链移位，直至酶到达链末端)。

此外，为了形成模板的不对称结构，构建体的一个末端被单碱基修饰。例如，一些聚合酶(例如Taq)会进行没有模板的核苷酸添加，因此造成在平末端DNA双链体的3’端添加单一核苷酸，产生3’突出部分。本领域技术人员理解，可以添加任何碱基，具体取决于溶液中的dNTP浓度。在特定实施方式中，所用的聚合酶只能添加单一核苷酸。例如Taq聚合酶能够添加单个G或A。也可以使用其他聚合酶来添加其他核苷酸从而产生突出部分。在一种实施方式中，使用了过量的dGTP，造成在一条链的3’端在没有模板的条件下添加了鸟嘌呤。第二线性构建体3’端的这个“G尾”造成末端的不对称结构，因此能够与带有C-尾的第二衔接子臂连接，使得第二衔接子臂与第二线性构建体的3’端复性(anneal)。意图连接到5’端的衔接子带有C-尾，其位置使得它能够与5’G-尾连接。第二衔接子臂连接后，将构建体环化产生包含两个衔接子的第二环形构建体。第二衔接子通常含有II型核酸内切酶的识别位点，而该识别位点与第一衔接子中含有的识别位点可能是相同的或者是不同的，后一种情况有许多应用。

通过用限制性核酸内切酶切割，可以在第一衔接子的另一侧插入第三衔接子，所述内切酶结合第一衔接子的第二个臂中的识别位点(最初通过甲基化失活的识别位点)。为了使这个识别位点可以使用，利用与第一衔接子中的第二识别位点互补的尿嘧啶修饰引物来扩增环形构建体以产生第三线性构建体，该线性构建体中的第一衔接子包含镶嵌在第二限制性识别位点中的尿嘧啶。将尿嘧啶降解使第一衔接子变成单链，这样就保护衔接子中的识别位点免于甲基化。然后采用序列特异性甲基化酶使所有未被保护的识别位点失活。一经环化，第一衔接子中的识别位点重新形成，施用限制性核酸内切酶将切割环，在第三线性构建体中产生可以插入第三衔接子的位点。第三衔接子臂与第三线性构建体的连接将遵循与以上描述相同的基本程序-第三线性构建体将带有A-或G-尾，第三衔接子臂将带有T-或C-尾，使得衔接子臂能够与第三线性构建体复性，并连接。然后将包含第三衔接子臂的线性构建体环化以形成第三环形构建体。与第二衔接子一样，第三衔接子会通常包含与第一衔接子所含有的识别位点不同的限制性核酸内切酶识别位点。

通过利用在第二和第三衔接子中有识别位点的II型限制性核酸内切酶可以添加第四衔接子。用这些限制性核酸内切酶进行的切割将产生第四线性构建体，然后该构建体与第四衔接子臂连接。连接了第四衔接子臂的第四线性构建体的环化将产生本发明的核酸模板构建体。正如本领域技术人员可以理解的，还可以添加其他衔接子。因此，本文描述的方法允许两个或两个以上衔接子以方向依赖性方式、有时是距离依赖性方式加入。

本发明还提供了用于控制每一随后加入的衔接子的插入方向的方法。这类“切口平移”法提供了一种控制靶核酸与衔接子连接方式的方法。通过防止衔接子与其他衔接子连接以及防止靶核酸分子与其他靶核酸分子连接(主要是避免衔接子和靶核酸分子各自的“聚合”)，这些方法还能够防止形成假核酸构建体。图8示意性图示了衔接子和靶核酸分子连接可以采取的不同方向的实例。靶核酸801和802优选与衔接子803和804沿希望的方向连接(正如该图中显示的，希望的方向是具有相同形状-圆圈或方形-的末端相互连接的那个方向)。修饰分子的末端可以避免不希望的构象807、808、809和810，这些构象中靶核酸相互连接，衔接子相互连接。此外，正如下文将更详细讨论的，可以通过控制衔接子和靶核酸的末端的化学性质来控制每次衔接子-靶核酸连接的方向。可利用本领域已知方法控制末端的化学性质。例如，在一些情况中，使用磷酸酶除去所有磷酸基团，使得全部末端含有羟基基团。然后可以选择性地改变每一末端以使所期望的成分之间进行连接。下文更详细地描述了本发明的切口平移法中末端修饰和控制衔接子插入的这些和其他方法。

在其它实施方式中，衔接子方向可使用可选的方法控制从而选择那些具有方向正确的衔接子的模板，所述可选的方法包括选择性杂交、选择性扩增以及衔接子切口与扩增的组合。例如，这类方法在2007年11月2日提交的WO2008/070375和2007年11月2日提交的美国申请No.11/934,695，2007年11月2日提交的No.11/934,697以及2007年11月2日提交的No.11/934,703中有描述，上述文献中的每一个的全部内容通过引用并入本文，具体而言，关于选择具有以期望的方向插入的衔接子的核酸模板构建体的所有教导特别通过引用并入本文。

然后这些核酸模板构建体(包含散布了这些衔接子的靶序列的“单体”)可以用于产生多联体，而这些多联体可以形成用于如测序和检测特异靶序列等下游应用的核酸纳米球。

本发明提供了形成核酸模板构建体的方法，其中所述核酸模板构建体包含插入靶核酸的多个散在分布的衔接子。正如文中进一步讨论的，本发明的方法允许通过利用衔接子中包含的II型限制性核酸内切酶的识别位点来插入每个后续衔接子。为了以期望的顺序和/或方向插入多个衔接子，可能有必要将靶核酸中含有的限制性核酸内切酶识别位点封闭，从而使得只有衔接子中的识别位点可供酶的结合和随后的切割。这类方法的优势之一是每个衔接子中可以使用相同的限制性核酸内切酶位点，这就简化了最终用于制备多联体的环形模板的产生过程，衔接子的插入可以利用先前插入的衔接子作为下一个衔接子的“垫脚石”，每个新的衔接子通过顺着片段的长度方向“走”即可实现添加。控制可供限制性酶使用的识别位点还避免了切除某些序列，因此只能得到有限的序列呈现(如果可以接近靶核酸内部的位点，就可能发生这种情况)。

IVB.添加第一衔接子

作为产生本发明的核酸模板的第一步，将第一衔接子与靶核酸连接。可以将整个第一衔接子添加到一个末端，或者将第一衔接子的文中称为“衔接子臂”的两部分与靶核酸的两个末端分别连接。第一衔接子臂被设计成通过连接可以重新构成完整的第一衔接子。正如上面具体描述的，第一衔接子通常包含一或多个II型限制性核酸内切酶的识别位点。在一些实施方式中，II型限制性核酸内切酶识别位点会在两个衔接子臂之间分裂开，因此该位点只有在上述两个衔接子臂连接后才能用于结合限制性核酸内切酶。

图6是组装衔接子/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一方面的示意图。利用以上描述的标准技术分离DNA，例如基因组DNA601，并将其片段化为靶核酸602。然后片段化的靶核酸602被修复，以使得各链的5'和3'端是齐的或平的末端。这个反应后，利用没有校正功能的聚合酶使片段化的靶核酸的每个链的3’端添加单个A，从而使每个片段带上“A-尾”。加A尾通常通过使用聚合酶(例如Taq聚合酶)并仅提供腺嘌呤核苷酸实现，这样聚合酶被迫以模板序列非依赖性的方式给靶核酸的末端添加一个或一个以上A。

在图6显示的示例性方法中，第一衔接子的第一臂(603)和第二臂(604)与各个靶核酸连接，产生带有连接到各末端的衔接子臂的靶核酸。在一种实施方式中，衔接子臂是与靶核酸的A尾互补的“加T尾的”，这样通过提供一种方式使衔接子臂首先与靶核酸复性，然后采用连接酶将衔接子臂连到靶核酸上，以有利于衔接子臂与靶核酸的连接。

在其他实施方式中，本发明提供了衔接子与各片段连接的方式使分子内或分子间连接假象(artifacts)的产生最小化。这是有益的因为靶核酸随机片段相互形成连接假象会产生假的靶核酸片段间的基因组邻近关系，使序列比对过程复杂化。利用加A和T尾将衔接子附着到DNA片段上防止了衔接子和片段的随机分子内或分子间关联，这就减少了自连接(衔接子-衔接子或片段-片段连接)会产生的假象。

作为加A/T尾(或加G/C尾)的替代方式，可以采取各种其他方法来防止靶核酸和衔接子形成连接假象，以及相对靶核酸给衔接子臂定向，包括利用靶核酸和衔接子臂中的互补NN突出，或者采用合适的靶核酸与衔接子的比率进行平末端连接从而优化单片段核酸/衔接子臂连接比率。

产生包含靶核酸并且每个末端都带有衔接子臂的线性构建体后，将线性靶核酸环化(605)(该过程在文中将更详细地讨论)，产生包含靶核酸和衔接子的环形构建体607。注意环化过程导致第一衔接子的第一和第二臂被带到一起以在环形构建体中形成连续的第一衔接子(606)。在某些实施方式中，环形构建体607利用例如随机六聚体和Φ29或解旋酶，通过例如环依赖性扩增被扩增。可选地，靶核酸/衔接子结构可以保持线性，可以通过从衔接子臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程，使用高保真度、有校正活性的聚合酶，产生序列准确的扩增靶核酸/衔接子构建体文库，其中被查询的基因组或基因组的一或多个部分有足够的表现出来。

IVC.添加多个衔接子

图6是组装衔接子/靶核酸模板(文中又称为“靶文库构建体”、“文库构建体”和所有语法上的等同体)的方法的一个方面的示意图。利用标准技术分离DNA，例如基因组DNA601，并将其片段化为靶核酸602。然后在某些实施方式中(如文中所述)片段化的靶核酸602被修复，使得每个链的5'和3'端是齐的或平的末端。

在图6显示的示范性方法中，第一衔接子的第一臂(603)和第二臂(604)与各个靶核酸连接，产生带有连接到各末端的衔接子臂的靶核酸。

产生包含靶核酸并且每个末端都带有衔接子臂的线性构建体后，将线性靶核酸环化(605)(这个过程在文中将更详细地讨论)，产生包含靶核酸和衔接子的环形构建体607。注意环化过程导致第一衔接子的第一臂和第二臂被带到一起在环形构建体中形成连续的第一衔接子(606)。在某些实施方式中，环形构建体607利用例如随机六聚体和Φ29或解旋酶，通过例如环依赖性扩增被扩增。可选地，靶核酸/衔接子结构可以保持线性，可以通过从衔接子臂内的位点引导的PCR来进行扩增。扩增优选是受到调控的扩增过程，使用高保真度、有校正活性的聚合酶，产生序列准确的扩增靶核酸/衔接子构建体文库，其中被查询的基因组或基因组的一或多个部分被充分表现出来。

与添加第一衔接子过程类似，可以给线性分子的每个末端添加第二套衔接子臂(610)和(611)，然后连接(612)以形成完整衔接子(614)和环形分子(613)。同样，通过利用切割衔接子(609)另一侧的II型核酸内切酶可以给衔接子(609)的另一侧添加第三衔接子，然后将第三套衔接子臂(617)和(618)连接到线性化分子的各个末端。最后，通过再次切割环形构建体并给线性化分子添加第四套衔接子臂来加上第四衔接子。图6所画的实施方式是采用了衔接子(620)和(614)中有其识别位点的II型核酸内切酶来切割环形构建体的一种方法。衔接子(620)和(614)中的识别位点可以是相同或不同的。类似地，图6显示的所有衔接子中的识别位点可以相同或不同。

如图9总体说明的，包含第一衔接子的环形构建体在该衔接子中可能含有两个II型限制性核酸内切酶识别位点，其位置使得识别序列之外(且在衔接子之外)的靶核酸被切割(910)。结构510周围的箭头指示识别位点和限制位点。在过程911中，使用了一种II型限制性核酸内切酶EcoP15来切割环形构建体。注意在图9所显示的方面中，每个文库构建体中映射到部分靶核酸的的部分将被从构建体中切割掉(结构910中箭头之间的靶核酸部分)。过程911中用EcoP15限制切割文库构建体产生了含有第一衔接子的线性构建体文库，其中第一衔接子位于线性构建体912末端以内。得到的线性文库构建体的大小由核酸内切酶识别位点和核酸内切酶限制位点之间的距离加上衔接子的大小决定。在过程913中，线性构建体912，与片段化的靶核酸904一样，通过常规方法处理以变成平的或齐的末端，利用不具有校正活性的聚合酶给线性文库构建体的3’端加上包含单个A的A尾，通过A-T加尾和连接将第二衔接子的第一臂和第二臂连接到线性化的文库构建体的末端913。得到的文库构建体包含914处可以看到的结构，其中第一衔接子位于线性构建体末端以内，靶核酸在一个末端通过第一衔接子侧接，另一端通过第二衔接子的第一臂或第二臂侧接。

在过程915中，双链线性文库构建体被处理成为单链916，然后单链文库构建体916被连接(917)形成散在分布着两个衔接子的靶核酸918单链环。917中的连接/环化过程是在使分子内连接最优化的条件下进行的。在特定浓度和反应条件下，更倾向于每个核酸构建体末端的局部分子内连接，而不是分子之间的连接。

在一些实施方式中，2,3,4,5,6,7,8,9或10个衔接子包含在本发明的核酸模板内，其中，独立选择每一衔接子以使其可全部相同、全部不同或者具有成组的相同衔接子(例如，具有相同序列的两个衔接子，具有相同序列但也有不同序列的两个衔接子，如本文所述，所有组合均有可能)。如上文更加详细讨论的那样，图6为产生具有四个衔接子的模板的方法的示意图。图51为六-衔接子阅读结构的示意图，该结构将阅读长度从70个碱基/DNB增加至104个碱基/DNB。在图51中，DNB的每个臂具有两个插入的衔接子(Ad2+Ad3和Ad4+Ad5)，该衔接子支持对13+13+26碱基/臂的分析。所有插入的衔接子(Ad2-Ad5，按照插入的方向)在自动化仪器上通过相同的IIS酶(例如AcuI。使用可选的MmeI将可分析碱基增加至18+18+26个/臂或124个/DNB)以下列步骤递归引入：IIS切割DNA环、按方向连接衔接子、PCR、USER酶切、选择性甲基化以及DNA环化。如本文所述，可使用任何数量的限制性核酸内切酶，并且所述限制性核酸内切酶可相同或不同，具体取决于系统格式。每一衔接子的反应时间可低至自动化系统中的每批96个文库需要10小时，从而产生足够的生产量以支持多种先进测序仪器。每一按方向插入的衔接子除了延长了cPAL阅读长度外，还明显延长了SBS或SBL的阅读长度。

IVD.控制靶核酸和衔接子之间的连接方向

一方面，如上文所述，本发明提供了一种使衔接子与靶核酸以期望方向进行连接的方法。这种对方向的控制是有益的，因为靶核酸的随机片段形成相互连接的假象会产生假的靶核酸片段间的基因组邻近关系，使序列比对过程复杂化。

有几种方法可以用来控制衔接子的插入方向。如上文所述，可以改变靶核酸和衔接子末端的化学性质，从而使连接仅发生在方向正确的情况下。可选地，可以进行“切口平移法”，如下面概述的，该方法同样依赖于末端的化学性质。最后，可以按照下面的描述，采取涉及用特别选择的引物进行扩增的方法。

图12示意性说明了第二衔接子可以添加到核酸构建体的不同方向。同样，过程1200以含有已插入的第一衔接子1210的环形文库构建体1202开始。第一衔接子1210具有特定的方向，其中的三角形表示第一衔接子的外链(“outerstrand”)，菱形表示第一衔接子的内链(“innerstrand”)(Adl方向1210)。箭头1201的尾部指示了第一衔接子1210中的II型限制性核酸内切酶位点，箭头的头部指示切割位点。过程1203包含以II型限制性核酸内切酶进行切割，连接第二衔接子的第一臂和第二臂，以及重新环化。从得到的文库构建体1204和1206可以看出，第二衔接子可以相对第一衔接子以两种不同的方式插入。在希望的方向1204中，椭圆形插入带三角形的外链，蝴蝶结插入了带菱形的内链(Ad2方向1220)。在不希望的方向中，椭圆形插入了带菱形的内链，蝴蝶结形插入了带矩形的外链(Ad2方向1230)。

尽管为了清楚起见，以下讨论和提及的示意图讨论了第二衔接子相对第一衔接子的插入，但可以理解的是，本文讨论的过程适用于在第二衔接子之后添加的衔接子，产生带有三、四、五、六、七、八、九、十或更多个插入衔接子的文库构建体。

在一种实施方式中，使用了加A尾和加T尾将衔接子附着于核酸片段。例如，按照以上描述的修饰来修复片段末端，利用不具有校正活性的聚合酶给片段化的靶核酸每条链的3’端添加单个A，从而将每个片段“加A尾”。加A尾通常是利用聚合酶(例如Taq聚合酶)并且仅提供腺嘌呤核苷酸(或者过量的腺嘌呤核苷酸)，这样聚合酶被迫以模板-序列-非依赖性的方式将一或多个A添加到靶核酸末端。在采用“加A尾”的实施方式中，与衔接子(或衔接子臂)的连接是通过给衔接子/衔接子臂的5’端添加“T尾”，从而与靶核酸的A尾互补，这样通过提供一种方式使衔接子臂首先与靶核酸复性，然后采用连接酶将衔接子臂连到靶核酸上，以有利于衔接子臂与靶核酸的连接。

因为当核酸模板为理想大小并且包含来源于单个片段的靶核酸时，本发明的各方面作用最优，所以保证产生核酸模板的整个过程的环化反应在分子内进行是有益的。这就是说，确保靶核酸在与第一、第二、第三等衔接子连接的过程中，自身不会相互连接是有益的。图10展示了控制环化过程的一种实施方式。如图10所示，封闭寡核苷酸1017和1027被分别用于封闭结合区域1012和1022。封闭寡核苷酸1017与结合序列1016互补，封闭寡核苷酸1027与结合序列1026互补。在5’衔接子臂和3’衔接子臂的示意图中，带下划线的碱基是双脱氧胞嘧啶(ddC)，粗体碱基是磷酸化的。封闭寡核苷酸1017和1027与衔接子臂不是共价结合，可以在衔接子臂与文库构建体连接后和环化之前“融化掉”；并且，双脱氧核苷酸(这里是ddC，或者替代的另一种无法连接的核苷酸)防止封闭剂(blocker)与衔接子发生连接。另外或者作为一种替代，在某些方面中，封闭寡核苷酸-衔接子臂的杂交体在衔接子臂和封闭分子之间含有一或多个碱基的缺口以减少封闭分子与衔接子的连接可能。在某些方面中，封闭剂/结合区杂交体的T_m为约37℃以便封闭剂序列在衔接子臂连接(环化)前容易融化。

IVD(I).控制连接的方向：臂连臂连接

在一方面中，利用“臂连臂”连接方法可以控制衔接子的定向性插入，而无需修饰靶核酸末端。一般来说，这是一个有两个步骤的连接过程，其中衔接子臂被加至靶核酸，伴随链置换的引物延伸产生两个双链分子，每个在一端有一个衔接子臂，然后可以给没有衔接子臂的末端添加第二衔接子臂。这个过程可以防止产生两端含有相同衔接子臂的核酸分子-例如，象图11A显示的，臂连臂连接过程可以防止形成两端均被衔接子A或衔接子B占据的核酸分子。在许多实施方式中，优选靶核酸的每端与不同的衔接子臂连接，这样当两个臂连在一起时它们能够形成完整的衔接子。这在添加各衔接子臂后最大限度减少需要的扩增步骤的数量尤其有用，因为臂连臂连接减少了每个连接反应中无用分子的数量。

图11显示了臂连臂连接方法的一种实施方式。在这个实施方式中，去磷酸化的靶核酸的两条链均被加上了第一衔接子臂A的一条链。通常利用碱性磷酸酶将该衔接子臂的一端(显示为闭合环)封闭。引物置换可以用来换下带有封闭端的链。伴随链置换的引物延伸(在一个示范性实施方式中，这可以通过利用phi29或Pfu聚合酶来实现)从两个末端开始，延伸过整个插入片段，产生两个双链核酸分子，每个一端带有衔接子臂A，一端为平末端。在替代实施方式中，衔接子臂A可以先与引物在被封闭链的上游杂交从而起动引物延伸，而无需引物置换反应。链置换聚合酶反应后，即可给通常是靶核酸的平末端连接上第二衔接子臂B，而不是已带有衔接子臂的末端连接上第二衔接子臂B。这种臂连臂连接过程可以防止形成两端包含相同衔接子臂的靶核酸。

IVD(ii).控制连接方向：切口平移法

在一种实施方式中，本发明提供了用于构建核酸分子的“切口平移法”。在一种实施方式中，所述切口平移法被用于以希望的方向来连接核酸分子。在另一种实施方式中，切口平移法被用于以希望的方向插入衔接子。这些方法通常涉及将待连接在一起的核酸分子之一或者两者的一个或两个末端进行修饰。例如，将衔接子连接至靶核酸时，待连接在一起的靶核酸和衔接子中的一个或者这两者的一个或两个末端被修饰。这类修饰后，插入到构建体一条链中的切口的“移位”或“平移”提供了控制连接好的衔接子-靶核酸构建体的最终方向的能力。如下文更详细描述的，本文描述的“切口平移法”还可以包括引物延伸或缺口填平法。虽然以下讨论是就控制衔接子与靶核酸的连接而言的，但可以理解这些方法并不限于衔接子与靶核酸的连接，这些方法还可以用于控制任何两个核酸分子的连接。例如，切口平移法和本文描述的任何其他控制连接的方法可以作为基因和/或DNA工程方法的一部分，例如构建新的质粒或其他DNA载体，基因或基因组合成或修饰，以及用于构建纳米技术构建体的组件。

图13示意性说明了这种“切口平移”类型的过程。图13中的构建体1306是利用本文讨论的方法形成的，其含有散在分布的衔接子1304，有限制性核酸内切酶识别位点(图13中的箭头尾部)和切割位点。在图14中，文库构建体未被环化，而是靶核酸片段1406(含有限制性核酸内切酶识别位点1404)和衔接子1412交替的分支多联体；但是，图13中显示的切口平移类型的过程也可以在文库构建体构型上进行。术语“文库构建体”用在文中是指包含一或多个衔接子的核酸构建体，与术语“核酸模板”可以互换。

带有插入的第一衔接子的文库构建体经限制性核酸内切酶消化(过程1301)，在某些方面中，是切割靶核酸产生3’核苷酸突出1308的II型限制性核酸内切酶。在图11中，显示了两个核苷酸(NN-3’)的1308，但在不同方面中突出端核苷酸的数目至少部分根据所用限制性核酸内切酶的不同而变化。文库构建体1310被线性化，其中的第一个插入的衔接子显示为1304。第一个插入的衔接子1304被设置成包含位于衔接子片段边界的切口1312；或者包含核酸切口内切酶的识别位点，使得可以在衔接子内部引入切口1314。两种情况下，均用聚合酶1316处理(1303)文库构建体1310，该聚合酶1316能够将文库构建体1310的上链从切口1312或1314延伸至下链末端以形成一端带有3’突出，另一端为平末端的链。过程1305中给这个文库构建体1310连接上第二衔接子1318，该第二衔接子1318一端有简并核苷酸突出，另一端为单个3’核苷酸(例如dT)突出以形成文库构建体1320。然后在过程1307中(例如使用Taq聚合酶)处理文库构建体1320以在其平末端添加3'dA。然后可以利用例如含有尿嘧啶的引物经PCR扩增文库构建体1322。可选地，可以在过程1309中将文库构建体1322环化，这种情况中可以进行CDA(例如在图14中的步骤1421)。这里讨论的过程与图13中显示的切口平移类型过程联合可以选择后续添加的衔接子与任何先前插入文库构建体的衔接子的相对位置和相对方向。

为了利用切口平移类型的方法，如上文讨论过的将靶核酸和/或衔接子的一个或两个末端修饰可能是有益的。在一个示范性实施方式中，意欲与靶核酸3’端连接的衔接子的第一臂可以设计成其3’末端被封闭，因此只有衔接子臂的5’端可供与靶核酸的3’端连接。类似地，意欲与靶核酸5’端连接的第二臂可以设计成其5’端被封闭，因此只有第二臂的3’端可以与靶核酸的5’端连接。封闭衔接子臂和/或靶核酸的一端的方法是本领域已知的。例如，用上文讨论过的能够产生特定功能的末端并从3’和5’端除去磷酸的酶处理靶核酸(文中又称为“核酸插入”或“DNA插入”或“插入”)。除去磷酸基团使得靶核酸分子不能相互连接。该实施方式中的衔接子也被设计成有可以进行连接(例如通过产生或者保留5’磷酸基团进行连接)的一条链和具有被保护而不能连接的3’端的互补链。通常，对3’端的这种保护是利用双脱氧核苷酸使3’端失活而实现的。因此，当被修饰的靶核酸两端都没有磷酸基团，修饰的衔接子在一个5’端包含磷酸基团，而互补链上3’被封闭(例如，双脱氧)时，唯一可能形成的连接产物是靶核酸，该靶核酸连接至带有磷酸基团的衔接子5’端。该连接步骤之后，衔接子被保护的3’端可以置换为含有功能性3’端的链。实现这个置换通常是利用了3’被保护的链一般较短，容易变性这一事实。带有功能性3’端的置换链较长，因此能够更有效地结合互补链-在其他实施方式中，带有功能性末端的链同时以更高浓度添加，从而进一步影响反应向着被保护的链被带有功能性末端的链置换进行。然后通过加入具有切口平移活性的DNA聚合酶将带有功能性3’端的链引发，使得聚合酶从靶核酸的5’端通过核酸外切方式除去碱基，从而暴露出功能性5’磷酸。这个新产生的5’磷酸可以经连接酶连接至延伸产物上。(如果延伸反应过程中没有连接酶，则两个聚合酶分子将从靶核酸的每个末端平移切口直至相遇，产生断裂的分子)。例如，如图2所示，靶核酸(插入)首先被末端修复形成特定功能的末端，优选是平末端。然后，为了避免插入物形成多联体，去除5’端磷酸。然后将插入物与DNA连接酶和DNA衔接子混合。所述DNA衔接子含有两个寡核苷酸，并且当两个寡核苷酸一起杂交时，有一个平末端和一个粘末端。平末端一侧含有一个带有被保护/失活的3’端的“上游链(top-strand)”,和一个带有功能性5’端磷酸的“下游链(bottom-strand)”,因此也不能自连接。这样唯一可能的连接组合是一个插入物与一个“下游链”平末端-连接到每个末端。然后带有3’端受保护的“上游链”与含有功能性3’端的寡核苷酸置换，该寡核苷酸可以作为聚合酶延伸反应中的引物。一旦加入聚合酶和连接酶，即可通过切口平移和连接反应嵌入第二个寡核苷酸。当聚合酶延伸至插入物内时，它会引入一个带有功能性5’磷酸的切口，该切口可以被DNA连接酶所识别和封上。在每条链的每端上得到的带有衔接子或衔接子臂的插入物这时可以利用衔接子特异引物进行PCR。

通常在诸如上文描述的切口平移反应中，在加入聚合酶之前混合物中存在活性连接酶，或者活性连接酶与聚合酶同时加入混合物中。在某些实施方式中，使用低活性聚合酶(低切口平移)条件可能是有益的。在聚合酶之前加入连接酶或者聚合酶与连接酶同时加入以及低活性条件两者都能够有助于保证平移的切口在到达DNA片段相反一端前被封上。在某些实施方式中，这可以通过在37℃(该温度通常导致低聚合酶活性和高连接酶活性)温育Taq聚合酶和T4连接酶来实现。然后反应可以在更高温度(例如50-60℃)继续进行温育以便进一步保证反应中的多数/全部构建体都完成切口-平移-连接。

在其他实施方式中，本发明提供了形成核酸模板构建体的方法，所述核酸模板构建体包含多个散在分布的衔接子。本发明的方法包括插入多个衔接子以使每个后续的衔接子在相对先前添加的一个或多个衔接子的特定位置上插入的方法。插入多个散在分布的衔接子的某些方法是本领域已知的，例如象美国专利申请第60/992,485号、第61/026,337号、第61/035,914号、第61/061,134号、第61/116,193号、第61/102,586号、第12/265,593号、第12/266,385号、第11/679,124号、第11/981,761号、第11/981,661号、第11/981,605号、第11/981,793号和第11/981,804号中讨论的，为了所有目的，特别是为了涉及产生包含多个散在分布的衔接子的核酸模板的方法和组合物以及这类核酸模板的所有使用方法的全部教导，这些文献均通过引用全文并入本文。将已知衔接子序列插入靶序列，从而使得连续的靶序列被多个散在分布的衔接子打断，提供了给每个衔接子“上游”和“下游”测序的能力，因此增加了由每个核酸模板可以产生的序列信息量。本发明提供了相对一或多个先前添加的衔接子在特定位置插入每个后续衔接子的其他方法。

切口平移连接通常是在连接了第一链之后通过向反应至少添加聚合酶来进行的。在某些实施方式中，切口平移反应可以通过将所有成分一次性加入以一步反应进行，而在另一些实施方式中，反应步骤顺序进行。切口平移反应的“一步”法有多种可能的实施方式。例如，可以使用含有引物的单一混合物，其中Taq在反应开始加入。使用热稳定的连接酶提供了通过简单提高温度来进行引物交换和切口平移连接(以及PCR，如果需要)的能力。在另一个示范性的实施方式中，反应混合物含有最低浓度的非进行性的切口平移聚合酶和活化3’封闭链的弱3’核酸外切酶。

在其他实施方式中，利用T4多核苷酸激酶(PNK)或碱性磷酸酶来改变衔接子和/或靶核酸的3’端，准备切口平移过程。例如，可以作为环化反应的一部分插入衔接子。末端修复并且碱性磷酸酶处理过的靶核酸与衔接子连接，在该示范性实施方式中被设计成能够形成自身互补的发夹形单元(图16)。所述发夹被设计成在给定位置含有可以被酶或化学物识别和切割的修饰。例如，如果发夹含有脱氧尿苷，则脱氧尿苷可以被UDG/EndoVIII识别和切割。切割后，两个发夹变成其各自的3’端带有磷酸的单链。然后这些3’磷酸可以经T4多核苷酸激酶(PNK)或碱性磷酸酶(SAP)除去以便如文中进一步描述的进行切口平移法。在示范性实施方式中，例如图4A中示意的实施方式，两个发夹被设计成相互部分互补，因此可以通过分子内杂交形成环形分子。最后，对环化的分子进行切口平移处理，其中，聚合酶延伸至插入物中，引入能够被DNA连接酶识别和封上的带有功能性5’端磷酸的切口。

除了如上所述利用发夹结构，还可以使用一对互相部分互补的双链衔接子进行环化。一对一条链上含有可以被UDG/EndoVIII识别和切割的脱氧尿苷。还可以使用其他在一条链做切口的方法，包括但不限于：切口酶、引入可以被内切核苷酸类的酶识别的肌苷修饰的DNA，以及给DNA引入可以被RNA-核酸内切酶识别的RNA修饰。可以如上文所述，将靶核酸和衔接子准备好进行受控的连接，例如通过用碱性磷酸酶处理靶核酸以产生不能与其他靶核酸连接的平末端。环化的激活是通过将衔接子中的来自与靶核酸连接的链中的短3’受保护的链变性、在靶核酸插入的每个末端留下两个部分互补的单链末端而实现的。然后这些末端通过分子内杂交并进行切口平移和连接而连到一起，形成共价闭合环。然后用UDG/EndoVIII处理这些环，制备用于下一个衔接子定向插入的环。

图15显示的又一实施方式中，用虾碱性磷酸酶(SAP)处理线性靶核酸以除去5’磷酸。然后，将靶核酸与衔接子的一个臂(臂A)连接，所述臂包含带有5’磷酸的一条链，和带有被保护的3’末端的较短互补链。然后对连接产物进行切口平移。环化反应中产生的切口位于第一衔接子的上游链，并作为切口平移反应中聚合酶使用的引物。聚合酶将上游链延伸至衔接子-插入物会合处的切口，释放衔接子A臂之一，产生平末端或A或G突出。然后，得到的聚合酶产生的插入物末端与第二衔接子臂(臂B)连接。通过设计第一衔接子在环化反应中产生切口，后续的衔接子可以以预先确定的方向加入。这个策略可以应用于所有II型限制性酶或其它酶促或非酶促片段化方法中，不论它们是否产生带有平末端、3’突出或5’突出的消化产物。之后的引物置换、延伸、连接和PCR与图2中描述的类似。还可以利用非扩增方式来封闭环，包括将被封闭的寡核苷酸熔解，然后经切口平移连接反应实现DNA环化。

具有校正活性的聚合酶(具有3’-5’核酸外切酶活性)，例如Pfu聚合酶，和不具有校正活性的聚合酶(缺乏3’-5’核酸外切酶活性)，例如Taq，两者都可以用于本文描述的切口平移和包括链置换过程的链合成。具有校正活性的聚合酶在切口平移过程中可以有效地产生平末端，但其缺点是会同样降解未受保护的3’突出。因此得到的切口平移产物会有两个平末端，因此不能以特定的方向与随后的衔接子连接。一个解决方法是例如在3’端上使用双脱氧核糖核苷三磷酸(ddNTP)以保护已连接的衔接子(例如图15中的臂A)的3’端不被降解。但是，ddNTP保护也保护了3’端使其不能进行之后的延伸，因此限制了衔接子在直接环化过程中被向前推进。另一种潜在的解决方法是利用3’端上的修饰(例如3’磷酸)保护3’端不被聚合酶降解，其中所述修饰可以在切口平移环化之前去除(例如利用碱性磷酸酶)。另一种方法是在切口平移反应中利用发夹形的衔接子结合具有校正活性的聚合酶。这些衔接子能够免于被降解，但缺点是需要额外的UDG/EndoVIII步骤。此外，发明人发现有一种具有校正活性的聚合酶，即Pfu聚合酶，能够在不降解未被保护3’突出的情况下有效地产生平末端，表明其具有较低的3’-5’核酸外切酶活性。

不具有校正活性的聚合酶，例如Taq聚合酶，在切口平移过程中既可以产生平末端，也可以产生单碱基突出(Taq除了平末端，还可以产生不依赖模板的A-和G-尾)。在切口平移过程中使用不具有3’-5’核酸外切酶活性的聚合酶的优点是未被保护的3’突出可以保持完整。这使得不需要保护3’突出免于降解，即可以特定的方向连接随后的衔接子。许多具有校正活性的聚合酶的潜在缺点是它们有在不依赖模板的过程中，向3’端添加单个核苷酸的功能。这个过程非常难以控制，经常会产生混合的3’末端群体，导致低的衔接子与插入物的连接产率。一般来说，采用平末端连接的方法比单碱基突出连接的效率更高。

在一种实施方式中，连接第一衔接子后，不是形成环形然后用第一衔接子中含有其识别位点的II型核酸内切酶切割(这是本发明产生核酸模板的某些实施方式中的一个步骤，例如图6和图9中示意性图示的实施方式)，而是利用切口平移法的一种变化来添加第二衔接子。图17中图示了这种变化的示范性实施方式。通常，如以上详细描述及图6和图9中显示的，这些实施方式开始是给靶核酸添加第一衔接子，然后环化。在图17A显示的实施方式中，利用具有5’-3’核酸外切酶活性的聚合酶(例如Taq聚合酶)进行切口平移，产生的是第一衔接子位于靶核酸内部的反转圆环。然后可以将这个产物末端修复，进行与衔接子2的连接(利用以上详细描述过的方法)。这个实施方式的一个缺点是靶核酸可能比测序所需要的较长，而在由模板产生的任何核酸多联体(由本发明的核酸模板产生多联体在下文有更详细的讨论)中，这种较长模板可能很容易形成二级结构。当这些多联体被用于测序应用(例如下文讨论的cPAL方法)时，这类二级结构可能导致信号下降。克服这个缺点的一种方式是通过将靶核酸变短-图17B画出了这种方法的一个示范性实施方式。在该实施方式中，利用本文描述的方法用尿嘧啶修饰第一衔接子。切口平移-包含第一衔接子的环反转之后，衔接子C臂被添加到末端修复过的分子的两个末端。尿嘧啶修饰的衔接子1经处理除去尿嘧啶，产生缺口，并且也经处理产生被活化的3’端。通常，通过使用UDG/EndoVIII酶混合物除去尿嘧啶，用PNK和/或碱性磷酸酶除去3’磷酸并产生活化的3’端。衔接子1的活化3’端和衔接子臂C的3’端被切口平移聚合酶(即具有5’-3’核酸外切酶活性的聚合酶)识别，产生的产物中，衔接子1被已修剪到其原始长度大约一半的靶核酸围绕。如果衔接子1被其他切口修饰(包括但不限于引入肌苷、RNA修饰等等)所修饰过，则可以反复进行这一聚合酶切割程序以便进一步降低靶核酸的大小。

在其他实施方式中，图17A和B中显示的切口平移法可以扩展到插入多个衔接子。通过修饰衔接子，可以形成切口、缺口和功能性3’端以从多个衔接子同时准备切口平移反应。包含靶核酸和两个衔接子(每个在一条链上均含有尿嘧啶修饰)的核酸构建体被环化。然后，用诸如UDG/EndoVIII之类的酶混合物处理环以便除去尿嘧啶并引入缺口。这些缺口可以同时进行切口平移将圆环反转，使得构建体可以与另外的衔接子连接。通过在相同衔接子上添加多种修饰，可以进行随后的切口/缺口和切口平移反转来引入多个衔接子。在某些实施方式中，可以将尿嘧啶加回到衔接子中的相同位置，使衔接子适合进行进一步切口平移反应。可以通过例如将切口平移反应与单独尿嘧啶孵育以“重建”衔接子修饰，然后添加更高浓度未修饰的核苷酸来填充构建体的剩余部分，从而将尿嘧啶加回去。

在又一些实施方式中，通过控制切口平移酶的速度可以修整(trim)靶核酸。例如，可以通过改变温度或限制试剂使切口平移酶变慢，从而可能导致环化插入物中被引入两个切口，其利用切口平移过程从衔接子中的原始位点开始移动。类似地，利用链置换聚合酶(例如phi29)会导致切口被移动，由于核酸的区段被置换而产生分支点。这些切口或分支点可以被多种酶(包括但不限于，SI核酸内切酶、Bal31、T7核酸内切酶、绿豆(MungBean)核酸内切酶以及酶的组合，例如5’-3’核酸外切酶(例如T7核酸外切酶)和S1或绿豆核酸内切酶)识别，这些酶会切割切口的相反链，产生线性产物。该产物然后可以被末端修复(如果需要)，并与下一个衔接子连接。剩下的靶核酸的大小将通过切口平移反应速度控制，还通过例如降低试剂(例如dNTPs)浓度，或通过在不到最佳温度的温度下进行反应来控制。靶核酸的大小还可以通过切口平移反应的温育时间来控制。

在其他实施方式中，可以利用切口平移法不经任何环化步骤的转换来形成核酸模板。图18中展示了这类方法的示范性实施方式，该图显示了利用以上描述的连接方法，例如通过用虾碱性磷酸酶处理靶核酸以除去磷酸基团从而控制可供与第一衔接子连接的靶核酸的末端，以使发夹形的第一衔接子1801与靶核酸1802连接。连接第一衔接子后，进行受控的双链特异性5’-3’核酸外切酶反应来产生单链3’端。在某些实施方式中，使用T7核酸外切酶进行核酸外切酶反应，但可以理解本发明的这些实施方式中可以使用其他双链特异性核酸外切酶。其他实施方式中，核酸外切酶反应产生了长度大约100到大约3000个碱基的单链3’端。在又一些实施方式中，核酸外切酶反应产生长约150至约2500、约200至约2000、约250至约1500、约300至约1000、约350至约900、约400至约800、约450至约700和约500至约600个碱基的单链3’端。

可以理解的是，本文描述的切口平移过程可以与文中描述的任何其他添加衔接子的方法联用。例如，上面描述过并在图1lA中示意的臂连臂连接过程可以与切口平移过程联用来制备用于PCR扩增的构建体。

在其他实施方式中，臂连臂连接反应中使用的衔接子臂A可以设计成不需PCR而直接环化，然后经切口平移连接封上环。在示范性实施方式中，为了直接环化，衔接子臂A可以设计成图1lB画的那样。区段1101被设计成与衔接子臂B互补。图1lB中的构建体可以通过链置换聚合酶(例如phi29)让引物直接延伸，而不需要引物交换反应来除去被封闭的末端(聚合酶不会延伸跨过区段1102上的3’磷酸)。这个构建体还提供了用于环化的3’突出。区段1102防止衔接子臂A与衔接子臂B在环化前杂交。在某些实施方式中，可能不需要区段1102来防止与臂B杂交(例如当衔接子臂B处于非常高的浓度时)或者区段1102可以作为衔接子臂B而不是衔接子臂A的设计的一部分。

产生单链3’端后，第二衔接子1803与靶核酸的单链3’末端杂交，并通过切口平移连接反应(在一种实施方式中，所述切口平移连接是“引物延伸”或“缺口填平”反应)与第一衔接子相连。第二衔接子带有5’磷酸和3’封闭(标识为竖线1804)。某些实施方式中，3’封闭可以是可除去的封闭，例如3’磷酸，这在某些示范性实施方式中，可以利用多核苷酸激酶(PNK)和/或虾碱性磷酸酶除去。第二衔接子在某些实施方式中在3’和/或5’端带有简并碱基。某些示范性实施方式中，第二衔接子在5’端有大约2-6个简并碱基，在3’端有4-9个简并碱基，但可以理解，本发明涵盖第二衔接子一端或两端带有任何数量组合的简并碱基。在图18图示的实施方式中，第二衔接子包含5’端3个简并碱基(“N3”)，3’端7个简并碱基(“N7”)。在某些实施方式中可以在有利于衔接子与靶核酸杂交的反应条件下实现第一衔接子与第二衔接子的接合。某些示范性实施方式中，这种反应条件可包括从大约20到大约40℃的温度。可以在这种反应条件下使用的聚合酶包括但不限于phi29、Klenow、T4聚合酶和PolI。

然后将连接产物1805变性和/或进一步用5’-3’核酸外切酶处理，之后通过重新退火步骤形成两个单链核酸分子(以图18中的“x2”指示)。在重新退火过程中，第二衔接子的N7部分可以与离第一杂交序列基元随机距离的区段杂交，从而形成单链圈1806。在某些实施方式中，第二衔接子的N7末端可能直至变性产生长的单链核酸区域1807才发生杂交。两个被捕获的基因组区段(它们的通常长度为大约20到大约200个碱基)之间的平均距离在许多实施方式中在大约0.5到大约20kb之间。这个平均距离部分取决于衔接子中简并碱基(“Ns”)的数量和杂交条件的严紧度。然后重新退火步骤之后可以进行另一轮衔接子杂交和切口平移连接。最后的衔接子(图18中，这个最后的衔接子显示为第三衔接子1808，但可以理解，最后的衔接子可以是按照本文描述的任何方法插入的第四、第五、第六、第七或更高阶的衔接子)与第二衔接子类似，但在许多实施方式中会缺少3’端的简并碱基。其他实施方式中，最后的衔接子可能包含扩增反应引物(例如PCR引物)的结合位点。

在进一步的实施方式中，扩增反应，例如PCR反应(参见图18中的1809)，可以例如通过利用第一和最后的衔接子中包含的引物结合位点来进行。在进一步的实施方式中，第一和最后的衔接子可以是同一衔接子的两个臂，可以在添加最后的衔接子前插入一个以上衔接子。在进一步的实施方式中，扩增产物可以用于形成环形双链核酸分子，以便利用本文描述的或者本领域已知的任何过程进一步插入衔接子。

IVD(iii).后续衔接子的受控插入：限制性核酸内切酶识别位点的保护

除了如上所述控制插入靶核酸的衔接子的方向，还可以相对先前插入的衔接子以特定的位置在靶核酸中插入多个衔接子。这种方法包括的实施方式中，某些限制性核酸内切酶识别位点，特别是先前插入的衔接子中含有的识别位点，被保护而不失活。为了将随后的衔接子以希望的位置和方向连接，本发明提供的方法中II型限制性核酸内切酶与环形核酸构建体中第一衔接子内的识别位点结合，然后在第一衔接子外，基因组片段(文中又称为“靶核酸”)内的某个点切割。然后可以在发生切割的点上连接第二衔接子(同样一般是通过添加第二衔接子的两个衔接子臂)。为了在已知点切割靶核酸，有必要封闭靶核酸中可能随机包含的相同酶的任何其他识别位点，这样限制性核酸内切酶可以结合的唯一位点在第一衔接子内，从而避免对构建体进行不需要的切割。通常，首先保护第一衔接子中的识别位点不失活，然后一般是通过甲基化使构建体中任何其他未被保护的识别位点失活。文中限制性核酸内切酶识别位点的“失活”意味着以某种方式使所述识别位点不能被限制性核酸内切酶结合，从而阻止了该酶的下游切割步骤。例如，甲基化的识别位点不会与限制性核酸内切酶结合，因此不发生切割。一旦核酸构建体中的所有未被保护的识别位点被甲基化，则只有衔接子内的未甲基化识别位点允许酶结合以及进行随后的切割。使识别位点失活的其他方法包括但不限于给识别位点使用甲基化酶封闭剂、利用封闭寡核苷酸来封闭识别位点、利用诸如锌指蛋白之类的其它封闭分子来封闭识别位点，以及给识别位点做切口来防止甲基化。这类保护所需识别位点的方法在2008年11月5日提交的美国专利申请第12/265,593号和2008年11月6日提交的第12/266,385号中有描述，为了所有目的，尤其是为了与在靶核酸中插入多个散在分布的衔接子有关的全部教导，这两份文献的全部内容通过引用并入本文。

可以理解的是，以上描述的用于控制衔接子与靶核酸相互连接的方向的方法还可以与下文描述的控制每个随后加入的衔接子的间隔的方法联合使用。

一方面，本发明提供了保护第一衔接子中的识别位点不失活的方法，所述方法使第一衔接子中的识别位点成为单链，这样只能将双链分子甲基化的甲基化酶不能甲基化被保护的识别位点。使第一衔接子中的识别位点单链化的一种方法是利用经尿嘧啶修饰的引物扩增与两个第一衔接子臂连接的线性基因组片段。引物与衔接子臂互补，并用尿嘧啶修饰，这样在扩增(通常利用PCR)时，得到的线性构建体含有镶嵌在一个衔接子臂的识别位点中的尿嘧啶。引物产生的PCR产物中尿嘧啶靠近第一衔接子的第一和/或第二臂中的II型限制性核酸内切酶识别位点。针对尿嘧啶进行消化使得衔接子臂中包括待被保护的II型识别位点的区域单链化。然后给线性构建体使用序列特异性甲基化酶，该酶将与第一衔接子中含有的核酸内切酶相同的核酸内切酶的所有双链识别位点甲基化。这种序列特异性甲基化酶不能将第一衔接子臂中的单链识别位点甲基化，因此第一衔接子臂内的识别位点被保护免于通过甲基化失活。

某些情况中，如下文更充分描述的，单个衔接子可以有两个相同的识别位点，以允许从同一衔接子的“上游”和“下游”切割。在该实施方式中，如图7阐述的，恰当地选择引物和尿嘧啶位置，从而使“上游”或“下游”识别位点选择性地受保护而免于失活或免于被导致失活。

可以通过用与第一衔接子的第二臂中的识别位点(即开始通过甲基化被失活的识别位点)结合的限制性核酸内切酶切割来将第三衔接子插入到第一衔接子的另一侧。为了使这个识别位点可供使用，利用尿嘧啶修饰的引物(该引物与第一衔接子中的第二识别位点互补)扩增环形构建体以产生第三线性构建体，其中第一衔接子包含镶嵌在第二限制性识别位点的尿嘧啶。降解尿嘧啶使第一衔接子单链化，从而保护衔接子中的识别位点不被甲基化。然后使用序列特异性甲基化酶使所有未被保护的识别位点失活。一旦环化，第一衔接子中的识别位点重新构成，使用限制性核酸内切酶切割环，在第三线性构建体产生可以插入第三衔接子的位置。第三衔接子臂与第三线性构建体的连接将遵循以上描述的同一总体程序-第三线性构建体将被加A或G尾，第三衔接子臂将被加T或C尾，使得衔接子臂与第三线性构建体退火，并连接。然后将包含第三衔接子臂的线性构建体环化以形成第三环形构建体。与第二衔接子相同，第三衔接子通常包含的限制性核酸内切酶的识别位点与第一衔接子中含有的识别位点不同。

利用在第二和第三衔接子中具有识别位点的II型限制性核酸内切酶，可以加入第四衔接子。用这些限制性核酸内切酶进行切割产生第四线性构建体，然后与第四衔接子臂连接。连接了第四衔接子臂的第四线性构建体的环化将产生本发明的核酸模板构建体。

总的来说，本发明的方法提供了特异保护II型核酸内切酶识别位点不失活的方式，这样一旦构建体中所有其他未受保护识别位点失活后，加入II型核酸内切酶将导致仅与被保护位点结合，因此可以控制构建体中随后发生切割的位置。以上描述的方法提供了如何保护所需识别位点不失活的一种实施方式。可以理解，利用本领域已知技术可以改进上述方法，并且这些改进的方法也涵盖在本发明内。

在一个示例性实施方式中，每个随后插入的衔接子的插入方法中联用一些方法保护识别位点不失活。图19图示的实施方式中第二衔接子相对第一衔接子在希望的位置插入，其采用的过程是使用尿嘧啶降解和切口酶的组合的甲基化和保护不被甲基化的组合。图19显示目的基因组DNA1902带有位于1904的II型限制性核酸内切酶识别位点。所述基因组DNA在过程1905中分级或片段化而产生带有II型限制性核酸内切酶识别位点1904的片段1906。在过程1907中衔接子臂1908和1910与片段1906连接。在过程1911中，利用与衔接子臂1908和1910互补的尿嘧啶修饰的引物1912，经PCR扩增具有第一和第二衔接子臂1908和1910的片段1906(文库构建体)。引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。在过程1913中，利用例如尿嘧啶-DNA糖基化酶(Krokan等人，(1997)Biochem.J.325:1-16)特异降解尿嘧啶，留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链的。正如已显示的，可以利用尿嘧啶的引入和降解使II型限制性核酸内切酶识别位点单链化；但是，正如本文进一步描述的，可以采用其他方法，包括使用3'或5'核酸外切酶有限地消化使这些区域单链化。

在过程1915中，利用序列特异的切口酶将每个双链的II型限制性核酸内切酶识别位点做切口以便保护这些位点不被II型限制性核酸内切酶识别。但是，第一和第二衔接子臂1908和1910中单链的II型限制性核酸内切酶识别位点部分不会被切开，一旦环化并连接(1917)，第一和第二衔接子臂中的II型限制性核酸内切酶识别位点重新形成，使得该II型限制性核酸内切酶识别位点可以被用于限制。当选择用于这个过程的切口酶和II型限制性核酸内切酶时，优选这两个酶识别相同的序列或者一个酶识别另一个酶的亚序列(某序列内的序列)。可选地，所述切口酶可以识别不同的序列，但是该切口酶位于衔接子内，因此切口酶在II型限制性核酸内切酶识别位点内切口。利用尿嘧啶或者3'或5'降解使得能在整个过程使用一种切口酶；可选地，可以采用一种以上序列特异性切口酶。然后在过程1919中用II型限制性核酸内切酶切割环化的构建体，其中II型限制性核酸内切酶识别位点指示为1922，在1920切割构建体，切口如1918所示，得到的线性构建体可以用于过程1921中添加到构建体中的第二套衔接子臂的连接。

连接过程1921将第二衔接子的第一(1924)和第二(1926)衔接子臂加至线性化构建体，过程1923中经PCR进行第二次扩增，同样是使用与衔接子臂1924和1926互补的尿嘧啶修饰过的引物1928。与上面一样，引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程1925中，尿嘧啶被特异降解，留下的PCR产物在第二衔接子的第一和第二衔接子臂1924和1926中的II型限制性核酸内切酶识别位点是单链的。连接过程1921同样可以修复靶核酸片段1906中的II型限制位点1904中的切口1918。过程1927中，再次利用序列特异的切口酶将在靶核酸片段(发生II型限制性核酸内切酶识别位点1904的切开1914)中的双链II型限制性核酸内切酶识别位点的和第一衔接子1930中的II型限制性核酸内切酶识别位点的碱基切开，以保护这些位点不被II型限制性核酸内切酶识别。

带有切口的构建体然后在过程1929被环化和连接，其中第二衔接子的第一和第二臂1924和1926中的II型限制性核酸内切酶识别位点重新形成(1932)，重复进行这一过程，环化的构建体在过程1931中被再次用II型限制性核酸内切酶切割，产生另一个线性化的构建体(这个中已加入了第一和第二衔接子)以用于将第三对衔接子臂1936和1938连接到构建体中。所述II型限制性核酸内切酶识别位点如1922所示，限制位点如1920所示，靶核酸片段中的II型限制性核酸内切酶识别位点的切口如1918所示，第一衔接子中的切口如1934所示。可以重复这一过程以便加入所需数量的衔接子。正如这里显示的，第一个加入的衔接子含有一个II型限制性核酸内切酶识别位点；但是，在其他方面，第一个加入的衔接子可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。

一方面，衔接子可以设计成含有在II型限制性核酸内切酶识别位点周围或与之部分重叠的序列特异性切口酶位点。通过利用切口酶，可以选择性地保护每个衔接子中的II型限制性核酸内切酶识别位点不被甲基化。其他实施方式中，切口酶可以识别另一个序列或位点，但是在II型限制性核酸内切酶识别位点切开。切口酶是识别双链DNA中特异识别序列的核酸内切酶，并能在相对识别序列的特异位置切开一条链，从而在双链体DNA中造成单链断裂，切口酶包括但不限于Nb.BsrD1、Nb.Bsm1、Nt.BbvC1、Nb.Bbv.Nb.BtsI和Nt.BstNBI。通过组合使用序列特异性切口酶和II型限制性核酸内切酶，靶核酸中的所有II型限制性核酸内切酶识别位点以及任何先前已插入的衔接子中的II型限制性核酸内切酶识别位点可以受到保护不被消化(当然，假设II型限制性核酸内切酶是切口敏感性的，即，不会结合到已被切开的识别位点上)。

图20示意性图示了发明所述方法的实施方式，其中利用甲基化和序列特异性切口酶选择了相对于第一衔接子的第二衔接子的理想位置。图20显示了目的基因组DNA(靶核酸)2002，其带有位于2004的II型限制性核酸内切酶识别位点。该基因组DNA在过程2005中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2004的片段2006。衔接子臂2008和2010在过程2007中连接至片段2006。带有衔接子臂2008和2010的片段2006(文库构建体)在过程2009中环化，在过程2011中通过环依赖性扩增被扩增，得到靶核酸片段2006(其中的II型限制性核酸内切酶识别位点位于2004)和第一衔接子2012交替的高度分支多联体。

在过程2013中，序列特异性切口酶2030被用于在文库构建体中的衔接子里的特异II型限制性核酸内切酶识别位点中的或者其附近的核酸做切口，从而阻止这些位点的甲基化。这里，衔接子臂2012和2014中的II型限制性核酸内切酶识别位点被序列特异性切口酶2030切开。过程2015中，构建体中没有被切开的II型限制性核酸内切酶识别位点被甲基化(这里是II型限制性核酸内切酶识别位点2004的甲基化2016)以保护这些位点不被II型限制性核酸内切酶识别。但是，衔接子2012和2014中的II型限制性核酸内切酶识别位点因为有切口存在不被甲基化。

过程2017中，文库构建体中的切口被修复，产生的文库构建体中衔接子2012里的II型限制性核酸内切酶识别位点可以用于识别和限制2018，而基因组片段2004中的II型限制性核酸内切酶识别位点不能。然后甲基化的构建体与第二对衔接子臂连接，环化，并借助环依赖扩增在过程2021扩增，得到靶核酸片段2006(II型限制性核酸内切酶识别位点在2004)、第一衔接子2012和第二衔接子2020交替的多联体。然后，在过程2023中，再次进行序列特异型切开，这次用的是识别第二衔接子2020中的位点的序列特异性切口酶，从而阻止第二衔接子2020中的II型限制性核酸内切酶识别位点的甲基化，而不是构建体中的其他II型限制性核酸内切酶识别位点(即，片段中的II型限制性核酸内切酶识别位点2004和第一衔接子2012中的II型限制性核酸内切酶识别位点)。然后过程继续进行甲基化2015，如果需要可以进一步加入衔接子臂。每个不同衔接子中使用不同的序列特异性切口酶位点，使整个过程中可以进行序列特异性切开。

图21图示的过程中利用甲基化和序列特异性甲基化酶封闭剂选择了所需的第二衔接子与第一衔接子的相对位置。图21显示了目的基因组DNA(靶核酸)2212，其带有位于2214的II型限制性核酸内切酶识别位点。该基因组DNA在过程2105中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2104的片段2106。衔接子臂2108和2110在过程2107中连接至片段2106。带有衔接子臂2108和2110的片段2106(文库构建体)在过程2109中环化，在过程2111中通过环依赖性扩增被扩增，得到靶核酸片段2106(其中的II型限制性核酸内切酶识别位点位于2104)和第一衔接子2112交替的高度分支多联体。

在过程2113中，利用序列特异性甲基化酶封闭剂2130(例如锌指)来阻止文库构建体中特异II型限制性核酸内切酶识别位点发生甲基化。这里，衔接子臂2112和2114中的II型限制性核酸内切酶识别位点被甲基化酶封闭剂2130所封闭。当选择用于该过程的甲基化酶封闭剂和II型限制性核酸内切酶时，不需要这两个实体识别相同的位点序列，也不需要一个实体识别另一个实体的亚序列。所述封闭剂序列可以在II型限制性核酸内切酶识别位点的上游或下游，但属于甲基化酶封闭剂封闭所述位点这样的构型(例如锌指或其他核酸结合蛋白或其他实体)。在过程2115中，构建体中未被保护的II型限制性核酸内切酶识别位点被甲基化-(这里，是II型限制性核酸内切酶识别位点2104的甲基化2116)-保护这些位点不被II型限制性核酸内切酶识别。但是，衔接子2112和2114中的II型限制性核酸内切酶识别位点因为存在甲基化酶封闭剂而不被甲基化。

在过程2117，甲基化酶封闭剂从文库构建体中释放，得到的文库构建体中衔接子2112里的II型限制性核酸内切酶识别位点可以用于识别和限制2118，而基因组片段2104中的II型限制性核酸内切酶识别位点不能。然后将甲基化的构建体与第二对衔接子臂连接，环化，并在过程2121经环依赖性扩增被扩增，得到靶核酸片段2106(带有位于2104的II型限制性核酸内切酶识别位点)、第一衔接子2112和第二衔接子2120交替的多联体。然后，在过程2123中，再次进行甲基化酶封闭，这次是用识别第二衔接子2120中的位点的甲基化酶封闭剂来封闭第二衔接子2120中的II型限制性核酸内切酶识别位点的甲基化，但无助于构建体中其他的II型限制性核酸内切酶识别位点(即，片段中的II型限制性核酸内切酶识别位点2104和第一衔接子2112中的II型限制性核酸内切酶识别位点)。然后过程继续进行甲基化2115，如果需要，可以进一步加入衔接子臂。每个不同衔接子中使用不同的甲基化酶封闭剂位点，以便整个过程中可以进行序列特异性甲基化酶封闭。虽然图9和21显示了第二衔接子相对第一衔接子的插入，但应当明白这个过程可以应用于在第二衔接子之后加入的衔接子，产生带有多达四个、六个、八个、十个或更多个插入衔接子的文库构建体。

图22图示的过程中利用甲基化和尿嘧啶降解选择了所需的第二衔接子与第一衔接子的相对位置。图22显示了目的基因组DNA2202，其带有位于2204的II型限制性核酸内切酶识别位点。该基因组DNA在过程2205中被分级或片段化从而产生带有II型限制性核酸内切酶识别位点2204的片段2206。衔接子臂2208和2210在过程2207中连接至片段2206。带有第一和第二衔接子臂2208和2210的片段2206(文库构建体)在过程2211中，利用与衔接子臂2208和2210互补的尿嘧啶修饰的引物2212经PCR扩增。引物产生的PCR产物中带有位于或者靠近II型限制性核酸内切酶识别位点的尿嘧啶。过程2213中，利用例如尿嘧啶-DNA糖基化酶(Krokan等人，(1997)Biochem.J.325:1-16)特异降解尿嘧啶，留下的PCR产物在II型限制性核酸内切酶识别位点区域是单链化的。正如已显示的，利用尿嘧啶的引入和降解可以使II型限制性核酸内切酶识别位点单链化；但是，正如本文进一步描述的，也可以采用其他方法，包括使用3'或5'核酸外切酶有限地消化使这些区域单链化。

在过程2215中，利用序列特异性甲基化酶将每个双链II型限制性核酸内切酶识别位点中的碱基甲基化(这里有II型限制性核酸内切酶识别位点2204的甲基化2214)，以保护这些位点不被II型限制性核酸内切酶识别。但是，第一和第二衔接子臂2208和2210中单链的II型限制性核酸内切酶识别位点不被甲基化，一旦环化和连接2217，II型限制性核酸内切酶识别位点重新形成2216，因此该II型限制性核酸内切酶识别位点可以被限制消化。但选择用于该过程的甲基化酶和II型限制性核酸内切酶时，这两种酶需要识别相同的序列或者一种酶识别的是另一种酶的亚序列(序列内的序列)。然后在过程2219中，环化构建体被II型限制性核酸内切酶切割，其中II型限制性核酸内切酶识别位点显示位于2218，构建体在2220切割，得到线性化的构建体，该构建体可以在过程2221中供第二套衔接子臂连接以加入该构建体。

连接过程2221在线性化的构建体中加入第二衔接子的第一2222和第二2224衔接子臂，过程2223中再次使用与衔接子臂2222和2224互补的尿嘧啶修饰的引物2226，经PCR进行第二次扩增。与上面一样，引物产生的PCR产物中带有靠近II型限制性核酸内切酶识别位点的尿嘧啶。在过程2225中，尿嘧啶被特异降解，留下的PCR产物在第二衔接子的第一和第二衔接子臂2222和2224中的II型限制性核酸内切酶识别位点区域是单链的。过程2227中，再次利用序列特异性甲基化酶将靶核酸片段中双链的II型限制性核酸内切酶识别位点的碱基(同样，有II型限制性核酸内切酶识别位点2204的甲基化2214)和第一衔接子2228中的II型限制性核酸内切酶识别位点的碱基甲基化，以保护这些位点不被II型限制性核酸内切酶识别。然后甲基化的构建体在过程2229中被环化，其中第二衔接子的第一和第二臂2222和2224中的II型限制性核酸内切酶识别位点重新形成2230，重复这一过程，在过程2219中再次用II型限制性核酸内切酶切割环化的构建体，从而产生另一个线性构建体(这一个已加入第一和第二衔接子)，以供第三对衔接子臂与构建体连接。可以重复这一过程以便加入所需数量的衔接子。正如这里显示的，第一个加入的衔接子可以含有一个II型限制性核酸内切酶识别位点；但是，在其他方面中，第一个加入的衔接子可以含有两个II型限制性核酸内切酶识别位点以便精确地选择构建体所需的靶核酸大小。

除了上述控制多个散在分布的衔接子的插入的方法，还可以通过富集构建体群来进一步挑选包含处于特定方向的衔接子的构建体以得到带有处于所需方向的衔接子的那些构建体。这类富集方法在11/09/06提交的美国专利申请第60/864,992号、11/02/07提交的美国专利申请第11/943,703号、11/02/07提交的美国专利申请第11/943,697号、11/02/07提交的美国专利申请第11/943,695号和11/02/07提交的PCT/US07/835540中有描述，为了所有目的，特别是为了与选择特定方向衔接子的方法和组合物有关的全部教导，这些文献的全部内容均通过引用并入本文。

V.制备DNB

一方面，本发明的核酸模板被用于制成核酸纳米球，其在文中又称为“DNA纳米球”、“DNB”和“扩增子”。虽然本发明的核酸纳米球可以利用这里描述的方法由任何核酸分子制成，但这些核酸纳米球通常是包含多拷贝的本发明所述核酸模板的多联体。总体而言，该扩增过程在单反应室中的溶液中进行，可得到更高密度并使用更少试剂。此外，由于DNB的制备生成克隆扩增子，因此该扩增方法一般不通过有限稀释发生随机变异，所述随机变异在其它方法中是固有的。根据本发明的DNB制备方法可在一毫升反应体积中生成超过100亿个DNB，这对于人类全基因组进行测序而言是足够的。

一方面，利用滚环复制(RCR)来产生本发明的多联体。RCR过程曾被用于制备多个连续拷贝的M13基因组(Blanco,etal.，(1989)JBiolChem264:8935-8940)。在这种方法中，核酸经线性多联体化复制。本领域技术人员可以在许多参考文献中找到关于选择RCR反应的条件和试剂的指南，包括美国专利第5,426,180号、第5,854,033号、第6,143,495号和第5,871,921号，为了所有目的，特别是为了与利用RCR或其他方法制备多联体有关的全部教导，这些文献均通过引用全文并入本文。

通常，PCR反应成分包括单链DNA环、能够与DNA环退火的一或多种引物、具有链置换活性以延伸与DNA环退火的引物的3’末端的DNA聚合酶、核苷三磷酸和常规的聚合酶反应缓冲液。在允许引物退火到DNA环上的条件下将这些成分合并。通过DNA聚合酶延伸这些引物，以形成DNA环互补链的多联体。在某些实施方式中，本发明的核酸模板是双链环，这些双链环变性以形成可以用于RCR反应的单链环。

在一些实施方式中，环形核酸的扩增可以通过从含有所有可能序列的混合物中连续连接上短的寡核苷酸(例如6聚体)，或者如果环是合成的，则这些短寡核苷酸的有限混合物含有用于环复制的选定序列，环复制是称为“环依赖性扩增”(CDA)的过程。“环依赖性扩增”或“CDA”是指利用与环形模板的两条链均能退火的引物，多次置换扩增双链环形模板以产生能够代表模板的两条链的产物，造成一系列多重-杂交、引物延伸和链置换事件。这导致引物结合位点的数量指数增加，结果产生的产物的量随时间的推移也呈指数增加。所用引物可能是随机序列(例如，随机六聚体)或者具有特异序列以便选择用于所需产物的扩增。CDA导致成组的多联体双链片段的形成。

在存在与靶分子的开头和末端均互补的桥连模板DNA的情况下，还可以通过将靶DNA连接，产生多联体。一群不同的靶DNA可借助相应桥连模板的混合物而在多联体内转换。

某些实施方式中，可以根据特定特征，例如所需数目或类型的衔接子来分离核酸模板群的亚组。这个群体可以利用常规技术(例如常规的离心柱等)进行分离或进行另外的处理(例如按大小选择)以形成群体，可以利用诸如RCR之类的技术从该群体产生多联体群。

形成本发明的DNB的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请第60/992,485号、61/026,337号、第61/035,914号、61/061,134号、第61/116,193号、第61/102,586号、第12/265,593号、第12/266,385号、第11/938,096号、第11/981,804号、第11/981,797号、第11/981,793号、第11/981,767号、第11/981,761号、第11/981,730号(2007年10月31日提交)、第11/981,685号、第11/981,661号、第11/981,607号、第11/981,605号、第11/927,388号、第11/927,356号、第11/679,124号、第11/541,225号、第10/547,214号、第11/451,692号和第11/451,691号中有描述，为了所有目的，特别是为了与形成DNB有关的全部教导，这些文献的全部内容均通过引用全文并入本文。

V1.制备DNB阵列

一方面，本发明的DNB排列在表面上形成单个分子的随机阵列。DNB可以通过多种技术(包括共价附着和非共价附着)被固定在表面上。在一种实施方式中，所述表面可能包含与多核苷酸分子的成份(例如衔接子寡核苷酸)形成复合体(例如双链体)的捕获探针。在其他实施方式中，捕获探针可能包含如Gryaznov等的美国专利5,473,060(全文并入本文)中描述的与衔接子形成三链螺旋物的寡核苷酸钳，或者类似的结构。

形成本发明的DNB阵列的方法在公开的专利申请WO2007120208、WO2006073504、WO2007133831和US2007099208,以及美国专利申请第60/992,485号、第61/026,337号、第61/035,914号、第61/061,134号、第61/116,193号、第61/102,586号、第12/265,593号、第12/266,385号、第11/938,096号、第11/981,804号、第11/981,797号、第11/981,793号、第11/981,767号、第11/981,761号、第11/981,730号、第11/981,685号、第11/981,661号、第11/981,607号、第11/981,605号、第11/927,388号、第11/927,356号、第11/679,124号、第11/541,225号、第10/547,214号、第11/451,692号和第11/451,691号中有描述，为了所有目的，特别是为了与形成DNB阵列有关的全部教导，这些文献全部通过引用并入本文。

在一些实施方式中，使用具有两维斑点阵列的图案化基底制备DNB阵列。将所述斑点活化以捕获并容纳DNB，而DNB不留在斑点之间的区域。总体而言，斑点上的DNB会抑制其它DNB，导致每个斑点只有一个DNB。由于DNB是三维的(即，不是线性短片的DNA)，所以相对于传统的DNA阵列，本发明的阵列每平方纳米结合表面产生更多的DNA拷贝。这种三维特性进一步减少所需的测序试剂的量，从而得到更亮的斑点和更有效的成像。DNB阵列的占有率一般超过90％，但是可在50％至100％占有率之间变动。

在其它实施方式中，图案化的表面使用标准硅加工技术制得。相比未图案化的阵列，这种图案化阵列可产生更高密度的DNB，从而产生具有更少像素的每碱基读数、更快的反应过程以及提高的试剂使用效率。在又一实施方式中，图案化基底为25mm×75mm(1’’×3’’)标准的显微镜载片，每一载片能够容纳约10亿个可结合DNB的独立斑点。应当理解的是，本发明包括更高密度的载片。在这些实施方式中，由于DNB设置在表面上，然后附着于活化斑点，因此高密度DNB阵列基本由溶液中的DNB“自组装”，避免了制备传统图案化低聚阵列或DNA阵列的最昂贵的方面之一。

某些实施方式中，表面可能带有反应性功能团，所述反应性功能团与多核苷酸分子上的互补功能团反应形成共价键，例如采用和附着cDNA到微阵列上所用的技术相同的方式进行，例如Smirnovetal(2004),Genes,Chromosomes&Cancer,40:72-77和Beaucage(2001),CurrentMedicinalChemistry,8:1213_1244，这两份文献通过引用并入本文。DNB还可以有效地附着到疏水性表面，例如带有低浓度的各种反应功能团(例如-OH基团)的干净的玻璃表面。经由多核苷酸分子和表面上的反应性功能团之间形成的共价键的附着在本文中又称为“化学附着”。

在其他实施方式中，多核苷酸分子可以吸附到表面上。在这种实施方式中，多核苷酸通过与表面的非特异性相互作用，或者通过诸如氢键、范德华力等的非共价相互作用被固定。

附着可能还包括不同严紧度的清洗步骤以便除去来自前面的制备步骤的没有完全附着的单个分子或其他试剂，这些单个分子或试剂的存在是不需要的或者它们非特异性地结合在表面。

一方面，表面上的DNB被限定在分立区域面积内。分立区域可以是利用本领域已知的以及本文进一步描述的方法整合到表面上的。示范性实施方式中，分立区域含有反应性功能团或者可以用来固定多核苷酸分子的捕获探针。

所述分立区域可能位于规则阵列上的限定位置，规则阵列可能对应着直线式样、六边形式样等。这些区域的规则阵列对于在分析过程中从阵列收集的信号的检测和数据分析是有益的。同时，局限于分立区域中的限定面积上的第一和/或第二阶段的扩增子可以提供更集中或强烈的信号，特别是当分析操作中使用荧光探针时，从而给出更高的信噪比。在某些实施方式中，DNB随机分布在分立区域上，因此一个给定区域接收到任一不同单个分子的可能性相同。换句话说，这样得到的阵列不是在制造后立即可以空间寻址的，但可以通过执行鉴定、测序和/或解码操作成为可空间寻址的。这样，表面上排列的本发明的多核苷酸分子的特性是可以辨别的，但不是它们排列到表面上时开始就知道的。某些实施方式中，选择分立的面积，连同化学物、采用的大分子结构等，以与本发明的单分子大小对应，从而使得当单分子被施加到表面上时，基本每个区域被不超过一个单分子占据。某些实施方式中，DNB以图案方式排列在包含分立区域的表面上，因此特异DNB(在示范性实施方式中，通过标签衔接子或其他标记鉴定出来的)排列在特定的分立区域或分立区域群上。

在某些实施方式中，分立区域的面积小于1μm²；在某些实施方式中，分立区域的面积在0.04μm²到1μm²的范围内；在某些实施方式中，分立区域的面积在0.2μm²到1μm²的范围内。在分立区域大致为圆形或方形使得它们的大小可以通过单个线性尺寸来表示的实施方式中，这类区域的大小在125nm到250nm的范围内，或者在200nm到500nm的范围内。在某些实施方式中，最近的分立区域的中心到中心距离在0.25μm到20μm的范围内；某些实施方式中，这一距离在1μm到10μm的范围内，或者在50到1000nm的范围内。通常,所述分立区域被设计成它们中的大部分是可以光学分辨的。在某些实施方式中，所述区域可以以几乎任何图案安排在表面上，只要区域在图案中有限定的位置即可。

另外的实施方式中，分子被导向表面上的分立区域(discreteregions)，原因在于分立区域之间的面积(文中称为“区域间面积”)是惰性的，因为多联体或其他大分子结构不与它们结合。某些实施方式中，可以用封闭剂(例如与多联体DNA无关的DNA、其他聚合物等)处理这种区域间面积。

有许多种支持物可以利用来与本发明的组合物和方法形成随机阵列。一方面，支持物是具有表面的刚性固体，优选基本上是平面区域，这样待询问的单分子处于同一平面。后一种特性允许通过例如检测光学进行有效的信号收集。另一方面，所述支持物包含珠子，这种情况中珠子表面含有可以用来固定多核苷酸分子的反应性功能团或捕获探针。

再一方面，本发明的固体支持物是无孔的，特别是当单分子随机阵列是通过杂交反应进行分析需要小体积时。合适的固体支持物材料包括诸如玻璃、聚丙烯酰胺涂层的玻璃、陶瓷、硅石、硅、石英、各种塑料等材料。一方面，平面区域的面积可以在0.5到4cm²的范围内。一方面，所述固体支持物是玻璃或石英，例如具有均匀硅烷化表面的显微镜载片。这可以使用常规试验方案来达到，例如酸处理后浸泡在80℃的3-缩水甘油醚氧丙基三甲氧基硅烷、N，N-二异丙基乙胺和无水二甲苯(8：1：24v/v)溶液中，形成环氧硅烷化的表面(例如Beattieeta(1995),MolecularBiotechnology,4:213)。例如通过在施加到表面前，给捕获寡核苷酸提供3’或5’三乙二醇磷酰间隔臂(参见以上引用的Beattieetal)，这样的表面很容易经过处理被捕获寡核苷酸末端附着。将表面功能化和进一步准备以用于本发明的其他实施方式在例如美国专利申请第60/992,485号、61/026,337号、61/035,914号、61/061,134号、61/116,193号、61/102,586号、12/265,593号、12/266,385号、11/938,096号、11/981,804号、11/981,797号、11/981,793号、11/981,767号、11/981,761号、11/981,730号、11/981,685号、11/981,661号、11/981,607号、11/981,605号、11/927,388号、11/927,356号、11/679,124号、11/541,225号、10/547,214号、11/451,692号和11/451,691号中有描述，为了所有目的，特别是为了与制备形成阵列的表面有关的全部教导以及与形成阵列、尤其是DNB阵列有关的全部教导，以上文献均通过引用全文并入本文。

在本发明中要求分立区域图案的实施方式中，可以利用光刻法、电子束光刻、纳米压印光刻和纳米印刷在多种表面上产生这类图案，例如Pirrungetal,美国专利5,143,854、Fodoretal，美国专利5,774,305、Guo,(2004)JournalofPhysicsD：AppliedPhysics,37:R123-141，这些文献通过引用并入本文。

一方面，含有多个分立区域的表面是通过光刻法制造的。将商品光学平面的石英基底旋涂上100-500nm厚的光刻胶层。然后将光刻胶层烧到石英基底上。利用步进器，将带有待激活的区域图案的光网(reticle)图像投射到光刻胶层表面。曝光后，给光刻胶层显影，除去投射图案中暴露在UV源下的区域。这是通过等离子体蚀刻(一种能够产生非常细微的细节的干式显影技术)实现的。然后将基底烘烤来强化剩下的光刻胶层。烘烤后，石英晶片即可以进行功能化。然后将晶片经过3-氨基丙基二甲基乙氧基硅烷气相沉积。通过改变单体的浓度和基底的曝光时间，可以严格控制氨基功能化单体的密度。只有已暴露于等离子蚀刻处理的石英区域可以与所述单体反应并捕获单体。然后再次烘烤基底以将单层的氨基功能化单体烤到暴露的石英上。烘烤后，可以用丙酮除去剩下的光刻胶。因为光刻胶和硅烷的附着化学特性的不同，所以基底上氨基硅烷功能化的面积在丙酮清洗过程中保持完整。这些区域可以通过与溶于吡啶和N-N-二甲基甲酰胺的溶液中的P-亚苯基二异硫氰酸盐反应而将这些区域进一步功能化。然后基底能够与胺修饰的寡核苷酸反应。可选地，可以用5’-羧基-改性剂-C10连接分子(GlenResearch)制备寡核苷酸。这项技术允许寡核苷酸直接附着到胺修饰过的支持物上，从而避免另外的功能化步骤。

在另一方面，含有多个分立区域的表面是通过纳米压印光刻法(NIL)制造的。为了制备DNA阵列，给石英基底旋涂一层光刻胶层，通常被称为转移层。然后在转移层上施加第二类光刻胶，通常称为压印层。然后主压印工具在压印层上留下压痕。然后通过等离子体蚀刻减小压印层的总厚度，直至压印层较低的区域碰到转移层。因为转移层比压印层较难除去，因此其基本不受影响。然后通过加热使压印层和转移层硬化。然后将基底放入等离子体蚀刻仪，直至压印层较低的区域碰到石英。然后通过如上描述的气相沉积将基底衍生化。

在另一方面，含有多个分立区域的表面是通过纳米印刷术制造的。这个过程利用光、压印或电子束刻印术产生主模具，它是打印头上需要的特征图样的阴图像。打印头通常是由软的柔性聚合物(例如聚二甲基硅氧烷(PDMS))制成的。属性不同的这种材料或者材料层旋涂到石英基底上。然后在受控的温度和压力条件下，用模具将特征图样浮雕到光刻胶材料的表层。然后对打印头进行基于等离子体的蚀刻过程以便改善打印头的长宽比，并消除由于被加浮雕的材料随时间松弛而造成的打印头的变形。随机阵列基底是利用纳米印刷术通过在均质衍生化表面上留下胺修饰的寡核苷酸图样制造的。这些寡核苷酸将作为RCR产物的捕获探针。纳米印刷术的一个可能的优势是能够将不同捕获探针的交织图样印刷到随机阵列支持物上。这可以用多个打印头通过接连印刷来实现，其中每个打印头带有不同图样，所有图样配合在一起形成最终的带结构的支持物图样。这类方法允许在随机阵列中对DNA元件进行一些定位编码。例如，含有特异序列的对照多联体可以以规则的间隔结合在随机阵列上。

在又一方面，利用打印头或压印主机(imprint-master)制备亚微米大小的捕获寡核苷酸斑点的高密度阵列，其中所述打印头或压印主机是由一束或多束大约10,000到1亿包含轴芯和被覆材料的光纤制备的。通过光纤的拉丝和熔接产生独特的材料，该材料含有大约50-1000nm的轴芯，被类似大小或者小或大2-5倍大小的被覆材料隔开。通过被覆材料的差异蚀刻(溶解)获得含有非常大量纳米级的小杆(posts)的纳米打印头。这种打印头可以用于放置寡核苷酸或者其他生物(蛋白质、寡肽、DNA、适配子)或化学化合物，例如带有各种活性基团的硅烷。在一种实施方式中，玻璃纤维工具被用作带有图样的支持物来存放寡核苷酸或其他生物或化学化合物。这种情况中，只有通过蚀刻产生的小杆可以与待存放的材料接触。可以利用平切的熔接纤维束来引导光穿过轴芯，只允许光诱发的化学过程发生在轴芯头表面，因此不需要进行蚀刻。两种情况中，同一支持物然后可以作为给寡核苷酸或其他反应物贴标签使用的荧光标记成像的光导/收集装置。该装置提供具有大数值孔径(可能>1)的大视野。可以利用实施活性材料或寡核苷酸的存放的印记或印刷工具将2到100个不同的寡核苷酸印刷为交织的式样。这个过程需要将打印头精确地定位在大约50-500nm。这种类型的寡核苷酸阵列可以用于附着2到100个不同的DNA群体，例如不同的源DNA。它们还可以通过利用DNA特异性锚定子或标签，用于平行读取亚光分辨率光点。可以通过DNA特异性标签(例如针对16种DNA的16种特异锚定子)获取信息，通过5-6种颜色的组合，利用16个连接循环或者一个连接循环和16个解码循环来读取2个碱基。如果每个片段只需有限的信息(例如，少量循环)，则这种制备阵列的方式是有效的，因此每个循环可以提供更多信息或者每个表面可以做更多循环。

一方面，本发明的多重阵列可以放置在单个表面上。例如，可以生产图案化的阵列基底以与标准96或384孔板格式匹配。生产格式可以是在单片玻璃或塑料和其他光学兼容材料上的6mm×6mm阵列，间距9mm的8×12式样，或者3.33mm×3.33mm阵列，间距4.5mm的16×24式样。在一个实例中，每个6mm×6mm阵列由3千6百万个间隔1微米的250-500nm方形区域构成。可以利用疏水性或者其他表面的或物理的障碍来防止单元阵列之间发生不同反应的混合。

形成分子阵列的其他方法是本领域已知的，可以用来形成DNB阵列。

可以理解，各种密度的本发明的DNB和/或核酸模板可以放置在包含分立区域的表面上以形成阵列。某些实施方式中，每个分立区域可能包含大约1到大约1000个分子。其他实施方式中，每个分立区域可能包含大约10到大约900、大约20到大约800、大约30到大约700、大约40到大约600、大约50到大约500、大约60到大约400、大约70到大约300、大约80到大约200、和大约90到大约100个分子。

在某些实施方式中，核酸模板和/或DNB阵列的密度为每平方毫米至少有50万、1、2、3、4、5、6、7、8、9百万或者1千万个分子。

VII.将DNB装载至流动载片(flowslide)上以及装载后的处理

如上所述，根据本发明的一种实施方式，DNB可设置或“装载”于图案化表面上以形成高密度DNB阵列。

根据一种实施方式，将DNB制剂装载至流式载片中，如Drmanacetal.,Science327:78-81,2010中所述。简言之，通过将DNB吸移至载片上来装载载片。例如，比结合位点多2至3倍的DNB可被吸移至载片上。在23℃在封闭室中，将装载后的载片孵育2小时，冲洗以中和pH并除去未结合的DNB。

为了使阵列化的DNB稳定，避免在测序过程中发生化学和物理降解，可在将DNB与阵列接触或附着于阵列上(即，装载于阵列上)之后处理DNB。根据一种实施方式，将DNB包被在一层部分变性的蛋白中以提高DNB阵列的稳定性，进而提高cPAL测序反应(下文描述)产生的信号的强度和特异性。各种不同的蛋白，包括但不限于血清白蛋白(例如牛血清白蛋白(BSA)和人血清白蛋白)，具有有助于保护作用和不干扰检测的性质，因为它们不与核酸发生强烈的相互作用但是与阵列结合基底可逆结合。这些性质取决于稳定包被分子的多种物理-化学性质，包括带电性质，例如等电点、分子量、与核酸的不反应性以及不能插入核酸的性质。在没有这种包被的情况下，在cPAL测序过程中，探测的DNB信号强度和特异性的质量可能在少于30个探测循环中完全降低。具有这种包被的情况下，我们已经将DNB阵列用于超过100个循环，并且通常在超过70个循环时很少见到或没有见到降级(degradation)。

此外，还观察到如果在开始装载后直接将阵列中的独立DNB进行包被处理，则所述DNB一定程度地散布在表面上。发现在包被之前添加影响DNB浓缩的冲洗步骤和随后的洗涤步骤可减少散布和混合的DNB的量并可提高探测DNB所生成的数据质量。

尽管根据DNB形式的基因组DNA测序进行了描述，但是根据本发明的装载后处理还可用于提高一些生物分子(包括但不限于核酸(单链和双链DNA，RNA等))的稳定性并减少其散布，这些生物分子附着于或关联于用于广泛范围的生化分析的任何类型固体支持物，所述生化分析包括，例如核酸杂交、酶促反应(例如使用内切酶[包括限制性内切酶]、外切酶、激酶、磷酸酶、连接酶等)、核酸合成、核酸扩增(例如，通过聚合酶链反应、滚环复制、全基因组扩增、多重置换扩增等)以及本领域已知的任何其它形式的生化分析。

例如，许多生化分析涉及将各种不同酶(例如激酶)用于与基底结合的核酸分子，并且可得益于上述装载后处理。当酶扩散为这些分析中的限制因素时，可优化蛋白包被层。最佳包被可提供足够的保护以保留核酸分子持续整个分析过程，而基本不会抑制酶扩散通过蛋白层。吸附的蛋白层的性能特征可通过改变溶液中的蛋白浓度来控制。还可例如，通过调节pH、添加熟知的排除分子以及控制总的暴露时间来控制蛋白层的厚度和性能，所述排除分子例如PEG和/或吸附抑制剂(例如诸如Tween^TM-80(吐温^TM-80)之类的表面活性剂)。在使用复合探针-锚定连接(下文详述的cPAL)的DNA测序的具体情况中，特别是使用2个、3个、4个或更多锚定探针时，完全磷酸化或未磷酸化的寡核苷酸以及在连接反应之前完全除去残余的激酶对于通过连接实现高质量延伸而言是重要的。在一种实施方式中，最佳的BSA浓度为：在pH为5.4，持续5至15分钟的条件下，0.05mg/ml的浓度。

VIII.DNB的使用方法

根据以上描述的方法制备的DNB在鉴定靶核酸的序列方面带来了优势，因为DNB中含有的衔接子提供了已知序列点，当与使用锚定子和测序探针的方法组合时，可以确定空间方位和序列。此外，DNB避免了依赖于单一分子测序系统所使用的单一荧光团检测的花费和问题，因为多拷贝靶序列存在于单一DNB中。

根据本发明的DNB的使用方法包括给靶核酸测序和探测靶核酸中的特异序列(例如，探测特异靶序列(例如，特异基因)和/或鉴定和/或探测SNPs)。文中描述的方法还可以用于检测核酸重排和拷贝数变化。核酸定量，例如数字化基因表达(即，分析样品中存在的整个转录子组-全部mRNA)，和检测样品中特异序列或序列组的数量，也可以利用本文描述的方法来实现。尽管文中的大部分讨论是针对鉴定DNB的序列，但可以理解包含衔接子的其他非多联体核酸构建体也可以用于本文描述的实施方式中。

VIIIA.cPAL测序的概述

按照本发明，通常如下文所述利用文中称为复合探针-锚定子连接(“cPAL”)的方法及其改进形式鉴定DNB的序列。简单来说，cPAL包括通过检测探针连接产物来鉴定靶核酸中特定检测位置上的核苷酸，所述探针连接产物是通过至少一个锚定探针和测序探针的连接形成的，其中的锚定探针与衔接子完全或部分杂交，测序探针在对应(例如，会杂交到)检测位置的“询问位点”上含有特定核苷酸。测序探针含有独特的鉴定标记。如果询问位点上的核苷酸与检测位置上的核苷酸互补，可以发生连接，形成的连接产物含有所述独特标记，然后可被检测到。下文中提供了对cPAL方法的不同示范性实施方式的描述。可以理解，以下描述并非出于限制目的，下述实施方式的变形涵盖在本发明中。

本发明的cPAL方法具有许多本领域已知的杂交方法的测序优势，包括DNA阵列平行度、独立性和非迭代的碱基读取以及每一反应可读取多个碱基。此外，cPAL解决了杂交方法测序的两个限制性问题：不能读取简单重复，以及需要密集的计算。

“互补”或“基本互补”是指核苷酸或核酸之间(例如在双链DNA分子两条链之间或者单链核酸上的寡核苷酸引物和引物结合位点之间)的杂交或碱基配对或者双链体形成。互补核苷酸一般是A和T(或A和U)或者C和G。当一条链的核苷酸，在最佳地比对和比较并适当地进行了核苷酸插入或缺失的情况下，与另一条链的至少大约80％、通常至少大约90％到约95％，甚至大约98％到100％配对时，这两个单链RNA或DNA分子被称为基本互补。

“杂交”用于本文是指两个单链多核苷酸非共价结合形成稳定的双链多核苷酸的过程。得到的(通常)双链多核苷酸是“杂交体”或“双链体”。“杂交条件”一般包括低于大约1M，更常见的是低于大约500mM，可能是低于大约200mM的盐浓度。“杂交缓冲液”是缓冲盐溶液，例如5％SSPE或其他本领域已知的这类缓冲液。杂交温度可以低至5℃，但一般高于22℃，更典型的是高于大约30℃，一般超过37℃。杂交一般在严紧条件下进行，严紧条件即那种探针能够与其靶亚序列杂交但不会与其他不互补的序列杂交的条件。严紧条件是序列依赖性的，在不同情形中是不同的。例如，较长的片段可能需要比短片段高的杂交温度以进行特异杂交。虽然包括碱基组成和互补链长度、有机溶剂的存在以及碱基错配程度在内的其他因素可能影响杂交的严紧度，但参数的组合比任何单独一个参数的绝对度量更重要。通常，严紧条件是在限定的离子强度和PH下，选择比特异序列的T_m低大约5℃的温度。示范性的严紧条件包括至少0.01M到不超过1M钠离子浓度(或其他盐)的盐浓度，pH大约7.0到大约8.3，温度至少25℃。例如，5xSSPE(750mMNaCl、50mM磷酸钠、5mMEDTA，pH7.4)和30℃的温度的条件适合等位特异探针杂交。严紧条件的其他实例是本领域已知的，参见例如SambrookJetal.(2001),MolecularCloning,ALaboratoryManual,(3rdEd.,ColdSpringHarborLaboratoryPress。

术语“T_m”用于本文通常是指让半数的双链核酸分子解离成单链的温度。计算核酸的T_m的公式是本领域公知的。正如标准参考文献指出的，当核酸处于阳离子浓度为0.5M或更低的水溶液中时，可以通过公式T_m＝81.5+16.6(log10[Na+])0.41(％[G+C])-675/n-1.0m简单估计T_m值，(G+C)含量在30％和70％之间，n是碱基数，m是错配碱基对百分比(参见例如，SambrookJetal.(2001),MolecularCloning,ALaboratoryManual,(3rdEd.,ColdSpringHarborLaboratoryPress)。其他参考文献包含更复杂的计算方法，这些方法在计算T_m时考虑到结构和序列特性(还可以参见，AndersonandYoung(1985),QuantitativeFilterHybridization,NucleicAcidHybridization,andAllawiandSantaLucia(1997),Biochemistry36:10581-94)。

在cPAL方法的一个实例中，如图23显示的文中称为“单一cPAL”，锚定探针2302与DNB2301的衔接子2308中的互补区杂交。锚定探针2302与直接挨着靶核酸2309的衔接子区域杂交，但在某些情况中，如图24图示并在以下进一步描述的，可以通过在锚定探针末端引入希望数量的简并碱基，可以将锚定探针设计成“伸进”靶核酸。区别标记的测序探针集合2305会与靶核酸的互补区杂交，通常通过使用连接酶，邻近锚定探针杂交的测序探针连接以形成探针连接产物。测序探针通常是包含两个部分的寡核苷酸组或寡核苷酸集合，即询问位点上的不同寡核苷酸，和其他位置上的所有可能碱基(或通用碱基)；因此每个探针代表特定位置上的每个碱基类型。测序探针标记有可检测的标记，将每个测序探针与在该位置含有其他核苷酸的测序探针区别开。因此，在图23显示的实例中，邻近锚定探针2302杂交并与该锚定探针连接的测序探针2310将鉴定出靶核酸中离衔接子5个碱基的位置上的碱基是“G”。图23描绘的情形中，询问碱基离连接位点5个碱基，但是正如以下更充分描述的，询问碱基可以离连接位点“更近”，某些情况中就在连接点。一旦连接好，洗去未发生连接的锚定和测序探针，利用标记检测阵列上存在的连接产物。锚定探针和测序探针的多重杂交和连接循环可以用来鉴定出DNB中每个衔接子每侧的靶核酸的希望数量的碱基。锚定探针和测序探针的杂交可以顺序或者同时发生。碱基测定(basecall)的忠实度部分依赖于连接酶的忠实度，如果在连接位点附近有错配，通常不会连接。

本发明还提供了在每个杂交-连接循环中使用两个或以上锚定探针的方法。图25显示了“带有突出的双重cPAL”方法的另外一个实例，其中第一锚定探针2502和第二锚定探针2505各自与衔接子的互补区杂交。在图25显示的实例中，第一锚定探针2502与衔接子2511的第一区域完全杂交，第二锚定探针2505与和第一锚定探针杂交位置相邻的第二衔接子区互补。第二锚定探针不与第一锚定探针相邻的末端同样包含简并碱基。这样，第二锚定探针能够与靶核酸2512中靠近衔接子2511的区域(“突出”部分)杂交。第二锚定探针通常太短，不能独自保持在双链体杂交状态，但与第一锚定探针连接后形成较长的锚定探针，在随后的方法中能够稳定杂交。正如以上对“单一cPAL”方法的讨论，测序探针集合2508与衔接子-锚定探针双链体杂交2509，并连接在连在一起的锚定探针的末端5’或3’碱基上，所述测序探针集合代表靶核酸检测位置上的每个碱基类型并标记有将每个测序探针与在该位置含有其他核苷酸的测序探针区分开的可检测标记。在图25显示的实例中，测序探针被设计成询问距离测序探针2514和连接的锚定探针2513之间的连接点5’端5个位点(positions)的碱基。因为第二衔接子探针2505在其5’端有5个简并碱基，它达到靶核酸2512之内5个碱基处，允许测序探针询问从靶核酸2512和衔接子2511之间的交界处开始的整整10个碱基。

在以上描述的双重cPAL方法的实例的某些变化中，如果第一锚定探针终端更靠近衔接子的末端，则第二衔接子探针将更成比例地简并，因此有更大的可能性不仅与第一衔接子探针末端连接，还能与DNB上多个位点上的其他第二衔接子探针连接。为了防止这种连接假象，可以选择性地活化第二锚定探针以便其参与和第一锚定探针或者测序探针的连接。这种活化方法在下文有更详细的描述，包括例如选择性地修饰锚定探针的末端从而使它们只能够以相对衔接子特定的方向与特定锚定探针或测序探针连接这样的方法。

与以上描述的双重cPAL方法类似，可以理解使用三种或更多种锚定探针的cPAL方法也被本发明所涵盖。

此外，测序反应可以在每个衔接子的一端或两端进行，例如测序反应可以是“单向的”，在衔接子的3’或5’或者另一端进行检测；或者反应可以是“双向的”，其中在衔接子的3’和5’检测位置检测碱基。双向测序反应可以同时进行，即衔接子两侧的碱基同时被检测；或者以任何顺序依次进行。

多循环cPAL(不管是单一、双重、三重的等)将鉴定到与衔接子相邻的靶核酸区域中的多个碱基。简单来说，通过循环进行锚定探针杂交和酶促连接反应，并将设计用于检测不同位置之核苷酸的测序探针集合从衔接子和靶核酸的交界处移开，重复cPAL方法询问靶核酸中多个相邻碱基。在任何给定循环中，所用的测序探针被设计成使得一个或多个位置上的一个或多个碱基的特性与附着在该测序探针上的标记的特性呼应。连接的测序探针(以及询问位点处的碱基)一旦被检测到，连接复合体即被从DNB剥离，并进行新一轮衔接子和测序探针的杂交和连接。

可以理解，除了以上描述的cPAL方法，本发明的DNB可以用于其他测序方法，包括其他连接法测序的方法以及其他测序方法，包括但不限于杂交法测序、合成法测序(包括引物延伸法测序)、可切割探针连接法链式测序(chainedsequencingbyligationofcleavableprobes)等。

与以上描述的测序方法类似的测序方法还可以用于检测靶核酸中的特异序列，包括检测单核苷酸多态性(SNPs)。这类方法中，将采用能够与特定序列(例如含有SNP的序列)杂交的测序探针。所述测序探针可以区别标记以鉴定靶核酸中存在哪个SNP。还可以将锚定探针与这类测序探针组合使用提供更高的稳定性和特异性。

VIIIB.测序

一方面，本发明提供了通过利用连接来测序的方法来鉴定DNB的序列的方法。本发明一方面提供了鉴定DNB序列的方法，所述方法利用了复合探针-锚定子连接(cPAL)法。通常，cPAL涉及通过检测探针连接产物来鉴定靶核酸中检测位置上的核苷酸，所述探针连接产物是由锚定探针和测序探针连接形成的。本发明的方法可以用于测定DNB和代表一部分或者全部基因组的许多DNB中包含的靶核酸的部分或者全部序列。

在一些方面，根据本发明的cPAL方法中的连接反应只被驱动完成约20％。如本文使用的“驱动至”完成的特定水平是指应当显示连接事件的单个DNB或DNB中的单体的百分数。由于cPAL方法中读取每一碱基为独立事件，所以为了能够在随后的杂交连接循环中沿着序列读取后边的碱基，每一个DNB中的每一个单体中的每一个碱基不必支持连接反应。因此，本发明的cPAL方法需要大大降低试剂量和时间，使成本明显降低并提高效率。在一些实施方式中，根据本发明的cPAL方法中的连接反应被驱动至完成20％，25％,30％,35％,40％,45％,50％,60％,70％,80％,90％或100％。在其他实施方式中，根据本发明的cPAL方法中的连接反应被驱动至完成约10％至约100％。在又一些实施方式中，根据本发明的连接反应被驱动至完成约20％-95％,30％-90％,40％-85％,50％-80％以及60％-75％。在一些实施方式中，反应的完成百分数受允许反应进行的试剂浓度、温度和时间长度的变化影响。在其他实施方式中，cPAL连接反应的完成百分数可通过比较获自cPAL连接反应中的各DNB的信号以及比较这些信号与来自直接杂交于DNB中衔接子的锚定探针杂交位点的标记探针的信号进行估算。来自直接与衔接子杂交的标记探针的信号提供具有可能的杂交位点的DNB数目的估算，随后这种信号可充当与来自cPAL反应中连接的探针的信号比较的基线，从而确定连接反应的完成百分数。在一些实施方式中，连接反应的完成率可随信息最终用途的改变而改变，其中一些应用需要比其他应用更高的完成水平。

正如本文进一步讨论的，每个DNB包含重复的单体单元，每个单体单元包含一或多个衔接子和靶核酸。靶核酸包含多个检测位置。术语“检测位置”是指靶核酸中希望获得其序列信息的位置。正如本领域技术人员可以理解的，通常靶序列含有多个需要其序列信息的检测位置，例如象文中描述的全部基因组的测序。某些情况中，例如在SNP分析中，可能希望仅读取特定区域中的单个SNP。

本发明提供了组合使用锚定探针和测序探针的测序方法。文中使用的“测序探针”是指设计用于提供靶核酸特定检测位置上的核苷酸特性的寡核苷酸。测序探针与靶序列内的结构域杂交，例如第一测序探针可与第一靶结构域杂交，第二测序探针与第二靶结构域杂交。术语“第一靶结构域”和“第二靶结构域”或文中的语法等同体意味着接受检验的核酸内靶序列的两个部分。第一靶结构域可能与第二靶结构域之间直接相邻，或者第一和第二靶结构域被插入的序列(例如衔接子)隔开。术语“第一”和“第二”并非希望赋予序列就靶序列的5’-3’方向而言的方向。例如，假设互补靶序列是5'-3'方向，则第一靶结构域可能位于第二结构域的5’方向，或者第二结构域的3’方向。测序探针可以重叠，例如第一测序探针可以与衔接子一个末端相邻的最开始的6个碱基杂交，第二测序探针可以与从衔接子末端开始的第4到第9个碱基杂交(例如当锚定探针有三个简并碱基时)。可选地，第一测序探针可以与衔接子“上游”末端相邻的6个碱基杂交，第二测序探针可以与衔接子“下游”末端相邻的6个碱基杂交。

测序探针一般包含许多简并碱基和位于探针内特定位置上的特异核苷酸以便查询检测位置(文中又称为“询问位点”)。

一般来说，当利用简并碱基时，使用测序探针集合。就是说，具有序列“NNNANN”的探针实际上是一组含有5个位点上4种核苷酸碱基的所有可能组合并且在第6个位点上是腺嘌呤的探针(即，1024种序列)。(如文中指出的，该技术还可以用于衔接子探针：例如，当衔接子探针含有“三个简并碱基”时，例如，它实际上是这样一组衔接子探针，其包含与锚定位点对应的序列和3个位点上的所有可能组合，所以是64种探针的集合)。

某些实施方式中，对于每个询问位点，可以将四个不同标记的集合合并到单个集合中，用于测序步骤。因此，在任何特定测序步骤中，使用4个集合，每个在询问位点带有不同的特异碱基，并有不同标记与询问位点的碱基对应。即，测序探针同样被标记，使得特定询问位点上的特定核苷酸所关联的标记与在相同询问位点带有不同核苷酸的测序探针的标记不同。例如，在单个步骤中可以使用四个集合：NNNANN-染料1、NNNTNN-染料2、NNNCNN-染料3和NNNGNN-染料4，只要这些染料是光学可分辨的即可。某些实施方式中，例如用于SNP检测，可能只需要包含两个集合，因为所述SNP只能是C或A等。类似地，某些SNP包含三种可能。可选地，在某些实施方式中，如果反应是顺序而非同时进行的，则可以刚好在不同的步骤中使用同一染料：例如，可以在反应中单独使用NNNANN-染料1探针，检测到或者未检测到信号，洗去探针；任何引入第二个集合NNNTNN-染料1。

在本文描述的任何一种测序方法中，测序探针可以有多种长度，包括大约3到大约25个碱基。其他实施方式中，测序探针的长度可以在大约5到大约20、大约6到大约18、大约7到大约16、大约8到大约14、大约9到大约12和大约10到大约11个碱基的范围内。

本发明的测序探针被设计成与靶序列中的序列互补，并且一般是完全互补，使得能够发生部分靶序列和发明所述探针的杂交。具体来说，询问位点碱基和检测位点碱基完全互补是非常重要的，除非它们的确完全互补，否则本发明的方法不会产生信号。

许多实施方式中，测序探针和与它们杂交的靶序列是完全互补的；即，试验在如本领域已知的有利于形成完全碱基配对的条件下进行。本领域技术人员可以理解，与靶序列第一结构域完全互补的测序探针只能与相同靶序列的第二结构域基本互补；即本发明许多情况中依赖于使用成组的探针，例如成组的与某些靶序列完全互补而不与其他互补的六聚体。

在某些实施方式中，取决于具体应用的情况，测序探针和靶序列之间的互补性不需要是完美的；可以有任意数量的可能干扰靶序列和本发明所述单链核酸之间杂交的碱基对错配。但是，如果错配数量太高，即使在最不严紧的杂交条件下都不能发生杂交，则该序列不是互补的靶序列。因此，文中的“基本互补”意味着测序探针与靶序列的互补程度足够在正常的反应条件下发生杂交。但对于多数应用来说，只有存在完全互补，才设定为有利于探针杂交的条件。可选地，要有足够的互补性以便连接酶反应发生，即序列的某些部分可能有错配，但询问位点的碱基应当在只有该位点存在完全互补，才允许连接发生。

某些情况中，本发明的探针在使用简并碱基之外或者代替使用简并碱基，还可以使用与一个以上碱基杂交的通用碱基。例如，可以使用肌苷。可以采用这些系统和探针成分的任意组合。

用于本发明的方法中的测序探针通常带有可检测的标记。文中的“标记”、“带有标记”意味着化合物至少附着了一种元素、同位素或化学物质从而能够对化合物进行检测。一般来说，用于本发明的标记包括但不限于同位素标记(可以是放射性或者重金属同位素)、磁性标记、电子标记、热敏标记、显色和发光染料、酶和磁球等。用于本发明的染料可以是生色团、磷或荧光染料，它们因为产生的信号强烈，因而可以提供良好的信噪比用于解码。测序探针还可以用量子点、荧光纳米珠或其他包含一个以上相同荧光团分子的结构。包含相同荧光团的多个分子的标记通常能提供更强的信号，对淬火的敏感性低于包含单个荧光团分子的标记。此处关于包含荧光团的标记的任何讨论应当理解为适用于包含单个或多个荧光团分子的标记。

本发明的许多实施方式中涉及使用荧光标记。适用于本发明的染料包括，但不限于荧光稀土(包括铕和铽的)配合物、荧光素、罗丹明、四甲基罗丹明、伊红、赤藓红、香豆素、甲基香豆素、芘(pyrene)、孔雀石绿(Malacitegreen)、苗类(stilbene)、萤光黄(LuciferYellow),CascadeBlue^TM、TexasRed和第6版MolecularProbesHandbookbyRichardP.Haugland中描述的其他染料,为了所有目的,特别是为了关于符合本发明的标记使用的全部教导，该文献通过引用明确全文并入本文。用于与任何核苷酸使用引入核酸的商品萤光染料包括，但不限于：Cy3，Cy5(AmershamBiosciences,Piscataway,NewJersey，USA)、荧光素、四甲基罗丹明、TexasCascadeFL-14、TR-14、RhodamineGreen^TM、Oregon488、630/650、650/665-、Alexa488、532、Alexa568、Alexa594、Alexa546(MolecularProbes,Inc.Eugene,OR,USA)、Quasar570、Quasar670、CalRed610(BioSearchTechnologies,Novato,Ca)。其他可供合成后附着的萤光团包括，Alexa350、Alexa532、Alexa546、Alexa568、Alexa594、Alexa647、BODIPY493/503、BODIPYFL、BODIPYR6G、BODIPY530/550、BODIPYTMR、BODIPY558/568、BODIPY558/568、BODIPY564/570、BODIPY576/589、BODIPY581/591、B0DIPY630/650、BODIPY650/665、CascadeBlue、CascadeYellow、Dansyl、丽斯胺罗丹明B(lissaminerhodamineB)、MarinaBlue、OregonGreen488、OregonGreen514、PacificBlue、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、TexasRed(可从MolecularProbes,Inc.,Eugene,OR,USA购买)以及Cy2、Cy3.5、Cy5.5和Cy7(AmershamBiosciences,Piscataway,NJUSA及其他)等等。某些实施方式中，包括萤光素、Cy3、TexasRed、Cy5、Quasar570、Quasar670和CalRed610的标记被用于本发明的方法中。

可以利用本领域已知的方法将标记附着到核酸上以形成本发明的标记测序探针，以及附着到核苷上的各种位置。例如，附着可以在核酸的一个或两个末端，或者在内部位置或者两种情况都有。例如，在一种实施方式中，标记可以通过酰胺或胺键附着到核糖-磷酸骨架中核糖的2’或3’位置(后一种情况用于末端标记)。还可以经由核糖-磷酸骨架中的磷酸来进行附着，或者附着到核苷酸的碱基上。标记可以附着到探针的一个或两个末端，或者沿着探针上的任何一个核苷酸上。

根据所希望的询问位点，测序探针的结构有所不同。例如，对于标记了荧光团的测序探针，每个测序探针中的一个位点将与标记探针使用的荧光团的特性呼应。一般来说，荧光团分子会被附着到测序探针中将与锚定探针连接的末端相反的一端。

文中使用的“锚定探针”意味着被设计成与衔接子的至少一部分(文中称为“锚定位点”)互补的寡核苷酸。如文中所述，衔接子可以含有与多个锚定探针杂交的多个锚定位点。正如文中进一步讨论的，用于本发明的锚定探针可以设计成与衔接子杂交，从而使锚定探针的至少一端与衔接子一个末端齐平(“上游”或“下游”或者这两者)。其他实施方式中，锚定探针可以设计成与衔接子的至少一部分(第一衔接子位点)和邻近衔接子的靶核酸中的至少一个核苷酸(“突出”)杂交。如图24所示，锚定探针2402包含与衔接子的一部分互补的序列。锚定探针2402在一个末端也包含4个简并碱基。这一简并性允许锚定探针群体的一部分与邻近衔接子的靶核酸序列完全或部分匹配，并允许锚定探针与衔接子杂交并伸进与衔接子邻近的靶核酸，而无论与衔接子邻近的靶核酸的核苷酸特性为何。锚定探针末端碱基移到靶核酸内使得待测定的碱基位点更靠近连接位点，从而保持了连接酶的忠实性。一般来说，如果探针和与其杂交的靶核酸区域完全互补，则连接酶能够更高效地连接探针，但是连接酶的忠实度随着离开连接位点的距离增加而下降。因此，为了减少和/或防止测序探针和靶核酸之间不正确配对造成的错误，保持待检测核苷酸与测序和锚定探针的连接位点之间的距离可能是有用的。通过设计使锚定探针伸进靶核酸，可以保持连接酶的忠实度，但仍然能够鉴定到更多数量的与每个衔接子连接的核苷酸。虽然图24显示的实施例是测序探针与衔接子一侧的靶核酸区域杂交，但可以理解测序探针杂交到衔接子另一侧的实施方式也涵盖在本发明中。在图24中，“N”代表简并碱基，“B”代表未测定序列的核苷酸。如可以理解的，在某些实施方式中，可以使用通用碱基而非简并碱基。

本发明的锚定探针可以包含使得锚定探针能与DNB(通常是DNB上的衔接子)杂交的任何序列。这类锚定探针可以包含这样的序列，使得当锚定探针与衔接子杂交时，锚定探针的全部长度包含在衔接子中。某些实施方式中，锚定探针可以包含与衔接子的至少一部分互补的序列，还包含能够与邻近衔接子的靶核酸区域杂交的简并碱基。某些示范性实施方式中，锚定探针是包含3个与衔接子互补的碱基和3个简并碱基的六聚体。某些示范性实施方式中，锚定探针是包含3个与衔接子互补的碱基和5个简并碱基的8聚体。其他实施方式中，特别是使用了多种锚定探针时，第一锚定探针在一端包含多个与衔接子互补的碱基，另一端包含简并碱基，而第二锚定探针包含的全部是简并碱基，被设计成与第一锚定探针的包含简并碱基的一端相连接。可以理解，这些是示范性的实施方式，已知和简并碱基的多种组合可以用于产生适合本发明使用的锚定探针。

本发明提供了鉴定DNB序列的连接法测序方法。某些方面中，本发明的连接法测序方法包括提供不同组合的锚定探针和测序探针，这两种探针当杂交到DNB上相邻区域时，可以连接形成探针连接产物。然后检测探针连接产物，可以提供靶核酸中的一或多个核苷酸的特性。文中使用的“连接”是指将两个或多个核苷酸相互连在一起的任何方法。连接可以包括化学和酶法连接。一般来说，文中讨论的连接法测序方法利用连接酶进行酶法连接。本发明中使用的这类连接酶可以和以上讨论的用于形成核酸模板的连接酶相同或不同。这类连接酶包括但不限于DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV、大肠杆菌DNA连接酶、T4DNA连接酶、T4RNA连接酶1、T4RNA连接酶2、T7连接酶、T3DNA连接酶和热稳定连接酶(包括但不限于Taq连接酶)等。正如以上讨论的，连接法测序方法经常依赖连接酶的忠实度，只将和与它们杂交的核酸完全互补的探针连接起来。这一忠实度随着探针中特定位点上的碱基和两个探针之间的连接点之间的距离的增加而下降。因此，常规的连接法测序方法只能鉴定到有限数量的碱基。正如文中进一步描述的，本发明采用多个探针集合来增加可以鉴定的碱基数量。

多种杂交条件可以用于连接法测序方法和文中讨论的其他测序方法。这些条件包括高、中等和低严紧度条件，参见通过引用并入本文的例如Maniatisetal.,MolecularCloning：ALaboratoryManual,2dEdition,1989,和ShortProtocolsinMolecularBiology,ed.Ausubel,etal。严紧条件是序列依赖性的，并且在不同情形中是不同的。较长的序列在较高温度特异杂交。关于核酸杂交的较全面指南可见于Tijssen,TechniquesinBiochemistryandMolecularBiology—HybridizationwithNucleicAcidProbes，"Overviewofprinciplesofhybridizationandthestrategyofnucleicacidassays,"(1993)。通常，严紧条件选择处于比特异序列在限定离子强度和pH的熔点(Tm)低大约5-10℃的温度下。Tm是在平衡条件下与靶互补的探针有50％与靶序列杂交时的温度(限定离子强度、PH和核酸浓度下)(因为在Tm，存在着过量的靶序列，所以50％的探针在平衡时被占据)。严紧条件可以是这样一些条件，其中盐浓度低于大约1.0M钠离子，一般是大约0.01到1.0M钠离子浓度(或其他盐)，pH7.0到8.3，温度对于短的探针(例如，10到50个核苷酸)是至少大约30℃，对于长探针(例如，超过50个核苷酸)是至少大约60℃。严紧条件还可以通过加入诸如甲酰胺之类的螺旋去稳定剂来达到。如本领域已知的，当使用非离子型骨架，即PNA时，杂交条件也可能发生变化。此外，可以在靶结合后，加入交联剂来将杂交复合体的两条链交联，即共价附着。

虽然关于测序方法的许多描述是就本发明的核酸模板而言的，但可以理解，正如本文描述的，这些测序方法也涵盖了鉴定由这些核酸模板产生的DNB的序列。

对于本领域已知的和文中描述的利用本发明的核酸模板进行的任何测序方法，本发明提供了确定靶核酸中至少大约10到大约200个碱基的方法。在其他实施方式中，本发明提供了确定靶核酸中至少约20到约180、约30到约160、约40到约140、约50到约120、约60到约100和约70到约80个碱基的方法。还有一些实施方式中，测序方法被用于鉴定邻近本发明所述核酸模板中的每个衔接子的一端或两端的至少5、10、15、20、25、30或更多碱基。

本文描述的和本领域已知的任何测序方法都可以应用到处于溶液中的本发明的核酸模板和/或DNB，或者设置在表面和/或阵列中的核酸模板和/或DNB。

VIIIB(i).单一cPAL

一方面，本发明提供了通过利用测序探针和锚定探针的组合来鉴定DNB的序列的方法，其中所述测序和锚定探针杂交到DNB的相邻区域，并通常通过使用连接酶连接在一起。这种方法文中一般称为cPAL(复合探针-锚定子连接)法。一方面，本发明的cPAL法产生包含单一锚定探针和单一测序探针的探针连接产物。这种只使用单一锚定探针的cPAL方法在文中称为“单一cPAL”。

图23显示了单一cPAL的一种实施方式。DNB的单体单元2301包含靶核酸2309和衔接子2308。锚定探针2302与衔接子2308上的互补区域杂交。在图23显示的实例中，锚定探针2302与直接邻近靶核酸2309的衔接子区域杂交，但如文中进一步讨论的，也可以通过在锚定探针末端引入需要数量的简并碱基，将锚定探针设计成可以伸进邻近衔接子的靶核酸内。区别标记的测序探针集合2306将与靶核酸中的互补区域杂交。邻近锚定探针2302，与靶核酸2309的区域杂交的测序探针2310将与锚定探针连接形成探针连接产物。当探针中询问位点的碱基与靶核酸的检测位点中的未知碱基互补时，杂交和连接的效率增加。这一增加的效率有利于完全互补的(而不是含有错配的)测序探针和锚定探针连接。如上文讨论过的，连接通常是利用连接酶经酶促实现的，但也可以使用适合本发明的其他连接方法。图23中，“N”代表简并碱基，“B”代表未确定序列的核苷酸。可以理解，某些实施方式中，可以使用通用碱基代替简并碱基。

正如上文还讨论过的，测序探针可以是代表特定位点上各种碱基类型并标记有可检测标记的寡核苷酸，其中所述可检测标记可以将每种测序探针与在该位置上带有其他核苷酸的测序探针区分开。因此，在图23显示的实例中，邻近锚定探针2302杂交并被连接到该锚定探针上的测序探针2310会鉴定出靶核酸中离衔接子5个碱基的位点上的碱基是“G”。可以利用多个循环的锚定探针和测序探针杂交和连接来鉴定出DNB中每个衔接子每侧的靶核酸中希望数量的碱基。

可以理解，文中描述的任何cPAL方法中的锚定探针和测序探针的杂交可以是顺序进行的或同时进行的。

在图23显示的实施方式中，测序探针2310杂交到衔接子“上游”区域，但可以理解，所述测序探针也可以与衔接子“下游”杂交。术语“上游”和“下游”是指在衔接子5’和3’方向的区域，具体取决于系统的方向。一般来说，“上游”和“下游”是相对术语，不是限制性的；使用它们只是为了便于理解。如图6所示，测序探针607可以杂交到衔接子604下游，从而鉴定出距离衔接子和靶核酸603之间的交界处4个碱基的核苷酸。其他实施方式中，测序探针可以与衔接子上游和下游都杂交来鉴定衔接子两侧的核酸位点上的核苷酸。这些实施方式允许单一cPAL方法中，对于每个杂交-连接-检测循环，由每个衔接子产生多个信息点。

某些实施方式中，用于单一cPAL方法的探针可以含有对应衔接子的大约3到大约20个碱基，以及大约1到大约20个简并碱基(即，在锚定探针集合中)。这些锚定探针还可以包含通用碱基，以及简并碱基和通用碱基的组合。

某些实施方式中，含有简并碱基的锚定探针，为了增加简并碱基完全匹配杂交的稳定性，可以与衔接子序列有大约1-5个错配。这样的设计提供了另一种方式来控制连接在一起的锚定和测序探针的稳定性，以便有利于那些与靶(未知)序列完全匹配的探针。其他实施方式中，锚定探针中简并碱基部分的多个碱基可以用脱碱基位点(即糖上没有碱基的位点)或其他核苷酸类似物代替来影响杂交探针的稳定性，从而有利于锚定探针简并部分的远端(如文中所述将参与和测序探针的连接反应)形成完全匹配杂交体。可以在内部的碱基，特别是在包含大量(即5个以上)简并碱基的锚定探针的内部碱基引入这类修饰。此外，如下文进一步描述的，锚定探针远端的某些简并或通用碱基可以设计成杂交后可以切割(例如通过引入尿嘧啶)从而为测序探针或第二锚定探针产生连接位点。

其他实施方式中，可以通过操纵反应条件，例如杂交的严紧度来控制锚定探针的杂交。在示范性实施方式中，锚定杂交过程可以从高严紧度(较高的温度、较低盐浓度、较高pH、较高甲酰胺浓度等)条件开始，这些条件可以逐渐或逐步放松。这可能需要连续的杂交循环，其中不同锚定探针集合被移开，然后加入随后的循环中。这样的方法提供了更高百分比的被完全互补的锚定探针(特别是在将与测序探针连接的远端位点完全互补的锚定探针)占据的靶核酸。还可以控制各严紧度条件下的杂交时间来获得更多数量的完全匹配杂交体。

VIIB(ii).双重cPAL(以及后续处理)

在又一些实施方式中，本发明提供了每个杂交-连接循环中使用两种连接在一起的锚定探针的cPAL方法。参见例如美国专利申请第60/992,485号、61/026,337号、61/035,914号和61/061,134号，这些文献通过引用全文，特别是实施例和权利要求并入本文。图25显示了“双重cPAL”方法的一个实例，其中第一锚定探针2502和第二锚定探针2505杂交至衔接子的互补区域；即第一锚定探针与第一锚定位点杂交，第二锚定探针与第二锚定位点杂交。在图25显示的实例中，第一锚定探针2502与衔接子2511的一个区域(第一锚定位点)完全互补，第二锚定探针2505与邻近第一锚定探针杂交位点的衔接子区域(第二锚定位点)互补。一般说来，第一和第二锚定位点是相邻的。

第二锚定探针可任选在不与第一锚定探针相邻的那个末端也包含简并碱基，因此它将与靶核酸2512中邻近衔接子2511的区域杂交。这使得能够获得离衔接子/靶交界处更远的靶核酸碱基的序列信息。同样，如文中概括的那样，说到探针含有“简并碱基”时，意味着该探针实际上包含成组的探针，具有在简并位点所有可能序列的组合。例如，如果锚定探针长度为9个碱基，有6个已知碱基和3个简并碱基，则锚定探针实际上是64个探针的集合。

第二锚定探针通常太短，不能单独维持在双链体杂交状态，但是在与第一锚定探针连接后，就形成较长的在随后的方法中稳定的锚定探针。某些实施方式中，第二锚定探针含有与衔接子互补的大约1到大约5个碱基和大约5到大约10个简并序列的碱基。正如以上“单一cPAL”方法中讨论过的，代表靶核酸检测位点的每个碱基类型并标记了可检测标记(其能将每个测序探针与在该位点带有其他核苷酸的测序探针区分开)的测序探针集合2508与衔接子-锚定探针双链体杂交2509，并连接到相连的锚定探针的末端5’或3’碱基上。在图25所示的实例中，测序探针被设计成询问距离测序探针2514和相连的锚定探针2513之间的连接点5’方向5个位点的碱基。因为第二锚定探针2505在其5’端有5个简并碱基，它向靶核酸2512伸进5个碱基，允许测序探针在距离靶核酸2512和衔接子2511之间的交界处整整10个碱基的地方进行询问。图25中“N”代表简并碱基，“B”代表未确定序列的核苷酸。可以理解，某些实施方式中，可以使用通用碱基代替简并碱基。

在某些实施方式中，第二锚定探针可能含有与衔接子对应的大约5-10个碱基和与靶核酸对应的一般是简并碱基的大约5-15个碱基。该第二锚定探针可能首先在最佳条件下进行杂交，从而有利于高百分比的靶在两种锚定探针之间的连接点周围的少数碱基上被完全匹配地占据的。第一衔接子探针和/或测序探针可以在单一步骤中或顺序地杂交并连接至第二锚定探针。某些实施方式中，第一和第二锚定探针可以在它们的连接点有大约5到大约50个不与衔接子互补的互补碱基，因此形成“分支”杂交体。这种设计允许杂交的第二锚定探针的衔接子特异性稳定。某些实施方式中，第二锚定探针在与第一锚定探针杂交前先连接到测序探针上；某些实施方式中，第二锚定探针在与测序探针杂交前，先连接到第一锚定探针上；某些实施方式中，第一和第二锚定探针以及测序探针同时杂交，第一和第二锚定探针之间以及第二锚定探针和测序探针之间同时或基本同时发生连接，而在其他实施方式中，第一和第二锚定探针之间的以及第二锚定探针和测序探针之间的连接以任何顺序依次发生。可以利用严紧清洗条件来除去未发生连接的探针(例如，温度、pH、盐、含有最佳浓度的甲酰胺的缓冲液都可以使用，其中的最佳条件和/或浓度利用本领域已知方法确定)。这种方法在使用带有大量简并碱基的第二锚定探针的方法中尤其有用，其中所述简并碱基在锚定探针和靶核酸之间的相应交接点以外杂交。

一些实施方式中，双重cPAL方法利用两个锚定探针的连接，其中一个锚定探针与衔接子完全互补，第二个锚定探针全部是简并碱基(同样，实际上是探针集合)。图26显示了这类双重cPAL方法的一个实例，其中第一锚定探针2602与DNB2601的衔接子2611杂交。第二锚定探针2605全部是简并的，因此能够与邻近衔接子2611的靶核酸区域中的未知核苷酸杂交。第二锚定探针被设计成短得无法单独维持在双链体杂交状态，但在与第一锚定探针连接后形成的较长的相连的锚定探针构建体就提供cPAL过程中后续步骤需要的稳定性。完全简并的第二锚定探针在某些实施方式中可以长大约5到大约20个碱基。为了较长的长度(即，10个碱基以上)，可以对杂交和连接条件进行改动以降低简并锚定探针的有效Tm。较短的第二锚定探针通常会与靶核酸和衔接子非特异性地结合，但它的较短长度影响杂交动力学特性，因此一般来说只有那些与邻近衔接子和第一锚定探针的区域完全互补的第二锚定探针有使连接酶将第一和第二锚定探针连在一起的稳定性，从而产生较长的相连的锚定探针构建体。非特异杂交的第二锚定探针没有保持与DNB杂交足够长的时间以便随后与任何相邻杂交的测序探针发生连接的稳定性。某些实施方式中，第二和第一锚定探针连接后，通常通过清洗步骤除去任何没有连接的锚定探针。图26中，“N”代表简并碱基，“B”代表未确定序列的核苷酸。可以理解，在某些实施方式中，可以使用通用碱基代替简并碱基。

其他示范性实施方式中，第一锚定探针是包含3个与衔接子互补的碱基和3个简并碱基的六聚体，而第二锚定探针仅包含简并碱基，并且第一和第二锚定探针被设计成使得只有第一锚定探针带有简并碱基的末端能够与第二锚定探针连接。其他示范性实施方式中，第一锚定探针是包含3个与衔接子互补的碱基和5个简并碱基的8聚体，同样第一和第二锚定探针被设计成使得只有第一锚定探针的带有简并碱基的末端能够与第二锚定探针连接。可以理解，这些是示范性实施方式，已知的碱基和简并碱基的许多种组合可以用在第一和第二(某些实施方式中，第三和/或第四)锚定探针的设计中。

在上述双重cPAL方法的实例的变型中，如果第一锚定探针端接在更靠近衔接子的末端处，则第二锚定探针将成比例地更多地简并的，因此更有可能不仅与第一锚定探针末端连接，还会与DNB上多个位点的其他第二锚定探针连接。为了防止这类连接假象，可以选择性地活化第二锚定探针使它限于与第一锚定探针或测序探针的连接。这类活化包括选择性地修饰锚定探针的末端，使它们只能以相对衔接子的特定方向与特定锚定探针或测序探针连接。例如，可以给第二锚定探针引入5’和3’磷酸基团，这样被修饰的第二锚定探针能够与杂交到衔接子上的第一锚定探针的3’端连接，但两个第二锚定探针不能相互连接(因为3’末端被磷酸化，将阻止酶促连接)。一旦第一和第二锚定探针连在一起来，可以通过除去3’磷酸基团(例如用T4多核苷酸激酶或者诸如虾碱性磷酸酶和小牛肠磷酸酶之类的磷酸酶)来活化第二锚定探针的3’端。

如果希望连接发生在第二锚定探针的3’端和第一锚定探针的5’端之间，则可以设计和/或修饰第一锚定探针使其5’端被磷酸化，以及可以设计和/或修饰第二锚定探针使其不带有5’或3’磷酸。同样，第二锚定探针将能够与第一锚定探针连接，但不能与其他第二锚定探针连接。第一和第二锚定探针连接之后，可以在第二锚定探针的自由末端上产生5’磷酸基团(例如，通过使用T4多核苷酸激酶)使它可用于在cPAL过程的随后步骤中与测序探针连接。

某些实施方式中，两种锚定探针被同时加到DNB。某些实施方式中，两种锚定探针是顺序加给DNB，允许一种锚定探针在另一种之前与DNB杂交。某些实施方式中，在第二衔接子与测序探针连接之前，两种锚定探针先相互连接。某些实施方式中，锚定探针和测序探针在一个步骤中连接。两种锚定探针和测序探针是在一个步骤中连接的实施方式中，可以将第二衔接子设计成有足够的稳定性维持其位置，直至三种探针(两种锚定探针和测序探针)就位进行连接。例如，可以使用包含5个与衔接子互补的碱基和5个用于与邻近衔接子的靶核酸区域杂交的简并碱基的第二锚定探针。这样的第二锚定探针可能有足够的稳定性在低严紧洗涤时维持，因此在第二锚定探针杂交和测序探针杂交步骤之间不需要连接步骤。在随后的测序探针与第二锚定探针的连接步骤中，第二锚定探针也将连接到第一锚定探针上，产生的双链体稳定性高于单独的任何一种锚定探针或测序探针。

与以上描述的双重cPAL方法类似，可以理解，有三种或更多种锚定探针的cPAL也涵盖在本发明中。这些锚定探针可以按照本文描述的和本领域已知的方法设计成与衔接子区域杂交，使得一种锚定探针的一个末端可以与邻近末端锚定探针杂交的测序探针连接。在示范性实施方式中，提供了三种锚定探针-两种与衔接子内的不同序列互补，第三种包含简并碱基以与靶核酸内的序列杂交。其他实施方式中，与衔接子内的序列互补的两种锚定探针之一其末端还可以包含一或多个简并碱基，以便该锚定探针伸进靶核酸内与第三锚定探针连接。在其他实施方式中，锚定探针中的一种可能与衔接子完全或部分互补，第二和第三锚定探针完全是简并的以与靶核酸杂交。其他实施方式中，四个或更多个完全简并的锚定探针可以与三个相连的锚定探针顺序连接，从而使读取进一步延伸进靶核酸序列内。在示范性实施方式中，包含与衔接子互补的12个碱基的第一锚定探针可以与第二六聚体锚定探针连接，所述六聚体锚定探针中的6个碱基全部是简并的。同样是完全简并的六聚体的第三锚定也可以与第二锚定探针连接，并进一步伸进靶核酸未知序列内。还可以加入第四、第五、第六等锚定探针以便进一步延伸进未知序列内。在又一些实施方式中，根据本文描述的任何cPAL方法，一种或多种锚定探针可以包含一种或多种标记，所述标记用于给锚定探针做“标签”和/或用于鉴定DNB的衔接子上杂交的特定锚定探针。

VIIIB(iii).检测荧光标记的测序探针

正如以上讨论的，可以用各种标记将用于本发明的测序探针可检测地标记。虽然以下描述主要是针对测序探针以荧光团标记的实施方式，但可以理解，使用了包含其他类型标记的测序探针的类似实施方式也涵盖在本发明中。

多个循环的cPAL(无论是单一、双重、三重等)将鉴定到邻近衔接子的靶核酸区域内的多个碱基。简单来说，通过循环进行锚定探针杂交和酶促连接反应，并从衔接子和靶核酸的交界处移走测序探针集合(其设计用于检测不同位点的核苷酸)来重复进行cPAL方法以便询问靶核酸内的多个碱基。在任何给定循环中，使用的测序探针被设计成一或多个位点上的一或多个碱基的特性与附着在该测序探针上的标记的特性呼应。一旦对已连接的测序探针(以及因此询问位点的碱基)进行检测，连接复合体即被从DNB剥离，执行新一轮的衔接子和测序探针杂交和连接。

一般来说，通常使用四个荧光团来鉴定测序探针内询问位点上的碱基，每个杂交-连接-检测循环查询单个碱基。但是，可以理解，使用8、16、20和24或更多种荧光团的实施方式也涵盖在本发明内。增加荧光团的数量将增加任意一个循环中可以鉴定的碱基的数量。

一个示范性实施方式中，采用了具有以下结构的一组7聚体测序探针集合：

3’-Fl-NNNNNNAp

3’-F2-NNNNNNGp

3’-F3-NNNNNNCp

3’-F4-NNNNNNTp

其中，“p”代表可用于连接的磷酸，“N”代表简并碱基。F1-F4代表四种不同的荧光团-因此每种荧光团与特定的碱基相关联。这组示范性探针在测序探针与杂交到衔接子的锚定探针连接后，能够检测出紧邻衔接子的碱基。就用于连接测序探针和锚定探针的连接酶区别探针询问位点的碱基和靶核酸检测位点的碱基之间的互补性而言，测序探针杂交和连接时将检测到的荧光信号提供了靶核酸检测位点的碱基特性。

某些实施方式中，一组测序探针将包含三种区别标记的测序探针，留下第四种任选的测序探针未标记。

进行杂交-连接-检测循环后，将锚定探针-测序探针连接产物剥离，开始新的循环。某些实施方式中，可以获取距离锚定探针和测序探针之间的连接点6个或更多个碱基，以及距离靶核酸和衔接子之间的交界处12个或更多个碱基的准确序列信息。利用本文描述的方法，包括使用带有简并末端的能够进一步伸进靶核酸内的锚定探针，可以增加能够被鉴定的碱基数量。

可以利用本领域已知的方法，包括利用诸如Metamorph(MolecularDevices,Sunnyvale,CA)之类的商品成像软件包来进行图像获取。数据提取可以通过一系列以例如C/C++写入的二进制文件进行，碱基-测定和读取-映射可以通过一系列Matlab和Perlscript进行。

在示范性实施方式中，排列在表面上的DNB如文中所述经历一轮cPAL，其中使用的测序探针标记了四种不同荧光团(每种对应探针内询问位点上的特定碱基)。为了确定表面上排列的每个DNB的碱基的特性，每个视野(“相框”)用对应四种荧光标记的测序探针的四个不同的波长成像。每个循环得到的所有图像存储在循环目录中，其中图像的数量是相框的四倍(使用四种荧光团时)。然后可以将循环图像数据存储到为下游加工组织的目录结构中。

某些实施方式中，数据提取依赖于两种类型的图像数据：区分表面上的所有DNB的位置的亮视野图像(bright-fieldimages)，和每个测序循环中获取的多组荧光图像。可以利用数据提取软件以亮视野图像识别出所有对象，然后对于每个这种对象，能利用软件计算每个测序循环的平均荧光值。对于任意给定循环，共有四个数据点，它们对应不同波长下摄取的四个图像来查询该碱基是否A、G、C或T。将这些原始数据点(文中又称为“碱基测定”(“basecall”))进行整理，给每个DNB产生不连续测序结果。

然后可以将鉴定到的碱基群组装以提供靶核酸的序列信息和/或鉴定靶核酸中是否存在某特定序列。某些实施方式中，通过由多个DNB上进行的多个测序循环获得的重叠序列的比对，将鉴定到的碱基组装成完整序列。名词“完整序列”用于本文是指部分或整个基因组的序列以及部分或整个靶核酸的序列。在其他实施方式中，组装方法利用了可以将重叠序列“拼接”以提供完整序列的算法。又一些实施方式中，利用参照表来协助将鉴定到的序列组装成完整序列。可以利用所选生物体的已有测序数据汇总成参照表。例如，人基因组数据可以从NationalCenterforBiotechnologyInformation(ftp,ncb1.nih.gov/refseq/release),或者J.CraigVenterInstitute(http://www.1cv1.org/researchhuref/)获取。可以利用全部人基因组信息或其子集来制作用于特定测序查询的参照表。此外，可以由来源于特定群体的经验数据构建特定参照表，包括来自特定种族、地理传承、宗教或文化限定的人群体的基因序列，因为人基因组内的差异可能歪曲这些数据，具体取决于参照数据中含有的信息的来源。

本文讨论的任何发明的实施方式中，核酸模板和/或DNB群可以包含许多靶核酸从而基本覆盖整个基因组或整个靶多核苷酸。“基本覆盖”用于本文意味着被分析的核苷酸(即靶序列)的数量至少等同于两个拷贝的靶多核苷酸；或者在另一方面中，至少十个拷贝；或者在另一方面中，至少二十个拷贝；或者在另一方面中，至少100个拷贝。靶多核苷酸可以包括DNA片段(包括基因组DNA片段和cDNA片段)和RNA片段。可以在以下通过引用并入本文的文献中找到关于重构靶多核苷酸序列的步骤的指南：Landeretal,Genomics,2:231-239(1988)；Vingronetal,J.Mol.Biol.，235:1-12(1994)及类似的参考文献。

VIIB(iv).探针组

正如可以理解的，可以根据以上描述的各种cPAL方法，使用测序探针和锚定探针的不同组合。以下关于本发明中使用的探针组(文中还称为“探针集合”)的描述是示范性的实施方式，可以理解本发明并不局限于这些组合。

一方面，探针组被设计成鉴定离衔接子特定距离的位点上的核苷酸。例如，一些探针组可以用于鉴定离衔接子最多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30和更多个位点的碱基。正如以上讨论过的，一端带有简并碱基的锚定探针可以设计成伸进与衔接子相邻的靶核酸内，允许测序探针连接到离衔接子更远的位置，从而提供离衔接子更远的碱基的特性。

在示范性实施方式中，一组探针包含至少两种被设计成与衔接子的邻近区域杂交的锚定探针。一种实施方式中，第一锚定探针与衔接子区域完全互补，而第二锚定探针与衔接子的邻近区域互补。某些实施方式中，第二锚定探针会包含一个或多个简并核苷酸，这些碱基伸进与衔接子相邻的靶核酸内，并与其核苷酸杂交。在示范性实施方式中，第二锚定探针包含至少1-10个简并碱基。其他示范性实施方式中，第二锚定探针包含2-9、3-8、4-7和5-6个简并碱基。又一些示范性实施方式中，第二锚定探针的一端或两端和/或其序列内部区域包含一个或多个简并碱基。

其他实施方式中，一组探针还可以包含一或多个测序探针群，用于确定靶核酸内一或多个检测位点上的碱基。在一种实施方式中。所述探针组包含足够的不同测序探针群，能够鉴定祀核酸内的大约1到大约20个位点。其他示范性实施方式中，所述探针组包含足够的测序探针群，能够鉴定靶核酸内的大约2到大约18、大约3到大约16、大约4到大约14、大约5到大约12、大约6到大约10和大约7到大约8个位点。

其他示范性实施方式中，按照本发明使用了10个标记了的或带标签的探针集合。又一些实施方式中，探针组会包含两种或更多种序列不同的锚定探针。还有一些实施方式中，探针组包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多种序列不同的锚定探针。

其他示范性实施方式中，提供的一组探针包含一或多个测序探针群和三种锚定探针。第一锚定探针与衔接子的第一区域互补，第二锚定探针与衔接子的第二区域互补，并且第一和第二区域是相邻的。第三锚定探针包含三个或更多个简并核苷酸，能够与邻近衔接子的靶核酸内的核苷酸杂交。第三锚定探针在某些实施方式中还可以与第三衔接子区域互补，所述第三区域可以与第二区域相邻，从而第二锚定探针侧接着第一和第三锚定探针。

某些实施方式中，锚定和/或测序探针组会包含不同浓度的每种探针，并且该可变浓度部分取决于锚定探针中可能含有的简并碱基。例如，具有较低杂交稳定性的探针，例如有较多A和/或T的探针，其浓度可以相对较高从而弥补它们的较低稳定性。在其他实施方式中，相对浓度的差别是通过独立制备小的探针集合，然后将这些独立制备的探针集合以合适的量混合来实现的。

VIIIB(v).提高连接反应的特异性和忠实度

一些方面,将本发明的cPAL方法中使用的连接反应改良成包括用于提高连接相邻杂交于靶核酸的两个核酸的忠实度。在一些实施方式中，这种方法包括添加一般通过优先结合双链核酸(“双链结合基团”)优选地增加双链核酸稳定性的物质。在一些实施方式中，将嵌入剂用于并添加于连接反应混合物。本文使用的“嵌剂”或“嵌入剂”(“Intercalatingagent”or“intercalator”)是指能够在核酸二倍体中的相邻碱基对之间插入的物质，例如，那些相对于单链核酸优先结合双链核酸的物质。类似地，本领域技术人员应当理解，还可使用小沟和大沟结合基团。

在具体方面，嵌入剂包括但不限于溴化乙锭、二氢乙锭、乙锭均二聚体-1、乙锭均二聚体-2、吖啶、碘化丙啶、YOYO-1或TOTO-1,原黄素,正定霉素,阿霉素,POPO-1,POPO-3,BOBO-1,BOBO-3,Psoralen,放线菌素D,SYBRGreen或萨力多胺，并且可为荧光或非荧光的。在非常具体方面，嵌入剂为溴化乙锭。优选的用于本发明的溴化乙锭的范围包括0.1ng/μl至约20.0ng/μl，更优选地，约2.5ng/μl至约15.0ng/μl，更优选地，约5.0ng/μl至约10.0ng/μl。

在另一实施方式中，本发明提供用于确定位于靶核酸中的位点的碱基的特性的方法，包括：提供包含靶核酸和至少一个衔接子的文库构建体，其中，所述靶核酸具有待询问的位点；将锚定探针杂交至文库构建体中的衔接子；将测序探针的集合杂交至靶核酸；在存在诸如嵌入剂之类的双链结合基团的条件下，连接测序探针与锚定探针，其中，与靶核酸互补的测序探针可有效连接至锚定探针；以及确定哪些测序探针连接至锚定探针，从而确定靶核酸的序列。在具体方面，在确定序列之前丢弃未连接的测序探针。在优选方面，重复这些步骤直至期望数量的碱基被确定。

在又一实施方式中，本发明提供用于合成核酸文库构建体的方法，包括：获得靶核酸；连接第一衔接子与靶核酸以生成第一文库构建体，其中，所述第一衔接子包括使酶在衔接子中结合但在靶核酸中进行酶切的限制性内切酶识别位点；扩增第一文库构建体；环化第一文库构建体；用识别第一衔接子中的限制性内切酶识别位点的限制性内切酶消化文库构建体；以及连接第二衔接子与文库构建体以生成第二文库构建体，其中，这些步骤中的一个或一个以上在反应混合物中包含嵌入剂。在具体方面，可重复这些步骤直至将期望数目的散布的衔接子连接至靶核酸。

在另一实施方式中，本发明提供用于提高组合的聚合酶反应和连接反应的选择性，包括：将核酸杂交至引物；通过用聚合酶延伸引物对上述杂交的核酸进行延伸反应以生成引物延伸产物，以及连接延伸的引物产物的一端与双链核酸，其中，延伸反应和连接反应在存在嵌入剂的条件下进行。在具体方面，与引物延伸产物连接的双链核酸为衍生的引物产物的相对末端。其它方面，将引物延伸产物连接至分离的核酸。在一个具体方面，所述分离的核酸为衔接子。这种方法可用于制备如上所述的核酸文库。

如本文进一步详细讨论的，在一些实施方式中，使阵列化的靶标与锚定探针杂交，然后洗涤并丢弃多余的锚定子(anchor)。然后用T4DNA连接酶和在3’或5’端标记的9聚体荧光测序探针的混合物杂交阵列。在存在T4连接酶的条件下，9聚体测序探针参与锚定寡核苷酸的连接，由此形成稳定的杂交体且荧光团与锚定探针以及靶核酸以序列特异的方式结合。任选地包括在这种连接反应中的有双链结合基团，例如溴化乙锭，其可以不同浓度存在，包括约1ng/ul至10ng/ul。可替换的嵌入剂包括但不限于二氢乙锭、乙锭均二聚体-1、乙锭均二聚体-2、吖啶、碘化丙啶、YOYO-1或TOTO-1,原黄素,正定霉素,阿霉素和萨力多胺。

信号强度受反应中存在的嵌入剂的浓度影响。例如，在连接反应中将溴化乙锭的浓度从1ng/ul增加至10ng/ul，可使全部4种荧光探针的整体信号强度降低。信号强度的降低可反映出溴化乙锭对二倍体DNA稳定性的破坏作用，且可说明增加的颜色纯度的作用机理。与将错配添加至稳定的二倍体相比，当将稳定性破坏作用施加于所述二倍体时，错配的添加可导致更大的稳定性破坏作用。降低的信号强度本身不是有害的，且可由适当的检测仪器灵敏度补偿。

VIIIB(vi).其他测序方法

一方面，本发明的方法和组合物与例如WO2007120208、WO2006073504、WO2007133831和US2007099208以及美国专利申请第60/992,485号、61/026,337号、61/035,914号、61/061,134号、61/116,193号、61/102,586号、12/265,593号、12/266,385号、11/938,096号、11/981,804号、11/981,797号、11/981,793号、11/981,767号、11/981,761号、11/981,730号、11/981,685号、11/981,661号、11/981,607号、11/981,605号、11/927,388号、11/927,356号、11/679,124号、11/541,225号、10/547,214号、11/451,692号和11/451,691号中描述的技术组合使用，为了所有目的，特别是为了与测序，尤其是与多联体的测序有关的全部教导，上述文献通过引用全文并入本文。

另一方面，鉴定DNB的序列使用了本领域已知的方法，包括但不限于基于杂交的方法，例如Drmanac，美国专利第6,864,052号、6,309,824号和6,401,267号；以及Drmanac等的美国专利公开2005/0191656；和合成法测序方法，例如Nyren等的美国专利6,210,891；Ronaghi的美国专利6,828,100；Ronaghi等(1998)，Science,281:363-365；Balasubramanian,美国专利6,833,246；Quake,美国专利6,911,345；Lietal,Proc.Natl.Acad.Sci.，100:414-419(2003)；Smithetal,PCT公开WO2006/074351；以及基于连接的方法，例如Shendureetal(2005)，Science，309:1728-1739、Macevicz，美国专利6,306,597，其中为了所有目的，特别是为了涉及描述(尤其是与测序有关的)组合物、组合物使用方法和组合物制备方法的图、图标和附带文字的教导，这些文献分别通过引用全文并入本文。

某些实施方式中，本发明的核酸模板以及由这些模板产生的DNB被用于合成法测序方法中。与常规合成法测序方法相比，利用本发明的核酸模板进行的合成法测序方法的效率提高，常规合成法测序方法使用的核酸不包含多个散在分布的衔接子。本发明的核酸模板允许从模板中的各个衔接子开始进行多个较短测定，而不是单个的长测定。这种短测定使用较少的标记dNTPs，因此能够节约试剂费用。此外，可以在DNB阵列上进行合成法测序反应，所述阵列提供高密度的测序靶和多拷贝的单体单元。这种阵列提供单分子水平的可检测信号，同时提供的序列信息量增加，因为多数或全部DNB单体单元在不影响测序进程的情况下被延伸。阵列的高密度还可以降低试剂费用-相比于常规合成法测序方法，在某些实施方式中试剂费用减少大约30到大约40％。某些实施方式中，本发明核酸模板中散在分布的衔接子如果相互间隔大约30到大约100个碱基来插入，可以提供一种方式以合并大约两个到大约十个标准测定值。这样的实施方式中，后续测序循环不需要剥离新合成的链，从而允许使用单个DNB阵列进行大约100到大约400次合成测序循环。

在本发明的一些实施方式中，将开链cPAL测序方法扩展成包括两个或两个以上通过测序探针进行的连接事件。例如，在检测到连接至含有一个或一个以上锚定探针的构建体的含有第一测序探针的第一连接产物之后，可将第二测序探针杂交至位于邻近第一连接产物的位点的核酸靶标并将其连接至第一测序探针。然后可检测第二测序探针。应当理解的是，多个测序探针可进行这种杂交-连接循环。随后，可从靶标中除去得到的连接产物，且可进行如本文所述的另一轮cPAL测序。在这种实施方式中，开链cPAL测序方法与使用一个或一个以上其他测序探针的链式方法部分结合。应当理解的是，可使用本领域已知的方法检测每一新的测序探针。例如，如果测序探针用荧光团标记，则自检测到每一连接的测序探针之后，可切割结合的荧光团，使加至“链”的第二测序探针能被检测而不受第一测序探针上的标记干扰。

VIIIC.两阶段测序

本发明一方面提供了“两阶段”测序方法，文中又称为“鸟枪法测序”。这种方法在2008年12月1日提交的美国专利申请No.12/325,922中有描述，为了所有目的，特别是为了与两阶段或鸟枪测序有关的全部教导，该文献全文通过引用并入本文。

通常，用于本发明的两阶段-测序法包括以下步骤：(a)测定靶核酸序列，产生包含一或多个目标序列的初级靶核酸序列；(b)合成多个靶特异的寡核苷酸，其中所述多个靶特异的寡核苷酸中的每个对应至少一个目标序列；(c)提供与多个靶特异的寡核苷酸杂交的靶核酸片段的文库(或者包含这种片段并可以进一步包含例如文中描述的衔接子和其他序列的构建体)；以及(d)测定片段的文库(或包含这种片段的构建体)的序列，以产生次级靶核酸序列。为了填补丢失序列造成的缺口或者解决基因组DNA(例如人基因组DNA)初级序列中低可信度的碱基测定，合成用于这些方法的靶特异的寡核苷酸数量可以在大约1万到大约1百万，因此本发明考虑了使用至少大约10,000个靶特异的寡核苷酸，或者大约25,000、或大约50,000、或大约100,000、或大约20,000、或大约50,000、或大约100,000、或大约200,000或更多个靶特异的寡核苷酸。

说到多个靶特异的寡核苷酸“对应”至少一个目标序列，意味着这种靶特异的寡核苷酸被设计成与接近，包括但不限于邻接目标序列的靶核酸杂交，这样很大的可能性是，与该寡核苷酸杂交的靶核酸片段将包含目标序列。因此所述靶特异的寡核苷酸可以用于杂交体捕获方法来产生富集了目标序列的片段库，作为给目标序列测序的测序引物，作为扩增目标序列的扩增引物或用于其他目的。

在根据本发明所述的鸟枪法测序和其他测序方法中，组装测定后，本领域技术人员容易理解，组装好的序列中存在缺口，或者序列特定位点上的一或多个碱基或一串碱基可信度较低。通过将初级靶核酸序列与参照序列进行比较，也可以鉴定到可能包含这类缺口、低可信度序列，或者只是特定位置上不同的序列(即靶序列中一或多个核苷酸的变化)的目标序列。

根据这些方法的一种实施方式，测定靶核酸序列以产生初级靶核酸序列包括计算机处理的序列测定输入和计算机处理的序列测定组装来产生初级靶核酸序列。此外，设计靶特异寡核苷酸也可以计算机化，而且这种计算机化的靶特异寡核苷酸的合成可以与输入的计算机处理和序列测定的计算机组装以及靶特异寡核苷酸的设计合并在一起。这是特别有用的，因为待合成的靶特异寡核苷酸的数量对于高等生物体(例如人)的基因组，可能在几万或几十万。因此本发明可以自动集成由已确定序列和已鉴定区域产生寡核苷酸集合的过程以便进一步处理。某些实施方式中，计算机驱动程序利用已鉴定的区域和确定的序列来设计寡核苷酸以分离和/或产生覆盖这些区域的新片段，其中所述确定的序列靠近或者邻接所述已鉴定区域。然后可以如本文所述用寡核苷酸任意从第一测序库、从第一测序库的前体、从由相同靶核酸产生的不同测序库、直接从靶核酸等分离片段。其他实施方式中，鉴定需进一步分析的区域和分离/产生第二文库的自动集成限定了寡核苷酸集合内的寡核苷酸序列并指导这些寡核苷酸的合成。

在本发明的两阶段测序方法的某些实施方式中，杂交体捕获过程后进行释放步骤，该技术的其他方面中，在第二个测序过程前进行扩增步骤。

又一些实施方式中，鉴定步骤中通过比较已确定序列和参照序列鉴定到某些或者全部区域。某些方面中，第二鸟枪测序库是根据参照序列，利用包含寡核苷酸的寡核苷酸集合分离的。同样，某些方面中，所述寡核苷酸集合包含至少1000个序列不同的寡核苷酸，其他方面中，所述寡核苷酸集合包含至少10,000、25,000、50,000、75,000或100,000或更多个序列不同的寡核苷酸。

本发明的某些方面中，所述两阶段测序方法中采用的一或多个测序过程是通过连接法测序进行的；在其他方面中，一或多个测序过程是通过杂交法测序或合成法测序进行的。

发明的某些方面中，大约1到大约30％的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序；其他方面中，大约1到大约10％的复杂靶核酸被鉴定为需要在方法的阶段II中重新测序。某些方面中，对于复杂靶核酸的鉴定百分比的覆盖度在大约25x到100x。

其他方面中，给每个在所述方法的阶段II中重新测序的靶核酸区域确定和合成1到大约10个靶特异的选择寡核苷酸；其他方面中，给每个在所述方法的阶段II中重新测序的靶核酸区域确定大约3到大约6个祀特异的选择寡核苷酸。

该技术的再一些方面中，通过自动程序确定和合成靶特异的选择寡核苷酸，其中鉴定复杂核酸中丢失核酸序列或者具有核酸序列低可信度的区域的过程以及确定靶特异的选择寡核苷酸的序列的过程与寡核苷酸合成软件和硬件进行交流，从而合成靶特异的选择寡核苷酸。该技术的其他方面中，靶特异的选择寡核苷酸长度在大约20到大约30个碱基，并且在某些方面中是未修饰的。

不是所有被鉴定要进行进一步分析的复杂靶核酸的区域实际上存在。某区域预期缺少覆盖度的一个原因可能是被预测存在于复杂靶核酸中的区域实际上并不存在(例如，所述区域可能在靶核酸中被删除或重排)，因此不是所有集合产生的寡核苷酸可以分离到片段包含在第二个鸟枪测序库中。某些实施方式中，对于每个被鉴定要进行进一步分析的区域至少要设计和制备一个寡核苷酸。其他实施方式中，对于被鉴定要进行进一步分析的区域平均提供三个或更多个寡核苷酸。本发明的一个特点是寡核苷酸集合可以直接用于通过利用来源于靶核酸的模板，经聚合酶延伸所述寡核苷酸产生第二个鸟枪测序库。发明的另一个特点是寡核苷酸集合可以直接用于利用所述寡核苷酸集合经环依赖性复制产生复制子。发明的再一个特点是所述方法能够提供序列信息来鉴定缺少的目标区域，例如被鉴定做进一步分析但由于例如删除或重排而实际不存在的预测区域。

以上描述的两阶段测序方法的实施方式可以与本文描述的以及本领域已知的任何核酸构建体和测序方法组合使用。

VIIID.SNP检测

以上讨论的方法和组合物在其他实施方式中可以用于检测诸如DNB之类的核酸构建体中的特异序列。特别是使用测序和锚定探针的cPAL方法可以用于检测多态性或者与基因突变相关的序列，包括单核苷酸多态性(SNPs)。例如，为了检测是否存在SNP，可以使用两组区别标记的测序探针，这样检测到一种而非另一种探针表明样品中是否存在多态性。这种测序探针可以与类似于上述cPAL方法的方法中的锚定探针联合使用，以进一步提高SNP检测的特异性和效率。

VIIIE.长片段阅读(LFR)方法

根据上述测序方法中的任一种，本发明还提供包括单体型定向的提供较长的阅读长度的长片段阅读方法。

在LFR过程的示范性实施方式中，将约100kbp的基因组DNA用作输入样本，因为输入DNA的长度可影响可进行定相(phasing)的间隔。这种高分子量基因组DNA被等分至384孔平板中以使每孔接收约0.1单倍体基因组(单倍体基因组的10％)。扩增各孔中的DNA片段，将这种扩增的DNA片段化至约500bp。将各孔中的DNA连接至含有独特鉴定物的衔接子臂，随后将所有384个孔中的被连接的DNA汇集到单个管中。这种汇集的DNA用作在之前的节段中详细描述的文库构建和测序方法的输入物。384个孔含有约40种片段，总体上跨越基因组中的各个位点，其中约20个片段来自母系染色体，20个片段来自父系染色体。在0.1基因组等同物/孔的比率下，孔中的片段可重叠的几率为10％，任何这种重叠片段来自独立的亲本染色体的几率为50％。因此，约95％的数据来自单一亲本染色体。随后将来自各孔的数据进行映射，将彼此邻近映射的测定结果通过其独特的鉴别物进行分组，从而使各孔中约100kbp的单倍体片段的重建成为可能。独特的鉴别物可以任何数目的方法鉴别，包括但不限于使用与鉴别物序列互补的独特标记的探针的探针杂交以及该鉴别物序列的测序。

以上方法可独立解决亲本染色体的问题。样本中的单核苷酸多态性用于区分来自母系和父系染色体的100kbp片段。上文讨论的开始的40个基因组等同物产生每隔5kbp开始的平均100kbp的母系片段和每隔5kbp的100kbp父系片段。因此，两个连续的母系片段彼此重叠平均约95kbp。在人类基因组中，95kbp内一般有50至150种单核苷酸多态性(SNP)，其中，在任一给定的样本中许多为杂合的。使用这些SNP区分母系片段和父系片段。通过将重叠片段连接在一起，可独立构建较大的母系片段和父系片段(大至全部染色体)。这种方法使有效阅读长度从约35bp增加至超过100kbp。

VIIIF.碱基测定(calling)、映射和组装

可使用本领域已知方法分析并组装使用本文所述的测序方法中的任一种生成的数据。

在一些实施方式中，生成每一基因组询问位点的四个图像(每种颜色一个)。图像中每个斑点的位置以及四种颜色中的每一种的深度通过调整染料之间的串扰以及背景强度确定。可将定量模型拟合至得到的四维数据集。测定给定斑点的碱基，其质量分数表示四种深度拟合模型的程度。

在其他实施方式中，读取的数据以压缩的二进制格式编码，包括测定的碱基和质量分数两者。质量分数与碱基准确性关联。分析软件(包括序列组装软件)可使用所述分数确定来自被测定的单个碱基的证据贡献。

DNB的结构一般使测定结果“产生缺口”(图51)。缺口大小根据酶切消化中固有的可变性而变化(通常+/-1个碱基)。cPAL的随机-存取性质使测定结果偶尔具有未读取的碱基(“未测定”)，否则DNB的质量较高。测定的碱基对如本文进一步详细描述的那样进行配对。

能够比对阅读数据与参比序列的映射软件可用于映射由本文所述的测序方法生成的数据。这种映射软件一般可容许参比序列中的小的变异(例如由单个基因组变异引起的那些小的变异)、阅读错误或未读取的碱基。该性质一般使SNP得以直接重建。为了支持更大变异(包括大规模结构变化或密集变异区域)的组装，可独立映射DNB的每一个臂，在比对后限制配对。

在一些实施方式中，序列测定结果的组装可利用支持DNB阅读结构(配对、带有未测定碱基的具有缺口的测定结果)的软件以实现单倍体基因组装配，所述单倍体基因组装配在一些实施方式中可借助生成本发明的LFR方法的序列信息来定相杂合位点。

本发明的方法可用重建参比序列中不存在的新片段。使用基于证据(Bayesian)的推理的组合的算法和基于deBruijin图的算法可用于一些实施方式。在一些实施方式中，可使用根据经验校正为各数据集的统计学模型，使所有测定数据得以使用而不用预先过滤或整理数据。大规模的结构变异(包括但不限于缺失、易位等)和拷贝数目的变化也可通过扩充配对的测定结果检测。

IX.示范性实施方式

本发明一方面提供了确定靶核酸中的序列的方法。所述方法包括以下步骤：(a)提供包含靶核酸片段和衔接子的测序模板，其中所述衔接子包含至少第一锚定位点；(b)将锚定探针与锚定位点杂交，所述锚定探针包含与衔接子位点互补的区域以及用于结合靶核酸序列的3个或更多个简并碱基；(c)用测序探针集合进行杂交，以确定相对衔接子限定位置的一或多个核苷酸的序列，其中所述测序探针被可检测地标记以鉴定特定碱基的存在；(d)连接锚定探针与测序探针；和(e)检测测序探针，从而确定靶核酸中的序列。

与以上一致，本发明另一方面提供了确定靶序列某检测位点上的第一核苷酸的特性的方法，所述靶序列包含多个检测位点。该方法包括步骤：(a)提供带有多个多联体的表面，其中每个多联体包含多个单体，每个单体包含：(i)靶序列的第一靶结构域，其包含第一组靶检测位点和(ii)包含(1)第一锚定位点和(2)相邻的第二锚定位点的至少第一衔接子；(b)使第一锚定探针与第一锚定位点杂交；(c)使第二锚定探针与第二锚定位点杂交，其中所述第二锚定探针还与第二锚定位点外的序列杂交；(d)使至少第一测序探针与第一靶结构域杂交，其中所述第一测序探针包含：(i)与靶结构域互补的第一探针结构域；(ii)位于第一询问位点的独特核苷酸；和(iii)标记，杂交条件是如果所述独特核苷酸与第一核苷酸互补，则测序探针与所述多联体杂交；(e)连接锚定探针和测序探针；以及(f)鉴定第一核苷酸。

与以上一致，本发明的一种实施方式中提供了确定靶序列中某检测位点的第一核苷酸的特性的方法，其中成组的测序探针与包含多个多联体的表面进行接触。在该实施方式中，每个测序探针包含：(a)与靶结构域互补的第一探针结构域；(b)位于第一询问位点的独特核苷酸；和(c)标记，其中每组的每个标记对应独特核苷酸。

其他实施方式中，与以上一致，多联体中的每个单体包含多个衔接子。

又一些实施方式中，与以上一致，多联体中的至少一个衔接子包含至少一个II型核酸内切酶识别位点。

还有一些实施方式中，与以上一致，重复进行使第一锚定探针与第一锚定位点杂交、使第二锚定探针与第二锚定位点杂交、使至少第一测序探针与第一靶结构域杂交、和连接锚定探针和测序探针的步骤，从而鉴定第二检测位点上的第二核苷酸。

其他实施方式中，与以上一致，第二锚定探针包括成组的含有至少3个简并碱基的第二锚定探针，其中所述简并碱基与第二锚定位点外的序列杂交。

又一些实施方式中，与以上一致，第二锚定探针包含至少一个可以选择性地活化用于连接的末端。

还有一些实施方式中，与以上一致，所述带有多个多联体的表面是功能化的表面。又一些实施方式中，所述表面用选自胺、硅烷和羟基的功能部分进行了功能化。

又一些实施方式中，与以上一致，所述表面包含多个空间分立的区域，该区域包含固定的多联体。

又一些实施方式中，与以上一致，所述多联体利用捕获探针固定在表面上。

又一些实施方式中，与以上一致，基因组核酸被片段化以形成靶序列。

又一些实施方式中，与以上一致，所述靶序列是基因组核酸序列。

又一些实施方式中，与以上一致，所述基因组核酸序列是人的。

与以上一致，本发明一方面提供了与测序模板使用的能包含本文描述的探针组的试剂盒。一般来说，本发明的试剂盒可以包含锚定探针对、锚定探针对和其他与模板中的靶核酸相邻的锚定探针、以及用于确定核酸模板中特异位点上的碱基的测序探针。这种试剂盒可以进一步包含用于产生本发明中使用的核酸模板的衔接子。

与以上一致，本发明一方面提供了这样的核酸测序系统，所述系统包含10个标记了或者带标签的探针集合、包含序列不同的4种或更多种探针的锚定探针组、含有3个或更多个简并碱基的锚定探针组，以及连接酶。其他实施方式中，所述核酸测序系统还包含将锚定探针、测序探针和相连的测序和锚定探针从核酸模板上变性的试剂。

实施例

实施例1:制备DNB

以下是由本发明的核酸模板制备DNB(文中又称为“复制子”)的示范性试验方案，其中所述核酸模板包含散在分布着一或多个衔接子的靶核酸。首先用磷酸化的5’引物和生物素化的3’引物将单链线性核酸模板扩增，得到具有生物素标签的双链线性核酸模板。

首先,通过将MagPrep-链霉亲和素磁珠(NovagenPart.No.70716-3)重悬于无核酸酶的微量离心管中的1x磁珠结合缓冲液(150mMNaCl和20mMTris，pH7.5溶于无核酸酶的水)制备链霉亲和素磁珠。将离心管放在磁性离心管架上，允许磁性颗粒澄清，移出上清并丢掉。然后磁珠在800μl1x磁珠结合缓冲液中洗两次，重悬于80μl1x磁珠结合缓冲液中。来自PCR反应的经扩增的核酸模板(本文也称为“文库构建体”)加至60μl体积，向管中加入20μl4x磁珠结合缓冲液。然后向含有MagPrep磁珠的管中加入核酸模板，温和混匀，室温下温育10分钟，允许MagPrep珠子澄清。移出上清并丢掉。然后MagPrep珠子(与经扩增的文库构建体混合)在800μl1x磁珠结合缓冲液中洗两次。洗后，将MagPrep珠子重悬于80μl0.1NNaOH中，温和混匀，室温下温育并让其澄清。移出上清并加入新的无核酸酶离心管中。每份上清加入4μ13Μ醋酸钠(pH5.2)并温和混匀。

接下来，每个离心管中加入420μlPBI缓冲液(QIAprepPCRPurificationKits中提供)，将样品混匀，然后上样到放在2ml收集管中的QIAprepMiniprep柱(QiagenPartNo.28106)中，在14,000rpm离心1分钟。流过液丢弃，每个柱中加入0.75mlPE缓冲液(QIAprepPCRPurificationKits中提供)，柱再离心1分钟。再次将流过液丢弃。将柱子转移到新的离心管上，加入50μlEB缓冲液(QIAprepPCRPurificationKits中提供)。将柱子在14,000rpm离心1分钟洗脱单链核酸模板。然后测量每个样品的量。

利用CircLigase将单链模板环化：首先，取10pmol单链线性核酸模板转移到无核酸酶的PCR管中。加入无核酸酶的水使反应体积达到30μ1，将样品保持在冰上。然后，给每个管中加入4μl10xCircLigaseReactionBuffer(EpicentrePart.No.CL4155K)、2μl1mMATP、2μl50mMMnCl₂、和2μlCircLigase(100U/μl)(总起来是4xCircLigaseMix)，样品在60℃温育5分钟。每个管中再加入10μl4xCircLigaseMix，样品在60°温育2小时，80℃温育20分钟，然后置于4℃。然后测量每个样品的量。

通过核酸外切酶消化除去CircLigase反应中残留的线性DNA。首先，每个CircLigase样品取30μl加入无核酸酶的PCR管中，然后每个样品中加入3μl水、4μl10xExonucleaseReactionBuffer(NewEnglandBiolabsPartNo.B0293S)、和1.5μlExonucleaseI(20U/μl,NewEnglandBiolabsPartNo.M0293L)和1.5μlExonucleaseIII(100U/μl,NewEnglandBiolabsPartNo.M0206L)。样品在37℃温育45分钟。然后，每个样品中加入75mMEDTA(pH8.0)并于85℃温育5分钟，随后冷却至4℃。样品然后转移到干净的无核酸酶离心管中。接下来，每管中加入500μlPN缓冲液(QIAprepPCRPurificationKits中提供)并混匀，将样品上样到放在2ml收集管中的QIAprepMiniprep柱(QiagenPartNo.28106)中，14,000rpm离心1分钟。丢弃流过液，每个柱加入0.75mlPE缓冲液(QIAprepPCRPurificationKits中提供)，柱子再离心1分钟。再次丢弃流过液。将柱子转移到新的收集管上，加入40μlEB缓冲液(QIAprepPCRPurificationKits中提供)。柱子在14,000rpm离心1分钟，洗脱单链文库构建体。然后测量每个样品的量。

用于制备DNB的环依赖性复制：将核酸模板进行环依赖性复制来制备包含靶核酸和衔接子序列的多联体的DNB。向无核酸酶的PCR管条加入40fmol经核酸外切酶处理的单链环，加水至终体积10.0μl。然后，每管中加入10μ12xPrimerΜix(7μ1水、2μ110xphi29ReactionBuffer(NewEnglandBiolabsPartNo.B0269S)和1μl引物(2μΜ))，于室温温育30分钟。之后，每管中加入20μ1phi29Μix(14μl水、2μl10xphi29ReactionBuffer(NewEnglandBiolabsPartNo.B0269S)、3.2dNTP混合液(dATP、dCTP、dGTP和dTTP各2.5mM)和0.8μlphi29DNA聚合酶(10U/μl，NewEnglandBiolabsPartNo.M0269S))。管子在30℃温育120分钟。然后取出管子，每份样品加入75mMEDTA(pH8.0)。然后测量环依赖性复制产物的量。

确定DNB的质量：DNB的量确定后，通过观察颜色纯度评价DNB的质量。将DNB悬浮在复制子稀释缓冲液(0.8xphi29ReactionBuffer(NewEnglandBiolabsPartNo.B0269S)和10mMEDTA，pH8.0)中，各种稀释物加入流动载片(flowslide)的泳道，在30℃温育30分钟。然后用缓冲液洗流动载片，向每个泳道加入含有用Cy5、TexasRed、FITC或Cy3标记的四种不同的随机12聚体探针的探针溶液。将流动载片转移入预热到30℃的加热块中，在30℃温育30分钟。然后用Imager3.2.1.0软件给流动载片成像。然后测量环依赖性复制产物的量。

实施例2:单一和双重c-PAL

不同长度完全简并的第二锚定探针在双锚定探针检测系统中进行了测试。所用组合为：1)使用锚定子(anchor)和9聚体测序探针的标准的一种锚定子连接，其中所述锚定子结合与靶核酸相邻的衔接子，从距离衔接子4个位点处开始测定；2)使用相同的第一锚定子和包含简并5聚体的第二锚定子以及9聚体测序探针的双锚分子连接，从距离衔接子9个位点处开始测定；3)使用相同的第一锚定子和包含简并6聚体的第二锚定子以及9聚体测序探针的双锚定子连接，从距离衔接子10个位点处开始测定；和4)使用相同的第一锚定子和包含简并8聚体的第二锚定子以及9聚体测序探针的双锚定子连接，从距离衔接子12个位点处开始测定。将1μM第一锚定探针和6μM简并的第二锚定探针合并在连接酶反应缓冲液中的T4DNA连接酶，点样到反应片基表面30分钟，之后从反应片基上洗去未反应的探针和试剂。引入含有连接酶和5’F1-NNNNNBNNN或5’F1-NNBNNNNNN5’F1-NNNBNNNNN5’F1-NNNNBNNNN型荧光探针的第二反应混合物。Fl代表四种荧光团中的一种，N代表随机引入的四种碱基A、G、C或T中的一种，B代表与萤光团特异关联的四种碱基A、G、C或T中的一种。连接1小时后，从片基上洗去未反应的探针和试剂，检测每个DNA靶关联的荧光强度。

图27显示了与系统中不同长度的简并第二锚定探针关联的信号强度，其中信号强度随着第二锚定探针长度增加而下降。从图28可以看出，这些强度的拟合度计分也随着简并第二锚定子的长度而减少，但直到碱基10的测定仍能产生合理的拟合度计分。

图29和30显示了一种锚定探针法和两种锚定探针法使用时间的影响。标准锚定子和简并5聚体均与9聚体测序探针使用分别从衔接子的位点4和9开始测定。尽管双锚定探针法中强度水平差别更大，但标准的一个锚定子法和双锚定探针法两次均展现出相当的拟合度打分，每个都超过了0.8。

简并第二锚定探针的长度对信号强度和拟合度打分的影响:第一和第二锚定探针的不同组合(其中第二锚定探针的长度和组成不同)在用于鉴定衔接子5’方向的碱基时被用于比较简并探针对信号强度和拟合度打分的影响。使用两种锚定探针法与标准的一种锚定探针法比较信号强度和拟合度打分，所述两种锚定探针法用的或者是含有与衔接子互补的某些区域的部分简并探针，或者是完全简并的第二锚定探针。5聚体到9聚体的简并第二锚定探针使用同一浓度，还对其中的两种——6聚体和7聚体探针在4x浓度下进行了检测。还以第一种浓度测试了包含与衔接子互补的两个核苷酸以及位于3’端的不同长度简并核苷酸的第二锚定探针。每个反应都使用了相同的四种测序探针组来鉴定位于靶核酸测定(read)位点上的核苷酸。

试验中使用的组合如下：

反应1:1μM12碱基的第一锚定探针

没有第二锚定探针

测定位点：离衔接子末端2nt

反应2:1μM12碱基的第一锚定探针

20μM5个简并碱基的第二锚定探针

测定位点：离衔接子末端7nt

反应3：1μΜ12碱基的第一锚定探针

20μM6个简并碱基的第二锚定探针

测定位点：离衔接子末端8nt

反应4:1μM12碱基的第一锚定探针

20μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端9nt

反应5:1μM12碱基的第一锚定探针

20μM8个简并碱基的第二锚定探针

测定位点：离衔接子末端10nt

反应6:1μM12碱基的第一锚定探针

20μM9个简并碱基的第二锚定探针

测定位点：离衔接子末端11nt

反应7:1μM12碱基的第一锚定探针

80μM6个简并碱基的第二锚定探针

测定位点：离衔接子末端8nt

反应8:1μM12碱基的第一锚定探针

80μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端9nt

反应9:1μM12碱基的第一锚定探针

20μM6nt的第二锚定探针(4个简并碱基-2个已知碱基)

测定位点：离衔接子末端6nt

反应10:1μM12碱基的第一锚定探针

20μM7nt的第二锚定探针(5个简并碱基-2个已知碱基)

测定位点：离衔接子末端7nt

反应11:1μM12碱基的第一锚定探针

20μM8nt的第二锚定探针(6个简并碱基-2个已知碱基)

测定位点：离衔接子末端8nt

图31和32显示了不同锚定探针和测序探针组合的结合。图中显示简并第二锚定探针的长度最好使用6聚体，不管是完全简并还是部分简并的。使用较高浓度的完全简并6聚体表现出的信号强度与使用部分简并的6聚体的信号强度类似(图31)。所有的数据都有较好的拟合度打分(参见图32)，除了使用最长的第二锚定子的反应6，该反应在所有进行的反应中也表现最低的信号强度评分(图31)。

第一锚定探针长度对信号强度和拟合度打分的影响:第一和第二锚定探针的不同组合(其中第一锚定探针具有不同长度)在用于鉴定衔接子3’方向的碱基时被用于比较第一锚定探针的长度对信号强度和拟合度打分的影响。标准的一种锚定探针法使用两种锚定探针法来比较信号强度和拟合度打分，所述两种锚定探针法用的或者是含有与衔接子互补的某些区域的部分简并探针，或者是完全简并的第二锚定探针。每个反应都使用了相同的四种测序探针组来鉴定位于靶核酸测定位点上的核苷酸。试验中使用的组合如下：

反应1:1μM12个碱基的第一锚定探针

没有第二锚定探针

测定位点：离衔接子末端5nt

反应2:1μM12个碱基的第一锚定探针

20μM5个简并碱基的第二锚定探针

测定位点：离衔接子末端10nt

反应3:1μM10个碱基的第一锚定探针

20μM7nt的第二锚定探针(5个简并碱基-2个已知碱基)

测定位点：离衔接子末端10nt

反应4:1μM13个碱基的第一锚定探针

20μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端12nt

反应5:1μM12个碱基的第一锚定探针

20μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端12nt

反应6:1μM11个碱基的第一锚定探针

20μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端12nt

反应7:1μM10个碱基的第一锚定探针

20μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端12nt

反应8:1μM9个碱基的第一锚定探针·

80μM7个简并碱基的第二锚定探针

测定位点：离衔接子末端12nt

观察到的信号强度(图33)和拟合度打分(图34)显示在使用较长的第一锚定探针时产生最佳的强度，这可能部分因为较长探针给合并的锚定探针提供了更高的熔解温度。

使用两种锚定引物方法时，激酶温育对信号强度和拟合度打分的影响：在不同温度下进行如上所述的反应3天，反应在有lUnit/ml激酶的情况下，使用1μM10个碱基的第一锚定探针、20μM7聚体第二锚定探针和结构为Fluor-NNNNBNNNN的测序探针来测定衔接子外的位点10。使用15聚体第一锚定探针和测序探针的反应作为阳性对照。结果如图35和36所示。虽然与对照相比，激酶的确对信号强度有影响，但从4℃到37℃下，范围没有变化，拟合度打分与对照保持相当。激酶温育确实造成影响的温度是42℃，该温度下数据拟合度打分低。

然后使用与以上描述的探针和条件相同的探针和条件检验了激酶所需要的最少时间。如图37和38所示，激酶温育5分钟或以上产生有效等同的信号强度和拟合度打分。

实施例3：使用自组装DNA开链碱基测定对人基因组进行测序

对三个人基因组进行了测序，生成每基因组平均45-至87-倍覆盖并鉴定了每个基因组的320至450万个序列变体。对一个基因组数据组进行验证表明序列准确率为约每100kb有1个假变体。

模板测序基底的生成

测序基底通过基因组DNA片段化和II型限制酶反复(recursive)切割以及衔接子定向插入生成(图6和图39B)。4-衔接子文库的构建过程在图6中总结。该过程导致：(i)高产率的衔接子连接和形成最少嵌合体的DNA环化，(ii)含有不期望的衔接子拓扑结构的结构最少的衔接子定向插入，(iii)通过PCR产生的具有期望的衔接子拓扑结构的构建体的迭代选择，(iv)链特异性ssDNA环的有效形成，以及(v)生成高浓度的分立的(非混乱的)DNA纳米球(DNB)的ssDNA环的单管溶液相扩增。尽管所述过程涉及许多独立的酶促步骤，但是其很大程度上是自身重复的并且适于96样本批次加工的自动化操作。

基因组DNA(“gDNA”)通过超声片段化成平均长度为500碱基对(“bp”)，并且通过聚丙烯酰胺凝胶分离在100bp(例如，对于NA19240而言，约400至约500bp)范围内迁移的片段并用QiaQuick纯化柱(Qiagen,Valencia,CA)回收。在37℃下，用10单位FastAP(Fermentas,Burlington,ON,CA)处理约1μg(约3pmol)的片段化gDNA持续60分钟，用AMPure珠(AgencourtBioscience,Beverly,MA)纯化，在12℃下用40单位T4DNA聚合酶(NewEnglandBiolabs(NEB),Ipswich,MA)温育1小时，再用AMPure纯化(所有步骤均按照操作规范进行)，从而生成非磷酸化的平末端。然后，根据本文描述的切口平移连接步骤将末端修补后的gDNA片段连接至合成的衔接子1(Ad1)臂(图40)，从而产生片段-片段和衔接子-衔接子连接最少的有效的衔接子-片段连接。图40提供用于本发明的衔接子构建和插入的寡核苷酸表。所有寡聚体购自IDT。在图40中，“Ad中的位点”表示相对于插入的衔接子的上链的寡核苷酸的位点(3＝3’,5＝5’)和链(T＝上,B＝下)，从而使得到的ssDNA环含有衔接子的上链，使得到的DNB含有衔接子的下链。将寡核苷酸移动(offset)并表示为3’->5’或5’->3’，以强调其在衔接子中的功能和相对位置。用5或3标记寡核苷酸末端以表示方向，用P,dd或B标记以分别表示5’PO4,3’双脱氧,或5’生物素修饰。促进通过14-碱基分子内杂交生成紧实DNB的所含有的回文结构用下划线示出。

在14℃下，在含有50mMTris-HCl(pH7.8),5％PEG8000,10mMMgCl2,1mMrATP,10倍摩尔过量的5’-磷酸化的(“5’PO₄”)和具有3’双脱氧末端(“3’dd”)的Ad1臂(图40)以及4,000单位T4DNA连接酶(Enzymatics,Beverly,MA)的反应中，将约1.5pmol末端修补的gDNA片段孵育120分钟。将5’PO₄Ad1臂末端与3’OHgDNA末端进行T4DNA连接生成带有切口的中间结构，其中，所述切口由双脱氧(由此不可连接的)3’Ad1臂末端和非磷酸化的(由此不可连接的)5’gDNA末端构成。经过AMPure纯化而除去未并入的Ad1臂之后，在60℃下，在含有200μMAd1PCR1引物(图40),10mMTris-HCl(pH78.3),50mMKCl,1.5mMMgCl₂,1mMrATP,100μMdNTPs的反应中将DNA孵育15分钟，从而用具有3’OH末端的Ad1PCR1引物替换具有3’双脱氧末端的Ad1寡聚体。然后将反应冷却至37℃，在添加50单位的TaqDNA聚合酶(NEB)和2000单位的T4DNA连接酶之后，在37℃下将反应再孵育30分钟，从而通过Taq-催化的Ad1PCR1引物3’OH末端的切口平移生成功能性5’PO₄gDNA末端，并通过T4DNA连接封闭得到的经修补的切口。

在由40单位PfuTurboCx(Stratagene,LaJolla,CA)1XPfuTurboCx缓冲液,3mMMgSO4,300μMdNTPs,5％DMSO,1M甜菜碱,和各500nM的Ad1PCR1引物构成的800μl反应中对约700pmol的AMPure纯化的Ad1-连接的材料进行PCR(6至8个循环：95℃30秒，56℃30秒，72℃4分钟)(图40)。该过程提供对约350fmol含有Ad1左臂和右臂的模板的选择性扩增，从而生成约30pmol在Ad1臂中的特定位置合并了dU基团的PCR产物。在37℃下，用10单位UDG/EndoVIII混合物(USER；NEB)处理约24pmolAMPure纯化的产物持续60分钟以生成具有互补的3’突出部分的Ad1臂并使Ad1右臂编码的Acul位点部分地变为单链。在37℃下在含有10mMTris-HCl(pH7.5),50mMNaCl,1mMEDTA,50μMs-腺苷基-L-蛋氨酸，和50单位Eco57I(Fermentas,GlenBurnie,MD)的反应中孵育该DNA12小时，从而使Ad1左臂Acul位点和基因组Acul位点甲基化。在由16.5mMTris-OAc(pH7.8),33mMKOAc,5mMMgOAc,and1mMATP构成的反应中，将约18pmolAMPure纯化的、甲基化的DNA稀释为3nM的浓度，加热至55℃持续10分钟，并冷却至14℃持续10分钟，从而有利于分子内杂交(环化)。

然后在14℃下，在存在180nM未磷酸化的桥接寡聚体(bridgeoligo)(图40)的条件下，用3600单元T4DNA连接酶(Enzymatics)孵育反应2小时以生成含有上链带切口的Ad1和双链未甲基化的Ad1右臂Acul位点的dsDNA单体环。根据厂商说明，通过AMPure纯化来浓缩Ad1环并在37℃下用100UPlasmidSafe外切酶(Epicentre,Madison,WI)孵育60分钟以消除残余的线性DNA。

根据厂商说明，在37℃下，用30单位Acul(NEB)消化约12pmolAd1环1小时生成含有由插入DNA的两个片段侧接的Ad1的线性dsDNA结构。AMPure纯化之后，在60℃下，在含有10mMTris-HCl(pH8.3),50mMKCl,1.5mMMgCl₂,0.163mMdNTP,0.66mMdGTP,和40单位TaqDNA聚合酶(NEB)的反应中孵育约5pmol线性DNA1小时，从而通过Ad1上链切口的平移将邻近活性(右臂)Ad1Acul位点的3’突出部分转化为3’G突出部分。在14℃下，在含有50mMTris-HCl(pH7.8),5％PEG8000,10mMMgCl₂,1mMrATP,4000单位T4DNA连接酶,和25倍摩尔过量的非对称Ad2臂(其中一个臂被设计为与3’G突出部分连接，另一个臂被设计为与3’NN突出部分连接)的反应中孵育得到的DNA2小时(图40)，由此生成定向的(相对于Ad1)Ad2臂连接。用AMPure珠纯化约2pmolAd2连接的材料，用PfuTurboCx和含有dU的Ad2特异性引物进行PCR扩增(图40)，AMPure纯化，用USER处理，用T4DNA连接酶环化，用AMPure浓缩并PlasmidSafe处理，经过上述所有步骤生成含有Ad1+2的dsDNA环。

用含有Ad1PCR2dU的引物对约1pmolAd1+2环进行PCR扩增(图40)，AMPure纯化，以及USER消化，经过上述所有步骤生成由带有互补3’突出部分的Ad1臂侧接的片段并使Ad1左臂Acul位点部分地成为单链。将得到的片段甲基化以Ad1右臂Acul位点和基因组Acul位点失活，AMPure纯化以及环化，经过上述所有步骤生成含有下链带有切口的Ad1和双链未甲基化的Ad1左Acul位点的dsDNA环。通过AMPure纯化来浓缩所述环，Acul消化，通过AMPure纯化使其带G尾，并连接至非对称Ad3臂(图40)，经过上述所有步骤生成定向的Ad3臂连接。Ad3连接的材料通过AMPure纯化，以含dU的Ad3特异性引物进行PCR扩增(图40)，AMPure纯化，USER消化，环化并浓缩，经过所有上述步骤生成含Ad1+2+3的环，其中，Ad2和Ad3侧接Ad1并在其远端含有EcoP15识别位点。

在37℃下，根据厂商说明，用100单位EcoP15(NEB)消化约10pmolAd1+2+3环4小时以释放含有散布在四个gDNA片段之间的三个衔接子的片段。在AMPure纯化之后，如上所述用T4DNA聚合酶对消化的DNA进行末端修补，如上所述进行AMPure纯化，在37℃下，在含有50mMNaCl,10mMTris-HCl(pH7.9),10mMMgCl₂,0.5mMdATP,和16单位Klenowexo-(NEB)的反应中孵育1小时以添加3’突出部分，并如上所述连接至带T尾的Ad4臂。在聚丙烯酰胺凝胶上对连接反应进行电泳检测，从凝胶中洗脱含有Ad1+2+3+Ad4-臂的片段并通过QiaQuick纯化回收。如上所述以PfuTurboCx(Stratagene)加上对Ad4的一个臂特异的5’-生物素化的引物以及对Ad4的另一个臂特异的5’PO4引物对约2pmol回收的DNA进行扩增(图40)。

根据厂商说明，将约25pmol生物素化的PCR产物捕获在生物素包被的Dynal顺磁珠(Invitrogen,Carlsbad,CA)，并且通过用0.1NNaOH变性来回收非生物素化链(含一个5’Ad4臂和一个3’Ad4臂)。在中和之后，通过与三倍过量的Ad1上链特异性生物素化的捕获寡聚体杂交来纯化含沿相对于Ad4臂的期望方向的Ad1+2+3的链，然后捕获于链霉亲和素珠上并用0.1NNaOH洗脱，上述步骤均按照厂商说明进行。在60℃下，根据厂商说明，用200单位CircLigase(Epicentre)孵育约3pmol回收的DNA1小时，从而生成含有单链(ss)DNAAd1+2+3+4的环，然后在37℃下，按照厂商说明，用100单位Exol和300单位ExoIII(两种酶均来自Epicenter)孵育30分钟以去除未环化的DNA。

为了评价环构建过程中的代表性偏差，通过StepOne平台(AppliedBiosystems,FosterCity,CA)下的定量PCR(QPCR)和基于SYBRGreen的QPCR分析(QuantaBiosciences,Gaithersburg,MD)对基因组DNA和文库构建构成中的中间步骤进行分析，以判断代表一系列基因座GC含量的一组96dbSTS标志物的存在和浓度(图41)。从dbSTS中选择的图41中显示的标志物长度少于100bp，使用长20个碱基并且GC含量为45至55％的引物，并且代表一系列基因座GC含量。从NCBIBuild36起始和结束坐标。扩增子GC含量为扩增的PCR产物的GC含量，1kbGC含量通过1kb位于扩增子中心的间隔计算。在各样本中，对每一标志物收集原循环阈值(Ct)值。然后，从各自原Ct值中减去各样本的平均Ct以生成一组标准化Ct值，由此各样本的平均标准化Ct值为零。最后，从各自标准化Ct值中减去gDNA中每一标志物的平均(四个重复操作)标准化Ct，生成一组各样本每一标志物的δCt值。该分析显示了相对于基因组DNA在Ad1、Ad2和Ad3环中的标志物的AT含量较高的条件下，较高GC含量标志物的浓度增加(图42)。通常，1kbGC含量为30至35％的基因座与1kbGC含量为50至55％的基因座具有1.4Ct(2.5倍)的浓度差异。这种偏差类似于在cPAL数据映射中观察到的片段和碱基水平偏差。

为了评估文库构建体结构，用TaqDNA聚合酶(NEB)和Ad4特异性PCR引物对4Ad混合物捕获的单链文库DNA进行PCR扩增。用TopoTA克隆试剂盒(Invitrogen)克隆这些PCR产物，使用菌落PCR生成192个独立菌落的PCR复制子。用AMPure珠纯化这些PCR产物，用Sanger双脱氧测序法(MCLAB,SouthSanFrancisco,CA)收集来自两条链的序列信息。过滤得到的痕量物质以得到高质量数据，分析中包括具有至少一个良好测定结果的含有文库插入的克隆。表1显示用于评估衔接子结构的来自文库中间产物的Sanger测序数据。147至192个文库克隆含有至少一个高质量的Sanger测定结果。上述147个克隆中的143个(>97％)含有沿着预期方向和顺序的全部4个衔接子。此外，具有异常衔接子结构的4个克隆中的3个(*)有望在用于生成DNB的PCR反应过程中从文库中去除，这意味着约99％的DNB有望具有正确的衔接子结构。数据来自NA07022

表1

表2显示鉴定衔接子突变的对文库中间产物的Sanger测序结果。对89个克隆的文库构建体的分析揭示了衔接子序列中每1000bp约有1个突变，对所述文库构建体的分析而言，可获得高质量的正反向Sanger测序数据。同时，89个克隆的文库构建体中的5个(5.6％)在其8个衔接子末端之一的10bp中具有突变；预期这种突变会影响cPAL数据质量。大多数衔接子突变很可能通过寡核苷酸合成中的错误引入。预期低得多的突变率可由32个高忠实度PCR循环产生(32*1.3E-6<1于10,000bp中)。数据来自NA07022

表2

DNB的生成

用Phi29聚合酶复制根据上述方法生成的环。使用控制下的同步合成方法以回文结构得到改善的单链DNA环的形式获得数百个串联拷贝的测序基底，本文称为DNA纳米球(DNB)(图39C)。在90℃下，在含有50mM的Tris-HCl(pH7.5),10mM(NH₄)₂SO₄,10mMMgCl₂,4mMDTT,和100nMAd4PCR5B引物的400μL反应中孵育100fmolAd1+2+3+4ssDNA环(图40)。将该反应调整为含有上述成分加上800μM各dNTP和320单位Phi29DNA聚合酶(Enzymatics)的800μL反应，并在30℃下孵育30分钟生成DNB。衔接子中的短回文结构(图40)通过可逆的分子内杂交促进ssDNA多联体螺旋成约300nm的紧实DNB，由此避免了与相邻DNB的交缠(本文也称为“复制子”)。同步滚环复制(RCR)条件组合和回文结构驱动的DNB组装生成超过200亿分立的DNB/mlRCR反应。这些紧实的结构可持续数月保持稳定而没有证据显示降解和交缠发生。

DNB随机阵列的生成

将DNB吸附于通过光刻法蚀刻的表面修饰的25×75mm硅基底上，所述硅基底具有约300nmDNB结合斑点的网格式图案化阵列(图39D)。与没有这种图案的表面上形成的阵列相比，使用网格式图案化的表面使每阵列的DNA含量和图像信息强度增加。这些阵列为随机阵列，因为在进行测序反应之前不知道哪些序列位于阵列各点。

为了制备图案化基底，将一层二氧化硅种植于标准硅片(SiliconQuestInternational,SantaClara,CA)的表面。将一层钛沉积在二氧化硅上，通过传统光刻法和干法蚀刻技术用基准标记将该层图案化。通过气相沉积将一层六甲基二硅胺烷(HMDS)(GelestInc.,Morrisville,PA)加至基底表面，并且通过向心力将深-UV、正型(positive-tone)光刻胶材料包被于表面上。然后，利用248nm光刻工具将光刻胶表面暴露于阵列图案，使光刻胶显影生成具有暴露的HMDS的分立区域的阵列。用等离子蚀刻法去除孔洞中的HMDS层，并且将氨基硅烷气相沉积于孔洞中以提供DNB附着位点。用一层光刻胶材料再次包被阵列基底并切成75mmx25mm的基底，用超声波剥离独立基底中的所有光刻胶材料。然后，将50μm聚苯乙烯珠和聚氨酯胶的混合物以一系列平行线的方式涂敷于各切开的基底，将盖玻片按压于胶线中形成六道引力/毛细管驱动的流动载片。图案化至基底上的氨基硅烷的特征(feature)充当单独DNB的结合位点，而HMDS抑制特征之间的DNB结合。吸移比载片上的结合位点多2至3倍的DNB，从而将DNB装载至流体载片的各流动通道中。在23℃下，在封闭腔室中孵育装载后的载片2小时，冲洗中和pH并除去未结合的DNB。

测序反应

对先前通过HapMap项目表征过的来自两个个体(欧洲后裔的白人男性(NA07022)和Yoruban女性(NA19240))的细胞系进行测序。此外，对来自PersonalGenomeProject白人男性样本(PGP1(NA20431))的成淋巴细胞DNA进行了测序。对四维强度数据进行自动聚类分析生成原碱基测定结果和相关的原碱基分数。

使用准确度高的cPAL测序化学过程独立测定与8个锚定位点中的每一个相邻的多至10个碱基(图39E)，得到总共31至35碱基配对的测定结果(每个DNB62至70个碱基)。cPAL为通过使用简并锚定的连接反应延长传统测序的开链杂交方法和连接技术，以在所有阅读位置具有相似准确度的方式生成与8个插入的衔接子位点(图39E，右侧)中的每一个相邻的延长的序列阅读长度(例如8至15碱基)(图43)。图43中，DNB位点表示一个DNB中70个经测序的位点。衔接子多达10个的读取位点按部分4所述检测。衔接子中的位点1至5表示为蓝条，衔接子中的位点6至10表示为红条。从左至右，衔接子和锚定阅读结构为：ad13’(1-5),ad25’(10-6),ad25’(5-1),ad23’(1-5),ad23’(6-10),ad45’(10-6),ad45’(5-1),ad43’(1-5),ad43’(6-10),ad35’(10-6),ad35’(5-1),ad33’(1-5),ad33’(6-10),ad15’(5-1)。通过映射测定结果到参比序列(在发现多个合理的匹配记录的情况下取得最佳匹配)以及计算每一位点的测定结果与参比序列之间的不同确定差异。开链碱基读取允许在其他良好测定结果中不时发生失败的碱基检测。大多数错误发生在小部分低质量碱基中。数据来自NA07022。总的来说，与每一衔接子相邻的约10个碱基可使用cPAL技术进行读取。

通过复合探针锚定连接(cPAL)对靶核算进行开链测序涉及检测由杂交至部分衔接子序列的锚定寡核苷酸以及在“询问位点”处含有特定核苷酸的荧光简并测序探针形成的连接产物。如果询问位点处的核苷酸与标靶中的检测位点处的核苷酸互补，则有利于连接，产生可由荧光成像检测的稳定的探针-锚定连接产物。

用四种荧光团鉴定测序探针中询问位点处的碱基，使用四种测序探针的集合询问每一杂交-连接-检测循环的单一碱基位点。例如，为了测定位点4(锚定序列的3’)，合并以下9-聚体测序探针，其中“p”表示可连接的磷酸，“N”表示简并碱基：

5’-pNNNANNNNN-Quasar670

5’-pNNNGNNNNN-Quasar570

5’-pNNNCNNNNN-Calfluorred610

5’-pNNNTNNNNN-荧光素

总共合成四十个探针(BiosearchTechnologies,Novato,CA)，并在较宽的消减峰值下进行HPLC-纯化。这些探针由5组设计成询问稳点1至5锚定序列5’的四个探针以及五组设计成询问位点锚定序列3’的四个探针构成。将这些探针合并成10个集合，通过总共16个锚定序列[4个衔接子×2个衔接子末端×2锚定序列(标准的和延长的)]将所述集合用于复合连接分析，由此称为复合探针-锚定连接(cPAL)。

为了测定与衔接子相邻的靶序列中的位点1至5，将1μM锚定寡聚体吸移至阵列上并在28℃下直接杂交于与靶序列相邻的衔接子区域持续30分钟。然后，将1000U/mlT4DNA连接酶加上四种荧光探针(在1.2μMT,0.4μMA,0.2μMC,和0.1μMG的典型浓度下)的混合物吸移至阵列上并在28℃下孵育60分钟。通过用150mMNaCl的Tris缓冲液(pH为8)洗涤除去未结合的探针。

总的来说，如果探针和与其杂交的靶核酸的区域完全互补，则T4DNA连接酶会以较高效率连接探针，但是连接酶的忠实度随着离连接位点的距离增加而降低。为了使测序探针与靶核酸之间不正确的配对引起的错误最小化，限制待检测的核苷酸与锚定探针和测序的连接点之间的距离是有用的。通过采用能够向未知靶序列中延伸5个碱基的延长的锚定序列，可以使用T4DNA连接酶读取靶序列中的位点6至10。

延长的锚定序列的生成涉及两个锚定寡聚体的连接，所述锚定寡聚体设计成在靶DNB上彼此相邻退火。第一-锚定寡聚体设计成在衔接子末端附近端接，第二-锚定寡聚体(在某种程度上由五个延伸至靶序列内的简并位点构成)设计成连接至第一锚定序列。此外，第二-锚定简并寡聚体被选择性地修饰成抑制不合适的(例如，自身)连接。对于3’延伸的锚定序列的组装(其将3’末端用于与测序探针连接)而言，第二-锚定寡聚体用5’和3’磷酸基团制备，从而第二-锚定序列的5’末端可连接至第一-锚定序列的3’末端，但是第二-锚定序列的3’末端不能参与连接，由此封闭第二-锚定连接产物。一旦延伸的锚定序列被组装，其3’末端通过T4多核苷酸激酶(Epicentre)的磷酸化活化。类似地，对于5’延伸的锚定序列(其将5’末端用于与测序探针连接)的组装而言，第一-锚定序列通过5’磷酸制备，第二-锚定序列的制备中不用5’或3’磷酸，由此，第二-锚定序列的3’末端可连接至第一-锚定序列的5’末端，但是第二-锚定序列的5’末端不能参与连接，从而阻止第二-锚定序列的连接产物。一旦延伸的锚定序列被组装，其5’末端通过T4多核苷酸激酶(Epicentre)的磷酸化活化。

第一-锚定序列(4μM)长度一般为10至12碱基，第二-锚定序列(24μM)的长度为6至7碱基，包括5个简并碱基。与使用高浓度标记探针的可替代方式相比，使用高浓度的第二-锚定序列引入的噪声可忽略不计，且成本最低。在28℃下将锚定序列与200U/mlT4DNA连接酶连接30分钟，然后洗涤三次，再添加1U/mlT4多核苷酸激酶(Epicentre)持续10分钟。然后如上述位点1至5的测定那样，对位点6-10进行测序。

成像后，用65％甲酰胺除去杂交的锚定-探针结合物，通过添加单一-锚定杂交混合物或双-锚定连接混合物开始该过程的下一循环。去除探针-锚定产物为开链碱基测定的重要特征。在干净DNA上开始新的连接循环得到连接产率为20至30％的准确检测，其可通过低浓度探针和连接酶以低成本和高准确率实现。

成像

将Tecan(DurhamNC)MSP9500液体处理器用于自动cPAL生物化学过程，将机械臂用于交换液体处理器和成像站之间的载片。成像站由以常规组件制成的四色照明荧光显微镜设备构成，包括按放大25倍操作的Olympus(CenterValley,PA)NA＝0.95水浸物镜和镜筒透镜；Semrock(Rochester,NY)双频道荧光过滤器，FAM/TexasRed和CY3/CY5；Wegu(Markham,Ontario,Canada)自动聚焦系统；与Lumatec(Deisenhofen,Germany)380液芯光导管偶联的Sutter(NovatoCA)300W氙弧灯；Aerotech(Pittsburgh,PA)ALS130X-Y阶段堆栈；以及两个Hamamatsu(Bridgewater,NJ)91001-百万像素EM-CCD照相机。每一载片分成6,396个320μmx320μm视野。将这些视野组织成六个1066-视野组，对应于基底上的胶线生产的通道。生成各组的四色图像(需要更换一个过滤器)，然后移至下一组之前。在分步重复模式中以每秒7帧的有效速率拍摄图像。为了最大限度地使用显微镜和使生物化学循环时间与成像循环时间匹配，在生物化学过程开始时间交错的条件下平行处理6个载片，从而使载片N的成像刚好在载片N+1正完成其生物化学循环时完成。

其它实施方式可包括连续成像，通过进一步改良照相机可使所述连续成像的产率提高30倍，达到250Gb/仪器天以及超过1Tb/仪器天。

碱基测定

每一成像视野含有225x225＝50625个斑点或可能的DNB特征。通过以下步骤对与视野相关的4个图像进行独立加工以提取DNB强度信息：1)背景移除，2)图像配准，3)强度提取。首先，通过形态开运算(腐蚀后膨胀)操作估算背景。随后从原始图像中减去得到的背景图像。然后，将柔性网格与图像配准。除了校正旋转和平移之外，该网格使得能缩放/调节具有(R-1)+(C-1)度(此处：R＝C＝225)的自由度，其中R和C分别为DNB行与列的数目，由此可使网格的每一行或列微微漂浮以与DNB阵列最佳配合。该过程调节图像中的光学像差以及每DNB的部分像素。最后，对各网格点而言，考虑了一个像素的半径；在该半径内，计算顶部3个像素的平均值并作为提取的该DNB的强度值返回。

然后对来自各视野的数据进行碱基测定，这包括四个主要步骤：1)串扰校正，2)标准化，3)测定碱基，和4)原碱基评分计算。首先，应用串扰校正减少四个频道之间的光学(固定的)和生物化学(可变的)串扰。从各视野的数据估算所有参数(固定的或可变的)。通过约束优化算法将具有四个拦截线(在一点)的系统拟合至四维强度数据。将顺序二次规划和遗传算法用于优化过程。然后将拟合模型用于将数据倒转-转换为标准间隔。串扰校正之后，通过使各点分布在相应频道上来独立标准化各频道。然后，选择离各点最近的轴作为其碱基测定结果。不管质量如何，在所有斑点上测定碱基。然后，每一斑点得到原碱基评分，反映了该特定碱基测定结果的置信水平。通过几个分项分数的几何学方式进行原碱基评分计算，所述几何学方式捕获各集群的强度及其相对位置并将数据点的位置散布于其集群内。

DNB映射和序列组装

使用本领域已知方法以及如2009年4月29日提交的61/173,967中所述，将序列测定结果映射到人基因组参比组装，为了所有目的，特别是为了与序列组装和将序列映射到参比序列有关的所有教导，上述文献的全部内容通过引用并入本文。序列测定结果的组装和映射得到约124至约241Gb映射和约45至87倍/基因组的全基因组覆盖率。

本发明的有缺口的阅读结构需要进行一定调整以进行标准信息分析。如果固定测定结果之间的缺口的长度(例如，为最常见的值)，用N代替阳性缺口并对重复阅读的碱基位点使用一致测定，则将各臂表示为碱基的连续字串是可能的。可使用包括标准Smith-Waterman局部比对评分在内的动态编程或通过改良的使插入或缺失只发生在测定结果之间的缺口位置的评分方案比对这种字串和参比序列。还可使用用于涉及参比基因组的指标化的一些形式的短序列测定结果的高速映射的方法，尽管依赖于无缺口的长于10碱基的种子的指标限制了可与指标比较的臂的一部分和/或需要限制所允许的缺口尺寸。在模拟过程中，我们发现尽管缺失小部分(<1％)臂的正确的缺口结构，也可大幅增加变异测定错误，因为我们错过了这些臂的正确比对，由此可能太多地信任用错误的缺口结构进行的假映射。因此，本发明提供可找出几乎所有正确映射的有效映射DNB的方法。

在两阶段程序中比对配对的臂的测定结果与参比基因组。首先，使用参比基因组的标引独立比对左臂和右臂。首次搜索会找到与最多两个单一-碱基取代的臂匹配的基因组中的所有位点，但是可能找到具有多达五个错配的一些位点。进一步限制报告的匹配中的错配的数目，从而找到与参比长度相同的随机序列的匹配的概率<4^-3。如果特定臂具有超过1000个比对结果，则不会再向前比对，且该臂被标记为“信号强(overflow)”。第二，对于第一阶段鉴别的左臂的每个位点，对右臂进行局部比对过程，该过程被约束于基因组间隔中，所述基因组间隔可从配对物距离(此处，0至700碱基距离)的分布得知。在该过程中允许高达四个单一碱基的错配；进一步限制错配的数目以使所有配对的随机匹配的概率<4^-7。在右臂匹配的附近对左臂进行相同的局部搜索。

在两个阶段，通过尝试缺口值的多个组合对带有缺口的臂的测定结果进行比对。通过比对对缺口值进行宽松限制的文库中的臂测定结果样本估算每一文库的缺口值的频率。在大容量比对过程中，考虑到性能因素，只使用一部分缺口值；被忽视的缺口值的累积频率为约10^-3。两个阶段均能够比对含有未成功测序(无测定结果)的位点的臂。上述概率计算考虑了臂中无测定结果的数目。最后，如果配对具有任何一致的臂位点(即，左臂和右臂以合适的顺序并在预期配对距离分布范围之内位于相同链上)，那么只保留这些位点。否则，保留配对的所有位点。或者，考虑到性能因素，每一臂最多报告50个位点；具有更多保留位点的臂标记为“信号强”，且不报告任何位点。通过映射阅读成像的斑点的总数据产率为40至50％，反映出所有过程低效中的末端-末端丢失，所述过程低效包括空的阵列斑点、低质量区域、异常DNB和非人类(例如EBV来源的)DNA的DNB。

使用本领域已知方法和本文所述的方法通过测定结果组装基因组序列。随后，将组装的序列与参比序列进行比较以确认。

对组装的基因组数据集按常规鉴别QC分析方案进行处理以确认其样本来源。发现组装得到的SNP基因型与独立获自原始DNA样本的那些SNP基因型高度一致，说明该数据集来自目标样本。同时，各通道中的线粒体基因组覆盖足以支持通道水平的线粒体基因分型(平均31倍/通道)。对每一通道的39-SNP线粒体基因型进行编辑，并将其与总数据集进行比较，证实每一通道来源相同。

这和映射覆盖率显示严重偏离了Poisson预期但是只有一小部分碱基具有无效覆盖(图44)。对于各样本而言，最少覆盖基因组的10％的覆盖率在<13-和<22-倍之间变化。许多这种覆盖率偏差由NA07022中的局部GC含量引起，一种通过NA19240中改良的PCR条件被显著减少的偏差(图44)。各基因组的累积覆盖率在图44A中显示。使分布标准化以容易比较。提供Poisson抽样的测定结果的分布以及与模拟的400bp配对DNB测定结果的分布进行比较。在NA19240中，只有百分之几的可映射基因组超过3倍未被表示或超过2倍被过多地表示。图44B显示基因组的覆盖率百分数，根据对平均标准化的覆盖率绘制的501-碱基窗口的GC含量分类，通过代表NA07022和NA19240的基因组的累积分数报告。NA20431与NA07022相似。这两个文库之间的主要不同在于用于PCR的条件。NA19240通过使用上述SOM中描述的条件进行扩增。相比之下，NA07022通过使用两倍DMSO和甜菜碱(如用于NA19240一样)的量进行扩增，由此使基因组的高GC含量区被过多地表示。图44C显示通过作为NA07022中变体位点处实际覆盖深度的函数的杂合子(三角)或纯合子(圆圈)Infinium基因型检测InfiniumSNP的效率。如果单一-等位基因测定(一个交互等位基因，一个未测定的等位基因)通过测定阈值，则考虑检测该单一-等位基因。

相对于来自NA07022的独有映射测定结果中的参比基因组的不一致为2.1％(约1.4％至3.3％/载片)。然而，考虑到只有达到最高分数85％的碱基测定才可将原测定的不一致降低至0.47％(包括真正的变体位点)。

鉴别出相对于参比基因组的291万至404万个SNP的范围，其中的81至90％以dbSNP以及短的缺失或插入和大块取代来报告(图45-各缺失/插入位点处的左侧条形为基因组，右侧条形为译码)。通过使用局部重新组装方法，检测到多达50bp大小的缺失或插入。如预期的那样，编码区中的缺失或插入易于以长度3的倍数发生，说明可能选择最低限度地影响编码区的变体(图45)。

如序列准确性的初次测试，将根据上述方法生成的测定的SNP与报告的NA07022的HapMap相I/IISNP基因型比较。本发明的方法完全测定94％的这些位点，整体一致性为99.15％(图46-剩余6％位点为半测定的或未测定的)。

此外，HapMapSNP的96％Infinium(Illumina,SanDiego,CA)子集被完全测定，整体一致性为99.88％，说明了这些基因型被更加准确地报告。与可得到的SNP基因型类似的一致性在NA19240中(测定率超过98％)和NA20431中可观察到(图47)。图47中的表格显示与HapMapProject(release24)生成的基因型以及HapMap基因型的或来自Affy500k基因分型(一式二份检测基因型，只考虑具有相同测定结果的SNP)的最高质量的Infinium检测子集的一致性。

由于全基因组假阳率不能通过已知SNP位点精确估算出，所以对NA07022中新的非同义变体的随机子集进行测试，因为该分类含有较多错误。通过291个这种位点的靶定测序推断错误率，估算出假阳率为约1个变体/100kb，包括<6.1替换的变体,<3.0短序列缺失的变体,<3.9段序列插入的变体以及<3.1封闭的变体/Mb。(表3)

表3

图48显示1MInfiniumSNP与测定的变体一致(表示为按照变体质量分数排序的数据的百分数)。不一致的位点的百分数可通过使用过滤所述数据的百分数的变体质量分数阈值降低。注意不同比例的y-轴。数据来自NA07022。

异常配对缺口可能说明存在相对于参比基因组的长度改变的结构变体和重排。在NA07022中鉴别出总共2,126个集群的这种异常配对。基于PCR证实了一种这样的杂合的1500-碱基缺失。通过添加或缺失单一Alu重复元件使超过一半的集群的大小一致。

全基因组测序的一些应用可得益于最大的发现速度，尽管以额外的假阳性为代价，而对于其他应用而言，优选较低的发现速度和较低的假阳率。使用变体质量分数调整测定速率和准确性(图48)。此外，新颖率(性对于dbSNP)也是变体质量分数的函数。

图49显示随变体质量分数阈值的变化而变化的新颖变异测定值(未被dbSNP证实，release129)的比例。变体质量分数可用于选择期望的新颖率(noveltyrate)和测定速率之间的平衡。图中的各点为在单一变体质量分数阈值下检测到的已知的和新颖的突变的数目。带有点的线根据从已知突变测定的最高评分20％推断得到的新颖率。注意新颖率不直接表示错误率，并且变体质量分数对于不同变体类型而言具有不同含义。数据来自NA07022。

用Trait-o-Matic自动注解软件处理NA07022数据，产生1,159个经注解的变体，其中14个暗示可能的疾病(图50)。

一旦用于证实测序的位点被鉴别出来，就用JCVIPrimerDesigner(http://sourceforge.net/projects/primerdesigner/,S1)(以Primer3为基础的管理和流程套件)设计侧接目标变体的PCR引物序列。通过Taq聚合酶使用合成的寡聚体[IntegratedDNATechnologies,Inc.(IDT),Coralville,IA]扩增所述位点，通过SPRI(Agencourt)纯化PCR产物。对纯化的PCR产物进行双链Sanger测序(MCLAB)。过滤得到的痕量产物以产生高质量数据，通过TraceTuner(http://sourceforge.net/projects/tracetuner/)运行产生混合的碱基测定结果，通过EMBOSSSoftwareSuite(http://emboss.sourceforge.net/,)中的应用程序与其预期的测定序列进行比对。对于各位点而言，通过基于预测的突变修饰参比序列来生成每一链的预期的测定序列，从而表达两个等位基因序列的结合。确定基因座以证实相应的痕量产物是否与预期的测定序列在至少一条链的该突变位点处准确比对。通过对痕量产物进行目测可分辨由背景噪声引起的任一链的不一致或差异。

编码SNP的分析

用Trait-o-Matic软件分析NA07022中鉴别出的所有SNP变体。作为网页运行的该软件回送在HGMD、OMIM和SNPedia(引用的SNP)中发现的所有非同义SNP(nsSNP)变体，以及在之前的数据库中未具体列出的，但在OMIM(未引用的nsSNP)中列出的基因中出现的所有nsSNP。用Trait-o-Matic分析NA07022基因组回送了1,141个变体，包括605个引用的nsSNP和536个未引用的nsSNP。用BLOSUM100过滤320个变体得分低于3，白种人/欧洲人(CEU)群中具有小等位基因频率(MAF)>0.06的725个变体(HapMap和1000个基因组频率数据的加权平均数)留下55个引用的nsSNP和41个未引用的nsSNP。除去41个引用的nsSNP，要么是因为它们的表型证据仅仅基于结合研究，要么是因为它们与疾病不相关(例如嗅觉受体、血型、眼睛颜色)，并且除去38个未引用的nsSNP，因为它们的功能性影响不显著。图50列出了APOE中具有潜在表型影响的剩下的14个引用的nsSNP(12个杂合位点和一个复合杂合位点)，三个未引用的nsSNP(两个无义突变和一个纯合突变)以及两个常规变异。

实施例4DNB阵列的装载后处理

DNB装载

吸移比载片上的DNB结合位点多2至3倍的DNB将DNB制剂装至流动载片的通道中。在23℃下在封闭腔室中孵育装载后的载片2小时，并冲洗以中和pH和除去未结合的DNB。

装载后处理

装载后用缓冲溶液首次冲洗DNB，然后用含有核酸浓缩剂(例如，诸如异丙醇之类的醇)和体积排除剂(例如，聚乙二醇，PEG)的组合物原位处理，再以Tris-柠檬酸盐(pH7.5)冲洗以除去醇和聚乙二醇(PEG)，接着进行包被步骤。异丙醇使核酸脱水并沉淀核酸以影响DNB的浓缩和表面活性。也可使用其他醇，包括但不限于乙醇、丁醇和苯酚。PEG通过有效浓缩DNB的排除体积效应进一步影响DNB的表面活性。通过分开使用，所述醇和体积排除剂分别具有有益效果。然而，我们观察到当在单一的冲洗步骤中组合使用这两个成分会产生协同作用。相比单独使用所述醇和体积排除剂中的一种或者按顺序使用这两种成分，所述醇和体积排除剂一起使用提供更高的稳定性。对于70个循环的测序程序而言，我们将两种成分组合起来以达到之后的循环所需要的质量和稳定性。根据70个循环测序程序中的DNB阵列的可获得的信号质量(强度和信噪比)和稳定性优化冲洗方案和缓冲液组合物。具体而言，在装载至载片上之后，用210mM氢氧化钾、100mM柠檬酸(DNB冲洗缓冲液)冲洗基底以除去多余的DNB。然后用60％异丙醇、5％PEG4000(w/v)(DNBCrash缓冲液)冲洗基底以浓缩基底表面的DNB。然后用Tris-柠檬酸盐+150mMNaCl,5％甘油,0.1％吐温-80(检测缓冲液(Readbuffer))冲洗基底以除去DNACrash缓冲液。

然后是DNB包被处理。用0.5mg/ml牛血清白蛋白(BSA；NewEnglandBiolabs),225mM钾,100mM柠檬酸,4mM二硫苏糖醇,10mMEDTA(蛋白洗涤缓冲液)冲洗基底，并孵育15分钟以使BSA充分吸附。含有人血清白蛋白的蛋白洗涤缓冲液提供类似的有益效果。然后用40％异丙醇,15％PEG4000(Crash缓冲液)冲洗基底。最后，用检测缓冲液冲洗基底，之后流动载片为测序做好准备。

普通的cPAL测序过程包括约70个循环。以自动处理将DNB包被于一层部分变性的BSA，这样覆盖了DNB和基底表面这两者并且大大提高了阵列中的DNB的稳定性以防止化学降解和物理降解。没有这种包被的情况下，在少于30个探测循环中所探测的DNB信号强度和特异性的质量完全退化。具有这种包被的情况下，DNB阵列成功经过超出100个循环的cPAL测序并且在经过70个循环时显示很少降解或没有降解。

已经观察到如果在开始装载后直接进行包被处理，则阵列中的单个DNB以一定程度散布在表面上。在包被之前添加冲洗步骤和随后的影响DNB浓缩的洗涤步骤，从而降低散布量，防止相邻DNB彼此接触，并提高通过该探测DNB产生的数据质量。

本说明书对此处描述的技术的方法学、系统和/或结构及其在实例方面的用途进行了充分的描述。虽然以上对所述技术各个方面的描述有一定程度的特殊性，或者是针对一或多个个别方面，本领域技术人员可以在不脱离该技术的精神或范围的情况下，对公开的方面做各种改进。因为在不脱离这里描述的技术的情况下，可以进行许多改动，合适的发明范围存在于后面所附的权利要求书。因此还考虑了其他方面。此外，应当明白，任何操作都可以按任何顺序进行，除非明确地另有说明或者权利要求的语言本质上要求某个特定顺序。以上说明书中含有的和附图中显示的所有事物应当被理解为只是对特定方面的说明，并不限于上述实施方式。除非根据上下文很清楚或者明确地申明了，否则文中给出的任何浓度值通常都是就混合液值或者百分比而言的，没有考虑在加入混合物的特定成分时或者之后的任何转换。对于没有已明确并入文中的，为了所有目的，本公开文本中提及的所有已出版的参考文献和专利文件均通过引用全文并入本文。在不脱离以下权利要求中限定的本发明的技术的基本元素情况下，可以对细节或结构进行改变。

Claims

1.一种处理核酸阵列以在核酸分析过程中提高所述阵列的稳定性的方法，所述方法包括：

(a)提供核酸阵列，所述核酸阵列包含(i)具有表面的支撑物和(ii)附着于所述表面的核酸分子；

(b)浓缩附着于所述表面的核酸分子，从而生成浓缩的核酸分子；以及

(c)用蛋白质包被所述浓缩的核酸分子。

2.如权利要求1所述的方法，其中，所述核酸分析包括核酸测序、核酸杂交分析或者以酶的方式协助的核酸分析。

3.如权利要求1所述的方法，其中，所述浓缩的步骤包括使所述阵列与含有核酸浓缩剂的组合物、含有体积排除剂的组合物或者含有核酸浓缩剂和体积排除剂这两者的组合物接触。

4.如权利要求3所述的方法，其中，所述核酸浓缩剂为醇。

5.如权利要求4所述的方法，其中，所述醇为异丙醇。

6.如权利要求3所述的方法，其中，所述体积排除剂为聚乙二醇。

7.如权利要求1所述的方法，所述方法包括用含有蛋白质的组合物包被所述核酸分子，所述蛋白质与所述表面结合并且不干扰所述核酸分析。

8.如权利要求7所述的方法，其中，所述蛋白质是部分变性的。

9.如权利要求7所述的方法，其中，所述蛋白质为血清白蛋白。

10.如权利要求9所述的方法，其中，所述蛋白质为牛血清白蛋白或人血清白蛋白。

11.如权利要求1所述的方法，其中，所述核酸选自DNA和RNA。

12.如权利要求11所述的方法，其中，所述DNA为单链DNA。

13.如权利要求12所述的方法，其中，所述单链DNA为DNA纳米球。

14.如权利要求1所述的方法，其中，所述分析为测序。

15.一种方法，所述方法包括：(a)提供DNB阵列，所述DNB阵列包含(i)具有表面的支撑物和(ii)非共价地附着于所述表面的DNB；(b)使附着于所述表面的DNB与含有核酸浓缩剂的水溶液、含有体积排除剂的水溶液或者含有核酸浓缩剂和体积排除剂这两者的水溶液接触，由此生成浓缩的DNB；以及(c)用蛋白质包被所述浓缩的DNB，从而稳定所述浓缩的DNB。