CN101495654A

CN101495654A - 无凝胶珠基测序的试剂、方法和文库

Info

Publication number: CN101495654A
Application number: CNA2007800222109A
Authority: CN
Inventors: K·麦柯南; A·布兰查德; G·科斯塔
Original assignee: Applera Corp
Current assignee: Applied Biosystems Inc
Priority date: 2006-04-19
Filing date: 2007-04-19
Publication date: 2009-07-29
Also published as: EP2007907A2; WO2007121489A3; WO2007121489A2; JP2009538123A; AU2007237909A1; CA2649725A1; US20090062129A1

Abstract

本发明提供了通过沿单链模板进行双链体延伸的连续循环测定核酸序列的方法。该循环包括以下步骤：延伸、连接、优选切割。在某些实施方式中，所述方法利用了含有硫代磷酸酯连接的延伸探针，并利用了适合切割这种连接的物质。在某些实施方式中，所述方法利用了含有脱碱基残基或损伤碱基的延伸探针，并利用了适合切割核苷和脱碱基残基之间的连接的物质和/或适合去除核酸中的损伤碱基的物质。本发明提供了用至少两种区别标记的探针家族测定序列信息的方法。在某些实施方式中，该方法在每个循环中从模板的多个核苷酸中各自获得小于2位信息。在某些实施方式中，对连接于微粒的模板进行测序反应，该珠固定在半固体支持物中或之上或连接于基材。本发明还提供了适用于该方法的含有硫代磷酸酯连接或引发残基的标记的延伸探针组。此外，本发明包括去除起始寡核苷酸和延伸链以及用不同起始寡核苷酸进行后续反应，从而在一个模板上进行多个测序反应。本发明还提供了制备模板，特别是对多种不同模板进行平行测序的有效方法。本发明也提供了进行连接和切割的方法。本发明也提供了含有成对标签的核酸片段新文库、制备连接有多种不同模板(如含有成对标签)的微粒和单独测序这些模板的方法。本发明也提供了自动化测序系统、流动室、图像加工方法和储存计算机可执行指令(如进行图像加工方法)和/或序列信息的计算机可读介质。在某些实施方式中，将序列信息储存于数据库中。本发明还提供封闭寡核苷酸和用其促进测序的使用方法。还提供含有连接有模板并在不存在半固体介质的情况下连接于基材的微粒的阵列，和对该模板测序的方法。本发明还提供用微粒将模板“印迹”到半固体介质或基材上产生的核酸集落阵列，及其测序方法。

Description

无凝胶珠基测序的试剂、方法和文库

政府支持

本发明是在政府支持(NIH授予的资助号R01-HG-003570)下进行的。政府享有本发明的某些权利。

相关申请的交叉参考

本申请要求2006年4月19日提交的共待审美国临时申请60/793,702的权利和优先权，将其全文以引入的方式纳入本文。本申请要求涉及2005年2月1日提交的临时申请USSN 60/649,294；2005年2月25日提交的USSN60/656,599；2005年4月21日提交的USSN 60/673,749，、2005年7月15日提交的USSN 60/699,541和、2005年9月30日提交的USSN 60/722,526和USSN 11/345,979的优先权和权益，所有这些文献以引入的方式纳入本文。

发明背景

核酸测序技术在从基础研究到临床诊断的各种领域中都非常重要。从这种技术获得的结果可包括不同程度的特异性信息。例如，有用信息可包括：确定具体多核苷酸的序列与参比多核苷酸是否不同，确认样品中是否存在特定多核苷酸序列，确定部分序列信息如鉴定多核苷酸内的一个或多个核苷酸，测定多核苷酸内核苷酸的种类和顺序等。

DNA链一般是由四种类型的亚基组成的聚合物，这些亚基即含有腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)碱基的脱氧核苷酸。这些亚基通过共价磷酸二酯键互相连接，该键将一个脱氧核糖基团的5’碳与下一个基团的3’碳连接起来。大多数天然产生的DNA由两条这种链组成，这两条链以反平行取向排列，通过互补碱基，即A和T以及G和C之间形成的氢键连接在一起。

随着链终止或双脱氧核苷酸法(Sanger等，Proc.Natl.Acad.Sci.74：5463-5467，1977)和化学降解法(Maxam和Gilbert，Proc.Natl.Acad.Sci.74：560-564，1977)的发展，可以进行大规模DNA测序，其中前者已被广泛应用、改进和自动化。具体说，在开发自动DNA测序仪中使用荧光标记的链终止物非常重要。上述两种方法的共同之处在于产生了大小不同的标记DNA片段的一种或多种聚集体，其必须随后根据长度进行分离以鉴定所述片段3’端的核苷酸(链终止法)或最近从所述片段上切下的核苷酸(化学降解法)。

虽然目前可用的测序技术已经实现了重大进展，如对许多完整基因组进行测序，但这些技术有许多缺点，并在许多方面还非常需要对其进行改进。一般用聚丙烯酰胺凝胶电泳分离标记的DNA片段。然而，已证明此步骤在许多情况下是限制测序的速度和准确性的主要瓶颈。虽然证明毛细管电泳(CAE)是能够完成人类基因组计划的突破口(Venter等，Science，291：1304-1351，2001；Lander等，Nature，409：860-921，2001)，但仍然有显著的缺点。例如，CAE仍然需要耗时的分离步骤，并且仍然涉及根据大小来区分，这可能是不准确的。

已经提出了链终止法的各种替代方法。在一种通常称为“通过合成测序”的方法中，寡核苷酸引物首先与靶模板杂交。然后通过聚合酶-催化加入不同标记的核苷酸的连续循环延伸引物，对所述核苷酸在生长的链中掺入了进行检测。对标记的鉴定用作对模板中互补核苷酸的鉴定。或者，可用每种核苷酸平行进行多项反应，并在使用一种具体核苷酸的反应中所标记核苷酸的掺入鉴定模板中的互补核苷酸。(参见例如，Melamede，美国专利4,863,849；Cheeseman，美国专利5,302,509，Tsien等，国际申请WO91/06678；Rosenthal等，国际申请WO 93/21340；Canard等，Gene，148：1-6(1994)；Metzker等，Nucleic Acids Research，22：4259-4267(1994))。

为了对任何显著长度的多核苷酸进行有效测序，需要聚合酶在每个循环中准确地掺入一个核苷酸。因此，通常需要采用用作链终止物的核苷酸，即其掺入防止聚合酶的进一步延伸。然后，必须用酶学或化学方法修饰掺入的核苷酸，以使聚合酶掺入下一个核苷酸。提出了可用作链终止物、但在其掺入后可被修饰从而使其在后续步骤中继续延伸的各种核苷酸类似物，。例如在美国专利5,302,509；6,255,475；6,309,836；6,613,513中已经对这样的“可逆终止物”进行了描述，。然而，已证明难以鉴定可由聚合酶高效掺入的可逆终止物，这可能是由于鉴于核苷酸很小，影响核苷酸用作终止物的修饰也会影响其掺入生长的多核苷酸链。

其它测序方法包括焦磷酸盐测序(pyrosequencing)，该方法基于检测DNA聚合期间释放的焦磷酸盐(PPi)(参见例如，美国专利6,210,891和6,258,568)。虽然不需要电泳分离，但焦磷酸盐测序有大量仍然限制其广泛应用的缺点(Franca等，Quarterly Reviews of Biophysics，35(2)：169-200，2002)。也提出了杂交测序作为替代方法(美国专利5,202,231；WO 99/60170；WO 00/56937；Drmanac等，Advances in BiochemicalEngineering/Biotechnology，11：16-101，2002)，但也有许多缺点，包括在区分高度相似序列时可能出错。理论上，通过外切核酸酶的单分子测序是快速测定长DNA分子序列的非常有效的方法，该方法包括标记一条链上的每个碱基，然后检测样品流中依次切下的3’末端核苷酸(Stephan等，JBiotechnoL，86：255-267，2001)。然而，在实现这种可能方法之前还有许多技术障碍等待克服(Stephan等，2001)。

基于具体序列变化的诊断测试已可用于各种不同疾病。人们普遍认为，人类基因组的测序开创了个性化用药的时代，其中治疗(包括预防性治疗)会适应患者的具体遗传组成或或根据具体等位基因或突变的鉴定结果进行选择。对快速和准确测定病原体如HIV的序列变体的需要逐步增加。因此，在不远的将来肯定更加需要准确和快速的序列测定。因此，需要所有类型的序列测定的改进方法。

发明概述

本发明提供了不需要进行片段分离，并在某些实施方式中也不需要采用聚合酶的新型改进测序方法。Macevicz的美国专利5,740,341和6,306,597描述了发明背景中讨论的方法的替代方法。该方法基于沿单链模板进行双链体延伸的重复循环。在这些方法的优选实施方式中，在每个循环中鉴定一个核苷酸。本发明改进了这些方法。这些改进能有效实施该方法，并且特别适合高通量测序。此外，本发明提供了用于序列测定的方法，该方法包括沿单链模板进行双链体延伸的重复循环但不包括在各循环中鉴定任何单个核苷酸。

在一个方面，本发明提供了基于沿单链模板进行双链体延伸、连接标记的延伸探针和检测标记的连续循环进行测序的改进方法。通常，从通过起始寡核苷酸和模板形成的双链体开始延伸。通过将寡核苷酸连接于起始寡核苷酸末端形成延伸的双链体延伸起始寡核苷酸，然后延伸的双链体通过连续连接循环重复延伸。各循环期间，通过鉴定顺利连接在寡核苷酸探针上或与其相连的标记鉴定模板中一个或多个核苷酸。也可在连接前，或者、此外，也可在连接后检测新加探针的标记。通常优选在连接后检测该标记。

在优选实施方式中，探针的末端位置(探针上与生长的双链体核酸链连接的核苷酸的相对末端)中具有不可延伸部分，以便在单个循环中仅发生延伸双链体的单个延伸。“不可延伸”指该部分未经修饰不可用作连接酶底物。例如，该部分可以是缺少5’磷酸或3’羟基的核苷酸残基。该部分可以是连接有防止连接的封端基团的核苷酸。在本发明优选实施方式中，连接后去除不可延伸的部分以再生可延伸末端，以便使双链体可在后续循环中进一步延伸。

为了能够去除不可延伸部分，在本发明的某些实施方式中，探针含有至少一个可在基本不切割磷酸二酯键的条件下切割的核苷间连接。本文中将这种连接称为“易切割的核苷间连接”或“易切连接”。切割易切割的核苷间连接能去除不可延伸部分，并再生可延伸的探针末端或留下修饰形成可延伸探针末端的末端残基。易切割的核苷间连接可位于探针中任意两个核苷之间。优选地，易切连接与新形成键相距至少几个核苷酸(即远端)。延伸探针中连接于可延伸末端的末端核苷酸和易切连接之间的核苷酸不需要与模板完全杂交。这些核苷酸可用作“间隔物”并用于鉴定位于模板间隔处的核苷酸，而不对该间隔内的每个核苷酸进行一个循环。

优选地，易切割的核苷间连接和标记的定位应使得易切割的核苷间连接的切割能够将延伸探针分离成标记部分和保持为生长的核酸链一部分的部分，从而使得标记部分扩散开(如通过提高温度)。例如，该标记可在连接核苷酸的相对末端连接于延伸探针的末端核苷酸。或者，可用任何其它方法去除该标记。

本发明者发现，磷酸二酯键中桥接氧原子之一被硫原子取代的硫代磷酸酯连接是特别有利的易切割的核苷间连接。硫代磷酸酯连接中的硫原子可连接于一个核苷的3’碳或相邻核苷的5’碳。

在上述方法的某些实施方式中，进行了许多测序反应。这些反应使用与模板的不同序列杂交的起始寡核苷酸，从而使得最初连接所发生的末端位于模板的不同位置上。例如，发生最初连接的位置可以通过增加1个核苷酸而移位，或互相“移相”。因此，用相同长度的寡核苷酸探针延伸的每个循环之后，不同模板上起始寡核苷酸的末端之间存在相同的相对相。可在各自含有相同模板的拷贝的独立容器中平行进行反应，或连续进行反应，即用初始起始寡核苷酸获得序列信息后去除模板上的延伸双链体，然后用杂交于该模板的不同序列的起始寡核苷酸进行其它反应。

在另一方面，本发明提供了可用于各种核酸操作的溶液。在一种实施方式中，本发明提供了含有或主要由1.0-3.0％SDS、100-300mM NaCl和5-15mM硫酸氢钠(NaHSO₄)的水溶液组成的溶液。该溶液可含有或主要由约2％SDS、约200mM NaCl和约10mM硫酸氢钠(NaHSO₄)的水溶液组成。例如，在一种实施方式中，该溶液含有2％SDS、200mM NaCl和10mM硫酸氢钠(NaHSO₄)的水溶液。在另一实施方式中，该溶液主要由2％SDS、200mM NaCl和10mM硫酸氢钠(NaHSO₄)的水溶液组成。在某些实施方式中，该溶液的pH为2.0-3.0，如2.5。该溶液可用于将双链核酸，如双链DNA分离成单链，即使双链核酸变性(解链)。在某些实施方式中，两条链都是DNA。在其它实施方式中，两条链都是RNA。在其它实施方式中，一条链是DNA，另一条链是RNA。在其它实施方式中，一或两条链同时含有RNA和DNA。在其它实施方式中，一或两条链含有至少一个除A、G、C或T以外的核苷酸。在一些实施方式中，一或两条链含有非天然产生的核苷酸。在其它实施方式中，一个或两个残基是引发残基，如脱碱基残基或损坏的碱基。在一些实施方式中，一个或多个残基含有通用碱基。在一些实施方式中，一或两条链含有易切连接。

双链核酸可以是完全或部分双链。它们可以是溶液中的游离分子，或者一或两条链可以与固体或半固体支持物或基材物理相连(如共价或非共价连接)。特别注意的是，在这些溶液中孵育的双链核酸在不用加热或不存在强变性剂的情况下有效分离成单链，加热或强变性剂会引起凝胶分层(如核酸位于或连接于半固体支持物如聚丙烯酰胺凝胶时)或可破坏非共价连接如链霉亲和素(SA)-生物素连接(如核酸通过SA-生物素连接连接于支持物或基材时)。在一种实施方式中，用该溶液分离其中一条核酸通过SA-生物素连接与小珠连接的双链核酸。

本发明也提供了分离双链核酸的链的方法，所述方法包括以下步骤：将双链核酸与任何上述溶液接触，如含有约1.0-3.0％SDS、约100-300mMNaCl和约5-15mM硫酸氢钠(NaHSO₄)，如含有1.0-3.0％SDS、100-300mMNaCl和5-15mM硫酸氢钠(NaHSO₄)的水溶液。在一种实施方式中，该溶液含有约2％SDS、200mM NaCl和10mM硫酸氢钠(NaHSO₄)，如2％SDS、200mM NaCl和10mM硫酸氢钠(NaHSO₄)。在另一实施方式中，该溶液主要由2％SDS、200mM NaCl和10mM硫酸氢钠(NaHSO₄)的水溶液组成。在某些实施方式中，该溶液的pH为2.0-3.0，如2.5。在一些实施方式中，在该溶液中孵育双链核酸。在其它实施方式中，用该溶液洗涤双链核酸(优选连接于支持物或基材的核酸)。在一些实施方式中，将双链核酸与该溶液接触足够时间以将至少10％双链核酸分子分离成单链。在一些实施方式中，将双链核酸与该溶液接触足够时间以将至少20％、30％、40％、50％、60％、70％、80％、90％、95％、98％、99％或更多的双链核酸分离成单链。在示范性实施方式中，将双链核酸与该溶液接触15秒-3小时。在另一实施方式中，将双链核酸与该溶液接触1分钟-1小时。在某些实施方式中，将双链核酸与该溶液接触约1、2、3、4、5、10、15、20、25、30、35、40、45、50、55或60分钟。该方法还可包括孵育一段时间后去除溶液或从溶液中去除一些或全部核酸的步骤。

该溶液可用于本文所述许多测序方法的一个或多个步骤，并可用于这些方法中的任何一种。例如，可用该溶液从模板上分离延伸的双链体。可在切割易切连接后用该溶液去除不再连接于延伸双链体的延伸探针部分。也可用该溶液分离三链核酸的链或分离含有互相杂交的自身互补部分的单链核酸的双链区。

在另一方面，本发明提供了使用至少两种可区分标记的寡核苷酸探针家族的集合用于获得序列信息的方法。探针家族中的探针含有不限定部分和限定部分。如上述方法中所述，从起始寡核苷酸和模板形成的双链体开始延伸。通过将寡核苷酸探针与其末端连接形成延伸双链体延伸起始寡核苷酸，然后通过连续连接循环重复延伸。该探针的末端位置(探针上连接于双链体的生长的核酸链的核苷酸的相对末端)中含有不可延伸的部分，以便在单个循环中延伸双链体仅发生一次延伸。每个循环期间，检测顺利连接的探针上或与其连接的标记，去除或修饰不可延伸部分以产生可延伸末端。该标记对应于该探针所属的探针家族。

连续的延伸、连接和检测循环产生连续顺利连接的探针所属探针家族的有序列表。用探针家族的有序列表获得序列信息。然而，了解新连接的探针属于哪个探针家族本身不足以确定模板中的核苷酸种类。相反，了解新连接的探针属于哪个探针家族能排除某些序列成为该探针限定部分序列的可能，但各位置上至少留下两种可能的核苷酸种类。因此，模板中位于新连接探针的限定部分的核苷酸的相对位置上的核苷酸种类至少有两种可能性(即与探针限定部分的核苷酸互补的核苷酸)。

在某些实施方式中，进行所需循环数之后，用探针家族种类的有序列表产生一组候选序列。这组候选序列可为达到目标提供足够的信息。在本发明的优选实施方式中，进行一个或多个额外步骤，以从候选序列中选择正确序列。例如，可将该序列与已知序列的数据库进行比较，与数据库中序列之一最接近的候选序列被选作正确序列。在其它实施方式中，用探针家族的差异编码组通过连续的延伸、连接、检测和切割循环对该模板进行另一轮测序，并用第二轮获得的信息选择正确的序列。在其它实施方式中，将至少一项信息与获自探针家族的有序列表的信息合并，以确定该序列。

本发明也提供了用探针家族进行测序时进行差错检查的方法。某些方法能区分单核苷酸多态性(SNP)和测序差错。

本发明也提供了含有至少两个感兴趣节段(如至少两个标签)和至少三个引物结合区(PBR)的核酸片段(如DNA片段)，以便从各片段扩增出至少两种不同模板，各自对应于一个感兴趣节段。“引物结合区”是寡核苷酸可杂交的核酸部分，从而使得该寡核苷酸可用作扩增引物、测序引物、起始寡核苷酸等。因此，引物结合区应具有已知序列，以选择适当的互补寡核苷酸。如本文和附图所用，用于本发明方法的核酸链的一部分可称为引物结合区，无论在本发明方法实施中引物确实结合于该区域或是结合于核酸链的互补链的对应部分。因此，在用于本发明所述方法中时，核酸的一部分可称为引物结合区，无论引物确实结合于该区域(在这种情况下引物的序列与该区域的序列互补或基本互补)或是结合于该区域的互补区(在这种情况下引物的序列与该区域的序列相同或基本相同)。感兴趣节段是需要其序列信息的任何核酸节段。例如，感兴趣序列可以是标签，出于本公开目的，可假定感兴趣节段是标签(本文中和其它地方也称为“末端标签”)。然而应理解，本发明不限于作为标签的感兴趣节段。在某些实施方式中，至少两个标签是成对标签。核酸片段可含有一对或多对标签，如一对或多对成对标签，如2、3、4、5或更多对成对标签。本发明还提供了含有这种核酸片段的文库，以及制备模板和文库的方法。

本发明还提供了微粒，如连接有至少两种不同的核酸群的珠，其中所述至少两种核酸群各自由多种基本相同的核酸组成，并且其中所述核酸群通过扩增(如PCR扩增)单个核酸片段产生。在一些实施方式中，所述单个核酸片段含有5’标签和3’标签，其中5’和3’标签是成对标签。在其中所述单个核酸片段含有一对5’标签和3’标签的一些实施方式中，连接于所述微粒的核酸群之一包括5’标签的至少一部分，并且连接于所述微粒的核酸群之一包括3’标签的至少一部分。在优选实施方式中，核酸群之一包括完整的5’标签，并且核酸群之一包括完整的3’标签。

核酸片段含有多个PBR，其中至少一个位于标签之间，并且其中至少两个侧接于含有标签的核酸片段部分，从而使得能够对含有5’标签的至少一部分的区域进行扩增，并能够对含有3’标签的至少一部分的区域进行扩增，以产生两种不同的核酸群。在优选实施方式中，可扩增完整的5’标签和完整的3’标签。例如，所述核酸片段可含有侧接于5’标签的第一和第二引物结合位点，以及侧接于3’标签的第三和第四引物结合位点。用结合于第一和第二引物结合位点的引物进行PCR扩增扩增5’标签。用结合于第三和第四引物结合位点的引物进行PCR扩增扩增3’标签。应理解，应选择引物，以便从各引物向含有待扩增标签的DNA片段区域进行延伸。或者，第一引物结合位点可位于所述标签之一的上游，并且第二引物结合位点可位于另一标签的下游，并且第三引物结合位点可位于所述两标签之间。第三引物结合位点用作PCR扩增的正向引物的结合位点，以扩增一个标签，并用作PCR扩增的逆向引物的结合位点，以扩增另一标签。因此，在本发明一种实施方式中提供了微粒，如连接有至少两种不同的核酸群的珠，其中所述至少两种核酸群各自由多种基本相同的核酸组成，并且其中第一种不同的核酸群包括5’标签，第二种不同的核酸群包括3’标签。

本发明还提供了微粒群，如其中各个微粒连接有至少两种不同的核酸群的珠，其中所述至少两种核酸群各自由多种基本相同的核酸组成，其中所述核酸群通过扩增(如PCR扩增)单个核酸片段产生。基本相同的核酸群可以是(例如)5’标签和3’标签。本发明还提供了这种微粒的阵列和测序方法，该方法包括对基本相同的核酸群进行测序。例如，在一种实施方式中，连接于单个微粒的这两种基本相同的核酸群各自包括不同引物结合区(PBR)，从而通过使用不同的测序引物，可在没有其它群体干扰的情况下对一个群体进行测序。如果将基本相同的核酸的两种以上基本相同的群体连接于一个微粒，每个群体可具有独特(即不同)的PBR，从而使得结合特定PBR的引物不结合连接于该微粒的其它基本相同核酸群中存在的PBR。因此，本发明方法能够产生连接有至少两种不同的基本相同的核酸群的微粒(如含有5’标签的模板的多个拷贝和含有3’标签的模板的多个拷贝)，其中所述标签是成对标签。按照本发明方法，所述模板含有不同PBR，它们为测序引物提供结合位点。因此，通过选择与含有5’标签的模板中PBR互补的测序引物，可从5’标签获得序列信息，而不受含有3’标签的模板的干扰，即使同一微粒上也存在含有3’标签的模板。通过选择与含有3’标签的模板中PBR互补的测序引物，可从3’标签获得序列信息，而不受含有5’标签的模板的干扰，即使同一微粒上也存在含有5’标签的模板。两个成对标签存在于同一微粒上时，意味着5’和3’成对标签的序列可互相连接，正如它们存在于单个模板时那样。

也提供了连接于基材的微粒阵列。在一个实施方式中，微粒通过单链模板系链连接于基材，即该单链模板一端连接于微粒，另一端连接于基材。某一端或两端的连接方式可以是共价或非共价连接。在某些实施方式中，任一连接方式或两个连接方式是生物素结合部分和生物素。

也提供了含有核酸集落的阵列，该核酸集落是通过拷贝连接于微粒的模板和任选地扩增该拷贝的模板产生的。也提供了封闭寡核苷酸和其使用方法，以及含有封闭寡核苷酸的组合物。

本发明也提供了可用于(例如)对在基本平坦的支持物中或上排列的模板进行测序的自动化测序系统。本发明还提供了一种图像处理方法，它们可储存于计算机可读介质如硬盘、CD、zip盘、闪存等中。在某些优选实施方式中，该系统每秒实现40,000个或更多核苷酸的鉴定。在某些优选实施方式中，该系统每天(24小时)产生8.6千兆(Gb)序列数据或更多。在某些实施方式中，该系统每天产生48Gb序列信息(核苷酸鉴定)或更多。

本发明也提供了储存应用本发明测序方法产生的信息的计算机可读介质。所述信息可以储存于数据库中。

本申请书参考了各种专利、专利申请、期刊文献和其它发表物，它们都以引入的方式纳入本文。此外，将以下标准参考书以引入的方式纳入本文：《新编分子生物学实验指南》(Current Protocols in Molecular Biology)，John Wiley & Sons，纽约，2002年7月编；Sambrook，Russell，和Sambrook，《分子克隆：实验室手册》(Molecular Cloning：A Laboratory Manual)，第三版，Cold Spring Harbor Laboratory Press，Cold Spring Harbor，2001。在本说明书与纳入作参考的任何文献有矛盾时，应以本说明书为准，应理解，本发明者能够在任何时间判断是否存在矛盾或不一致。

附图简要说明

请注意，图1-35中许多附图在USSN 11/345,979中是彩色附图，将这些附图以引入的方式纳入本文，并可用于替换本文提供的附图。

图1A是启动后接两个延伸、连接和鉴定循环的示意图。

图1B是从模板的游离端向支持物的向内延伸的实施方式中启动后接两个延伸、连接和鉴定循环的示意图。

图2显示了寡核苷酸探针的颜色分配方案，其中通过鉴定荧光团的颜色确定探针的3’碱基种类。

图3A显示了起始寡核苷酸杂交于模板结合区的不同位置上然后连接延伸探针形成延伸双链体的示意图。

图3B显示了用设计在模板分子上每6个碱基读出一次的延伸探针以延伸、连接和切割法组装连续序列的示意图。

图4A显示了5’-S-硫代磷酸酯连接(3’-O-P-S-5’)。

图4B显示了3’-S-硫代磷酸酯连接(3’-S-P-O-5’)。

图5A显示了用含有3’-O-P-S-5’硫代磷酸酯连接的延伸探针用于5’→3’方向测序的一个延伸、连接和切割循环的示意图。

图5B显示了用含有3’-O-P-S-5’硫代磷酸酯连接的延伸探针用于3’→5’方向测序的一个延伸、连接和切割循环的示意图。

图6A-6F是在单个模板上进行几个测序反应的更详细的示意图。这些反应利用结合于模板不同部分的起始寡核苷酸。

图7是显示了dA和dG的3’-亚磷酰胺的合成方案示意图。

图8A-8E是显示顺利连接和切割含有硫代磷酸酯连接的延伸探针的两个循环的凝胶移位试验结果。

图8F显示了DNA连接酶的连接机制的示意图。

图9是显示含肌苷的简并寡核苷酸探针的连接效率的凝胶移位试验结果。

图10是显示含肌苷的简并寡核苷酸探针在多种底物上的连接效率的凝胶移位试验结果。

图11显示了评价两种DNA连接酶(T4DNA连接酶和Tag DNA连接酶)各自在3’→5’延伸上的保守性的分析结果。

图12是用于评价T4DNA连接酶在连接寡核苷酸探针中保守性的显示含肌苷的简并寡核苷酸探针的连接效率的凝胶移位试验结果(A)和连接反应的直接测序分析结果(B)。将结果制表形成图C-F。

图13A-13C显示了当基于珠的模板包埋在玻片上聚丙烯酰胺凝胶中时在凝胶中进行连接的实验结果。图13A显示了连接反应方案。在存在(B)和不存在(C)T4DNA连接酶时在凝胶中进行连接反应。

图14A显示了用荧光标记的第二扩增引物和过量模板在连接有第一扩增引物的珠上进行乳液PCR反应的图像。

图14B(上)显示了连有与Cy3-标记寡核苷酸杂交的模板的珠固定在聚丙烯酰胺凝胶内的部分玻片的荧光图像。(此玻片用于不同实验，但本文所用玻片具有代表性)。图14B(下)显示了装有Teflon掩模以封闭聚丙烯酰胺溶液的玻片的示意图。

图15显示了经设计能解决探针特异性和选择性问题的三组标记的寡核苷酸探针，也显示了一组四种可光谱分辨的标记的激发和发射值。

图16显示了确认寡核苷酸探针的4色光谱特性的实验结果。用含有四种独特荧光团探针的寡核苷酸探针混合物在含有四种独特的单链模板群(A)的玻片上进行杂交和连接反应，在连接前和连接后在亮光下成像(B)，并用四种带通滤光片荧光激发成像。单个群体显示假色(C)。在(D)中对显示最小信号重叠的光谱特性作图。

图17显示了确认寡核苷酸延伸探针的连接特异性的实验。图17(A)显示了连接的示意图。图17(B)是亮光图像，图17(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图17(D)显示了在连接前或连接后从各标记检测到的荧光。

图18显示了确认寡核苷酸延伸探针的连接特异性和选择性的另一实验。图18(A)显示了连接的示意图。图18(B)是亮光图像，图18(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图18(D)显示了预计与观察到的连接频率，显示出根据具体延伸探针在群体中的比例预测的频率和观察到的频率高度相关。

图19显示了确认含有简并和通用碱基的寡核苷酸延伸探针库可用于在凝胶中提供特异性和选择性连接的实验。图19(A)显示了连接实验的示意图，说明了连接后四种差别标记的含肌苷的简并探针库。图19(B)是亮光图像，图19(C)是包埋在聚丙烯酰胺凝胶中的珠群连接后的相应荧光图像。图19(D)显示了预计与观察到的连接频率，显示出根据具体延伸探针在群体中的比例预测的频率和观察到的频率高度相关。图19(E)显示了原始未处理数据和代表前90％珠信号值的过滤数据的散点图。

图20是显示起始寡核苷酸(引物)与模板的连续杂交剥离循环中检测的信号的柱状图。如图所示，超过10个循环发生少量信号损失。

图21是可用于(例如)从排列于基本平坦的支持物中或之上的模板中收集序列信息的自动化测序系统的照片。也显示了控制该系统各组件运行、处理和储存收集的图像数据、提供用户界面等的专用计算机。图的下半部分显示了用于实现比重气泡置换的流动室的放大图。

图22显示了高通量自动测序装置示意图，该装置可用于测定排列于基本平坦的支持物中或之上的模板序列。

图23显示了不一致比对的散点图，它说明30帧中不一致的很少。

图24A-I显示了本发明流动室或其部分的各种不同视图的示意图。

图25A显示了优选探针家族集合的示范性编码，该集合包括含有长度为2个核苷酸的限定部分的部分限定探针。

图25B显示了优选的探针家族集合(上图)和连接、检测和切割循环(下图)。

图26显示了另一优选探针家族集合的示范性编码，该集合包括含有长度为2个核苷酸的限定部分的部分限定探针。

图27A-27C代表了以图解确定表1定义的24个优选探针家族集合的另一方法。

图28显示了较不优选的探针家族集合，其中探针含有长度为2个核苷酸的限定部分。

图29A显示了可用于产生探针家族集合的限定部分的图表，所述集合包括含有长度为3个核苷酸的限定部分的探针。

图29B显示了可用于从24个优选探针家族集合中产生探针家族集合的限定部分的作图方案图表，所述集合包括含有长度为3个核苷酸的限定部分的探针。

图30显示了用探针家族集合进行序列测定的方法。描述了采用优选探针家族组的一种实施方式。

图31A-31C显示用第一探针家族集合产生候选序列、并用第二探针家族集合解码，从而进行序列测定的方法。

图32显示用较不优选的探针家族组合进行序列测定的方法。

图33A显示连接有珠的玻片的示意图。DNA模板连接于珠。

图33B显示连接于玻片的珠群。下图显示白光(左)和荧光显微镜下的相同玻片区域。上图显示珠密度范围。

图34A-34C显示了核酸片段(模板)中存在的成对标签的两个标签以单个核酸群体的方式进行扩增和通过扩增方法将它们捕获到微粒上的方案。

图35A和35B显示了图35方案的引物设计和扩增的详细情况。出于清晰目的显示了核酸片段(模板)的两条链。以同一颜色表示具有相同序列的引物和引物结合区。例如，用深蓝色表示P1，表示微粒上和溶液中存在的引物P1的序列与所示模板链的相应彩色部分相同。模板的深蓝色区域(标记的P1)可称为引物结合区，尽管对应的引物(P1)实际上结合于另一条链的互补部分并与引物P1序列相同。

图35C和35D分别显示了连接于用图35A和35B所示方法产生的微粒的第一和第二标签的测序。

图36A显示了来自配对末端文库的模板分子，显示封闭寡核苷酸能与该模板的正向衔接子、逆向衔接子和内部衔接子部分杂交，这些部分是该文库成员共有的。该图下方显示衔接子和封闭寡核苷酸的示范性序列。图36A-36C的“ddBase”表示双脱氧核苷。“独特DNA序列”代表待测序靶区域。

图36B显示了来自片段文库的模板分子，显示封闭寡核苷酸能与该模板分子的正向衔接子、逆向衔接子和内部衔接子部分杂交，这些部分是该文库成员共有的。该图下方显示衔接子和互补封闭寡核苷酸的示范性序列。

图36C显示了来自模板分子进行滚环扩增(RCA)的文库的分子。RCA产生多个拷贝的模板分子独特部分(2)以及衔接子区(1)和扣锁区(3)。该图显示与模板的衔接子和扣锁部分杂交的封闭寡核苷酸，这些部分是该文库成员共有的。

图37显示几个扣锁探针序列和用RCA合成模板分子后将封闭该扣锁区的寡核苷酸的示范性序列。

图38显示不用半固体介质在基材上产生的微粒阵列(无凝胶微粒阵列)。

图39显示用无凝胶微粒阵列进行基于连接的测序的结果。

图40显示位于表面的微粒的示意图，并说明接触片(contact patch)和模板延伸产生的核酸集落的预计大小。

定义

为了易于理解本说明书，提供以下定义。应理解，通常，没有特别定义的术语被赋予通常含义或本领域通常接受的含义。

本文所用的“脱碱基残基”是具有去除含氮碱基或去除含氮碱基的重要部分以使得到的分子不再参与核苷或核苷酸的氢键特征后，保留的核苷或核苷酸部分结构的残基。可通过从核苷或核苷酸去除含氮碱基产生脱碱基残基。然而，术语“脱碱基”用于指残基的结构特征，不依赖产生残基的方式。本文所用术语“脱碱基残基”和“脱碱基位点”指核酸中缺少嘌呤或嘧啶碱基的残基。

本文所用的“脱嘌呤/脱嘧啶(AP)核酸内切酶”指在多核苷酸中切割脱碱基残基的5’侧、3’侧或5’和3’侧的键的酶。在本发明的某些实施方式中，AP核酸内切酶是AP裂解酶。AP核酸内切酶的例子包括但不限于：大肠杆菌(E.coli)核酸内切酶VIII及其同源物，大肠杆菌核酸内切酶III及其同源物。应理解，提到特定酶，如核酸内切酶如大肠杆菌Endo VIII、Endo V等时，也旨在包括本领域认为是同源物并且在去除损伤碱基和/或切割含有脱碱基残基或其它引发残基的DNA方面具有相似生化活性的得自其它物种的同源物。

本文所用术语“阵列”指分布于支持物基材上或之中的实体集合；单个实体之间优选间隔足够距离，以用各种技术鉴定该阵列的离散特征。实体可以是(例如)核酸分子，核酸分子克隆群，微粒(任选地连接有核酸分子克隆群体)等。用作动词时，术语“阵列”和其变化形式指形成阵列的任何方法，如将实体分布到支持物基材上或之中。

“损伤碱基”是与A、G、C或T不同的嘌呤或嘧啶碱基，使其成为通过DNA糖基化酶从DNA上去除的底物。尿嘧啶被认为是可用于本发明的损伤碱基。在本发明的一些实施方式中，损伤碱基是次黄嘌呤。

提到多核苷酸群体的一个多核苷酸中的某位置时，“简并”指在群体的不同成员之间形成占据该位置的核苷部分的碱基种类不同。因此，该群体含有在简并位置上序列不同的单个成员。术语“位置”指通常相对于5’或3’端、分配给多核苷酸中各核苷的数值。例如，可将延伸探针3’端的核苷指定为位置1。因此，在3’-XXXNXXXX-5’结构的延伸探针库中，N位于位置4。如果在该库的不同成员中，N的种类可以变化，则位置4被认为是简并位置。也称延伸探针库在位置N上简并。如果一个位置可被k种不同种类的核苷占据，则称该位置为k倍简并。例如，可由含两种不同碱基的核苷占据的位置是2倍简并。

“测定序列信息”包括“序列测定”，也包括其它水平的信息，如消除序列的一种或多种可能性。应注意，对多核苷酸进行序列测定通常产生对于完全互补(100％互补)的多核苷酸的等价信息，因此等效于直接对完全互补多核苷酸进行的序列测定。

提到多种元件，如寡核苷酸探针分子或其部分中的核苷时，“独立”指各元件的种类不限制或受限于任何其它元件的种类，如各元件种类的选择与任何其它元件的种类无关。因此，了解一种或多种元件的种类不能提供关于任何其它元件种类的任何信息。例如，如果各N的种类可以是A、G、C或T，与其它N的种类无关，那么序列NNNN中的核苷是独立的。

“连接”指在模板驱动的反应中在两个或多个核酸如寡核苷酸和/或多核苷酸的末端之间形成共价键或连接。键或连接的本质可以大不相同，并且连接可以以酶学或化学方式进行。

本文所用术语“微粒”指具有最小截面尺寸为50微米或更小，优选10微米或更小的颗粒。在某些实施方式中，最小截面尺寸约为3微米或更小，约为1微米或更小，约为0.5微米或更小，如约0.1、0.2、0.3或0.4微米。微粒可由各种无机或有机物制成，包括但不限于：玻璃(如孔径控制玻璃)、二氧化硅、氧化锆、交联的聚苯乙烯、聚丙烯酸、聚甲基甲基丙烯酸、二氧化钛、胶乳、聚苯乙烯等。各种合适的材料和其它考虑参见例如，美国专利6,406,848。获自Dynal，挪威奥斯陆的Dyna珠是可用于本发明的市售微粒的例子。可采用磁性反应微粒。某种优选微粒的磁性反应性有利于在扩增后收集和浓缩连接微粒的模板，并有利于其它步骤(如洗涤、去除试剂等)。在本发明的某些实施方式中，采用具有不同形状(如有些是球形且其他是非球形的)的微粒群。

本文所用术语“微球”或“珠”指直径为50微米或更小、优选10微米或更小的基本呈球形的微粒。在某些实施方式中，直径约为3微米或更小，约为1微米或更小，约为0.5微米或更小，如约为0.1、0.2、0.3或0.4微米。在本发明的某些实施方式中，采用单分散性微球群体，即微球的大小基本一致。例如，微粒直径的变异系数可小于5％，如2％或更小，1％或更小等。然而，在其它实施方式中，微粒群体的变异系数为5％或更大，如5％、5％-10％(包含性)、10％-25％(包含性)等。在某些实施方式中，采用混合的微粒群体。例如，可采用各自变异系数小于5％的两个群体的混合物，产生不具单分散性的混合群体。例如，可采用直径为1微米和3微米的微球混合物。在本发明的某些实施方式中，用连接于不具单分散性的微球群体的模板进行测序时，通过微球大小提供其它信息。例如，可将不同的模板文库连接于不同大小的微球。同时，由于小颗粒上可以连接较少的模板分子，所以信号强度可改变，这可以有助于进行多重测序。

本文所用术语“核酸序列”可以指核酸物质本身，并且不限于表征特定核酸，如DNA或RNA分子的生化特征的序列信息(即选自五个碱基字母A、G、C、T或U的字母的连续组合)。本文所述核酸以5’→3’取向表示，除非另有说明。

“核苷”包括连接于糖分子的含氮碱基。本文所用的该术语包括如Kornberg和Baker，《DNA复制》(DNA Replication)第2版(Freeman，旧金山，1992)所述的2′-脱氧和2′-羟基形式的天然核苷和核苷类似物。例如，天然核苷包括腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷。核苷“类似物”指含有修饰碱基部分和/或修饰糖部分的合成核苷，通常如Scheit，《核苷酸类似物》(Nucleotide Analogs)(JohnWiley，纽约，1980)所述。这种类似物包括经设计提高了结合特性、降低了简并性、提高了特异性等的合成核苷。核苷类似物包括2-氨基腺苷、2-硫代胸苷、吡咯并-嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧腺苷、8-氧鸟苷、O(6)-甲基鸟嘌呤、2-硫代胞苷等。核苷类似物可包括本文所述的任何通用碱基。

本文所用术语“有机体”指任何包含能够复制并且其序列测定令人感兴趣的核酸的有生命或无生命的实体。它包括质粒；病毒；原核生物、古细菌和真核细胞、细胞系、真菌、原生动物、植物、动物等。

提到探针和模板多核苷酸的突出链时，“完全匹配双链体”指一条链的突出链与另一条链形成双链体结构，从而使得双链结构中的每个核苷都与相对链上的一个核苷发生Watson-Crick碱基配对。该术语也包括可用于降低探针简并性的核苷类似物，如脱氧肌苷、具有2-氨基嘌呤碱基的核苷等的配对，而不管这种配对是否包括氢键形成。

术语“多种”指一种以上。

术语“多态性”具有本领域的普通含义，指同种个体之间的基因组序列差异。“单核苷酸多态性”(SNP)指单个位置上的多态性。

“多核苷酸”、“核酸”或“寡核苷酸”指通过核苷间连接相连的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。一般地，多核苷酸包括至少三个核苷。在本发明的某些实施方式中，延伸探针中的一个或多个核苷包含通用碱基。通常，寡核苷酸的大小范围从几个如3-4个单体单元到几百个单体单元。用字母序列如“ATGCCTG”代表多核苷酸如寡核苷酸时，应理解，核苷酸从左至右是5’→3’顺序，“A”指脱氧腺苷，“C”指脱氧胞苷，“G”指脱氧鸟苷，“T”指胸苷，除非另有说明。在本领域中，字母A、C、G和T一般可用于指代碱基本身、包含该碱基的核苷或核苷酸。

在天然产生的多核苷酸中，核苷间连接一般是磷酸二酯键，亚基称为“核苷酸”。然而，在本发明的某些实施方式中采用含有其它核苷间连接，如硫代磷酸酯连接的寡核苷酸探针。应理解，构成具有非磷酸二酯连接的寡核苷酸探针的一个或多个亚基可能不包括磷酸基团。认为这种核苷酸类似物属于本文所用术语“核苷酸”的范围，含有非磷酸二酯键连接的一个或多个核苷间连接的核酸仍然称为“多核苷酸”、“寡核苷酸”等。在其它实施方式中，多核苷酸如寡核苷酸探针包括含有AP核酸内切酶敏感位点的连接。例如，寡核苷酸探针可含有脱碱基残基、含有作为DNA糖基化酶去除底物的损伤碱基的残基，或者作为AP核酸内切酶切割底物的另一残基或连接。在另一实施方式中，寡核苷酸探针含有二糖核苷。

术语“引物”指长度一般约为10-100个核苷酸的短多核苷酸，通过与靶点杂交结合于靶多核苷酸或“模板”。引物优选为模板指导的与靶点互补的多核苷酸合成提供一个启动点，可以在合适的酶，辅因子，底物如核苷酸、寡核苷酸等存在下进行合成。引物一般提供可从其发生延伸的末端。就用于聚合酶如DNA聚合酶催化合成(如“通过合成测序”、聚合酶链反应(PCR)扩增等)的引物而言，引物一般含有、或可经修饰含有游离的3’OH基团。PCR反应一般采用一对引物(第一和第二扩增引物)，包括“上游”(或“正向”)引物和“下游”(或“反向”)引物，这对引物划定扩增区域的界限。就用于连续的延伸、连接(任选切割)循环进行合成的引物而言，引物一般含有、或可经修饰含有用作DNA连接酶的底物的游离的5’磷酸基团或3’OH基团。

本文所用“探针家族”指各自含有相同标记的一群探针。

提到多核苷酸时，本文所用“序列测定”、“测定核苷酸序列”、“测序”等术语包括测定多核苷酸中一部分和全部的序列信息。即，该术语包括关于靶多核苷酸的序列比较、指纹分析等水平的信息，以及感兴趣区域内靶多核苷酸的各核苷的快速鉴定和排序。在本发明的某些实施方式中，“序列测定”包括鉴定单个核苷酸，而在其它实施方式中，鉴定一个以上核苷酸。在本发明的某些实施方式中，收集单个循环中本身不足以鉴定任何核苷酸的序列信息。在本文中认为核苷、核苷酸和/或碱基的鉴定等效。应注意，对多核苷酸进行序列测定一般产生等价的完全互补(100％互补)多核苷酸的序列信息，因此等效于直接对完全互补多核苷酸进行的序列测定。

本文所用“测序反应”指一组延伸、连接和检测循环。去除模板上的延伸双链体并对模板进行第二组循环时，各组循环被认为是单独的测序反应，但可将得到的序列信息合并产生一个序列。

本文所用“半固体”指含有固体和液体组分的可压缩基质，其中液体占据了固体基质组分间的孔隙、空间或其它间隙。示范性半固体基质包括由聚丙烯酰胺、纤维素、聚酰胺(尼龙)和交联的琼脂糖、右旋糖苷和聚乙二醇制成的基质。可以在第二支持物，如基本平坦的刚性支持物上提供半固体支持物，第二支持物也称作基材，它能支持所述半固体支持物。

本文所用“支持物”指可将核酸分子、微粒等固定在其上或其中的基质，即它们可共价或非共价连接于该支持物，或者可将它们部分或完全包埋在该支持物中或之上，从而使得基本或完全防止它们自由扩散或相对移动。

“引发残基”是当其存在于核酸中时，相对于不包含引发残基的其他方面相同的核酸，使该核酸更易于被切割剂(如酶、硝酸银等)或切割剂组合切割(如切割核酸主链)的残基，和/或易于被修饰产生使该核酸更易受这种切割的残基。因此，核酸中存在引发残基可导致核酸中存在易切连接。例如，脱碱基残基是引发残基，因为核酸中存在脱碱基残基使该核酸易于被酶如AP核酸内切酶切割。含有损伤碱基的核苷是引发残基，因为核酸中存在包含损伤碱基的核苷也使该核酸更易被酶如AP核酸内切酶切割，如通过DNA糖基化酶去除损伤碱基后。切割位点可以是引发残基和相邻残基之间的键，或者可以是从引发残基移动一个或多个残基的键。例如，脱氧肌苷是引发残基，因为核酸中存在脱氧肌苷使该核酸更易被大肠杆菌核酸内切酶V及其同源物切割。这种酶能切割脱氧肌苷3’端的第二个磷酸二酯键。本文公开的任何探针可含有一个或多个引发残基。引发残基可以(但不一定)包含核糖或脱氧核糖部分。切割剂优选在没有引发残基时基本不切割核酸、但在相同条件下对含有引发残基的核酸有显著的切割活性的切割剂，所述条件可包括存在核酸修饰剂，以使其对切割剂更敏感。例如，优选地，如果含有长度相同的核酸的组合物中存在切割剂，该组合物中一种核酸含有引发残基、并且其他核酸不含所述引发残基，切割含有引发残基的核酸的概率至少是切割不含引发残基的核酸的10；25；50；100；250；500；1000；2500；5000；10,000；25,000；50,000；100,000；250,000；500,000；1,000,000或更多倍，切割含有引发残基的核酸的概率与切割不含引发残基但其它情况相同的核酸的概率之比为10-10⁶，或者其中的任何整数子范围。应理解，此比率可因具体核酸以及引发残基的位置和核苷酸环境而不同。

优选地，如果含有引发残基的核酸需要修饰以使核酸易于被切割剂切割，不难在合适修饰剂的存在下进行这种修饰，例如，以合理的产量和合理的时间进行修饰。例如，在本发明的某些实施方式中，在(如)24小时内、优选12小时内、更优选不足1分钟至4小时内修饰至少50％、至少60％、至少70％、优选至少80％、至少90％或更优选至少95％的含有引发残基的核酸。

本文列举了各种合适的引发残基和对应的切割试剂。可采用与本文所述活性相似的任何引发残基和切割试剂。本领域普通技术人员能够确定具体引发残基和切割试剂组合是否适用于本发明，如切割效率和速度、切割剂对含有引发残基的核酸的选择性等是否适用于本发明方法。需要注意的是，“引发残基”与仅形成限制性酶切位点的部分的核苷酸的不同之处在于，引发残基提高切割易感性的能力通常不显著取决于发现引发残基的具体序列内容，但如上所述，序列内容可能对修饰和/或切割的易感性有些影响。当然，根据周围的核苷酸，引发残基可能形成限制性位点的一部分。因此，在大多数情况下，所述切割剂不是限制性酶，但不排除采用既是限制性酶、又具有非序列特异性切割能力的酶。

本文所用的“通用碱基”是可与天然产生的核酸中发现的一种以上碱基“配对”的碱基，因此它可以取代双链体中天然产生的碱基。该碱基不需要能与每种天然产生的碱基配对。例如，某些碱基仅与嘌呤选择性配对，或仅与嘧啶选择性配对。某些优选的通用碱基(完全通用碱基)可与一般在天然产生的核酸中发现的任何碱基配对，因此可取代双链体中的任何这些碱基。该碱基与各种天然产生的碱基配对的能力不必相同。如果探针混合物含有包含不与所有天然产生核苷酸配对的通用碱基的探针(一个或多个位置)，具体探针的这个位置上可能需要利用两种或多种通用碱基，以便至少有一种通用碱基与A配对，至少有一种通用碱基与G配对，至少有一种通用碱基与C配对，至少有一种通用碱基与T配对。

本领域已知多种通用碱基，包括但不限于：次黄嘌呤、3-硝基吡咯、4-硝基吲哚、5-硝基吲哚、4-硝基苯并咪唑、5-硝基吲唑、8-氮杂-7-脱氮腺嘌呤、6H，8H-3，4-二氢嘧啶并[4，5-c][1，2]噁嗪-7-酮(P.Kong Thoo Lin.和D.M.Brown，Nucleic Acids Res.，1989，17，10373-10383)、2-氨基-6-甲氧基氨基嘌呤(D.M.Brown和P.Kong Thoo Lin，Carbohydrate Research，1991，216，129-139)等。次黄嘌呤是一种优选的完全通用碱基。含有次黄嘌呤的核苷包括但不限于：肌苷、异肌苷、2′-脱氧肌苷和7-脱氮-2′-脱氧肌苷、2-氮杂-2′脱氧肌苷。

本领域已知其它通用碱基，如以下文献的相关部分所述：Loakes，D.和Brown，D.M.，Nucl.Acids Res.22：4039-4043，1994；Ohtsuka，E.等，J.Biol.Chem.260(5)：2605-2608，1985；Lin，P.K.T.和Brown，D.M.，NucleicAcids Res.20(19)：5149-5152，1992；Nichols，R.等，Nature 369(6480)：492-493，1994；Rahmon，M.S.和Humayun，N.Z.，Mutation Research 377(2)：263-8，1997；Berger，M.等，Nucleic Acids Research，28(15)：2911-2914，2000；Amosova，O.等，Nucleic Acids Res.25(10)：1930-1934，1997；和Loakes，D.，Nucleic Acids Res.29(12)：2437-47，2001。通用碱基可以、但不一定与相对位置的碱基形成氢键。通用碱基可通过Watson-Crick或非Watson-Crick相互作用(如Hoogsteen相互作用)形成氢键。

在本发明的某些实施方式中采用包含脱碱基残基的寡核苷酸探针，而非采用包含通用碱基的寡核苷酸探针。脱碱基残基可占据四种天然产生核苷酸的相对位置，因此可起到与含有通用碱基的核苷酸相同的作用。在本发明的一些实施方式中，由AP核酸内切酶切割与脱碱基残基相邻的连接，但在存在其它易切连接(如硫代磷酸酯)并采用其它切割试剂的本发明实施方式中也可采用脱碱基残基(即起到通用碱基的作用)。

本发明某些优选实施方式的详述

A.通过连续的延伸、连接和切割循环测序

图1A用图解法显示了本发明一个方面的总体方案，总体类似颁发给Macevicz的美国专利5,740,341和6,306,597所述的方法。出于方便目的，在本文中将这些专利总称为“Macevicz”。具体说，Macevicz描述了鉴定多核苷酸中核苷酸序列的方法，所述方法包括以下步骤：(a)通过连接寡核苷酸探针形成延伸双链体沿该多核苷酸延伸起始寡核苷酸；(b)鉴定该多核苷酸的一种或多种核苷酸；和(c)重复步骤(a)和(b)，直到测定出核苷酸序列。

Macevicz还描述了一种测定模板多核苷酸的核苷酸序列的方法，所述方法包括以下步骤：(a)提供起始寡核苷酸探针与模板多核苷酸杂交形成的探针-模板双链体，所述探针具有可延伸探针末端；(b)将延伸寡核苷酸探针连接于所述可延伸探针末端，形成含有延伸的寡核苷酸探针的延伸双链体；(c)鉴定所述延伸双链体中(1)与刚刚连接的延伸探针互补的模板多核苷酸中的至少一个核苷酸或(2)紧接在延伸的寡核苷酸探针下游的模板多核苷酸中的核苷酸残基；(d)如果可延伸末端还不存在，在延伸的探针上产生可延伸探针末端，从而使得产生的末端不同于连接最后一个延伸探针的末端；和(e)重复步骤(b)、(c)和(d)，直到测定出所述靶多核苷酸的核苷酸序列。在这些方法的某些实施方式中，各延伸探针在起始寡核苷酸探针的远端上含有链终止部分。在某些实施方式中，再生步骤包括用化学方法切割延伸的寡核苷酸探针中易切割的核苷间连接。

在图1A中，含有未知序列的多核苷酸区50和结合区40的多核苷酸模板20连接于支持物10。结合区40远端的核苷酸41和多核苷酸区50近端的核苷酸51相邻。提供了在结合区40的位置上与结合区40杂交形成双链体的起始寡核苷酸30。本文中起始寡核苷酸30也称为“引物”，结合区40可称为“引物结合区”。该双链体可以、但不一定是完全匹配的双链体。起始寡核苷酸具有可延伸末端31。在图1A中，起始寡核苷酸结合于结合区，以使可延伸末端31位于核苷酸41对面。然而，起始寡核苷酸可结合于结合区的其它地方，如以下所述。长度为N的延伸寡核苷酸探针60与起始寡核苷酸相邻的模板杂交。延伸寡核苷酸探针的末端核苷酸61连接于可延伸末端31。

末端核苷酸61与多核苷酸区50中的第一个未知核苷酸互补。因此，末端核苷酸61的种类确定了核苷酸51的种类。优选地，通过检测与已知末端核苷酸61是A、G、C或T的延伸探针连接的标记(未显示)鉴定核苷酸51。检测后去除该标记。图2显示了给具有不同3’末端核苷酸的延伸探针分配不同标记，如颜色不同的荧光团的方案。

连接和检测后，如果探针60没有这种末端，则在延伸探针60上产生可延伸探针末端。优选长度也是N的第二延伸探针70退火到与延伸探针60相邻的模板上，并连接于探针60的可延伸末端。延伸探针70的末端核苷酸71的种类指定了多核苷酸50中相对位置上的核苷酸52的种类。因此，末端核苷酸71构成了延伸探针的“序列测定部分”，这意谓着探针部分的杂交特异性用作测定模板中一个或多个核苷酸种类的基础。应理解，延伸探针中其它核苷酸一般能与模板杂交，但仅有其种类与具体标记相关的探针中的那些核苷酸用于鉴定模板中的核苷酸。

在本发明优选实施方式中，产生可延伸末端包括如下所述切割核苷间连接。优选地，切割也去除该标记。切割去除了延伸探针中多个核苷酸M(未显示)。因此，该双链体在每个循环中延伸N-M个核苷酸，并对位于模板中N-M之间的核苷酸进行鉴定。应理解，一般将给定模板的多个拷贝连接于一种支持物，并在这些模板上同时进行测序反应。

Macevicz说明，寡核苷酸探针通常应该能够连接于起始寡核苷酸或延伸双链体，以产生下一个延伸循环的延伸双链体；该连接应该是模板驱动的，因为探针应在连接前与模板形成双链体；该探针应具有封端部分，以防止在一个延伸循环中在同一模板上连接多个探针；该探针应能够在连接后经处理或修饰再生出可延伸末端；该探针应具有信号部分(即可检测部分)，以便在顺利连接后获得有关模板的序列信息。

Macevicz描述了某些合适起始寡核苷酸、延伸寡核苷酸探针、模板、结合位点和用于合成、设计、产生或获得这些组分的各种方法的特征。Macevicz还描述了某些合适的连接酶、连接条件和各种合适标记。Macevicz也描述了用于鉴定的通过聚合酶延伸将标记的链终止核苷酸加入新连接的延伸探针的另选方法。所加入核苷酸的种类确定模板相对位置上的核苷酸。

如本领域普通技术人员所理解，提到模板、起始寡核苷酸、延伸探针、引物等时，通常指相关区域内基本相同的核酸分子的群体或库，而非单个分子。因此，例如，“模板”通常指多个基本相同的模板分子；“探针”通常指多个基本相同的探针分子等。在一个或多个位置上简并的探针中，应理解，包含具体探针的探针分子的序列在简并位置上不同，即构成特定探针的探针分子序列可以仅在非简并位置上基本相同。出于说明目的，应理解单数形式包括单个分子和基本相同的分子群。需要表示单个核酸分子(即一个分子)时，采用术语“模板分子”、“探针分子”、“引物分子”等。在某些情况下，明确说明基本相同的核酸分子群体的复数本质。

可用各种已知方法获得或产生基本相同的核酸分子群体，这些方法包括化学合成、在细胞中生物合成、在体外从一个或多个起始核酸分子进行酶学扩增等。例如，采用本领域熟知方法，可通过插入合适的表达载体如DNA或RNA质粒、然后引入能够在其中复制的细胞如细菌细胞，克隆感兴趣核酸。然后，从细胞中分离含有感兴趣核酸拷贝的质粒DNA或RNA。分离自病毒、细胞等的基因组DNA，或通过逆转录mRNA产生的cDNA无需克隆或体外扩增等中间步骤也可成为基本相同的核酸分子群体的来源(如序列待测的模板多核苷酸)，但通常优选对其进行中间步骤处理。

应理解，群体成员不一定100％相同，如合成过程中可能产生一定数量的“错误”。优选地，至少50％群体成员与参比核酸分子(即用作序列比较基础的序列确定的分子)至少90％，或更优选至少95％相同。更优选地，至少60％、至少70％、至少80％、至少90％、至少95％、至少99％或更多群体成员与参比核酸分子至少90％、或更优选至少95％、或更优选至少99％相同。优选地，与参比核酸分子的相同性百分数为至少95％或更优选至少99％的群体成员至少占98％、99％、99.9％或更多。可通过以下方法计算相同性百分数：比较两个最佳比对序列，测定两个序列中核酸碱基(如A、T、C、G、U或I)相同的位置的数量产生匹配位置数量，将匹配位置数量除以位置总数再乘以100，得到序列相同性百分数。应理解，在某些情况下核酸分子如模板、探针、引物等可以是还含有不作为模板、探针或引物的部分的较大核酸分子的一部分。在这种情况下，群体中单个成员的这些部分不一定基本相同。

Macevicz描述了将模板连接于支持物(如珠)并向位于支持物远端的模板末端进行延伸的方法，如图1A所示。因此，相对于未知序列，结合区与支持物的距离更近，延伸双链体在离开支持物的方向上生长。然而，本发明人出人意料地发现，宜用另选方法实施该方法，在该方法中结合区位于支持物远端的模板末端，向支持物方向进行向内延伸。图1B描述了这种实施方式，其中各种元件的编号如图1A所示。本发明人确定从模板远端向支持物进行“向内”测序能提供更好的结果。具体说，从模板远端向支持物如珠进行测序比从支持物向外测序产生更高的连接效率。

如Macevicz进一步所述，优选将寡核苷酸探针作为含有预定长度的所有可能序列的寡核苷酸混合物加入模板中。例如，含有具有NNNNNN(也可表示为(N)_k，其中k＝6)结构、长度为6个核苷酸(六聚体)的所有可能序列的探针混合物含有4⁶(4096)个探针种类。通常，探针的结构是X(N)_kN^*，其中N代表任何核苷酸，k是1-100，^*代表标记，X代表其种类对应于标记的核苷酸。在某些实施方式中，k为1-100、1-50、1-30、1-20，如4-10。一个或多个核苷酸可以包含通用碱基。在N代表的位置上，探针通常为4-倍简并，或在N代表的一个或多个位置上含有简并性降低的核苷酸。如果需要，可将该混合物分成探针亚组(“严格性类别”)，其与互补序列的完全匹配双链体具有相似的稳定性或结合自由能。如Macevicz所述，这些亚组可用于不同的杂交反应。

可通过许多方法降低探针混合物的复杂性(即不同序列的数量)，这些方法包括采用所谓的简并性降低的核苷酸或核苷酸类似物。例如，含有8个核苷酸的所有可能序列的探针文库含有4⁸个探针。通过在两个位置上采用通用碱基可将探针数量降低到4⁶，同时保持八聚体文库的各种所需特性，如长度。本发明包括采用上述或上面引用的参考文献所述的任何通用碱基。

根据该实施方式，可用寡核苷酸探针在5’→3’方向或3’→5’方向上延伸延伸双链体或起始寡核苷酸，如下所述。通常，寡核苷酸探针不一定与模板形成完全匹配的双链体，但可优选这种结合。在每个延伸循环鉴定模板中一个核苷酸的实施方式中，鉴定该具体核苷酸需要完全碱基配对。例如，在用酶学方法将寡核苷酸探针连接于延伸双链体的实施方式中，需要连接探针的末端核苷酸与其模板互补物之间进行完全碱基配对，即适当的Watson-Crick碱基配对。通常，在这种实施方式中，探针的其余核苷酸用作“间隔物”，以保证在预定位点或沿模板移动一定数量的碱基处发生下一次连接。即，它们配对或不配对不能提供进一步的序列信息。同样，在依赖聚合酶延伸进行碱基鉴定的实施方式中，探针主要用作间隔物，因此与模板的特异性杂交不重要。

上述方法能部分测定序列，即鉴定模板中互相隔开的单个核苷酸。在本发明优选实施方式中，为了收集更完整的信息，进行多个反应，其中每个反应利用不同的起始寡核苷酸i。起始寡核苷酸i结合于结合区的不同部分。优选地，起始寡核苷酸结合的位置应使不同起始寡核苷酸的可延伸末端杂交于结合区时互相偏移1个核苷酸。例如，如图3所示，进行测序反应1...N。起始寡核苷酸i₁...i_n长度相同，与结合区40结合后其末端核苷酸31、32、33等杂交于结合区40中的连续相邻位置41、42、43等。因此，延伸探针e₁...e_n结合于模板的连续相邻区域并连接于起始寡核苷酸的可延伸末端。连接于i_n的探针e_n的末端核苷酸61与多核苷酸区50的核苷酸55，即模板中第一个未知多核苷酸互补。在第二个延伸、连接和检测循环中，探针e_n的末端核苷酸71与多核苷酸区50的核苷酸56，即未知序列的第二个核苷酸互补。同样，连接于双链体的延伸探针的末端核苷酸从起始寡核苷酸i₂、i₃、i₄等开始，与未知序列50的第三个、第四个和第五个核苷酸互补。应理解，起始寡核苷酸可结合于逐渐远离多核苷酸区50，而非逐渐靠近它的区域。

延伸探针的非末端核苷酸的间隔功能使得不需要对任何给定模板进行相应许多个循环，就能获得从起始寡核苷酸结合的位置开始相隔一定数量核苷酸的模板位置上的序列信息。例如，通过连接长度为N的探针、然后切割去除延伸探针上的单个末端核苷酸的连续循环，可在连续循环中鉴定间隔为N-1个核苷酸的核苷酸。例如，可用6个循环鉴定模板中位置1、N、2N-1、3N-2、4N-3和5N-4上的核苷酸，其中模板位置1上的核苷酸对应于连接于通过起始寡核苷酸与模板结合形成的双链体中可延伸探针末端的核苷酸。相似地，如果切割去除长度为N的延伸探针的两个核苷酸，可在连续轮次中鉴定相互间隔N-2个核苷酸的位置上的核苷酸。例如，可用6个循环鉴定模板中位置1、N-1、2N-3、3N-5、4N-7的核苷酸。因此，如果探针的长度为8个核苷酸，并且每个循环去除2个核苷酸，则鉴定位置1、7、13、19和25上的核苷酸。因此，鉴定与模板中第一个核苷酸距离为X的核苷酸所需的循环数约为X/M，其中M是切割后保留的延伸探针的长度，而非约为X。

例如，图3B所示方案显示采用延伸、连接和切割循环法与经设计每6个碱基阅读一次模板的延伸探针的最终结果。用结合于结合区的偏移位置的6种起始核苷酸对模板进行连续剥离和测序，并合并结果，可阐明确定长度上的所有模板碱基。例如，如果6次反应各自进行10次连续连接，得到的阅读长度为60个连续碱基对，而如果各反应进行15次连续连接，得到的阅读长度为90个连续碱基对。

虽然不希望受限于任何理论，但本发明人提出，与这种方法相反，用合成法进行的大多数连续测序伴随有差错累积的弊端，这最终会限制长阅读长度的可能。本文所述某些方法的有利特征是它们能每n个碱基鉴定一次(取决于探针中可切割部分的位置)，以便在给定数量的循环(y)后，达到第n*y-(n-1)个碱基(如上述例子中15个循环后达到第71个碱基，或在切割位点的3’侧用6个碱基的探针进行20个循环后达到第115个碱基)。在n-1、n-2等位置上“重启动”起始寡核苷酸的能力大大降低了给定长度上的连续差错累积(通过移相或损耗)，因为从模板上剥离延伸链和杂交新起始寡核苷酸的的过程有效地将背景信号再设定为零。例如，比较基于聚合酶合成的测序方法和本文所述基于连接的方法，如果各延伸循环的信噪比为99∶1，那么100个基于聚合酶的方法循环后，信噪比为37∶63，基于连接酶的方法为85∶15。基于连接酶的方法的最终结果是阅读长度比基于聚合酶的方法大大增加。

鉴于多种原因，用少于如果模板中每个在前核苷酸都需要进行一个循环所需的循环数鉴定核苷酸的能力很重要。具体说，该方法的各步骤的效率不可能达到100％。例如，一些模板可能无法顺利连接于延伸探针；一些延伸探针可能无法被切割等。因此，各循环中，在不同拷贝的模板上发生的反应逐渐变得有相位差，可获得有用的准确信息的模板数量减少。因此，特别需要最大程度减少阅读距起始寡核苷酸可延伸末端较远位置的核苷酸所需的循环数。然而，增加延伸探针长度可能导致探针混合物的复杂性增加，这会降低各探针序列的有效浓度。如本文所述，可用简并性降低的核苷酸降低复杂性，但这可能导致杂交强度降低和/或连接效率降低。本发明者认识到，需要平衡这些竞争因素，以优化结果。因此，在本发明的优选实施方式中，采用长度为8个核苷酸的延伸探针，在所选位置上采用简并性降低的核苷酸。此外，本发明者认识到，选择合适的易切连接以及切割条件和时间以优化切割步骤效率(即各切割步骤中顺利切割的连接的百分数)和对合适连接的特异性的重要性。

B.寡核苷酸延伸探针设计

虽然Macevicz提到，简并性降低的核苷类似物可用于寡核苷酸延伸探针，但他没有说明特别需要在延伸探针中包含这种残基的特定位置，也没有说明掺入简并性降低的核苷的各种具体探针结构(即序列)。本发明者认识到，在寡核苷酸延伸探针的特定位置上采用特定数量的简并性降低的核苷(如含有通用碱基的核苷)可能特别有利。例如，在本发明的某些实施方式中，位置6或更远位置上(从X开始)的大多数或全部核苷酸含有通用碱基。例如，位置6或更远位置上的至少50％、至少60％、至少70％、至少80％、至少90％或至少100％核苷酸可含有通用碱基。这些核苷酸不一定都含有相同的通用碱基。在本发明的某些实施方式中，次黄嘌呤和/或硝基吲哚用作通用碱基。例如，可采用核苷如肌苷。

本发明者认识到，可用长度大于6个核苷酸的延伸探针获得优异结果，其中从连接于可延伸探针末端的核苷酸开始数，从探针近端起位置6或更远位置上的一个或多个核苷酸是简并性降低的核苷酸，如含有通用碱基(即如果最近端核苷酸被认为是位置1，那么位置6或更远位置上的一个或多个核苷酸含有通用碱基)，如8聚体探针中位置6或更远位置上的1、2或3个核苷酸含有通用碱基。例如，在3’→5’测序中，可采用结构为3’-XNNNNsINI-5’的探针，其中X和N代表任何核苷酸，“s”代表易切连接，以便在从3’端数第五个和第六个残基之间发生切割，并优选易切连接和5’端之间至少一个残基具有对应于X种类的标记。另一种设计是3’-XNNNNsNII-5’。又一种探针设计是3’-XNNNNsIII-5’。这种设计产生含有1024种不同探针的具有适度复杂性的探针混合物，其长度足以防止形成显著的腺苷酸化产物(参见实施例1)，并且具有切割后得到的延伸产物由未修饰DNA组成的优点。一个缺点是此探针每次仅延伸引物5个碱基。由于阅读长度是延伸长度乘以循环数的函数，延伸长度每增加一个碱基可使阅读长度增加1x循环数个碱基(例如，如果采用20个循环则是20个碱基)。另一种探针设计切割后在延伸探针末端留下一个或多个肌苷(或其它通用碱基)，以产生6个碱基或更长的延伸双链体。例如，采用探针3’-XNNNNIsII-5’时，双链体每次延伸6个碱基，在连接处留下5’肌苷。在这些设计中，优选易切连接和5’端之间至少一个残基具有对应于X种类的标记。在本发明的某些实施方式中，从连接于可延伸探针末端核苷酸的相对末端开始数，从探针远端起第三个核苷酸含有通用碱基(即，如果远端被认为是位置K，那么位置K-2上的核苷酸含有通用碱基)。

在本发明的某些实施方式中，在起始寡核苷酸探针、延伸探针或二者的一个或多个位置上采用锁定核酸(LNA)碱基。例如，美国专利6,268,490；Koshkin，AA等，Tetrahedron，54：3607-3630，1998；Singh，SK等，Chem.Comm.，4：455-456，1998中描述了锁定核酸。可用自动DNA合成仪和标准的亚磷酰胺化学合成LNA，LNA可掺入也含有天然产生的核苷酸和/或核苷酸类似物的寡核苷酸中。也可用标记如下述标记合成它们。

C.模板、文库、支持物、封闭物及其制备方法和应用

本发明提供各种制备核酸模板和支持物的方法。本发明也提供用于基于连接的测序或其它目的的文库。本发明也提供封闭寡核苷酸和其在测序或其它目的中的使用方法，测序是通过寡核苷酸连接、检测和切割的连续循环进行的。

Macevicz描述了首先合成含有多种基本相同模板分子的模板的方法，如在试管或其它容器中用常规聚合酶链反应(PCR)法扩增。Macevicz指出，扩增的模板分子在合成后优选连接于支持物如磁性微粒(如珠)。

本发明者认识到，宜在支持物本身上或之中合成待测序模板，例如，采用在进行PCR反应之前与一对扩增引物之一连接的支持物如微粒或各种半固体支持物，如凝胶基质。这种方法在合成后不需要单独步骤将模板分子连接于支持物。因此，可方便地平行扩增序列不同的多种模板。例如，按照下述方法，在微粒上合成产生一群单个微粒，各自连接有多个拷贝的特定模板分子(或其互补物)，其中连接于各微粒的模板分子与连接于其它微粒的模板分子的序列不同。因此，各支持物连接有克隆的模板群，如支持物A连接有多个拷贝的模板X；支持物B连接有多个拷贝的模板Y；支持物C连接有多个拷贝的模板Z等。“克隆的模板群”、“克隆的核酸群”等指基本相同的模板分子的群体，优选通过从感兴趣的单一模板分子(起始模板)开始的连续扩增轮次产生。基本相同的模板分子可能与起始模板或其互补物基本相同。

一般用PCR进行扩增，但也可采用其它扩增方法(见下)。应理解，克隆群体成员不一定100％相同，例如，在合成如扩增过程中，可能发生一定数量的“差错”。优选地，至少50％克隆群体成员与起始模板分子(或其互补物)至少90％、或更优选至少95％相同。更优选地，至少60％、至少70％、至少80％、至少90％、至少95％、至少99％、或更多的群体成员与起始模板分子(或其互补物)至少90％、或更优选至少95％相同，或更优选至少99％相同。优选地，至少95％或更优选至少99％的群体成员与起始模板分子(或其互补物)的相同性百分数为至少98％、99％、99.9％或更高。

可用各种技术将扩增引物连接于支持物。例如，可用结合对的一个成员(如生物素)使引物一端(5’端)官能化，用结合对的另一个成员(如链霉亲和素)使支持物官能化。可采用任何相似的结合对。例如，可将确定序列的核酸标签连接于支持物，含有互补核酸标签的引物可杂交于连接于支持物的核酸标签。也可采用各种接头和交联剂。

本领域熟知进行PCR的方法，参见例如美国专利4,683,195、4,683,202和4,965,188，以及Dieffenbach，C.和Dveksler，GS，《PCR引物：实验室手册》(PCR Primer：A Laboratory Manual)，第2版，Cold Spring HarborLaboratory Press，Cold Spring Harbor，2003。本领域熟知且描述了扩增微粒上的核酸的方法，例如，可在微量滴定板孔或试管中对连接有引物的珠进行标准PCR(如实施例12制备的珠)。虽然PCR是方便的扩增方法，但也可采用本领域已知的许多其它方法。例如，可采用多链置换扩增、解旋酶置换扩增(HDA)、缺口平移、Qβ复制酶扩增、滚环扩增和其它等温扩增方法等。

模板分子可获自任何来源。例如，DNA可分离自样品，该样品可能获自或衍生自某对象。从广义上说，术语“样品”指对其进行序列测定的任何模板来源。用术语“衍生自”表示直接获自对象的样品和/或样品中的核酸经过进一步加工获得模板分子。样品来源可以是任何病毒、真核生物、古细菌或真核物种。在本发明的某些实施方式中，来源是人。样品可以是(例如)血液或含有细胞的其它体液；精液；活检样品等。可对来自任何感兴趣有机体的基因组或线粒体DNA进行测序。可测序cDNA。也可测序RNA，例如，首先用本领域熟知的方法如RT-PCR逆转录产生cDNA。可合并来自不同样品和/或对象的DNA混合物。可用各种方式加工样品。可用已知方法从样品分离、纯化和/或扩增核酸。当然，也可测序不衍生自有机体的完全人造的合成核酸、重组核酸。

可以双链或单链形式提供模板。一般地，最初以双链形式提供模板时，随后分离两条链(如使DNA变性)，仅扩增两条链中的一条以产生定位的模板分子克隆群体，所述克隆群体(如)连接于微粒、固定在半固体支持物中或之上等。

可用各种其它方式选择或加工模板。例如，可采用用甲基敏感性限制性酶(如MspI)处理的DNA获得的模板。可在扩增前进行这种产生DNA片段的处理。含有甲基化碱基的片段不扩增。可比较获自超甲基化模板的序列信息与获自未进行超甲基化选择的相同来源的模板的序列信息。

可将模板插入文库，或者可在文库中提供模板，或者模板可衍生自文库。例如，本领域已知超甲基化文库。将模板插入文库能够方便地将额外核苷酸序列与模板末端连接起来，如标签、引物结合位点或起始寡核苷酸等。例如，某些方案允许加入具有多个结合位点，如扩增引物结合位点、起始寡核苷酸结合位点、捕获剂结合位点等的标签。

本领域已知各种合适的文库。例如，USSN 10/978,224，PCT公开WO2005042781和WO2005082098以及Shendure，J.等，Science，309(5741)：1728-32，2005，Sciencexpress，2005年8月4日(www.sciencexpress.org)描述了特别感兴趣的文库及其构建方法。当然应理解，也可采用产生这种文库的其它方法。某些特别感兴趣的文库含有多种核酸片段(一般是DNA)，各片段含有两个感兴趣的核酸节段，它们被用于测序步骤的扩增和/或测序引物互补的序列分隔开，即这些序列用作引物结合区(PBR)。在特别感兴趣的实施方式中，核酸节段是天然产生的DNA的一段连续部分。例如，节段可来自基因组DNA的连续部分的5’和3’端，如上述参考文献所述。与上述文献一致，在本文中将这种核酸节段称为“标签”或“末端标签”。衍生自一段连续核酸如其5’和3’端的两个标签称为“成对标签”、“成对标签”或“双标签”。应理解，“成对标签”包括两个标签，即使用单数形式表示。通过选择预定大小限度内的产生成对标签的DNA连续部分，限制分隔开两个标签的距离。

除了被与测序和/或扩增引物互补的序列分隔开以外，该文库的核酸片段一般也含有与侧接标签的测序和/或扩增引物互补的序列，即第一个这种序列可位于与该片段5’端较近的标签的5’端，第二个这种序列可位于与该片段3’端较近的标签的3’端。应理解，在各种实施方式中产生标签的连续核酸中存在的两个标签的位置可以，但不一定对应于标签在文库DNA片段中的位置。

核酸片段和标签可具有不同的大小范围。核酸片段的长度一般可以是(例如)80-300个核苷酸，如100-200个、100-150个、约150个核苷酸、约200个核苷酸等。标签的长度可以是(如)15-25个核苷酸，如约17-18个核苷酸等。应注意，这些长度是示范性，而不是限制性。可采用较短或较长的片段和/或标签。

也应注意，虽然从单个连续核酸获得成对标签提供了方便的方法进行文库构建，但成对标签的重要之处在于在最初产生它们的核酸中它们互相相隔一段距离(“间隔距离”)，其中间隔距离属于预定的距离范围。标签被属于预定范围的间隔距离分隔开使得能够将标签序列与参比序列(如参比基因组序列)进行比对。不希望受限于任何理论，这可能有利于某些应用如基因组再测序，其中它使得能够采用较短的阅读长度，同时仍然能够将序列准确地定位于参比基因组上。成对标签的5’和3’标签代表较大核酸片段如基因组DNA的节段(即它们具有以上序列)，在天然产生的DNA片段如基因组DNA片段中这些节段互相间隔在预定距离内。例如，在本发明的某些实施方式中，在天然产生的DNA片段中，成对标签的5’和3’标签代表互相相隔500个核苷酸内、互相相隔1kB内、互相相隔2kB内、互相相隔5kB内、互相相隔10kB内、互相相隔20kB内的DNA节段。在某些实施方式中，在天然产生的DNA片段中，成对标签的5’和3’标签相隔500个核苷酸-2kB，如700个核苷酸-1.2kB，约1kB等。应注意，成对标签的两个标签的准确间隔距离并不重要并且一般未知。此外，虽然标签最初获自较大核酸片段，但术语“标签”用于含有标签序列的任何核酸节段，无论其存在于原始序列内容或文库片段、文库片段的扩增产物、待测序模板等中。

核酸片段(如文库分子)可能具有以下结构：

接头1-标签1-接头3-标签1-接头2

标签1和接头2可以是成对标签的5’和3’标签。任一标签都可以是5’标签或3’标签。接头1和接头2含有一种或多种引物的引物结合区。在某些实施方式中，接头1和2各自含有扩增引物的PBR和测序引物的PBR。各接头中的引物可以是巢式引物，以使测序引物PBR位于扩增引物PBR内部。接头3可含有一种或多种测序引物的PBR，以便测序标签1和标签2。术语“接头”用于核酸片段文库时，指在文库的多种核酸片段，如文库的基本上所有片段中存在的核酸序列。在文库构建期间，接头可以具有或不具有实际上的连接功能，接头仅可被认为是给定文库的大多数或所有成员所共有的确定序列。这种序列也称为“通用序列”。因此，与接头或其一部分互补的核酸与文库的多个成员杂交，并可用作文库中大多数或所有分子的扩增引物或测序引物。

在本发明某些实施方式中，核酸片段具有以下结构：

接头1-标签1-内部衔接子-标签2-接头2

标签1和标签2和接头1和接头2含有上述PBR。内部衔接子含有两个引物结合区，它们可称为IA和IB，如下所述。这些PBR可用于产生连接有两个独立的基本相同的核酸群体的微粒，其中一个核酸群体包含标签1，另一个核酸群体包含标签2。两个独立的核酸群体含有至少部分不同的序列，如它们的标签区序列不同。内部衔接子的两个引物结合区之间可含有间隔区。间隔区可含有脱碱基残基，这种脱碱基残基能防止聚合酶延伸通过该间隔物。当然，可采用含有能防止聚合酶延伸通过该间隔物的任何其它封闭基团的间隔区。

在其它实施方式中，核酸片段包括一个或多个(如2、4、6个等)其他标签和一个或多个其它内部衔接子。例如，核酸片段可具有以下结构：

接头1-标签1-内部衔接子1-标签2-接头2-标签3-内部衔接子2-标签4-接头3

应注意，除了本文所述的基于连接的测序方法，本发明的核酸片段以及这种片段的文库、含有两种或多种基本相同的核酸群体的微粒和这种微粒的阵列还可用于各种测序方法。例如，可采用测序方法如FISSEQ、焦磷酸盐测序等。参见例如，WO2005082098。当然，也可有利地利用基于连接的方法。应理解，在本文所述基于连接的方法中，术语“测序引物”可理解为“起始寡核苷酸”。

在本发明的某些实施方式中，在单独的水性乳液室(也称为“反应器”)中进行PCR以合成待测序模板。优选地，各室含有颗粒支持物如连接有合适的第一扩增引物的珠、模板的第一个拷贝、第二扩增引物和进行PCR反应必需的组分(如核苷酸、聚合酶、辅因子等)。制备乳液的方法参见例如美国专利6,489,103(Griffiths)；5,830,663(Embleton)；和美国公开号20040253731(Ghadessy)。在单个乳液室中进行PCR以产生连接于微粒的模板克隆群体的方法(“乳液PCR”)参见例如Dressman，D.等，Proc.Natl.Acad.Sci.，100(15)：8817-8822，2003，和PCT公开WO2005010145。

上述参考文献所述方法或其修饰形式可用于产生用于测序的连接于微粒的模板克隆群体。在优选的非限制性实施方式中，通过将通用衔接子序列连接于不同靶序列(模板)群体的各末端产生适用于PCR的短(＜500个核苷酸)模板。(在这里“通用”指将相同的衔接子序列连接于各模板，产生可用一对PCR扩增引物扩增的“衔接”模板)。用衔接模板、一种游离的扩增引物、连接有第二扩增引物的微粒和其它PCR试剂(如聚合酶、辅因子、核苷酸等)制备批量PCR反应。将水相PCR反应与油相(含有轻质矿物油和表面活性剂)以1∶2混合。涡旋此混合物产生油包水乳液。一毫升混合物足以在该乳液中产生4×10⁹个水性室，各自为可能的PCR反应器。将乳液样品试样量分配到微量滴定板(如96孔板，384孔板等)孔中，进行热循环以在微粒上实现固相PCR扩增。为了保证克隆性，小心地控制微粒和模板浓度，以使该反应器几乎不含一个以上珠或模板分子。例如，在本发明的某些实施方式中，至少10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或更多反应器含有一个珠和一个模板。因此，各模板克隆群体的成员由于连接于微粒而在空间上受到局限。通常，模板的连接点可以基本一致地分布在颗粒表面上。扩增操作后连接有克隆的模板群体(一般是几千至几百万个拷贝的模板)的微粒被称为发生了模板扩增。

特别感兴趣的是，用PCR乳液法产生了微粒群体，其中单个微粒连接有含成对标签的5’标签和3’标签的扩增核酸片段的不同群体。换言之，特别感兴趣的是产生微粒群体，其中单个颗粒具有来自文库的如上述扩增并与之连接的不同核酸片段。

根据实现扩增大核酸分子和将这些分子连接于微粒的能力，限制了本领域已知在乳液中扩增DNA的方法(如上述参考文献所述)。例如，已证明用较长的扩增子能使PCR效率呈指数级降低。PCR效率的降低降低了含有成对标签和引物结合位点(如上所述)的核酸片段在PCR乳液中扩增和通过这种扩增连接于微粒的效率。因此，含有成对标签的第一和第二标签的基本相同核酸片段的单一群体在PCR乳液中扩增并通过这种扩增连接于珠的方法受到许多限制。

本发明提供的方法能够采用较小扩增子，同时保留了含有成对标签的5’和3’标签的单个核酸片段通过扩增连接于微粒时产生的成对标签信息。本发明提供了连接有至少两种独特的核酸群体的微粒如珠，其中至少两种群体各自由多种基本相同的核酸组成，其中基本相同的第一核酸群体包括感兴趣的第一种核酸节段，如5’标签，第二核酸群体包括感兴趣的第二核酸节段，如3’标签。从含有两种标签、也含有侧接和分隔标签的合适分布的引物结合位点的一种较大核酸片段扩增第一和第二核酸群体，以便在微粒和扩增试剂的存在下在单个PCR乳液反应器中连续或(优选)同时进行两个扩增反应。该微粒连接有两种不同的引物群体，其中一种引物群体的序列对应于核酸片段中一个标签以外的引物结合区，另一种引物群体的序列对应于核酸片段中另一个标签以外的引物结合区，即引物结合区侧接于标签。

本发明也提供了结合于位于两个标签之间的引物结合区的引物，以便进行两种不同的PCR反应，各自扩增含有一种标签的核酸片段的一部分。扩增的核酸节段含有互不相同的其它引物结合区。这些其它引物结合区存在于核酸片段中，位于扩增引物的PBR内部，即它们是巢式引物。这些额外PBR用作两种不同测序引物的结合区。因此，通过将两种不同测序引物的一种或另一种施加于连接有两群基本相同的核酸节段的微粒，可在不受另一核酸节段存在干扰的情况下测序两种核酸节段中的一种或另一种。各核酸节段显著短于扩增它的核酸片段，因此提高了用含有成对标签的片段文库进行基于乳液的PCR的效率，同时仍然保留了成对标签的标签之间的关联。

通过参照图34和35的各图，可更好地理解上述方法，其中给具有相同序列的核酸部分分配相同颜色。上述说明是为了对图34和35作一致地解释。图34A和35A显示了相同步骤，其中图35A提供了额外的细节。如图34A和35A所示，用内部衔接子盒(IA-IB)和独特的侧接接头序列(P1和P2，即P1和P2互不相同)构建含有两种标签(标签1和标签2)的成对末端文库片段。内部衔接子盒和侧接接头序列都含有供PCR扩增和DNA测序的核苷酸序列。设计PCR引物区，以便采用巢式DNA测序引物。通过将相同的两个寡核苷酸序列连接于独特的侧接接头序列产生DNA捕获微粒(珠)。在PCR扩增中，将与具有P1和P2序列的寡核苷酸结合的DNA捕获微粒接种到含有单一双标签文库片段(即文库片段含有成对标签的5’标签和3’标签)和溶液PCR引物的反应中。

与内部衔接子引物(IA和IB)相比加入有限量的溶液侧接接头引物(P1和P2)，用于促进PCR产生的标签产物进行有效的向珠驱动的扩增(即[P1＜＜IB]、[P2＜＜IA])。如果需要，适当地控制引物量也可保证核酸群体含有基本相同数量的核酸，如单个微粒上大约一半核酸属于第一群体，单个微粒上大约一半核酸属于第二群体。因此，如果需要，可采用不对称PCR的形式来控制不同群体的比率。

在扩增期间，如图34B和35B所示(其中图35B相对于图34B再次提供了额外的细节)，在四种寡核苷酸引物(P1、P2、IA和IB)存在下，一种成对末端文库片段会产生两种独特的PCR产物。一个群体含有侧接P1和IA的标签1，第二群体含有侧接P2和IB的标签2。

扩增后，给微粒装上对应于由起始文库片段产生的标签1和标签2的两种独特PCR群体。因此，各标签含有独特的引物区组，以便对各标签进行连续测序，如图34C、35C和35D所示。图35C和35D显示了用不同测序引物对标签1和2进行连续测序。可采用多种测序方法。

可用上述方法产生连接有两种以上如4、6、8、12、16、20种不同核酸序列群体的微粒，例如，其中该群体包括2、3、4、6、8、10个成对标签。可通过提供各序列中独特的引物结合区，对各群体进行单独测序，如上述两个标签部分所述。

本发明包括具有图34和35所示结构和上述结构的核酸片段，这种片段的文库，连接有来自这种片段的核酸节段的微粒，这种微粒群体(其中单个微粒所连接的核酸群体的序列不同于其他微粒连接的核酸群体)，微粒阵列，从核酸片段扩增核酸节段(标签)的扩增引物，测序连接于微粒的核酸节段的测序引物，制备这种片段、文库和微粒的方法，以及连接于微粒的核酸的测序方法。本发明包括含有上述组分的任何组合的试剂盒，任选也可含有用于扩增、测序等的一种或多种酶、缓冲液或其它试剂。

如果需要，可用各种方法富集连接有模板的微粒。例如，可采用杂交方法，其中将与连接于微粒的一部分扩增产物(模板)互补的寡核苷酸(捕获剂)连接于捕获实体如另一种(优选较大)微粒、微量滴定孔或其它表面。这部分扩增产物可称为靶定区。可在扩增期间将靶定区掺入模板，如含有未知序列的模板部分的一端。例如，靶定区可存在于未连接于微粒的扩增引物中，以便使互补部分存在于扩增模板。因此，多种不同模板可包括相同的靶定区，因此一种捕获剂可以杂交于多种不同模板，这使得能够仅用一种寡核苷酸序列如捕获剂就能捕获多种微粒。使进行扩增的微粒在可发生杂交的条件下接触捕获剂。结果是，通过捕获剂将连接有扩增模板的微粒连接于捕获实体。然后去除未连接的微粒，释放残留微粒(如通过提高温度)。在采用颗粒捕获实体的某些实施方式中，分离杂交后由连接有微粒的捕获实体组成的聚集体与没有连接微粒的颗粒捕获实体和未连接于捕获实体的微粒，如通过在粘稠溶液如甘油中离心。也可采用基于大小、密度等的其它分离方法。杂交是可用于富集的许多方法之一。例如，可采用对(例如合成过程中)可掺入模板的许多不同配体有亲和力的捕获剂。可采用多轮富集。

图14A显示了油包水乳液的小室图像，其中在连接有第一扩增引物的珠上用荧光标记的第二扩增引物和过量模板进行PCR反应。水性反应器从扩散的游离引物发出弱荧光，而由于固相扩增(即将荧光引物掺入通过第一扩增引物连接于珠的扩增模板)珠从聚集在珠上的引物发出强荧光。在不同大小的反应器中珠信号一致。

扩增后，收集微粒(如在磁性颗粒的情况下采用磁体)，并用于通过重复的延伸、连接和切割循环进行测序，如本文所述。在本发明的某些实施方式中，将微粒排列在半固体支持物中或之上，然后进行测序，如下所述。实施例12、13、14和15提供了代表性、非限制性方法的其它细节，这些方法可用于(i)制备连接有扩增引物的微粒，用于在微粒上合成模板(实施例12)；(ii)制备含有多个反应器的乳液，以进行PCR(实施例13)；(iii)在乳液室中进行PCR扩增(实施例13)；(iv)破坏乳液并回收微粒(实施例13)；(v)富集连接有克隆模板群体的微粒(实施例14)；(vi)制备玻片，用作半固体聚丙烯酰胺支持物的基材(实施例15)；和(vii)将微粒与未聚合的丙烯酰胺混合，形成连接有模板的微粒阵列，包埋在基材上的丙烯酰胺中(实施例15)。实施例15也描述了聚合酶捕获方案，在半固体支持物中进行PCR时，这种方案可用于某些方法。本领域普通技术人员认识到，可以对这些方法进行许多改变。

在本发明其它实施方式中，用PCR在半固体支持物如其中固定有合适扩增引物的凝胶中扩增模板。PCR反应需要的模板、其它扩增引物和试剂存在于半固体支持物中。通过合适的连接部分如acrydite基团将扩增引物对中的一种或两种引物连接于半固体支持物。可以在聚合期间进行连接。在形成半固体支持物之前(如在凝胶形成之前在液体中)可存在其它试剂(如模板、第二扩增引物、聚合酶、核苷酸、辅因子等)，或者半固体支持物形成后一种或多种试剂可扩散到半固体支持物中。选择半固体支持物的孔径以便能够发生这种扩散。如本领域所熟知，在聚丙烯酰胺凝胶的情况下，主要通过丙烯酰胺单体的浓度确定孔径，还受交联剂的一定影响。在其它半固体支持物材料的情况下也有类似考虑。可选择实现所需孔径的合适的交联剂和浓度。在本发明的某些实施方式中，在聚合前溶液中含有添加剂如阳离子脂质、聚胺、聚阳离子等，它们在凝胶中形成环绕微粒的胶束或聚集体。也可采用美国专利5,705,628、5,898,071和6,534,262所述的方法。例如，可用各种“加密试剂”加密珠附近的DNA，以进行克隆PCR。也可采用

磁珠技术和/或条件。参见例如，美国专利5,665,572，显示在10％聚乙二醇(PEG)存在下进行有效的PCR扩增。在本发明方法的某些实施方式中，在某些试剂如甜菜碱、聚乙二醇、PVP-40等的存在下进行扩增(如PCR)、连接或扩增和连接。这些试剂可加入溶液中、存在于乳液中和/或扩散到半固体支持物中。

可以在基本平坦的刚性基材上定位或组装半固体支持物。在某些优选实施方式中，该基材能够透过用于激发和检测典型标记(如荧光标记、量子点、等离子体共振颗粒、纳米簇)的激发和发射波长(如约400-900nm)的射线。某些材料如玻璃、塑料、石英等是合适的。半固体支持物可粘附于该基材，并可用各种方法任选地固定于该基材。可以使用或不使用提高粘着力或键合力的物质，如硅烷、聚赖氨酸等涂布该基材。美国专利6,511,803描述了用PCR在半固体支持物中合成克隆模板群体的方法、在基本平坦的基材上制备半固体支持物的方法等。本发明可采用相似方法。该基材在形成半固体基材之前可具有容纳液体的孔或凹陷。或者，升高的边界或掩模可用于此目的。

上述方法提供了采用乳液中的反应器产生空间上受到限定的克隆模板群体的另一方法。克隆群体存在于半固体支持物中的离散位置上，从而使得在测序过程中可通过(例如)成像从各群体获得信号，用于检测新连接的延伸探针。在本发明的一些实施方式中，由一种核酸片段扩增两种或多种不同克隆群体，它们以混合物形式存在于半固体支持物中的离散位置上。混合物中各克隆群体可含有标签，从而使得离散位置含有含5’标签的片段和含有3’标签的片段。含有5’标签和3’标签的克隆模板含有不同测序引物，从而使得它们可互相独立地进行测序。该方法与上述方法相同，均可用于在微粒上产生多种基本相同的核酸群体并从一种微粒上获得成对标签的两个成员的测序信息。

通常，用于任何本发明方法的半固体支持物形成厚度约100微米或更小，如约50微米或更小，如约20-40微米的层。优选在聚合前，可将盖玻片或具有基本平坦表面的其它相似物体放置在半固体支持物材料上，以帮助产生均一的凝胶层，如形成基本平坦和/或厚度基本均一的凝胶层。

在本发明的其它实施方式中，可采用上述方法的修饰形式，其中用PCR在连接有合适扩增引物的微粒上合成模板，其中在模板合成之前将该微粒固定在半固体支持物中或之上，即将它们完全或部分包埋在半固体支持物中。通常，半固体支持物完全环绕着所述微粒，但它们也可保持在下面的基材上。因此，微粒互相保持在基本固定的位置上，除非半固体支持物被破坏。所述方法提供了用乳液产生空间上受限制的克隆模板群体的另一种方法。可在形成半固体支持物之前将微粒与液体混合。或者，可将微粒排列在基本平坦的基材上，在聚合、交联等之前将液体加入微粒阵列中。该微粒连接有第一扩增引物。第二扩增引物可以，但不一定连接于半固体支持物。在形成半固体支持物之前(如在凝胶形成之前在液体中)可存在其它试剂(如模板、第二扩增引物、聚合酶、核苷酸、辅因子等)，或者凝胶形成后一种或多种试剂可扩散到半固体支持物中。通常，如上所述在玻片上形成半固体基材。

在本发明的某些实施方式中，可溶解(如消化或解聚或熔化)凝胶，以便模板合成后方便地回收连接克隆模板群体的微粒(如在磁性颗粒的情况下采用磁体)。在本文中将可溶解、消化、解聚、溶解等的凝胶称为“可逆”凝胶。常规的聚丙烯酰胺聚合包括采用N-N′亚甲基双丙烯酰胺(BIS)作为交联剂和合适的催化剂，以启动聚合(如N，N，N′，N′-四甲基亚乙基二胺(TEMED)。为了产生可逆凝胶，可采用另一种交联剂如N-N′二烯丙基酒石酸二酰胺(DATD)。这种化合物在结构上与BIS相似，但具有可被高碘酸(如含有高碘酸钠的溶液)切割的顺-二羟基(Anker，H.S.：F.E.B.S.Lett.，7：293，1970)。因此，不难溶解DATD凝胶。用DATD作为交联剂制备的凝胶高度透明，并与玻璃牢固结合。具有形成可逆凝胶的DATD样特性的另一种交联剂是二丙烯酸乙二酯(Choules，G.L.和Zimm，B.S.：Anal.Biochem.，13：336-339，1965)。N，N′-双丙烯基胱胺(BAC)是可用于形成可逆聚丙烯酰胺凝胶的另一种交联剂。可用于形成在高碘酸盐中溶解的凝胶的另一种交联剂是N，N′-(1，2-二羟基亚乙基)双丙烯酰胺(DHEBA)。也可采用能形成可逆半固体支持物的各种其它材料。例如，可采用热致可逆性聚合物如普朗尼克(购自BASF)。普朗尼克是聚(环氧乙烷)-聚(环氧丙烷)-聚(环氧乙烷)(PEO-PPO-PEO)三嵌段共聚物家族(Nace，V.M.等，Nonionic Surfactant，Marcel-Dekker，NY，1996)。这些材料在温度升高(如高于室温的温度)时变成半固体(凝胶)，冷却时液化。可用各种方法对普朗尼克进行化学衍生，例如以有利于连接引物(参见例如，Neff，J.A.等，J.Biomed.Mater.Res.，40：511，1998；Prud′homme，RK等，Langmuir，12：4651，1996)。

溶解后，可收集微粒，并用重复的延伸、连接和切割循环进行测序。测序前，可在第二种半固体支持物中或之上(例如，以高于其在第一种半固体支持物中或之上所存在的密度)排列微粒。半固体支持物本身由基本平坦的刚性基材如玻片支撑。

因此，可用两种通用方法产生半固体支持物中或之上包埋了携带克隆模板群体的微粒阵列的半固体支持物。第一种方法包括在未存在于半固体支持物中的微粒上进行扩增(如用乳液PCR)，然后将该微粒固定在半固体支持物中或之上。第二种通用方法包括将微粒固定在半固体支持物中或之上，然后进行扩增。在这两种情况下，可能需要采取一定步骤来降低微粒聚集和/或将微粒基本排列在一个聚焦平面中。例如，将颗粒固定在聚丙烯酰胺凝胶中时，选择单体和交联剂的浓度，以使颗粒沉降到溶液底部，然后完成聚合，以使它们停留在下面的平坦基材上，从而位于一个平面中。在本发明的某些实施方式中，将具有基本平坦表面的物体，如盖玻片放置在含有微粒的液体丙烯酰胺(或能够形成半固体支持物的材料)上，以使丙烯酰胺夹在“夹心”结构的两层之间。然后倒转该夹心结构，以便通过重力作用使微粒沉降并停留在盖玻片(或具有基本平坦表面的其它物体)上。聚合后，揭下盖玻片。因此，微粒基本上包埋在同一平面内，接近半固体支持物的表面(如与该表面的正切)。

在本发明的某些实施方式中，与其如上所述将支持物如微粒固定在半固体基质中，不如将微粒共价或非共价连接于基本平坦的刚性基材，而不采用半固体支持物来固定它们，产生“无凝胶”或“少凝胶”的微粒阵列。本领域已知将微粒连接于基材如玻璃、塑料、石英、硅等的各种方法。可以使用或不使用某些材料(如各种聚合物)或促进连接的物质涂布(如旋涂)基材或使其官能化。涂层可以是薄膜、自组装单层等。可将微粒、连接于微粒的部分或连接于微粒的寡核苷酸(如模板)连接于基材。在本发明的某些实施方式中，该基材未用硅烷化剂处理，或者用硅烷化剂处理，但未产生有效硅烷化，例如，硅烷化是无效的，以允许形成以下微粒阵列，这种微粒阵列通过聚丙烯酰胺层固定在玻璃平板表面，使其在后续操作和/或流体接触中，例如在多个本文所述基于连接的测序循环期间稳定，上文中“稳定”指在操作和/或流体接触期间该凝胶一般保持固定在基材上，且不会发生明显的变形、脱附或分层。发明人认识到，在制备微粒阵列的过程中避免使用半固体介质如凝胶可提供若干优点。例如，(i)试剂的扩散更迅速，在不存在半固体介质时能更快地去除不良物质，如未连接的探针、酶等；(ii)在不存在有效硅烷化的条件下凝胶如丙烯酰胺可能无法稳定地固定在基材上；(iii)聚合过程对环境特征如氧气敏感；因此去掉聚合步骤能消除可能在阵列生产过程中引入不一致性的来源；(iv)不存在半固体介质有利于使较多微粒进入一个焦平面；(v)与包埋在半固体介质中相比，连接于基材时，特别是去掉聚合步骤时微粒能更稳定地固定在位置上。

通常，可采用本领域已知的各种方法均修饰核酸，如寡核苷酸引物、探针、模板等，以促进这类核酸连接于微粒或其它支持物或基材。此外，可采用本领域已知的各种方法修饰微粒或其它支持物，以促进核酸与其连接，以促进微粒连接于支持物或基材等。可使用表面化学特征有利于连接所需官能团的微球。这些表面化学特征的一些例子包括但不限于：包含脂族或芳族胺的氨基、羧酸、醛、酰胺、氯代甲基、酰肼、羟基、磺酸基团和硫酸基团。这些基团可与核酸中的基团发生反应，或者可通过连接反应性基团来修饰核酸。此外，本领域熟知大量稳定的双官能团，包括同双官能性和异双官能性接头。参见例如，PierceChemical Technical Library(皮尔斯化学技术库)，因特网址为URLwww.piercenet.com(最初在1994-95皮尔斯(Pierce)产品目录中公开)和G.T.Hermanson，Bioconjugate Techniques(生物偶联技术)，Academic Press，Inc.(学术出版社公司)，1996。也参见美国专利6,632,655。

通常，相互亲和以形成结合对的任何分子对均可用于将微粒或模板连接于基材。将结合对的第一个成员共价或非共价连接于基材，将结合对的第二个成员共价或非共价连接于微粒或模板。出于说明的目的，在本文中将第一结合对成员，即连接于基材的结合伙伴称为BP1，而将第二结合对成员，即连接于微球或模板的结合伙伴称为BP2。可通过接头将第一结合成员(BP1)连接于基材。可通过接头将第二结合成员(BP2)连接于微粒或模板。例如，根据一种方法，用胺活化基团(如采用含有胺活化基团的PEG接头)修饰玻片或其它合适基材。在水性条件下(如pH 8.0)，胺活化基团与胺如蛋白质(如链霉亲和素)中的赖氨酸反应。因此，用携带胺的部分官能化的微粒会固定在基材上。携带胺的部分可以是蛋白质或适当官能化的核酸，如DNA模板。可将多个部分连接于珠。例如，珠可连接与NHS酯反应的蛋白质，以将该珠连接于基材，也可连接DNA模板，该珠连接于基材后可对该模板进行测序。可从(如)Schott Nexterion，Schott North America，Inc.，Elmsford，NY 10523购得适当包被的带有聚合物系链的玻片，所述系链的一端含有胺反应性NHS部分。或者，包被玻片(如生物素包被玻片)可购自Accelr8Technology Corporation，Denver，CO。它们的OptiChem^TM技术代表了将微粒连接于基材的一种方法。参见例如，美国专利6,844,028。或者，可用(如)末端转移酶与生物素-二脱氧ATP和/或生物素-脱氧ATP以生物素使珠上的多核苷酸官能化，然后在有利于形成生物素-链霉抗生素蛋白键的条件下使这些珠接触基材，如链霉抗生素蛋白-包被的玻片(购自(如)Accelr8Technology Corporation，Denver，CO)(参见美国专利6,844,028)，从而将微粒连接于基材。在一个实施方式中，用PEG接头将链霉抗生物素蛋白连接于基材。在一个实施方式中，在合成后用生物素使与微粒结合的多核苷酸官能化。在另一实施方式中，在用生物素化引物进行扩增(如进行乳液PCR)的过程中，在合成期间将生物素掺入多核苷酸中。例如，第一引物P1共价或非共价连接于微粒。未结合微粒的第二引物P2包含生物素部分，因此得到的PCR产物包含生物素。

因此，本发明提供捕获连接有核酸模板的微粒，和将它们系链连接于基材表面，如基本平坦的刚性基材，如载玻片等的方法。在一个特别感兴趣的实施方式中，产生连接有不同模板克隆群体的微粒群体(例如使用乳液PCR)，其中所述模板包含生物素部分。可用标准方法在扩增后将生物素连接于模板。然后使微粒接触连接有生物素结合部分，例如生物素结合蛋白如链霉抗生物素蛋白的基本平坦的刚性基材，如载玻片。模板分子上的生物素与生物素结合部分结合，从而通过含有生物素和生物素结合蛋白的连接将微粒连接于基材。因此微粒与基材的连接可以是间接连接，其中该模板用作系链。在一个实施方式中，模板分子的一端连接于与珠连接的生物素结合部分，模板分子的另一端连接于与基材连接的生物素结合部分。

在某些实施方式中，单链模板的一端连接于微粒，单链模板的另一端连接于基材。因此在一个实施方式中，单链模板的3′端和5′端均参与形成将该微粒连接于基材的连接，其中第一个连接是微粒与模板之间的连接，第二个连接是模板与基材之间的连接。得到的结构在可能引起杂交核酸解离的加热和其它条件下稳定。

如实施例16所述，已发现可以在乳液PCR期间，在合成后使连接于链霉抗生物素蛋白包被微粒的模板生物素化，得到的生物素化模板能有效且强烈地与链霉抗生物素蛋白包被基材结合。在一个实施方式中，在该方法中分两阶段使用生物素-链霉抗生物素蛋白连接：(i)在模板扩增之前(如乳液PCR之前)，将生物素化引物连接链霉抗生物素蛋白包被微粒；和(ii)扩增后，将与微粒结合的游离端(即不与微粒连接的末端)生物素化的模板连接于链霉抗生物素蛋白包被的基材，从而将微粒锚定在基材上。任选地，在步骤(i)之后，可富集已进行乳液PCR(或其它扩增方法)的微粒群体中发生扩增的微粒。在步骤(ii)之前，任选在富集后，可用生物素化寡核苷酸孵育该微粒，以覆盖暴露有链霉抗生物素蛋白的微粒表面的任何部分。这些方法产生无需半固体介质就能稳定连接于基材表面的微粒阵列。在特别感兴趣的实施方式中，基材为基本平坦的刚性基材，如载玻片等。虽然本文介绍了生物素/链霉抗生物素蛋白相互作用，但应理解，链霉抗生物素只是结合于生物素的若干种蛋白质之一，任何一种结合于生物素的蛋白质均可用于本发明。例如，抗生物素蛋白是一种蛋清蛋白质，与细菌的链霉抗生物素蛋白相似，它能以高亲和力和选择性结合于生物素。NeutrAvidin是经过加工去除了糖的抗生物素蛋白的衍生物。CaptAvidin是在pH 9以上与生物素化分子的亲和力降低的抗生物素蛋白的衍生物。因此，生物素化分子可以在中性pH结合，而在pH～10释放。NeutrAvidin和CaptAvidin参见TheHandbook of Fluorescent Probes and Research Products(荧光探针和研究产品手册)，在线版本为(http://probes.invitrogen.com/handbook/sections/0706.html；2006年4月17日访问过)，它们均可获自加州卡尔斯巴德的英杰公司(Invitrogen，Carlsbad，CA)。另外，本发明包括使用具有特异性和高亲和力相互作用的任何分子对。例如，特异性结合对成员可以是抗体和抗原、受体和该受体的配体(如小分子或肽)、金属和金属结合剂(如Ni+和6X His标签)等。本发明提供用任何上述方法连接于基材的微粒，还提供包含连接于基材的微粒的阵列，其中微粒连接有不同模板。

在本发明的某些实施方式中，通过形成无凝胶微粒阵列将连接有多个拷贝的模板(例如，连接有至少几千，一般是几百万个拷贝的模板)的微粒与未连接有多个拷贝的模板的微粒分离开。在一个实施方式中，该基材连接有第一结合伙伴(BP1)，其中连接于微粒的模板分子包含第二结合伙伴(BP2)，BP1和BP2特异性互相结合，即它们是特异性结合对的成员。如上所述形成无凝胶微粒阵列时，只有连接有含有BP2的模板的微粒才能连接于基材。在另一实施方式中，该基材连接有第一反应部分(R1)，其中连接于微粒的模板分子包含第二反应部分(R2)，R1和R2互相反应形成共价键。如上所述形成无凝胶微粒阵列时，只有连接有含有BP2或R2的模板的微粒才能与基材连接。结合或反应后，可通过(例如)温和搅拌和/或洗涤去除未连接的微粒。一般将该方法施用于包含连接有不同模板克隆群体的微粒，还包含没有连接多拷贝的模板的一些微粒的微粒群体。例如，可利用该方法将已发生模板扩增(例如在乳液PCR期间)的微粒与未发生明显模板扩增的微粒分离开。在一个实施方式中，该方法包括以下步骤：(i)提供连接有特异性结合对的第一成员或反应性部分的基材；(ii)在适合发生结合(结合对成员之间或反应部分之间的结合)的条件下使该基材接触微粒群体，其中至少一些微粒含有多个拷贝的连接有特异性结合对的第二成员或反应性部分的模板；和(iii)去除未结合的微粒。在进行富集时特别感兴趣的是形成强非共价连接的特异性结合伙伴(如链霉抗生物素蛋白和生物素)。在另一实施方式中，采用互补寡核苷酸之间的杂交。例如，在一个实施方式中，选择与乳液PCR期间掺入模板的游离PCR引物(游离PCR引物是不连接于微粒的引物)一部分互补的寡核苷酸连接于该基材。由于在扩增成功的情况下游离PCR引物只存在于微粒上，所以只有成功进行模板扩增的微粒才连接于该基材。可利用连接酶对杂交事件进行质量检查，并将生物素化的夹板(splint)或引物共价连接于珠上模板的3’端。例如，可按照以下步骤顺序进行，其中“珠”代表微粒，P2代表扩增引物序列的至少一部分，“ds”指“双链”，“阵列”指发生成功扩增的微粒可通过生物素连接的基材。提供连接有双链模板的微粒。在第一步中，通过(例如)提高温度来去除未结合的模板。在第二步中，具有单链延伸部分的双链核酸与模板杂交。双链核酸用作将生物素与模板稳定连接的桥或夹板。不含单链延伸部分的双链核酸的链在与单链延伸部分相反的一端上连接有生物素部分。在第三步中，存在连接酶。如果进行了成功杂交则含有生物素的双链核酸与模板连接，从而将生物素与模板稳定地连接起来。在第四步中，通过(例如)提高温度释放未连接于模板的夹板链。生物素与结合于基材或支持物的链霉抗生物素蛋白的相互作用产生微粒阵列。

珠---------模板-------[P2]-ACGTTGGGGCTA

----------------------------------------------

↓(1)未结合模板与珠断开

珠---------模板-------[P2]-ACGTTGGGGCTA

↓(2)dsDNA-生物素夹板与模板P2杂交

珠---------模板-------[P2]-ACGTTGGGGCTApAAAAAAAAAAAAAAAAAAA-----生物素-阵列

TGCAACCCCGAT TTTTTTTTTTTTTTTTTTTTTTTT

↓(3)dsDNA-生物素与P2连接

珠---------模板-------[P2]-ACGTTGGGGCTAAAAAAAAAAAAAAAAAAAA-----生物素-阵列

TGCAACCCCGAT TTTTTTTTTTTTTTTTTTTTTTTT

↓(4)解链去除非珠结合的DNA

可使用该方法将连接有多个模板的微粒与未连接多个模板或连接的模板明显较少的微粒分离开，其中在扩增或合成后将该模板连接于微粒。待分离的微粒可能已经接触过任何类型的条件，在这些条件下扩增或合成微粒结合的模板或者可将多个拷贝的扩增模板与微粒连接。扩增方法可以是PCR扩增、滚圈扩增或任何其他类型的核酸扩增。可将该方法与本发明任何其它方法组合和/或联用。接触步骤一般在液体介质中进行。在本发明的某些实施方式中，在接触步骤中，含有微粒的液体流过连接有特异性结合对或反应性部分的基材。例如，可将该基材置入小室，如具有流体入口和流体出口的流动室中。可使微粒流过该基材，直到连接于基材的微粒达到所需密度或数量。可随时间监测密度或数量的改变(例如通过成像)。在特别感兴趣的实施方式中，用该方法将乳液PCR中发生扩增的微粒与乳液PCR中未发生明显模板扩增的微粒分离开。该方法能富集发生模板扩增的微粒。可对与基材结合的微粒上连接的模板施以各种进一步反应和操作。例如，可利用本文所述的基于连接的测序或者其它测序方法如FISSEQ、焦磷酸测序(pyrosequencing)等对它们进行测序。例如，可以在不使用和/或不存在半固体介质的情况下，在与基材连接的微粒连接的模板上进行本文所述的任何测序方法。

在微粒连接于基材或半固体介质的任何本发明实施方式中，微粒随后可释放，任选去除(如通过洗涤去除)。适合释放微粒的方法将取决于它们连接于基材或半固体介质的具体的共价或非共价连接。可使用任何合适方法，只要该方法不显著损伤DNA模板或导致其由基材或半固体介质释放。例如，在一个实施方式中，通过可切割接头，如含有二硫键或酯键的接头将微粒连接于基材或半固体介质。

在本发明的某些实施方式中，用微粒产生稳定连接于半固体介质的克隆模板群体的阵列。在这种方法中，在基材上存在半固体介质，如基本平坦的刚性基材上存在聚丙烯酰胺凝胶时，培育连接有一种或多种模板分子的微粒，使模板与固定于和/或连接于半固体介质的引物杂交。然后，延伸该引物(例如用DNA聚合酶)，合成连接于或固定于半固体介质的互补引物。通过(例如)提高培育的严谨性(例如提高温度)而释放微粒，以使两种互补的模板链相互分离。可采用其它方法来释放微粒，例如切割连接的模板或使微粒与模板脱附。

该方法将微粒结合模板的拷贝或“印迹”转移到半固体介质中。该方法的效率被定义为：由微粒拷贝至半固体介质的模板分子数量除以连接于微粒的模板分子数量。根据几何和物理学考虑，且不以任何方式限制本发明，连接有约150,000个200bp大小的模板分子的直径1μm的微粒的接触片直径约为500nm，如图40所示。接触片指与介质表面上的微粒足够接近或部分包埋在其中的半固体介质或基材区域，以便通过延伸位于半固体介质或基材中或上的引物合成与微粒连接的模板互补的模板。具体说，1微米直径的珠的面积为3.1×10⁶nm²，因此珠上的150,000个DNA分子得到的平均面积为20.9nm²，或平均距离为4.57nm。B-DNA的直径约为1.9nm，200bp B-DNA的长度为68nm。因此，距离1微米珠68nm的接触片的半径为252nm，或面积为199,000nm²。每个DNA分子占20.9nm²时，预计该片含有多达9500个分子，或者该珠下半部分上约13％的分子。

任选地，在保持与半固体介质相连的模板上进行一轮或多轮扩增。在一个实施方式中，扩增是滚圈扩增(RCA；美国专利号5,854,033；6,143,495)。在进行RCA之前，可进行以下步骤，包括(i)可滚圈(circularizable)探针(“扣锁探针”)与模板的两个非相邻区域杂交，(ii)用聚合酶填充产生的缺口，和(iii)连接末端。应理解，除测序区域之外，用于RCA的模板分子应包含与可滚圈探针互补的区域。

引物延伸和任选扩增产生连接于或固定于半固体介质的“点”阵列，或核酸“集落”。该集落所处位置对应于微粒沉积的位置。许多或大部分集落由模板的单克隆群体组成，或者在本发明某些实施方式中，由两个或多达数个模板克隆群体组成(如果微粒连接有两种或多种不同模板)。可采用相似方法，不使用半固体介质而在基材如载玻片上直接产生核酸集落阵列，即将引物连接于基材本身，而非连接于位于基材上的半固体介质。

不希望受任何理论束缚，用如上所述的微粒形成核酸集落阵列能提供多种优点。在用于形成阵列前可对微粒进行模板扩增和任选的富集，以便通过扩增衍生自单个微粒的多个模板拷贝，而非扩增单个模板产生各核酸点。另外，使用在半固体介质表面上互相紧邻的微粒能有效使用半固体介质表面，以便在检测过程中容易地区分单独的点。这些点一般比微粒小，使它们更明显地相互区别开。例如，如果距离颗粒和平坦表面之间接触点250nm以内的1微米直径颗粒上的DNA连接于该平坦表面并被拷贝，那么释放该颗粒后，会在表面上产生直径500nm的DNA片。如果两个1微米珠相接触，那么它们留下的DNA片中心相距1微米，最接近的片边缘之间相距500nm。如果能够将数百万微粒包装到小基材如载玻片表面上，则此方法提供了一种有效方式来实现高密度模板集落阵列，这种阵列易于成像且不受相邻集落干扰、含有足够数量的模板分子，以便在多个测序循环中容易和可靠地进行检测。

可对与基材结合颗粒连接的模板施加各种进一步的反应或操作。可利用本文所述的基于连接的测序或其它测序方法如FISSEQ、焦磷酸测序等对它们进行测序。例如，可以在半固体介质的核酸集落中存在的模板上进行本文所述的任何本发明测序方法，其中所述集落是用上述微粒形成的。

按照本文所述方法形成的微粒阵列或核酸集落通常可能是随机阵列。本文所用术语“随机图案化”或“随机”指实体(特征)在支持物上发生无序、非笛卡尔分布(换言之，没有排列在预定点或沿网格x-和y轴的位置或者相对于辐射图案的中心确定的′时钟位置′、角度或半径)，这不是通过有意设计(或可获得这种设计的程序)或放置单个实体获得的。这种“随机图案化”或“随机”的实体阵列可通过将含有实体库的溶液、乳液、气溶胶、蒸汽或干制剂滴加、喷雾、电镀、散布、分布(等)到支持物上或中，并使其沉降到支持物上或中实现，不以任何方式介入将它们导向支持物中或上的特定位点。例如，可将实体悬浮于含有半固体支持物前体(如丙烯酰胺单体)的溶液中。然后将该溶液分布在第二种支持物上，在第二种支持物上形成半固体支持物。将实体包埋在半固体支持物中或上。当然，也可采用非随机阵列。紧密包装微粒可能产生微粒的规则刚性阵列或由其合成的核酸集落。通常，本文所用形成阵列的方法不同于通过将单个核苷酸亚基连续施加于基材的预定位置上合成多核苷酸的方法。

图14B(上)显示了上面含有聚丙烯酰胺凝胶的玻片(1英寸×3英寸)的荧光图像。将具有与连接于珠的模板杂交的荧光标记的寡核苷酸的珠(直径1微米)固定在凝胶中。该图显示了珠表面密度(即珠所在区域内每单位基材面积上的珠数量)，每块玻片上足以成像约2.8亿个珠。一块玻片上的表面密度和可成像面积使得足以成像至少5亿个珠。例如，图14B(下)显示了带有围绕清晰区域的

掩模的玻片的示意图，在该区域中将珠包埋到半固体支持物层如聚丙烯酰胺凝胶中。此掩模的面积是864mm²。具有5亿个珠，表面密度是578,000个珠/mm²。紧密装填的1微米六边形阵列含有1,155,000个珠/mm²，因此，这种实施方式产生具有52％理论最大密度的阵列。应理解，可采用比此具体实施方式更少和更多的珠数量、更低或更高的珠表面密度。

可在基本平坦的半固体支持物或另一支持物或基材中或之上以各种密度排列微粒，可以多种方式对其进行限定。例如，密度可表示为基本平坦的阵列每单位面积的微粒(如球形微粒)数。在本发明的某些实施方式中，基本平坦的阵列上每单位面积的微粒数至少为六边形阵列中微粒数的80％(“六边形阵列”指阵列中每个微粒至少接触面积相等的另外六个相邻微粒的基本平坦的微粒阵列，如美国专利6,406,848所述)。然而，在本发明的其它实施方式中，微粒密度较低，如，基本平坦的阵列上每单位面积的微粒数小于六边形阵列中微粒数的80％、70％、60％或50％。如果不希望受限于理论，优选利用较低密度(如上述密度)，以便使试剂如酶、引物、辅因子等发生足够扩散，并避免某些试剂对微粒有不同亲和力或截留在其中时产生的试剂分配效应。这种效应可在阵列的不同位置上产生不同的反应条件，甚至可能阻止这些试剂进入阵列的某些位置。在流动室中进行反应时这些问题可能更难处理，因为试剂以定向方式通过流动室。在本发明的某些实施方式中，流动室的小室中包括混合装置，如通过机械或声学手段实现流体混合的装置。本领域已知许多合适的混合装置。

可用以所有类型阵列形式，包括随机和非随机阵列排列的模板实施本发明测序方法，所述阵列可以是微粒阵列或模板本身的阵列。例如，美国专利5,641,658和PCT公开号WO0018957描述了上面排列着模板的支持物。阵列可位于各种基材如滤纸、膜(如尼龙)、金属表面等上。可在阵列上通过重复的延伸、连接和切割循环进行测序的阵列形式的其它例子是位于光纤束中单根光纤的末端或远端的孔中的珠阵列。参见例如，美国公开和专利如6,023,540；6,429,027、20040185483、2002187515，PCT申请US98/05025和PCT US98/09163以及PCT公开WO0039587中描述了珠阵列和“阵列的阵列”。可以如本文所述排列连接有模板的珠。优选在形成阵列之前进行扩增。在这些基材上形成的阵列不一定基本平坦。

在其它实施方式中，在含有连接于基材或支持物的寡核苷酸的阵列上进行PCR，(参见例如，美国专利5,744,305；5,800,992；6,646,243和相关专利(Affymetrix)；PCT公开WO2004029586；WO03065038；WO03040410(Nimblegen))。通常，这种寡核苷酸含有游离的3’或5’端。如果需要，可修饰该末端，例如，如果3’端没有磷酸基团或OH基团则将磷酸基团或OH基团加到3’端上。将含有与连接于支持物或基材的寡核苷酸互补的区域的模板分子杂交于寡核苷酸，在阵列上进行原位PCR，在阵列的各个位置上产生克隆模板群体。连接于阵列的寡核苷酸可用作扩增引物之一。然后，用本文所述基于连接的方法测序模板。也可在阵列中的模板上进行测序，如美国公开号20030068629所述。

可使用在表面上制备DNA阵列的其他方法。例如，用末端醛基修饰的烷基硫醇(alkanethiol)可用于在金表面上制备自组装单层(SAM)。该单层的醛基可与胺修饰的寡核苷酸或其它携带胺的生物分子反应形成Schiff碱，然后可用氰基硼氢钠处理还原成稳定的仲胺(Peelen和Smith，Langmuir，21(1)：266-71，2005)。然后可进行模板的PCR扩增。或者，通过微粒或模板上的胺基或连接于颗粒的寡核苷酸与表面发生反应，可将连接有克隆模板群体的微粒连接于该表面。

获得连接有克隆模板群体的微粒的另一方法是美国专利5,604,097所述的“固相克隆”法，该方法利用寡核苷酸标签将多核苷酸分选到微粒上，使得只有序列相同的多核苷酸连接于某一特定微粒。

在本发明的某些实施方式中，通过将测序试剂(如延伸探针、连接酶、磷酸酶等)扩散到含有固定在支持物中或之上的克隆模板群体(各克隆群体位于支持物的空间独立区域中)的半固体支持物如凝胶中，以重复的延伸、连接和切割循环进行测序。在某些实施方式中，将模板直接连接于上述半固体支持物。然而，在其它实施方式中，将模板固定在第二种支持物如微粒上，进而将微粒固定在半固体支持物中或上，如上所述。

如实施例1所述，本发明者已证明，可在连接于固定在聚丙烯酰胺凝胶中的珠的模板上进行强效连接和切割。因此，本发明提供了将第一种多核苷酸连接于第二多核苷酸的方法，所述方法包括以下步骤：(a)提供固定在半固体支持物中或之上的第一种多核苷酸；(b)使所述第一种多核苷酸与第二种多核苷酸和连接酶接触；和(c)在存在连接酶时将所述第一种和第二种多核苷酸维持在适合连接的条件下。合适条件包括提供适合所用具体连接酶的缓冲液、辅因子、温度、时间等。在优选实施方式中，所述半固体支持物是凝胶如丙烯酰胺凝胶。在另一优选实施方式中，通过连接于支持物如珠、然后将珠本身固定在半固体支持物中或之上，如通过部分或完全包埋到支持物基质中，将所述第一种多核苷酸固定在半固体支持物中或之上。或者，可通过连接如acrydite部分将所述第一种多核苷酸直接连接于所述半固体支持物。该连接可以是共价或非共价连接(如通过生物素-亲合素相互作用)。美国专利6,511,803描述了可用于将核酸分子连接于本发明优选支持物即聚丙烯酰胺凝胶的各种方法。

本发明还提供了切割多核苷酸的方法，所述方法包括以下步骤：(a)提供固定在半固体支持物中或之上的多核苷酸，其中所述多核苷酸含有易切连接；(b)将所述多核苷酸与切割剂接触；和(c)在所述切割剂存在下将所述多核苷酸维持在适合切割的条件下。合适的条件包括提供适用于具体切割剂的缓冲液、温度、时间等。在优选实施方式中，所述半固体支持物是凝胶如丙烯酰胺凝胶。在另一优选实施方式中，通过连接于支持物如珠、然后将珠本身固定在半固体支持物中，将所述多核苷酸固定在半固体支持物中。或者，可通过连接如acrydite部分将所述多核苷酸直接连接于所述半固体支持物。该连接可以是共价或非共价连接(如通过生物素-亲合素相互作用)。应理解，按照本文所述许多方法制备的DNA模板一般含有待测序区域，3’或5’端或两端也含有保守的引物区(PBR)。“保守”或“共有”区域指含有不同的待测序区域的多个模板的共有序列，即虽然模板序列部分不同，但它们也含有相同的部分。模板也可含有一条或多条保守的内部衔接子序列。此外，DNA模板的滚圈扩增(RCA)不仅产生这些保守序列的额外拷贝，还由RCA探针引入保守序列另一区域的拷贝。结果是，待测序文库分子部分(称为“靶区域”、“感兴趣区段”等)可代表少于一半的实际模板核酸。本发明包括以下认识：单链时，这些已知/共有的非靶点区域可隔开测序探针，并且是测序引物(例如起始寡核苷酸)错误引导的可能位点。本发明提供与多核苷酸模板中存在的非靶序列互补的封闭寡核苷酸。本文所用的“封闭寡核苷酸”是与模板中的非靶序列稳定杂交的寡核苷酸，其中非靶序列是在适合测序的条件下包含不同靶点区域的多个模板共有的序列。非靶序列与起始寡核苷酸结合的区域不同。本发明还提供杂交有一个或多个封闭寡核苷酸的多核苷酸模板。

在本发明的某些实施方式中，用乳液PCR合成该模板。

在特别感兴趣的实施方式中，DNA模板是片段文库成员，且含有正向和反向衔接子，如图36B所示。第一封闭寡核苷酸与正向衔接子互补，第二封闭寡核苷酸与反向衔接子互补。在其它实施方式中，DNA模板是配对末端文库的成员，并且含有正向和反向衔接子，也含有内部衔接子，如图36A所示。第一封闭寡核苷酸与正向衔接子互补，第二封闭寡核苷酸与反向衔接子互补，第三封闭寡核苷酸与内部衔接子互补。在其它实施方式中，用RCA扩增模板，该模板含有衔接子区和扣锁区，如图36C和37所示。封闭寡核苷酸与模板中存在的衔接子和扣锁区互补。应理解，在RCA中，通过聚合酶拷贝扣锁探针，以产生其互补物。因此，为了封闭模板中的RCA互补物，用与扣锁探针相同的序列作为封闭寡核苷酸。如图36和37所示的具体寡核苷酸和其互补物，是本发明的不同方面，应认识到可选择不同的封闭寡核苷酸的序列，使其与模版中的具体保守序列互补。本发明还包括与图36或37所示序列的序列差异不超过1、2、3、4或5个核苷酸的寡核苷酸。

不以任何方式限制本发明，发明人可使用封闭寡核苷酸来解决上述问题或由于存在许多拷贝的这些共有序列而引起的其它问题，例如用作模板复杂性降低工具、消除潜在的错误引导位点和/或帮助延伸寡核苷酸接触模板的靶区域。在本发明的某些实施方式中，封闭寡核苷酸能提高测序效率，例如提高信噪比。

封闭寡核苷酸一般在测序引物退火前与单链模板DNA杂交，从而防止这些区域与测序引物(如基于连接的测序中的初始寡核苷酸)或探针(如基于连接的测序中的延伸探针)的后续杂交。它们一般在后续的连接、检测(在切割延伸寡核苷酸的本发明实施方式中还有切割)循环中持续存在。在本发明某些实施方式中，封闭寡核苷酸不是聚合酶或连接酶的底物，例如，它们无法通过典型的聚合酶或连接酶进行酶促延伸。在一个实施方式中，封闭寡核苷酸缺少3’羟基和5’磷酸。这些基团可能不存在，或者可能在合成后去除，或者可用不是延伸或连接底物的部分在寡核苷酸的3’端和/或5’端加帽或封闭。在本发明的某些实施方式中，封闭寡核苷酸包含3’末端双脱氧寡核苷。在本发明的某些实施方式中，封闭寡核苷酸包含末端3’端双脱氧胞嘧啶(3‘ddC)。在本发明的某些实施方式中，设计与配对标签文库使用的扣锁探针，以便单独RCA单个标签(仅标签#1，仅标签#2)或跨越两个标签(标签#1-内部-标签#2)(图37)。

封闭寡核苷酸可短于保守区，即它们可能只与一部分保守区互补。封闭寡核苷酸不需要与保守区完美互补，但这种完美互补是优选的。一般地，它们与所有或一部分保守区的互补性至少为80％，优选至少90％。封闭寡核苷酸的大小可取决于待封闭的共有序列的长度。典型长度为10-50个核苷酸。可使用两种或多种各自与一部分待封闭保守区互补的封闭寡核苷酸代替一种较长的寡核苷酸。

封闭寡核苷酸特别可用于本文所述的基于连接的测序。因此，本文所述的任何方法可包括使模板多核苷酸与一种或多种封闭寡核苷酸接触的步骤，然后使模板与初始寡核苷酸接触，然后形成或提供探针-模板双链体，和/或形成延伸的双链体。然而，也可在进行其它测序方法，如FISSEQ、焦磷酸测序等时使用封闭寡核苷酸。

D.通过不同起始寡核苷酸的再启动进行测序

在本发明优选实施方式中，进行足够的循环数后，从模板上去除通过延伸第一种起始寡核苷酸产生的延伸链，将第二种起始寡核苷酸退火到结合区上，然后进行延伸、连接和检测循环。用任何数量的不同起始寡核苷酸重复该过程。在切割延伸探针的实施方式中，所用不同起始寡核苷酸的数量(以及反应数量)优选等于释放探针的远端部分后仍然与模板杂交的延伸探针部分的长度。因此，按照这个实施方式，序列信息(如各核苷酸的顺序和种类)可获自连接于一种支持物的模板，在这种情况下，采用比每个循环中鉴定连续核苷酸所需循环数少得多的循环数仍能深入读出该序列。

与需要将模板分成多个试样量的方法如Macevicz所述方法相比，起始寡核苷酸依次结合于相同模板的实施方式具有某些优点。例如，将起始寡核苷酸施加于同一模板就不需要对多个试样量获得的数据进行跟踪和随后的合并。在支持物以随机方式排列以致于无法预先确定单个支持物的位置的实施方式中，可能难以或不可能可靠地合并来自多个支持物的部分序列信息，各支持物连接有序列相同的模板。

E.在每个循环中鉴定一个模板上的多个核苷酸

Macevicz描述了每个延伸、连接和检测循环中鉴定模板上的一个核苷酸。然而，本发明者认识到，可修改该方法，以在每个循环中鉴定模板上的多个核苷酸。在这种情况下，标记延伸探针，从而使得可从标记确定毗连延伸双链体的两个或多个(优选连续的)核苷酸的种类。换言之，延伸探针的序列测定部分多于一个核苷酸，一般包含最接近的核苷酸、紧邻的核苷酸，还可能包含一个或多个额外(优选连续的)核苷酸，所有这些核苷酸都能与模板特异性杂交。例如，除了采用4种标记鉴定碱基A、G、C和T以外，还可采用16种区别标记的探针或探针组合来鉴定16种可能的双核苷酸AA、AG、AC、AT、GA、GG、GC、GT、CA、CG、CC、CT、TA、TG、TC和TT。各区别标记的延伸探针的序列测定部分与这些双核苷酸之一互补。采用更多标记的相似方法在每个循环中能够鉴定更长的核苷酸序列。

F.标记

从广义上说，本文所用术语“标记”指连接于探针、可用于区分不同种类的探针(如含有不同末端核苷酸的探针)的任何可检测部分或多个可检测部分。因此，标记和特定可检测部分之间不一定是一对一的对应关系。例如，多种可检测部分可连接于一种探针，产生能够将该探针与连接有不同可检测部分或可检测部分组的探针区分开来的组合信号。例如，可使用按照美国专利6,632,609和Speicher等，Nature Genetics，12：368-375，1996所述的称为“组合多色编码”的标记方案的可检测部分组合。

可用各种方式标记本发明探针，包括直接或间接连接荧光或化学发光部分、比色部分、与底物接触时产生可检测信号的酶部分等。Macevicz指出，可用荧光染料标记探针，如Menchen等，美国专利5,188,934；Begot等，PCT申请PCT/US90105565所述。本文所用术语“荧光染料”和“荧光团”指在特定激发波长上吸收光能并在不同波长上发出光能的部分。优选地，选择用于给定探针混合物的标记是可光谱分辨的。本文所用“可光谱分辨”指在操作条件下可根据光谱特征，具体是荧光发射波长区分该标记。例如，一种或多种末端核苷酸的种类可能与独特波长的最大光发射强度相关，或可能与不同波长下的强度比有关。本文中将用于检测和鉴定标记的标记光谱特征称为“颜色”。应理解，常常根据特定的光谱特征鉴定标记，例如当标记由一个可检测部分组成时根据最大发射强度频率来鉴定，或者当标记由多个可检测部分组成时根据发射峰的频率来鉴定。

优选提供四种探针，以四种可光谱分辨的荧光染料各自与探针的四种可能末端核苷酸一对一对应。美国专利4,855,225和5,188,934；国际申请PCT7US90/05565；和Lee等，Nucleic Acids Researchss，20：2471-2483(1992)公开了可光谱分辨的染料组。在某些实施方式中，优选由FITC、HEX^TM、德克萨斯红和Cy5组成的染料组。可从(例如)Molecular Probes，Inc.，EugeneOR购得许多合适染料。荧光染料的特定例子包括但不限于：Alexa Fluor染料(Alexa Fluor 350、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 633、Alexa Fluor 660和AlexaFluor 680)、AMCA、AMCA-S、BODIPY染料(BODIPY FL、BODIPY R6G、BODIPY TMR、BODIPY TR、BODIPY 530/550、BODIPY 558/568、BODIPY564/570、BODIPY 576/589、BODIPY 581/591、BODIPY 630/650、BODIPY650/665)、CAL染料、羧基罗丹明6G、羧基-X-罗丹明(ROX)、Cascade蓝、Cascade黄、花青染料(Cy3、Cy5、Cy3.5、Cy5.5)、丹酰、Dapoxyl、二烷基氨基香豆素、4′，5’-二氯-2′，7′-二甲氧基-荧光素、DM-NERF、伊红、赤藓红、荧光素、FAM、羟基香豆素、IRD染料(IRD40、IRD 700、IRD 800)、JOE、Lissamine罗丹明B、Marina蓝、甲氧基香豆素、萘并荧光素、Oregon绿488、Oregon绿500、Oregon绿514、Oyster染料、太平洋蓝、PyMPO、Pyrene、罗丹明6G、罗丹明绿、罗丹明红、Rhodol绿、2′，4′，5’，7′-四溴砜-荧光素、四甲基-罗丹明(TMR)、羧基四甲基罗丹明(TAMRA)、德克萨斯红、德克萨斯红-X。进一步的说明请参见《荧光探针和研究产物手册》(TheHandbook of Fluorescent Probes and Research Products)，第9版，分子探针公司(Molecular Probes，Inc.)。

在非辐射荧光共振能量转移(FRET)的过程中，一些荧光基团将能量转移到另一基团上，由第二个基团产生检测信号，而非直接检测此基团。即，采用淬灭剂也属于本发明范围。术语“淬灭剂”指接近时能吸收激发的荧光标记的能量的部分，并能消散该能量而不发射可见光。淬灭剂的例子包括但不限于：DABCYL(4-(4′-二甲基氨基苯基偶氮基)苯甲酸)琥珀酰亚胺酯、二芳基罗丹明羧酸琥珀酰亚胺酯(QSY-7)和4′，5’-二硝基荧光素羧酸琥珀酰亚胺酯(QSY-33)(均购自分子探针公司)，淬灭剂1(Q1；购自依破彻公司(Epoch))或“黑洞淬灭剂”BHQ-I、BHQ-2和BHQ-3(购自生物检索公司(BioSearch，Inc.))。

除了上述各种可检测部分以外，本发明也考虑采用可光谱分辨的量子点、金属纳米颗粒或纳米簇等，可将它们直接连接于寡核苷酸探针，或者包埋或连接到聚合物基质中再连接于探针。如上所述，不一定直接可检测到可检测部分本身。例如，它们可能在基材上起反应从而被检测或者它们可能需要经过修饰才变得可检测。

如上所述，在本发明的某些实施方式中，标记由多种可检测部分组成。这些可检测部分的组合信号产生用于鉴定该探针的颜色。例如，可通过连接“蓝”和“红”可检测部分构建特定序列的“紫”探针。或者，可通过混合序列相同但用不同可检测部分进行标记的两种探针产生混合探针，从而产生独特的颜色。因此，可通过构建具有特定序列的两种探针产生该序列的“紫”探针。将“红”可检测部分连接于第一种探针，将“蓝”可检测部分连接于第二种探针。混合试样量的这两种探针。可通过以不同比例混合试样量产生不同渐变的紫色。这种方法提供了许多优点。首先，它能够用较少可检测部分产生多种可区分探针。其次，采用混合探针可提供可能有助于降低偏差的简并程度，这种偏差可能由具体可检测部分和具体核苷酸的相互作用产生。

在本发明的某些实施方式中，通过可切割连接将可检测部分连接于寡核苷酸延伸探针中的核苷酸上，以便在连接和检测后去除可检测部分。可采用各种不同可切割连接。提到寡核苷酸探针中的可检测部分和核苷酸时，本文所用术语“可切割连接”指将可检测部分与核苷酸相连的化学部分，并在需要时可以将其切下以去除核苷酸上的可检测部分，而基本不改变其连接的核苷酸或核酸分子。根据连接的本质，可通过(例如)酸或碱处理、或者氧化或还原该连接、或者通过光处理(光切割)实现切割。可切割连接和切割剂的例子参见Shirnkus等，1985，Proc.Natl.Acad.Sci.USA 82：2593-2597；Soukup等，1995，Bioconjug.Chem.6：135-138；Shimikus等，1986，DNA 5：247-255；和Herman和Fenn，1990，Meth.Enzymol.184：584-588。更一般地，“可切割连接”指可用于将两个分子或实体连接在一起、且容易通过切割分离所述分子或实体的部分，在切割过程中基本不改变所述分子或实体的结构，例如在符合所述分子或实体稳定性的条件下切割。

例如，如美国专利6,511,803所述，可还原二硫连接，从而用硫醇化合物还原剂如二硫苏糖醇(DTT)切割。可获得含有可用于与含有活性芳基氨基的核苷酸(如dCTP)偶联的巯基(SH)的荧光团(如含有SH的花青5或花青3荧光团；New England Nuclear-DuPont)。活性吡啶基二硫醇能与巯基反应产生可用还原剂如二硫苏糖醇切割的氢硫键(sulfhydryl bond)。可用NHS酯异双功能交联剂(Pierce)将含有活性芳基氨基的脱氧核苷酸连接于吡啶基二硫醇基团，进而与荧光团上的SH反应，产生用于本发明方法的二硫键连接的可切割核苷酸-荧光团复合物。或者，核苷酸和荧光团之间的顺-二醇连接可被高碘酸盐切开。美国专利号6,664,079和6,632,655、美国公开申请20030104437、WO 04/18497和WO 03/48387中描述了各种可切割连接。

在本发明的其它实施方式中，使用通过接触电磁能如光(光漂白)能使其不可检测的可检测部分。

在利用含有通过可切割连接连接于探针的标记或含有可被光漂白的标记的延伸探针的本发明实施方式中，测序方法一般包括在已经进行连接和标记检测后的一个或多个循环中进行切割或光漂白的步骤。如上所述，寡核苷酸延伸探针中易切连接的切割可能不进行至完成(即在其连接的循环中可切割小于100％新连接的探针)。由于这种探针通常包含不可延伸的模板或有帽，所以它们不能进行连续循环。然而，无法切割探针意味着该标记保持与探针连接的模板分子的连接，这将产生背景信号(即背景荧光)，可能增加后续循环中的噪音。加入切割或光漂白步骤以去除该标记或使其不可检测能减少此种背景并提高信噪比。可以在每个循环中进行切割或光漂白，或者频率稍低，如每两个循环、每三个循环或每五个循环或更多个循环进行一次切割或光漂白。在本发明的某些实施方式中，实际上不一定加入额外步骤来切割可切割接头。例如，切割剂如DTT可能已经存在于洗涤缓冲液中，可用于去除未连接延伸探针。

G.优选的易切连接

本发明者发现，在通过连续的延伸、连接、检测和切割循环进行测序的方法中，含有至少一个硫代磷酸酯连接的延伸探针特别有用。在这种连接中，磷酸二酯键的桥接氧原子之一被硫原子取代。硫代磷酸酯连接可以是图4A所示的5’-S-硫代磷酸酯连接(3’-O-P-S-5’)或图4B所示的3’-S-硫代磷酸酯连接(3’-S-P-O-5’)。应理解，表示为3’-O-P-S-5’或3’-S-P-O-5’的连接中的磷原子可连接于两个非桥接氧原子，如图4A和4B所示(如典型的磷酸二酯键)。或者，磷原子可连接于各种其它原子或基团，如S、CH₃、BH₃等。因此，本发明一方面是含有硫代磷酸酯连接的标记的寡核苷酸探针。虽然该探针在本文所述的测序方法中特别有用，但它们也可用于各种其它目的。具体说，本发明提供了(i)5’-0-P-O-X-O-P-S-(N)_kN_B ^*-3’形式的寡核苷酸；和(ii)5’-N_B ^*(N)_k-S-P-O-X-3’形式的寡核苷酸。在这些探针中，N代表任何核苷酸，N_B代表连接酶不可延伸的部分，^*代表可检测部分，X代表核苷酸，k是1-100。在某些实施方式中，k是1-50、1-30、1-20，如4-10，限制条件是：可检测部分可存在于替代N_B、或除N_B以外的(N)_k的任何核苷酸上。这些探针中的末端核苷酸可以包括或可以不包括磷酸基团或羟基。而且应理解，在优选实施方式中磷原子通常连接于两个其它(非桥接)氧原子。

本领域已知合成含有5’-S-硫代磷酸酯或3’-S-硫代磷酸酯连接的寡核苷酸的方法，其中某些方法适用于自动化固相寡核苷酸合成。合成方法参见例如：Cook，AF，J.Am.Chem.Soc.，92：190-195，1970；Chladek，S.等，J.Am.Chem.Soc.，94：2079-2084，1972；Rybakov，VN等，Nucleic AcidsRes.，9：189-201，1981；Cosstick，R.和Vyle，JS，J.Chem.Soc.CHem.Commun.，992-992，1988；Mag，M.等，Nucleic Acids Res.，19(7)；1437-1441，1991；Xu，Y和Kool，ET，Nucleic Acids Res.，26(13)：3159-3164，1998；Cosstick，R.和Vyle，JS，Tetrahedron Lett.，30：4693-4696，1989；Cosstick，R.和Vyle，JS，Nucleic Acids Res.，18：829-835，1990；Sun，SG和Piccirilli，JA，Nucl.Nucl.，16：1543-1545，1997；Sun SG等，RNA，3：1352-1363，1997；Vyle，JS等，Tetrahedron Lett.，33：3017-3020，1992；Li，X.等，J.Chem.Soc.Perkin Trans.，1：2123-22129，1994；Liu，XH和Reese，CB，Tetrahedron Lett.，37：925-928，1996；Weinstein，LB等，J.Am.Chem.Soc.，118：10341-10350，1996；和Sabbagh，G.等，Nucleic Acids Res.，32(2)：495-501，2004。此外，本发明者开发了新合成方法。例如，图7显示了dA的3’-亚磷酰胺的合成方案。相似方案可用于合成dG的3’-亚磷酰胺。这些亚磷酰胺可用于合成与嘌呤核苷相连的含有3’-S-硫代磷酸酯连接的寡核苷酸，如利用自动DNA合成仪。

可用各种含金属的物质切割硫代磷酸酯连接。所述金属可以是(例如)Ag、Hg、Cu、Mn、Zn或Cd。优选地，该物质是提供Ag⁺、Hg⁺⁺、Cu⁺⁺、Mn⁺⁺、Zn⁺或Cd⁺阴离子的可溶于水的盐(也可采用提供其它氧化状态的离子的盐)。也可采用I₂。特别优选含银盐如硝酸银(AgNO₃)或其它提供Ag⁺离子的盐。合适的条件包括例如：50mM AgNO₃，约22-37℃，10分钟或更长时间如30分钟。优选地，pH为4.0-10.0，更优选5.0-9.0，如约6.0-8.0，如约7.0。参见例如，Mag，M.等，Nucleic Acids Res.，19(7)：1437-1441，1991。

实施例1提供了示范性方案。

可用含有3’-O-P-S-5’连接的延伸探针在5’→3’方向上进行测序。图5A显示了用5’-O-P-O-X-O-P-S-NNNNN_B ^*-3’形式的延伸探针进行的一个杂交、连接和切割循环，其中N代表任意核苷酸，N_B代表了连接酶不能延伸的部分(如N_B是缺少3’羟基或连接有封闭部分的核苷酸)，^*代表可检测部分，X代表其种类对应于可检测部分的核苷酸。或者，可将大量封闭部分连接于3’末端核苷酸，以防止多重连接。例如，将大基团连接于核苷酸的糖部分的(如)2′或3’位置上将防止连接。荧光标记可用作合适的大基团。

将含有结合区40和序列未知的多核苷酸区50的模板连接于支持物如珠。在优选实施方式中，如图5A所示，结合区位于模板与支持物连接点的另一端。将具有可延伸末端(在此例中为游离的3’OH基团)的起始寡核苷酸30退火到结合区40上。延伸探针60杂交于模板的多核苷酸区50。核苷酸X与模板中的未知核苷酸Y形成互补碱基对。将延伸探针60连接于起始寡核苷酸(如采用T4连接酶)。连接后，检测连接于延伸探针60的标记(未显示)。该标记对应于核苷酸X的种类。因此，核苷酸Y被鉴定为与核苷酸X互补的核苷酸。然后，在硫代磷酸酯连接上切割延伸探针60(如用AgNO₃或提供Ag⁺离子的另一种盐)，产生延伸双链体。切割在延伸双链体的3’端上产生磷酸基团。用磷酸酶处理在延伸双链体上产生可延伸探针末端。以所需循环数重复该过程。

在优选实施方式中，用含有3’-S-P-O-5’连接的延伸探针在3’→5’方向上进行测序。图5B显示了用5’-N_B ^*-NNNN-S-P-O-X-3’形式的延伸探针进行的一个杂交、连接和切割循环，其中N代表任意核苷酸，N_B代表了连接酶不能延伸的部分(如N_B是缺少5’磷酸基团或连接有封闭部分的核苷酸)，^*代表可检测部分，X代表其种类对应于可检测部分的核苷酸。

将含有结合区40和序列未知的多核苷酸区50的模板连接于支持物如珠。在优选实施方式中，如图5B所示，结合区位于模板与支持物连接点的另一端。将具有可延伸末端(在此例中为游离的5’磷酸基团)的起始寡核苷酸30退火到结合区40上。延伸探针60杂交于模板的多核苷酸区50。核苷酸X与模板中的未知核苷酸Y形成互补碱基对。将延伸探针60连接于起始寡核苷酸(如采用T4连接酶)。连接后，检测连接于延伸探针60的标记(未显示)。该标记对应于核苷酸X的种类。因此，核苷酸Y被鉴定为与核苷酸X互补的核苷酸。然后，在硫代磷酸酯连接上切割延伸探针60(如用AgNO₃或提供Ag⁺离子的另一种盐)，产生延伸双链体。切割在延伸双链体的5’端上产生可延伸的单磷酸基团，因此不必进行额外的步骤来产生可延伸末端。以所需循环数重复该过程。

应理解，可采用这种方案的许多改变形式。例如，探针可以短于或长于6个核苷酸；标记不一定在3’末端核苷酸上；P-S连接可位于任意两个相邻核苷酸之间等。在上述实施方式中，连续的延伸、连接、检测和切割循环导致鉴定了相邻位置的核苷酸。然而，通过使P-S连接更靠近延伸探针远端(即发生连接的相对末端)，依次鉴定的核苷酸将以一定间隔沿模板分布，如上所述和图1和6所述。

图6A-6F是在一个模板上依次进行几个测序反应的更详细的示意图。用含有3’-S-P-O-5’连接的延伸探针在3’→5’方向上进行测序。各测序反应包括多个延伸、连接、检测和切割循环。该反应利用结合于模板不同部分的起始寡核苷酸。延伸探针的长度为8个核苷酸，在从探针的3’端开始数第6和第7个核苷酸之间含有硫代磷酸酯连接。核苷酸2-6用作间隔物，以使各反应能鉴定以一定间隔沿模板分布的多个核苷酸。通过连续进行多个反应和适当地合并从各反应获得的部分序列信息，测定部分模板的完整序列。

图6A显示了用杂交于模板中的衔接子序列(上面称为结合区)的第一种起始寡核苷酸(在图6A-6F中称为引物)启动，以提供可延伸双链体。图6B-6D显示了几个核苷酸鉴定循环，其中模板中每6个碱基阅读一次。在图6B中，3’末端核苷酸与模板序列中第一个未知核苷酸互补的第一个延伸探针结合于模板，并与引物的可延伸末端连接。连接于该延伸探针的标记能鉴定该探针的3’末端核苷酸为A，从而鉴定出模板序列的第一个未知核苷酸为A。图6C显示了用AgNO₃在硫代磷酸酯连接处切割延伸寡核苷酸，并释放标记所连接的延伸探针部分。图6D显示了其它延伸、连接和切割循环。由于该探针所含间隔物的长度为5个核苷酸，所以该测序反应在模板上每6个核苷酸鉴定一次。

所需循环数后，去除包含第一种起始寡核苷酸的延伸链，结合于不同于第一种起始寡核苷酸所结合的结合区部分的第二种起始寡核苷酸杂交于模板。图6E显示了第二个测序反应，其中用第二种起始寡核苷酸启动，然后是几个核苷酸鉴定循环。图6F显示了用第三种起始寡核苷酸启动，然后是几个核苷酸鉴定循环。从第二种起始寡核苷酸延伸能以不同于第一个测序反应所鉴定核苷酸的“读框”每6个碱基鉴定一次。

虽然本发明的某些实施方式中优选含有硫代磷酸酯连接的延伸探针，但也宜采用各种其它易切连接。例如，已知对天然产生核酸中发现的O-P-O连接进行的许多变异(参见例如，Micklefield，J.Curr.Med.Chem.，8：1157-1179，2001)。可修饰其中所述任何含有P-O键的结构，使其含有易切的P-S键。例如，可将NH-P-O键改变成NH-P-S键。

在本发明的一些实施方式中，延伸探针含有引发残基，所述引发残基在任选地用修饰剂修饰后，使核酸易被切割剂或其组合切割。具体说，本发明者发现，参与DNA修复的酶是用于实施经连续延伸、连接、检测和切割循环进行测序的方法的有利切割试剂。通常，在任选的DNA糖基化酶修饰后，延伸探针中存在引发残基如损伤碱基或脱碱基残基可使该探针易被一种或多种DNA修复酶切割。因此，含有作为参与DNA修复的酶如AP核酸内切酶的切割底物的连接的延伸探针可用于本发明。在本发明中含有作为参与DNA修复的酶如DNA糖基化酶的修饰底物的残基的延伸探针也特别有用，其中修饰使该探针易被AP核酸内切酶切割。在一些实施方式中，该延伸探针含有脱碱基残基，即它缺少嘌呤或嘧啶碱基。脱碱基残基和相邻核苷之间的连接易被AP核酸内切酶切割，因此是易切连接。在本发明的某些实施方式中，脱碱基残基包含2′脱氧核糖。在一些实施方式中，延伸探针包含损伤碱基。所述损伤碱基是去除损伤碱基的酶如DNA糖基化酶的底物。去除损伤碱基后，得到的脱碱基残基和相邻核苷之间的连接易被AP核酸内切酶切割，因此被认为是本发明的易切连接。

许多不同AP核酸内切酶可用作本发明切割试剂。根据切割与脱碱基残基相邻的连接的机制来区分两种主要类型的AP核酸内切酶。I类AP核酸内切酶如大肠杆菌的核酸内切酶III(Endo III)和核酸内切酶VIII(EndoVIII)以及人同源物hNTH1、NEIL1、NEIL2和NEIL3是切割AP残基3’侧DNA的AP裂合酶，这种切割产生含有3’末端磷酸的5’部分和携带5’末端磷酸的3’部分。II类AP核酸内切酶如大肠杆菌的核酸内切酶IV(Endo IV)和外切核酸酶III(Exo III)切割AP位点5’侧DNA，这种切割在得到的片段末端上产生3’OH和5’脱氧核糖磷酸部分。参见例如，Doublie，S.等，Proc.Natl.Acad.Sci.101(28)，10284-10289，2004；Haltiwanger，B.M.等，BiochemJ.，345，85-89，2000；Levin，J.和Demple，B.，Nucl.Acids.Res.，18(17)，1990；以及所有上述文献的参考文献，以进一步讨论各种I类和II类AP核酸内切酶以及它们去除DNA上的损伤碱基和/或切割含有脱碱基残基的DNA的条件。本领域普通技术人员应理解，其它生物体(如酵母)中存在这些酶的各种同源物，可用于本发明。

某些酶是双功能酶，它们既具有去除损伤碱基以产生AP残基的糖基化酶活性，也显示出切割由糖基化酶活性产生的AP位点3’端的磷酸二酯主链的裂合酶活性。因此，这些双活性酶是AP核酸内切酶和DNA糖基化酶。例如，Endo VIII用作N-糖基化酶和AP-裂合酶。N-糖基化酶活性能从双链DNA上释放损伤嘧啶，产生脱嘌呤碱基(AP位点)。AP-裂合酶活性切割AP位点的3’和5’端，产生5’磷酸和3’磷酸。核酸内切酶VIII识别和切除的损伤碱基包括脲、5，6-二羟基胸腺嘧啶，胸腺嘧啶二醇，5-羟基-5-甲基乙内酰脲，尿嘧啶二醇，6-羟基-5，6-二氢胸腺嘧啶和甲基丙醇二酰脲。参见例如，Dizdaroglu，M.等，Biochemistry，32，12105-12111，1993和Hatahet，Z.等，J Biol.Chem.，269，18814-18820，1994；Jiang，D.等，J.Biol.Chem.，272(51)，32220-32229，1997；Jiang，D.等，J.Bact，179(11)，3773-3782，1997。

Fpg(甲酰胺基嘧啶[fapy]-DNA糖基化酶)(也称为8-氧鸟嘌呤DNA糖基化酶)也用作N-糖基化酶和AP-裂合酶。N-糖基化酶活性能从双链DNA上释放损伤嘌呤，产生脱嘌呤碱基(AP位点)。AP-裂合酶活性切割AP位点的3’和5’端，从而去除AP位点并产生1个碱基的缺口。Fpg识别和去除的一些损伤碱基包括7，8-二氢-8-氧鸟嘌呤(8-氧鸟嘌呤)、8-氧腺嘌呤、fapy-鸟嘌呤、甲基-fapy-鸟嘌呤、fapy-腺嘌呤、黄曲霉毒素B1-fapy-鸟嘌呤、5-羟基-胞嘧啶和5-羟基-尿嘧啶。参见例如，Tchou，J.等，J.Biol.Chem.，269，15318-15324，1994；Hatahet，Z.等，J.Biol.Chem.，269，18814-18820，1994；Boiteux，S.等，EMBO J.，5，3177-3183，1987；Jiang，D.等，J.Biol.Chem.，272(51)，32220-32229，1997；Jiang，D.等，J.Bact，179(11)，3773-3782，1997。

可从(如)New England Biolabs，Ipswich，MA购得许多DNA糖基化酶和AP核酸内切酶。

在本发明的一些实施方式中，上述关于含有硫代磷酸酯连接的延伸探针的测序方法或测序方法AB(见下)中采用含有作为AP核酸内切酶切割底物的位点的延伸探针。在任何这些方法中，将延伸探针连接于生长的核酸链后，用AP核酸内切酶切割延伸探针，以去除含有标记的探针部分。

根据具体的AP核酸内切酶，并根据以3’→5’或是5’→3’方向进行测序，可能必须或需要在切割后用多核苷酸激酶或磷酸酶处理延伸双链体，以在延伸双链体上产生可延伸探针末端(参见图5A和5B，关于可延伸探针末端的描述)。因此，在本发明的某些方法中，用多核苷酸激酶或磷酸酶处理以产生可延伸末端。本领域普通技术人员应理解，可采用适合各种酶的缓冲液，可包括额外洗涤步骤以去除酶，并为该方法的后续步骤提供合适条件。

在其它实施方式中，延伸探针含有作为DNA糖基化酶去除底物的损伤碱基。用不同DNA糖基化酶去除各种细胞毒性和引起突变的DNA碱基，从而在DNA损伤后启动碱基切除修复通路(Krokan，H.E.等，Biochem J，325(Pt 1)：1-16，1997)。DNA糖基化酶切割损伤碱基和脱氧核糖之间的N-糖基键，从而释放游离碱基并产生脱嘌呤/脱嘧啶(AP)位点。在一些实施方式中，延伸探针含有尿嘧啶残基，该残基被尿嘧啶-DNA糖基化酶(UDG)去除。在迄今为止研究的所有有生命生物体中都发现了UDG，本领域已知大量这种酶，它们可用于本发明(Frederica等，Biochemistry，29，2353-2537，1990；Krokan，同上)。例如，哺乳动物细胞含有至少4种类型的UDG：线粒体UNG1以及核UNG2、SMUG1、TDG和MBD4(Krokan等，Oncogene，21，8935-8948，2002)。UNG1和UNG2属于以大肠杆菌Ung为代表的高度保守家族。

在延伸探针含有损伤碱基的实施方式中，将延伸探针连接于可延伸探针末端后，使延伸双链体接触能去除损伤碱基的糖基化酶，从而产生脱碱基残基。认为含有由糖基化酶去除的损伤碱基的延伸探针“易于经修饰含有易切连接”。然后使延伸双链体接触AP核酸内切酶，它能切割脱碱基残基和相邻核苷之间的连接，如上所述。在本发明的某些实施方式中，用作为DNA糖基化酶和AP核酸内切酶的双活性酶进行两种反应。在一些实施方式中，使含有损伤碱基的延伸双链体接触DNA糖基化酶和AP核酸内切酶。在本发明的各种实施方式中，这些酶可以联合使用或依次使用(即使用糖基化酶后，使用核酸内切酶)。

在本发明的一些实施方式中，延伸探针所含的引发残基是脱氧肌苷。如上所述，大肠杆菌核酸内切酶V(Endo V)，也称为脱氧肌苷3’核酸内切酶及其同源物能在脱氧肌苷残基3’侧的第二个磷酸二酯键处切割含有脱氧肌苷的核酸，产生3’OH和5’磷酸末端。因此，此键用作延伸探针的易切连接。本领域已知Endo V及其切割特性(Yao，M.和Kow Y.W.，J Biol.Chem.，271，30672-30673(1996)；Yao，M.和Kow Y.W.，J Biol.Chem.，270，28609-28616(1995)；He，B等，Miitat Res.，459，109-114(2000)。除脱氧肌苷外，Endo V也识别脱氧尿苷、脱氧黄嘌呤核苷和deoxyoxanosine(Hitchcock，T.等，Nuc.Acids Res.，32(13)，32(13)(2004)。哺乳动物同源物如mEndo V也具有切割活性(Moe，A.等，Nuc.Acids Res.，31(14)，3893-3900(2004)。虽然Endo V是含有脱氧肌苷的探针的优选切割剂，但也可采用其它切割试剂来切割含有脱氧肌苷的探针。例如，作为损伤碱基，次黄嘌呤可被合适的DNA糖基化酶去除，产生的含有脱碱基残基的延伸探针随后被核酸内切酶切割。

应理解，如果脱氧肌苷用作引发残基，可能需要避免在探针的其它地方使用脱氧肌苷，特别是将连接于可延伸探针末端的末端和引发残基之间的位置。因此，如果探针含有一个或多个通用碱基，可采用除脱氧肌苷外的核苷。也应理解，当使含有引发残基的核酸易被特定切割剂切割的引发残基用于延伸探针时，可能需要避免在引发相同切割剂切割的探针(或将与该延伸探针一起用于测序反应的其它探针)中包含其它残基。

本发明包括采用切割含有引发残基的核酸的任何酶。可通过研读酶供应商如New England

Inc的目录鉴定其它酶。将New EnglandBiolabs目录，2005版(New England Biolabs，Ipswich，MA 01938-2723)以引入的方式纳入本文，本发明考虑采用能切割含有引发残基的核酸的本文公开的任何酶或这种酶的同源物。采用的其它酶包括例如：hOGG1及其同源物(Radicella，JP等，Proc Natl Acad Sci USA，94(15)：8010-5，1997)。

本领域已知含有引发残基如损伤碱基、脱碱基残基等的寡核苷酸的合成方法。本领域已知含有作为AP核酸内切酶底物的位点的寡核苷酸，如含有脱碱基残基的寡核苷酸的合成方法，通常适用于自动化固相寡核苷酸合成。在一些实施方式中，合成在脱碱基残基的所需位置上含有尿苷的寡核苷酸。然后用酶如去除尿嘧啶的UDG处理寡核苷酸产生脱碱基残基，无论尿苷存在于寡核苷酸中的什么地方。

在本发明的一些实施方式中，寡核苷酸探针含有二糖核苷，如Nauwelaerts，K.等，Nuc.Acids.Res.，31(23)，2003所述。连接后，用高碘酸盐(NaIO₄)切割延伸双链体，然后用碱(如NaOH)处理以去除该标记，产生游离的3’OH和P5-OPO₃H₂基团。根据以3’→5’或是5’→3’方向进行测序，可能必须或需要用多核苷酸激酶或磷酸酶处理延伸双链体产生可延伸末端。因此，在本发明的某些方法中，用多核苷酸激酶或磷酸酶处理以产生可延伸末端。

认为含有二糖核苷的多核苷酸含有脱碱基残基。例如，一个核苷酸的3’OH和下一个核苷酸的5’磷酸基团之间插入了核糖残基的多核苷酸被认为含有脱碱基残基。

加帽

在有些情况下，并非全部具有可延伸末端的探针都成功参与了各个延伸、连接和切割循环的连接反应。应理解，如果这种探针参与后续循环，每个核苷酸鉴定步骤的准确性将逐渐降低。虽然本发明者已证明，采用含有硫代磷酸酯连接的延伸探针能够以高效率连接，但在本发明的某些实施方式中，包括了一个加帽步骤以防止没有进行连接的可延伸末端参与后续循环。用含有3’-O-P-S-5’硫代磷酸酯连接的延伸探针以5’→3’方向测序时，例如，在连接或检测步骤后，可用DNA聚合酶和不可延伸部分，例如链终止核苷酸如二脱氧核苷酸或连接有封闭部分的核苷酸延伸未连接的可延伸末端来进行加帽。用含有3’-S-P-O-5’硫代磷酸酯连接的延伸探针以3’→5’方向进行测序时，例如，在连接或检测后，可用磷酸酶处理模板来进行加帽。也可采用其它加帽方法。

H.用寡核苷酸探针家族进行测序

在总称为“方法A”的上述测序方法中，连接于任何具体延伸探针的标记和探针近端(即连接于延伸双链体的可延伸探针末端的末端)的一个或多个核苷酸的种类之间有直接和已知的对应关系。因此，鉴定出新连接延伸探针的标记就足以鉴定该模板中的一个或多个核苷酸。本发明提供了采用不同方法进行核苷酸鉴定的其它测序方法，总称为“方法AB”，也包括连续的延伸、连接和(优选)切割循环。

本发明提供的测序方法AB采用至少两种区别标记的寡核苷酸探针家族的集合。根据标记分配各探针家族的名称，如“红”、“蓝”、“黄”、“绿”。如上述方法所述，从起始寡核苷酸和模板形成的双链体开始延伸。将寡核苷酸探针连接于起始寡核苷酸末端形成延伸双链体，从而延伸起始寡核苷酸，然后通过连续连接循环重复延伸。探针的末端位置(探针上连接于双链体生长核酸链的核苷酸的相对端)上含有不可延伸部分，以便在单个循环中延伸双链体仅发生一次延伸。在各循环中，检测顺利连接的探针上或与其连接的标记，去除或修饰不可延伸部分，以产生可延伸末端。标记的检测能确定探针所属探针家族的名称。

连续的延伸、连接和检测循环产生了标记名称的有序列表。这些标记对应于在连续位置上与模板杂交的顺利连接的探针所属的探针家族。连接后，探针近端位置与模板中不同核苷酸相对。因此，探针家族名称顺序和模板中核苷酸顺序有对应关系。

在易切连接位于延伸探针的近端核苷和相邻核苷之间的本发明实施方式中，可通过从一个起始寡核苷酸开始的连续延伸、连接、检测和切割循环获得探针家族名称的有序列表，因为每个循环将延伸的寡核苷酸探针延伸一个核苷酸。如果易切连接位于两个其它核苷之间，由获自多个测序反应的结果组装探针家族名称的有序列表，在这些测序反应中采用杂交于结合反应区不同位置的起始寡核苷酸，如测序方法A所述。

了解新连接的探针属于哪个探针家族本身不足以确定模板中的核苷酸种类。但是，确定探针家族名称消除了核苷酸的某些组合作为至少一部分探针的序列的可能性，而给出至少两种可能的每个核苷酸的种类。因此，在没有其它信息的情况下了解探针家族名称能给出至少两种可能的位于新连接探针的核苷酸相对位置上的模板核苷酸种类。因此，任何一个延伸、连接、检测(和任选的切割)循环本身无法鉴定模板中的任何核苷酸。然而，它能消除模板的一种或多种可能序列，从而提供序列信息。在本发明的某些实施方式中，通过如下所述适当地设计探针和探针家族，仍可确定模板序列。在本发明的某些实施方式中，测序方法AB包括两个阶段：第一阶段获得探针家族名称的有序列表，第二阶段将该有序列表解码，以确定模板序列。

除非另有说明，测序方法A和AB通常采用相似方法合成探针，制备模板和进行延伸、连接、切割和检测的步骤。

测序方法AB的寡核苷酸延伸探针和探针家族的特征

用于测序方法AB的探针家族的特征是，各探针家族包括不同序列的多个标记的寡核苷酸探针，并且在所述序列的每个位置上，一个探针家族包括该位置上碱基不同的至少2种探针。每个探针家族中的探针含有相同标记。优选地，探针包含易切核苷间连接。易切连接可位于探针中的任何地方。探针的一端优选含有连接酶不可延伸的部分。优选在易切连接和连接酶不可延伸的部分之间的位置上标记探针，以便将探针连接于可延伸探针末端后切割易切连接时产生连接于可延伸探针末端的未标记部分和不再连接于未标记部分的标记部分。

各探针家族中的探针优选含有至少j个核苷X，其中j至少为2，在各探针家族的探针中各X至少为2倍简并。各探针家族的探针还含有至少k个核苷N，其中k至少为2，其中N代表任何核苷。通常，j+k等于或小于100，一般小于或等于30。核苷X可位于探针中的任何位置。核苷X不一定位于毗连位置上。相似地，核苷N不一定位于毗连位置上。换言之，核苷X和N可散布。虽然核苷不一定毗连，但可认为核苷X具有5’→3’序列。例如，认为X_ANX_GNNX_CN结构的探针的核苷X含有序列AGC。相似地，可认为核苷N含有序列。

核苷X可以相同或不同，但不能独立选择，即各X的种类受限于探针中一个或多个其它核苷X的种类。因此，通常具体探针和具体探针家族的探针中仅存在某些核苷X的组合。换言之，各探针中，核苷X的序列仅可代表长度为j的所有可能序列的一个亚组。因此，X中一个或多个核苷酸的种类限制了一个或多个其它核苷的可能种类。

核苷N优选独立选择，可以是A、G、C或T(或任选的简并性降低的核苷)。核苷N的序列优选代表长度为k的所有可能序列，除了一个或多个N可以是简并性降低的核苷。因此，探针含有两部分，其中由核苷N组成的部分称为不受限部分，由核苷X组成的部分称为受限部分。如上所述，所述部分不一定是毗连核苷。在本文中将含有受限部分和不受限部分的探针称为部分限定探针。受限部分的一个或多个核苷优选位于探针的近端，即含有将连接于可延伸探针末端的核苷的末端，在本发明不同实施方式中它可以是寡核苷酸探针的5’或3’端。

由于任何寡核苷酸探针的受限部分仅可具有某些序列，了解探针受限部分的一个或多个核苷的种类能提供关于一个或多个其它核苷的信息。该信息可能足以或可能不足以准确地鉴定一个或多个其它核苷，但它足以消除受限部分的一个或多个其它核苷种类的一种或多种可能性。在测序方法AB的某些优选实施方式中，了解探针受限部分的一个核苷的种类足以准确鉴定受限部分其它各核苷，即测定含有受限部分的核苷的种类和顺序。

如上述测序方法所述，与模板互补的延伸探针中最近端的核苷连接于起始寡核苷酸的可延伸末端(在第一个延伸、连接和检测循环中)和延伸的寡核苷酸探针的可延伸末端(在后续的延伸、连接和检测循环中)。检测确定新连接探针所属探针家族的名称。由于探针受限部分的各个位置至少为2倍简并，所以探针家族名称本身不能鉴定受限部分的任何核苷酸。然而，由于受限部分的序列是长度为j的所有可能序列的亚组中的一个序列，所以鉴定探针家族不能消除某些可能的受限部分序列。该探针受限部分构成了它的序列测定部分。因此，通过鉴定探针所属探针家族消除该探针受限部分的一个或多个核苷种类的一种或多种可能性消除了延伸探针杂交的模板的核苷酸种类的一种或多种可能性。在本发明的优选实施方式中，部分限定的探针在任何两个核苷之间含有易切连接。

在某些实施方式中，部分限定探针的通式为(X)_j(N)_k，其中X代表核苷，(X)_j在各位置上至少为2倍简并，因此X可以是具有不同碱基配对特异性的至少2种核苷中的任一种，N代表任何核苷，j至少为2，k为1-100，至少一个N或除探针末端的X以外的X含有可检测部分。优选地，(N)_k在各位置上是独立的4倍简并，因此，各探针中(N)_k代表长度为k的所有可能序列，除了(N)_k中一个或多个位置可能被简并性降低的核苷酸占据。(X)_j中的核苷可以相同或不同，但不能独立选择。换言之，各探针中，(X)_j仅可代表长度为j的所有可能序列的亚组。因此，(X)_j中一个或多个核苷酸的种类限制了一个或多个其它核苷的可能种类。因此，该探针含有两部分，其中(N)_k是不受限部分，(X)_j是受限部分。

在本发明的某些优选实施方式中，部分限定探针具有结构5’-(X)_j(N)_kN_B ^*-3’或3’-(X)_j(N)_kN_B ^*-5’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j是各位置上至少2倍简并的探针的受限部分，(X)_j中的核苷可以相同或不同，但不能独立选择，至少一个核苷间连接是易切连接，j至少为2，k为1-100，限制条件是：可检测部分可能存在于替代N_B、或除了N_B以外任何核苷N或除探针末端的X以外的X上。易切连接可以位于(X)_j的两个核苷之间、(X)_j中最远端的核苷酸和(N)_k中最近端的核苷之间、(N)_k内的核苷之间或(N)_k和N_B的末端核苷之间。易切连接优选为硫代磷酸酯连接。

在本发明其它更优选的实施方式中，探针具有结构5’-(XY)(N)_kN_B ^*-3’或3’-(XY)(N)_kN_B ^*-5’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，XY是该探针的受限部分，其中X和Y代表相同或不同、但不能独立选择的核苷，X和Y至少为2倍简并，至少一个核苷间连接是易切连接，k为1-100，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外任何核苷酸N或除探针末端的X以外的X上。易切连接优选为硫代磷酸酯连接。结构为5’-(XY)(N)_kN_B ^*-3’的探针可用于以5’→3’方向测序。结构为3’-(XY)(N)_kN_B ^*-5’的探针可用于以3’→5’方向测序。

下面更详细地介绍了某些优选探针的结构。为了以5’→3’方向测序，采用结构为5’-O-P-O-(X)_j(N)_k-O-P-S-(N)_iN_B ^*-3’的部分限定探针，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j是各位置上至少为2倍简并的探针的受限部分，(X)_j中的核苷可以相同或不同，但不能独立选择，j至少为2，(k+i)为1-100，k为1-100，i为0-99，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_j的任何核苷上。在本发明的某些实施方式中，(X)_j是(XY)，其中X和Y至少为2倍简并，并代表相同或不同、但不能独立选择的核苷酸。在本发明的某些实施方式中，i是O。

用于以5’→3’方向测序的其它优选探针具有结构5’-O-P-O-(X)_j-O-P-S-(N)_iN_B ^*-3’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j是各位置上至少为2倍简并的探针的受限部分，(X)_j中的核苷酸可以相同或不同，但不能独立选择，j至少为2，i为1-100，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_i的任何核苷上。在本发明的某些实施方式中，(X)_j是(XY)，其中位置X和Y至少为2倍简并，X和Y代表相同或不同、但不能独立选择的核苷。

用于以5’→3’方向测序的另一优选探针具有结构

5’-O-P-O-(X)_j-O-P-S-(X)_k(N)_iN_B ^*-3’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j-O-P-S-(X)_k是各位置上至少为2倍简并的探针的受限部分，(X)_j-O-P-S-(X)_k的位置上至少为2倍简并，可以相同或不同，但不能独立选择，j和k都至少为1，(j+k)至少为2(如2、3、4或5)，i为1-100，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_i的任何核苷上。在本发明的某些实施方式中，j和k都是1。

为了以3’→5’方向测序，采用具有结构

5’-N_B ^*(N)_i-S-P-O-(N)_k-O-P-O-(X)_j-3’的部分限定探针，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j是各位置上至少为2倍简并的探针的受限部分，(X)_j中的核苷可以相同或不同，但不能独立选择，j至少为2，(k+i)为1-100，k为1-100，i为0-99，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_i的任何核苷上。在本发明的某些实施方式中，(X)_j是(XY)，其中X和Y至少为2倍简并，并代表相同或不同、但不能独立选择的核苷。在本发明的某些实施方式中，i是0。

用于以3’→5’方向测序的其它优选探针具有结构

5’-N_B ^*(N)_i-S-P-O-(X)_j-3’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，(X)_j是各位置上至少为2倍简并的探针的受限部分，(X)_j中的核苷可以相同或不同，但不能独立选择，j至少为2，i为1-100，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_i的任何核苷上。在本发明的某些实施方式中，(X)_j是(XY)，其中X和Y至少为2倍简并，并代表相同或不同、但不能独立选择的核苷。在本发明的某些实施方式中，在任何部分限定探针中j为2-5，如2、3、4或5。

用于以3’→5’方向测序的另一优选探针具有结构

5’-N_B ^*(N)_i-S-P-O-(X)_k-O-P-O-(X)_j-3’，其中N代表任何核苷，N_B代表连接酶不能延伸的部分，^*代表可检测部分，-(X)_k-O-P-O-(X)_j是各位置上至少为2倍简并的探针的受限部分，-(X)_k-O-P-O-(X)_j中的核苷可以相同或不同，但不能独立选择，j和k都至少为1，(j+k)至少为2(如2、3、4或5)，i为1-100，限制条件是：可检测部分可存在于替代N_B、或除了N_B以外(N)_i的任何核苷上。在某些实施方式中，j＝1，k＝1。

在易切连接位于(X)_j的最近端核苷和(X)_j的次近端核苷之间的本发明实施方式中，可通过从一个起始寡核苷酸开始的连续延伸、连接、检测和切割循环获得探针家族名称的有序列表，因为每个循环将延伸的寡核苷酸探针延伸一个核苷酸。在易切连接位于另外两个核苷之间的本发明实施方式中，由获自多个测序反应的结果组装探针家族名称的有序列表，在这些测序反应中采用杂交于结合反应区不同位置的起始寡核苷酸，如测序方法A所述。

应理解，具有除上述结构以外大量结构的探针可用于测序方法AB。例如，探针可具有结构(如)受限核苷X和Y不相邻的XNY(N)_k，或I是通用碱基的XIY(N)_k。(N)_kX(N)_l、(N)_iX(N)_jY(N)_kZ(N)_l、(N)_iX(N)_jYIZ(N)_l和(N)_iX(N)_jY(N)_kZ(I)_l代表其它可能性。如上述探针所述，这些探针含有易切连接、可检测部分，一端含有连接酶不可延长的部分。优选地，该探针不包含连接于探针上连接酶不能延伸的部分相对端的核苷酸的可检测部分。包括具有任何这些结构和其它结构的探针的探针家族能满足各探针家族包括序列不同的多个标记的寡核苷酸探针，并且在所述序列的每个位置上，一个探针家族包括该位置上碱基不同的至少2种探针这一标准。各探针中核苷总数优选为100或更少，如30或更少。

编码寡核苷酸延伸探针家族。

本发明测序方法利用编码的探针家族。“编码”指将特定标记与含有具有确定序列组之一的部分的探针关联起来的方案，以便用这种标记标记含有具有确定序列组成员序列的部分的探针。通常，编码将多种可区别标记各自与一种或多种探针关联起来，以使各可区别标记与不同探针组关联，并且仅用一个标记标记每个探针(可包含可检测部分的组合)。优选地，各探针组的探针各自含有具有同一确定序列组成员序列的部分。该部分长度可以是一个核苷或多个核苷，如2、3、4、5或更多个核苷。该部分的长度可能仅构成探针整个长度的一小部分，或者可能构成整个探针。确定序列组可以仅含一个序列或含有任何数量的不同序列，这取决于该部分的长度。例如，如果该部分是一个核苷，那么确定序列组最多可含有4个元件(A、G、C、T)。如果该部分的长度为两个核苷，那么确定序列组可含有多达16个元件(AA、AG、AC、AT、GA、GG、GC、GT、CA、CG、CC、CT、TA、TG、TC、TT)。通常，确定序列组所含元件少于可能序列的总数，编码将采用一种以上的确定序列组。

本文所述的测序方法A通常利用探针的近端核苷(即连接于可延伸探针末端的核苷)与标记种类直接对应的简单编码的探针组。近端核苷与其杂交的模板核苷酸互补，因此新连接的探针中近端核苷的种类确定了位于延伸双链体相对位置上的模板核苷酸的种类。从普通意义上说，用于本文所述其它测序方法的探针具有结构X(N)_k，其中X是近端核苷，各核苷N为4倍简并，以使组成探针的寡核苷酸探针分子库中代表长度为k的所有可能序列。因此，例如，一些寡核苷酸探针分子在位置k＝1处含有A，其它分子在位置k＝1处含有G，其它分子在位置k＝1处含有C，其它分子在位置k＝1处含有T，对于其它位置k情况类似，其中认为(N)_k中与X相邻的核苷占据了位置k＝1；认为(N)_k中下一个核苷占据了位置k＝2，等。然而，在任何给定寡核苷酸探针中，X仅代表一种碱基配对特异性，它一般对应于具体的核苷种类，如A、G、C或T。因此，构成具体探针的探针分子库中X一般统一为A、G、C或T。图2显示了结构为X(N)_k的探针的合适编码。根据这种编码，将标记“红”分配给X＝C的探针；将标记“黄”分配给X＝A的探针；将标记“绿”分配给探针X＝G的探针；将标记“蓝”分配给X＝T的探针。因此，探针的序列测定部分和其标记之间是一对一对应关系。

应理解，新连接延伸探针的标记种类对应于延伸探针中最近端核苷的种类的上述方法可扩展到包括标记种类不仅对应于延伸探针中最近端核苷的种类、而且对应于延伸探针中最近端2个或多个核苷的序列的编码，以便在一个延伸、连接和检测(一般后接切割)循环中测定模板中多个核苷酸的种类。然而，这种编码仍然将标记与寡核苷酸延伸探针的一种序列相关联，以便鉴定模板中位于相对位置的互补核苷酸的种类。如上所述，为了在一个循环中鉴定两个核苷酸，则需要16种不同寡核苷酸探针，各自含有对应的标记(即16种可区别标记)。

测序方法AB利用另一方法将标记与探针关联起来。将同一标记分配给具有不同序列测定部分的多种探针，而不将标记种类与探针的序列测定部分的序列之间一对一对应。该探针是部分受限探针，该探针受限部分是其序列测定部分。因此，将同一标记分配给各自含有序列不同的受限部分的多种不同探针，其中该序列是确定序列组的一个序列。如上所述，含有相同标记的探针组成一个“探针家族”。该方法采用多个这种探针家族，各自包括含有序列不同的受限部分的多种探针，其中该序列是确定序列组的一个序列。

多个探针家族被称为探针家族“集合”。用一种标记来标记探针家族集合中某探针家族的探针，该标记应区别于用于标记该集合的其它探针家族的标记。各探针家族优选具有其自身的确定序列组。优选地，各探针家族中的探针的受限部分长度相同，优选地，探针家族集合中探针家族的受限部分长度相同。优选地，探针家族集合中探针家族的确定序列组的组合包括受限部分长度的所有可能序列。优选地，探针家族集合包括4种区别标记的探针家族或由其组成。优选地，探针的受限部分长度为2个核苷。

各种差别编码的可区别标记的探针家族的集合将满足上述标准，并可用于实施本发明方法。然而，优选某些探针家族集合。由部分限定探针组成的4种区别标记的探针家族的优选集合的示范性编码见图25A。如图25A所示，受限部分由探针中2个最靠近3’端的核苷组成。探针家族被标记为“红”、“黄”、“绿”和“蓝”。各探针家族的探针包括其序列是确定序列组中一个序列的受限部分，各探针家族的确定序列组不同。例如，从认为是探针近端的各序列的3’端开始，“红”探针家族是{CT、AG、GA、TC}；“黄”探针家族的确定序列组是{CC、AT、GG、TA}；“绿”探针家族的确定序列组是{CA、AC、GT、TG}；“蓝”探针家族的确定序列组是{CG、AA、GC、TT}。各确定序列组不含其他组中存在的任何成员，这是其优选特征。此外，探针家族集合中探针家族的确定序列组的组合包括长度为2的所有可能序列，即所有可能的二核苷。此探针家族集合的另一特征(优选但不必要)是探针的受限部分的各位置是4倍简并，即各位置可被A、G、C或T占据。此探针家族集合的另一特征(优选但不必要)是，在各确定序列组内，只有一个序列在任何位置，如最近端位置或任何其它位置上具有任何特定核苷。特别优选但不必要的是，如果认为最近端核苷是位置1，在各确定序列组内，只有一个序列在受限部分内的位置2或更高位置上具有任何特定核苷。例如，在红探针家族的确定序列组中，只有一个序列在位置2上具有T；只有一个序列在位置2上具有G；只有一个序列在位置2上具有A；只有一个序列在位置2上具有C。

对于任何如图25A所示的具体编码，了解某探针家族中一种探针的受限部分的一个或多个核苷的种类能提供关于该探针的受限部分的其它核苷酸的信息。从最普通的意义上说，了解某探针家族探针的受限部分的一个或多个核苷的种类能提供足够信息来排除另外一个位置上一种或多种可能的核苷种类，因为该探针家族的确定序列组不包括在该位置上为该核苷种类的序列。一般地，了解某探针家族探针的受限部分的一个或多个核苷的种类能提供足够信息来排除多个核苷如其它各核苷的一种或多种可能种类。在优选编码中，了解某探针家族探针的受限部分的一个或多个核苷的种类能排除该探针中其它各核苷的除一种可能外的所有可能。例如，在图25A所示的编码探针家族的情况下，如果已知探针是红家族成员，如果也知道最近端核苷是C，那么相邻核苷一定是T。相似地，如果已知探针是绿家族成员，如果也知道最近端核苷是G，那么相邻核苷一定是T。因此，了解受限部分的一个核苷的种类足以排除其它核苷的除一种可能以外的所有可能，因此，即完全鉴定了其它核苷的种类。但如果不了解探针受限部分的至少一个核苷的种类，仅根据对所属的探针家族名称的了解无法获得关于探针中任何特定核苷的种类的任何信息，因为受限部分各位置上的核苷可以是A、G、C或T。图25B显示了采用测序方法AB时优选的探针家族集合(上图)和连接、检测和切割(下图)循环。

本发明者设计了含有长度为2个核苷并具有图25A所示探针家族集合的有利特征的受限部分的24种探针家族集合。这些探针家族最大限度地提供信息，因为了解探针所属的探针家族名称，并了解探针中一个核苷的种类，就足以准确地鉴定受限部分的其它核苷。这种情况适用于所有探针和各受限部分的所有核苷。24种优选的探针家族集合各自的编码方案见表1。表1将1-24的编码ID分配给各探针家族集合。各编码确定了用于测序方法AB的通用结构为(XY)N_k的优选探针家族集合的受限部分，从而确定了集合本身。在表1中，“编码ID”下面一列的值1表示，按照该编码，将如第一列和第二列所示分别含有核苷X和Y的探针分配给第一探针家族；(ii)“编码ID”下面一列的值2表示，按照该编码，将如第一列和第二列所示分别含有核苷X和Y的探针分配给第二探针家族；(iii)“编码ID”下面一列的值3表示，按照该编码，将如第一列和第二列所示分别含有核苷X和Y的探针分配给第三探针家族；和(iv)“编码ID”下面一列的值4表示，按照该编码，将如第一列和第二列所示分别含有核苷X和Y的探针分配给第四探针家族。值1、2、3和4各自代表一种标记。例如，编码9确定了图25A所示的探针家族集合，其中1代表蓝，2代表绿，3代表红，4代表黄。应理解，给标记分配值是随意的，如1同样可以代表绿、红或黄。改变值1、2、3和4与标记之间的关联不会改变各探针家族中的探针组，只能将不同标记与各探针家族关联。

表1：寡核苷酸探针家族编码

为了进一步说明如何使用表1来确定优选探针家族集合，考虑编码17。按照这种编码，将具有受限部分AA、GC、TG和CT的探针分配给标记1(如红)；将具有受限部分CA、AC、GG和TT的探针分配给标记2(如黄)；将具有受限部分TA、CC、AG和GT的探针分配给标记3(如绿)；将具有受限部分GA、TC、CG和AT的探针分配给标记4(如蓝)。得到的探针家族集合见图26。

图27A-27C代表了示意性限定24种优选探针家族集合的另一种方法。该方法利用图表，如图27A。此图表的第一列代表第一个碱基。将各标记连接于四种不同碱基序列，这些序列是通过将第一列的碱基与所选标记列的碱基并列给出的。例如，如果标题为“第一个碱基”的列中有A，那么将含有序列为AA的受限部分的探针分配给探针家族1(标记1)；将含有序列为AC的受限部分的探针分配给探针家族2(标记2)；将含有序列为AG的受限部分的探针分配给探针家族3(标记3)；将含有序列为AT的受限部分的探针分配给探针家族4(标记4)。对于含有以C、G或T开始的受限部分的探针，以相似方式分配探针家族。因此，将填满图27A所示碱基的图表翻译成图27B所示编码，其中将受限部分属于{AA、CC、GG、TT}组的探针分配给探针家族1；将受限部分属于{AC、CA、GT、TG}组的探针分配给探针家族2；将受限部分属于{AG、CT、GC、TA}组的探针分配给探针家族3；将受限部分属于{AT、CG、GA、TC}组的探针分配给探针家族4。图27C显示了可插入替换图27A的阴影部分，以分别产生24种优选的探针家族集合的图表。下面进一步描述了采用测序方法AB中优选的探针家族集合的方法。

表1确定的24种编码探针家族集合仅代表用于测序方法AB的探针家族集合的优选实施方式。可采用基本原理相同的各种其它编码方案、探针家族和探针结构，其中了解探针家族名称，以及了解受限部分的一个或多个核苷的种类，能提供关于一个或多个其它核苷的信息。与优选的探针家族集合相比，较不优选的探针家族集合较不优选的原因通常为：(i)至少对一些探针而言，了解探针家族名称和核苷种类提供的信息量较少；或(ii)至少对一些探针而言，了解探针家族名称提供的信息量较多。

通常，较不优选的探针家族集合可用于进行测序方法AB，其使用方式与使用优选的探针家族集合类似。然而，解码所需的步骤可能不同。例如，在一些情况下，将候选序列互相比较可能足以测定至少一部分序列。

其中探针含有长度为2个核苷的受限部分的较不优选的探针家族集合的例子见图28。按照这种编码，将受限部分属于{AA、AC、GA、GC}组的探针分配给探针家族1；将受限部分属于{CA、CC、TA、TC}组的探针分配给探针家族2；将受限部分属于{AG、AT、GG、GT}组的探针分配给探针家族3；将受限部分属于{CG、CT、TG、TT}组的探针分配给探针家族4。在此探针家族集合中，了解探针家族名称能排除位于新连接延伸探针的近端核苷相对位置上的模板核苷酸种类的某些可能性，其中通过检测所述新连接延伸探针的标记来确定探针家族名称。例如，如果探针家族名称是1，那么新连接延伸探针的近端核苷一定是A或G，因此模板中的互补核苷酸一定是T或C。与采用优选的探针家族集合时相反，由于受限部分各位置上至少有两种可能性，所以无法准确鉴定核苷酸，但从单个循环获得的信息足以排除一些可能性。

在本发明的某些实施方式中，采用受限部分长度为3个核苷的部分限定探针。为了含有其受限部分包括长度为3的所有可能序列的探针(优选)，探针家族集合应包括4³＝64种不同探针。图29A显示了可用于产生包括受限部分长3个核苷(三核苷)的探针的探针家族集合的受限部分的图表。该图显示了4组表示为A、G、C和T的行和探针家族名称为1、2、3和4的4列。由4行组成的各组与内部含有核苷种类的框相对。为了确定三核苷的探针家族，首先选择含有三核苷的最后一个核苷的框。与该框相邻的4行中，选择用鉴定三核苷中第一个核苷的字母标记的行。在该行内，选择含有三核苷的第二个核苷的列。将三核苷分配给列顶部所示的探针家族。例如，按照以下方法将三核苷“TCG”分配给探针家族：由于最后一个核苷是“G”，所以将关注点限定于与含“G”框相对的4行的组，即第三组。由于第一个核苷是“T”，则将考量范围进一步限定于4组的最后一排。探针家族分配由含有中间核苷的列的标题决定。由于中间核苷是“C”，所以将三核苷分配给探针家族1。相似方法产生以下探针家族分配：AAA＝1；ATA＝2；AGA＝3；GTA＝4；GAG＝1；TGG＝2等。继续该过程，直到将所有可能的三核苷分配给探针家族。

图29B显示了构建包括受限部分长3个核苷的探针的探针家族集合的其它受限部分的方法。该方法用于构建来自上述24种优选的探针家族集合的每一种的集合，其中受限部分的长度为2个核苷，该集合含有4种探针家族。该图的上图显示了代表优选探针家族集合的示范性图表。按照上图中分配给各列的颜色，直接将上图的列绘制到下图中。因此，上图的列从左至右分别是蓝、绿、黄和红。下图中列1下的条目从上至下分别是蓝、绿、黄和红，各组的4个核苷对应于上图的列。通过将列1的各组4个核苷逐渐向下移动产生下图中的列2、3和4。

应理解，可以认为“探针家族”是含有各自含有相同标记的多种不同探针的一种“超级探针”。在这种情况下，组成探针的探针分子通常不是探针的任何部分都基本相同的分子群体。采用术语“探针家族”不旨在产生任何限制作用，而是为了方便地描述组成这些“超级探针”的探针的特征。

解码

如上所述，在一个测序反应中，采用包括至少两种区别标记的探针家族的探针家族集合进行连续延伸、连接、检测和切割循环产生探针家族名称的有序列表，或者将从模板中不同位点启动的多个测序反应测定的探针家族名称组装成有序列表。进行的循环数应该约等于所需序列长度。有序列表含有大量信息，但不能立即产生感兴趣的序列。必须进行额外步骤，其中至少一个步骤包括收集至少一项关于序列的额外信息，以获得最可能代表感兴趣序列的序列。本文中将最可能代表感兴趣序列的序列称为“正确”序列，从探针家族的有序列表中提取正确序列的过程称为“解码”。应理解，在序列产生期间或之后上述“有序列表”中的元件可以重排，只要信息内容包括列表中的元件与模板中的核苷酸的对应关系被保留，并且只要解码过程(下述)中适当地考虑重排、片段化和/或置换。因此，术语“有序列表”旨在包括如上所述产生的重排、片段化和/或置换的有序列表，只要这种重排、片段化和/或置换的列表包括基本相同的信息内容。

可用各种方法解码有序列表。其中有些方法包括从探针家族名称的有序列表产生至少一个候选序列的一组序列。这组候选序列可提供足够的信息来达到目标。在优选实施方式中，进行一个或多个额外步骤，以便从候选序列或与候选序列作比较的序列组中选择最可能代表感兴趣序列的序列。例如，在一种方法中，比较至少一个候选序列的至少一部分与至少一种其它序列。根据比较结果选择正确序列。在本发明的某些实施方式中，解码包括重复该方法并采用与原始探针家族集合编码不同的探针家族集合获得探针家族名称的第二个有序列表。用探针家族的第二个有序列表的信息确定正确序列。在一些实施方式中，用另选编码的探针家族集合从少至一个延伸、连接和检测循环获得的信息足以选择正确序列。换言之，用另选编码的探针家族鉴定的第一个探针家族提供了足够信息以确定哪个候选序列正确。

其它解码方法包括用任何可用的测序方法，如一个循环的测序方法A，特异性鉴定模板中的至少一个核苷酸。将关于一个或多个核苷酸的信息用作解码探针家族名称的有序列表的“钥匙”。或者，除了序列未知的区域以外，测序的模板部分可包括已知序列区。如果将测序方法AB应用于包括未知序列和已知序列的至少一个核苷酸的模板的部分，那么该已知序列可用作解码探针家族名称的有序列表的“钥匙”。以下章节描述了产生候选序列的过程。后续章节描述了采用候选序列与已知序列作比较、与第二组候选序列作比较和利用已知的核苷酸种类来选择正确序列。

产生候选序列

应理解，待测序模板部分与由连续的延伸、连接和切割循环产生的延伸双链体互补。因此，产生延伸双链体的候选序列等价于产生待测序模板区域的候选序列。在实践中，可以产生待测序模板区域的候选序列，或者可以产生延伸双链体的候选序列，并用它们的互补物来测定待测序模板区域的候选序列。本文中描述后一种方法。为了从探针家族名称列表产生候选序列，考虑了该探针家族列表的第一个成员。与该探针家族有关的受限部分组限制了等于受限部分长度的长度上序列的起始核苷酸的可能性。例如，如果受限部分是二核苷酸，那么延伸双链体中第一个二核苷酸的可能序列仅限于属于该探针家族的探针中出现的受限部分(因此待测序模板区域中第一个二核苷酸的可能序列仅限于与属于该探针家族的探针中出现的受限部分互补的组合)。一般用计算机记录第一个二核苷酸的可能性。相似地，延伸双链体中第二个二核苷酸(即从第一个二核苷酸偏移一个核苷酸的二核苷酸)的可能序列仅限于属于第二个探针家族的探针中出现的受限部分(因此，模板中第二个二核苷酸，即从第一个二核苷酸偏移一个核苷酸的二核苷酸的可能序列仅限于与属于第二个探针家族的探针中出现的受限部分互补的组合)。也记录第二个二核苷酸的可能序列。同样地记录随后的二核苷酸的可能性，直到记录到对应于待测定序列所需长度的二核苷酸的可能性或列表中再没有探针家族。

图30中描述了记录可能性的方法的代表性例子，其中设想用图25A所示的探针家族集合产生了探针家族名称列表。图30的最左边一列以从上到下的顺序显示了探针家族列表：黄、绿、红、蓝。在该图的右侧显示对应于列表中各探针家族的二核苷酸的序列可能性。在序列可能性上方标识了核苷酸位置。序列从位置1开始，因此第一个二核苷酸占据位置1和2；第二个二核苷酸占据位置2和3，等。对于黄探针家族，可能性是CC、AT、GG和TA，如图30所示。对于绿探针家族，可能性是CA、AC、GT和TG等。继续记录各二核苷酸的可能序列的过程，直到达到所需序列长度。

产生可能性组后，对候选序列中第一个核苷酸的种类作出第一个假设，假定其在序列的5’位置上，在图30中表示为位置1。第一个假设可以是该核苷酸是A、该核苷酸是G、该核苷酸是C或该核苷酸是T。

观察到各二核苷酸的可能序列受限于相邻二核苷酸的可能序列，因为相邻二核苷酸重叠，即第一个二核苷酸的第二个核苷酸也是第二个二核苷酸的第一个核苷酸。例如，如果假定第一个核苷酸是C，那么第一个核苷酸一定是CC。如果第一个二核苷酸是CC，那么第二个二核苷酸的第一个位置上一定是C。由于第一个位置上为C的第二个二核苷酸的可能序列只能是CA，所以证明，第二个二核苷酸一定是CA。因此，前3个核苷酸的序列一定是CCA。相似地，第三个二核苷酸的可能序列受限于第二个二核苷酸的可能序列。如果第二个二核苷酸是CA，那么第三个二核苷酸一定是AG，因为这是第一个位置为A的唯一可能。因此前4个核苷酸的序列一定是CCAG。继续此过程产生前5个核苷酸的序列5’-CCAGC-3’。因此，CCAGC是第一个候选序列。

通过假定第一个核苷酸是A产生第二个候选序列。这种假设使第一个二核苷酸成为AT。TG是与第一个二核苷酸的序列AT相符的第二个二核苷酸的唯一可能序列。GA是与第二个二核苷酸的序列TG相符的第三个二核苷酸的唯一可能序列。AA是与第三个二核苷酸的序列GA相符的第四个二核苷酸的唯一可能序列。将这些二核苷酸组装成全长候选序列产生ATGAA。相似地，假定第一个核苷酸是G产生的候选序列是GGTCG，假定第一个核苷酸是T产生的候选序列是TACTT。因此，产生了4种候选序列，各自以假定是该序列的第一个核苷酸的不同核苷酸开始。

没有要求一定要对第一个核苷酸、而非其它核苷酸之一作假设。例如，对第四个核苷酸的种类作假设可以达到相同效果，在这种情况下通过沿模板“向后”移动(即3’→5’方向)产生候选序列。例如，假定第四个核苷酸是T意味着，第四个二核苷酸一定是TT；第三个二核苷酸一定是CT；第二个二核苷酸一定是AC；第一个二核苷酸一定是CC。(虽然以3’→5’方向在序列中移动产生其种类，但以5’→3’方向书写核苷酸)。或者，可对序列当中的任何核苷酸进行假设，通过以5’→3’和3’→5方向移动产生二核苷酸种类。应理解，如果不对核苷酸之一作出假设，就完全无法测定各核苷酸的种类，因为各位置均可被A、G、C或T占据。

采用优选的探针家族集合时，假定任何单个核苷酸(如第一个核苷酸)的种类能产生且仅产生一个候选序列。然而，采用较不优选的探针家族集合时，可能必须假设一个以上的核苷酸种类，即假定第一个核苷酸的种类不能完全确定其余序列。例如，较不优选的探针家族集合可能包括其成员的确定序列是AA和AC的家族。在这种情况下，假定第一个核苷酸是A使第二个核苷酸产生两种可能性。下面进一步讨论了用较不优选的探针家族集合进行测序。应理解，如果受限部分由非毗连核苷酸组成，仍可使用经稍许改动的上述方法。

通过比较候选序列与已知序列进行序列鉴定

通常，如果如上所述测定了延伸双链体的候选序列，通过取其互补物获得待测序模板区域的对应候选序列。在一些情况下，候选序列本身将提供足够信息以达到目的。例如，如果测序目的仅仅是排除某些序列可能性，那么比较候选序列与这些可能性足矣。图30所示候选序列能够测定(例如)测序区域不是聚A尾的一部分。较长的序列可确认测序区域不是载体的一部分。

在许多情况下，需要明确测定正确序列。按照本发明的优选实施方式，通过比较待测序模板区域的候选序列与一组已知序列鉴定正确序列。该组已知序列可以是(例如)感兴趣的具体生物体的序列组。例如，如果对人DNA进行测序，那么可比较候选序列与人类基因组序列草图。参见URL为www.ncbi.nih.gov/genome/guide/human/的网站上关于公众可得的人类基因组序列来源的指南。另一个例子是，如果要对衍生自感染物(如分离自对象的细菌或病毒)的核酸进行测序，那么可搜索含有该细菌或病毒变异株的序列的数据库。本领域已知许多这种特定有机体的数据库，其中含有完整或部分序列，随着测序工作的加速进行，可获得更多的数据库。一些代表性例子包括小鼠数据库(参见例如，URL为www.ncbi.nlm.nih.gov/genome/seq/MmHome.html的网站)，人类免疫缺陷病毒数据库(参见例如，URL为hiv-web.lanl.gov/content/hiv-db/mainpage.html的网站)，疟疾病原体恶性疟原虫数据库(Plasmodium falciparum)(参见例如URL为http://www.tigr.org/tdb/edb2/pfal/htmls/index.shtml的网站)等。当然，不一定采用特定有机体的序列组。可搜索数据库如GenBank(URL为http://www.ncbi.nlm.nih.gov/Genbank/的网站)，其中含有来自各种有机体和病毒的序列。数据库甚至不一定含有产生模板的有机体或病毒的任何序列。通常，序列可以是基因组序列、cDNA序列、EST等。可搜索多个序列。

只进行搜索可能就足以达到目的。例如，如果病毒核酸分离自患者，比较候选序列与该病毒的一组已知序列即可确定该病毒核酸是否含有来自该病毒的序列，即使从未检测过匹配序列。存在匹配能确认该患者被该病毒感染，而缺少匹配则表示该患者未感染该病毒。

在某些实施方式中，已知序列组含有较窄的序列范围，这可能特别适应进行测序的目的。因此，测序核酸信息可用于选择已知序列组。例如，如果已知模板代表具体基因的序列，已知序列可代表感兴趣的给定基因座上基因的不同等位基因、突变或野生型序列等。可能只需要比较候选序列与一种已知序列，即可测定哪个候选序列是正确序列。例如，在本发明的某些实施方式中，通过扩增含有感兴趣区域的DNA获得模板(如采用侧接于感兴趣区域的引物)。感兴趣区域可包括突变或多态性位点，如与具体基本相关的突变或多态性。如果已知该模板代表具体感兴趣区域的序列，那么只需要比较候选序列与一参比序列，如序列的野生型或突变形式的这个区域。换言之，如果已知一部分或全部的模板序列，那么可能不必与多种已知序列进行比较。相反，将包含所有或部分已知序列的候选序列选作正确序列。例如，已知BRCA1和BRCA2基因中的突变与乳腺癌风险增加有关，人们对测定对象是否携带这种突变很感兴趣。如果已知该模板包含来自BRCA1基因的序列，例如，如果将侧接于包括该基因一部分的感兴趣区域的引物用于产生模板的克隆群，那么仅需要比较该候选序列与野生型或突变的BRCA1序列，以确定正确序列。

在更一般的情况下，比较候选序列与已知序列组会鉴定与候选序列相似的任何已知序列。倘若候选序列足够长，数据库含有与一种以上候选序列相同或非常相似的序列的可能性就非常小。换言之，如果候选序列足够长，就不可能有一种以上的候选序列与已知序列组中的序列相同。比较候选序列与认为是“匹配”的任何序列。一般需要设定确定存在匹配所需的相同性阈值。例如，如果候选序列和已知序列至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少99％或甚至100％相同，则可认为与已知序列匹配。一般在长度至少为10个核苷酸，如10-15个核苷酸、15-20个核苷酸、20-25个核苷酸、25-30个核苷酸等的窗口上评价相同性百分数。可按照各种不同标准选择窗口长度，这些标准包括但不限于：多种已知序列中的序列数，多种已知序列的种类或来源等。例如，如果比较候选序列与大数据库如GenBank，需要的窗口长度可能比采用含有较少序列的数据库时更长。在本发明的某些实施方式中，在多个不同窗口上比较序列，这些窗口不一定互相相邻。优选地，窗口的总长度至少为10个核苷酸，如10-15个核苷酸、15-20个核苷酸、20-25个核苷酸、25-30个核苷酸等。在一些情况下，已知序列组中的多种序列可以匹配。该序列可以(例如)代表与产生该模板的有机体相同的有机体中发现的同源基因、来自不同有机体的同源基因、假基因、cDNA和基因组序列等。

通常，将已知序列组中最接近序列的候选序列选作正确序列。或者，例如，如果有理由相信该测序方法可能产生高误差率，那么优选选择数据库中的相应序列作为正确序列。例如，如果已知误差率超过了预定阈值，那么优选选择数据库中的序列作为正确序列。

为保证从多种候选序列发现匹配的可能性所需的长度取决于各种因素，包括但不限于：具体的已知序列组、接受匹配的阈值等。通常，长度约为25-26个核苷酸的序列在一般有机体的基因组中仅出现一次。因此，产生约为此长度的候选序列足以鉴定正确序列。通常，候选序列的长度应该至少为10个核苷酸，优选至少15个，至少20个核苷酸，如20-25、25-30、30-35、35-40、45-50个核苷酸或甚至更长。

通过比较第一组候选序列与第二组候选序列进行序列鉴定

在本发明的某些实施方式中，用按照第一种编码方案编码的第一种探针家族集合产生探针家族的第一种有序列表，从中产生第一组候选序列，然后用按照第二种编码方案编码的第二种探针家族集合从同一模板产生探针家族的第二种有序列表，并从中产生第二组候选序列，从而进行解码。在两次测序反应之间去除模板上新合成的DNA链，或用第二种探针家族集合测序序列相同的模板。比较候选序列组。应理解，无论采用哪一种探针家族集合，其中一个候选序列是正确序列，而其它不是正确序列(或者最多是部分正确)。因此，每组候选序列都含有正确序列，但在大多数情况下，任何给定候选序列中的其它候选序列都不同于另一组候选序列中发现的序列。因此，只比较两组候选序列，即可确定正确序列。不必用两种编码不同的探针家族集合产生长度相等的候选序列。在本发明的优选实施方式中，用第二种探针家族集合产生的候选序列可以短至2个核苷酸，或者，用第二种探针家族集合产生的探针家族的有序列表可以短至1个元件(即1个连接和检测循环)。

图31A-31C显示了候选序列产生和用两种区别标记的优选探针家族解码的例子。图31A显示了按照第一种编码方案编码的优选的探针家族集合。图31B显示了从探针家族黄、绿、红、蓝(可表示为“2314”，其中红＝1，黄＝2，绿＝3，蓝＝4)的有序列表产生4种候选序列，其中假定正确序列是CAGGC(粗体表示)。图31C显示了按照第二种编码方案编码的优选的探针家族集合。由于模板中第一个二核苷酸是CA，所以在第一个延伸循环中黄探针家族中最上面的探针会连接于可延伸末端。这使第一个二核苷酸成为下组候选序列：CA、TC、GG、AT。在用第一种探针家族集合产生的候选序列中，只有序列CAGGC从这些二核苷酸中的任一种开始。因此，它一定是正确序列。通常，第一种和第二种探针家族集合优选满足以下条件：比较第一种和第二种探针家族集合时，(i)第一种集合中各探针家族的4种探针中3种应分配给第二种集合的新探针家族；和(ii)这3个重新分配的探针各自应分配给第二种集合中的不同探针家族。

用已知核苷酸种类解码探针家族的有序列表

如上所述，可通过假定延伸双链体或模板中的一个核苷酸的种类产生候选序列。根据所用的具体探针家族集合，通常需要产生至少4个候选序列。然而，如果已知模板中(因此也是延伸双链体中)至少一种核苷酸的种类可避免产生多种候选序列。在这种情况下，只需要产生一个候选序列。产生候选序列的方法与上述方法相同。可用任何测序方法测定模板中至少一个核苷酸的种类，这些测序方法包括但不限于：测序方法A，用一组区别标记的核苷酸和聚合酶从起始寡核苷酸起进行引物延伸等。应理解，首先可用不同于测序方法AB的测序方法测序模板中一个或多个核苷酸，然后可去除起始寡核苷酸和任何延伸产物，用测序方法AB对相同模板进行测序(反之亦然)。

另一种方法是除了序列待测定的部分以外，只测序含有一个或多个种类已知的核苷酸的模板。例如，起始寡核苷酸结合的区域和未知序列开始处之间的部分可包括种类已知的一种或多种核苷酸。通过对此部分模板进行测序方法AB，会预先测定该序列中一个或多个核苷酸的种类，因此可用于产生一个候选序列，它会是正确序列。

因此，上述方法包括以下步骤：(i)通过确定哪一种类与已知核苷酸种类以及其近端核苷酸连接于已知种类的核苷酸相邻核苷酸相对位置的该探针受限部分的可能序列相符，给模板上与已知种类的核苷酸相邻的核苷酸指定种类；(ii)通过确定哪一种类与其近端核苷酸连接于后续核苷酸相对位置的该探针受限部分的可能序列相符，给所述后续核苷酸指定种类；和(iii)重复步骤(ii)，直到测定该序列。应理解，这些步骤等价于对延伸双链体进行相同步骤，因为所述延伸双链体和待测序的模板区域之间有准确的对应关系。

用较不优选的探针家族测序

可以类似于使用优选探针家族集合的方式采用较不优选的探针家族集合进行测序方法AB。然而，结果可能在许多方面存在差异。例如，可以从候选序列完全鉴定某些序列部分，而无需额外信息。图32显示了用图28所示编码的较不优选的探针家族集合进行序列测定的例子。序列测定方法通常如优选探针家族集合中所述。感兴趣模板具有序列“GCATGA”，此时产生的探针家族的有序列表为“12341”。假定位置1上的核苷酸是A，则产生的候选序列为“ACATGA”。然而，与优选探针家族集合的情况不同，第二个核苷酸有两种可能，因为标记“1”与以A为第一个核苷酸的两种不同二核苷酸，即“AA”和“AG”有关。因此，假定位置1上的核苷酸是A，则产生的第二候选序列为“ACATGC”。假定位置1上的核苷酸是G，则产生的候选序列是“GCATGA”，也产生“GCATGC”作为候选序列。由于标记“1”与位置1上为C或T的任何二核苷酸无关，所以没有产生以“C”或“T”开头的候选序列。图32显示了互相比对的4种候选序列。应观察到，所有候选序列中中间的4个核苷酸都是CATG。因此，正确序列的位置2-5上一定包括CATG。如果仅对这些核苷酸感兴趣，则无需进行进一步解码步骤。

如上所述，探针家族集合不一定由四种不同探针家族组成，但可由大于2小于4N种组成，其中N是受限部分长度。然而，如果采用少于4个家族，则可能必须产生4种以上候选序列，而如果采用4种以上探针家族，则需要其它标记。由于这些和其它原因，优选由4种探针家族组成的集合。

通过候选序列的互相比较进行序列鉴定

在本发明的某些实施方式中，可通过候选序列的互相比较确定感兴趣的部分或全部序列。通常，这种比较不足以确定哪个候选序列在整个长度上正确。然而，如果两种或多种候选序列在一部分序列上相同或足够相似，此信息可能足以明确鉴定模板中上述部分内的核苷酸序列。

如果需要，可用交替编码的探针家族对模板再测序一次或多次，以产生所鉴定序列的其它部分。可合并这些部分，以组装所需长度的序列。

用探针家族纠正错误

常常需要测序代表同一DNA序列的所有或部分序列的多个模板和比对这些序列。如果该模板仅含有部分感兴趣区域，那么通过组装重叠片段获得较长序列。例如，测序有机体的基因组时，一般将DNA片段化，测序足够片段，从而通过几个(如4-12个)不同片段延伸每个DNA。本领域技术人员已知将重叠序列组装成较长序列的计算机软件。

采用常规测序方法时，常常是多个片段在一段区域上完美比对，但这些片段之一(称为异常片段)在该区域的一个位置上不同于其它片段。确定单独的差异是否代表测序差错或该位置上是否存在真实差异(如单核苷酸多态性)可能是有问题的。

本发明提供了用测序方法AB进行差错检验的新方法。按照该方法，用上述区别标记的探针家族集合测序包含代表同一DNA段的片段的模板，为各模板产生探针家族的有序列表。比对探针家族的有序列表。如果几种列表在预定长度，如列表中的10、15、20或25个或更多个元件上完美比对，除了一个列表在一个位置上不同于其它片段，那么将差异归因于测序差错。如果存在实际多态性，由异常片段产生的有序探针列表将在两个或多个相邻位置上不同于从其它片段产生的有序探针列表。

例如，将采用表1编码4的优选探针家族集合的测序方法AB应用于含有序列5’-CAGACGACAAGTATAATG-3′的模板产生以下探针家族的有序列表：“23324322132444142”，如下所示：

23324322132444142

CAGACGACAAGTATAATG

如果有实际SNP(如CAGACGAGAAGTATAATG，其中下划线核苷酸代表多态性位点)，则导致该列表中两个连续元件发生改变：23324333132444142，其中下划线表示由SNP引起的改变。探针家族的有序列表和含有SNP序列之间的对应关系见下：

23324333132444142

CAGACGAGAAGTATAATG

然而，与连接延伸探针相连标记的鉴定差错导致探针家族的有序列表中产生一个差错以及得到的候选序列中从该点向前发生改变。例如，测定与第7个连接延伸探针连接的标记23324332132444142(其中下划线的数字代表错误鉴定的标记)中的差错将得到的候选序列改变成CAGACGAGTTCATATTAC，其中下划线部分表示由测序差错引起的改变。探针家族的有序列表和该序列之间的对应关系见下：

23324332132444142

CAGACGAGTTCATATTAC

采用3个碱基、4种标记方案时，含有SNP的片段会使异常片段的探针家族有序列表产生3个连续差异，但测序差错仅产生1个差错。例如，采用如图29所示编码的探针家族集合时，序列CAGACGACAAGTATAATG的探针家族种类的有序列表见下：

2322224132412244

CAGACGACAAGTATAATG

含有SNP的异常片段，如CAGACGAGAAGTATAATG，会导致探针家族的有序列表在3个连续位置上不同于由不含SNP的片段产生的有序列表，如下所示：

2322213332412244

CAGACGAGAAGTATAATG

测序差错将使探针家族的有序列表中仅产生一个差异，会导致产生的候选序列从差错点向前完全不同。

因此，当一个片段(异常片段)产生的探针家族有序列表与代表同一DNA段的其它片段产生的探针家族有序列表比对，但在一个单独位置上与其它有序列表不同时，含有该差异的有序列表可能代表测序差错(探针家族的错误鉴定)。当一个片段(异常片段)产生的探针家族有序列表与代表同一DNA段的其它片段产生的探针家族有序列表比对，但在2个或多个连续位置上不同于其它有序列表时，该异常片段可能含有SNP。优选地，探针家族有序列表的比对部分的长度至少为3或4个元件，优选长度至少为6个、8个或更多个元件。优选地，比对部分至少66％相同、至少70％相同、至少80％相同、至少90％相同或更多相同，如100％相同。

相似地，在第一部分序列上比对某片段候选序列与代表同一DNA段的其它片段的候选序列，但在序列第二部分上与其它片段的候选序列显著不同时，则可能发生了测序差错。在两部分序列上比对某片段候选序列与代表同一DNA段的其它片段的候选序列，但仅在一个位置上不同时，该异常片段可能含有SNP。优选地，候选序列的比对部分的长度至少是4个核苷酸。优选地，比对部分至少66％相同、至少70％相同、至少80％相同、至少90％相同或更多相同，如100％相同。

因此，本发明提供了区分单核苷酸多态性与测序差错的方法，所述方法包括以下步骤：(a)用测序方法AB测序多种模板，其中所述模板代表单个核酸序列的重叠片段；(b)比对步骤(a)获得的序列；和(c)如果该序列在第一个部分上基本相同、在第二个部分上显著不同(各部分的长度至少为3个核苷酸)，则将序列之间的差异确定为代表测序差错。本发明还提供了区分单核苷酸多态性与测序差错的方法，所述方法包括以下步骤：(a)用代表一个核酸序列的重叠片段的多种模板进行测序方法AB，从而获得多种探针家族有序列表；(b)比对步骤(a)获得的探针家族有序列表，以获得其中有序列表至少90％相同的比对区域；和(c)如果有序列表仅在比对区域内一个位置上不同，则将探针家族的有序列表之间的差异确定为代表测序差错；或(d)如果有序列表在比对区域内的两个或多个连续位置上不同，则将探针家族的有序列表之间的差异确定为代表单核苷酸多态性。

不定域(delocalized)信息集合

如本领域所熟知，“位”(二进制数字)指逢2进位的一个数字，即1或0，它代表数字数据的最小单位。因为核苷酸可以是四种不同种类之一，应理解，限定核苷酸种类需要2位。例如，A、G、C和T可分别表示为00、01、10和11。在区别标记的探针家族的优选集合中限定探针家族名称需要2位，因为有四种区别标记的探针家族。

在最常规的测序形式和测序方法A中，各核苷酸被确定为离散单元，并一次收集对应于一种核苷酸的信息。各检测步骤从一个核苷酸获得两位信息。相反，测序方法AB在各检测步骤中从多个核苷酸各自获得少于2位信息，而采用优选的探针家族集合时每个检测步骤仍获得2位信息。探针家族有序列表中的各探针家族名称代表了模板中至少2个核苷酸的种类，准确数目由探针的序列测定部分长度决定。例如，考虑了采用按照表1编码4编码的探针家族集合从序列5’-CAGACGACAAGTATAATG-3′获得的探针家族的有序列表：

23324322132444142

CAGACGACAAGTATAATG

探针家族2是该列表中的第一个探针家族，因为二核苷酸CA是探针家族2的探针中存在的指定部分之一。探针家族3是该列表中的第二个探针家族，因为二核苷酸AG是探针家族3的探针中存在的指定部分之一。如上所述，由于有4种探针家族，各探针家族种类代表2位信息。因此，各检测步骤收集了关于2个核苷酸的2位信息，各核苷酸平均产生1位信息。

因此，本发明提供了一种序列测定方法，其中所述方法包括多个延伸、连接和检测循环，其中所述检测步骤包括平均同时获得模板中至少两个核苷酸各自两位信息，而不获得任何单个核苷酸的两位信息。本发明还提供了用第一个寡核苷酸探针家族集合测定模板多核苷酸的核苷酸序列的方法，所述方法包括以下步骤：(a)进行连续的延伸、连接、检测和切割循环，其中在各循环中平均同时获得模板中至少两个核苷酸各自两位信息，而不获得任何单个核苷酸的两位信息；和(b)将步骤(a)中获得的信息与至少一位额外信息合并，以确定该序列。在本发明的各种实施方式中，所述至少一位额外信息包括选自下组的信息：模板中的核苷酸种类，比较候选序列与至少一种已知序列获得的信息；和用寡核苷酸探针家族的第二集合重复该方法获得的信息。

因此，虽然该方法不获得单个核苷酸的2位信息，但采用优选的探针家族集合时以不定域方式在各循环中平均收集了模板的2位信息。采用2或3个探针家族的集合时，每个循环收集少于2位信息。

不定域信息收集有许多优点，包括能应用如上所述的差错检验方法。此外，由于在优选实施方式中模板中各核苷酸需检测一次以上，所以在与具体核苷酸连接的荧光团的检测中不定域信息收集有助于避免系统性偏差。

除包括对探针进行连续的延伸、连接和切割循环的方法以外，本文所述的探针家族和探针家族集合还可用于各种测序方法。本发明也提供了具有上述序列和结构的探针家族和探针家族集合，其中所述探针任选地不含易切连接。例如，该探针可仅含磷酸二酯主链连接和/或可以不含引发残基。在本发明的一些实施方式中，用所述探针家族进行测序，测序中采用连续的延伸和连接循环，但各循环中不包括切割。例如，可将所述探针家族用于基于连接的方法，如WO2005021786和本领域其它文献所述。为了在这种方法中采用所述探针家族，所述探针上的标记应通过可切割接头连接，如WO2005021786所述，以便不用切割核酸的易切连接即可去除标记。这种方法可用于产生探针家族的有序列表，例如，用探针家族，而非WO2005021786所述的连接盒平行或依次进行多个反应，然后组装探针家族列表。如上所述解码该列表。

I.试剂盒

可提供各种试剂盒来实施本发明的不同实施方式。某些试剂盒包括含有硫代磷酸酯连接的延伸寡核苷酸探针。该试剂盒还可包括一种或多种起始寡核苷酸。该试剂盒可含有适用于切割硫代磷酸酯连接的切割试剂如AgNOA₃和进行切割的合适缓冲液。某些试剂盒包括含有引发残基如含有损伤碱基的核苷或脱碱基残基的延伸寡核苷酸探针。该试剂盒还可包括一种或多种起始寡核苷酸。该试剂盒可含有适用于切割核苷和相邻脱碱基残基之间的连接的切割试剂和/或适用于去除多核苷酸的损伤碱基的试剂如DNA糖基化酶。某些试剂盒包括含有二糖核苷酸的寡核苷酸探针，并包括高碘酸盐作为切割试剂。在某些实施方式中，该试剂盒含有区别标记的寡核苷酸探针家族集合。

试剂盒还可包括连接试剂(如连接酶、缓冲液等)和实施本发明具体实施方式的说明书。可包括适用于可采用的其它酶如磷酸酶、聚合酶的缓冲液。在一些情况下，这些缓冲液可能相同。试剂盒也可包括用于锚定模板的支持物，如磁珠。可用PCR扩增引物使这些珠功能化。其它任选组分包括洗涤溶液；用于PCR扩增的插入模板的载体；PCR试剂如扩增引物、扣锁探针、热稳定性聚合酶、核苷酸；制备乳液的试剂；制备凝胶的试剂等。

在某些优选试剂盒中，提供了荧光标记的含有硫代磷酸酯连接的寡核苷酸探针，以使对应于不同的探针末端核苷酸的探针携带不同的可光谱分辨的荧光染料。更优选地，提供了四种这样的探针，以便使四种可光谱分辨的荧光染料和四种可能的探针末端核苷酸之间一一对应。

该试剂盒可包含适合产生配对模板或片段文库的寡核苷酸和/或载体。该试剂盒可含有一种或多种与文库成员模板分子的共有部分互补的封闭寡核苷酸。

试剂盒中或上可出现标识符，如条形码、射频ID标签等。例如，可采用标识符唯一地鉴定试剂盒，以进行质量控制、库存管理、跟踪、在工作站之间移动等。

试剂盒通常包括一个或多个器皿或容器，以便单独存放某些试剂。试剂盒也可包括以相对紧密的密封封装单个容器的装置如塑料盒，以利于商业销售，其中可装入说明书、包装材料如泡沫聚苯乙烯等。J.平行测序和自动化测序系统

Macevicz公开了测序具有特定序列的一种模板。他没有讨论平行进行这种方法以同时测序具有不同序列的多种模板的可能性。本发明者认识到，为了以高通量方式进行有效测序，需要制备多种支持物(如珠)，如上所述，以使各支持物连接特定序列的模板，并对连接于各支持物的模板同时进行本文所述方法。在本方法的某些实施方式中，将多种支持物排列在平坦的基材如玻片中或之上。在某些实施方式中，将支持物排列在半固体介质如凝胶中或之上。可以随机方式排列支持物，即不预先确定各支持物在基材上的位置。支持物不一定以规则间隔分布或位于有序的行列排列中等。优选地，支持物的排列密度使得可能检测由许多或大多数支持物发出的单个信号。在某些优选实施方式中，支持物主要分布于一个焦平面上。可包括连接有序列相同的模板的多个支持物，(例如)以进行质量控制。在连接于各支持物的模板上进行平行测序反应。

可用各种方式收集信号，包括各种成像形态。优选地，在检测前在排列于基材上的微粒上(如包埋在位于基材上的半固体支持物中的珠)进行测序的实施方式中，成像装置的分辨率为1μm或更小。例如，可采用装有足够分辨率的CCD相机或微阵列扫描器的扫描显微镜。或者，使珠通过连接于为荧光检测装配的显微镜的流动室或流体工作站。收集信号的其它方法包括光纤束。可采用合适的图像捕获和加工软件。

在本发明的某些实施方式中，在微流体装置中进行测序。例如，可将连接有模板的珠加载到该装置中，使试剂从中流过。也可在该装置中用PCR进行模板合成。美国专利6,632,655描述了合适的微流体装置的例子。

本发明提供了可用于平行(即基本同时)收集多个模板的序列信息的多种自动化测序系统。优选地，将模板排列在基本平坦的基材上。图21显示了一种本发明系统的照片。如上面一张照片所示，本发明系统包括CCD相机、荧光显微镜、移动台、Peltier流动室、温度控制器、流体处理装置和专用计算机。应理解，可以对这些组件进行多种取代。例如，可采用另一种图像捕获装置。此系统的其它详细情况参见实施例9。

应理解，可采用本发明自动化测序系统和相关的图像加工方法和软件实施各种测序方法，包括本文所述基于连接的方法和其它方法，包括但不限于：用合成法测序，如借助合成的荧光原位测序(FISSEQ)(参见例如，MitraRD等，Anal Biochem.，320(1)：55-65，2003)。正如本文所述基于连接的测序方法，可以对直接固定在半固体支持物中或之上的模板、固定于半固体支持物中或之上的微粒上的模板、直接连接于底物的模板等实施FISSEQ。

本发明系统的一个重要方面是流动室。通常，流动室包括具有输入和输出端口的小室，流体可通过这些端口流动。参见例如，美国专利6,406,848和6,654,505以及PCT公开号WO98053300中关于各种流动室及其制造材料和方法的讨论。流体流动使得能够向位于流动室中的实体(如模板、微粒、分析物等)添加和去除各种试剂。

优选地，适用于本发明测序系统的流动室包括可以安装基本平坦的基材如玻片的位置，以使流体流过该基材表面，还包括允许进行光照、激发、信号获得等的窗口。按照本发明方法，实体如微粒在进入流动室之前一般排列在基材上。

在本发明的某些实施方式中，垂直地安置流动室，以便空气气泡从流动室顶端逃逸。通过安置流动室，使流径从流动室的底端向顶端运行，如输入端口位于流动室的底端，输出端口位于流动室的顶端。由于可引入的任何气泡都能浮起，所以它们快速浮向输出端口，而不使光照窗口变模糊。由于气泡密度低于液体密度而使气泡上升到液体表面的这种方法在本文中称为“重力气泡置换”。因此，本发明提供了流动室取向允许进行重力气泡置换的测序系统。优选地，在流动室中垂直安装直接或间接连接有微粒(如共价或非共价连接于基材)或者含有粘着或固定于基材上半固体支持物中或之上的微粒的基材，即该基材的最大平坦表面与地平面垂直。由于在优选实施方式中，微粒固定在支持物或基材中或之上，所以它们的相对位置基本固定，这有利于连续获得图像和图像记录。

图24A-J显示了不同方向上本发明流动室或其部分的示意图。本发明流动室可用于各种目的，包括但不限于：分析方法(如核酸分析法如测序、杂交实验等；蛋白质分析法、结合实验、筛选实验等)。流动室也可用于进行合成，如产生组合文库等。

图22显示了另一种本发明自动化测序系统的示意图。将流动室安装在温控自动台(与实施例9所述相似)上，并连接于流体处理系统，如装有多端口阀的注射器泵。该平台容纳多个流动室，以便在另一流动室上进行其它步骤如延伸、连接和切割时对一个流动室成像。这种方法最大程度利用了昂贵的光学系统，同时提高了通量。

流体线上装配有光学和/或电导传感器，以检测气泡并监测试剂使用。流体系统的温度控制和传感器保证了在合适温度下维持试剂的长期稳定性，但当它们进入流动室时提高到工作温度，以避免退火、连接和切割步骤期间的温度起伏现象。优选将试剂预先包装到试剂盒中，以防止加样时出错。

光学器件包括四台相机-各自通过四个滤镜组之一拍摄一张图片。为了降低光漂白效应，可工程改造光照光学器件，使其仅照亮成像区域，以防止视野边缘出现多重照射。可通过标准的无限校正显微镜物镜以及标准分束器和滤光片搭建成像光学器件。可用标准的2,000×2,000像素CCD相机捕获图像。该系统加入了适用于光学器件的机械支承。优选监测和记录光照强度，以备分析软件之用。

为了快速获得多幅图像(如在一个代表性实施方式中约1800或更多个非重叠图像视野)，该系统优选采用快速自动聚焦系统。本领域熟知基于对图像本身的分析的自动聚焦系统。它们通常需要至少5帧/聚焦事件。由于获得聚焦图像需要额外光照(增加光漂白)，所以这种方法既慢又昂贵。在本发明的某些实施方式中，采用了另一种自动聚焦系统，如基于独立光学器件的系统，它聚焦的速度与机械系统可反应的速度同样快。本领域已知这种系统，包括例如用于消费级CD播放器的聚焦系统，它能在CD播放时实时维持亚微米聚焦。

在本发明的某些实施方式中，该系统是远程操作。实施特定方案的脚本可储存于中央数据库，下载用于各测序轮次。可给样品编条形码，以维持样品跟踪的完整性和将样品与最终数据关联。中央实时监测能快速分辨过程误差。在某些实施方式中，将该设备收集的图像立即上载到中央多TB存储系统和一个或多个处理器库。采用来自中央数据库的跟踪数据，处理器分析图像并产生序列数据，任选地产生处理规格，如背景荧光水平和珠密度，以(如)跟踪设备性能。

用控制软件适当地排列泵、平台、相机、滤光片、温度控制器，并批注和储存图像数据。提供了用户界面，以(如)辅助操作者建立并维持该设备，该用户界面优选包括加载/卸载玻片时确定平台位置和启动流体线的功能。可包括显示功能，以(如)向操作者显示各种运行参数，如温度、平台位置、当前滤光片配置、运行方案的状态等。优选地包括记录跟踪数据如试剂批号和样品ID的数据库的界面。

K.图像和数据处理方法

本发明提供了至少部分以计算机可读介质上储存的计算机编码(即软件)的形式实施的各种图像和数据处理方法。实施例9和10中列出了进一步详细情况。此外，通常，测序方法A和B通常采用合适的计算机软件来进行处理步骤，这些处理步骤包括(例如)保持跟踪多个测序反应中收集的数据、汇编这些数据、产生候选序列、进行序列比较等。

L.储存序列信息的计算机可读介质

此外，本发明提供了储存应用本发明测序方法产生的信息的计算机可读介质。信息包括原始数据(即未经进一步处理或分析的数据)、处理或分析数据等。数据包括图像、数字等。这些信息可储存于一般为易于查找安排的数据库，即信息(如数据)集合中，例如，储存于计算机内存中。信息包括例如：序列和有关序列的任何信息，如部分序列、序列与参比序列的比较、序列分析结果、基因组信息如多态性信息(如具体模板是否含有多态性)或突变信息等、连锁信息(即涉及染色体中某核酸序列相对于另一核酸序列的物理位置的信息)、疾病相关信息(即将疾病的存在或易感性与对象的身体特征如对象的等位基因关联起来的信息)等。信息可能与样品ID、对象ID等有关。可包括涉及样品、对象等的其它信息，包括但不限于：样品来源、对样品进行的处理步骤、信息解释、样品或对象的特征等。本发明也包括一种方法，该方法包括接受计算机可读形式(如储存于计算机可读介质上)的任何上述信息。该方法还可包括根据这些信息提供诊断、预后或预示信息的步骤或只将优选储存于计算机可读介质上的信息提供给第三方的步骤。

出于说明提供以下实施例，它们不会限制本发明。

实施例1：有效切割和连接硫代磷酸酯化的寡核苷酸

本实施例描述了显示含有3’-S硫代磷酸酯连接的延伸寡核苷酸的有效连接和切割的实验。

材料和方法

连接测序方法

模板制备：为了评价通过寡核苷酸连接和切割循环进行测序的可能和探索改变该方法某些方面的作用，制备两组模式珠基模板群体。在优选实施中，如实施例所述，寡核苷酸连接和切割循环以3’→5’方向延伸链。因此，为了评价连接效率，将模式模板的5’端结合于珠，并在3’端设计有相同的结合区。一组由通过双生物素部分结合于链霉亲和素包被的磁珠(1微米)的短(70bp)寡核苷酸组成。这些短模板群体各自的3’端设计有相同的引物结合区(40bp)和独特的序列区(30bp)。短寡核苷酸模板群体称为连接测序模板1-7(LST1-7)。

从PCR-产生的长DNA片段(232-bp)设计第二组珠基模板群体，所述长DNA片段是通过将183-bp间隔物序列(来自人p53外显子)插入各模板群体产生的。用含有双生物素的正向引物和反向引物扩增模板，所述反向引物含有与短模板群体相同的30个碱基的独特3’端序列。通过用含有氢氧化钠的缓冲液解开一条链产生单链模板。这些长模板群体的设计模拟了从共待审专利申请所述短片段成对末端文库产生的种类，它们称为长-LST1-7。

引物杂交：预先混合2.5μL 100μM FAM-标记引物与100μL 1XKlenow缓冲液。去除缓冲液后将此溶液加入30μL试样量的连接有模板的磁珠(10⁶/μL)中，充分混合得到的溶液。允许模板/引物发生杂交(杂交反应在65℃进行2分钟、在40℃进行2分钟、在冰上进行2分钟)后，去除引物/缓冲液，用3×洗涤1E缓冲液洗涤该珠，然后重悬于300μL(10⁶/mL)TENT缓冲液(含有10mM Tris，2mM EDTA，30mM NaOAc和0.01％Triton X-100)。

连接1：然后，在含有1μL 100μM LST7-1九聚物、4μL 5×T4连接酶缓冲液(Invitrogen)、14μL H₂O和1μL T4连接酶(1u/μL，Invitrogen)的混合物中37℃孵育杂交含有LigSeq-FAM的2.5×10⁶个LST7珠30分钟。

切割1：然后用100μL LSWash1(含有1X TE，30mM乙酸钠，0.01％Triton X100)洗涤该珠3次；取出10μL试样量的此溶液，储存用于分析。然后用100μL 30mM乙酸钠洗涤该珠(1X)。将50μL 50mM AgNO₃加入此溶液，将得到的混合物37℃孵育20分钟。去除AgNO₃，用100μL 30mM乙酸钠洗涤该珠一次。然后用100μL LSWash1洗涤该珠3次，重悬于90μLWash(TENT)缓冲液；取出10μL试样量的此溶液，储存用于分析。

连接2：去除TENT缓冲液后，将该珠重悬于14μL H₂O，用含有1μL100μM LST7-5九聚物、4μL 5×T4连接酶缓冲液(Invitrogen)和1μL T4连接酶(1u/μL，Invitrogen)的混合物37℃孵育30分钟。

切割2：用100μL LSWash1(1X TE，30mM乙酸钠，0.01％Triton X100)洗涤该珠3次，重悬于45μL Wash1E。取出15μL试样量的此混合物，储存用于分析。然后用100μL 30mM乙酸钠洗涤该珠1次，重悬于5μL 20mM乙酸钠。将50μL 50mM AgNO₃加入该珠，37℃孵育该混合物20分钟。去除AgNO₃后，用100μL 30mM乙酸钠洗涤该珠一次。然后用100μLLSWash1洗涤该珠3次，重悬于30μL Wash1E。取出20μL试样量的此混合物，储存用于分析。

结果

参照图8能更好地理解本实验。图8上部显示了实验步骤的总体概要。起始寡核苷酸(引物)杂交于通过生物素连接连接于珠的模板(标为LST7)。起始寡核苷酸含有5’磷酸，其3’端用FAM荧光标记。合成两个9-mer(九聚体)寡核苷酸探针(第1可切割寡核苷酸和第2可切割寡核苷酸)，它们内部含有硫代磷酸酯化的胸苷碱基(sT)(下划线)。用T4DNA连接酶将第1可切割探针连接于该引物的可延伸末端，然后用硝酸银切割。切割去除了延伸探针的末端5个核苷酸，并在仍与该引物连接的探针部分上产生可延伸末端。然后，将第2可切割探针连接于可延伸末端，然后相似地进行切割。

用荧光毛细管电泳凝胶移位实验监测连接和切割步骤。此实验中，将该引物杂交于模板链，以使5’磷酸可用作引入寡核苷酸探针的连接底物(荧光团用作基于迁移率的毛细管凝胶电泳的报道物)。各步骤后，取出试样量的珠进行分析。连接寡核苷酸探针后，用磁体收集磁珠，通过热变性释放模板珠上由引物和探针连接形成的连接物，用自动DNA测序设备(ABI 3730)以标记的大小标准(lissamine梯；大小范围15-120个核苷酸；在色谱图中显示为一组橙色的峰，见图8)进行荧光毛细管电泳。在典型的凝胶移位中，可能的峰包括，i)引物峰(由于没有延伸或缺少引物延伸)，ii)腺苷酸化峰(由于DNA连接酶的作用在非生产性连接处的5’端连接了腺苷残基-参见图8F的机制，也参见Lehman，I.R.，Science，186：790-797，1974)，和iii)完成峰(由于寡核苷酸探针的连接)。用凝胶移位实验评价连接效率的一个优点是峰下面积与各物质的浓度直接相关。

图8A显示了用T4DNA连接酶进行的对照连接和仅含磷酸二酯连接的精确匹配探针(图8A左方)。橙色峰代表大小标记物。左边的蓝色峰表示在没有连接时引物的位置。精确匹配探针的连接导致向左移位(箭头)。图8B显示了在相同条件下用内部含有硫醇化T碱基的探针进行的连接(图8B左方)。观察到与对照探针的移位相同(箭头)。然后，用硝酸银孵育连接有硫代磷酸酯化探针的连接于珠的模板群体以诱导探针切割。凝胶移位分析显示出左移的4-bp切割产物，从而确认了有效切割(图8C)。图8C左方显示预计的切割产物。然后，使切割的珠基模板群体进行第二轮连接，通过出现右移的13-bp延伸产物证明是生产性连接(图8D)。图8D左方显示预计的切割产物。第二轮切割确认，可完成有效的多个切割步骤，如预计的左移8-bp切割产物所示(图8E)。

这些结果证明，成功地连接和切割了含有硫代磷酸酯连接的探针。

显然，在这些实验中连接没有进行至100％完成，但在采用T4 DNA连接酶的其它实验中观察到较高的完成程度(见下)。虽然的确希望连接进行至完成，但这不是必要条件。例如，在上述连接步骤后可通过5’-磷酸酶处理给未连接5’端有效“加帽”。然而，在这种情况下，由于可连接分子的消耗可能限制可进行的连续连接的数量。在给定连续连接的数目的情况下，阅读长度取决于各连接/切割循环后剩余的探针长度和测序反应数目，每个测序反应后接可对给定模板进行的引物去除和结合于引物结合位点不同部分的引物的杂交，也称为“重启动”数目。这支持使用具有接近探针5’端的可切割连接的更长的探针。在我们的实验中，六聚物探针比八聚物和更长探针产生的不可连接腺苷酸化产物更多。八聚物和更长的探针基本连接至完成(见下)。此外，将荧光部分加入六聚物探针的5’端似乎会降低连接效率，而将荧光部分加入八聚物探针的影响很小或无影响。由于这些原因，认为优选采用八聚物或更长探针。

其它实验(下述)已证明了含有硫代磷酸酯连接和简并性降低的核苷酸的探针的连接和切割；连接的延伸探针的3’端特异性和选择性；在凝胶中连接和切割；连续的引物杂交和去除循环，仅损失少量信号；T4或Taq连接酶进行3’→5’延伸的保真性为100％；和连接的延伸探针的4色光谱分辨能力。构建了进行该方法的自动化系统。

实施例2：含有简并性降低的核苷酸的硫代磷酸酯化寡核苷酸的有效切割和连接

然而，对探针长度的另一种考虑是延伸的寡核苷酸的保真性及其对后续连接效率的影响。已证明，T4 DNA连接酶在连接处后第5个碱基后的保真性快速降低(Luo等，Nucleic Acids Res.，24：3071-3078和3079-3085，1996)。如果在新连接的接合处的5’侧引入错配，可通过消耗降低连接效率，然而，不会产生背景信号的移相或增加(通过合成方法进行基于聚合酶的测序中碰到的主要障碍)。

优选地，探针组应能够杂交于任何DNA序列，以便重新测序未表征的DNA。然而，标记探针组的复杂性随4倍简并碱基的长度和数量呈指数性增加。此外，在维持对所有探针种类基本相同的代表性时，复杂探针组更难以合成，并且更难以纯化。也需要较高浓度的探针混合物来维持各种类的浓度恒定。解决这种复杂性的一种方式是在某些位置上采用掺入通用碱基如脱氧肌苷来代替4倍简并碱基的核苷酸。

在八聚物内各个位置上用4倍简并碱基(N；等摩尔量的A、C、G、T)和通用碱基肌苷(I)设计12种八核苷酸探针(在B-DNA中肌苷能够与四种典型碱基中任意一种形成双配位基氢键；肌苷碱基对的稳定性的顺序是I:C＞I:A＞I:T≈I:G)。评价这些探针设计的目的之一是确定在肌苷碱基存在条件下可以实现多低的八聚物复杂性而仍支持有效连接。

在初步研究中，用T4DNA连接酶将几种寡核苷酸探针连接于珠基模板(长-LST1)。连接后，荧光团-标记的引物(3’FAM引物)右移，移动量与连接的寡核苷酸探针量成正比。探针设计NI8-9显示了最高的完成水平，其中由于探针的有效连接，＞99％引物群体右移(见图9)。这些反应在25℃进行；当反应温度提高到37℃时，连接效率稍低，完成率更加易变。

进一步检查这些数据发现，连接处3’侧的前五个核苷酸(下划线)内肌苷碱基较少的探针显示出较高的连接效率。为了进一步研究和评价序列内容对连接效率的可能影响，在所有模板中筛选连接处3’侧的前五个碱基中只有一个肌苷残基的四种寡核苷酸探针设计。图10显示了使用T4DNA连接酶在多种模板上对所选探针组合物进行凝胶移位试验以评价连接完成度。这些初步实验的数据显示，连接效率以及完成率是可变的，并且在连接处的前五个3’位置(下划线)中出现肌苷残基时是序列依赖性的。然而，采用寡核苷酸探针设计NI8-9时一致地观察到八聚体的有效连接，这是通过在所有测试模板上完成率＞99％得到证明的。

虽然不希望受限于任何理论，但这些数据(包括腺苷酸化中间体的存在)支持了以下结论：T4DNA连接酶的核心DNA结合位点中存在不利的肌苷碱基对会使DNA蛋白质复合物不稳定，这足以降低酶结合和后续连接。然而，一个有趣的问题是这种破坏稳定的肌苷碱基对会不会影响连接的寡核苷酸探针的保真性。

实施例3：探针连接的保真性

已报道，细菌NAD依赖性连接酶如Taq DNA连接酶在连接处具有高序列保真性，其中3’侧的错配基本没有缺口-关闭活性，但5’侧的错配具有一定程度的耐受(Luo等，Nucleic Acids Res.，24：3071-3078和3079-3085，1996)。另一方面，据报道T4 DNA连接酶的严谨性稍低，允许在连接处的3’-和5’-侧发生错配。因此，感兴趣的是评价与Taq DNA连接酶相比，在我们的系统中用T4DNA连接酶进行探针连接的保真性。

用标准ABI测序技术，我们开发了两种方法以评价连接的寡核苷酸的序列保真性。第一种方法的设计是克隆和测序连接产物。在这种方法中，将连接延伸产物连接于衔接子序列、克隆并转化到细菌中。挑选单个集落并测序，以定量地评价连接处各位置上的错配频率。第二种方法的设计是直接测序连接产物。在这种方法中，由珠基模板变性成单链连接产物，用互补引物直接测序。在得到的序列迹线中低准确性的位置显示出多个重叠峰，定性地评价该位置上的序列保真性。

用第一种方法评价采用T4和Taq DNA连接酶连接探针的相对保真性。将单个珠基模板群体(LST1)杂交于用作起始寡核苷酸的通用测序引物。然后在简并寡核苷酸探针(N7A，3’ANNNNNNN5’，2000皮摩尔)的存在下用T4DNA连接酶(15U/1×10⁶个珠)或Taq DNA连接酶(60U/1×10⁶个珠)在37℃进行基于溶液的连接反应30分钟(图11，图A)。克隆并测序连接产物，以评价在其连接处(位置1-8)的3’侧上各DNA连接酶的位置保真性(图11，图B和C)。结果说明，在前5个位置上T4 DNA连接酶与Taq DNA连接酶的保真性水平基本相同，但在位置6-8上T4 DNA连接酶的保真性较低。随后的克隆实验进一步证明了这些结果，该实验评价了三种简并的含肌苷探针设计(3’-NNNNNIII-5’、3’-NNNNNINI-5’和3’-NNNINNNI-5’)与所有七种模板(LST1-7)连接处的DNA序列。该研究确认，T4 DNA连接酶在连接处位置6-8的序列保真性低，但在所有测试模板中前5个位置上具有高保真性(数据未显示)。

用直接测序方法评价T4 DNA连接酶对简并的含肌苷探针的保真性。在25℃和37℃的连接反应中评价寡核苷酸探针，该反应含有T4 DNA连接酶和珠基模板。用凝胶移位实验评价寡核苷酸探针连接效率(图12，图A)。用ABI3730xl DNA分析仪直接测序连接反应，以评价寡核苷酸探针连接中T4DNA连接酶的保真性(图12，图B)。精确匹配寡核苷酸探针和两种代表性简并的含肌苷寡核苷酸探针(NI8-9和NI8-11)的连接能达到＞99％完成，而且错配的频率非常低(测序迹线中没有多个峰)。数据表示，有效连接的探针也具有高序列保真性。

在其它实验中，单个珠基模板群体(LST1)杂交于用作起始寡核苷酸的含有5’磷酸的通用测序引物。在简并的含肌苷寡核苷酸探针(3’NNNNNiii5’、3’NNNNNiNi5’或3’NNNiNNNi5’，600皮摩尔)存在下，用T4DNA连接酶(1U/250,000珠)在37℃进行基于溶液的连接反应30分钟。克隆连接产物，挑选集落并测序。通过计算代表连接处各位置的克隆数量确定序列保真性。将结果制表，见图12C-F。这些研究证明，用T4 DNA连接酶以3’→5’连接简并的含肌苷探针在前1-5个位置上具有高水平保真性。

实施例4：在凝胶中连接和切割

如上所述，用溶液中的珠基模板进行探索、开发和优化寡核苷酸连接循环的方法的初步实验。在第二组实验中，对包埋在玻片上聚丙烯酰胺凝胶中的珠基模板进行连接和切割。

通过混合几百万个珠制备玻片，各珠连接有单链DNA模板的克隆群体，玻片上有5％聚丙烯酰胺并且在此处发生聚合。用

掩模围绕含珠的聚丙烯酰胺溶液。图14(上图)显示了某玻片部分的荧光图像，连接有Cy3-标记引物杂交的模板的珠固定在该玻片上聚丙烯酰胺凝胶中。(该玻片用于不同实验，代表了本文所用玻片。)图14(下图)显示了装有Teflon掩模以围绕住聚丙烯酰胺溶液的玻片的示意图。

向玻片手动滴加合适溶液或将玻片放入自动化层流室中，从而将反应物引入玻片。初步研究证明，事实上可对连接于珠的模板进行有效的凝胶中连接，所述珠固定在这种玻片的聚丙烯酰胺基质中。在图15所示实验中，将单链DNA模板珠固定在含有丙烯酰胺和DATD的玻片上。聚合后，将3’荧光团-标记的、5’磷酸化的通用引物(测序引物)扩散到该凝胶中，使其聚合(图A)。洗涤玻片以去除未结合的测序引物，与含有T4 DNA连接酶(10U)和寡核苷酸探针的连接混合物混合，37℃孵育30分钟。然后在含有高碘酸钠(0.1M)的缓冲液中孵育玻片，以消化丙烯酰胺聚合物并释放珠基模板群体。通过加热将模板链变性得到连接产物，收集并用上述凝胶移位实验分析。在没有T4 DNA连接酶时在凝胶中进行的连接反应显示出代表未连接测序引物的一个峰(图B)。在T4 DNA连接酶存在下用八聚体探针进行的连接反应显示出在凝胶中发生有效的寡核苷酸连接，其中＞99％珠基模板群体有效连接(图C)。

实施例5：四色检测

为了最大程度提高检测效率，需要采用含有对应于各种可能的碱基加成产物的区别标记的一组寡核苷酸探针。在装配合适的激发和发射滤光片的自动化测序设备中模拟此方法，如图15所示。设计三组八聚体探针，以解决探针特异性和选择性的问题。第一组包括四种八聚体，它们与四种独特的模板群体互补，含有不同的3’碱基和5’染料标记。第二组包括七种独特的八聚体，它们含有独特的3’碱基和5’染料。第三组对应于四种简并的含肌苷八聚体的探针设计，各自含有用不同5’染料标记鉴定的独特3’端碱基。

为了验证四色光谱种类，用探针组#1检测四种独特的模板群体(见图16)。制备含有连接于珠的四种独特单链模板群体的玻片，这些珠包埋在聚丙烯酰胺中(图A)。各珠连接有克隆的模板群体。含有5’磷酸的通用测序引物原位杂交，用含有四种独特荧光团探针(Cy5、CAL 610、CAL 560、FAM；各100皮摩尔)和T4 DNA连接酶(10U/玻片)的寡核苷酸探针混合物进行连接反应。37℃孵育玻片30分钟，洗涤去除未结合的探针。在亮光下对玻片成像，产生白光基础图像(图B)，用四种带通滤光片(FITC、Cy3、德克萨斯红和Cy5)进行荧光激发。在连接前和连接后捕获荧光图像。单个群体产生假色(图C)，对不同光谱种类的图像值作图，并验证最小信号重叠(图D)。

实施例6：证明凝胶中的连接特异性和选择性

为了验证3’端特异性，用探针组#2检测一个模板群体(见图17)。用包埋在聚丙烯酰胺凝胶中连接有一个模板群体(LST1.T)的珠制备玻片，用通用测序引物原位杂交(图A)。用T4 DNA连接酶(10U/玻片)和由四种5’端-标记探针组成的寡核苷酸探针混合物在凝胶中进行连接反应，这四种探针的区别仅在于一个3’碱基。37℃孵育玻片30分钟，洗涤去除未结合的探针群体。在白光下对玻片成像，产生基本图像(图B)，用四种带通滤光片(FITC、Cy3、德克萨斯红和Cy5)进行荧光激发。在连接前和连接后捕获的荧光图像证实，用T4 DNA连接酶在凝胶中连接后存在单个基于FAM的探针群体(蓝点)，没有光谱重叠(图C、D)。这些数据显示，T4 DNA连接酶的探针特异性是严谨的，并且取决于连接处的第一个3’端碱基。

为了进一步证实3’端特异性和选择性，用探针组#2鉴定含有一种碱基差异并且存在量不同的珠基模板群体混合物。用各自连接有四种模板群体之一的珠的混合物制备玻片，四种模板群体各自具有不同的单核苷酸多态性(LST1；A、G、C或T)，如图18A所示。这些珠包埋在玻片上聚丙烯酰胺凝胶中。以各种不同频率使用珠基模板群体，如D栏所示。用通用测序引物原位杂交玻片。用T4 DNA连接酶(10U/玻片)和含有等摩尔量(各100皮摩尔)的四种5’端-标记探针的寡核苷酸探针混合物在凝胶中进行连接反应，这四种探针的差别仅在于一个3’碱基。37℃孵育玻片30分钟，洗涤去除未结合的探针群体。在白光下对玻片成像，产生基本图像(B栏)，用四种带通滤光片(FITC、Cy3、德克萨斯红和Cy5)进行荧光激发。重叠单个探针图像并产生假色(C栏)。用珠-调用软件对荧光图像计数。结果见D栏，此结果证明观察到的连接频率(Obs)与预计频率(Exp)相关。数据显示，在多种模板存在下连接后探针特异性和探针选择性高，并证实了通过连接检测单核苷酸多态性(SNP)，即群体中不同个体的基因组DNA段中一个核苷酸碱基发生的改变的能力。

实施例7：采用四色简并的含肌苷延伸探针证实凝胶中的连接特异性和选择性

用探针组#3进行另一组实验，以评价采用四色简并的含肌苷寡核苷酸探针池时探针连接的特异性和选择性。结果见图19。如上所述制备珠基玻片，但采用了以不同数量存在于珠上的四种独特单链模板群体，然后用通用测序引物原位杂交(图A)。在T4 DNA连接酶(10U/玻片)的存在下用探针池在凝胶中进行连接反应，所述探针池的3’端由用五个简并碱基(N；复杂性4⁵＝1024)、两个通用碱基(I、肌苷)和一个已知核苷酸设计的八聚体组成，它们对应于特定5’荧光团(G-Cy5、A-CAL 610、T-CAL560、A-FAM；各600皮摩尔)。37℃孵育玻片30分钟，洗涤去除未结合的探针群体。在白光下对玻片成像，产生基本图像(B栏)，用四种带通滤光片(FITC、Cy3、德克萨斯红和Cy5)进行荧光激发。重叠单个探针图像并产生假色(C栏)。用珠-调用软件对荧光图像计数并将各连接产物的频率制表(D栏)；未加工原始数据和代表前90％珠信号值的过滤数据的光谱散点图见E栏。数据证明，观察到的连接频率(Obs)与基于各模板已知浓度的预计频率(Exp)相关。这验证了简并和含通用碱基的探针池可与T4DNA连接酶一起使用，以提供凝胶中特异性和选择性连接。

实施例8：证实凝胶中杂交和去除起始寡核苷酸的重复循环

对安装在自动流动室中的显微镜玻片上的凝胶中固定的模板进行的实验(见下)证实，多个退火和剥离起始寡核苷酸的循环可以最小的信号损失应用于连接于包埋在玻片上凝胶中的珠的模板。采用44个碱基荧光标记的起始寡核苷酸。如图20所示，在10个循环上发生最小信号损失。图20中起始寡核苷酸称为引物。如上所述，基于聚合酶的合成测序法的一个主要缺点是在单个模板链上发生正移相和负移相的倾向。核苷酸错误掺入生长链时发生正移相，由此引起该具体链的基础序列运行在从剩余模板获得的序列前面，并且相位差为n+1个碱基调用。链没有完全延伸时发生更常见的负移相，导致背景碱基调用运行在生长链之后(n-1)。有效剥离延伸产物和通过杂交定位不同的起始寡核苷酸“重启动”模板的能力能够以很少信号损耗甚至无信号损耗实现非常长的阅读长度。

实施例9：自动化测序系统

本实施例描述了可用于收集一个或多个模板的序列信息的代表性的本发明自动化测序系统。优选地，模板位于基本平坦的基材如显微镜载玻片上。例如，模板可连接于排列在基材上的珠。该系统的照片见图21。该系统基于装有自动化、自动聚焦平台和CCD相机的奥林巴斯落射荧光显微镜镜体(侧面安装)。旋转支架中的四种滤光片盒允许以不同的激发和发射波长进行四色检测。平台上安装了装有peltier温度控制器的流动室，该流动室可开启或关闭，以接受基材如玻片(具有垫圈以密封含有半固体支持物如凝胶的区域边缘)。流动室的垂直取向是本发明系统的一个重要方面，它允许气泡从流动室顶端逃逸。流动室可以完全充满空气，以在各洗涤步骤之前逐出所有试剂。流动室连接于装有两个9-端口Cavro注射器泵的流体处理器，这些注射器泵能将4种区别标记的探针混合物、切割试剂、任何其它所需试剂、酶平衡缓冲液、洗涤缓冲液和空气通过一个端口输送至流动室。通过控制软件用具有多个I/O端口的专用计算机使该系统的操作完全自动化和可编程。Cooke Sensicam相机装有1.3兆像素的冷却CCD，但也可采用灵敏度更低或更高的相机(如可采用4兆像素、8兆像素等)。流动室利用0.25微米平台，外形尺寸1微米。

实施例10：图像获取和处理方法

本实施例描述了获取和加工连接有标记核酸的珠阵列的图像的代表性方法。准确的特征鉴定和比对对于可靠地分析各获取图像而言很重要。首先丢弃除各珠的强度最高像素以外的所有像素以鉴定特征。将给定图像的像素值作成直方图；丢弃对应于背景的像素，分选其余像素值。在其中所有珠的强度基本相同的一致图像中，所采用算法去除了底部80-90％像素值。然后扫描像素值为前10-20％的像素，以鉴定在4个像素半径中为局部最大值的像素。然后记录该区域的平均强度以及周界的平均强度。这些值形成正态分布，然后去除其值落到该分布以外的像素。最初忽略的像素百分数、圆形区域大小和消除正态分布中可能的珠的截止值都是参数化的，如果需要可以改变。通过在比对组中建立各图像的特征矩阵完成比对。然后，搜索得到的矩阵中最频繁的x，y坐标偏移，以鉴定最优比对。

在加入延伸探针之前在Cy5通道(对应于测序引物)中收集珠图像。用这些图像为每个珠建立标记定位坐标以及用荧光单位(RFU)表示的原始信号强度的特征图。就各后续双链体延伸而言，在加入Cy3-标记核苷酸之前和之后获取图像组。将这些图像与原始Cy5图像比对，然后将RFU值分配给各珠并记录。通过减去每个碱基加入引起的未标记图像(延伸前)和标记图像(加入荧光)之间的强度差进行基线校正。然后，用对于各特征在Cy5图像中发现的强度对这些减去基线的值进行标准化，以形成认定珠延伸与否的基础(即如果连接于珠的双链体延伸，则认为珠延伸)。采用这些方法，可以分析每个玻片约1,300幅图像中每幅图像上成千上万个特征，以便在每个实验轮次中分析五百万-一亿个模板物质。算法设计使得随后不难从MATLAB导入C+，以进一步提高效率。

实施例11：珠比对和跟踪以及序列解码

本实施例描述了处理连接有标记核酸的珠阵列的图像以及由所获数据进行序列测定的代表性方法。

用直径匹配珠尺寸的零-积分圆形顶环中心(zero-integral circulartop-hat kernel)卷曲该图像开始图像分析。这能将背景自动标准化至零，同时通过局部最大值鉴定单个珠的中心。确定最大值，并将与其它局部最大值隔离的那些最大值用作比对点。依时间序列计算各图像的比对点。就各对图像而言，比较比对点，根据所有通用比对点的平均位移计算位移矢量。这提供了以亚像素分辨率进行成对图像位移。

对于N幅图像，有N^*(N-1)/2对位移，但仅N-1对位移是独立的，因为其余的可由独立组计算。例如，测定图像1与2之间和图像1与3之间的位移就提示了图像2与3之间的位移。如果测定的图像2与3之间的位移与提示的位移不同，那么测量不一致。这种不一致的量级可用作测量比对算法运行得如何的量度。我们的初步测试显示，各方向上不一致通常小于0.1像素(见图23)。

一旦比对了图像时间序列后，有两种方式跟踪单个珠。如果珠密度低，且大多数珠不接触其它珠，那么可鉴定各珠的光学质心，并对珠周围区域积分来计算珠强度。如果珠密度很高，以致于大多数珠相互接触，则不可能通过围绕它们的暗背景带鉴定单个珠。然而，将所有图像调校至亚像素分辨率后，则可能通过及时计算相邻像素的相关性鉴定属于同一珠的像素。可以将高度相关的像素对可靠地分配给同一珠。将相似技术应用于DNA测序凝胶中的泳道跟踪，获得了良好结果(Blanchard，A.P.，修饰的T7聚合酶对二脱氧核苷酸掺入的序列特异性影响(Sequence-specific effects on theincorporation of dideoxynucleotides by a modified T7 polymerase)，CaliforniaInstitute of Technology，1993)。一旦通过整个4色时间序列跟踪珠后，通过了解哪种颜色对应于探针寡核苷酸的哪种3’-端碱基，即可解码该序列。

实施例11：通量计算

通常，测序系统的通量主要取决于该机器每天可产生的图像数量和每幅图像的序列数据中的核苷酸(碱基)数量。由于优选将该机器设计为保持相机一直忙碌，所以计算基于100％相机利用度。在各珠以4色成像以确定一个碱基的种类的实施方式中，可采用一台相机拍摄的4幅图像、两台相机拍摄的2幅图像或4台相机拍摄的一幅图像。与其它选择相比，四台相机成像能显著提高通量，优选系统利用该方法。

我们的初步测试显示，每珠50像素的像素密度(代表5.4平方微米)能提供用于标准图像分析的合适密度。通过使用4兆像素CCD相机(现在很常见)，一帧CCD图像可拍摄～80,000个珠(根据我们的现有图像数据)。用不同相机捕获四幅图像并移动到流动室上的下一个视野的耗时不超过1.5秒。如果75％的珠产生有用信息，我们将能够收集约80,000个珠^*0.75/1.5＝40,000个碱基/秒原始序列数据。

维持100％相机利用度的一个重要问题是将进行一个连接/切割化学循环消耗的时间与整个流动室成像所需的时间相匹配。对延伸、切割和连接循环耗时的合理估计是11/2小时(5,400秒)。这5,400秒将容纳1,800个图像视野或约15mm×45mm的区域，这是流动室的合适大小。保守估计利用四台相机、流动室为15mm×45mm的系统的通量是每秒40,000个碱基。根据我们用ABI3730xl测序仪实现的具有约650个碱基的阅读长度(20个碱基/秒)的每天28轮的通量，这等于约2,000台ABI3730xl测序仪。珠密度增加2.5倍至每幅图像200,000个珠使通量整体增加到100,000个碱基/秒，约等于5,000台ABI3730xl机器。以这种通量水平，每天的总输出量约为8.6Gb，因此完成12X人类基因组序列所需的时间为～4.2天。

应注意，可用各种不同的测序系统、图像捕获和处理方法等实施本文所述的本发明测序方法。详情参见例如，美国专利6,406,848和6,654,505以及PCT公开号WO98053300。

实施例12：用于在其上合成模板的微粒的制备方法

本实施例描述了连接有扩增引物的微粒(在本实施例中是磁珠)的制备方法，以扩增(如通过PCR)模板，产生连接于各微粒的模板分子的克隆群体。通常，扩增珠连接有克隆PCR反应所需的一种引物。此引物可共价偶联于珠表面或(例如)经生物素标记结合于珠表面上的链霉亲和素。珠可用于标准PCR反应(如在微量滴定板孔、试管中等)、实施例13所述的乳液PCR反应等，以获得连接有模板分子克隆群体的珠。

材料

1xTE：10mM Tris(pH 8)1mM EDTA

1xPCR缓冲液：(ThermoPol缓冲液，NEB)

20mM Tris-HCl(pH 8.8)

10mM KCl

10mM(NH₄)₂SO₄

2mM MgSO₄

0.1％Triton X-100

1M甜菜碱(仅加入1xPCR-B缓冲液)

1x结合和洗涤缓冲液

5mM Tris HCl(pH 7.5)

0.5mM EDTA

1M NaCl

DNA捕获引物(20-mer，500μM母液)

双生物素-(HEG)5-P1：5’-双生物素-(HEG)5-CTA AGG TAG CGA CTGTCC TA-3’

(HEG)5＝六乙二醇接头，含有18碳的间隔物，可采用的许多不同间隔物部分之一。包括可用于(例如)抬升离开珠表面的寡核苷酸的P1引物部分的间隔物。可将本文所述任何引物掺入这种间隔物部分中。

Dynal储存磁珠(1μm直径)＝10mg/ml(7-12×10⁶珠/μl)。

方法

1.取出50μl珠(～450×10⁶珠)。

2.加入200μl 1x TE缓冲液，充分混合。用磁体分离。

3.用200μl 1x TE缓冲液洗涤1次。用磁体分离。

4.重悬于100μl B/W缓冲液。

5.加入3μl P1寡核苷酸(500μM母液＝1500pmol)。

6.室温下旋转＞30分钟。

7.用200μl 1x TE缓冲液洗涤3次。

8.重悬于50μl(起始体积)1x TE缓冲液。

9.将DNA捕获珠储存于4℃或放在冰上待用。应在1周内使用珠(储存时间＞1周珠会趋向于凝聚成块)。

实施例13：在乳剂中的微粒上进行PCR的方法

本实施例描述了可用于在乳剂中的微粒上进行PCR，产生连接有克隆模板的微粒的方法。首先用第一引物(P1)使微粒(在下面所用的命名中称为DNA珠)功能化。第二引物(P2)存在于发生PCR反应的水相中。如果需要，水相中也可含有低浓度的P1，例如少20倍。这样做能够在水相中快速建立模板，该模板是继续扩增的底物。随着溶液中P1的耗尽，迫使该反应利用连接于微粒的P1。P1_P2 degen10是具有与P1和P2杂交以通过PCR进行扩增的序列的寡核苷酸模板(100bp)以及赋予该寡核苷酸群体4¹⁰复杂性的约10个简并碱基(在寡核苷酸合成期间掺入)的片段。

I.乳液方案(1μm珠)

1.制备油相：

Span 80(7％)

吐温80(0.4％)

在轻质矿物油中制备

仅使用新鲜制备的油相

总油相＝450μl

2.制备水相：(估计产生2×10⁹滴，每滴115fL)

试剂(母液) (μl)/反应最终

dH₂O 156.0 -

MgCl₂缓冲液(10X) 32.0 1X

dNTP(100mM ea) 11.3 各3.5mM

MgCl₂(1M) 7.3 23mM

甜菜碱(5M) 32.0 0.5M

P1(引物1)(10μM) 1.6 11.25皮摩尔

P2(引物2)(200μM) 40.0 5625皮摩尔

P1_P2 degen10(100pM) 6.6 5.9×107/μl

DNA珠(8M/μl) 25.0 150M/乳液

Platinum Taq(5U/μl) 9.0 0.28U/μl

总水相体积＝320μl

终反应＝255μl水相：450μl油相

3.将水相试管转移到冰上，直到加入乳液。

4.将450μl油相加入2ml冷冻管中。

5.将冷冻管直立着放入依附于IKA涡旋器的泡沫插槽。将涡旋器设定为2500rpm。

6.试样量水相(3份试样量，各85μl＝255μl)加到振荡的油相中。通过将移液器尖头插入试管，将水相从尖头中缓慢地加入振荡的油相中，从而将单分散水相加入搅拌的2ml冷冻管中。用其余水相重复添加2次。

7.继续在2500rpm振荡乳液24分钟，

8.将～100μl试样量乳液转移到96孔板中(总共＝4孔)。同时，将试样量的剩余水相(65μl)加入到单独的一个孔中，进行基于溶液的PCR对照反应。密封平板，如下一章节所述进行循环。

II.乳液扩增(1μm珠)

1.1μm珠乳液的PCR循环参数(引物Tm＝62℃)：

程序：DTB-PCR

94℃，2分钟 n＝1

94℃，15秒

57℃，30秒 n＝100

70℃，60秒

55℃，5分钟 n＝1

10℃，任意时间

2.循环时间约为6小时。

3.在循环后观察乳液。成功的乳液会显示出均一的琥珀色，观察不到单独的水相。“破损”(析出溶液)的乳液在管底产生明显的水相。避免收集此相，因为这里的珠群体不是克隆性的。

4.用亮视野显微术评价循环后乳液。取出2μl试样量的循环乳液并滴在玻片上。用22×60mm盖玻片盖上乳液样品。

5.用20X物镜观察乳液。优选地，珠应为单分散的，大多数液滴含有单一的珠。

注：如果乳液样品含有大量多珠液滴，则将乳液反应倾入一个1.5mleppendorf管中，6000rpm离心15秒。取出聚集在管底的珠悬液。此群体由游离珠和比单珠液体重的多珠液滴组成，因此在短暂离心后沉降到管底。此珠群体不是克隆的，因此在后续处理前应予以避免。重复步骤4和5再评价乳液，以确认乳液样品中含有单珠的液体的完整性。

6.用下一章节所述的方法破坏(破损)乳液。

III.乳液破坏和解链(1μm珠)

珠破坏洗涤(BBW)缓冲液

2％Triton X-1002％吐温20；10mM EDTA

解链溶液100mM NaOH

1x TE：10mM Tris(pH 8)1mM EDTA

1x结合和洗涤(B/W)缓冲液

5mM Tris-HCl(pH 7.5)

0.5mM EDTA

1M NaCl

1.将各乳液组(4份试样量)倾入一个1.5ml eppendorf管中。

2.加入800μl BBW缓冲液。通过涡旋反应试管10秒破坏乳液。

3.8000rpm离心2分钟。

4.去除上面的800μl(主要是油相)。DNA珠会沉在管底。

5.加入800μl BBW，涡旋，8000rpm离心2分钟。去除上面的600μl。

6.再用600μl 1x TE洗涤2次，用磁体交换各洗涤液。

8.将50μl解链溶液加入珠沉淀中，通过剧烈吹打重悬样品。用解链溶液在室温下孵育珠5分钟，间歇地轻弹试管。

9.将试管放入磁体中，以去除解链溶液。用100μl解链溶液洗涤1次，以保证完全去除第二条链。

10.用1x TE将珠沉淀洗涤2次，重悬于20μl TE缓冲液并储存于4℃，或者如果下一个步骤是富集的话重悬于20μl 1x B/W缓冲液。如果珠出现聚集，换到1x PCR-B缓冲液中。

11.继续富集方法(任选)。

实施例14：富集连接有克隆模板群体的微粒的方法

本实施例描述了富集(例如)在PCR乳液中成功进行了模板扩增的微粒的方法。此方法利用连接有捕获寡核苷酸的较大微粒。所述捕获寡核苷酸包含与模板中存在的核苷酸区互补的核苷酸区。

I.乳液富集(1μm)

A.制备富集珠(捕获实体)

富集珠：

Spherotech链霉亲和素包被的聚苯乙烯珠(～6.5μm)

珠储存液(0.5％w/v)：33,125个珠/μl

每个方案：(33,125个珠/μl)(800μl)＝26.5×10⁶个珠

应用：

每份乳液1.19亿珠-乳液克隆性估计值(2％)：每份乳液～3M模板阳性珠。每个预计的模板阳性乳液珠加入2-3个富集珠＝每个乳液反应加入1千万个富集珠。

富集寡核苷酸(捕获剂)：

P2-富集(35-mer，Tm＝73℃)

5’-双生物素-18碳间隔物-ttaggaccgttatagttaggtgatgcattaccctg 3’

(或)

P2-富集(如至多35-mer，Tm＝52℃)

5’-双生物素-18碳间隔物-ggtgatgcattaccctg 3’

甘油溶液-60％(v/v)

6ml甘油

4ml无核酸酶的H₂O

1.取出800μl珠，13,000rpm离心1分钟交换到B/W缓冲液中。用500μl B/W缓冲液洗涤1次，重悬于100μl B/W缓冲液。

2.加入20μl富集寡核苷酸(500μM母液＝10,000皮摩尔/rxn)。

3.室温旋转珠反应1小时。

4.用500μl 1x TE缓冲液洗涤珠3次。各次洗涤之间通过13,000rpm离心1分钟使珠沉淀。

5.将珠重悬于25μl B/W缓冲液。浓度＝1M富集珠/μl。

注：将四种富集的乳液群体倾入20-30μl 1x B/W缓冲液产生～40M模板阳性珠。然后，可运行多块玻片。

B.富集步骤

1.将20μl富集珠加入含有乳液衍生珠(20μl)的试管。通过温和吹打重悬珠混合物(或采用每个预计的模板阳性乳液珠加入2-3个富集珠的比例)。

2.如果采用生物素化P2-富集引物包被的富集珠，在65℃孵育珠混合物2分钟。将试管移到冰上10分钟。

注：初步实验提示，采用含有用于100个循环PCR(如P2PCR)的引物序列的富集珠的富集效率可能较低，因为它能够富集含有引物二聚体的珠，所述引物二聚体被驱赶到无模板液滴中的珠上。如果采用载有上述P2-富集引物的富集珠，由于此较短引物的Tm降低，则在50℃孵育珠混合物2分钟。

3.将珠混合物加入含有300μl 60％甘油溶液的1.5ml eppendorf管中。

4.13,000rpm离心1分钟。

5.离心后，阴性珠沉到管底。连接有模板珠的富集珠将浮在甘油相上方。收集上层相珠群体，将其转移到洁净的1.5ml eppendorf管中。

注：可用磁体洗涤和分析沉到管底的珠(无模板的珠)，然后用与模板阳性珠所述洗涤方案相同的方案洗涤。

6.将1ml无核酸酶的H₂O加入由上层相收集的珠中，以稀释甘油浓度。用温和吹打重悬珠混合物。13,000rpm离心1分钟。

7.离心后，去除上清液，用100μl TE洗涤2次。

8.将100μl解链溶液加入洗涤的珠沉淀中。室温旋转试管5分钟。

9.再加入100μl解链溶液并用磁体分离模板珠。

10.用100μl TE洗涤两次以去除无磁性富集珠，用磁体将DNA珠与富集珠分离。

11.将模板珠重悬于10-20μl 1x TE中。如果珠出现聚集，则稀释到1x PCR-B缓冲液中。

12.可将含模板的珠与其它富集群体混合，并加到玻片上，如下一实施例所述。

实施例15：固定于半固体支持物中或之上的微粒阵列的制备方法

本实施例描述了玻片的制备，其中位于所述玻片上的半固体支持物中固定(如包埋)了连接有模板的微粒。这种玻片可称为polony玻片。用于本实施例的半固体支持物是聚丙烯酰胺。一种方案采用将聚合酶分子限制在模板附近以增强扩增的方法。

玻片制备

A.载玻片：粘合-硅烷处理

粘合-硅烷有利于使聚丙烯酰胺凝胶粘附于盖玻片表面。应该在临用前用粘合-硅烷预处理玻片。

注：

^**在化学通风橱中储存粘合-硅烷溶液。

^**粘合-硅烷有刺激性。制备溶液时在化学实验室中工作。

^**保证粘合-硅烷母液未过期。

^**从支架上转移时不要接触玻片表面。

制备粘合-硅烷溶液：

1.在1-L塑料容器中加入：

1L dH₂O，1个搅拌子

加入220μl浓乙酸(使pH为3.5)。加入4ml粘合-硅烷试剂，用搅拌平板混合溶液＞15分钟。

处理玻片：

2.将玻片加载到(面向相同方向)颠倒的塑料384孔板上。

3.用dH₂O洗涤玻片，倒干dH₂O。

4.用100％乙醇洗涤，倒干乙醇。

5.用dH₂O再次洗涤，倒干dH₂O，将其放入有运行的通风孔和UV灯的组织培养箱中。使洗涤的玻片干燥(～30分钟)。

6.将平板放入塑料容器中，用粘合-硅烷溶液覆盖玻片。

7.使溶液和玻片反应1小时。间歇地振荡容器以保证粘合-硅烷均匀地包被到玻璃上。

8.孵育后，用dH₂O洗涤玻片3次。

9.用100％乙醇洗涤一次，倒干乙醇。

10.临用前使玻片彻底干燥。

11.在干燥器中储存粘合-硅烷处理的玻片。

B.丙烯酰胺基玻片(小掩模)

·非俘获方案

将所有试剂放在冰上。将以下预冷试剂加入1.5ml eppendorf管中：

剧烈吹打混合物以使珠散开。

在盖玻片下每玻片加17μl。

室温下上下翻转聚合60分钟。

用干净的刀片揭掉盖玻片。

在15分钟内用1E缓冲液浸泡和洗涤玻片2次(以去除未结合的珠)。

包埋了珠的玻片可储存于4℃的洗涤IE中。

2.使荧光团-标记的测序引物杂交于包埋的珠群体。通过快速滴入含有1xPCR-B缓冲液的科普林缸(Coplin jar)使玻片从洗涤IE平衡到1x PCR-B缓冲液。

3.在1.5ml eppendort管中，将1-6μl(100μM母液)引物加入99μl1xPCR缓冲液。在丙烯酰胺基质上，滴加100μl引物溶液，并盖上盖玻片或密封垫圈，

4.用<DEVIN>程序(65℃ 2分钟，缓慢退火至30℃)加热玻片，使引物杂交于包埋的珠。用洗涤IE洗涤玻片2次，2分钟。玻片准备用于进行基于连接的测序。

·俘获方案

1.以1M/μl制备ssDNA模板珠。[每块玻片用4-5M珠制备polony玻片]。

2.将珠混合物重悬于30μl 1xPCR缓冲液。

3.加入1μl测序引物(100μM母液)；充分混合。

4.加热到65℃ 2分钟。

5.移到冰上5分钟。

6.用80μl 1x TE洗涤3次。

7.用磁体去除所有溶液。

8.加入下述试剂：

试剂	amt(μl)
试剂	amt(μl)		2块玻片
1x缓冲液	1.5		2块玻片
1x缓冲液	1.5	10x缓冲液	2.0
高浓度(HC)酶	16.0	10x缓冲液	2.0
高浓度(HC)酶	16.0	40％丙烯酰胺∶双丙烯酰胺(19∶1，F/S)	14.4
Rhinohide	2.0	40％丙烯酰胺∶双丙烯酰胺(19∶1，F/S)	14.4
Rhinohide	2.0	TEMED(5％，用1xTE配制)	2.0
APS(0.5％，新鲜制备)	1.5	TEMED(5％，用1xTE配制)	2.0
APS(0.5％，新鲜制备)	1.5	总计	39.4μl

吹打混合物以使珠散开。

在盖玻片下每玻片加17μl。

9.优选上下翻转聚合，例如，在MJ Research Tetrad PCR仪上采用<Pol-1>循环程序。

10.用干净刀片揭掉盖玻片。用1E缓冲液浸泡和洗涤玻片2次10分钟。(以去除未结合的珠)。

11.Polony玻片准备用于进行基于连接的测序。

12.包埋有珠的Polony玻片可于4℃储存于位于洗涤IE中的垫圈中。

实施例16：制备连接于固体支持物的微粒阵列的方法

本实施例描述了玻片的制备，其中所述玻片上的连接有模板的微粒与固体支持物连接。

1.用具有活性NHS的聚合物系链制备的载玻片储存于-20℃。

(玻片H，产品编号1070936；Schott Nexterion；Schott North America，Inc.，Elmsford，NY)

2.在干燥剂存在下，在临用前将玻片平衡至室温。

3.用50ml 1xPBS(300mM磷酸钠，pH 8.7)洗涤玻片5分钟。重复洗涤2次。

4.从溶液中取出玻片，用粘性垫圈覆盖(以进行加样)。

5.在单独试管中，将1-4亿蛋白质-包被的或DNA-包被的试样量珠加入1xPBS，pH 8.7中。DNA可以是(如)用于测序的DNA模板。DNA可包括例如与NHS反应的胺接头。

6.通过缓冲液交换用1xPBS，pH 8.7洗涤珠样品3次。

7.将珠重悬于125ml 1xPBS，pH 8.7。

8.将珠溶液加入玻片垫圈中，以均匀地包被玻片表面。

9.在暗室中封装玻片，室温下孵育该反应1-2小时。

10.孵育后，去除未结合的珠溶液并将玻片转移到50mL 1x TE(10mMTris，1mM EDTA，pH 8)中。

11.用50ml 1x TE洗涤玻片5次，每次洗涤恒速搅拌15分钟。

12.玻片可于4℃、1xTE中储存数周。

13.如果需要，可通过白光(WL)亮视野图像分析或采用连接于荧光团基染料的互补DNA寡核苷酸的荧光评价珠群体。可用(如)基于连接的测序法测序DNA模板。

图33A显示了连接有珠的玻片的示意图。

应注意，只有一小部分DNA模板分子连接于玻片。采用一微米珠(Dynabeads MyOne链霉亲和素珠；Dynal Biotech，Inc.，产品编号650.01)。然而，也可采用各种珠。

图33B显示了连接于玻片的珠群体。下栏显示了白光下(左)和荧光显微镜下玻片的同一区域。上栏显示了珠密度范围。

实施例16：用无凝胶珠基阵列通过寡核苷酸延伸和连接进行测序

本实施例描述通过生物素-链霉抗生物素蛋白相互作用连接于基材(载玻片)的微粒阵列的制备，证明通过连接、切割和检测循环能进行成功测序。用乳液PCR制备连接有生物素化模板的微粒，在不存在半固体介质时通过含PEG连接连接于用链霉抗生物素蛋白功能化的基材，如下所述。该方法使用连接有生物素化引物的链霉抗生物素蛋白包被珠，然后扩增。扩增和富集发生生产性模板扩增的颗粒后，使模板生物素化。然后将连接有生物素化模板的微粒与链霉抗生物素蛋白包被的玻片一起培育。因此，在本发明中使用了两次生物素-链霉抗生物素蛋白连接。其它方法使用其它方式将引物连接于微粒或将扩增模板连接于基材。

材料和方法：

BAC Eco v2.1珠的制备

用生物素化P1引物包被MyOne链霉抗生物素蛋白珠(1-微米)(见图)，用于乳液PCR以产生连接有我们的BAC-Eco(v 2.1)文库中的模板的珠群体。破坏该乳液，纯化珠，以标准方式使用外切核酸酶处理。通过与P2富集寡核苷酸覆盖的富集珠结合，富集带有完全延伸的PCR产物的珠(见图)。为了改进富集珠在溶液中的行为，用生物素化P1寡核苷酸培育它们，以覆盖暴露有链霉抗生物素蛋白被覆层的任何珠面积。

BAC Eco v2.1珠在玻片上沉积。

将含有ssDNA的富集的BAC-Eco v2.1珠沉积在链霉抗生物素蛋白包被的Opti-Chem玻片(Accel8技术公司(Accel8 Technology Corporation))上。为了根据此方法进行制备，将它们与末端转移酶(新英格兰生物实验室公司(New EnglandBiolabs))和生物素-11-ddATP(帕金埃尔玛公司(Perkin Elmer))一起培育，以便将生物素部分共价连接到DNA模板分子的3’末端上。将该珠与等量MyOne羧酸珠(Dynal)混合，并置入含有5mM Tris HCl pH 8.0、5mM EDTA、0.0005％Triton X-100和10％PEG 8000(美国生物分析公司(American Bioanalytical))的沉积缓冲液中。用Covaris S2超声器短暂超声处理该悬液，并沉积到链霉抗生物素蛋白包被的Opti-Chem玻片(Accel8技术公司)上。用TE缓冲液洗涤玻片三次，临用前用压缩空气干燥。用LifterSlip(埃利科学公司(Erie ScientificCompany))覆盖该悬液，在玻片上产生均匀的水层并减少蒸发。在高湿度室内、室温下培育该玻片45分钟，以使珠沉降并结合于表面，同时减少边缘的蒸发。将玻片倒置浸入充满TE缓冲液的槽内，从而去掉盖玻片。温和搅拌约1分钟，以去除大部分羧酸珠(如单独实验中所显示的那样)。立即将该玻片浸入丙酮中，用压缩空气干燥。

用于在少凝胶玻片上循环连接测序的试剂与基于丙烯酰胺的凝胶所用的试剂相同，除了复原缓冲液(Reset buffer)。在无凝胶阵列中，使用碱基复原缓冲液，其含有10mM NaOH和0.1％十二烷基磺酸钠(福禄卡公司(Fluka))。如图38和39所示，用富集的BAC-Eco文库珠接种300块(panel)少凝胶阵列(约18×18mm)，并置入自动化小流动池设备，进行50轮碱复原，以验证少凝胶环境下的珠稳定性。经过50个循环的流动方案后，少凝胶阵列含有超过26,000珠/块(4M像素照相机)。然后用连接和切割循环测序少凝胶阵列。对循环1数据的评价支持以下结论：我们的2-碱基、4-色探针组能有效连接，正如各荧光通道的高RFU值(图39)所证实的那样。随后，对珠群体进行碱基调用(basecall)，并在光谱纯度图上绘制曲线，通过Satay分析和密度图评价证明优良的测序性能。

等价形式和范围

精通本领域的技术人员将认识到或能够确定，采用常规实验，即可获得本文所述的本发明具体实施方式的许多等价形式。本发明范围不限于上述说明书，还包括所附权利要求书所列范围。在所附权利要求书中，冠词如“一个”、“一种”和“这种”可以指一种或一种以上，除非另有说明或者文中显然并非如此。如果一个、一个以上或所有组成员存在于、用于给定产物或方法或者与其相关，则应使用组中一个或多个成员间用“或”连接的权利要求书或说明书，除非另有说明或者文中显然并非如此。在权利要求中使用“任选”表明本发明包括存在该任选特征的实施方式和不存在该任选特征的实施方式。

而且应理解，本发明包括将来自一项或多项所列权利要求的一种或多种限制、元件、条款、描述性术语等引入另一权利要求的所有改变、组合和取代。具体说，可以改造任何依赖于另一权利要求的权利要求，以包括存在于依赖于相同的基本权利要求的任何其它权利要求中的一种或多种限制。

此外应理解，任何一个或多个实施方式可明确排除在权利要求之外，即使本文中没有明确列出特定排除。也应理解，当说明书和/或权利要求书公开了用于测序的试剂(如模板、微球、探针、探针家族等)时，这种公开也包括按照本文所述特定方法或本领域已知的其它方法用该试剂测序的方法，除非本领域普通技术人员能作出不同理解，或者在说明书中有不同描述。此外，当说明书和/或权利要求书公开了测序方法时，本文所述的任何一种或多种试剂均可用于该方法，除非本领域普通技术人员能作出不同理解，或者在说明书中明确排除了将该试剂用于这种方法。还应理解，当说明书或权利要求书中公开了用于测序的特定组分时，本发明也包括制备这种试剂的方法。术语“组分”广泛用于指用于测序的任何项目，包括模板、连接有模板的微粒、文库等。而且，附图是说明书的组成部分，本发明包括附图中所示的结构如连接有模板的微粒和附图中所述的方法。

本文中给定范围时，包括端点。而且应理解，除非另有说明或者上下文中和本领域普通技术人员的理解显然不同，在本发明不同实施方式中表示为范围的值可推定所述范围内任何特定值或子范围，至该范围下限的单位的十分之一，除非文中明确说明并非如此。

Claims

1.一种鉴定模板多核苷酸内核苷酸序列的方法，所述方法包括以下步骤：

(a)通过将寡核苷酸探针与起始寡核酸连接形成延长的双链体而使所述起始寡核苷酸沿所述模板多核苷酸延伸，其中所述寡核苷酸探针连接于微粒，所述微粒连接于基材，所述微粒不固定在半固体支持物中；

(b)鉴定所述多核苷酸的一个或多个核苷酸；和

(c)重复步骤(a)和(b)，直到测定出核苷酸序列。

2.如权利要求1所述的方法，其特征在于，所述寡核苷酸探针包含硫代磷酸酯连接。

3.如权利要求1所述的方法，其特征在于，所述鉴定步骤包括检测连接于最近连接的寡核苷酸探针的标记。

4.如权利要求3所述的方法，还包括用含有选自Ag、Hg、Cu、Mn、Zn或Cd的原子的切割剂切割所述硫代磷酸酯连接产生可延伸探针末端的步骤。

5.如权利要求4所述的方法，其特征在于，所述切割剂是AgNO₃。

6.如权利要求1所述的方法，包括使所述模板多核苷酸在延伸前接触封闭寡核苷酸。

7.如权利要求6所述的方法，其特征在于，所述封闭寡核苷酸无法进行酶促延伸。

8.如权利要求1所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材。

9.如权利要求8所述的方法，其特征在于，单链模板通过含有生物素和生物素结合蛋白的连接将所述微粒系链连接于所述基材。

10.如权利要求1所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材。

11.如权利要求1所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材且所述模板包含生物素。

12.如权利要求1所述的方法，其特征在于，所述基材是基本平坦和刚性的基材。

13.一种测定模板多核苷酸内核苷酸序列的方法，所述方法包括以下步骤：

(a)提供探针与模板多核苷酸杂交形成的探针-模板双链体，所述探针具有可延伸末端；

(b)将延伸寡核苷酸探针与所述可延伸末端连接形成含有延长寡核苷酸探针的延长双链体，其中所述寡核苷酸探针连接于微粒，所述微粒连接于基材，所述微粒不固定在半固体支持物中；

(c)在所述延长双链体中鉴定模板多核苷酸内至少一个(1)与刚刚连接的延伸探针互补的核苷酸或(2)恰好在所述延长寡核苷酸探针下游的核苷酸残基；

(d)如果没有现成的可延伸末端，在所述延长寡核苷酸探针上产生可延伸末端，使产生的末端不同于上一个延伸探针所连接的末端；和

(e)重复步骤(b)、(c)和(d)，直到测定出所述模板多核苷酸内的核苷酸序列。

14.如权利要求13所述的方法，其特征在于，所述延伸探针包含硫代磷酸酯连接。

15.如权利要求13所述的方法，其特征在于，所述各延伸探针的一端含有不可延伸部分。

16.如权利要求13所述的方法，其特征在于，所述鉴定步骤包括检测连接于最近连接的延伸探针的标记。

17.如权利要求13所述的方法，其特征在于，所述鉴定步骤包括在一种或多种标记的链终止三磷酸核苷的存在下用核酸聚合酶去除所述不可延伸部分并延伸所述延伸的寡核苷酸探针。

18.如权利要求13所述的方法，还包括在所述连接步骤中没有延伸探针连接于所述可延伸末端时，给延伸的寡核苷酸探针加帽的步骤。

19.如权利要求13所述的方法，其特征在于，所述产生步骤包括用含有选自Ag、Hg、Cu、Mn、Zn或Cd的原子的切割剂切割所述硫代磷酸酯连接。

20.如权利要求19所述的方法，其特征在于，所述切割剂是AgNO₃。

21.如权利要求13所述的方法，还包括以下步骤：(f)去除所述模板上的所述连接探针和所述起始寡核苷酸；(g)用结合于所述模板多核苷酸的不同序列的第二种寡核苷酸重复步骤(a)；和(h)重复步骤(b)-(e)。

22.如权利要求21所述的方法，其特征在于，用结合于所述模板多核苷酸的不同序列的起始寡核苷酸多次重复所述方法。

23.如权利要求22所述的方法，其特征在于，所述延伸探针的一端含有不可延伸部分。

24.如权利要求22所述的方法，其特征在于，在每次重复中，所述鉴定步骤包括检测连接于最近连接的延伸探针的标记。

25.如权利要求22所述的方法，还包括在所述连接步骤中没有延伸探针连接于所述可延伸末端时，给延伸的寡核苷酸探针加帽的步骤。

26.如权利要求22所述的方法，其特征在于，所述产生步骤包括用含有选自Ag、Hg、Cu、Mn、Zn或Cd的原子的切割剂切割所述硫代磷酸酯连接。

27.如权利要求26所述的方法，其特征在于，所述切割剂是AgNO₃。

28.如权利要求13所述的方法，包括在提供所述探针-模板双链体之前使所述模板多核苷酸接触封闭寡核苷酸。

29.如权利要求28所述的方法，其特征在于，所述封闭寡核苷酸无法进行酶促延伸。

30.如权利要求13所述的方法，在提供所述探针-模板双链体之前包括：

(a)使所述模板多核苷酸接触封闭寡核苷酸；和

(b)形成探针-模板双链体。

31.一种鉴定模板多核苷酸内核苷酸序列的方法，所述方法包括以下步骤：

(a)提供连接于固定在半固体支持物之内或之上或连接于基本平坦的刚性基材的微粒的模板多核苷酸。

(b)使所述模板多核苷酸接触封闭寡核苷酸；

(c)通过将寡核苷酸探针与起始寡核苷酸连接形成延长的双链体而使起始寡核苷酸沿所述模板多核苷酸延伸，其中所述寡核苷酸探针任选含有易切连接；

(d)鉴定所述多核苷酸的一个或多个核苷酸；和

(e)重复步骤(c)和(d)，直到测定出核苷酸序列。

32.如权利要求31所述的方法，其特征在于，在所述半固体支持物上进行所述延伸步骤。

33.如权利要求31所述的方法，其特征在于，所述模板连接于与基本平坦的刚性基材连接的微粒。

34.如权利要求33所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材。

35.如权利要求34所述的方法，其特征在于，单链模板通过含有生物素和生物素结合蛋白的连接将所述微粒系链连接与所述基材。

36.如权利要求33所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材。

37.如权利要求33所述的方法，其特征在于，连接于所述珠的单链模板将所述微粒系链连接于所述基材。

38.一种测定模板多核苷酸内核苷酸序列的方法，所述方法包括以下步骤：

(a)提供探针与模板多核苷酸杂交形成的探针-模板双链体，所述探针具有可延伸末端，所述模板上杂交有封闭寡核苷酸，所述探针-模板双链体连接于包埋在半固体支持物之内或之上或连接于基材的微粒；

(b)将延伸寡核苷酸探针连接于所述可延伸末端，形成含有延长寡核苷酸探针的延长双链体，其中所述延伸探针含有硫代磷酸酯连接；

39.如权利要求38所述的方法，包括在步骤(a)之前使模板接触封闭寡核苷酸。

40.如权利要求38所述的方法，其特征在于，在所述半固体支持物中进行所述连接和产生步骤。

41.如权利要求38所述的方法，其特征在于，所述模板连接于与基本平坦的刚性基材连接的微粒。

42.如权利要求41所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材。

43.如权利要求41所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材。

44.如权利要求38所述的方法，其特征在于，连接于所述微粒的单链模板将所述微粒系链连接于所述基材。

45.一种测定模板多核苷酸内核苷酸序列的方法，所述方法包括以下步骤：

(a)在微粒存在下在乳液室中扩增模板多核苷酸分子，产生连接有模板多核苷酸的克隆群体的微粒；

(b)从所述乳液中回收所述微粒；

(c)将所述微粒包埋于半固体支持物之内或之上，或者将所述微粒连接于基材；

(d)通过将寡核苷酸探针与起始寡核苷酸连接形成延长的双链体而使起始寡核苷酸沿所述模板多核苷酸延伸，其中所述寡核苷酸探针含有易切连接；

(e)鉴定所述多核苷酸的一个或多个核苷酸；和

(f)重复步骤(d)和(e)，直到测定出核苷酸序列。

46.如权利要求45所述的方法，其特征在于，(i)在单个乳液室中扩增含有不同序列的多种模板多核苷酸分子；(ii)从所述乳液中回收多种微粒并包埋到所述支持物中或之上，各微粒连接有模板多核苷酸克隆群体，其中所述克隆群体具有不同序列，和(iii)对连接于所述包埋或连接微粒的所述克隆群体平行进行步骤(d)、(e)和(f)，以便平行测定多个序列。

47.如权利要求45所述的方法，包括在步骤(c)之前使所述模板多核苷酸接触封闭寡核苷酸。

48.如权利要求45所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材。

49.如权利要求45所述的方法，其特征在于，所述微粒通过含有生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材。

50.如权利要求45所述的方法，其特征在于，连接于所述微粒的单链模板将所述微粒系链连接于所述基材。

51.一种使用至少两种区别标记的寡核苷酸探针家族的第一集合测定模板多核苷酸内核苷酸序列信息的方法，所述方法包括以下步骤：

(a)通过将寡核苷酸探针与起始寡核苷酸连接形成延长的双链体而使起始寡核苷酸沿所述模板多核苷酸延伸，其中所述寡核苷酸探针是所述区别标记的寡核苷酸探针家族集合的成员，且杂交有封闭寡核苷酸；

(c)检测与所述寡核苷酸连接的标记；和

(d)重复步骤(b)和(c)，直到获得探针家族名称的有序列表；和

(d)采用探针家族名称的有序列表排除一种或多种可能的核苷酸序列。

52.如权利要求51所述的方法，其特征在于，步骤(d)包括解码所述探针家族名称的有序列表，以确定所述序列。

53.如权利要求51所述的方法，其特征在于，所述方法包括提供起始寡核苷酸探针与模板多核苷酸杂交形成的探针-模板双链体，所述探针具有可延伸末端，其中所述延伸步骤包括将寡核苷酸探针连接于所述可延伸末端，形成含有延长寡核苷酸探针的延长双链体，还包括在所述延伸步骤中没有寡核苷酸探针连接于所述可延伸末端时，给其余可延伸末端加帽的步骤。

54.如权利要求51所述的方法，其特征在于，各探针家族中所述寡核苷酸探针的一端含有不可延伸部分。

55.如权利要求51所述的方法，在各检测步骤之后还包括：(f)如果可延伸末端不存在，就在所述最近连接的寡核苷酸探针上产生可延伸末端，以使产生的末端不同于所述最近连接的寡核苷酸探针连接的末端。

56.如权利要求55所述的方法，其特征在于，所述寡核苷酸探针含有硫代磷酸酯连接，用含有选自Ag、Hg、Cu、Mn、Zn或Cd的原子的切割剂切割所述硫代磷酸酯连接，从而产生所述可延伸探针末端。

57.如权利要求56所述的方法，其特征在于，所述切割剂是AgNO₃。

58.如权利要求51所述的方法，其特征在于，在半固体支持物中或之上进行所述延伸步骤。

59.如权利要求51所述的方法，其特征在于，所述模板连接于与基本平坦的刚性基材连接的微粒。

60.如权利要求51所述的方法，其特征在于，所述集合包括2种区别标记的探针家族。

61.如权利要求51所述的方法，其特征在于，所述集合包括3种区别标记的探针家族。

62.如权利要求51所述的方法，其特征在于，所述集合包括4种区别标记的探针家族。

63.如权利要求51所述的方法，其特征在于，所述集合包括4种以上区别标记的探针家族。

64.如权利要求51所述的方法，其特征在于，所述寡核苷酸探针包含核苷未独立选择的受限部分，其中按照编码方案将受限部分序列不同的寡核苷酸探针分配给探针家族。

65.如权利要求51所述的方法，其特征在于，按照表1所列的24种编码方案之一将所述寡核苷酸探针分配给第一、第二、第三和第四探针家族。

66.如权利要求52所述的方法，其特征在于，所述模板中至少一个核苷酸的种类已知，其中所述解码步骤包括：

(i)通过确定哪一种类与已知核苷酸种类和其近端核苷酸连接于已知种类的核苷酸相邻核苷酸相对位置的该探针受限部分的可能序列相符，给所述模板上与已知种类的核苷酸相邻的核苷酸指定种类；

(ii)通过确定哪一种类与其近端核苷酸连接于后续核苷酸相对位置的该探针受限部分的可能序列相符，给所述后续核苷酸指定种类；和

(iii)重复步骤(ii)，直到测定该序列。

67.如权利要求52所述的方法，还包括以下步骤：

(a)测定所述模板中的核苷酸种类，以使所述核苷酸具有已知种类，其中所述解码步骤包括：

(iii)重复步骤(ii)，直到测定该序列。

68.如权利要求67所述的方法，其特征在于，所述测定步骤包括在存在聚合酶的一定条件下将模板-探针双链体与标记核苷酸相接触，在所述条件下如果所述标记核苷酸在与所述双链体相邻的位置上与所述模板互补，就能够掺入所述标记核苷酸。

69.如权利要求52所述的方法，其特征在于，所述解码步骤包括：从探针家族名称的有序列表产生至少一种候选序列；和选择候选序列作为所述模板的核苷酸序列。

70.如权利要求69所述的方法，其特征在于，所述产生步骤包括产生至少4个候选序列。

71.如权利要求69所述的方法，其特征在于，所述产生步骤包括：

(i)假定所述核苷酸序列的第一个核苷酸的种类；

(ii)根据对应于所述第一个核苷酸的探针家族名称确定相邻核苷酸的可能种类，从而指定与所述第一个核苷酸相邻的核苷酸的种类；

(iii)根据对应于最近指定种类的核苷酸的探针家族名称确定后续核苷酸的可能种类，从而指定后续核苷酸的种类；

(iv)重复步骤(iii)，直到产生候选序列；和

(v)重复步骤(i)-(iv)，其中，在各轮重复中，将所述第一个核苷酸假定为不同种类，直到产生所需数量的候选序列。

72.如权利要求69所述的方法，其特征在于，所述选择步骤包括比较至少一种候选序列与一种或多种已知序列，并选择与一种或多种已知序列有预定的相同性程度或最接近的候选序列。

73.如权利要求72所述的方法，其特征在于，所述模板衍生自感兴趣的生物体，其中所述比较步骤包括比较至少一种候选序列与含有获自所述生物体的序列的数据库中的序列。

74.如权利要求72所述的方法，其特征在于，所述比较步骤包括比较至少一种候选序列与含有多个比较序列的数据库中的序列，各序列含有待测多核苷酸序列的不同可能序列。

75.如权利要求69所述的方法，其特征在于，所述选择步骤包括：

(i)用区别标记的编码探针家族的第二集合从所述模板获得第二种探针家族名称有序列表，其中所述第二探针家族集合中探针家族与所述第一探针家族集合中探针家族的编码不同；

(ii)从所述第二种探针家族名称有序列表产生至少一种比较序列；

(iii)比较至少一种所述候选序列的一部分与至少一种所述比较序列的一部分；和

(iv)选择在步骤(c)中比较的部分上与比较序列有预定的相同性程度或最接近的候选序列作为所述模板的核苷酸序列。

76.如权利要求75所述的方法，其特征在于，所述比较部分是一个二核苷酸。

77.如权利要求75所述的方法，其特征在于，所述第二探针家族名称有序列表只含有一个元件。

78.如权利要求50所述的方法，其特征在于，各探针家族中所述寡核苷酸探针具有以下结构：5’-(XY)(N)_kN_B*-3’或3’-(XY)(N)_kN_B*-5’，其中N代表任意核苷，N_B代表不能用连接酶延伸的部分，*代表可检测部分，XY是所述探针的受限部分，其中X和Y代表相同或不同、但不能各自独立选取的核苷，X和Y至少为2倍简并，至少一个核苷间连接是易切连接，k为1-100，限制条件是：可检测部分可存在于Y或(N)_k内任意核苷酸上且另存在于N_B上或不另存在于N_B上。

79.如权利要求78所述的方法，其特征在于，所述易切连接是硫代磷酸酯连接。

80.如权利要求78所述的方法，其特征在于，所述可检测部分通过可切割接头连接、可被光漂白、或具有这两种特征。

81.如权利要求80所述的方法，其特征在于，所述可切割接头含有二硫键。

82.如权利要求78所述的方法，其特征在于，采用4种区别标记的寡核苷酸探针家族，其中按照表1所列的24种编码方案之一将该探针受限部分序列不同的寡核苷酸探针分配给第一、第二、第三和第四探针家族。

83.如权利要求51所述的方法，其特征在于，所述检测步骤包括同时从所述模板中至少2个核苷酸各自平均获取2位信息，而不从任何单个核苷酸获取两位信息。

84.如权利要求51所述的方法，其特征在于，所述检测步骤包括同时从所述模板中至少2个核苷酸各自获取少于2位信息。

85.一种用至少两种区别标记的寡核苷酸探针家族的第一集合测定模板多核苷酸内核苷酸序列信息的方法，所述方法包括以下步骤：

(a)将探针-模板复合物与至少两种区别标记的寡核苷酸探针家族相接触从而使寡核苷酸探针杂交，所述探针-模板复合物含有具有可延伸末端的双链部分和感兴趣的待测序单链部分，所述寡核苷酸探针含有与所述双链体部分紧邻的模板部分互补的部分，其中所述模板杂交有封闭寡核苷酸；

(b)将杂交的寡核苷酸探针与所述可延伸末端连接，从而产生含有延长双链体的探针-模板复合物；

(c)检测与所述连接探针相连的标记；

(d)如果没有现成的可延伸探针末端，则在所述延长双链体上产生可延伸探针末端；和

(e)重复步骤(a)-(d)，直到获得探针家族名称的有序列表。

86.如权利要求85所述的方法，其特征在于，所述检测步骤包括同时从所述模板中至少2个核苷酸各自平均获取2位信息，而不从任何单个核苷酸获取两位信息。

87.如权利要求85所述的方法，其特征在于，所述检测步骤包括同时从所述模板中至少2个核苷酸各自获取少于2位信息。

88.一种用寡核苷酸探针家族的第一集合测定模板多核苷酸的核苷酸序列信息的方法，所述方法包括以下步骤：

(a)进行连续有序的延伸、连接、检测和切割循环，其中所述检测步骤包括：同时从所述模板中至少两个核苷酸各获取平均两位的信息，而不从任何单个核苷酸获取两位信息，其中所述模板杂交有封闭寡核苷酸；和

(b)将步骤(a)获得的信息与至少一位其它信息合并，以确定所述序列。

89.如权利要求88所述的方法，其特征在于，所述至少一位其它信息包括选自下组的一项信息：所述模板中的核苷酸种类，通过比较候选序列与至少一种已知序列获得的信息；和利用寡核苷酸探针家族的第二集合重复所述方法获得的信息。

90.一种制备多种模板多核苷酸的方法，所述方法包括以下步骤：

(a)使多个微粒接触半固体支持物，其中至少一些微粒连接有模板，所述半固体支持物连接或包埋有引物，以使所述模板与所述引物杂交；和

(b)延伸所述引物，形成与所述微粒连接的模板互补的模板。

91.如权利要求90所述的方法，还包括扩增延伸所述引物产生的模板。

92.如权利要求91所述的方法，其特征在于，扩增包括进行RCA。

93.如权利要求90所述的方法，还包括由所述半固体支持物释放所述微粒。

94.如权利要求90所述的方法，还包括任选在扩增所述模板之后，对延伸所述引物产生的模板进行测序。

95.一种用于制备微粒群体的组分集合，所述集合包括：

(a)微粒群体，其中单个微粒至少连接有第一引物群体和第二引物群体，其中所述第一群体的引物与所述第二群体的引物的序列不同；

(b)核酸片段文库，其中各核酸片段含有感兴趣的第一和第二核酸节段，其中所述第一和第二引物对应于位于所述感兴趣的第一和第二核酸节段之外的通用序列；和

(c)与核酸片段的共有区域结合的封闭寡核苷酸。

96.如权利要求95所述的组分集合，其特征在于，所述感兴趣的第一和第二核酸节段是成对标签的5’和3’标签。

97.如权利要求95所述的组分集合，其特征在于，所述核酸片段包含含有扩增引物的一个或多个引物结合位点的内部衔接子，以便用PCR扩增各核酸节段。

98.如权利要求97所述的组分集合，还包括与所述内部衔接子的引物结合位点互补的引物。

99.一种模板，其包括基本相同的模板分子群体，其中所述模板分子包含至少一个共有区域和至少一个感兴趣区段，至少一些模板分子含有与共有区域杂交的封闭寡核苷酸。

100.如权利要求99所述的模板，其特征在于，所述模板分子是配对-标签文库成员。

101.如权利要求99所述的模板，其特征在于，用RCA扩增所述模板分子。

102.如权利要求99所述的模板，其特征在于，所述模板分子包含至少两个共有区域和至少一个感兴趣区段，其中至少一些模板分子含有与至少两个共有区域各自杂交的封闭寡核苷酸。

103.一种支持物或基材，其连接有权利要求99所述的群体。

104.如权利要求101所述的支持物或基材，所述支持物或基材是微粒。

105.如权利要求101所述的支持物或基材，所述支持物或基材是半固体支持物。

106.如权利要求101所述的支持物或基材，所述支持物或基材是基本平坦的刚性支持物。

107.权利要求99所述模板的集合，其特征在于，所述模板包含不同的感兴趣区段。

108.一种阵列，其包含权利要求104所述微粒群体，其中所述微粒连接有包含不同感兴趣区段的模板。

109.如权利要求108所述的阵列，其特征在于，所述微粒固定在半固体支持物中或之上，或连接于基材。

110.一种连接于基材的微粒，其中所述微粒连接有模板。

111.如权利要求110所述的微粒，其特征在于，所述微粒通过包含生物素和生物素结合蛋白的连接连接于所述基材。

112.如权利要求110所述的微粒，其特征在于，所述微粒通过包含生物素和生物素结合蛋白的连接连接于所述基材，其中所述生物素结合蛋白连接于所述基材。

113.如权利要求110所述的微粒，其特征在于，所述微粒连接于与所述基材连接的单链模板，因而所述模板将所述微粒系链连接于所述基材。

114.如权利要求110所述的微粒，其特征在于，所述微粒连接于与所述基材连接的单链模板，因而所述模板将所述微粒系链连接于所述基材，并且所述模板通过包含生物素和生物素结合蛋白的连接连接于所述基材和所述微粒。

115.权利要求110所述的微粒的群体，其特征在于，含有不同感兴趣区段和共有序列的模板连接于不同微粒。

116.一种制备阵列的方法，所述方法包括以下步骤：

提供连接有模板的微粒的群体，其中所述模板包含生物素；和

在生物素与生物素结合蛋白结合的条件下使所述微粒接触包含生物素结合蛋白的基材，从而产生微粒阵列。

117.如权利要求116所述的方法，还包括将封闭寡核苷酸与所述模板杂交。

118.如权利要求116所述的方法，还包括对所述模板进行测序。