CN110785492A

CN110785492A - 用于改进编索引的核酸文库中的样品鉴定的组合物和方法

Info

Publication number: CN110785492A
Application number: CN201880042059.3A
Authority: CN
Inventors: 迈克尔·切斯尼; V·P·史密斯; 克莱尔·贝维斯-莫特; 乔纳森·马克·鲍特尔; 安吉拉·卡尔班德
Original assignee: Illumina Cambridge Ltd
Current assignee: Illumina Cambridge Ltd
Priority date: 2017-04-23
Filing date: 2018-04-23
Publication date: 2020-02-11
Anticipated expiration: 2038-04-23
Also published as: AU2022202505A1; US20180305753A1; US11459610B2; AU2018259202B2; AU2018259202A1; EP3913053A1; WO2018197945A1; EP3615671B1; AU2022202505B2; SG11201909914RA; CN110785492B; CA3059839A1; CA3059839C; DK3615671T3; EP3615671A1; ES2889585T3

Abstract

本发明涉及组合物和方法，所述组合物和方法用于通过在扩增和测序之前，通过外切核酸酶处理和任选地封闭从多个样品汇集的编索引(pooled indexed)的多核苷酸的3’末端来提高用于多重下一代测序的编索引的核酸文库制备物中的正确样品鉴定率。

Description

用于改进编索引的核酸文库中的样品鉴定的组合物和方法

相关申请的交叉引用

本申请要求于2017年4月23日提交的美国临时申请序列号62/488,825的权益，该美国临时申请通过引用并入本文。

领域

本公开内容尤其涉及对来自多个文库的多核苷酸的测序；并且更特别地，涉及增加测序正确地鉴定出多核苷酸所源自的文库的可能性。

背景

下一代测序(NGS)技术的改进已经极大地提高了测序速度和数据输出，导致了目前测序平台的大量样品通量。大约10年前，Illumina基因组分析仪每次运行能够生成高达1千兆字节的序列数据。如今，Illumina NovaSeq^TM系列系统能够在两天内生成高达2兆兆字节的数据，这代表容量增加了2000×以上。

实现这种增加的容量的一个方面是多重化(multiplexing)，多重化在文库制备期间将称为索引(index)的独特序列添加到DNA片段。这允许在单次测序运行期间同时汇集大量文库并测序。随来自多重化的通量增加发生的是增加的复杂性层次，因为在最终数据分析前，需要在被称为去多重化(demultiplexing)的过程中通过计算对来自汇集的文库的测序读段进行鉴定和排序。去多重化的文库之间的索引错误分配是一个已知的问题，其从开发样品多重化时就已经影响了NGS技术(Kircher等人,2012,Nucleic Acids Res.,第40卷,第1期)。

本申请的概述

当测序的DNA文库分子包含与文库制备期间存在于文库衔接子中的索引序列不同的索引序列时，观察到索引跳跃(index hopping)或索引跳跃(index jumping)。索引跳跃可能发生在样品制备期间或在汇集的去多重化文库的簇扩增期间。引起索引跳跃的一种机制涉及文库制备后存在的游离未连接的衔接子分子的存在。

不意图受理论限制，索引跳跃的问题具有多种模式，一些模式涉及从文库制备遗留的剩余未连接的衔接子分子和/或不完整产物的存在。一种类别的索引跳跃可能由存在于文库池中的具有特异性通用延伸引物序列(例如P7’)的游离未连接的衔接子分子引起，这些游离未连接的衔接子分子可能促进具有交换的索引的文库的形成。这个问题可以通过使用特异性靶向待降解的P7’衔接子链的5’外切核酸酶来防止。例如，这可以通过使用对偏好消化双链5’末端的外切核酸酶，或通过使用偏好外切核酸酶介导的衔接子DNA分子的降解的5’末端修饰来实现。

在一个实施方案中，文库制备后存在的游离未连接的P7’衔接子分子可以退火至基底诸如流动池上的固定的表面P7引物，并且用作模板以产生更长的、修饰的、包含特异性索引序列(例如i7)和共有通用引物结合序列的固定的表面引物。然后该修饰的表面引物将与文库分子在索引分子3’的衔接子区域具有互补性，允许产生具有不同于原始文库分子的i7索引序列的表面结合的文库分子。

索引跳跃的这种机制可以通过使用5’外切核酸酶以选择性降解未连接的P7’衔接子分子来减少或消除。选择性降解的一种模式包括使用具有偏好降解双链DNA分子的5’至3’外切核酸酶活性的5’外切核酸酶。这种方法可以被用于使用叉形衔接子(forkedadaptor)的文库制备方法的背景中，所述叉形衔接子具有一个双链末端(可能包含短的3’突出端(overhang))和一个“叉形”单链末端。在连接至样品插入物文库后，所得的文库在两个末端上包含单链“叉形”区域。一些包含双链末端的未连接的衔接子分子继续存在。然后这种衔接子分子的P7’链可以通过使用偏好消化双链DNA的的5’至3’外切核酸酶而被靶向降解。选择性靶向5’磷酸化双链末端的5’至3’外切核酸酶的使用有助于将外切核酸酶的活性范围缩小至(narrowing)未连接的衔接子。

选择性降解的另一种模式包括使用具有5’至3’外切核酸酶活性和3’至5’外切核酸酶活性的5’外切核酸酶。这种方法还可以被用于使用叉形衔接子的文库制备方法的背景中，所述叉形衔接子具有一个双链末端(可能包含短的3’突出端)和一个“叉形”单链末端。在连接至样品插入物文库后，一些包含双链末端的未连接的衔接子分子继续存在。然后这种衔接子分子的P7’链可以通过使用具有5’至3’外切核酸酶活性和3’至5’DNA外切核酸酶活性的5’外切核酸酶来靶向降解，但3’至5’DNA外切核酸酶活性可以通过在衔接子的每一个3’末端处使用修饰以封闭3’至5’外切核酸酶活性来减少。这种修饰防止衔接子-靶-衔接子分子从游离3’末端消化。一种任选的修饰是在5’“叉形”单链末端处。这种修饰防止衔接子-靶-衔接子分子从游离5’末端消化。

一种类别的索引跳转可能由存在于文库池中的不完整产物引起。在文库产生期间可能得到不完整的物质，诸如衔接子-靶分子(其不包含靶分子每一个末端的侧翼为衔接子分子的期望的结构)，以及在任一末端处没有衔接子分子附接的靶分子。这些物质可以通过充当用于不想要的延伸反应的引物来促进具有交换的索引(indice)的文库的形成。

索引跳跃的这种机制可以通过使用具有3’至5’外切核酸酶活性的外切核酸酶以选择性降解存在于文库池中的不完整产物来减少或消除。这种方法还可用于使用叉形衔接子的文库制备方法的背景中，所述叉形衔接子具有一个双链末端(可能包含短的3’突出端)和一个“叉形”单链末端。在连接至样品插入物文库后，一些包含一个双链末端和一个“叉形”单链末端，或两个双链末端的不完整产物留存。这些双链末端可以通过使用具有偏好双链DNA分子的3’至5’外切核酸酶活性的外切核酸酶来靶向降解。使用选择性靶向平的或凹进的3’末端的3’至5’外切核酸酶可以帮助将外切核酸酶的活性范围缩小到不完整产物。

一种类别的索引跳跃可能由存在于文库池中的具有特异性通用延伸引物序列的游离未连接的衔接子分子(例如P7’)或不完整产物(诸如衔接子-靶分子，其不包含每一个末端的侧翼为衔接子分子的靶多核苷酸)引起，这些游离未连接的衔接子分子(例如P7’)或不完整产物可以通过充当用于不想要的延伸反应的引物来促进具有交换的索引的文库的形成。该问题可以通过将3’封闭引入到存在于文库池中的具有特异性通用延伸引物序列的游离未连接的衔接子分子(例如P7’)或不完整产物来防止。

本文提供了用于减轻索引跳跃的组合物和方法及其对测序数据质量的影响。

如本文使用的，除非上下文另外清楚指明，否则术语“每一个(each)”当提及项目的集合使用时意图标识集合中的个体项目而不一定是指集合中的每一个项目。

如本文使用的，术语“核酸”意图与其在本领域中的使用一致，并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性方式与核酸杂交或能够被用作用于复制特定核苷酸序列的模板。天然存在的核酸通常具有包含磷酸二酯键的骨架。类似物结构可以具有替代性的骨架连接，包括本领域已知的多种那些骨架连接的任何一种。天然存在的核酸通常具有脱氧核糖(例如在脱氧核糖核酸(DNA)中发现的)或核糖(例如在核糖核酸(RNA)中发现的)。核酸可以包含本领域中已知的这些糖部分的多种类似物的任何一种。核酸可以包括天然碱基或非天然碱基。在这个方面中，天然脱氧核糖核酸可以具有选自由以下组成的组的一个或更多个碱基：腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤，并且核糖核酸可以具有选自由以下组成的组的一个或更多个碱基：尿嘧啶、腺嘌呤、胸腺嘧啶或鸟嘌呤。可以被包含在核酸中的有用的非天然碱基是本领域中已知的。术语“靶”当提及核酸使用时意图在本文阐述的方法或组合物的上下文中作为用于核酸的语义标识符，并且除非另有明确指示否则不一定将核酸的结构或功能限制到超过原本明确指示的范围。

如本文使用的，术语“转运”是指分子通过流体的运动。该术语可以包括被动转运，诸如分子沿它们的浓度梯度的运动(例如被动扩散)。该术语还可以包括主动转运，其中分子可以沿着它们的浓度梯度或逆着它们的浓度梯度运动。因此，转运可以包括施加能量以使一个或更多个分子在期望的方向上运动或运动到期望的位置诸如扩增位点。

如本文使用的，术语“通用序列”是指两个或更多个核酸分子例如衔接子-靶-衔接子分子共有的序列的区域，其中这些分子还具有彼此不同的序列的区域。存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列的一部分例如通用延伸引物结合位点互补的通用捕获核酸的群体捕获多种不同的核酸。通用延伸引物结合位点的非限制性实例包括与P5引物和P7引物相同或互补的序列。相似地，存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列的一部分例如通用引物结合位点互补的通用引物的群体复制或扩增多种不同的核酸。因此，通用捕获核酸或通用引物包括可以与通用序列特异性杂交的序列。如本文描述的，靶核酸分子可以被修饰以例如在不同靶序列的一个末端或两个末端处附接通用衔接子(本文也称为衔接子)。

当提及扩增引物例如通用延伸引物引物时，可以使用术语“P5”和“P7”。术语“P5’”(P5引发物)和“P7’”(P7引发物)分别是指P5和P7的互补序列(complement)。将理解的是，任何合适的扩增引物可以被用于本文展示的方法中，并且P5和P7的使用仅是示例性实施方案。如由WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容例示的，扩增引物诸如P5和P7在流动池上的使用在本领域中是已知的。例如，任何合适的正向扩增引物，无论是固定的还是溶液中的，可以用于本文展示的用于与互补序列杂交和扩增序列的方法。相似地，任何合适的反向扩增引物，无论是固定的还是溶液中的，可以用于本文展示的用于与互补序列杂交和扩增序列的方法。本领域技术人员将理解如何设计和使用适于捕获和扩增如本文指示的核酸的引物序列。

如本文使用的，“扩增(amplify)”、“扩增(amplifying)”或“扩增反应”及其派生词通常是指藉以将核酸分子的至少一部分复制或拷贝到至少一个另外的核酸分子中的任何作用或过程。另外的核酸分子任选地包括与模板核酸分子的至少某个部分基本上相同或基本上互补的序列。模板核酸分子可以是单链的或双链的，并且另外的核酸分子可以独立地是单链的或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施方案中，这样的扩增可以使用等温条件进行；在其他实施方案中，这样的扩增可以包括热循环。在一些实施方案中，扩增是多重扩增，其包括在单个扩增反应中同时扩增多于一种靶序列。在一些实施方案中，“扩增”包括基于单独的DNA核酸的至少某部分和RNA核酸的至少某部分或其组合的扩增。扩增反应可以包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链式反应(PCR)。

如本文使用的，“扩增条件”及其派生词通常是指适用于扩增一个或更多个核酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中，扩增条件可以包括等温条件，或可选地可以包括热循环条件，或等温条件和热循环条件的组合。在一些实施方案中，适用于扩增一个或更多个核酸序列的条件包括聚合酶链式反应(PCR)条件。通常，扩增条件是指足以扩增核酸诸如一个或更多个靶序列，或扩增连接至一个或更多个衔接子的扩增的靶序列例如衔接子连接的扩增的靶序列的反应混合物。通常，扩增条件包括用于扩增或用于核酸合成的催化剂，例如聚合酶；与待扩增的核酸具有某种程度的互补性的引物；以及核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，以促进引物在与核酸杂交后的延伸。扩增条件可以要求引物与核酸的杂交或退火、引物的延伸以及变性步骤，在变性步骤中延伸的引物与经历扩增的核酸序列分离。通常，但不一定地，扩增条件可以包括热循环；在一些实施方案中，扩增条件包括其中重复了退火、延伸和分离的步骤的多于一个循环。通常，扩增条件包括阳离子，诸如Mg²⁺或Mn²⁺并且还可以包括多种离子强度修饰剂。

如本文使用的，“再扩增(re-amplification)”及其派生词通常是指藉以扩增的核酸分子的至少一部分通过任何合适的扩增过程被进一步扩增(在一些实施方案中称为“二次”扩增)从而产生再扩增的核酸分子的任何过程。二次扩增不必与藉以产生扩增的核酸分子的原始扩增过程相同；再扩增的核酸分子也不必与扩增的核酸分子完全相同或完全互补；所有的要求是再扩增的核酸分子包括扩增的核酸分子或它的互补序列的至少一部分。例如，再扩增可以包括使用不同的扩增条件和/或不同的引物，包括与初次扩增不同的靶特异性引物。

如本文使用的，术语“聚合酶链式反应”(“PCR”)是指Mullis美国专利第4,683,195号和第4,683,202号的方法，所述两篇美国专利描述了一种用于无需克隆或纯化而增加基因组DNA的混合物中的感兴趣的多核苷酸的区段(sgement)的浓度的方法。这种用于扩增感兴趣的多核苷酸的过程由以下组成：将大量过量的两种寡核苷酸引物引入到包含期望的感兴趣的多核苷酸的DNA混合物，随后在DNA聚合酶的存在下进行一系列热循环。两种引物与其对应的感兴趣的双链多核苷酸的链互补。混合物首先在较高的温度变性，并且然后引物退火至感兴趣分子的多核苷酸内的互补序列。在退火之后，用聚合酶延伸引物以形成新的一对互补链。变性、引物退火和聚合酶延伸的步骤可以重复许多次(称为热循环)以获得高浓度的期望的感兴趣的多核苷酸的扩增的区段。期望的感兴趣的多核苷酸的扩增的区段(扩增子)的长度由引物相对于彼此的相对位置确定，并且因此该长度是可控参数。由于重复该过程，该方法被称为“聚合酶链式反应”(下文称为“PCR”)。因为感兴趣的多核苷酸的期望的扩增的区段成为混合物中的主要核酸序列(在浓度方面)，它们被称为“PCR扩增的”。在修改上文讨论的方法时，可以使用多于一种不同的引物对，在一些情况下，每一种感兴趣的靶核酸分子使用一种或更多种引物对，从而形成多重PCR反应来PCR扩增靶核酸分子。

如本文定义的，“多重扩增”是指使用至少一种靶特异性引物对样品内的两种或更多种靶序列的选择性且非随机扩增。在一些实施方案中，进行多重扩增，使得一些或所有的靶序列在单个反应容器内被扩增。给定多重扩增的“重数(plexy)”或“重(plex)”通常是指在该单个多重扩增期间被扩增的不同靶特异性序列的数目。在一些实施方案中，重数可以是约12-重、24-重、48-重、96-重、192-重、384-重、768-重、1536-重、3072-重、6144-重或更高。还可能通过若干种不同的方法检测扩增的靶序列(例如，凝胶电泳随后是密度测定(densitometry)，用生物分析仪或定量PCR定量，与标记的探针杂交；掺入生物素化的引物随后是亲和素-酶缀合物检测；将32P标记的脱氧核苷酸三磷酸掺入到扩增的靶序列中)。

如本文使用的，术语“引物”及其派生词通常是指可以与感兴趣的靶序列杂交的任何多核苷酸。通常，引物作为核苷酸可以通过聚合酶被多聚化到其上的底物起作用；然而，在一些实施方案中，引物可以变得掺入到合成的核酸链中并且提供一个位点，另一种引物可以与该位点杂交以引发(prime)与合成的核酸分子互补的新链的合成。引物可以包含核苷酸或其类似物的任何组合。在一些实施方案中，引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指任何长度的核苷酸的聚合形式，并且可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。术语应当被理解为包括由核苷酸类似物制备的DNA或RNA的等同物、类似物，并且适于单链(诸如正义或反义)和双链多核苷酸。如本文使用的，该术语还包括cDNA，其是例如通过逆转录酶的作用由RNA模板产生的互补或拷贝DNA。该术语仅是指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。

如本文使用的，“扩增的靶序列”及其派生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的核酸序列。扩增的靶序列可以相对于靶序列是相同的有义序列(即正链)或反义序列(即，负链)。

如本文使用的，术语“连接(ligating)”、“连接(ligation)”及其派生词通常是指将两个或更多个分子共价地连接在一起例如将两个或更多个核酸分子彼此共价连接的过程。在一些实施方案中，连接包括连接核酸的相邻核苷酸之间的切口(nick)。在一些实施方案中，连接包括在第一核酸分子的末端和第二核酸分子的末端之间形成共价键。在一些实施方案中，连接可以包括在一个核酸的5’磷酸基团和第二个核酸的3’羟基基团之间形成共价键，从而形成连接的核酸分子。通常出于本公开内容的目的，扩增的靶序列可以被连接至衔接子以产生衔接子连接的扩增的靶序列。本领域技术人员将认识到连接反应可能无法致使连接存在于反应中的所有分子。

如本文使用的，“连接酶”及其派生词通常是指能够催化两个底物分子连接的任何剂。在一些实施方案中，连接酶包括能够催化核酸的相邻核苷酸之间的切口的连接的酶。在一些实施方案中，连接酶包括能够催化一个核酸分子的5’磷酸与另一个核酸分子的3’羟基之间共价键的形成从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌(E.coli)DNA连接酶。

如本文使用的，“连接条件”及其派生词通常是指适用于将两个分子彼此连接的条件。在一些实施方案中，连接条件适用于封闭核酸之间的切口或缺口(gap)。如本文使用的，术语切口或缺口与本领域中该术语的使用一致。通常，切口或缺口可以在适当的温度和pH在酶诸如连接酶的存在下连接。在一些实施方案中，T4 DNA连接酶可以在约70℃-72℃的温度连接核酸之间的切口。

如本文使用的，术语“衔接子”及其派生词，例如通用衔接子，通常是指可以被连接至本公开内容的核酸分子的任何线性寡核苷酸。在一些实施方案中，衔接子与存在于样品中的任何靶序列的3’末端或5’末端基本上不互补。在一些实施方案中，合适的衔接子长度在约10个-100个核苷酸、约12个-60个核苷酸和约15个-50个核苷酸长度的范围内。通常，衔接子可以包括核苷酸和/或核酸的任何组合。在一些方面中，衔接子可以在一个或更多个位置处包括一个或更多个可裂解基团。在另一个方面中，衔接子可以包括与引物例如通用引物的至少一部分基本上相同或基本上互补的序列。在一些实施方案中，衔接子可以包括条形码或标签以帮助下游错误纠正、鉴定或测序。

术语“衔接子(adaptor)”和“衔接子(adapter)”可互换地使用。

如本文使用的术语“流动池”是指包含固体表面的室，一种或更多种流体试剂可以流动穿过所述室。可以在本公开内容的方法中容易地使用的流动池和相关流体系统和检测平台的实例在以下中描述：例如Bentley等,Nature 456:53-59(2008)；WO 04/018497；US7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US7,405,281和US 2008/0108082，每一个所述文献通过引用并入本文。

如本文使用的，术语“扩增子”，当提及核酸使用时，意指拷贝核酸的产物，其中产物具有与核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。可以通过使用核酸或其扩增子作为模板的多种扩增方法中的任何一种产生扩增子，所述多种扩增方法包括例如聚合酶延伸、聚合酶链式反应(PCR)、滚环扩增(RCA)、连接延伸或连接链式反应。扩增子可以是具有特定核苷酸序列的单个拷贝(例如PCR产物)或核苷酸序列的多个拷贝(例如RCA的多联体(concatameric)产物)的核酸分子。靶核酸的第一扩增子通常是互补拷贝。随后的扩增子是在产生第一扩增子后由靶核酸或由第一扩增子产生的拷贝。随后的扩增子可以具有与靶核酸基本上互补或与靶核酸基本上相同的序列。

如本文使用的，术语“扩增位点”是指阵列中或阵列上可以产生一个或更多个扩增子的位点。扩增位点还可以被配置为包含、保持或附接在该位点处产生的至少一个扩增子。

如本文使用的，术语“阵列”是指可以根据相对位置彼此区分开的位点的群体。在阵列的不同位点处的不同分子可以根据阵列中的位点的位置彼此区分开。阵列的单独位点可以包括一个或更多个特定类型的分子。例如，一个位点可以包含具有特定序列的单个靶核酸分子，或一个位点可以包含具有相同序列(和/或其互补序列)的若干核酸分子。阵列的位点可以是位于相同基底上的不同特征。示例性特征包括但不限于，基底中的孔、基底中或基底上的珠(或其他颗粒)、基底的突起(projection)、基底上的脊(ridge)或基底中的通道。阵列的位点可以是各自携带不同分子的单独基底。附接至单独的基底的不同分子可以根据基底在这些基底与之附接的表面上的位置或根据基底在液体或凝胶中的位置被鉴定。其中单独的基底位于表面上的示例性阵列包括但不限于在孔中具有珠的那些阵列。

如本文使用的，术语“容量”，当提及位点和核酸物质使用时，意指可以占据该位点的核酸物质的最大量。例如，该术语可以指在特定条件下可以占据该位点的核酸分子的总数目。也可以使用其他量度，包括例如在特定条件下可以占据该位点的核酸物质的总质量或特定核苷酸序列的拷贝的总数目。通常，位点对于靶核酸的容量将基本上等于位点对于靶核酸的扩增子的容量。

如本文使用的，术语“捕获剂”是指能够附接、保留或与靶分子(例如靶核酸)结合的物质、化学品、分子或其部分。示例性捕获剂包括但不限于与靶核酸的至少一部分互补的捕获核酸、能够与靶核酸(或与其附接的连接部分)结合的受体-配体结合对的成员(例如抗生物素蛋白、链霉抗生物素蛋白、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)，或能够与靶核酸(或与其附接的连接部分)形成共价键的化学试剂。

如本文使用的，术语“克隆群体”是指相对于特定核苷酸序列是同质的核酸的群体。同质序列通常为至少10个核苷酸长，但可以甚至更长，包括例如至少50个、100个、250个、500个或1000个核苷酸长。克隆群体可以来源于单个靶核酸或模板核酸。通常，克隆群体中的所有核酸将具有相同的核苷酸序列。将理解的是，克隆群体中可能出现少量突变(例如由于扩增假象(artifact))而不会偏离克隆性(clonality)。

术语“和/或”意指一个或所有的列出的要素或任何两个或更多个列出的要素的组合。

措辞“优选的”和“优选地”是指在某些情况下可以提供某些益处的本发明的实施方案。然而，其他的实施方案在相同或其他的情况下也可以是优选的。此外，对一个或更多个优选实施方案的叙述不暗示其他实施方案不是有用的，并且不意图从本发明的范围排除其他实施方案。

术语“包含(comprises)”及其变化形式在这些术语出现在本说明书和权利要求书中时不具有限制性含义。

应当理解的是，在本文中用语言“包括(include)”、“包括(includes)”或“包括(including)”等描述实施方案的任何位置，还提供了关于“由…组成(consisting of)”和/或“基本上由…组成(consisting essentially of)”描述的其他类似实施方案。

除非另有说明，“一(a)”、“一(an)”、“该(the)”和“至少一个(at least one)”可互换地使用并且意指一个或多于一个。

还在本文中，通过端点列举的数值范围包括归入该范围内的所有数字(例如，1至5包括1、1.5、2、2.75、3、3.80、4、5等)。

对于本文公开的包括离散步骤的任何方法，步骤可以以任何可行的顺序进行。并且，如适当的，两个或更多个步骤的任何组合可以同时进行。

附图简述

当结合以下附图阅读时，可以最好地理解对本公开内容的特定实施方案的以下详细描述。

图1、2、3和4是根据本文展示的公开内容的多个方面的衔接子的多个实施方案的示意图。

图5、6、7和8是根据本文展示的公开内容的多个方面的模板多核苷酸的多个实施方案的示意图，该模板多核苷酸具有衔接子-靶-衔接子分子(所述衔接子-靶-衔接子分子可以包括大体上如图1、2、3或4中分别示出的衔接子或其一部分)。

图9A和9B图示了索引跳跃现象的性质。图9A示出了来自给定样品的读段如何被不正确地去多重化并且在去多重化之后与不同的样品混合。图9B证明了双索引系统中的索引跳跃，其中它导致索引标签序列的预期不到的组合。

图10A和10B图示了测量给定系统中的索引跳跃率的一般方法。图10A示出了双衔接子板的示例性布局，其中96孔板的每一个单独孔包含独特的一对索引标签序列。图10B示出了旨在测量索引跳跃率的实验设置，其中仅使用独特的双索引标签组合。

图11A和11B图示了未连接的衔接子对索引跳跃率的影响。图11A示出了与游离衔接子的50％掺入相关的索引跳跃的6倍增加。图11B示出了在测试的范围内游离叉形衔接子对索引跳跃率的大致呈线性的影响。

图12A和12B图示了在Illumina

无PCR文库制备工作流程中，根据本发明的外切核酸酶处理在具有3’封闭(图12B)和没有3’封闭(图12A)的情况下对索引跳跃率的影响。

图13示出了在Illumina

无PCR文库制备工作流程中，根据本发明的组合的外切核酸酶处理和3’封闭处理在具有游离衔接子掺入和没有游离衔接子掺入的情况下对索引跳跃率的影响。

示意性附图不一定按比例。附图中使用的相同数字是指相同的组件、步骤等。然而，将理解的是，在给定的图中使用某一数字指代一个组件不意图限制在另一幅图中用同一数字标记该组件。此外，使用不同的数字指代多个组件不意图指示被不同编号的组件不能与其他编号的组件相同或相似。

详细描述

本文提供了组合物和方法，例如用于制备文库的方法、用于减轻索引跳跃对测序数据质量的影响的方法。

双链靶片段

在一个实施方案中，组合物包含多于一个双链靶片段。术语“靶片段”、“靶核酸片段”、“靶分子”、“靶核酸分子”和“靶核酸”可互换地用来指期望测序的诸如阵列上的核酸分子。靶核酸基本上可以是序列已知或未知的任何核酸。例如，靶核酸可以是基因组DNA或cDNA的片段。测序可能导致对全部或部分靶分子的序列的确定。靶可以来源于已经被随机片段化的初始核酸样品。在一个实施方案中，可以通过在每一个靶片段的末端处放置通用扩增序列例如存在于通用衔接子中的序列，将靶处理成适用于扩增的模板。靶还可以由初始RNA样品通过逆转录成cDNA获得。

初始核酸样品可以源自双链DNA(dsDNA)形式(例如基因组DNA片段、PCR和扩增产物等)样品，或可能源自单链形式，如DNA或RNA，从样品起源并且被转化为dsDNA形式。举例而言，可以使用本领域熟知的标准技术，将mRNA分子拷贝到适用于在本文描述的方法中使用的双链cDNA中。来自初始核酸样品的多核苷酸分子的精确序列对本发明通常是不重要的，并且可能是已知的或未知的。

在一个实施方案中，来自初始核酸样品的多核苷酸分子是RNA分子。在该实施方案的一个方面中，首先使用本领域已知的技术将从特定样品分离的RNA转化成双链DNA。根据本公开内容，然后用样品特异性标签将双链DNA标签化或编索引，无论它是否以RNA或DNA形式分离。通常，样品特异性标签作为通用衔接子的一部分存在。包含样品特异性标签的这样的双链DNA的不同制备物可以从从不同特定样品分离的RNA平行产生。随后，包含不同样品特异性标签的双链DNA的不同制备物可以被混合，全体测序，并且借助于样品特异性标签的存在，相对于从其它被分离/来源的样品确定每一个测序的靶片段的身份。在某些条件下，索引跳跃导致标记不同来源的样品特异性标签被混合或组合，使得单个靶片段例如在一个末端处具有鉴定出一个来源的样品特异性标签，并且在另一个末端处具有鉴定不同来源的样品特异性标签。这可以导致样品交叉污染，该样品交叉污染可以使测序实验的结果混淆。本文描述的方法减少了索引跳跃。

在一个实施方案中，来自初始核酸样品的初始多核苷酸分子是DNA分子。更特别地，初始多核苷酸分子代表生物体的整个遗传互补序列，并且是基因组DNA分子，其包括内含子和外显子序列二者，以及非编码调控序列诸如启动子和增强子序列。在一个实施方案中，可以使用多核苷酸序列或基因组DNA的特定子集，诸如，例如特定染色体。又更特别地，初始多核苷酸分子的序列是未知的。仍又更特别地，初始多核苷酸分子是人类基因组DNA分子。可以在任何随机片段化过程之前或之后，以及在连接通用衔接子序列之前或之后，化学地或酶促地处理DNA靶片段。

如本文定义的，“样品”及其派生词以其最广泛的意义使用，并且包括任何怀疑包含靶的样本、培养物等。在一些实施方案中，样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括包含一个或更多个核酸的任何基于生物、临床、手术、农业、大气或水生的样本。该术语还包括任何分离的核酸样品，诸如基因组DNA、新鲜冷冻或福尔马林固定的石蜡包埋核酸样本。还可以设想，样品可以是来自单个个体，来自遗传相关成员的核酸样品的集合，来自遗传不相关成员的核酸样品，来自单个个体的核酸样品(匹配的)诸如肿瘤样品和正常组织样品，或来自单个来源的包含两种不同形式的遗传物质诸如从母体受试者获得的母体和胎儿DNA的样品，或包含植物或动物DNA的样品中存在污染的细菌DNA。在一些实施方案中，核酸物质的来源可以包括从新生儿获得的例如通常用于新生儿筛查的核酸。

核酸样品可以包括高分子量的物质诸如基因组DNA(gDNA)。样品可以包括低分子量的物质，诸如从FFPE获得的核酸分子或存档的(archived)DNA样品。在另一个实施方案中，低分子量的物质包括酶促或机械片段化的DNA。样品可以包括无细胞循环DNA。在一些实施方案中，样品可以包括从活组织检查、肿瘤、刮取物(scrapings)、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖物、手术切除物和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中，样品可以是流行病学、农业、法医或病原性样品。在一些实施方案中，样品可以包括从动物诸如人类或哺乳动物来源获得的核酸分子。在另一个实施方案中，样品可以包括从非哺乳动物来源诸如植物、细菌、病毒或真菌获得的核酸分子。在一些实施方案中，核酸分子的来源可以是存档或灭绝的样品或物种。

此外，本文公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品，诸如来自法医样品的降解的和/或片段化的基因组DNA。在一个实施方案中，法医样品可以包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关的实验室获得的核酸，或包括由执法机构、一个或更多个军事部门或任何这样的人事部门获得的法医样品。核酸样品可以是纯化的样品或包含裂解物的粗DNA，例如来源于可以浸渍有唾液、血液或其他体液的口腔拭子、纸、织物或其他基质。因此，在一些实施方案中，核酸样品可以包含DNA诸如基因组DNA的少量的或片段化的部分。在一些实施方案中，靶序列可以存在于一种或更多种体液包括但不限于血液、痰、血浆、精液、尿液和血清中。在一些实施方案中，靶序列可以从受害者的毛发、皮肤、组织样品、尸体剖检或遗留物中获得。在一些实施方案中，包括一个或更多个靶序列的核酸可以从死亡的动物或人类获得。在一些实施方案中，靶序列可以包括从非人类DNA诸如微生物DNA、植物DNA或昆虫学DNA获得的核酸。在一些实施方案中，靶序列或扩增的靶序列针对人类鉴定的目的。在一些实施方案中，本公开内容通常涉及用于鉴定法医样品的特征的方法。在一些实施方案中，本公开内容通常涉及使用本文公开的一种或更多种靶特异性引物或使用本文概述的引物设计标准设计的一种或更多种靶特异性引物的人类鉴定方法。在一个实施方案中，包含至少一个靶序列的法医或人类鉴定样品可以使用本文公开的任何一种或更多种靶特异性引物或使用本文概述的引物标准扩增。

生物样品的来源的另外的非限制性实例可以包括完整生物体以及从患者获得的样品。生物样品可以从任何生物流体或组织获得，并且可以呈多种形式，包括液体流体和组织、实体组织以及保存的形式，诸如干燥的、冷冻的和固定的形式。样品可以是任何生物组织、细胞或流体。这样的样品包括但不限于痰、血液、血清、血浆、血细胞(例如，白细胞)、腹水、尿液、唾液、眼泪、痰、阴道液(排出液)、在医疗程序期间获得的洗液(例如在活组织检查、内窥镜检查术或手术期间获得的盆腔洗液或其他洗液)、组织、乳头抽吸物、芯针或细针活组织检查样品、包含细胞的体液、游离漂浮核酸、腹腔液和胸腔液或来自其的细胞。生物样品还可以包括组织的切片，诸如出于组织学目的而获取的冷冻的或固定的切片，或显微解剖的细胞或其细胞外部分。在一些实施方案中，样品可以是血液样品，诸如例如全血样品。在另一个实例中，样品是未处理的干血点(dried blood spot)(DBS)样品。在又另一个实例中，样品是福尔马林固定的石蜡包埋(FFPE)样品。在又另一个实例中，样品是唾液样品。在又另一个实例中，样品是干唾液点(dried saliva spot)(DSS)样品。

随机片段化是指通过酶促、化学或机械手段以无序的方式将来自初始核酸样品的多核苷酸分子片段化。这样的片段化方法是本领域已知的，并且使用标准方法(Sambrook和Russell,Molecular Cloning,A Laboratory Manual,第三版)。在一个实施方案中，片段化使用Gunderson等人(WO2016/130704)中公开的方法。为了清楚起见，通过特异性PCR扩增较大块(larger piece of)的核酸的较小片段产生此类较小片段不等同于将较大块的核酸片段化，因为较大块的核酸保持完整(即，没有被PCR扩增片段化)。此外，随机片段化被设计成不考虑包含断裂(break)和/或在断裂附近的核苷酸的序列身份或位置的片段。更特别地，随机片段化通过机械手段诸如雾化或声波处理来产生长度为约50个碱基对至长度为约1500个碱基对，仍更特别地长度为50个-700个碱基对，又更特别地长度为50个-400个碱基对的片段。最特别地，方法被用于产生长度为从50个-150个碱基对的较小片段。

多核苷酸分子通过机械手段(例如雾化、声波处理和Hydroshear)的片段化得到具有平末端和3’-突出末端和5’-突出末端的异质混合物的片段。因此使用本领域已知的方法或试剂盒(诸如Lucigen DNA终止子末端修复试剂盒)修复片段末端以产生最佳用于例如插入到克隆载体的平位点的末端是期望的。在一个特定实施方案中，核酸的群体的片段末端是平末端。更特别地，片段末端是平末端和磷酸化的。可以通过酶促处理例如使用多核苷酸激酶引入磷酸部分。

在一个特定实施方案中，通过例如某些类型的DNA聚合酶诸如Taq聚合酶或Klenowexo minus聚合酶的活性(具有非模板依赖性末端转移酶活性，将单个脱氧核苷酸例如脱氧腺苷(A)添加到DNA分子例如PCR产物的3’末端)，靶片段序列被制备为具有单个突出核苷酸。这样的酶可以被用于将单个核苷酸“A”添加到双链靶片段的每一条链的平末端的3’末端。因此，通过双链靶片段与Taq聚合酶或Klenow exo minus聚合酶反应，“A”可以被添加到每个末端修复的链的3’末端，而通用衔接子多核苷酸构建体可以是具有可相容的T-构建体，该“T”突出端存在于通用衔接子的双链核酸的每一个区域的3’末端上。这种末端修饰还防止载体和靶二者的自连接，使得存在对形成组合的连接的衔接子-靶-衔接子分子的偏好。

通用衔接子

方法包括将通用衔接子附接至从来源分离的双链靶片段的每一个末端，以得到衔接子-靶-衔接子分子。附接可以通过使用连接的标准文库制备技术，或通过使用转座酶复合物的标记片段化(tagmentation)(Gunderson等人,WO 2016/130704)。

在一个实施方案中，每一个特定片段化的样品的双链靶片段通过首先将相同的通用衔接子分子(“错配的衔接子”，其一般特征在下文被定义，并且在共同未决的申请，Gormley等人,US 7,741,463和Bignell等人,US8,053,192中进一步描述)连接至双链靶片段(其可以是已知的、部分已知的或未知的序列)的5’末端和3’末端，以形成衔接子-靶-衔接子分子进行处理。在一个实施方案中，通用衔接子包括用于将衔接子-靶-衔接子分子固定在阵列上用于随后测序必需的所有序列。在另一个实施方案中，在固定和测序之前，使用PCR步骤以进一步修饰存在于每一个衔接子-靶-衔接子分子中的通用衔接子。例如，使用通用引物结合位点实施初始引物延伸反应，其中形成与每一个单独的衔接子-靶-衔接子分子的两条链互补的延伸产物并且添加通用延伸引物位点。所得的引物延伸产物及其任选地扩增的拷贝共同提供了模板多核苷酸的文库，该模板多核苷酸的文库可以被固定并且然后测序。术语通用引物结合位点和通用延伸引物位点在本文中详细描述。术语文库是指在靶片段的3’末端和5’末端处包含已知共有序列的靶片段的集合，并且还可以被称为3’和5’修饰的文库。

本公开内容的方法中使用的通用衔接子多核苷酸在本文中被称为“错配的”衔接子，因为如本文将详细解释的，衔接子包括序列错配的区域，即它们不由完全互补的多核苷酸链的退火形成。

用于本文使用的错配的衔接子是由两条部分互补的多核苷酸链的退火形成的，以当两条链退火时，提供至少一个也被称为双链核酸区域的双链区域，和至少一个也被称为单链非互补核酸链区域的不匹配单链区域。

通用衔接子的“双链区域”是短的双链区域，通常包括5个或更多个连续的碱基对，由两条部分互补的多核苷酸链的退火形成。该术语是指核酸的在其中两条链退火的双链区域，并且不暗示任何特定结构构象。如本文使用的，术语“双链”，当提及核酸分子使用时，意指核酸分子中基本上所有的核苷酸都氢键合至互补核苷酸。部分双链核酸可以使其核苷酸至少10％、25％、50％、60％、70％、80％、90％或95％与互补核苷酸氢键合。

通常，双链区域尽可能短且不损失功能是有益的。在本文中，“功能”是指双链区域在用于酶催化的核酸连接反应的标准反应条件下形成稳定双链体使得形成通用衔接子的两条链在通用衔接子连接至靶分子期间保持部分退火的能力，所述标准反应条件对于熟练技术读者将是熟知的(例如，在适用于酶的连接缓冲液中在4℃至25℃范围内的温度孵育)。不绝对必要的是，双链区域在引物延伸或PCR反应的退火步骤中通常使用的条件下是稳定的。

因为相同的通用衔接子被连接至每一个靶分子的两个末端，每一个衔接子-靶-衔接子分子中的靶序列的侧翼将是来源于通用衔接子的双链区域的互补序列。在衔接子-靶-衔接子构建体中，双链区域越长并且因此来源于其的互补序列越长，衔接子-靶-衔接子构建体在引物延伸和/或PCR中使用的退火条件下能够在具有内部自互补性的这些区域中回折(fold back)并且与自身碱基配对的可能性越大。因此，通常优选的是，双链区域的长度为20个或更少、15个或更少、或10个或更少碱基对以降低这种影响。双链区域的稳定性可以通过包括表现出比标准Watson-Crick碱基对更强的碱基配对的非天然核苷酸来增加，并且因此它的长度可能减少。

在一个实施方案中，通用衔接子的两条链在双链区域中100％互补。将理解的是，在双链区域内可以容忍一个或更多个核苷酸错配，只要两条链能够在标准连接条件下形成稳定双链体。

用于本文使用的通用衔接子将通常包括形成衔接子的“可连接”末端(即在连接反应中被连接至双链靶片段的末端)的双链区域。通用衔接子的可连接末端可以是平的，或在其他实施方案中，可以存在一个或更多个核苷酸的短5’突出端或3’突出端以帮助(facilitate)/促进(promote)连接。通用衔接子的可连接末端处的5’末端核苷酸通常被磷酸化以能够使磷酸二酯连接至靶多核苷酸上的3’羟基基团。

术语“不匹配的区域”是指通用衔接子的一个区域，即单链非互补核酸链的区域，其中形成通用衔接子的两条多核苷酸链的序列表现出一定程度的非互补性，使得两条链不能够在用于引物延伸或PCR反应的标准退火条件下彼此完全退火。一个或更多个不匹配的区域可以在用于酶催化的连接反应的标准反应条件下表现出一定程度的退火，只要两条链在扩增反应中在退火条件下回复到单链形式。

单链非互补核酸链的区域包括至少一个通用引物结合位点。通用引物结合位点是可以被用于扩增和/或测序连接至通用衔接子的靶片段的一种通用序列。

单链非互补核酸链的区域还包括至少一个样品特异性标签。本发明的方法使用样品特异性标签作为阵列上特定靶片段的来源的特征性标志物。通常，样品特异性标签是核苷酸的合成序列，样品特异性标签是作为模板或文库制备步骤的一部分被添加到靶片段的通用衔接子的一部分。因此，样品特异性标签是附接至特定样品的每一个靶分子的核酸序列标签，其存在指示或用于鉴定靶分子从其分离的样品或来源。

优选地，样品特异性标签的长度可以高达20个核苷酸，更优选地1个-10个核苷酸，并且最优选地长度为4个-6个核苷酸。四核苷酸标签给出了在同一的阵列上多重化256个样品的可能性，六碱基标签使得能够在同一的阵列上处理4096个样品。

单链非互补核酸链的区域还包括至少一个通用延伸引物结合位点。通用延伸引物结合位点可以被用于使用与通用延伸引物结合位点互补的通用捕获核酸的群体捕获多种不同的核酸，例如多种不同的衔接子-靶-衔接子分子。在一个实施方案中，通用延伸引物结合位点当它被连接至双链靶片段时是通用衔接子的一部分，并且在另一个实施方案中，通用延伸引物结合位点在通用衔接子被连接至双链靶片段后被添加到通用衔接子上。添加可以使用常规方法完成，包括基于PCR的方法。

应该理解的是，“不匹配的区域”由形成双链区域的相同的两条多核苷酸链的不同部分提供。衔接子构建体中的错配可以采取一条链比另一条链更长的形式，使得在一条链上存在单链区域，或者在两条链上存在被选择使得两条链不杂交并且因此形成单链区域的序列。错配还可以采取“气泡(bubbles)”的形式，其中一个或更多个通用衔接子构建体的两个末端能够彼此杂交并且形成双链体，但中央区域不能够彼此杂交并且形成双链体。一条或更多条链的形成不匹配的区域的部分在相同两条链的其他部分退火以形成一个或更多个双链区域的条件下不退火。为避免疑问，应当理解的是，多核苷酸双链体的3’末端处的随后经历与靶序列的连接的单链突出端或单碱基突出端不构成本公开内容的上下文中的“不匹配的区域”。

不匹配的区域的长度的下限值将通常由功能决定，例如，需要提供合适的序列用于i)引物的结合以便引物延伸、PCR和/或测序(例如，引物与通用引物结合位点的结合)，或用于ii)通用捕获核酸的结合以用于将衔接子-靶-衔接子固定到表面(例如，通用捕获核酸与通用延伸引物结合位点的结合)。理论上，不存在不匹配的区域的长度的上限值，除了通常将通用衔接子的总长度最小化是有益的，例如，以促进在连接步骤之后将未结合的通用衔接子与衔接子-靶-衔接子构建体分离。因此，通常优选的是，不匹配的区域的长度应当少于50个、或少于40个、或少于30个、或少于25个连续核苷酸。

通用衔接子的精确核苷酸序列通常对本发明不重要，并且可以由使用者选择，使得期望的序列元件最终被包括在来源于通用衔接子的模板的文库的共有序列中，以例如提供用于特定组的通用扩增引物和/或测序引物和/或通用捕获核酸的结合位点。可以包括另外的序列元件以例如提供用于测序引物的结合位点，其将最终用于例如固体支持物上的文库中的模板分子或来源于模板文库扩增的产物的测序。

虽然通用衔接子的精确核苷酸序列通常不限于本公开内容，但不匹配的区域中的单独链的序列应当使得单独链不表现出可以在标准退火条件下导致自退火、发夹结构的形成等的任何内部自互补性。避免一条链在不匹配的区域中的自退火，因为它可能阻止或降低扩增引物与这条链的特异性结合。

错配的衔接子优选地由DNA的两条链形成，但可以包括由磷酸二酯骨架连接和非磷酸二酯骨架连接的混合物连接的天然核苷酸和非天然核苷酸(例如一种或更多种核糖核苷酸)的混合物。可以包括其他非核苷酸修饰，诸如例如生物素部分、封闭基团和用于附接至固体表面的捕获部分，如下文进一步详细讨论的。

通用衔接子可以包含外切核酸酶耐受的修饰诸如硫代磷酸酯连接。这样的修饰减少了存在于文库中的衔接子二聚体的数目，因为两个衔接子不能在不去除它们的非互补突出端的情况下经历连接。在一个实施方案中，衔接子可以在与靶连接反应之前用外切核酸酶处理，以确保链的突出末端在连接过程期不能被去除。以这种方式处理衔接子减少了连接步骤中衔接子二聚体的形成。

连接和扩增

连接方法是本领域已知的并且使用标准方法。这样的方法使用连接酶诸如DNA连接酶以实现或催化在这种情况下通用衔接子和双链靶片段的两条多核苷酸链的末端的连接，使得共价连接形成。通用衔接子可以包含5’-磷酸部分以促进连接至存在于靶片段上的3’-OH。双链靶片段包含从剪切过程剩余的或使用酶促处理步骤添加的5’-磷酸部分，并且已经被末端修复，并且任选地延伸出一个突出碱基或更多个突出碱基，以给出适用于连接的3’-OH。在本文中，连接意指先前未共价连接的多核苷酸链的共价连接。在本公开内容的一个特定方面中，这样的连接通过在两条多核苷酸链之间形成磷酸二酯连接而发生，但可以使用共价连接的其他手段(例如非磷酸二酯骨架连接)。

如本文讨论的，在一个实施方案中，在连接中使用的通用衔接子是完整的并且包括通用引物结合位点、样品特异性标签序列和通用延伸引物结合位点。所得的多于一个衔接子-靶-衔接子分子可以被用于制备用于测序的固定样品。

还如本文讨论的，在一个实施方案中，在连接中使用的通用衔接子包括通用引物结合位点和样品特异性标签序列，并且不包括通用延伸引物结合位点。所得的多于一个衔接子-靶-衔接子分子可以被进一步修饰以包括特异性序列，诸如通用延伸引物结合位点。用于将特异性序列诸如通用延伸引物结合位点添加到被连接至双链靶片段的通用引物的方法包括基于PCR的方法，并且是本领域已知的并且在例如Bignell等人(US 8,053,192)和Gunderson等人(WO2016/130704)中描述。

在其中通用衔接子被修饰的那些实施方案中，准备了扩增反应。扩增反应的内容物是本领域技术人员已知的，并且包括扩增反应所需要的适当的底物(诸如dNTP)、酶(例如DNA聚合酶)和缓冲液组分。通常，扩增反应需要至少两种扩增引物，通常表示为“正向”引物和“反向”引物(引物寡核苷酸)，所述两种扩增引物能够在扩增反应的每一个循环的引物退火步骤中遇到的条件下特异性退火到待扩增的多核苷酸序列的一部分。在某些实施方案中，正向引物和反向引物可以是相同的。因此，引物寡核苷酸必须包括“衔接子-靶特异性部分”，该“衔接子-靶特异性部分”是在退火步骤期间能够退火到待扩增的多核苷酸分子(或其互补序列，如果模板被视为单链的)中的一部分(即引物结合序列)的核苷酸的序列。

根据本发明的一个实施方案，扩增引物可以对所有样品通用，或正向引物或反向引物中的一种可以携带编码样品来源的标签序列。扩增引物可以跨越连接的衔接子的标签区域杂交，在这种情况下对于每一种样品核酸将需要独特引物。扩增反应可以用多于两种扩增引物进行。为了防止扩增出连接的衔接子-衔接子二聚体，扩增引物可以被修饰为包含跨越整个连接的衔接子并且进入连接的模板(或附接至其3’末端的dNTP)杂交的核苷酸。该第一扩增引物可以被修饰和处理以帮助防止链的外切核酸酶消化，并且因此可能有益的是具有通用的并且可以扩增所有样品的第一扩增引物，而不是单独地修饰和处理每一种标记的引物。标签化的引物可以作为样品特异性第三引物引入扩增反应中，但不需要特别修饰和处理来减少外切核酸酶消化。在该实施方案的情况下，携带标签的第三扩增引物需要包含与第一扩增引物的至少一部分相同的序列，使得它可以被用于扩增从第一扩增引物的延伸得到的双链体。

在本发明的上下文中，术语“待扩增的多核苷酸分子”是指被添加到扩增反应的原始或起始衔接子-靶-衔接子分子。正向扩增引物和反向扩增引物中的“衔接子-靶特异性部分”是指能够退火到扩增反应开始时存在的原始或初始衔接子-靶-衔接子的序列，并且提及“衔接子-靶特异性部分”的长度涉及退火到起始衔接子-靶的引物中的序列的长度。将理解的是，如果引物包含在第一个扩增循环中不退火到起始衔接子-靶的任何核苷酸序列，那么该序列可以被拷贝到扩增产物中(假设引物不包含防止聚合酶读出(read-through)的部分)。因此在第一个和随后的扩增循环中产生的扩增的模板链可能比起始衔接子-靶链更长。

因为错配的衔接子可以是不同长度，添加到每一条链的3’末端和5’末端的衔接子序列的长度可以是不同的。扩增引物还可以彼此具有不同长度，并且可以与不同长度的衔接子杂交，并且因此可以控制添加到每一条链的末端的长度。在巢式PCR的情况下，三种或更多种扩增引物可以被设计成比用于扩增先前的扩增子的引物更长，因此添加的核苷酸的长度是完全可控的，并且如果是期望的，可以是数百个碱基对。在一个实施方案中，第一扩增引物将13个碱基添加到连接的衔接子，并且第三扩增引物添加另外27个碱基，使得扩增子的一个末端比衔接子-靶构建体的短臂长40个碱基。衔接子的短臂的长度为20个碱基，意指制备的模板包含基因组区域加上末端处添加的60个碱基。第二扩增引物比衔接子的长臂长25个碱基，衔接子的长臂的长度为32个碱基加上跨越添加到基因组样品的DATP核苷杂交的另外一个T。因此，制备的模板包含基因组片段加上添加的DATP加上57个已知碱基。因此总的来说，每一个模板双链体的一条链从5’末端起包含：60个已知碱基、T、基因组片段、A、57个已知碱基-3’末端。该链与以下序列完全互补：5’-57个已知碱基、T、基因组片段、A、60个已知碱基-3’末端。长度57和6是任意的，并且是出于说明的目的示出的，并且不应当被视为限制。取决于期望的实验设计，添加的序列的长度可以是20个-100个碱基或更多。

正向引物和反向引物可以具有足以与整个衔接序列和靶序列的至少一个碱基(或作为靶链上的3’-突出端添加的核苷酸DNTP)杂交的长度。正向引物和反向引物还可以包含延伸超过衔接子构建体的区域，并且因此扩增引物的长度可以是至少20个-100个碱基。正向引物和反向引物可以具有显著不同的长度；例如，一种的长度可以是20个-40个碱基，而另一种的长度可以是40个-100个碱基。选择正向引物和反向引物的衔接子-靶特异性部分的核苷酸序列，以在扩增反应的退火步骤的条件下实现与待扩增的衔接子-靶序列的特异性杂交，同时将与存在的任何其他靶序列的非特异性杂交最小化。

熟练技术读者将理解，不严格要求衔接子-靶特异性部分是100％互补的，用较不完全互补的序列可以达到令人满意的特异性退火水平。特别地，衔接子-靶特异性部分中的一个或两个错配通常是可以容忍的，而不对模板的特异性产生不良影响。因此，术语“衔接子-靶特异性部分”不应当被理解为要求与衔接子-靶100％互补。然而，必须满足引物除了它们各自的引物结合序列之外不非特异性退火到衔接子-靶的区域的要求。

扩增引物通常是单链多核苷酸结构。它们还可以包含天然碱基和非天然碱基的混合物并且也包含天然骨架连接和非天然骨架连接，只要任何非天然修饰不排除作为引物的功能，引物的功能被定义为在扩增反应的条件期间退火到模板多核苷酸链并且充当用于合成与模板链互补的新多核苷酸链的初始点的能力。

引物可以另外地包含非核苷酸化学修饰例如硫代磷酸酯以增加外切核酸酶耐受性，同样只要使得修饰不防止引物功能。修饰可以例如促进引物附接至固体支持物，例如生物素部分。某些修饰本身可以改进分子作为引物的功能，或可以提供一些其他有用的功能，诸如提供用于裂解的位点，以使引物(或来源于其的延伸的多核苷酸链)能够从固体支持物裂解。

在其中标签被附接至衔接子的一个实施方案中，可以对汇集的或未汇集的样品实施扩增。在其中使用通用衔接子的一个实施方案中，标签是扩增引物的一部分，并且因此，每一个样品在汇集之前被独立地扩增。然后可以处理汇集的核酸样品用于测序。

不期望的分子的去除

将组合的连接的多核苷酸序列(衔接子-靶-衔接子分子)、未连接的通用衔接子多核苷酸构建体、和/或不完整产物被暴露于将不期望的分子例如未连接的通用衔接子多核苷酸构建体和/或不完整产物的量减少或消除至不可检测水平的条件。用于减少不期望的分子的方法可以对每一个文库单独进行或对汇集的样品进行。在一个实施方案中，可以使用凝胶纯化或固相反向固定化(solid phase reverse immobilization)(SPRI)方法。用于分离未连接的DNA分子诸如本文描述的未连接的通用衔接子多核苷酸构建体的凝胶纯化和SPRI方法是本领域技术人员已知的并且是常规的，并且可以被本领域技术人员容易地应用于去除不完整产物。

在一个优选的实施方案中，不期望的分子诸如未连接的通用衔接子多核苷酸构建体被外切核酸酶去除。在一个实施方案中，本文中有用的外切核酸酶具有5’至3’DNA外切核酸酶活性，并且任选地，外切核酸酶偏好双链DNA。在一个实施方案中，外切核酸酶特异性靶向双链DNA的5’末端，其中该5’末端具有5’磷酸。在另一个实施方案中，外切核酸酶特异性靶向双链DNA的5’末端，其中该5’末端没有5’磷酸。不意图为限制性的，本文中有用的具有5’至3’DNA外切核酸酶活性的外切核酸酶的使用被设计成通过在通用衔接子的双链区域的5’末端处的消化来去除未连接的通用衔接子的至少一条链。

在一个实施方案中，本文中有用的外切核酸酶具有5’至3’DNA外切核酸酶活性，该外切核酸酶偏好双链DNA，该双链DNA在通用衔接子的双链核酸区域的5’末端处具有5’磷酸。偏好双链核酸区域的5’末端处具有5’磷酸的dsDNA的5’至3’外切核酸酶的实例包括但不限于λ外切核酸酶(New England Biolabs)。双链区域的5’末端处的5’磷酸的存在使外切核酸酶诸如λ外切核酸酶偏好未连接的通用衔接子的双链区域的5’末端。在一个实施方案中，链的为单链非互补核酸链的区域的一部分的5’末端不包括5’磷酸。在一个实施方案中，链的为单链区域的一部分的5’末端被修饰以降低外切核酸酶将它用作底物的能力。

在另一个实施方案中，本文中有用的外切核酸酶具有5’至3’DNA外切核酸酶活性和3’至5’DNA外切核酸酶活性二者。当这样的外切核酸酶偏好双链DNA但也使用单链DNA作为底物时，用于连接的通用衔接子可以包括两种类型的修饰。一种修饰是在单链区域的3’末端处以封闭3’至5’DNA外切核酸酶活性。这种修饰防止衔接子-靶-衔接子分子从游离3’末端消化。第二种修饰是在链的为单链非互补核酸链的区域的一部分的5’末端处。这种修饰防止衔接子-靶-衔接子分子从游离5’末端消化。修饰的实例包括但不限于，包括硫代磷酸酯连接。具有5’至3’DNA外切核酸酶活性和3’至5’DNA外切核酸酶活性并且偏好双链DNA的外切核酸酶的实例包括但不限于截短的外切核酸酶VIII(New England Biolabs)。

在一个优选的实施方案中，不期望的分子诸如不完整产物被外切核酸酶去除。在一个实施方案中，本文中有用的外切核酸酶具有3’至5’DNA外切核酸酶活性，并且任选地，外切核酸酶对偏好平末端的或具有凹进3’末端的双链DNA。在一个实施方案中，具有3’至5’DNA外切核酸酶活性的外切核酸酶具有降低的对单链DNA的活性(例如，它偏好双链DNA)和/或当单链的长度为4个或更多个碱基时具有降低的对3’延伸的活性(例如，它偏好具有3个碱基或更少碱基的单链3’延伸的双链DNA)。不意图为限制性的，本文中有用的具有3’至5’DNA外切核酸酶活性的外切核酸酶的使用被设计成通过在不完整产物的双链区域的3’末端处的消化来去除不完整产物的至少一条链。不完整产物的实例包括衔接子-靶分子和在任一末端处不包括衔接子的靶分子。偏好具有平的或凹进的3’末端的双链DNA的3’至5’外切核酸酶的实例包括但不限于外切核酸酶III(New England Biolabs)。

在外切核酸酶处理期间或之后，可能得到许多化合物和组合物。例如，可以得到包含具有衔接子-靶-衔接子核苷酸序列的多核苷酸的化合物或组合物，其中多核苷酸的3’末端因外切核酸酶活性而被封闭。可以得到包含多于一个这样的3’封闭的多核苷酸的文库或组合物。可以得到这样的多核苷酸的汇集的文库和包含这样的多核苷酸的汇集的文库的组合物。组合物还可以包含未附接至靶多核苷酸的通用衔接子和/或不完整产物。

以另外的实例为例，可以得到包含具有衔接子-靶-衔接子核苷酸序列的多核苷酸和外切核酸酶的组合物。相似地，可以得到包含文库多核苷酸和外切核酸酶的组合物。可以得到包含这样的多核苷酸的汇集的文库和外切核酸酶的组合物。组合物还可以包含未附接至靶多核苷酸的通用衔接子。

3’封闭

在一个实施方案中，除了减少或消除一定量的不期望的分子诸如未连接的衔接子和/或不完整产物之外，组合的连接的多核苷酸序列(衔接子-靶-衔接子分子)和不期望的分子例如未连接的通用衔接子多核苷酸任选地是3’封闭的，意指多核苷酸被修饰以防止核苷酸在3’末端上掺入而从3’末端延伸多核苷酸或寡核苷酸。可以对单独的每一个文库或对汇集的文库进行3’封闭。

所得的组合物可以经历3’封闭反应，以封闭样品中的多核苷酸或寡核苷酸诸如衔接子-靶-衔接子多核苷酸或剩余的未连接的通用衔接子的3’末端。具有“封闭的”3’末端的寡核苷酸或多核苷酸通过在5’至3’方向上添加另外的核苷酸的延伸由于封闭的3’末端而被阻止。

3’封闭可以以任何合适的方式完成。例如，封闭部分可以被共价附接至3’末端处的3’羟基基团以防止从3’末端延伸。

在一些实施方案中，3’-OH封闭基团可以是可去除的，使得3’碳原子已经被附接了结构为—O—Z的基团，其中Z是—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″、—C(R′)₂—S—R″和—C(R′)₂—F的任何一种，其中每个R″是可去除的保护基团或是可去除的保护基团的一部分；每个R’独立地为氢原子、烷基、取代的烷基、芳基烷基、烯基、炔基、芳基、杂芳基、杂环、酰基、氰基、烷氧基、芳氧基、杂芳氧基或酰胺基团，或通过连接基团附接的可检测标记物；或(R′)₂代表式═C(R′″)₂的亚烷基基团，其中每个R′″可以是相同的或不同的，并且选自包含氢和卤素原子以及烷基基团的组；并且其中所述分子可以反应以产生中间体，其中每个R″被交换为H，或其中Z是—C(R′)₂—F，F被交换为OH、SH或NH₂，优选地交换为OH，其中间体在水性条件下解离以提供具有游离3’OH的分子；条件是当Z是—C(R′)₂—S—R″时，两个R′基团不是H。在封闭基团是—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″、—C(R′)₂—S—R″和—C(R′)₂—F的任何一个，即式Z的任何一个的情况下，每个R′可以独立地为H或烷基。优选地，Z具有式—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″和—C(R′)₂—SR″。特别优选地，Z具有式—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂和—C(R′)₂—SR″。R″可以是苄基基团或取代的苄基基团。结构—O—Z(其中Z是—C(R′)₂—N(R″)₂)的基团的一个实例是其中—N(R″)₂是叠氮基(-N₃)的那些基团。一个这样的实例是叠氮基甲基，其中每个R’是H。可选地，式—C(R′)₂—N₃的Z基团和其他Z基团中的R’可以是本文讨论的任何其他基团。典型的R’基团的实例包括C_1-6烷基，特别是甲基和乙基。合适的3’封闭基团的其他非限制性实例在以下中提供：Greene等人"Protective Groups in OrganicSynthesis,"John Wiley&Sons,New York(1991)、美国专利第5,990,300号、第5,872,244号、第6,232,465号、第6,214,987号、第5,808,045号、第5,763,594号、第7,057,026号、第7,566,537号、第7,785,796号、第8,148,064号、第8,394,586号、第9,388,463号、第9,410,200号、第7,427,673号、第7,772,384号、第8,158,346号、第9,121,062号、第7,541,444号、第7,771,973号、第8,071,739号、第8,597,881号、第9,121,060号、第9,388,464号、第8,399,188号、第8,808,988号、第9,051,612号、第9,469,873号和美国公布第2016/0002721号和第2016/0060692号，其全部内容通过引用并入本文。

在一些实施方案中，封闭基团可以在与将衔接子-靶-衔接子多核苷酸固定到固体表面以及测序相关的后续过程期间保持共价结合。

在一些实施方案中，双脱氧核苷酸(ddNTP)被掺入到多核苷酸的3’末端上以封闭3’末端。ddNTP可以以任何合适的方式掺入。在一些实施方案中，ddNTP通过末端脱氧核苷酸转移酶(TdT)掺入。TdT能够在没有模板的情况下将核苷酸掺入到单链或双链DNA的3’末端上。在一些实施方案中，将ddNTP在DNA聚合酶诸如例如Pol19、Pol812或Pol963聚合酶的存在下通过TdT掺入到3’末端上。其他合适的聚合酶的非限制性实例在美国专利第8,460,910号、第8,852,910号、第8,623,628号、第9,273,352号、第9,447,389号和美国公布第2015/0376582号、第2016/0032377号、第2016/0090579号、第2016/0115461号中提供，其全部内容通过引用并入本文。

在一些实施方案中，将地高辛标记的双脱氧尿苷三磷酸使用末端转移酶添加到3’末端以封闭3’末端。用于将地高辛标记的双脱氧尿苷三磷酸添加到多核苷酸的3’末端的试剂盒从例如Sigma-Aldrich可得。

还可以使用任何其他合适的方法来修饰多核苷酸的3’末端。

在3’封闭期间或之后，可能得到许多化合物和组合物。例如，可以得到包含具有衔接子-靶-衔接子核苷酸序列的多核苷酸的化合物或组合物，其中多核苷酸的3’末端被封闭。可以得到包含多于一个这样的3’封闭的多核苷酸的文库或组合物。可以得到这样的多核苷酸的汇集的文库和包含这样的多核苷酸的汇集的文库的组合物。组合物还可以包含未附接至靶多核苷酸的通用衔接子。

以另外的实例为例，可以得到包含具有衔接子-靶-衔接子核苷酸序列的多核苷酸以及用于封闭多核苷酸的3’末端的酶和试剂的组合物。相似地，可以得到包含多核苷酸的文库以及酶和试剂的组合物。可以得到包含这样的多核苷酸的汇集的文库以及酶和试剂的组合物。组合物还可以包含未附接至靶多核苷酸的衔接子寡核苷酸。在一些实施方案中，组合物包含ddNTP。组合物还可以包含DNA聚合酶，诸如例如Pol19、Pol812或Pol963聚合酶。

另外的组合物可以包含具有衔接子-靶-衔接子核苷酸序列的多核苷酸、用于封闭多核苷酸3’末端的酶和试剂以及外切核酸酶。相似地，可以得到包含多核苷酸的文库、酶和试剂以及外切核酸酶的组合物。可以得到包含这样的多核苷酸的汇集的文库、酶和试剂以及外切核酸酶的组合物。组合物还可以包含未附接至靶多核苷酸的衔接子寡核苷酸。在一些实施方案中，组合物包含ddNTP。组合物还可以包含DNA聚合酶，诸如例如Pol19、Pol812或Pol963聚合酶。

在封闭之后，可以进行诸如上文描述的清理的步骤，然后将多核苷酸固定在固体表面上用于测序。

用于减少或消除一定量的未连接的通用衔接子多核苷酸构建体的方法和用于将多核苷酸3’封闭的方法可以同时进行，或以任何顺序依次进行。

如果文库尚未被汇集，它们可以在固定在测序表面之前被汇集。

本文描述的减少或消除未连接的通用衔接子的外切核酸酶处理可以在连接之后立即被使用，或可以在添加通用延伸引物结合位点的基于PCR的方法之后被使用。

用于测序的固定的样品的制备

来自一个或更多个来源的多于一个衔接子-靶-衔接子分子然后在测序之前被固定和扩增。用于将来自一个或更多个来源的衔接子-靶-衔接子分子附接至基底的方法是本领域已知的。同样地，用于扩增固定的衔接子-靶-衔接子分子的方法包括但不限于桥式扩增和动力学排除。用于在测序之前固定和扩增的方法在例如Bignell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中描述。

然后可以固定样品，包括汇集的样品，准备用于测序。测序可以以单分子的阵列进行，或可以在测序之前被扩增。扩增可以使用一种或更多种固定的引物实施。一种或更多种固定的引物可以是平面表面上或珠的池上的坪(lawn)。珠的池可以被分离成乳液，而在乳液的每个“区室(compartment)”中具有单个珠。在每个“区室”仅一个模板的浓度，每个珠上仅单个模板被扩增。

如本文使用的术语“固相扩增”是指在固体支持物上或与固体支持物缔合实施的任何核酸扩增反应，使得全部或一部分扩增产物在它们形成时被固定在固体支持物上。特别地，该术语包括固相聚合酶链式反应(固相PCR)和固相等温扩增，其是与标准溶液相扩增类似的反应，不同之处是正向扩增引物和反向扩增引物的一种或两种被固定在固体支持物上。固相PCR覆盖了系统，诸如其中一种引物被锚定到珠而另一种在自由溶液(freesolution)中的乳液，以及在固相凝胶基质中的克隆(colony)形成，其中一种引物被锚定到表面并且一种在自由溶液中。

在一些实施方案中，固体支持物包括图案化表面。“图案化表面”是指不同区域在固体支持物暴露的层中或暴露的层上的布置。例如，一个或更多个区域可以是其中存在一个或更多个扩增引物的特征。特征可以被其中不存在扩增引物的间隙区域分开。在一些实施方案中，图案可以是呈行和列的x-y格式的特征。在一些实施方案中，图案可以是特征和/或间隙区域的重复布置。在一些实施方案中，图案可以是特征和/或间隙区域的随机布置。可以被用于本文阐述的方法和组合物中的示例性图案化表面在美国专利第8,778,848号、第8,778,849号和第9,079,148号和美国公布第2014/0243224号中描述，每一个所述文献通过引用并入本文。

在一些实施方案中，固体支持物包括表面中的孔或凹坑(depression)的阵列。如本领域通常已知的，这可以使用多种技术被制造，所述多种技术包括但不限于光刻术(photolithography)、冲压技术、模塑技术和显微蚀刻技术。如将被本领域人员理解的，使用的技术将取决于阵列基底的组成和形状。

图案化表面中的特征可以是在具有图案化、共价连接的凝胶的玻璃、硅、塑料或其他合适的固体支持物上的孔的阵列中的孔(例如，微孔或纳米孔)，所述凝胶诸如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见，例如，美国公布第2013/184796号、WO 2016/066586和WO 2015/002813，每一个所述文献通过引用以其整体并入本文)。该过程产生用于测序使用的凝胶垫，其可以经大量循环的测序运行稳定。聚合物与孔的共价连接有助于在多种用途期间在结构化基底的整个寿命间将凝胶维持在结构化特征中。然而，在许多实施方案中，凝胶不必与孔共价连接。例如，在一些条件下，不共价附接至结构化基底的任何部分的不含硅烷的丙烯酰胺(SFA，参见例如美国专利第8,563,477号，其通过引用以其整体并入本文))可以用作凝胶材料。

在特定实施方案中，可以通过用孔(例如微孔或纳米孔)将固体支持物材料图案化，用凝胶材料(例如，PAZAM、SFA或其化学修饰的变体，诸如叠氮化形式的SFA(叠氮-SFA))涂覆图案化支持物，并且例如通过化学或机械抛光来抛光凝胶涂覆的支持物，从而将凝胶保留在孔中，但去除结构化基底的表面上孔之间的间隙区域的基本上所有的凝胶或使基本上所有的凝胶失去活性。引物核酸可以被附接至凝胶材料。然后可以使靶核酸(例如，片段化的人类基因组)的溶液与抛光的基底接触，使得单独的靶核酸将通过与附接至凝胶材料的引物相互作用而对单独的孔接种；然而，由于凝胶材料不存在或无活性，靶核酸将不占据间隙区域。靶核酸的扩增将被限制于孔，因为间隙区域中的凝胶不存在或无活性阻止了增长中的核酸克隆的向外迁移。该过程是方便地可制造的，可扩大规模并且使用常规微米或纳米制造方法。

虽然本发明包括其中仅一种扩增引物被固定(另一种引物通常存在于自由溶液中)的“固相”扩增方法，但优选向固相支持物提供固定的正向引物和反向引物二者。在实践中，因为扩增过程要求过量的引物以维持扩增，所以“多于一个”相同的正向引物和/或“多于一个”相同的反向引物将被固定在固体支持物上。除非上下文另外指示，否则本文中提及正向引物和反向引物将相应地解释为包括“多于一个”这样的引物。

如熟练的技术读者将理解的，任何给定扩增反应要求对待扩增的模板特异的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可以包含相同序列的模板特异性部分，并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换言之，仅使用一种类型的引物实施固相扩增是可能的，并且这样的单引物方法包括在本发明的范围内。其他实施方案可以使用包含相同模板特异性序列但其一些其他结构特征不同的正向引物和反向引物。例如，一种类型的引物可以包含另一种类型的引物中不存在的非核苷酸修饰。

在本公开内容的所有实施方案中，用于固相扩增的引物优选地通过在引物的5’末端处或在引物的5’末端附近与固体支持物单点共价附接来固定，使引物的模板特异性部分自由退火到它的关联模板并且3’羟基基团自由用于引物延伸。本领域已知的任何合适的共价附接手段可以被用于该目的。选择的附接化学将取决于固体支持物的性质，以及施加到它的任何衍生化或官能化。引物本身可以包括可以是非核苷酸化学修饰的一个部分以促进附接。在一个特定实施方案中，引物可以在5’末端处包括含硫亲核剂，诸如硫代磷酸酯(phosphorothioate)或硫代磷酸酯(thiophosphate)。在固体支持的聚丙烯酰胺水凝胶的情况下，这种亲核剂将与存在于水凝胶中的溴乙酰胺基团结合。如WO 05/065814中充分描述的，将引物和模板附接至固体支持物的更特定手段是通过5’硫代磷酸酯附接至包含多聚化的丙烯酰胺和N-(5-溴乙酰胺基戊基)丙烯酰胺(BRAPA)的水凝胶。

本发明的某些实施方案可以使用包含惰性基底或基质(例如，载玻片、聚合物珠等)的固体支持物，所述惰性基底或基质已经例如通过施加包含反应性基团的中间材料层或包衣而被官能化，所述反应性基团允许共价附接至诸如多核苷酸的生物分子。这样的支持物的实例包括但不限于被支撑在惰性基底诸如玻璃上的聚丙烯酰胺水凝胶。在这样的实施方案中，生物分子(例如多核苷酸)可以被直接地共价附接至中间材料(例如水凝胶)，但中间材料自身可以被非共价附接至基底或基质(例如玻璃基底)。术语“共价附接至固体支持物”将相应地被理解为包括这种布置类型。

汇集的样品可以在珠上被扩增，其中每一个珠包含正向扩增引物和反向扩增引物。在一个特定实施方案中，按照本发明的第一个方面、第二个方面或第三个方面制备的模板的文库被用于通过固相扩增并且更特别地通过固相等温扩增制备核酸克隆的簇集阵列，所述核酸克隆的簇集阵列类似于美国公布第2005/0100900号、美国专利第7,115,400号、WO00/18957和WO 98/44151中描述的那些，所述文献的内容通过引用以其整体并入本文。术语“簇”和“克隆”在本文中可互换地用来指固体支持物上包含多于一条相同的固定的核酸链和多于一条相同的固定的互补核酸链的离散位点。术语“簇集的阵列”是指由这样的簇或克隆形成的阵列。在本文中，术语“阵列”不应被理解为要求簇的有序布置。

术语固相或表面被用于意指引物被附接至平面阵列(其中平坦表面，例如，玻璃、二氧化硅或塑料显微镜载玻片)或相似的流动池装置；珠，其中一种或两种引物被附接至珠并且珠被扩增；在表面上的珠阵列(在珠被扩增后)等。

可以使用如WO98/44151中描述的热循环的过程或其中温度被维持为恒定的过程，并且使用试剂的变化进行延伸和变性的循环来制备簇集阵列。这样的等温扩增方法在专利申请第WO/0246456号和US公布第2008/0009420中描述，所述文献通过引用以其整体并入本文。由于等温过程中需要较低的温度，这是特别优选的。

将理解的是，本文描述的或本领域通常已知的任何扩增方法可以与通用引物或靶特异性引物一起使用以扩增固定的DNA片段。用于扩增的合适的方法包括但不限于聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中描述的，其通过引用以其整体并入本文。上文的扩增方法可以被用于扩增一个或更多个感兴趣的核酸。例如，PCR包括多重PCR、SDA、TMA、NASBA等可以被用于扩增固定的DNA片段。在一些实施方案中，将特异地针对感兴趣的多核酸的引物被包括在扩增反应中。

用于扩增多核苷酸的其他合适的方法可以包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人,Nat.Genet.19:225-232(1998))和寡核苷酸连接测定(OLA)(通常参见美国专利第7,582,420号、第5,185,243号、第5,679,524号和第5,573,907号；EP 0 320 308B1；EP 0 336 731 B1；EP 0 439 182 B1；WO 90/01069；WO 89/12696；和WO 89/09835)技术。将理解的是，这些扩增方法可以被设计成扩增固定的DNA片段。例如，在一些实施方案中，扩增方法可以包括连接探针扩增或寡核苷酸连接测定(OLA)反应，其包括特异地针对感兴趣的核酸的引物。在一些实施方案中，扩增方法可以包括引物延伸-连接反应，该反应包括特异地针对感兴趣的核酸的引物。作为可以被特异地设计成扩增感兴趣的核酸的引物延伸和连接引物的一个非限制性实例，扩增可以包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如由美国专利第7,582,420号和第7,611,869号例示的。

可以在本公开内容的方法中使用的示例性等温扩增方法包括但不限于如由例如Dean等人Proc.Natl.Acad.Sci.USA 99:5261-66(2002)例示的多重置换扩增(MDA)，或由例如美国专利第6,214,587号例示的等温链置换核酸扩增。可以在本公开内容中使用的其他非基于PCR的方法包括例如在例如Walker等人,Molecular Methods for VirusDetection,Academic Press,Inc.,1995；美国专利第5,455,166号和第5,130,238号，以及Walker等人,Nucl.Acids Res.20:1691-96(1992)中描述的链置换扩增(SDA)，或在例如Lage等人,Genome Res.13:294-307(2003)中描述的超支化链置换扩增(hyper-branchedstrand displacement amplification)。对于基因组DNA的随机引物扩增，等温扩增方法可以与链置换Phi 29聚合酶或Bst DNA聚合酶大片段，5’->3’exo-一起使用。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上文阐述的，可以在等温条件下使用具有低持续合成能力和链置换活性的聚合酶诸如Klenow聚合酶产生较小的片段。对扩增反应、条件和组分的另外的描述在通过引用以其整体并入本文的美国专利第7,670,810号的公开内容中详细阐述。

在本公开内容中有用的另一种核酸扩增方法是标签化PCR(Tagged PCR)，其使用具有恒定5’区域随后是随机3’区域的双域引物(two-domain primer)的群体，如例如在Grothues等人Nucleic Acids Res.21(5):1321-2(1993)中描述的。实施第一次多轮扩增以允许在热变性的DNA上基于从随机合成的3’区域单独杂交的大量起始。由于3’区域的性质，起始位点预期是在整个基因组上随机的。其后，未结合的引物可以被去除并且另外的复制可以使用与恒定5’区域互补的引物发生。

在一些实施方案中，等温扩增可以使用也称为排除扩增(ExAmp)的动力学排除扩增(KEA)进行。本公开内容的核酸文库可以使用包括使扩增试剂反应以产生多于一个扩增位点的步骤的方法来制备，所述多于一个扩增位点的每一个包括来自已经接种该位点的单独靶核酸的扩增子的基本克隆群体(substantially clonal population)。在一些实施方案中，扩增反应进行到产生足够数目的扩增子以填充相应的扩增位点的容量。以这种方式将已经接种的位点填充至容量抑制了靶核酸在该位点处着落和扩增，从而在该位点处产生扩增子的克隆群体。在一些实施方案中，即使扩增位点在第二靶核酸到达该位点之前未被填充至容量，也可以实现表观克隆性(apparent clonality)。在一些条件下，第一靶核酸的扩增可以进行至足够数目的拷贝被产生以有效地胜过或压倒从被转运至位点的第二靶核酸的拷贝产生的点。例如在对直径小于500nm的圆形特征使用桥式扩增过程的实施方案中，已经确定，在第一靶核酸的14个循环的指数扩增之后，在同一位点处来自第二靶核酸的污染将产生的污染扩增子的数目不足以对Illumina测序平台上的边合成边测序(sequencing-by-synthesis)分析产生不利影响。

在特定实施方案中，阵列中的扩增位点可以是但不必是完全克隆的。而是，对于一些应用，单独扩增位点可以主要地用来自第一靶核酸的扩增子填充(populated)，并且还可以具有低水平的来自第二靶核酸的污染扩增子。只要污染水平对阵列的随后使用没有不可接受的影响，阵列可以具有一个或更多个具有低水平的污染扩增子的扩增位点。例如，当阵列将在检测应用中使用时，可接受的污染水平将是不会以不可接受的方式影响检测技术的信噪比或分辨率的水平。因此，表观克隆性将通常与由本文阐述的方法制成的阵列的特定用途或应用相关。在用于特定应用的单独扩增位点处可以接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可以包括具有这些示例性水平的污染扩增子的一个或更多个扩增位点。例如，阵列中多达5％、10％、25％、50％、75％或甚至100％的扩增位点可以具有一些污染扩增子。将理解的是，在阵列或其他位点集合中，至少50％、75％、80％、85％、90％、95％或99％或更多的位点可以是克隆的或表观克隆的。

在一些实施方案中，动力学排除可以发生在过程以足够快的速率发生以有效排除另一事件或过程发生时。以制备核酸阵列为例，其中阵列的位点用来自溶液的靶核酸随机接种，并且在扩增过程中产生靶核酸的拷贝以将每一个接种的位点填充至容量。根据本公开内容的动力学排除方法，接种和扩增过程可以在扩增速率超过接种速率的条件下同时进行。因此，在已经被第一靶核酸接种的位点处进行拷贝的相对较快的速率将有效地排除第二核酸接种该位点进行扩增。动力学排除扩增方法可以如美国公布第2013/0338042号中详细描述地进行，其通过引用以其整体并入本文。

动力学排除可以利用扩增起始的相对慢的速率(例如，制备靶核酸的第一拷贝的缓慢速率)对比制备靶核酸(或靶核酸的第一拷贝)的随后拷贝的相对快的速率。在先前段落的实例中，动力学排除的发生是由于靶核酸接种的相对慢的速率(例如相对慢的扩散或转运)对比扩增发生以用核酸种子的拷贝填充位点的相对快的速率。在另一个示例性实施方案中，动力学排除的发生可以是由于已经接种位点的靶核酸的第一拷贝的形成的延迟(例如，延迟的或缓慢的活化)对比制备随后拷贝以填充位点的相对快的速率。在该实例中，单独位点可能已经接种了若干种不同的靶核酸(例如，若干种靶核酸可以在扩增之前存在于每个位点处)。然而，对于任何给定的靶核酸，第一拷贝形成可以被随机活化，使得第一拷贝形成的平均速率与产生随后拷贝的速率相比相对慢。在这种情况下，虽然单独位点可能已经接种了若干种不同的靶核酸，但动力学排除将仅允许那些靶核酸的一种被扩增。更具体地，在第一靶核酸已经被活化用于扩增后，该位点将快速被第一靶核酸的拷贝填充至容量，从而防止第二靶核酸的拷贝在该位点处被制备。

扩增试剂可以包括促进扩增子形成并且在一些情况下增加扩增子形成的速率的另外组分。一个实例是重组酶。重组酶可以通过允许重复的侵入/延伸来促进扩增子形成。更具体地，重组酶可以促进靶核酸被聚合酶的侵入，并且使用靶核酸作为用于扩增子形成的模板通过聚合酶延伸引物。该过程可以作为链式反应重复，其中从每一轮的侵入/延伸产生的扩增子在随后一轮中用作模板。因为不要求变性循环(例如通过加热或化学变性)，所以该方法可以比标准PCR更快地发生。因此，重组酶促进的扩增可以等温地实施。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下为其不可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用，因为SSB可以进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge，UK)以TwistAmp试剂盒商业销售的那些。重组酶促进的扩增试剂的有用组分和反应条件在US 5,223,414和US7,399,590中阐述，每一个所述文献通过引用并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的另一个实例是解旋酶。解旋酶可以通过允许扩增子形成的链式反应来促进扩增子形成。因为不要求变性循环(例如通过加热或化学变性)，所以该过程可以比标准PCR更快地发生。因此，解旋酶促进的扩增可以等温地实施。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelix(Beverly,MA)以IsoAmp试剂盒商业销售的那些。此外，包括解旋酶蛋白的有用制剂的实例在US 7,399,590和US 7,829,284中描述，其每一个通过引用并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的又另一个实例是起点结合蛋白(origin binding protein)。

测序中的用途/测序的方法

在将衔接子-靶-衔接子分子附接至表面之后，固定的且扩增的衔接子-靶-衔接子分子的序列被确定。可以使用任何合适的测序技术实施测序，并且用于确定固定的且扩增的衔接子-靶-衔接子分子的序列，包括链再合成的方法，是本领域已知的并且在例如Bignell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US9,309,502)中描述。

本文描述的方法可以与多种核酸测序技术结合使用。特别可应用的技术是以下那些技术：其中核酸被附接在阵列中的固定位置处使得它们的相对位置不改变和其中阵列被重复成像的技术。其中在不同颜色通道中获得图像的实施方案是特别可应用的，所述不同颜色通道例如符合用于区分一种核苷酸碱基类型与另一种核苷酸碱基类型的不同标记物。在一些实施方案中，确定靶核酸的核苷酸序列的过程可以是自动化的过程。优选的实施方案包括边合成边测序(“SBS”)技术。

SBS技术通常包括通过针对模板链迭代添加核苷酸来酶促延伸新生核酸链。在传统SBS方法中，每一次递送时在聚合酶的存在下，可以将单种核苷酸单体提供给靶核苷酸。然而，在本文描述的方法中，递送时在聚合酶的存在下，可以将多于一种类型的核苷酸单体提供到靶核酸。

SBS可以使用具有终止子部分的核苷酸单体或缺乏任何终止子部分的那些核苷酸单体。如下文进一步详细阐述的，使用缺乏终止子的核苷酸单体的方法包括，例如，焦磷酸测序和使用γ-磷酸标记的核苷酸的测序。在使用缺乏终止子的核苷酸单体的方法中，每一个循环中添加的核苷酸的数目通常是可变的，并且取决于模板序列和核苷酸递送模式。对于使用具有终止子部分的核苷酸单体的SBS技术，终止子在使用的测序条件下，如对于使用双脱氧核苷酸的传统Sanger测序的情况可以是有效不可逆的，或终止子如对于由Solexa(现为Illumina,Inc.)开发的测序方法的情况可以是可逆的。

SBS技术可以使用具有标记物部分的核苷酸单体或缺乏标记物部分的那些核苷酸单体。因此，基于以下可以检测掺入事件：标记物的特征，诸如标记物的荧光；核苷酸单体的特征诸如分子量或电荷；核苷酸掺入的副产物，诸如释放的焦磷酸；等。在两种或更多种不同核苷酸存在于测序试剂中的实施方案中，不同核苷酸可以是彼此可区分的，或可选地，在使用的检测技术下，两种或更多种不同标记物可以是不可区分的。例如，存在于测序试剂中的不同核苷酸可以具有不同标记物，并且它们可以使用合适的光学手段(optics)区分，如通过由Solexa(现为Illumina,Inc.)开发的测序方法例示的。

优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测无机焦磷酸(PPi)随着特定核苷酸被掺入到新生链的释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)"Real-time DNA sequencing using detection of pyrophosphaterelease."Analytical Biochemistry 242(1),84-9；Ronaghi,M.(2001)"Pyrosequencingsheds light on DNA sequencing."Genome Res.11(1),3-11；Ronaghi,M.,Uhlen,M.和Nyren,P.(1998)"A sequencing method based on real-time pyrophosphate."Science281(5375),363；美国专利第6,210,891号；第6,258,568号和第6,274,320号，其公开内容通过引用以其整体并入本文)。在焦磷酸测序中，释放的PPi可以通过立即由ATP硫化酶转化为腺苷三磷酸(ATP)来检测，并且产生的ATP的水平通过萤光素酶产生的质子来检测。待测序的核酸可以被附接至阵列中的特征，并且阵列可以被成像以捕获由于在阵列的特征处掺入核苷酸产生的化学发光信号。当用特定核苷酸类型(例如A、T、C或G)处理阵列后，可以获得图像。在添加每一种核苷酸类型后获得的图像将在检测到阵列中哪些特征方面不同。图像中的这些差异反映阵列上的特征的不同序列内容。然而，每一个特征的相对位置在图像中将保持不变。使用本文阐述的方法，图像可以被储存、处理和分析。例如，用每一种不同的核苷酸类型处理阵列后获得的图像可以以与本文对于从用于基于可逆的终止子的测序方法的不同检测通道获得的图像例示的相同方式处理。

在另一种示例性类型的SBS中，通过逐步骤添加可逆的终止子核苷酸完成循环测序，所述可逆的终止子核苷酸例如包含如例如WO 04/018497和美国专利第7,057,026号中描述的可裂解的或可光漂白的染料标记物，所述文献的公开内容通过引用并入本文。该方法正被Solexa(现为Illumina,Inc.)商业化，并且还在WO 91/06678和WO 07/123,744中描述，其每一个通过引用并入本文。其中终止可以被逆转且荧光标记物可被裂解的荧光标记的终止子的可用性有助于有效的循环可逆终止(CRT)测序。聚合酶还可以被共工程化以有效掺入这些修饰的核苷酸并且从这些修饰的核苷酸延伸。

优选地，在基于可逆的终止子的测序实施方案中，标记物在SBS反应条件下基本不抑制延伸。然而，检测标记物可以例如通过裂解或降解可去除。在标记物掺入到排列的核酸特征之后，可以捕获图像。在特定实施方案中，每一个循环包括同时将四种不同的核苷酸类型递送至阵列，并且每一种核苷酸类型具有光谱不同的标记物。然后，可以获得四种图像，每一种图像使用对于四种不同标记物中的一种有选择性的检测通道。可选地，可以依次添加不同的核苷酸类型，并且在每一个添加步骤之间可以获得阵列的图像。在这样的实施方案中，每一幅图像将示出已经掺入特定类型的核苷酸的核酸特征。由于每一个特征的不同序列内容，不同图像中将存在或不存在不同特征。然而，特征的相对位置在图像中将保持不变。从这样的可逆的终止子-SBS方法获得的图像可以如本文阐述地被储存、处理和分析。在图像捕获步骤之后，标记物可以被去除，并且可逆的终止子部分可以被去除用于随后的核苷酸添加和检测循环。在标记物已经在特定循环中被检测后并且在随后的循环之前去除标记物，可以提供减少背景信号和循环间的串扰的优势。有用的标记物和去除方法的实例在下文阐述。

在特定实施方案中，一些或所有的核苷酸单体可以包括可逆的终止子。在这样的实施方案中，可逆的终止子/可裂解的荧光团可以包括通过3’酯连接连接至核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005)，其通过引用并入本文)。其他方法已经将终止子化学与荧光标记物的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005)，其通过引用以其整体并入本文)。Ruparel等人描述了可逆的终止子的开发，所述可逆的终止子使用小的3’烯丙基基团以封闭延伸，但可以容易地通过用钯催化剂短暂处理去封闭。荧光团通过可光裂解的接头附接至碱基，所述可光裂解的接头可以通过暴露于长波长UV光30秒容易地裂解。因此，二硫键还原或光裂解可用于裂解可裂解的接头。可逆的终止的另一种方法是使用在dNTP上放置大量染料后随之发生的天然终止。dNTP上带电荷的大量染料的存在可以通过立体和/或静电障碍充当有效的终止子。一个掺入事件的存在防止进一步掺入，除非染料被去除。染料的裂解去除了荧光团，并且有效逆转终止。修饰的核苷酸的实例还在美国专利第7,427,673号和第7,057,026号中描述，所述美国专利的公开内容通过引用以其整体并入本文。

可以与本文描述的方法和系统一起使用的另外的示例性SBS系统和方法在美国公布第2007/0166705号、第2006/0188901号、第2006/0240439号、第2006/0281109号、第2012/0270305号、和第2013/0260372号、美国专利第7,057,026号、PCT公布第WO 05/065814号、美国专利申请公布第2005/0100900号、和PCT公布第WO 06/064199号和第WO 07/010,251号中描述，所述文献的公开内容通过引用以其整体并入本文。

一些实施方案使用少于四种不同的标记物，可以使用四种不同核苷酸的检测。例如，使用美国公布第2013/0079232号的并入材料中描述的方法和系统可以进行SBS。作为第一个实例，一对核苷酸类型可以以同一波长检测，但基于该对中的一个成员相比于另一个的强度的差异来区分，或基于对该对的一个成员的改变(例如通过化学修饰、光化学修饰或物理修饰)导致表观信号相比于对于该对的另一个成员检测到的信号出现或消失来区分。作为第二个实例，四种不同的核苷酸类型中的三种可以在特定条件下被检测到，而第四种核苷酸类型缺乏在那些条件下可检测到的标记物，或在那些条件下被最少地检测到(例如，由于背景荧光的最少检测等)。前三种核苷酸类型掺入到核酸中可以基于它们各自的信号的存在确定，并且第四种核苷酸类型掺入到核酸中可以基于不存在任何信号或任何信号的最小检测确定。作为第三个实例，一种核苷酸类型可以包括在两个不同通道中被检测到的一种或更多种标记物，而其他核苷酸类型在不多于一个通道中被检测到。前文提及的三种示例性构型不被认为是互相排斥的，并且可以以多种组合使用。合并所有三个实例的一个示例性实施方案是基于荧光的SBS方法，其使用在第一通道中检测到的第一种核苷酸类型(例如具有当被第一激发波长激发时在第一通道中检测到的标记物的dATP)，在第二通道中检测到的第二种核苷酸类型(例如具有当被第二激发波长激发时在第二通道中检测到的标记物的dCTP)，在第一通道和第二通道二者中检测到的第三核苷酸类型(例如具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一种标记物的dTTP)和在任一通道未被检测到或被最少检测到的缺乏标记物的第四种核苷酸类型(例如不具有标记物的dGTP)。

此外，如美国公布第2013/0079232号的并入材料中描述的，测序数据可以使用单通道获得。在这样的所谓的一染料测序方法中，第一种核苷酸类型被标记，但标记物在产生第一图像后被去除，并且第二种核苷酸类型仅在产生第一图像后被标记。第三种核苷酸类型在第一图像和第二图像二者中保持它的标记物，并且第四种核苷酸类型在两幅图像中保持未被标记。

一些实施方案可以使用边连接边测序(sequencing by ligation)技术。这样的技术使用DNA连接酶以掺入寡核苷酸，并且鉴定这样的寡核苷酸的掺入。寡核苷酸通常具有不同标记物，所述标记物与与寡核苷酸杂交的序列中的特定核苷酸的身份相关。如其他SBS方法，在用标记的测序试剂处理核酸特征的阵列之后，可以获得图像。每一幅图像将示出已经掺入标记物的特定类型的核酸特征。由于每一个特征的不同序列内容，不同图像中将存在或不存在不同特征，但特征的相对位置在图像中将保持不变。如本文阐述的，从基于连接的测序方法获得的图像可以被储存、处理和分析。可以与本文描述的方法和系统一起使用的示例性SBS系统和方法在美国专利第6,969,488号、第6,172,218号和第6,306,597号中描述，所述美国专利的公开内容通过引用以其整体并入本文。

一些实施方案可以使用纳米孔测序(Deamer,D.W.&Akeson,M."Nanopores andnucleic acids:prospects for ultrarapid sequencing."Trends Biotechnol.18,147-151(2000)；Deamer,D.和D.Branton,"Characterization ofnucleic acids by nanoporeanalysis",Acc.Chem.Res.35:817-825(2002)；Li,J.,M.Gershow,D.Stein,E.Brandin和J.A.Golovchenko,"DNA molecules and configurations in a solid-state nanoporemicroscope"Nat.Mater.2:611-615(2003)，其公开内容通过引用以其整体并入本文)。在这样的实施方案中，靶核酸穿过纳米孔。纳米孔可以是合成的孔或生物膜蛋白，诸如α-溶血素。当靶核酸穿过纳米孔时，每一个碱基对可以通过测量孔的电导率波动来鉴定。(美国专利第7,001,792号；Soni,G.V.&Meller,"A.Progress toward ultrafast DNA sequencingusing solid-state nanopores."Clin.Chem.53,1996-2001(2007)；Healy,K."Nanopore-based single-molecule DNA analysis."Nanomed.2,459-481(2007)；Cockroft,S.L.、Chu,J.、Amorin,M.&Ghadiri,M.R."A single-molecule nanopore device detects DNApolymerase activity with single-nucleotide resolution."J.Am.Chem.Soc.130:818-820(2008)，其公开内容通过引用以其整体并入本文)。从纳米孔测序获得的数据可以如本文阐述地被储存、处理和分析。特别地，根据本文阐述的光学图像和其他图像的示例性处理，数据可以作为图像被处理。

一些实施方案可以使用包括实时监测DNA聚合酶活性的方法。核苷酸掺入可以通过携带荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测(如例如美国专利第7,329,492号和第7,211,414号中描述的，两篇美国专利通过引用并入本文)，或核苷酸掺入可以用零模波导(zero-mode waveguides)(如例如美国专利第7,315,019号中描述的，其通过引用并入本文)，并且使用荧光核苷酸类似物和工程化聚合酶(如例如美国专利第7,405,281号和美国公布第2008/0108082号中描述的，两篇文献通过引用并入本文)来检测。照明可以被限制于在表面拴系的聚合酶附近的仄升规模体积，使得荧光标记的核苷酸的掺入可以以低背景观察到(Levene,M.J.等人"Zero-mode waveguidesfor single-molecule analysis at high concentrations."Science 299,682-686(2003)；Lundquist,P.M.等人"Parallel confocal detection of single molecules inreal time."Opt.Lett.33,1026-1028(2008)；Korlach,J.等人"Selective aluminumpassivation for targeted immobilization of single DNA polymerase molecules inzero-mode waveguide nano structures."Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)，其公开内容通过引用以其整体并入本文)。从这样的方法获得的图像可以如本文阐述地被储存、处理和分析。

一些SBS实施方案包括检测将核苷酸掺入到延伸产物中后释放的质子。例如，基于检测释放的质子的测序可以使用电子检测器和从Ion Torrent(Guilford,CT,a LifeTechnologies的分支)商购可得的相关技术，或美国公布第2009/0026082号、第2009/0127589号、第2010/0137143号或第2010/0282617号中描述的测序方法和系统，每一篇所述文献通过引用并入本文。本文阐述的用于使用动力学排除扩增靶核酸的方法可以容易地应用于被用于检测质子的基底。更具体地，本文阐述的方法可以被用于产生被用于检测质子的扩增子的克隆群体。

上文的SBS方法可以有益地以多重格式实施，使得同时操纵多种不同的靶核酸。在特定实施方案中，可以在共有的反应容器中或在特定基底的表面上处理不同的靶核酸。这允许以多重方式方便地递送测序试剂、去除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中，靶核酸可以呈阵列格式。在阵列格式中，靶核酸通常可以以空间可区分的方式与表面结合。靶核酸可以通过直接共价附接结合，附接至珠或其他颗粒或与附接至表面的聚合酶或其他分子结合。阵列可以包括每一个位点(还被称为特征)处的靶核酸的单个拷贝或每一个位点或特征处可以存在具有相同序列的多个拷贝。多个拷贝可以通过扩增方法产生，诸如桥式扩增或乳液PCR，如下文进一步详细描述的。

本文阐述的方法可以使用具有任何多种密度的特征的阵列，包括，例如，至少约10个特征/cm²、100个特征/cm²、500个特征/cm²、1,000个特征/cm²、5,000个特征/cm²、10,000个特征/cm²、50,000个特征/cm²、100,000个特征/cm²、1,000,000个特征/cm²、5,000,000个特征/cm²或更高。

本文阐述的方法的优势是，它们提供了多于一个靶核酸的快速并且有效的平行检测。相应地，本公开内容提供了能够使用本领域已知的技术诸如上文例示的那些制备并且检测核酸的集成系统(integrated system)。因此，本公开内容的集成系统可以包括能够将扩增试剂和/或测序试剂递送到一个或更多个固定的DNA片段的流体组分，系统包括诸如泵、阀、储存器、流体线路等的组件。流动池可以被配置和/或在用于检测靶核酸的成一体系统中使用。示例性流动池例如在美国公布第2010/0111768号和第2012/0270305号中描述，每一个所述美国公布通过引用并入本文。如关于流动池例示的，集成系统的一个或更多个流体组分可以被用于扩增方法和用于检测方法。以核酸测序实施方案为例，集成系统的一个或更多个流体组分可以被用于本文阐述的扩增方法并且用于在诸如上文例示的那些的测序方法中递送测序试剂。可选地，集成系统可以包括单独的流体系统以实施扩增方法和实施检测方法。能够产生扩增的核酸并且还能够确定核酸的序列的成一体测序系统的实例包括但不限于MiSeq^TM平台(Illumina,Inc.,San Diego,CA)和在美国公布第2012/0270305中描述的装置，其通过引用并入本文。

现在参考图1，示出了根据本文描述的多种实施方案可以使用的衔接子100的示意图。描绘的衔接子100包含双链区域110和非互补单链区域120。双链区域110可以被附接至双链靶多核苷酸。在描绘的实施方案中，双链区域110中的链的5’末端包括任选的5’磷酸(以“W”指示)，其帮助将衔接子100连接至双链靶多核苷酸并且被具有偏好包括末端5’磷酸的双链DNA的5’至3’外切核酸酶活性的外切核酸酶消化。任选地，单链部分120的链的游离5’末端被修饰以保护该末端免受外切核酸酶活性(以“X”指示)，例如，单链部分120的链的游离5’末端不包括5’磷酸。如果衔接子100不被附接至双链靶片段，未掺入的衔接子可能被具有偏好双链DNA的5’至3’外切核酸酶活性的一种或更多种外切核酸酶降解。具有140、142和144的链被选择性降解，另一条链和衔接子-靶-衔接子分子保持完整。任选的对单链部分120的链的游离5’末端的修饰可以帮助降低5’至3’外切核酸酶对单链DNA可能具有的剩余活性。如果衔接子100是不完整产物的一部分，例如，一个衔接子100被附接至双链靶分子，不完整产物可以被具有偏好具有平的或凹进的3’末端的双链DNA的3’至5’外切核酸酶活性的一种或更多种外切核酸酶降解。具有130、132和134的链被选择性降解，另一条链和衔接子-靶-衔接子分子保持完整。

现在参考图2，示出了根据本文描述的多个实施方案可以使用的衔接子200的示意图。在描绘的实施方案中，单链部分220的每一条链的游离末端被修饰(以“Y”指示)以保护这些末端免受外切核酸酶活性。如果衔接子100未附接至双链靶片段，未掺入的衔接子可能被具有5’至3’外切核酸酶活性和3’至5’外切核酸酶活性二者的一种或更多种外切核酸酶降解。对单链部分220的每一条链的两个游离末端的保护防止了外切核酸酶使用期望的衔接子-靶-衔接子分子作为底物。如果衔接子200是不完整产物的一部分，例如，一个衔接子200被附接至双链靶分子，不完整产物可以被具有偏好具有平的或凹进3’末端的双链DNA的3’至5’外切核酸酶活性的一种或更多种外切核酸酶降解。对单链部分220的每一条链的两个游离末端的保护防止了外切核酸酶使用期望的衔接子-靶-衔接子分子作为底物。

现在参考图3，示出了根据本文描述的多个实施方案可以使用的衔接子300的示意图。在描述的实施方案中，双链区域310中的链的5’末端包括任选的5’磷酸(以“W”指示)，其帮助将衔接子300连接至双链靶多核苷酸并且被具有偏好包括末端5’磷酸的双链DNA的5’至3’外切核酸酶活性的外切核酸酶消化。如果3’末端不被封闭，双链区域310可以被附接至双链靶多核苷酸。在描绘的实施方案中，衔接子300的每一条链包含以“Z”指示的封闭的3’末端。如果衔接子300不被附接至双链靶片段，未掺入的衔接子可能被具有5’至3’外切核酸酶活性和3’至5’外切核酸酶活性二者的一种或更多种外切核酸酶降解。未被外切核酸酶降解的任何剩余衔接子序列在随后的扩增和/或测序反应期间不能够充当用于延伸任何多核苷酸序列的引物。

现在参考图4，示出了根据本文描述的多个实施方案可以使用的衔接子400的示意图。在描述的实施方案中，双链区域410中的链的5’末端包括任选的5’磷酸(以“W”指示)，其帮助将衔接子400连接至双链靶多核苷酸。双链区域410可以被附接至双链靶多核苷酸。在其中一个衔接子被附接至双链靶分子(不完整产物)的那些实施方案中，不完整产物可以被具有偏好具有平的或凹进的3’末端的双链DNA的3’至5’外切核酸酶活性的一种或更多种外切核酸酶消化。

描绘的衔接子100或衔接子200或衔接子300或衔接子400的一条链包含通用延伸引物结合位点130或通用延伸引物结合位点230或通用延伸引物结合位点330或通用延伸引物结合位点430(例如，P5)、标签序列132或标签序列232或标签序列332或标签序列432(例如，i5)以及测序引物结合位点134或测序引物结合位点234或测序引物结合位点334或测序引物结合位点434(例如，SBS3)。描绘的衔接子100或衔接子200或衔接子300或衔接子400的另一条链包含通用延伸引物结合位点140或通用延伸引物结合位点240或通用延伸引物结合位点340或通用延伸引物结合位点440(例如，P7’)、标签序列142或标签序列242或标签序列342或标签序列442(例如，i7)以及测序引物结合位点144或测序引物结合位点244或测序引物结合位点344或测序引物结合位点444(例如，SBS12’)。

出于扩增或测序的目的，通用延伸引物结合位点130或通用延伸引物结合位点230或通用延伸引物结合位点330或通用延伸引物结合位点430(例如，P5)、通用延伸引物结合位点140或通用延伸引物结合位点240或通用延伸引物结合位点340或通用延伸引物结合位点440(例如，P7’)可以与附接至固体表面的延伸引物寡核苷酸杂交(如果衔接子100或衔接子200或衔接子300或衔接子400被附接至靶多核苷酸)。通用延伸引物结合位点140或通用延伸引物结合位点240或通用延伸引物结合位点340或通用延伸引物结合位点440(例如，P7’)或其一部分，还可以与用于对索引标签序列142或索引标签序列242或索引标签序列342或索引标签序列442(例如，i7)测序的测序引物杂交。可选地，链可以包含其他测序引物序列(未示出)。

测序引物结合位点134或测序引物结合位点234或测序引物结合位点334或测序引物结合位点434(例如，SBS3)可以与测序引物杂交以允许对索引标签序列132或索引标签序列232或索引标签序列332或索引标签序列432(例如，i5)测序。标签序列142或标签序列242或标签序列342或标签序列442和标签序列132或标签序列232或标签序列332或标签序列432可以是相同的或不同的。

测序引物结合位点144或测序引物结合位点244或测序引物结合位点344或测序引物结合位点444(例如，SBS12’)可以与测序引物杂交以允许对靶多核苷酸序列(如果附接至衔接子100或衔接子200或衔接子300或衔接子400)测序。

如果衔接子在如上文描述的多步骤过程中被附接至靶，测序引物结合位点134或测序引物结合位点234或测序引物结合位点334或测序引物结合位点434(例如，SBS3)、测序引物结合位点144或测序引物结合位点244或测序引物结合位点344或测序引物结合位点444(例如，SBS12’)可以与例如PCR引物杂交。

将理解的是，用于在本文描述的多个实施方案中使用的合适的衔接子可以具有比关于图1、图2、图3和图4描述的序列特征更多或更少的序列特征或其他序列特征。

现在参考图5，示出了具有衔接子100-模板510-衔接子100序列的文库的衔接子-靶-衔接子500的示意图。衔接子-靶-衔接子510是双链的并且附接至衔接子100的双链部分。衔接子的单链部分的5’末端被修饰以保护免被外切核酸酶消化(以“X”指示)。因为衔接子100被连接至双链靶片段510的两个末端，对于外切核酸酶，衔接子-靶-衔接子分子上无可用的双链序列，因此所得的衔接子-靶-衔接子400对外切核酸酶消化耐受。

现在参考图6，示出了具有衔接子200-模板610-衔接子200序列的文库的衔接子-靶-衔接子600的示意图。衔接子-靶-衔接子610是双链的并且附接至衔接子200的双链部分。衔接子的单链部分的末端被修饰以保护免受外切核酸酶消化(以“Y”指示)。因为衔接子200被连接至双链靶片段610的两个末端，对于外切核酸酶，衔接子-靶-衔接子分子上无可用的未封闭的单链序列，因此所得的衔接子-靶-衔接子600耐受外切核酸酶消化。

现在参考图7，示出了具有衔接子300-模板710-衔接子300序列的文库的衔接子-靶-衔接子700的示意图。衔接子-靶-衔接子710是双链的并且附接至衔接子300的双链部分。衔接子的单链区域的末端被修饰以防止它们充当用于延伸流动池中的任何多核苷酸的引物。图7还示出了未被外切核酸酶完全降解的衔接子的示意图。示出了衔接子300的一条单链。这种单链衔接子不能够充当用于延伸流动池中的任何多核苷酸的引物。

现在参考图8A，示出了具有衔接子400-模板810序列的文库的不完整产物衔接子-靶800的示意图。衔接子-靶800是双链的并且附接至衔接子400的双链部分。图8B还示出了用具有偏好具有平的或凹进的3’末端的双链DNA的3’至5’外切核酸酶活性的外切核酸酶消化不完整产物800的一个结果的示意图。衔接子-靶800的双链部分的一条链从3’至5’的消化可以得到两条单链分子。一条链是单链衔接子-靶830。另一条衔接子链820对应于衔接子400的一个单链区域。在该实施方案中，存在于文库池中的多核苷酸在暴露于具有偏好具有平的或凹进的3’末端的双链DNA的3’至5’外切核酸酶活性的外切核酸酶后被3’封闭(如以“Z”指示的)。这些3’封闭的单链衔接子-靶830和衔接子链820不能够充当用于延伸流动池中的任何多核苷酸的引物。

现在参考图9A和9B，图示了索引跳跃现象的性质。图9A示出了来自给定样品的读段如何被不正确地去多重化并且在去多重化之后与不同的样品混合。图9B证明了双索引系统中的索引跳跃，其中它导致索引标签序列的预期不到的组合。

现在参考图10A和10B，图示了测量给定系统中的索引跳跃率的一般方法。图10A示出了双衔接子板的示例性布局，其中96孔板的每个单独孔包含独特的一对索引标签序列(12种不同的P7索引与8种不同的P5索引组合)。图10B示出了旨在测量索引跳跃率的实验设置，其中使用了8个独特双索引标签组合(即没有P5索引被预期与多于一个P7索引配对，并且反之亦然)。然后容易地将索引标签的预期不到的组合(例如D505-D703)鉴定为索引跳跃的情况。

现在参考图11A和11B，图示了未连接的衔接子对索引跳跃率的影响。图11A示出了与游离衔接子的50％掺入相关的索引跳跃的6倍增加。图11B示出了在测试范围内游离叉形衔接子对索引跳跃率的近似线性影响。本发明人还观察到，与游离单链P5衔接子相比，游离单链P7衔接子对索引跳跃率的影响更明显(数据未示出)。

现在参考图12A和12B，分别图示了外切核酸酶处理单独地和与3’封闭组合地对Illumina

无PCR文库制备工作流程中的索引跳跃率的影响。在两种情况中，都观察到索引跳跃显著减少，但是用组合的外切核酸酶和3’封闭处理观察到更强的减少。

本发明通过以下实施例说明。应当理解的是，特定实施例、材料、量和程序将根据如被广泛地理解为符合本文阐述的本发明的范围和精神。

实施例

实施例1：对于编索引的文库进行外切核酸酶处理与任选的3’封闭的示例方案

该方案解释了如何对DNA文库进行单独的外切核酸酶处理或与3’封闭的组合，以减少索引跳跃。该方法被设计成对DNA文库池进行，然后使用Illumina

4000以及使用图案化流动池和基于ExAmp的簇集的相似测序平台)(例如，X和

)进行变性步骤和随后的簇产生。

已观察到索引跳跃发生在不正确的索引序列被分配到插入序列而导致样品错误分配时。在

4000上运行前，对DNA样品池进行这种处理，应将索引跳跃水平降低一定水平，该水平在现阶段无法被一致地预测。

处理工作流程可以被认为包括四个步骤：(i)产生DNA样品池；(ii)进行处理，(iii)清理样品并且定量；和(iv)簇集样品池和对样品池测序。

消耗品/设备：消耗品和设备可以由测序使用者或制造商提供。使用者提供的消耗品可包括DNA文库样品池—30μl，处于待用于簇集期间变性的浓度。使用者还可以提供新制备的80％乙醇(EtOH)。

下文表1说明了可能使用的一些消耗品和设备。

表1：消耗品和设备

测序制造商可以提供EMX(外切核酸酶混合物)、BMX(封闭混合物)、RSB(重悬浮缓冲液)和SPB(样品纯化珠)。

EMX可以包括外切核酸酶缓冲液(67mM甘氨酸-KOH、2.5mM MgCl₂、50μg/ml BSA)和λ外切核酸酶(New England Biolabs,Cat#M0262S/L)。

BMX可以包括测序预混合物(Tris缓冲液、氯化钠、蔗糖、硫酸镁、EDTA和Tween20)、ddNTP混合物、Pol19 DNA聚合酶和TdT末端转移酶。

RSB可以包括Tris缓冲液，pH 8.5。

SPB可以包括

XP珠(Beckman Coulter,Cat#A63880)。SPB应在每次使用前涡旋振荡。SPB应经常涡旋以确保珠均匀分布。由于溶液的粘性，应缓慢地抽吸和分散SPB。

一些消耗品应当如下文表2指示地储存和制备。

表2：消耗品的储存和制备

以下EMX程序可以保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)37℃持续30min；(iii)75℃持续10min；和(iv)保持在4℃。

以下BMX程序可以被保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)38℃持续20min；(iii)60℃持续20min；和(iv)保持在4℃。

对于仅外切核酸酶处理，样品可如下处理：(i)将EMX以600×g离心5秒钟；(ii)将27μl的DNA文库样品池添加到PCR管；(iii)将5μl EMX添加到每个PCR管中的每个样品并且然后通过上下吸打彻底混合；(iv)通过放置在热循环仪上并且运行EMX程序孵育。每个管包含32μl。

对于外切核酸酶加3’封闭处理，样品可以被如下处理：(i)将EMX以600×g离心5秒钟；(ii)将27μl的DNA文库样品池添加到PCR管；(iii)将5μl EMX添加到每支PCR管中的每个样品并且然后通过上下吸打彻底混合；(iv)通过放置在热循环仪上并且运行EMX程序孵育；(v)将BMX以600×g离心5秒钟；(vi)将32μl BMX直接添加到每支PCR管中的每种外切核酸酶反应物并且然后通过上下吸打彻底混合；和(vii)通过放置在热循环仪上并且运行BMX程序孵育。每个管包含64μl。

处理的汇集的样品可如下清理：(1)涡旋振荡SPB直到充分分散；(2)将60μl SPB添加到每个样品处理管并且通过上下吸打彻底混合；(3)在室温孵育5分钟；(4)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(5)从每个管取出并且弃去所有上清液；(6)如下洗涤2次：(a)将200μl新制备的80％EtOH添加到每个管，(b)在磁性支架上孵育30秒，和(c)从每个管取出并且弃去所有上清液；(7)使用20μl移液器从每个管去除剩余的EtOH；(8)在磁力架上风干5分钟；(9)将22.5μl RSB添加到每个管；(10)从磁性架取下并且然后通过上下吸打彻底混合；(11)在室温孵育2分钟；(12)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(13)将20μl上清液转移到新管；(14)如果需要，对文库定量并且进行标准簇集，以用于以NaOH变性步骤开始的

4000平台；和(15)如果没有立即簇集，则储存在-25℃至-15℃。

实施例2：通过对编索引的文库外切核酸酶处理与3’封闭减少索引跳跃

可与以下材料、设备和方法组合应用上文实施例1中阐述的处理方案，以便于簇集和在在Illumina平台上测序。

实验条件：(1)以300pM上样的人类450bp NA12878(Coriell Institute)

无PCR文库；(2)按照制造商的说明的

X仪器和Illumina SBS化学；(3)550nm ILS v3流动池；(4)如先前描述的ExAmp扩增；和(5)50％衔接子掺入：将来自Illumina双衔接子板(DAP)的游离叉形衔接子掺入到模板文库中，然后变性、中和、添加ExAmp混合物和簇集。

该实验的结果总结在下文表3和图13中。

表3：通过外切核酸酶处理与3’封闭减少索引跳跃

如上文说明的，对DNA文库的外切核酸酶处理与3’封闭组合减少了索引跳跃。

本文引用的所有专利、专利申请和出版物以及电子可得的材料(包括例如，例如GenBank和RefSeq中的核苷酸序列提交物，和例如SwissProt、PIR、PRF、PDB中的氨基酸序列提交物，以及来自GenBank和RefSeq中注释的编码区的翻译物)的完整公开内容通过引用以其整体并入。出版物中引用的补充材料(诸如补充表、补充图、补充材料和方法、和/或补充实验数据)同样通过引用以其整体并入。在本申请的公开内容和通过引用并入本文的任何文档的一个或更多个公开内容之间存在任何不一致的情况下，应当以本申请的公开内容为准。仅为了清楚理解，已经给出前述详细描述和实施例。不应由此理解为不必要的限制。本发明不限于所示出和描述的确切细节，因为对本领域技术人员而言明显的变化将被包括在由权利要求限定的本发明中。

除了在本申请中已经引用的文档之外，在此还参考了同时提交的三个名称同为“Compositions and methods for improving sample identification in indexednucleic acid libraries”的临时专利申请(美国临时申请序列号62/488,824、62/488,830、和62/488,833)。这些申请的全部内容也通过引用并入本文。

除非另外指示，否则本说明书和权利要求书中使用的表示组分的量、分子量等的所有数字将被理解为在所有情况中均由术语“约”修饰。因此，除非另外相反地指出，在本说明书和权利要求书中阐述的数值参数是可以根据试图通过本发明获得的期望特性而变化的近似值。至少并且不试图将等效原则限制于权利要求书的范围，每个数值参数应当至少根据所报告的有效数字的数目并且通过应用常规四舍五入技术来理解。

尽管阐述本发明的宽范围的数值范围和参数是近似值，但特定实例中列出的数值是尽可能精确地报告的。然而，任何数值固有地包含因在它们各自测试测量中发现的标准偏差而必然导致的范围。

Claims

1.一种组合物，所述组合物包含：

第一多于一个衔接子-靶-衔接子分子以及外切核酸酶，所述第一多于一个衔接子-靶-衔接子分子包含从第一来源分离的双链靶片段，

其中所述衔接子包括第一样品特异性通用衔接子，

其中所述第一样品特异性通用衔接子包含

(i)双链核酸区域，和

(ii)包含至少一个通用引物结合位点的单链非互补核酸链区域，

其中所述第一样品特异性通用衔接子还包含第一组样品特异性标签序列，所述第一组样品特异性标签序列将所述第一多于一个衔接子-靶-衔接子分子与源于不同来源的衔接子-靶-衔接子分子区分开，所述第一组样品特异性标签序列存在于所述单链非互补核酸链中。

2.根据权利要求1所述的组合物，所述组合物还包含未附接至靶片段的第一样品特异性通用衔接子。

3.根据权利要求1所述的组合物，其中所述单链非互补核酸链区域还包含至少一个通用延伸引物结合位点。

4.根据权利要求1所述的组合物，其中所述外切核酸酶包括偏好在所述双链核酸区域的5’末端处包含5’磷酸的双链DNA的5’至3’DNA外切核酸酶活性，或偏好在所述5’末端处包含5’磷酸的单链DNA的5’至3’DNA外切核酸酶活性。

5.根据权利要求4所述的组合物，其中所述外切核酸酶是λ外切核酸酶。

6.根据权利要求1所述的组合物，其中所述外切核酸酶包括5’至3’DNA外切核酸酶活性和3’至5’DNA外切核酸酶活性。

7.根据权利要求6所述的组合物，其中所述衔接子-靶-衔接子分子在每一个3’末端处包含阻断所述3’至5’DNA外切核酸酶活性的修饰。

8.根据权利要求7所述的组合物，其中所述修饰包括至少一个硫代磷酸酯连接。

9.根据权利要求6所述的组合物，其中所述衔接子-靶-衔接子分子在链的5’末端处包含阻断所述5’至3’DNA外切核酸酶活性的修饰，所述链是所述单链非互补核酸链的区域的一部分。

10.根据权利要求9所述的组合物，其中所述修饰包括至少一个硫代磷酸酯连接。

11.根据权利要求1所述的组合物，其中所述外切核酸酶包括任选地偏好平末端的和/或具有凹进的3’末端的双链DNA的3’至5’DNA外切核酸酶活性。

12.根据权利要求1所述的组合物，所述组合物还包含第二多于一个衔接子-靶-衔接子分子，所述第二衔接子-靶-衔接子分子包含从第二来源分离的双链靶片段，

其中所述衔接子包含第二样品特异性通用衔接子，所述第二样品特异性通用衔接子包含第二组样品特异性标签序列，所述第二组样品特异性标签序列将所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子区分开。

13.根据权利要求12所述的组合物，其中所述第二样品特异性通用衔接子还包含(i)双链核酸区域和(ii)包含至少一个通用引物结合位点的单链非互补核酸链区域。

14.根据权利要求12所述的组合物，其中所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子或其组合的3’末端被封闭。

15.根据权利要求2所述的组合物，其中所述未附接至靶片段的第一样品特异性通用衔接子的3’末端被封闭。

16.根据权利要求1所述的组合物，所述组合物还包含末端脱氧核苷酸转移酶、ddNTP、DNA聚合酶或其组合。

17.一种方法，所述方法包括：

提供从第一来源分离的多于一个双链靶片段的第一溶液；

将第一样品特异性通用衔接子连接至来自所述第一来源的双链靶片段的两个末端，以形成第一多于一个衔接子-靶-衔接子分子，

其中所述第一多于一个衔接子-靶-衔接子分子中的每一个包含侧翼为所述第一样品特异性通用衔接子的靶片段，

其中所述第一样品特异性通用衔接子包含(i)双链核酸区域和(ii)包含至少一个通用引物结合位点的单链非互补核酸链区域，

其中所述第一样品特异性通用衔接子还包含第一组样品特异性标签序列，第一组样品特异性标签序列将所述第一多于一个衔接子-靶-衔接子分子与源于不同来源的衔接子-靶-衔接子分子区分开，所述第一组样品特异性标签序列存在于所述单链非互补核酸链中，并且

其中所述连接将所述第一样品特异性通用衔接子的双链核酸区域共价附接至来自所述第一来源的双链靶片段的每一个末端；和

将所述溶液与外切核酸酶接触，其中所述外切核酸酶包括任选地偏好双链DNA的5’至3’DNA外切核酸酶活性，

其中所述外切核酸酶选择性降解存在于所述第一溶液中的未连接至靶片段的第一样品特异性通用衔接子。

18.根据权利要求17所述的方法，其中所述单链非互补核酸链区域还包含至少一个通用延伸引物结合位点。

19.根据权利要求17所述的方法，其中所述外切核酸酶包括偏好在所述双链核酸区域的5’末端处包含5’磷酸的双链DNA的5’至3’DNA外切核酸酶活性。

20.根据权利要求19所述的方法，其中所述外切核酸酶是λ外切核酸酶。

21.根据权利要求17所述的方法，其中所述外切核酸酶包括5’至3’DNA外切核酸酶活性和3’至5’DNA外切核酸酶活性。

22.根据权利要求21所述的方法，其中未附接至靶片段的第一样品特异性通用衔接子和所述第一多于一个衔接子-靶-衔接子分子在每一个3’末端处包含阻断所述3’至5’DNA外切核酸酶活性的修饰。

23.根据权利要求22所述的方法，其中所述修饰包括至少一个硫代磷酸酯连接。

24.根据权利要求21所述的方法，其中未附接至靶片段的第一样品特异性通用衔接子和所述第一多于一个衔接子-靶-衔接子分子在链的5’末端处包含阻断所述5’至3’DNA外切核酸酶活性的修饰，所述链是所述单链非互补核酸链的区域的一部分。

25.根据权利要求24所述的方法，其中所述修饰包括至少一个硫代磷酸酯连接。

26.根据权利要求17所述的方法，其中在所述单链非互补核酸链区域远端的双链核酸区域以平末端结构终止。

27.根据权利要求26所述的方法，其中所述双链靶片段包含平末端结构。

28.根据权利要求17所述的方法，其中在所述单链非互补核酸链区域远端的双链核酸的区域以3’突出端结构终止。

29.根据权利要求28所述的方法，其中所述3’突出端结构包括1个至4个核苷酸的突出端结构。

30.根据权利要求28所述的方法，其中所述3’突出端结构包括T核苷酸突出端。

31.根据权利要求28所述的方法，其中所述双链靶片段包含与所述双链核酸区域的3’突出端结构互补的3’突出端结构。

32.根据权利要求17所述的方法，所述方法还包括：

提供包含多于一个扩增位点的表面，

其中所述扩增位点包含具有游离3’末端的附接的单链核酸的至少两个群体，和

将包含扩增位点的所述表面与所述第一多于一个衔接子-靶-衔接子分子在适于产生多于一个扩增位点的条件下接触，所述多于一个扩增位点的每一个包含来自个体衔接子-靶-衔接子分子的扩增子的克隆群体。

33.根据权利要求32所述的方法，其中所述第一多于一个衔接子-靶-衔接子分子的数目超过扩增位点的数目，其中所述第一多于一个衔接子-靶-衔接子分子具有通往所述扩增位点的流体通道，并且其中所述扩增位点的每一个包括对于所述第一多于一个衔接子-靶-衔接子分子中的若干个衔接子-靶-衔接子分子的容量。

34.根据权利要求32所述的方法，其中所述接触包括同时(i)以一个平均转运速率将所述第一多于一个衔接子-靶-衔接子分子转运到所述扩增位点，和(ii)以一个平均扩增速率扩增在所述扩增位点处的第一多于一个衔接子-靶-衔接子分子，其中所述平均扩增速率超过所述平均转运速率。

35.根据权利要求17所述的方法，所述方法还包括：

提供从第二来源分离的多于一个双链靶片段的第二溶液；

将第二样品特异性通用衔接子连接至来自所述第二来源的双链靶片段的两个末端，以形成第二多于一个衔接子-靶-衔接子分子，

其中所述第二多于一个衔接子-靶-衔接子分子中的每一个包含来自所述第二来源的侧翼为所述第二样品特异性通用衔接子的靶片段，

其中所述第二样品特异性通用衔接子包含(i)双链核酸区域和(ii)包含至少一个通用引物结合位点的单链非互补核酸链区域，

其中所述第二样品特异性通用衔接子还包含第二组样品特异性标签序列，所述第二组样品特异性标签序列将所述第二多于一个衔接子-靶-衔接子分子与源于不同来源的衔接子-靶-衔接子分子区分开，所述第二组样品特异性标签序列存在于所述单链非互补核酸链中，并且

其中所述连接将所述第二样品特异性通用衔接子的双链核酸区域共价附接至来自所述第二来源的双链靶片段的每一个末端；和

其中所述外切核酸酶选择性降解存在于所述第二溶液中的未连接至靶片段的第二样品特异性通用衔接子。

36.根据权利要求27所述的方法，其中所述单链非互补核酸链区域还包含至少一个通用延伸引物结合位点。

37.根据权利要求27所述的方法，所述方法还包括封闭所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的3’末端。

38.根据权利要求37所述的方法，其中所述封闭包括将双脱氧核苷酸通过酶掺入到所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的3’末端以及未附接至靶片段的第一样品特异性通用衔接子和所述第二样品特异性通用衔接子的3’末端。

39.根据权利要求35所述的方法，所述方法还包括：

提供包含多于一个扩增位点的表面，

将包含扩增位点的所述表面与所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子在适于产生多于一个扩增位点的条件下接触，所述多于一个扩增位点中的每一个包含来自个体衔接子-靶-衔接子分子的扩增子的克隆群体。

40.根据权利要求37所述的方法，其中所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的数目超过所述扩增位点的数目，其中所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子具有通往所述扩增位点的流体通路，并且其中所述扩增位点的每一个包括对于所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子中的若干个衔接子-靶-衔接子分子的容量。

41.根据权利要求39所述的方法，其中所述接触包括同时(i)以一个平均转运速率将所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子转运到所述扩增位点，和(ii)以一个平均扩增速率扩增在所述扩增位点处的所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子，其中所述平均扩增速率超过所述平均转运速率。

42.一种方法，所述方法包括：

提供从第一来源分离的多于一个双链靶片段的第一溶液；

其中所述第一样品特异性通用衔接子还包含第一组样品特异性标签序列，所述第一组样品特异性标签序列将所述第一多于一个衔接子-靶-衔接子分子与源于不同来源的衔接子-靶-衔接子分子区分开，所述第一组样品特异性标签序列存在于所述单链非互补核酸链中，并且

将所述溶液与外切核酸酶接触，其中所述外切核酸酶包括任选地偏好具有平的或凹进的3’末端的DNA的3’至5’外切核酸酶活性，

其中所述连接还形成包含衔接子-靶分子的多于一个不完整产物，并且其中所述外切核酸酶选择性降解衔接子-靶分子以及存在于所述第一溶液中的未连接至靶片段的第一样品特异性通用衔接子。

43.根据权利要求42所述的方法，其中所述单链非互补核酸链区域还包含至少一个通用延伸引物结合位点。

44.根据权利要求42所述的方法，其中所述外切核酸酶是外切核酸酶III。

45.根据权利要求42所述的方法，其中在所述单链非互补核酸链区域远端的双链核酸区域以平末端结构终止。

46.根据权利要求45所述的方法，其中所述双链靶片段包含平末端结构。

47.根据权利要求42所述的方法，其中在所述单链非互补核酸链区域远端的双链核酸区域以3’突出端结构终止。

48.根据权利要求47所述的方法，其中所述3’突出端结构包括不多于4个核苷酸的突出端结构。

49.根据权利要求47所述的方法，其中所述3’突出端结构包括T核苷酸突出端。

50.根据权利要求47所述的方法，其中所述双链靶片段包含与所述双链核酸区域的3’突出端结构互补的3’突出端结构。

51.根据权利要求42所述的方法，所述方法还包括：

提供包含多于一个扩增位点的表面，

将包含扩增位点的所述表面与第一多于一个衔接子-靶-衔接子分子在适于产生多于一个扩增位点的条件下接触，所述多于一个扩增位点的每一个包含来自个体衔接子-靶-衔接子分子的扩增子的克隆群体。

52.根据权利要求51所述的方法，其中所述第一多于一个衔接子-靶-衔接子分子的数目超过扩增位点的数目，其中所述第一多于一个衔接子-靶-衔接子分子具有通往所述扩增位点的流体通路，并且其中所述扩增位点的每一个包括对于所述第一多于一个衔接子-靶-衔接子分子中的若干个衔接子-靶-衔接子分子的容量。

53.根据权利要求51所述的方法，其中所述接触包括同时(i)以一个平均转运速率将所述第一多于一个衔接子-靶-衔接子分子转运到所述扩增位点，和(ii)以一个平均扩增速率扩增在所述扩增位点处的所述第一多于一个衔接子-靶-衔接子分子，其中所述平均扩增速率超过所述平均转运速率。

54.根据权利要求42所述的方法，所述方法还包括：

提供从第二来源分离的多于一个双链靶片段的第二溶液；

其中所述连接还形成多于一个不完整产物，其中所述不完整产物包括衔接子-靶分子，并且其中所述外切核酸酶选择性降解衔接子-靶分子以及存在于所述第二溶液中的未连接至靶片段的第二样品特异性通用衔接子。

55.根据权利要求54所述的方法，其中所述单链非互补核酸链区域还包含至少一个通用延伸引物结合位点。

56.根据权利要求54所述的方法，所述方法还包括封闭所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的3’末端。

57.根据权利要求56所述的方法，其中所述封闭包括将双脱氧核苷酸通过酶掺入到所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的3’末端以及未附接至靶片段的所述第一样品特异性通用衔接子和所述第二样品特异性通用衔接子的3’末端。

58.根据权利要求54所述的方法，所述方法还包括：

提供包含多于一个扩增位点的表面，

将包含扩增位点的所述表面与所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子在适于产生多于一个扩增位点的条件下接触，所述多于一个扩增位点的每一个包含来自个体衔接子-靶-衔接子分子的扩增子的克隆群体。

59.根据权利要求58所述的方法，其中所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子的数目超过扩增位点的数目，其中所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子具有通往所述扩增位点的流体通路，并且其中所述扩增位点的每一个包括对于所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子中的若干个衔接子-靶-衔接子分子的容量。

60.根据权利要求58所述的方法，其中所述接触包括同时(i)以一个平均转运速率将所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子转运到所述扩增位点，和(ii)以一个平均扩增速率扩增在所述扩增位点处的所述第一多于一个衔接子-靶-衔接子分子和所述第二多于一个衔接子-靶-衔接子分子，其中所述平均扩增速率超过所述平均转运速率。