CN111094584A

CN111094584A - 用于改进编索引的核酸文库中的样品鉴定的组合物和方法

Info

Publication number: CN111094584A
Application number: CN201880042176.XA
Authority: CN
Inventors: E·H·弗马斯; 马哈迪耶·霍斯鲁海达里; 安吉拉·卡尔班德
Original assignee: Illumina Cambridge Ltd; Illumina Inc
Current assignee: Illumina Cambridge Ltd; Illumina Inc
Priority date: 2017-04-23
Filing date: 2018-04-23
Publication date: 2020-05-01
Also published as: SG11201909918XA; EP3615690A1; ES2893528T3; ES2929837T3; CA3060979A1; DK3615690T3; FI3872187T3; EP3615690B1; DK3872187T3; EP3872187B1; US20180305751A1; CA3060979C; AU2018260627A1; EP3872187A1; US10995369B2; WO2018200380A8; WO2018200380A1

Abstract

本发明涉及组合物和方法，所述组合物和方法通过在将保护性衔接子连接至靶多核苷酸后、在扩增和测序之前进行外切核酸酶处理来降解未掺入的衔接子来提高用于多重下一代测序编索引的核酸文库制备物中的正确样品鉴定率。

Description

用于改进编索引的核酸文库中的样品鉴定的组合物和方法

相关申请

本申请要求于2017年4月23日提交的美国临时专利申请第62/488,830号的权益，该美国临时专利申请在此通过引用以其整体并入本文。

领域

本公开内容尤其涉及对来自多个编索引的(indexed)文库的多核苷酸的测序；更特别地，涉及增加测序正确地鉴定出多核苷酸所源自的文库的可能性。

背景

测序方法学的改进已经允许在单一测序方案中对来自不同文库的汇集的或多重化的多核苷酸(multiplexed polynucleotide)测序。可以将文库特异性序列(“索引标签(index tag)”)添加到每个文库的多核酸，使得可以正确地鉴定出每个被测序的多核酸的起源。可以通过例如将包含索引标签序列的衔接子连接到多核酸的末端而将索引标签序列添加到文库的多核苷酸。

衔接子可以包含除索引标签序列之外的序列，诸如通用延伸引物序列和通用测序引物序列。通用延伸引物序列尤其可以与偶联到固体表面的第一寡核苷酸杂交。第一寡核苷酸可以具有游离3’末端，聚合酶可以使用杂交的文库多核苷酸作为模板从游离3’末端添加核苷酸，以使该序列延伸，导致文库多核苷酸的反向链被偶联到固体表面。正向链和反向链的另外的拷贝可以通过簇扩增偶联到固体表面。簇扩增的一个实例是桥式扩增，其中与固体表面结合的先前扩增的多核苷酸的3’末端与与固体表面结合的第二寡核苷酸杂交。第二寡核苷酸可以具有游离3’末端，聚合酶可以使用偶联的反向链多核苷酸作为模板从游离3’末端添加核苷酸，以使该序列延伸，导致文库多核苷酸的正向链经由第二寡核苷酸偶联到固体表面。可以重复该过程以产生偶联到固体表面的正向链和反向链的簇。在测序之前，可以例如通过裂解去除正向链或反向链。

测序引物可以与偶联到固体支持物的多核苷酸链的一部分杂交。例如，测序引物可以与通用测序引物序列(如果存在的话)杂交。测序可以通过使用偶联的多核苷酸作为模板多轮地将核苷酸添加到测序引物并且检测所添加的核苷酸的身份进行。测序引物的杂交可以发生在偶联的多核苷酸链上的一个位置处，以允许对索引标签序列以及偶联到固体表面的多核苷酸的靶序列进行序列鉴定，或可以使用单独的测序引物来对索引标签序列和靶序列单独地测序。因此，可以基于与靶序列缔合的索引标签序列，将靶序列索引到特定的文库来源。

尽管每个待测序的多核酸包含文库特异性索引标签序列，但由于被称为索引跳跃(index hopping)的现象，在鉴定被测序的多核酸的文库来源时可能发生错误。当来自一个文库的索引标签序列被不经意地被添加到来自另一个文库的多核酸时，索引跳跃发生。索引跳跃可能发生在文库制备或在用于测序的流动池或其他合适的固体支持物上进行多核苷酸的簇扩增期间。索引跳跃可能使测序的结果混淆，诸如导致被测序的多核苷酸的文库来源的不当指定或丢弃测序结果。

简述

本公开内容的一个或更多个方面通过降解在文库样品制备期间不形成衔接子-靶-衔接子多核苷酸序列的多核苷酸，包括靶多核苷酸和未掺入的衔接子解决了与索引跳跃相关的至少一种潜在机制。不意图受理论束缚，认为当包含用于一个文库的索引标签序列的未掺入的衔接子与来自另一个文库的衔接子的一部分杂交并且未掺入的衔接子在簇扩增期间用作引物时，索引跳跃可能发生。因此，来自一个文库的靶序列可以用来自另一个文库的衔接子的索引标签进行加标签。在随后的多轮簇扩增期间，被错误加标签的靶的另外的拷贝可能在测序之前被扩增。这样的索引跳跃可能使随后测序的结果混淆。通过降解在文库样品制备期间未掺入的衔接子，来自其他文库的未掺入的衔接子将不可能用作簇扩增期间的引物，并且因此，可以减少索引跳跃。

在本文描述的一些方面，一种方法包括提供第一多于一个双链靶多核苷酸片段。双链靶多核苷酸片段的每一个具有第一末端和第二末端。该方法还包括提供包括具有5’末端和3’末端的第一链和具有5’末端和3’末端的第二链的第一衔接子寡核苷酸。第一衔接子寡核苷酸包含(i)双链区域，该双链区域包含第一链的5’末端和第二链的3’末端，和(ii)单链区域，在该单链区域中第一链和第二链是单链的。单链区域包含第一链的3’末端和第二链的5’末端。第一衔接子寡核苷酸包含第一文库特异性序列。第一链的3’末端被修饰以防止被具有3’外切核酸酶活性的酶消化，并且第二链的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。该方法还包括将第一衔接子寡核苷酸和第一多于一个双链靶多核苷酸片段在适于将第一衔接子的第一链的5’末端和第一衔接子的第二链的3’末端连接至双链靶多核苷酸片段的第一末端和第二末端的条件下孵育，以产生包含第一衔接子-靶-第一衔接子序列的多核苷酸的第一文库。方法还包括使第一文库的多核苷酸与外切核酸酶接触，外切核酸酶将被理解为一种或更多种外切核酸酶。外切核酸酶包括3’单链外切核酸酶活性和5’单链外切核酸酶活性，以选择性降解未连接至双链靶多核苷酸片段的第一衔接子寡核苷酸。

在本文描述的一些方面，一种用于在测序之前与靶多核苷酸连接的寡核苷酸衔接子，包括具有5’末端和3’末端的第一寡核苷酸链；和具有5’末端和3’末端的第二寡核苷酸链。第一链的5’末端的区域包含与第二链的3’末端的区域中的核苷酸互补的核苷酸，使得互补区域是双链的。第一链的3’末端的区域和第二链的5’末端的区域足够非互补以至于成为单链的。第一链和第二链中的至少一条包含文库特异性索引标签序列。第一链的3’末端被修饰以防止被具有3’外切核酸酶活性的酶消化，并且第二链的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。

在本文描述的一些方面中，一种试剂盒包括如先前段落中描述的衔接子和外切核酸酶。在本文描述的一些方面，一种组合物包含如先前段落中描述的衔接子和外切核酸酶。

在本文描述的一些方面，一种组合物包含含有第一衔接子-靶-第二衔接子序列的多于一个多核苷酸。靶序列是双链的。第一衔接子在靶附近的区域是双链的。第二衔接子在靶附近的区域是双链的。第一衔接子在靶远端的区域包括各自具有一个末端的两条单链。第二衔接子在靶远端的区域包括各自具有一个末端的两条单链。第一衔接子或第二衔接子的两条单链中的至少一条链包含文库特异性索引标签序列。第一衔接子和第二衔接子的两条单链的每一个末端被修饰以防止被外切核酸酶消化。

先前段落的组合物可以任选地包含包括具有5’末端和3’末端的第一寡核苷酸链和具有5’末端和3’末端的第二寡核苷酸链的衔接子。第一链的5’末端的区域包含与第二链的3’末端的区域中的核苷酸互补的核苷酸，使得互补区域是双链的。第一链的3’末端的区域和第二链的5’末端的区域足够非互补以至于成为单链的。第一链和第二链中的至少一条包含文库特异性索引标签序列。第一链的3’末端被修饰以防止被具有3’外切核酸酶活性的酶消化，并且第二链的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。

前两个段落的任一个段落的组合物还可以包含外切核酸酶。

本文描述的方法、组合物和试剂盒可以用于减少索引跳跃，例如通过降解文库样品制备期间未掺入的衔接子。通过降解未掺入的衔接子，未掺入的衔接子将不可获得以潜在地用作簇扩增的偶然(inadvertent)延伸引物。此外，将理解的是，降解不完整产物，诸如未连接衔接子或仅连接一个衔接子的靶多核苷酸，将通常有益于减少不能够用作用于测序的有效模板的多核酸与固体支持物的结合。

本公开内容的主题的另外的特征和优点将在以下详细描述中阐述，并且部分地是依据该描述对于本领域技术人员显而易见的，或通过实践如本文描述的本公开内容(包括以下详细描述、权利要求书以及附图)的主题而被认识到。

将理解的是，前述一般描述和以下详细描述都展示了本公开内容的主题的实施方案，并且意图提供用于理解本公开内容如其所要求保护的主题的性质和特征的概述或框架。包括附图是为了提供对本公开内容的主题的进一步理解，并且被并入并且构成本说明书的一部分。附图图示了本公开内容的主题的多个实施方案，并且与描述一起用于解释本公开内容的主题的原理和运行。另外地，附图和描述意味着仅是说明性的，并且不意图以任何方式限制权利要求书的范围。

附图简述

当结合以下附图阅读时，可以最好地理解对本公开内容的特定实施方案的以下详细描述。

图1是根据本文展示的公开内容的多个方面的衔接子的实施方案的示意图。

图2是根据本文展示的公开内容的多个方面的具有衔接子-靶-衔接子序列(其可以包括大体上如图1中示出的衔接子)的模板多核苷酸的实施方案的示意图。

图3是图示了将衔接子-靶连接的反应产物和试剂与外切核酸酶孵育的结果的示意图。

图4是图示了使用根据本文展示的公开内容的多个方面的模板多核苷酸(其可以是图2中描绘的模板多核苷酸)的实施方案的簇扩增的过程的实施方案的示意图。

图5是图示了根据本文描述的多个实施方案，外切核酸酶处理如何可以减少索引跳跃的一个实施方案的示意图。

图6A和6B图示了索引跳跃现象的性质。图6A示出了来自给定样品的读段(read)如何被不正确地去多重化并且在去多重化之后与不同的样品混合。图6B展示了双索引系统中的索引跳跃，其中索引跳跃导致索引标签序列的预期不到的组合。

图7A和7B图示了测量给定系统中的索引跳跃率的一般方法。图7A示出了双衔接子板的示例性布局，其中96孔板的每一个单独的孔包含独特的一对索引标签序列。图7B示出了旨在测量索引跳跃率的实验设置，其中只使用了独特的双索引标签组合。

图8A和8B图示了未连接的衔接子对索引跳跃率的影响。图8A示出了与游离衔接子的50％掺入相关的索引跳跃的6倍增加。图8B示出了在测试的范围内游离叉形(forked)衔接子对索引跳跃率的大致呈线性的线性影响。

图9示出了在Illumina TruSeq无PCR文库制备工作流程中，根据本发明的对受保护的衔接子的组合的外切核酸酶和3’封闭处理在具有游离衔接子掺入和没有游离衔接子掺入时对索引跳跃率的影响。

示意图不一定按比例。附图中使用的相同数字是指相似的组件、步骤等。然而，将理解的是，在给定附图中使用某一数字指代一个组件不意图限制在另一幅图中用同一数字标记该组件。此外，使用不同的数字指代多个组件不意图指示被不同编号的组件不能与其他编号的组件相同或相似。

详细描述

现在将更详细地参考本公开内容的主题的多个实施方案，其一些实施方案在附图中图示。

定义

除非另外指明，否则本文使用的所有科学和技术术语具有本领域通常使用的含义。本文提供的定义是为了促进对本文频繁使用的某些术语的理解并且并不意味着限制本公开内容的范围。

除非上下文另外清楚指明，否则如本文使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此，除非上下文另外清楚指示，否则例如，提及“外切核酸酶”包括具有两种或更多种“外切核酸酶”的实例。

除非上下文另外清楚指明，如本说明书和所附权利要求书中使用的，术语“或”通常以其包括“和/或”的意义被使用。术语“和/或”意列出的要素的一个或全部或列出的要素的任意两个或更多个的组合。在一些情况下使用“和/或”不暗示在其他情况下使用“或”可能不意指“和/或”。

如本文使用的，“具有(have)”、“具有(has)”、“具有(having)”、“包括(include)”、“包括(includes)”、“包括(including)”、“包含(comprise)”、“包含(comprises)”、“包含(comprising)”等是以其开放式的包含意义使用的，并且通常意指“包括但不限于(include,but not limited to)”、“包括但不限于(includes,but not limited to)”或“包括但不限于(including,but not limited to)”。

“任选的”或“任选地”意指随后描述的事件、情形或组分可以出现或可以不出现，并且该描述包括其中该事件、情形或组件出现的情况和其中其不出现的情况。

词语“优选的”和“优选地”是指在某些情形下可以提供某些益处的本公开内容的实施方案。然而，其他的实施方案在相同或其他的情形下也可以是优选的。此外，一个或更多个优选的实施方案的叙述不暗示其他实施方案是无用的，并且不意图将其他实施方案排除在本发明的技术的范围之外。

同样在本文中，通过端点叙述的数值范围包括包含在该范围内的所有数字(例如，1至5包括1、1.5、2、2.75、3、3.80、4、5等)。其中值的范围是“大于”、“小于”等一个特定值时，该值被包括在该范围内。

除非另外明确说明，否则绝不意图本文阐述的任何方法被理解为要求其步骤以特定顺序进行。因此，在方法权利要求实际上没有叙述它的步骤所遵循的顺序或者未在权利要求或说明书中以其他方式特别说明步骤将被限制于特定顺序的情况下，绝不意图推断任何特定顺序。任何一项权利要求中的任何叙述的单个或多个特征或方面可以与任何其他一项或更多项权利要求中的任何其他叙述的特征或方面组合或排列。

虽然可以使用过渡措辞“包含(comprising)”来公开特定实施方案的多个特征、要素或步骤，但将理解的是，隐含了替代性实施方案，包括可以使用过渡措辞“组成(consisting)”或“基本上由…组成(consisting essentially of)”来描述的那些。因此，例如，隐含的包含衔接子-靶-衔接子序列的多核苷酸的替代性实施方案包括其中多核苷酸由衔接子-靶-衔接子序列组成的实施方案和其中多核苷酸基本上由衔接子-靶-衔接子序列组成的实施方案。

如本文使用的，在化合物、组合物或制品的上下文中，“提供”意指制备化合物、组合物或制品，购买化合物、组合物或制品，或以其他方式获得化合物、组合物或制品。

如本文使用的，“扩增(amplify)”、“扩增(amplifying)”或“扩增反应”及其派生词通常是指藉以将多核苷酸(例如模板多核苷酸)的至少一部分复制或拷贝到至少一个另外的多核苷酸中的任何动作或过程。该另外的多核苷酸任选地包括与模板多核苷酸的至少一部分基本上相同的或基本上互补的序列。模板多核苷酸可以是单链的或双链的，并且另外的多核苷酸可以独立地是单链的或双链的。扩增任选地包括多核苷酸的线性或指数复制。在一些实施方案中，这样的扩增可以使用等温条件进行；在其他实施方案中，这样的扩增可以包括热循环。在一些实施方案中，扩增是多重扩增，其包括在单个扩增反应中同时扩增多于一种靶序列。在一些实施方案中，“扩增”包括基于单独的DNA核酸的至少某部分和RNA核酸的至少某部分或其组合的扩增。扩增反应可以包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链式反应(PCR)。

如本文使用的，“扩增条件”及其派生词通常是指适用于扩增一个或更多个多核苷酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中，扩增条件可以包括等温条件，或可选地可以包括热循环条件，或者等温和热循环条件的组合。在一些实施方案中，适用于扩增一个或更多个多核苷酸序列的条件包括聚合酶链式反应(PCR)条件。通常，扩增条件是指足以扩增多核苷酸诸如一个或更多个靶序列，或扩增与一个或更多个衔接子连接的扩增的靶序列，例如衔接子连接的扩增的靶序列的反应混合物。通常，扩增条件包括用于扩增或用于多核苷酸合成的催化剂，例如聚合酶；与待扩增的核酸具有某种程度的互补性的引物；和核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，以促进引物在与核酸杂交后的延伸。扩增条件可能要求引物与核酸的杂交或退火、引物的延伸和变性步骤，在变性步骤中延伸的引物与经历扩增的多核苷酸序列分离。通常，但不一定，扩增条件可以包括热循环；在一些实施方案中，扩增条件包括其中重复了退火、延伸和分离的步骤的多于一个循环。通常，扩增条件包括阳离子，诸如Mg++或Mn++并且还可以包括多种离子强度助剂。

如本文使用的，术语“聚合酶链式反应”(“PCR”)是指K.B.Mullis美国专利第4,683,195号和第4,683,202号的方法，所述两篇美国专利描述了一种用于无需克隆或纯化而增加基因组DNA的混合物中感兴趣的多核苷酸的区段(sgement)的浓度的方法。这种用于扩增感兴趣的多核苷酸的方法由以下组成：将大量过量的两种寡核苷酸引物引入到包含期望的感兴趣的多核苷酸的DNA混合物中，随后在DNA聚合酶的存在下进行一系列热循环。两种引物与其对应的感兴趣的双链多核苷酸的链互补。混合物首先在较高的温度变性，并且然后引物退火至感兴趣分子的多核苷酸内的互补序列。在退火之后，用聚合酶延伸引物以形成新的一对互补链。变性、引物退火和聚合酶延伸的步骤可以重复许多次(称为热循环)以获得高浓度的期望的感兴趣的多核苷酸的扩增的区段。期望的感兴趣的多核苷酸的扩增的区段(扩增子)的长度由引物相对于彼此的相对位置确定，并且因此该长度是可控的参数。由于重复该过程，该方法被称为“聚合酶链式反应”(下文称为“PCR”)。因为感兴趣的多核苷酸的期望的扩增的区段成为混合物中的主要核酸序列(在浓度方面)，它们被称为“PCR扩增的”。在修改上文讨论的方法时，可以使用多于一个不同的引物对，在一些情况下，每个感兴趣的多核苷酸使用一个或更多个引物对，从而形成多重PCR反应来PCR扩增多核苷酸。

如本文定义的，“多重扩增”是指使用至少一种靶特异性引物对样品内的两种或更多种靶序列的选择性且非随机扩增。在一些实施方案中，进行多重扩增，使得一些或所有的靶序列在单个反应容器内被扩增。给定多重扩增的“重数(plexy)”或“重(plex)”通常是指在该单个多重扩增期间被扩增的不同靶特异性序列的数目。在一些实施方案中，重数可以是约12-重、24-重、48-重、96-重、192-重、384-重、768-重、1536-重、3072-重、6144-重或更高。还可能通过若干种不同的方法检测扩增的靶序列(例如，凝胶电泳随后是密度测定(densitometry)，用生物分析仪或定量PCR定量，与标记的探针杂交；掺入生物素化的引物随后是亲和素-酶缀合物检测；将32P标记的脱氧核苷酸三磷酸掺入到扩增的靶序列中)。

如本文使用的，术语“引物”及其派生词通常是指可以与感兴趣的靶序列杂交的任何多核苷酸。通常，引物作为核苷酸可以通过聚合酶被多聚化到其上的底物起作用；然而，在一些实施方案中，引物可以变得掺入到合成的核酸链中并且提供一个位点，另一种引物可以与该位点杂交以引发(prime)与合成的核酸分子互补的新链的合成。引物可以包含核苷酸或其类似物的任何组合。在一些实施方案中，引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指任何长度的核苷酸的聚合形式，并且可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅是指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。如本文使用的，“扩增的靶序列”及其派生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的多核苷酸序列。扩增的靶序列可以具有相对于靶序列相同有义序列(即正链)或反义序列(即，负链)。

如本文使用的，术语“聚合酶”意图与它在本领域中的使用一致，并且包括例如使用多核苷酸作为模板链产生多核苷酸的互补复制物的酶。通常，DNA聚合酶与模板链结合并且然后沿模板链向下游移动，顺序性地将核苷酸添加到核酸的增长链的3’末端处的游离羟基基团。DNA聚合酶通常从DNA模板合成互补DNA分子，并且RNA聚合酶通常从DNA模板合成RNA分子(转录)。聚合酶可以使用被称为引物的短RNA或DNA链以开始链增长。一些聚合酶可以在其一条链添加碱基的位点的上游置换该链。这样的聚合酶被称为是链置换的，意指它们具有从被聚合酶读取的模板链去除互补链的活性。具有链置换活性的示例性聚合酶包括但不限于Bst(嗜热脂肪芽孢杆菌(Bacillus stearothermophilus))聚合酶的大片段、外切Klenow聚合酶或测序级T7外切聚合酶。一些聚合酶降解它们前面的链，有效地将该前面的链替换为后面的增长链(5’外切核酸酶活性)。一些聚合酶具有降解它们后面的链的活性(3’外切核酸酶活性)。一些有用的聚合酶已经通过突变或以其他方式被修饰，以降低或消除3’外切核酸酶活性和/或5’外切核酸酶活性。

如本文使用的，术语“通用序列”是指两个或更多个核酸分子共有的序列的区域，其中这些分子还具有彼此不同的序列的区域。存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列互补的通用捕获核酸的群体捕获多个不同核酸。相似地，存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列互补的通用引物的群体复制或扩增多个不同核酸。因此，通用捕获多核苷酸或通用引物包括可以与通用序列特异性杂交的序列。多核苷酸可以被修饰以例如在不同序列的一个末端或两个末端处附接通用衔接子。

索引跳跃

本公开内容尤其涉及对来自多个编索引的文库的多核苷酸测序；并且更特别地，涉及增加测序正确鉴定出多核苷酸所源自的文库的可能性。

当来自不同文库的多核苷酸被汇集或多重化用于测序时，来自每个文库的多核苷酸可以被修饰以包含文库特异性索引标签序列。在测序期间，索引标签与来自文库的靶多核苷酸序列一起被测序。因此，索引标签序列可以与靶多核苷酸序列缔合，使得可以鉴定出靶序列所源自的文库。

然而，被称为索引跳跃的现象可能发生在小百分比的序列结果中(通常为0.5％至2％)。索引跳跃是指来自一个文库的索引标签序列与来自另一个文库的靶多核苷酸缔合(参见图6A和6B)。虽然可能发生索引跳跃的机制未被完全理解，但索引跳跃率可以通过在衔接子被附接至文库的靶多核苷酸以尤其是在将索引标签序列附接至多核苷酸后封闭未掺入的衔接子的3’末端来有效降低。

文库样品制备

可以以将寡核苷酸衔接子附接至靶多核苷酸的任何合适的方式制备包含多核苷酸的文库。如本文使用的，“文库”是来自给定来源或样品的多核苷酸的群体。文库包含多于一个靶多核苷酸。如本文使用的，“靶多核苷酸”是期望测序的多核苷酸。靶多核苷酸基本上可以是序列已知或未知的任何多核苷酸。例如，靶多核苷酸可以是基因组DNA或cDNA的片段。测序可导致对全部或部分靶多核苷酸的序列的确定。靶多核苷酸可以来源于已经被随机片段化的初始多核苷酸样品。靶多核苷酸可以通过在每个靶片段的末端处放置通用引物序列被处理成适用于扩增的模板。靶多核苷酸还可以由初始RNA样品通过逆转录成cDNA获得。

术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指任何长度的核苷酸的聚合形式，并且可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅是指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。本文使用的术语多核苷酸和寡核苷酸还包括cDNA，其是例如通过逆转录酶的作用由RNA模板产生的互补或拷贝DNA。

初始多核苷酸分子可以源自双链DNA(dsDNA)形式(例如基因组DNA片段、PCR和扩增产物等)，或可能来源于单链形式的DNA或RNA并被转化为dsDNA形式。举例而言，可以使用本领域熟知的标准技术将mRNA分子拷贝成双链cDNA。初始多核苷酸的精确序列对于本文展示的公开内容通常是不重要的，并且可能是已知的或未知的。

在一些实施方案中，初始靶多核苷酸是RNA分子。在这样的实施方案的一个方面中，首先使用本领域已知的技术将从特定样品分离的RNA转化成双链DNA。然后该双链DNA可以用文库特异性标签进行索引标签化。包含文库特异性索引标签的这样的双链DNA的不同制备物可以由从不同来源或样品分离的RNA平行地产生。随后，包含不同文库特异性索引标签的双链DNA的不同制备物可以被混合，全体测序，并且根据文库特异性索引标签序列的存在，相对于从其它被分离/来源的文库确定每个被测序的片段的身份。

在一些实施方案中，初始靶多核苷酸是DNA分子。例如，初始多核苷酸可以代表生物体的整个遗传互补序列，并且是基因组DNA分子，诸如人类DNA分子，其包括内含子和外显子序列(编码序列)二者，以及非编码调控序列诸如启动子和增强子序列。虽然可以设想还可以使用多核苷酸序列或基因组DNA的特定子集，诸如，例如特定染色体或其一部分。在许多实施方案中，初始多核苷酸的序列是未知的。可以在片段化过程诸如随机片段化过程之前或之后，以及连接衔接子寡核苷酸之前、期间或之后，通过化学方法或酶方法处理DNA靶多核苷酸。

优选地，初始靶多核苷酸被片段化成适用于测序的适当长度。靶多核苷酸可以以任何合适的方式被片段化。优选地，靶多核苷酸被随机片段化。随机片段化是指多核苷酸通过例如酶促、化学或机械手段以无序方式片段化。这样的片段化方法是本领域已知的，并且使用标准方法(Sambrook和Russell,Molecular Cloning,A Laboratory Manual,第三版)。为了清楚起见，通过特异性PCR扩增较大块(larger piece of)多核苷酸的较小片段产生此类较小片段不等同于片段化较大块的核苷酸，因为较大块的多核苷酸保持完整(即，没有被PCR扩增片段化)。此外，随机片段化被设计成产生不考虑包含断裂和/或在断裂附近的核苷酸的序列身份或位置的片段。

在一些实施方案中，随机片段化通过机械手段诸如雾化或声波处理来产生长度为约50个碱基对至长度为约1500个碱基对，诸如长度为50个-700个碱基对或长度为50个-500个碱基对的片段。

多核苷酸分子通过机械手段(例如雾化、声波处理和Hydroshear)的片段化可能导致具有平末端和3’-突出末端(overhanging end)和5’-突出末端的异质混合物的片段。可以使用本领域已知的方法或试剂盒(诸如Lucigen DNA终止子末端修复试剂盒)修复片段末端，以产生最佳用于插入例如到克隆载体的平位点的末端。在一些实施方案中，多核苷酸的群体的片段末端是平末端。片段末端可以是平末端的和磷酸化的。可以通过酶促处理例如使用多核苷酸激酶引入磷酸部分。

在一些实施方案中，通过例如某些类型的DNA聚合酶诸如Taq聚合酶或Klenow exominus聚合酶的活性(具有非模板依赖性末端转移酶活性，将单个脱氧核苷酸例如脱氧腺苷(A)添加到例如PCR产物的3’末端)，靶多核苷酸被制备为具有单突出核苷酸。这样的酶可以被用于将单个核苷酸“A”添加到靶多核苷酸双链体的每条链的平末端的3’末端。因此，通过靶多核苷酸双链体与Taq聚合酶或Klenow exo minus聚合酶反应，“A”可以被添加到每个末端修复的双链体链的3’末端，而衔接子多核苷酸构建体可以是具有可相容的T-构建体，该“T”突出端存在于衔接子构建体的每个双链体区域的3’末端。这种末端修饰还防止靶多核苷酸的自连接，使得存在朝向形成组合的连接的衔接子-靶多核苷酸的偏倚(bias)。

在一些实施方案中，片段化是通过如例如国际专利申请公布WO2016/130704中描述的标记片段化(tagmentation)完成的。在这样的方法中，转座酶被用于使双链多核苷酸片段化。可按照WO 2016/130704中描述地对所得的双链片段进行缺口填充，并且准备用于与衔接子连接。

靶多核苷酸可以包含从片段化过程剩余的或使用酶处理步骤添加的5’-磷酸部分，并且已经被末端修复，并且任选地延伸出一个或更多个突出碱基，以给出适用于连接的3’-OH。在本文中，附接意指先前未被共价连接的多核苷酸链的共价连接。在本发明的一个特定方面中，这样的附接通过在两条多核苷酸链之间形成磷酸二酯键而发生，但可以使用共价连接的其他手段(例如非磷酸二酯骨架连接)。将衔接子连接到靶多核苷酸在例如美国专利第8,053,192号中更详细地描述。

在连接之前已经被修饰例如以更好地准备用于连接的片段化的多核苷酸，在本文中可以被称为多核苷酸“片段”。

如本文使用的，术语“连接(ligating)”、“连接(ligation)”及其派生词通常是指将两个或更多个分子共价地连接在一起例如将两个或更多个多核苷酸彼此共价地连接的过程。在一些实施方案中，连接包括连接多核苷酸的相邻核苷酸之间的切口(nick)。在一些实施方案中，连接包括在第一多核苷酸的末端和第二多核苷酸的末端之间形成共价键。在一些实施方案中，连接可以包括在一个核酸的5’磷酸基团和第二个核酸的3’羟基基团之间形成共价键，从而形成连接的多核苷酸。通常出于本公开内容的目的，靶序列可以被连接至衔接子以产生衔接子连接的靶序列。

如本文使用的，“连接酶”及其派生词通常是指能够催化两个底物分子连接的任何剂。在一些实施方案中，连接酶包括能够催化核酸的相邻核苷酸之间的切口的连接的酶。在一些实施方案中，连接酶包括能够催化一个核酸分子的5’磷酸与另一个核酸分子的3’羟基之间共价键的形成从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌(E.coli)DNA连接酶。

如本文使用的，“连接条件”及其派生词通常是指适用于将两个分子彼此连接的条件。在一些实施方案中，连接条件适用于封闭核酸之间的切口或缺口(gap)。如本文使用的，术语切口或缺口与本领域中该术语的使用一致。通常，切口或缺口可以在适当的温度和pH在酶诸如连接酶的存在下连接。在一些实施方案中，T4 DNA连接酶可以在约70℃-72℃的温度连接核酸之间的切口。

可以将任何合适的衔接子连接至靶多核苷酸。优选地，衔接子包括具有5’末端和3’末端的第一寡核苷酸链和具有5’末端和3’末端的第二寡核苷酸链。第一链的5’末端的区域包含与第二链的3’末端的区域中的核苷酸互补的核苷酸，使得互补区域是双链的。第一链的3’末端的区域和第二链的5’末端的区域足够非互补以至于成为单链的。

优选地，衔接子的双链区域在不损失功能的情况下尽可能地短。在该背景中，“功能”是指双链区域在标准反应条件下形成稳定双链体的能力。在一些实施方案中，标准反应条件是指用于酶催化的多核苷酸连接反应的反应条件，其对于熟练技术读者将是熟知的(例如，在4℃至25℃的范围内的温度在适用于酶的连接缓冲液中孵育)，使得形成衔接子的两条链在衔接子连接到靶分子期间保持部分退火。连接方法是本领域已知的，并且可以使用标准方法(Sambrook和Russell,Molecular Cloning,A Laboratory Manual,第三版)。这样的方法使用连接酶诸如DNA连接酶以实现或催化在这种情况下是衔接子双链体寡核苷酸和靶多核苷酸双链体的两条多核苷酸链的末端的连接，使得共价连接形成。衔接子双链体寡核苷酸可以包含5’-磷酸部分以促进连接到靶多核苷酸3’-OH。

衔接子的双链区域可以具有任何合适数目的碱基对。优选地，双链区域是通过两条部分互补的多核苷酸链的退火形成的短双链区域，通常包含5个或更多个连续碱基对。衔接子的这种“双链区域”是指其中两条链退火的区域，并且不暗示任何特定的结构构象。在一些实施方案中，双链区域包含20个或更少的连续碱基对，诸如10个或更少或5个或更少的连续碱基对。

双链区域的稳定性可以通过包含表现出比标准Watson-Crick碱基对更强的碱基配对的非天然核苷酸来增加，并且因此它的长度可能减小。优选地，衔接子的两条链在双链区域中100％互补。

当衔接子被附接至靶多核苷酸时，非互补单链区域可以形成待测序的多核苷酸的5’末端和3’末端。术语“非互补单链区域”是指衔接子的一个区域，其中形成衔接子的两条多核苷酸链的序列表现出一定程度的非互补性，使得两条链不能够在用于PCR反应的标准退火条件下彼此完全退火。

非互补单链区域由形成双链区域的相同两条多核苷酸链的不同部分提供。单链部分的长度的下限值通常将由例如提供用于引物延伸、PCR和/或测序的引物的结合的合适序列的功能来确定。理论上，不存在不匹配的区域的长度的上限值，除了通常将衔接子的总长度最小化例如以促进在一个或更多个附接步骤之后将未结合的衔接子与衔接子-靶构建体分离是有利的之外。因此，通常优选的是衔接子的非互补单链区域长度为50个或更少的连续核苷酸，诸如长度为40个或更少、30个或更少或者25个或更少的连续核苷酸。

衔接子的单链末端被修饰以防止被外切核酸酶消化。例如，3’末端可以被修饰以防止被3’外切核酸酶消化，并且5’末端可以被修饰以防止被5’外切核酸酶消化。出于本公开内容的目的，“防止”被外切核酸酶消化的修饰抑制了外切核酸酶相对于它对未修饰的末端的作用的活性。优选地，防止被外切核酸酶消化的修饰消除了外切核酸酶消化多核苷酸链的能力。

衔接子的单链区域的游离末端可以以任何合适的方式被修饰以防止外切核酸酶活性。在一些实施方案中，衔接子的单链区域的游离末端包含硫代磷酸酯键。优选地，衔接子的单链区域的游离末端的末端三个核苷酸之间的键包括硫代磷酸酯键。出于本公开内容的目的，其末端三个核苷酸之间的键包括硫代磷酸酯键的多核苷酸的末端可以被称为包含三个硫代磷酸酯键的末端。如本领域熟知的，硫代磷酸酯键可以以任何合适的方式被引入到多核苷酸的5’末端或3’末端中。包含末端硫代磷酸酯键的寡核苷酸可以从许多商业供应商，包括例如Integrated DNA Technologies和Sigma-Aldrich购买。

在一些实施方案中，单链DNA结合蛋白(SSB)与衔接子的单链区域的游离末端结合，以保护衔接子的游离末端免受外切核酸酶降解。可以使用任何合适的SSB结合衔接子的单链区域，以保护单链区域免受外切酶活性。合适的SSB的实例包括单纯疱疹病毒(HSV-1)SSB(Mapelli M,Panjikar S,Tucker PA(2005)."The crystal structure of the herpessimplex virus 1ssDNA-binding protein suggests the structural basis forflexible,cooperative single-stranded DNA binding".J Biol Chem.280(4):2990-7)；大肠杆菌SSB(Meyer RR,Laine PS(1990年12月)."The single-stranded DNA-bindingprotein of Escherichia coli".Microbiol.Rev.54(4):342-80)；真核线粒体SSB，诸如人类线粒体SSB(mtSSB)(Tiranti,V；Rocchi,M；DiDonato,S；Zeviani,M(1993年4月30日)."Cloning of human and rat cDNAs encoding the mitochondrial single-strandedDNA-binding protein(SSB)".Gene.126(2):219-25)和酿酒酵母(Saccharomycescerevisiae)SSB(Van Dyck,E；Foury,F；Stillman,B；Brill,SJ(1992年9月)."A single-stranded DNA binding protein required for mitochondrial DNA replication inS.cerevisiae is homologous to E.coli SSB".The EMBO Journal.11(9):3421-30)；和真核复制蛋白A(Wold,MS(1997)."Replication protein A:heterotrimeric,single-stranded DNA-binding protein required for eukaryotic DNA metabolism".AnnualReview of Biochemistry.66(1):61-92)。SSB从许多供应商包括ThermoFisherScientific(目录号70032Z500UG)和Sigma-Aldrich(MDL号MFCD00213047)商购可得。

SSB可以在将衔接子连接至靶多核苷酸之前、期间或之后与衔接子的单链游离末端结合。如果结合的SSB干扰连接反应，SSB优选地在衔接子被连接至靶多核苷酸后与衔接子的单链游离末端结合。在将衔接子连接至靶多核苷酸之后，以下种类的多核苷酸可能留存：衔接子、衔接子-靶和衔接子-靶-衔接子。衔接子的单链游离末端将因结合SSB而被保护免受外切核酸酶活性，而衔接子以及衔接子-靶分子的双链区域将易受外切核酸酶活性影响。在外切核酸酶降解之后，具有结合的SSB的衔接子-靶-衔接子将仍然存在。在将衔接子-靶-衔接子多核苷酸与具有与衔接子的游离末端的至少一个序列互补的寡核苷酸的固体表面杂交之前，可以去除SSB以促进杂交。SSB可以以任何合适的方式被去除。例如，SSB可以在变性条件下被去除。

在一些实施方案中，衔接子的单链区域的游离末端包括生物素基团，抗生物素蛋白或链霉抗生物素蛋白可以与生物素基团结合以防止被外切核酸酶降解。生物素可以以任何合适的方式被附接至衔接子的游离5’末端和3’末端。例如，生物素可以通过生物素标记的核苷酸的酶掺入、通过附接生物素的5’末端或3’末端的化学修饰、通过使用标记的寡核苷酸引物等掺入到衔接子的5’末端或3’末端上。举例而言，生物素可以使用例如末端脱氧核苷酸转移酶(TdT)掺入到3’末端，所述末端脱氧核苷酸转移酶(TdT)催化生物素化的核苷酸向单链DNA的3’-OH末端的非模板定向的核苷酸掺入。用于将生物素附接至衔接子的游离末端的3’末端的试剂盒的一个实例是ThermoScientific Pierce生物素3’末端标记试剂盒(目录号89818)，其使用TdT将1-3个生物素化的核糖核苷酸(生物素-11-UTP)掺入到单链DNA的3’末端。

生物素标记的核苷酸可以包含可裂解接头，诸如二硫键，其可以被例如二硫苏糖醇裂解以释放生物素(和任何抗生物素蛋白或链霉抗生物素蛋白)。具有可裂解接头的生物素标记物，包括具有可裂解接头的生物素标记的核苷酸，可从许多供应商诸如Skokie,IL的Integrated DNA Technologies,Inc.(IDT)商购获得。

抗生物素蛋白或链霉抗生物素蛋白可以在将衔接子连接至靶多核苷酸之前、期间或之后与衔接子结合。如果结合的抗生物素蛋白或链霉抗生物素蛋白干扰连接反应，则优选在衔接子被连接至靶多核苷酸后使抗生物素蛋白或链霉抗生物素蛋白与衔接子的单链游离末端结合。在将衔接子连接至靶多核苷酸之后，以下种类的多核苷酸可能留存：衔接子、衔接子-靶和衔接子-靶-衔接子。衔接子的单链游离末端将因结合抗生物素蛋白或链霉抗生物素蛋白而被保护免受外切核酸酶活性，而衔接子以及衔接子-靶分子的双链区域将易受外切核酸酶活性影响。在外切核酸酶降解之后，具有结合的抗生物素蛋白或链霉抗生物素蛋白的衔接子-靶-衔接子将仍然存在。在将衔接子-靶-衔接子多核苷酸与具有与衔接子的游离末端的至少一个序列互补的寡核苷酸的固体表面杂交之前，可以去除抗生物素蛋白或链霉抗生物素蛋白以促进杂交。抗生物素蛋白或链霉抗生物素蛋白可以以任何合适的方式被去除。优选地，生物素标记物包括允许去除生物素和结合的抗生物素蛋白或链霉抗生物素蛋白的可裂解接头。

在一些实施方案中，衔接子的单链区域的游离末端被针对Y形衔接子的抗体结合，以防止被外切核酸酶从衔接子的5’单链末端和3’单链末端降解。

优选地，衔接子的形成衔接子的双链区域的末端易受外切核酸酶活性影响。优选地，衔接子的形成衔接子的双链区域的末端至少与包含未修饰的核苷酸的末端一样易受外切核酸酶活性影响。在一些实施方案中，衔接子的形成衔接子的双链区域的末端包含未修饰的核苷酸。

寡核苷酸的个体链可以被混合并且退火以产生具有双链部分和单链部分的衔接子，以便将双链部分连接至双链靶片段。

形成衔接子的第一链或第二链中的至少一条包括文库特异性索引标签序列。在样品被固定用于测序前，可以通过将衔接子连接至靶将索引标签序列附接至来自每一个文库的靶多核苷酸。索引标签本身不由靶多核苷酸的一部分形成，而变成模板的一部分用于扩增。索引标签可以是作为模板制备步骤的一部分被添加到靶的合成核苷酸序列。因此，文库特异性索引标签是附接至特定文库的每一个靶分子的核酸序列标签，其存在指示或用于鉴定靶分子被从其分离的文库。

优选地，索引标签序列长度为20个核苷酸或更少。例如，索引标签序列长度可以为1个-10个核苷酸或4个-6个核苷酸。四核苷酸索引标签提供了在同一阵列上多重化256个样品的可能性，六碱基索引标签使得能够在同一阵列上处理4096个样品。衔接子可以包含多于一个索引标签，使得可以增加多重化可能性。

文库特异性索引标签序列可以位于单链、双链区域，或跨越衔接子的单链和双链区域。优选地，索引标签序列在衔接子的单链区域中。

衔接子可以包括除索引标签序列之外的任何其他合适的序列。例如，衔接子可以包含通用延伸引物序列，其通常位于衔接子和所得的多核苷酸的5’末端或3’末端处以用于测序。通用延伸引物序列可以与结合至固体基底表面的互补引物杂交。互补引物包含游离3’末端，聚合酶或其他合适的酶可以使用杂交的文库多核苷酸作为模板从该游离3’末端添加核苷酸以延伸序列，导致文库多核苷酸的反向链被偶联到固体表面。这样的延伸可以是测序运行或簇扩增的一部分。

在一些实施方案中，衔接子包含一个或更多个通用测序引物序列。通用测序引物序列可以与测序引物结合，以允许对索引标签序列、靶序列或索引标签序列和靶序列测序。

衔接子的精确核苷酸序列对本发明通常是不重要的，并且可以由使用者选择，使得期望的序列元件最终被包括在从衔接子获得的模板的文库的共有序列中，所述衔接子例如提供用于特定组的通用延伸引物和/或测序引物的结合位点。

优选地，衔接子被附接至靶多核苷酸的两个末端，以产生具有第一衔接子-靶-第二衔接子核苷酸序列的多核苷酸。第一衔接子和第二衔接子可以是相同的或不同的。优选地，第一衔接子和第二衔接子是相同的。在这样的实施方案中，所得的多核苷酸将具有第一衔接子-靶-第一衔接子核苷酸序列。如果第一衔接子和第二衔接子是不同的，第一衔接子和第二衔接子中的至少一个包含文库特异性索引标签序列。

将理解的是，“第一衔接子-靶-第二衔接子序列”、“第一衔接子-靶-第一衔接子序列”或“衔接子-靶-衔接子”序列是指衔接子相对于彼此和相对于靶的方向，并且不一定意味着，该序列不可以包括另外的序列，诸如例如接头序列。

其他文库可以以类似的方式制备，每一个文库包括不同于来自其他文库的索引标签序列或索引标签的组合的至少一个文库特异性索引标签序列或索引标签序列的组合。

在衔接子被连接至靶多核苷酸后，所得的多核苷酸可以经受清理过程以通过去除至少一部分未掺入的衔接子来增强衔接子-靶-衔接子多核苷酸的纯度。可以使用任何合适的清理过程，诸如电泳、尺寸排阻色谱等。在一些实施方案中，可以使用固相反向固定化(solid phase reverse immobilization)(SPRI)顺磁性珠将衔接子-靶-衔接子多核苷酸与未附接的衔接子分离。虽然这样的方法可以增强所得的衔接子-靶-衔接子多核苷酸的纯度，但可能保留一些未附接的衔接子寡核苷酸。

可以对每一个单独的文库或对汇集的文库进行清理过程。

外切核酸酶处理

对包含所得的衔接子-靶-衔接子多核苷酸的溶液或组合物，无论是否首先经历清理，连同任何未掺入的衔接子寡核苷酸或靶多核苷酸用外切核酸酶进行处理，以消化具有未受保护的5’末端或未受保护的3’末端的多核苷酸，包括未掺入的衔接子。

可以使用任何合适的外切核酸酶。优选地，外切核酸酶具有5’外切核酸酶活性和3’外切核酸酶活性。具有“5’外切核酸酶活性”的外切核酸酶是在5’至3’方向上消化DNA的外切核酸酶。具有“3’外切核酸酶活性”的外切核酸酶是在3’至5’方向上消化DNA的外切核酸酶。外切核酸酶可以包括针对没有切口的双链DNA的活性。具有5’外切核酸酶活性和3’外切核酸酶活性并且具有针对没有切口的双链DNA的活性的合适的外切核酸酶的一个实例是外切核酸酶V，其是来自大肠杆菌的RecBCD复合物并且可从例如New England Biolabs(Cat#M0345S/L)获得。

在一些实施方案中，可以使用两种外切核酸酶，一种具有5’外切核酸酶活性并且另一种具有3’外切核酸酶活性。具有5’外切核酸酶活性的外切核酸酶的实例包括λ外切核酸酶(New England Biolabs)和截短的外切核酸酶VIII(New England Biolabs)。具有3’外切核酸酶活性的外切核酸酶的一个实例是外切核酸酶T(New England Biolabs)。

可以对单独的每一个文库，或对汇集的文库进行外切核酸酶处理。在外切核酸酶处理之后，可以进行诸如上文描述的清理步骤，然后将多核苷酸固定在固体表面上以便测序。

如果文库尚未被汇集，它们可以在固定在测序表面之前被汇集。

用于测序的固定的样品的制备

汇集的外切核酸酶处理的文库制备物然后可以被固定在固体表面上以便准备用于测序。测序可以以单分子的阵列进行，或可以在测序之前被扩增。扩增可以使用一种或更多种固定化引物实施。一种或更多种固定化引物可以是平面表面上的坪(lawn)、平面表面上的簇，在多孔结构的孔中、在珠的池上等。珠的池可以被分离成乳液，而在乳液的每一个“区室(compartment)”中具有单个珠。在每一个“区室”仅一个模板的浓度，每一个珠上仅单个模板被扩增。

如本文使用的术语“固相扩增”是指在固体支持物上或与固体支持物缔合实施的任何多核苷酸扩增反应，使得全部或一部分扩增产物在它们形成时被固定在固体支持物上。特别地，该术语包括固相聚合酶链式反应(固相PCR)和固相等温扩增，其是与标准溶液相扩增类似的反应，不同之处是正向扩增引物和反向扩增引物的一种或两种被固定在固体支持物上。固相PCR覆盖了系统，诸如其中一种引物被锚定到珠而另一种在自由溶液(freesolution)中的乳液，以及在固相凝胶基质中的克隆(colony)形成，其中一种引物被锚定到表面并且一种在自由溶液中。

虽然本公开内容包括其中仅一种扩增引物被固定(另一种引物通常存在于自由溶液中)的“固相”扩增方法，但优选向固相支持物提供固定的正向引物和反向引物二者。在实践中，因为扩增过程要求过量的引物以维持扩增，所以“多于一个”相同的正向引物和/或“多于一个”相同的反向引物将被固定在固体支持物上。除非上下文另外指示，否则本文中提及正向引物和反向引物将相应地解释为包括“多于一个”这样的引物。

如熟练的技术读者将理解的，任何给定扩增反应要求对待扩增的模板特异的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可以包含相同序列的模板特异性部分，并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换言之，仅使用一种类型的引物实施固相扩增是可能的，并且这样的单引物方法包括在本发明的范围内。其他实施方案可以使用包含相同模板特异性序列但其一些其他结构特征不同的正向引物和反向引物。例如，一种类型的引物可以包含另一种类型的引物中不存在的非核苷酸修饰。

在整个本公开内容中，当指衔接子和/或扩增引物时使用术语“P5”和“P7”。将理解的是，任何合适的扩增引物可以被用于本文展示的方法中，并且P5和P7的使用仅是示例性实施方案。扩增引物诸如P5和P7在流动池上的使用是本领域已知的，如由WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容例示的，其每一个通过引用以其整体并入。例如，任何合适的正向扩增引物，无论是固定的或在溶液中的，可在用于本文展示的方法中用于与互补序列杂交和扩增序列。相似地，任何合适的反向扩增引物，无论是固定的或在溶液中的，可用于本文展示的方法中用于与互补序列杂交和扩增序列。本领域技术人员将理解如何设计和使用适用于捕获和扩增如本文展示的核酸的引物序列。

用于固相扩增的引物优选地通过在引物的5’末端处或在引物的5’末端附近与固体支持物单点共价附接来固定，使引物的模板特异性部分自由退火至它的关联模板并且3’羟基基团自由用于引物延伸。本领域已知的任何合适的共价附接手段可以被用于该目的。选择的附接化学将取决于固体支持物的性质，以及对其应用的任何衍生化或官能化。引物本身可以包括可以是非核苷酸化学修饰的部分以促进附接。在一些实施方案中，引物在5’末端处包括含硫亲核剂，诸如硫代磷酸酯(phosphorothioate)或硫代磷酸酯(thiophosphate)。固体支持物的表面可以包括或被修饰成包括含硫亲核剂可以附接的部分。例如，含硫亲核剂可以与溴乙酰胺基团结合。在一些实施方案中，固体支持的聚丙烯酰胺水凝胶包含用于结合含硫亲核剂的溴乙酰胺基团。如WO/2005065814中充分描述的，更特别的将引物和模板附接至固体支持物的手段是通过5’硫代磷酸酯附接至包含多聚化的丙烯酰胺和N-(5-溴乙酰胺基戊基)丙烯酰胺(BRAPA)的水凝胶。

包含惰性基底或基质(例如载玻片、聚合物珠等)的固体支持物可以，例如通过施加包含反应基团的中间材料层或涂层来“官能化”，所述反应基团允许共价附接至诸如多核苷酸的生物分子。这样的支持物的实例包括但不限于被支撑在惰性基底诸如玻璃上的聚丙烯酰胺水凝胶。在这样的实施方案中，生物分子(例如多核苷酸)可以被直接地共价附接至中间材料(例如水凝胶)，但中间材料自身可以被非共价附接至基底或基质(例如玻璃基底)。术语“共价附接至固体支持物”将相应地被理解为包括这种布置类型。

汇集的文库样品可以在包含正向和反向扩增引物的固体表面上扩增。在一些实施方案中，多核苷酸的汇集的文库被用于通过固相扩增并且更特别地通过固相等温扩增制备多核酸克隆的簇集的阵列，类似于美国专利公布第2005/0100900号、美国专利第7,115,400号、WO 00/18957和WO 98/44151中描述的那些。术语“簇”和“克隆”在本文中可互换地用来指固体支持物上包含多于一条相同的固定的核酸链和多于一条相同的固定的互补核酸链的离散位点。术语“簇集的阵列”是指由这样的簇或克隆形成的阵列。在本文中，术语“阵列”不应被理解为要求簇的有序布置。

术语固相或表面被用于意指平面阵列(其中引物被附接至平坦表面，例如，玻璃、二氧化硅或塑料显微镜载玻片)或相似的流动池装置；珠，其中一种或两种引物被附接至珠并且珠被扩增；在表面上的珠阵列(在珠被扩增后)等。

术语“固体表面”、“固体支持物”和本文中其他语法等同物是指适用于或可以被修饰以适用于模板多核苷酸的附接的任何材料。如本领域人员将理解的，可能的基底的数目是非常巨大的。可能的基底包括但不限于：玻璃和改性的或官能化的玻璃、塑料(包括丙烯酸、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、

等)、多糖、尼龙或硝酸纤维素、陶瓷、树脂、二氧化硅或基于二氧化硅的材料包括硅和改性的硅、碳、金属、无机玻璃、塑料、光学纤维束和多种其他聚合物。对于一些实施方案特别有用的固体支持物和固体表面位于流动池装置内。示例性流动池在下文被更详细地阐述。

在一些实施方案中，固体支持物包含图案化表面。“图案化表面”是指不同区域在固体支持物暴露的层中或暴露的层上的布置。例如，一个或更多个区域可以是其中存在一个或更多个扩增引物的特征。特征可以被其中不存在扩增引物的间隙区域分开。在一些实施方案中，图案可以是呈行和列的x-y格式的特征。在一些实施方案中，图案可以是特征和/或间隙区域的重复布置。在一些实施方案中，图案可以是特征和/或间隙区域的随机布置。可以被用于本文阐述的方法和组合物中的示例性图案化表面在美国专利第8,778,848号、第8,778,849号、第9,079,148号和美国公布第2014/0243224号中描述。

在一些实施方案中，固体支持物包括表面中的孔或凹坑(depression)的阵列。如本领域通常已知的，这可以使用多种技术来制造，所述多种技术包括但不限于光刻术(photolithography)、冲压技术、模塑技术和显微蚀刻技术。如将被本领域人员理解的，使用的技术将取决于阵列基底的组成和形状。

图案化表面中的特征可以是在具有图案化、共价连接的凝胶的玻璃、硅、塑料或其他合适的固体支持物上的孔的阵列中的孔(例如，微孔或纳米孔)，所述凝胶诸如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见，例如，美国公布第2013/184796号、WO 2016/066586和WO 2015/002813)。该过程产生用于测序的凝胶垫，其可以是经过大量循环的测序运行而稳定的。聚合物与孔的共价连接有助于在多种用途期间在结构化基底的整个寿命中将凝胶维持在结构化特征中。然而，在许多实施方案中，凝胶不必与孔共价连接。例如，在一些条件下，不共价附接至结构化基底的任何部分的不含硅烷的丙烯酰胺(SFA，参见，例如，美国专利第8,563,477号)可以用作凝胶材料。

在特定实施方案中，可以通过用孔(例如微孔或纳米孔)将固体支持材料图案化，用凝胶材料(例如，PAZAM、SFA或其化学修饰的变体，诸如叠氮化形式的SFA(叠氮-SFA))涂覆图案化支持物，并且例如通过化学或机械抛光来抛光凝胶涂覆的支持物，从而将凝胶保留在孔中，但去除结构化基底的表面上孔之间的间隙区域的基本上所有的凝胶或使基本上所有的凝胶失去活性。引物核酸可以被附接至凝胶材料。然后可以使靶核酸(例如，片段化的人类基因组)的溶液与抛光的基底接触，使得单独的靶核酸将通过与附接至凝胶材料的引物相互作用而对单独的孔接种；然而，由于凝胶材料不存在或无活性，靶核酸将不占据间隙区域。靶核酸的扩增将被限制于孔，因为间隙区域中的凝胶不存在或无活性阻止了增长中的核酸克隆的向外迁移。该过程是方便地可制造的，可扩大规模并且使用常规微米或纳米制造方法。如本文使用的术语“流动池”是指包含固体表面的室，一种或更多种流体试剂可以流动跨越所述室。可以在本公开内容的方法中容易地使用的流动池和相关的流体系统和检测平台的实例在以下中描述：例如Bentley等,Nature 456:53-59(2008)；WO 04/018497；US 7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082。

在一些实施方案中，固体支持物或它的表面是非平面的，诸如管或容器的内表面或外表面。在一些实施方案中，固体支持物包括微球或珠。本文中“微球”或“珠”或“颗粒”或语法等同物意指小的离散颗粒。合适的珠成分包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、二氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联右旋糖酐诸如Sepharose、纤维素、尼龙、交联胶束和teflon以及本文概述的用于固体支持物的任何其他材料都可以被使用。来自Bangs Laboratories,Fishers Ind.的“微球检测指导(Microsphere Detection Guide)”是有用的指导。在某些实施方案中，微球为磁性微球或珠。

珠不必是球形的；不规则颗粒可以被使用。可选择地或另外地，珠可以是多孔的。珠尺寸范围从纳米即100nm至毫米即1mm，从约0.2微米至约200微米的珠是优选的，并且从约0.5微米至约5微米的珠是特别优选的，但是在一些实施方案中，可以使用更小或更大的珠。

可以使用如WO/9844151中描述的热循环过程或其中温度维持为恒定并且使用试剂的变化来进行延伸和变性的循环的过程来制备簇集的阵列。这样的等温扩增方法在专利申请第WO/0246456号和第US 2008/0009420号中描述。由于等温过程中要求较低的温度，这是特别优选的。

将理解的是，本文描述的或本领域通常已知的任何扩增方法可以与通用引物或靶特异性引物一起使用以扩增固定的DNA片段。用于扩增的合适的方法包括但不限于聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中描述的，其通过引用以其整体并入本文。上文的扩增方法可以被用于扩增一个或更多个感兴趣的核酸。例如，PCR包括多重PCR、SDA、TMA、NASBA等可以被用于扩增固定的DNA片段。在一些实施方案中，将特异地针对感兴趣的多核酸的引物被包括在扩增反应中。

用于扩增多核苷酸的其他合适的方法可以包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人,Nat.Genet.19:225-232(1998))和寡核苷酸连接测定(OLA)(通常参见美国专利第7,582,420号、第5,185,243号、第5,679,524号和第5,573,907号；EP 0 320 308B1；EP 0 336 731 B1；EP 0 439 182 B1；WO 90/01069；WO 89/12696；和WO 89/09835)技术。将理解的是，这些扩增方法可以被设计成扩增固定的DNA片段。例如，在一些实施方案中，扩增方法可以包括连接探针扩增或寡核苷酸连接测定(OLA)反应，其包括特异地针对感兴趣的核酸的引物。在一些实施方案中，扩增方法可以包括引物延伸-连接反应，该反应包括特异地针对感兴趣的核酸的引物。作为可以被特异地设计成扩增感兴趣的核酸的引物延伸和连接引物的一个非限制性实例，扩增可以包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如由美国专利第7,582,420号和第7,611,869号例示的。

可以在本公开内容的方法中使用的示例性等温扩增方法包括但不限于如由例如Dean等人Proc.Natl.Acad.Sci.USA 99:5261-66(2002)例示的多重置换扩增(MDA)，或由例如美国专利第6,214,587号例示的等温链置换核酸扩增。可以在本公开内容中使用的其他非基于PCR的方法包括例如在例如Walker等人,Molecular Methods for VirusDetection,Academic Press,Inc.,1995；美国专利第5,455,166号和第5,130,238号，以及Walker等人,Nucl.Acids Res.20:1691-96(1992)中描述的链置换扩增(SDA)，或在例如Lage等人,Genome Res.13:294-307(2003)中描述的超支化链置换扩增(hyper-branchedstrand displacement amplification)。对于基因组DNA的随机引物扩增，等温扩增方法可以与链置换Phi 29聚合酶或Bst DNA聚合酶大片段，5’->3’exo-一起使用。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上文阐述的，可以在等温条件下使用具有低持续合成能力和链置换活性的聚合酶诸如Klenow聚合酶产生较小的片段。对扩增反应、条件和组分的另外的描述在通过引用以其整体并入本文的美国专利第7,670,810号的公开内容中详细阐述。

在本公开内容中有用的另一种核酸扩增方法是标签化PCR(Tagged PCR)，其使用具有恒定5’区域随后是随机3’区域的双域引物(two-domain primer)的群体，如例如在Grothues等人Nucleic Acids Res.21(5):1321-2(1993)中描述的。实施第一次多轮扩增以允许在热变性的DNA上基于从随机合成的3’区域单独杂交的大量起始。由于3’区域的性质，起始位点预期是在整个基因组上随机的。其后，未结合的引物可以被去除并且另外的复制可以使用与恒定5’区域互补的引物发生。

在一些实施方案中，等温扩增可以使用也称为排除扩增(ExAmp)的动力学排除扩增(KEA)进行。本公开内容的核酸文库可以使用包括使扩增试剂反应以产生多于一个扩增位点的步骤的方法来制备，所述多于一个扩增位点的每一个包括来自已经接种该位点的单独靶核酸的扩增子的基本克隆群体(substantially clonal population)。在一些实施方案中，扩增反应进行到产生足够数目的扩增子以填充相应的扩增位点的容量。以这种方式将已经接种的位点填充至容量抑制了靶核酸在该位点处着落和扩增，从而在该位点处产生扩增子的克隆群体。在一些实施方案中，即使扩增位点在第二靶核酸到达该位点之前未被填充至容量，也可以实现表观克隆性(apparent clonality)。在一些条件下，第一靶核酸的扩增可以进行至足够数目的拷贝被产生以有效地胜过或压倒从被转运至位点的第二靶核酸的拷贝产生的点。例如在对直径小于500nm的圆形特征使用桥式扩增过程的实施方案中，已经确定，在第一靶核酸的14个循环的指数扩增之后，在同一位点处来自第二靶核酸的污染将产生的污染扩增子的数目不足以对Illumina测序平台上的边合成边测序(sequencing-by-synthesis)分析产生不利影响。

如通过以上实例证明的，在特定实施方案中，阵列中的扩增位点可以是但不必是完全克隆的。而是，对于一些应用，单独扩增位点可以主要地用来自第一靶核酸的扩增子填充(populated)，并且还可以具有低水平的来自第二靶核酸的污染扩增子。只要污染水平对阵列的随后使用没有不可接受的影响，阵列可以具有一个或更多个具有低水平的污染扩增子的扩增位点。例如，当阵列将在检测应用中使用时，可接受的污染水平将是不会以不可接受的方式影响检测技术的信噪比或分辨率的水平。因此，表观克隆性将通常与由本文阐述的方法制成的阵列的特定用途或应用相关。在用于特定应用的单独扩增位点处可以接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可以包括具有这些示例性水平的污染扩增子的一个或更多个扩增位点。例如，阵列中多达5％、10％、25％、50％、75％或甚至100％的扩增位点可以具有一些污染扩增子。将理解的是，在阵列或其他位点集合中，至少50％、75％、80％、85％、90％、95％或99％或更多的位点可以是克隆的或表观克隆的。

在一些实施方案中，动力学排除可以发生在过程以足够快的速率发生以有效排除另一事件或过程发生时。以制备核酸阵列为例，其中阵列的位点用来自溶液的靶核酸随机接种，并且在扩增过程中产生靶核酸的拷贝以将每一个接种的位点填充至容量。根据本公开内容的动力学排除方法，接种和扩增过程可以在扩增速率超过接种速率的条件下同时进行。因此，在已经被第一靶核酸接种的位点处进行拷贝的相对较快的速率将有效地排除第二核酸接种该位点进行扩增。动力学排除扩增方法可以如美国公布第2013/0338042号中详细描述地进行，其通过引用以其整体并入本文。

动力学排除可以利用扩增起始的相对慢的速率(例如，制备靶核酸的第一拷贝的缓慢速率)对比制备靶核酸(或靶核酸的第一拷贝)的随后拷贝的相对快的速率。在先前段落的实例中，动力学排除的发生是由于靶核酸接种的相对慢的速率(例如相对慢的扩散或转运)对比扩增发生以用核酸种子的拷贝填充位点的相对快的速率。在另一个示例性实施方案中，动力学排除的发生可以是由于已经接种位点的靶核酸的第一拷贝的形成的延迟(例如，延迟的或缓慢的活化)对比制备随后拷贝以填充位点的相对快的速率。在该实例中，单独位点可能已经接种了若干种不同的靶核酸(例如，若干种靶核酸可以在扩增之前存在于每个位点处)。然而，对于任何给定的靶核酸，第一拷贝形成可以被随机活化，使得第一拷贝形成的平均速率与产生随后拷贝的速率相比相对慢。在这种情况下，虽然单独位点可能已经接种了若干种不同的靶核酸，但动力学排除将仅允许那些靶核酸的一种被扩增。更具体地，在第一靶核酸已经被活化用于扩增后，该位点将快速被第一靶核酸的拷贝填充至容量，从而防止第二靶核酸的拷贝在该位点处被制备。

扩增试剂可以包括促进扩增子形成并且在一些情况下增加扩增子形成的速率的另外组分。一个实例是重组酶。重组酶可以通过允许重复的侵入/延伸来促进扩增子形成。更具体地，重组酶可以促进靶核酸被聚合酶的侵入，并且使用靶核酸作为用于扩增子形成的模板通过聚合酶延伸引物。该过程可以作为链式反应重复，其中从每一轮的侵入/延伸产生的扩增子在随后一轮中用作模板。因为不要求变性循环(例如通过加热或化学变性)，所以该方法可以比标准PCR更快地发生。因此，重组酶促进的扩增可以等温地实施。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下为其不可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用，因为SSB可以进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge，UK)以TwistAmp试剂盒商业销售的那些。重组酶辅助扩增试剂的有用组分和反应条件在美国专利第5,223,414号和第7,399,590号中阐述，其内容通过引入并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的另一个实例是解旋酶。解旋酶可以通过允许扩增子形成的链式反应来促进扩增子形成。因为不要求变性循环(例如通过加热或化学变性)，所以该过程可以比标准PCR更快地发生。因此，解旋酶促进的扩增可以等温地实施。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelix(Beverly,MA)以IsoAmp试剂盒商业销售的那些。此外，包括解旋酶蛋白的有用制剂的实例在US 7,399,590和US 7,829,284中描述，其每一个通过引用并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的又另一个实例是起点结合蛋白(origin binding protein)。

测序中的用途/测序的方法

来自汇集的文库的固定的多核苷酸可以以任何合适的方式测序。优选地，通过边合成边测序进行测序，其中使用固定的多核苷酸作为模板将核苷酸连续添加到测序引物的游离3’羟基基团，导致多核苷酸链在5’至3’方向上的合成。优选地，添加的核苷酸的性质在每次核苷酸添加后确定。使用边连接边测序(sequencing by ligation)的测序技术(其中不是每个相连的碱基都被测序)，和诸如大规模平行标记测序(massively parallelsignature sequencing)(MPSS)的技术(其中碱基从表面上的链去除而不是添加到表面上的链)，以及使用焦磷酸释放检测的技术(焦磷酸测序)也在本公开内容的范围内。这样的基于焦磷酸测序的技术特别适于对珠的阵列测序，其中珠已经在乳液中扩增使得来自文库分子的单个模板在每个珠上被扩增。

可以通过将测序引物退火至固相扩增反应的产物提供用于测序反应的起始点。就此而言，在模板文库形成期间添加的一种或两种衔接子可以包括允许测序引物退火至诸如衔接子-靶-衔接子多核苷酸的固定的多核苷酸的核苷酸序列。

索引标签序列和靶序列可以在来自单测序引物的单个读段，或在来自多于一种测序引物的多个读段中确定。在来自两种测序引物的两个读段的情况下，“索引标签读取”和“靶读取”可以以任一顺序进行，在第一测序读取完成后具有合适的变性步骤以去除退火的引物。如本领域通常已知的，合适的变性步骤可以包括甲酰胺、氢氧化物或加热。

其中正向扩增引物和反向扩增引物二者共价地固定在固体表面上的固相扩增反应的产物可以是所谓的“桥接的”结构，该结构通过固定的多核苷酸链和固定的互补链的退火来形成，两条链都在5’末端附接至固体支持物。包含这样的桥接的结构的阵列无法为核酸测序提供有效模板，因为在用于杂交的标准条件下，常规测序引物与固定的链中的一条链的杂交与该链退火至它的固定的互补链相比是不被支持的。桥式扩增或簇扩增的实例在例如美国专利第7,985,565号和第7,115,400号中描述。

为了提供更适合核酸测序的模板，优选的是基本上去除“桥接的”结构中的固定的链中的一条链的全部，或去除或置换“桥接的”结构中的固定的链中的一条链的至少一部分，以产生至少部分为单链的模板。模板的为单链的部分因此将可用于与测序引物杂交。去除“桥接的”双链核酸结构中的一条固定的链的全部或一部分的过程在本文中可以被称为“线性化”，并且在WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO1998/044151和WO 2000/018957中进一步详细描述。

桥接的模板结构可以通过用限制性内切核酸酶裂解一条或两条链或通过用切口内切核酸酶裂解一条链来线性化。裂解的其他方法可以被用作限制性酶或切口酶的替代方案，包括尤其是化学裂解(例如用高碘酸盐裂解二醇连接)、通过用内切核酸酶(例如，如由NEB提供的“USER”,部分编号M5505S)裂解或通过暴露于加热或碱裂解脱碱基位点(abasicsites)、裂解掺入到原本包含脱氧核糖核苷酸的扩增产物中的核糖核苷酸、光化学裂解或裂解肽接头。

将理解的是，如果固相扩增反应仅用一种共价固定的引物和另一种在自由溶液中的引物进行，线性化步骤可能不是必不可少的。

在裂解步骤之后，无关乎用于裂解的方法，裂解反应的产物可以经历变性条件以去除未附接至固体支持物的一条或更多条裂解的链的一个或更多个部分。合适的变性条件，例如氢氧化钠溶液、甲酰胺溶液或加热，对于参考标准分子生物学方案(Sambrook等人,2001,Molecular Cloning,A Laboratory Manual,第3版,Cold Spring HarborLaboratory Press,Cold Spring Harbor Laboratory Press,NY；Current Protocols,Ausubel等人编著)的熟练技术读者将是明显的。变性导致部分或基本上为单链的测序模板的产生。然后可以通过测序引物与模板的单链部分杂交起始测序反应。

因此，在一些实施方案中，测序反应包括将测序引物与线性化的扩增产物的单链区域杂交，将一个或更多个核苷酸依次掺入到与待测序的扩增的模板链的区域互补的多核苷酸链中，鉴定存在于一个或更多个被掺入的核苷酸中的碱基，并且从而确定模板链的区域的序列。

可以使用的一种优选的测序方法依赖于使用具有可去除的3’封闭的修饰的核苷酸，例如如在WO 2004/018497和美国专利第7,057,026号中描述的。在修饰的核苷酸已经被掺入到与正被测序的模板的区域互补的正在增长的多核苷酸链中后，因为不存在游离3’-OH基团可用于指导其他的序列延伸，并且因此聚合酶不能添加其他的核苷酸。掺入到正在增长的链中的碱基的性质一经确定，3’封闭可以被去除以允许添加下一个连续的核苷酸。通过对使用这些修饰的核苷酸获得的产物排序，推断出DNA模板的DNA序列是可能的。如果每种修饰的核苷酸具有附接至其的不同标记物，已知所述不同标记物对应于特定碱基以促进在每一个掺入步骤期间添加的碱基之间进行区分，则这样的反应可以在单个实验中完成。可选地，可以单独实施包含每一个修饰的核苷酸的不同反应。

修饰的核苷酸可以携带有助于其检测的标记物。例如，荧光标记物可以被用于检测修饰的核苷酸。每一种核苷酸类型因此可以携带不同荧光标记物，例如如WO 2007/135368中描述的。然而，可检测的标记物不必是荧光标记物。可以使用允许检测掺入的核苷酸的任何标记物。

一种用于检测荧光标记的核苷酸的方法包括使用具有对标记的核苷酸特异的波长的激光，或使用其他合适的照明源。来自核苷酸上的标记物的荧光可以通过CCD照相机或其他合适的检测手段检测。用于记录簇集阵列的图像的合适仪器在WO 2007/123744中描述。

当然，可以使用任何其他合适的测序方法。优选地，测序方法依赖于将核苷酸连续掺入到多核苷酸链中。合适的替代性技术包括例如焦磷酸测序、FISSEQ(荧光原位测序)、MPSS和通过基于连接的方法的测序，例如如美国专利第6,306,597号中描述的。

核酸样品可以被进一步分析以获得来自片段的相对末端的第二读段。用于对簇的两个末端测序的方法在共同未决的申请在WO 2007/010252和WO 2008/041002中描述。在一个实例中，一系列步骤可以如下进行：产生簇、线性化、使第一测序引物杂交并且获得第一测序读段。可以去除第一测序引物，使杂交第二引物并且对索引标签测序。然后可以通过从在簇扩增中使用的剩余固定的引物合成互补拷贝而在表面上使多核苷酸链“逆序(inverted)”。这种链再合成的过程再生双链簇。可以去除原始模板链以使再合成的链线性化，然后其可以退火至测序引物并且在第三次测序运行中测序。

在使用链再合成的情况下，两条链可以以允许随后释放固定的链的一部分的方式固定到表面。这可以通过如WO 2007/010251中描述的许多机制来实现。例如，一种引物可以包含尿嘧啶核苷酸，这意味着链可以使用去除核苷碱基的尿嘧啶糖基化酶(UDG)在尿嘧啶碱基处裂解和使用切除脱碱基核苷酸的内切核酸酶VIII裂解。这种酶组合从New EnglandBiolabs(Cat#M5505)以USER^TM酶可得。第二引物可以包含8-氧代鸟嘌呤核苷酸，其然后可被酶FPG(NEB Cat#M0240)裂解。引物的这种设计提供了对哪种引物在过程中的哪个点被裂解，以及还在簇中的哪些位置发生裂解的控制。引物还可以被化学修饰，例如用允许在特定位置处化学裂解的二硫化物或二醇修饰。

现在参考图1，示出了根据本文描述的多个实施方案可以使用的衔接子100的示意图。描绘的衔接子100包含双链区域110和非互补单链区域120。双链区域110可以被附接至双链靶多核苷酸。在描绘的实施方案中，单链部分120的每一条链的游离末端被修饰(以“X”指示)以保护这些末端免受外切核酸酶活性。相比之下，形成双链部分110的一条链的3’末端和另一条链的5’末端易受外切核酸酶降解影响。如果衔接子100未附接至双链靶片段，未掺入的衔接子可以被具有5’外切核酸酶活性和3’外切核酸酶活性二者的一种或更多种外切核酸酶降解。因为外切核酸酶将从双链部分110开始消化，外切核酸酶优选地具有针对没有切口的双链DNA的活性。

所描绘的衔接子100的一条链包含通用延伸引物序列130、索引标签序列132和测序引物序列134。描绘的衔接子100的另一条链包含通用延伸引物序列140、索引标签序列142和测序引物序列144。

通用延伸引物序列130、140可以与附接至固体表面的延伸引物寡核苷酸杂交，以便于扩增或测序目的(如果衔接子100被附接至靶多核苷酸)。通用延伸引物序列140或其一部分还可以与测序引物杂交以便对索引标签序列142测序。可选地，该链可以包含另外的测序引物序列(未示出)。

测序引物序列134可以与测序引物杂交以允许对索引标签序列132测序。索引标签序列142和索引标签序列132可以是相同的或不同的。

测序引物序列144可以与测序引物杂交以允许对靶多核苷酸序列(如果附接至衔接子100)测序。

如果衔接子在如上文描述的多步骤过程中被附接至靶，则测序引物序列134、144可以与例如PCR引物杂交。

将理解的是，用于在本文描述的多个实施方案中使用的合适的衔接子可以具有比关于图1描述的序列特征更多或更少的序列特征或除了那些序列特征以外的其他序列特征。

现在参考图2，示出了具有衔接子100-模板210-衔接子100序列的文库的模板多核苷酸200的示意图。模板多核苷酸210是双链的并且附接至衔接子100的双链部分。衔接子的单链部分的末端被修饰以保护免受外切核酸酶消化(以“X”指示)。因为衔接子100被连接至双链靶片段210的两个末端，所得的模板多核苷酸200耐受外切核酸酶的消化。

现在参考图3，示出了图示出将衔接子-靶连接的反应产物和试剂与外切核酸酶400孵育的结果的示意图。在将衔接子100连接至靶片段210之后，得到一些剩余的未掺入的衔接子100、靶片段210和模板多核苷酸200。如果所得的溶液或组合物500与具有5’外切核酸酶活性和具有3’外切核酸酶活性的外切核酸酶400孵育，未掺入的衔接子100和靶片段210将被外切核酸酶400消化(见图3的底图)。在外切核酸酶处理之后，所得的溶液可以被清理，并且模板多核苷酸200可以被固定在固体表面上用于测序。

现在参考图4，示出了用于将模板多核苷酸200从文库簇扩增至固体表面300以准备用于测序的过程的示意图示。在第一幅图中，具有修饰的末端(用于核酸酶保护)的模板多核苷酸200与附接至固体表面300的第一延伸引物310杂交。例如，图1中描绘的通用延伸引物序列140的衔接子部分可以与第一延伸引物310杂交。

第一延伸引物310包含游离3’末端，并且因此可以在合适的聚合酶的存在下使用模板多核苷酸200作为模板将核苷酸添加到3’末端，以产生附接至固体表面300的拷贝模板链201(参见第二幅图)。模板链200可以被去除，并且拷贝链201可以与附接至固体表面300的第二延伸引物320杂交(参见第三幅图)。例如，图1中描绘的衔接子的通用延伸引物序列130部分可以与第二延伸引物320杂交。

第二延伸引物320包含游离3’末端，并且因此可以在合适的聚合酶的存在下使用拷贝模板多核苷酸201作为模板将核苷酸添加到3’末端，以产生附接至固体表面300的扩增的模板链202(参见第四幅图)。可以进行另外的多轮扩增以产生拷贝模板链201和扩增的模板链202的簇。

出于图示的目的，图4的第五幅图描绘了线性形式的拷贝模板链201和扩增的模板链202。

现在参考图5，示出了图示去除未掺入的衔接子的外切核酸酶处理如何可以减少索引跳跃的示意图。图5的前两幅图与图4的前两幅图是相同的。如图5的左下图中示出的，剩余的未掺入的(未附接至靶多核苷酸)的衔接子或其链104可以与拷贝模板链201的衔接子部分杂交(例如，杂交可以发生在衔接子的双链区域和模板多核苷酸的衔接子部分)。衔接子链104可以来自与拷贝模板链201所源自的文库不同的文库。因此，衔接子链104可以具有不同于与拷贝模板链201缔合的索引标签序列的索引标签序列。衔接子链104可以用作延伸和拷贝拷贝模板链201的有效引物。将产生扩增的链，其中不正确的索引标签(来自第二文库的衔接子链104的索引标签)将与来自另一个文库的靶多核苷酸(来自第一文库的模板多核苷酸201的靶多核苷酸)缔合。在随后一轮的扩增中，不正确编索引的多核苷酸可以附接至表面300。然而，并且如图5的右下图中图示的，如果未掺入的衔接子被外切核酸酶处理消化，衔接子链不能用作延伸引物，并且减少了索引跳跃。

现在参考图6A和6B，图示了索引跳跃现象的性质。图6A示出了来自给定样品的读段如何被不正确地去多重化并且在去多重化之后与不同的样品混合。图6B展示了双索引系统中的索引跳跃，其中它导致索引标签序列的预期不到的组合。

现在参考图7A和7B，图示了测量给定系统中的索引跳跃率的一般方法。图7A示出了双衔接子板的示例性布局，其中96孔板的每一个单独的孔包含独特的一对索引标签序列(12种不同的P7索引(indices)与8种不同的P5索引组合)。图7B示出了旨在测量索引跳跃率的实验设置，其中使用了8个独特双索引标签组合(即没有P5索引被预期与多于一个P7索引配对，并且反之亦然)。然后则容易地将预期不到的索引标签的组合(例如D505-D703)鉴定为索引跳跃的情况。

现在参考图8A和8B，图示了未连接的衔接子对索引跳跃率的影响。图8A示出了与游离衔接子的50％掺入相关的索引跳跃的6倍增加。图8B示出了在测试的范围内游离叉形衔接子对索引跳跃率的大致呈线性的影响。本发明人还观察到，与游离单链P5衔接子相比，游离单链P7衔接子对索引跳跃率的影响更明显(数据未示出)。

实施例

实施例1：对受保护的衔接子的编索引的文库进行外切核酸酶处理与3’封闭的示例方案

该方案解释了如何对受保护的DNA文库进行外切核酸酶处理与3’封闭，以减少索引跳跃。该方法被设计成对DNA文库池进行，然后使用Illumina

4000以及相似的测序平台(使用图案化流动池和基于ExAmp的簇集)(例如，

X和

)进行变性步骤和随后的簇产生。

已观察到索引跳跃发生在不正确的索引序列被分配到插入序列而导致样品错误分配时。在

4000上运行前，对DNA样品池进行这种处理，应将索引跳跃水平降低一定水平，该水平在现阶段无法被一致地预测。

处理工作流程可以被认为包括四个步骤：(i)产生DNA样品池；(ii)进行处理，(iii)清理样品并且定量；和(iv)簇集样品池和对样品池测序。

消耗品/设备：消耗品和设备可以由测序使用者或制造商提供。使用者提供的消耗品可包括DNA文库样品池—30μl，处于待用于簇集期间变性的浓度。使用者还可以提供新制备的80％乙醇(EtOH)。

下文表1说明了可能使用的一些消耗品和设备。

表1：消耗品和设备

测序制造商可以提供EMX(外切核酸酶混合物)、BMX(封闭混合物)、RSB(重悬浮缓冲液)和SPB(样品纯化珠)。

EMX可以包括外切核酸酶缓冲液(NEBuffer 4，NEB Cat#B7004S:50mM醋酸钾、20mMTris-醋酸盐、10mM醋酸镁、1mM DTT)和外切核酸酶V(New England Biolabs,Cat#M0345S/L)。

BMX可以包括测序预混合物(Tris缓冲液、氯化钠、蔗糖、硫酸镁、EDTA和Tween20)、ddNTP混合物、Pol19 DNA聚合酶和TdT末端转移酶。

RSB可以包括Tris缓冲液，pH 8.5。

SPB可以包括

XP珠(Beckman Coulter,Cat#A63880)。SPB应当在每次使用前涡旋振荡。SPB应该经常涡旋振荡以确保珠均匀分布。由于溶液的粘性，应当缓慢地抽吸和分散SPB。

一些消耗品应当如下文表2指示地储存和制备。

表2：消耗品的储存和制备

以下EMX程序可以保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)37℃持续5min；(iii)70℃持续30min；和(iv)保持在4℃。

以下BMX程序可保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)38℃持续20min；(iii)60℃持续20min；和(iv)保持在4℃。

样品可以如下被处理：(i)将EMX以600×g离心5秒钟；(ii)将27μl的DNA文库样品池添加到PCR管；(iii)将5μl EMX添加到每支PCR管中的每个样品并且然后通过上下吸打彻底混合；(iv)通过放置在热循环仪上并且运行EMX程序孵育；(v)将BMX以600×g离心5秒钟；(vi)将32μl BMX直接添加到每支PCR管中的每种外切核酸酶反应物并且然后通过上下吸打彻底混合；和(vii)通过放置在热循环仪上并且运行BMX程序孵育。每个管包含64μl。

处理的汇集的样品可如下清理：(1)涡旋振荡SPB直到充分分散；(2)将60μl SPB添加到每个样品处理管并且通过上下吸打彻底混合；(3)在室温孵育5分钟；(4)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(5)从每个管取出并且弃去所有上清液；(6)如下洗涤2次：(a)将200μl新制备的80％EtOH添加到每个管，(b)在磁性支架上孵育30秒，和(c)从每个管取出并且弃去所有上清液；(7)使用20μl移液器从每个管去除剩余的EtOH；(8)在磁力架上风干5分钟；(9)将22.5μl RSB添加到每个管；(10)从磁性架取下并且然后通过上下吸打彻底混合；(11)在室温孵育2分钟；(12)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(13)将20μl上清液转移到新管；(14)如果需要，对文库定量并且进行标准簇集，以用于以NaOH变性步骤开始的

4000平台；和(15)如果没有立即簇集，则储存在-25℃至-15℃。

实施例2：通过对具有受保护的衔接子的编索引的文库进行外切核酸酶处理与3’ 封闭减少索引跳跃

可与以下材料、设备和方法组合应用上文实施例1中阐述的处理方案，以便于簇集和在在Illumina平台上测序。

实验条件：(1)使用硫代磷酸酯保护的衔接子制备的人类450bp NA12878(CoriellInstitute)

无PCR文库，以300pM上样；(2)根据制造商的说明的

X仪器和Illumina SBS化学；(3)550nm ILS v3流动池；(4)如先前描述的ExAmp扩增；和(5)50％衔接子掺入：将来自Illumina双衔接子板(DAP)的游离叉形衔接子掺入到模板文库中，然后变性、中和、添加ExAmp混合物和簇集。

该实验的结果总结在下文表3和图9中。

表3：在具有3’封闭的情况下对受保护的衔接子的外切核酸酶处理减少了索引跳跃

如上文说明的，对受保护的衔接子的外切核酸酶处理与3’封闭的组合减少了索引跳跃。

本文中引用的任何专利、专利申请(无论是否公开)或其他文献在其不与本文中展示的公开内容相冲突的程度上在此分别全部或部分地并入本文。

除了本申请中已经引用的文件之外，在此参考三个名称同为“Compositions andmethods for improving sample identification in indexed nucleic acidlibraries”的临时专利申请，它们与本申请要求优先权的临时申请(于2018年4月23日提交的美国临时申请第62/488,824号、第62/488,825号和第62/488,833号)在同一天提交。这些申请的全部内容也通过引用并入本文。

对本领域的技术人员将明显的是，可以对本发明的技术作出不脱离本发明的精神和范围的多种修改和变化。因为本领域技术人员可以想到体现本发明的技术的精神和实质的对所公开的实施方案的修改、组合、子组合和变化，所以本发明的技术应当被理解为包括在所附权利要求书范围内的所有方案及其等同方案。

Claims

1.一种方法，所述方法包括：

提供第一多于一个双链靶多核苷酸片段，每一个片段具有第一末端和第二末端；

提供包括具有5’末端和3’末端的第一链和具有5’末端和3’末端的第二链的第一衔接子寡核苷酸，

其中所述第一衔接子寡核苷酸包含(i)双链区域，所述双链区域包含所述第一链的5’末端和所述第二链的3’末端，和(ii)单链区域，在所述单链区域中所述第一链和所述第二链是单链的，其中所述单链区域包含所述第一链的3’末端和所述第二链的5’末端，

其中所述第一衔接子寡核苷酸包含第一文库特异性序列，

其中所述第一链的3’末端被修饰以防止被具有3’外切核酸酶活性的酶消化，并且其中所述第二链的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化；

将所述第一衔接子寡核苷酸和所述第一多于一个双链靶多核苷酸片段在适于将所述第一衔接子的第一链的5’末端和所述第一衔接子的第二链的3’末端连接至所述双链靶多核苷酸片段的第一末端和第二末端的条件下孵育，以产生包含第一衔接子-靶-第一衔接子序列的多核苷酸的第一文库；和

将所述第一文库的多核苷酸与外切核酸酶接触，其中所述外切核酸酶包括3’单链外切核酸酶活性和5’单链外切核酸酶活性，以选择性降解未连接至所述双链靶多核苷酸片段的第一衔接子寡核苷酸。

2.根据权利要求1所述的方法，其中所述外切核酸酶包括针对没有切口的双链DNA的活性，以降解两个末端未与所述第一衔接子寡核苷酸连接的双链靶多核苷酸片段。

3.根据权利要求1或权利要求2所述的方法，

其中所述第一衔接子的第一链的3’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第一衔接子的第一链的3’末端结合，其中生物素被附接至所述第一衔接子的第一链的3’末端，或其中抗体被附接至所述第一衔接子的第一链的3’末端；并且

其中所述第一衔接子的第二链的5’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第一衔接子的第二链的5’末端结合，其中生物素被附接至所述第一衔接子的第二链的5’末端，或其中抗体被附接至所述衔接子的第二链的5’末端。

4.根据权利要求1或权利要求2所述的方法，其中所述第一衔接子的第一链的3’末端包含三个硫代磷酸酯键，并且其中所述第一衔接子的第二链的5’末端包含三个硫代磷酸酯键。

5.根据权利要求1至4中任一项所述的方法，其中所述第一文库的多核苷酸的被纯化。

6.根据权利要求1至5中任一项所述的方法，所述方法还包括：

提供基底，所述基底具有包含多于一个附接的寡核苷酸的表面，所述附接的寡核苷酸具有游离3’末端；和

将所述基底的所述表面与包含纯化的第一文库的多核苷酸的组合物在允许所述第一衔接子-靶-第一衔接子序列的第一衔接子的一条链的一部分与附接至所述基底的所述表面的寡核苷酸的至少一部分杂交的条件下接触。

7.根据权利要求6所述的方法，所述方法还包括通过掺入与杂交到与所述基底的所述表面附接的寡核苷酸的所述第一衔接子-靶-第一衔接子多核苷酸的序列互补的核苷酸，使所述附接的寡核苷酸从所述游离3’末端延伸，以产生杂交的第一文库多核苷酸的拷贝使得所述拷贝被附接至所述基底的所述表面。

8.根据权利要求7所述的方法，所述方法还包括扩增附接至所述基底的所述表面的所述拷贝。

9.根据权利要求1至8中任一项所述的方法，其中所述方法还包括：

提供第二多于一个双链靶多核苷酸片段，每一个片段具有第一末端和第二末端；

提供包括具有5’末端和3’末端的第一链和具有5’末端和3’末端的第二链的第二衔接子寡核苷酸，

其中所述第二衔接子寡核苷酸包含(i)双链区域，所述双链区域包含所述第一链的5’末端和所述第二链的3’末端，和(ii)单链区域，所述单链区域包含所述第一链的3’末端和所述第二链的5’末端，

其中所述第二衔接子包含与所述第一文库特异性序列不同的第二文库特异性序列；

将所述第二衔接子寡核苷酸和所述第二多于一个双链靶多核苷酸片段在适于将所述第二衔接子的第一链的5’末端和所述第二衔接子的第二链的3’末端连接至所述双链靶多核苷酸片段的第一末端和第二末端的条件下孵育，以产生包含第二衔接子-靶-第二衔接子序列的多核苷酸的第二文库；和

将所述第二文库的多核苷酸与外切核酸酶接触，其中所述外切核酸酶包括3’单链外切核酸酶活性和5’单链外切核酸酶活性，以选择性降解未连接至所述双链靶多核苷酸片段的第二衔接子寡核苷酸。

10.根据权利要求9所述的方法，其中与所述第二文库的多核苷酸接触的所述外切核酸酶包括针对没有切口的双链DNA的活性，以降解两个末端未与所述第二衔接子寡核苷酸连接的所述双链靶多核苷酸片段。

11.根据权利要求9或权利要求10所述的方法，

其中所述第二衔接子的第一链的3’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第二衔接子的第一链的3’末端结合，其中生物素被附接至所述第二衔接子的第一链的3’末端，或其中抗体与所述第二衔接子的第一链的3’末端结合；并且

其中所述第二衔接子的第二链的5’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第二衔接子的第二链的5’末端结合，或其中生物素被附接至所述第二衔接子的第二链的5’末端，或其中抗体与所述第二衔接子的第二链的5’末端结合。

12.根据权利要求9或权利要求10所述的方法，其中所述第二衔接子的第一链的3’末端包含三个硫代磷酸酯键，并且其中所述第二衔接子的第二链的5’末端包含三个硫代磷酸酯键。

13.根据权利要求9至12中任一项所述的方法，其中所述第二文库的多核苷酸被纯化。

14.根据权利要求13所述的方法，其中纯化所述第二文库的多核苷酸和纯化所述第一文库的多核苷酸包括将第二文库的多核苷酸和所述第一文库的多核苷酸合并并且同时纯化所述第一文库和所述第二文库的多核苷酸。

15.根据权利要求13所述的方法，所述方法还包括：

将所述基底的所述表面与包含纯化的第二文库的多核苷酸的组合物在允许所述第二衔接子-靶-第二衔接子序列的第二衔接子的一条链的一部分与附接至所述基底的所述表面的寡核苷酸的至少一部分杂交的条件下接触。

16.根据权利要求15所述的方法，所述方法还包括通过掺入与杂交到与所述基底的所述表面附接的寡核苷酸的所述第二衔接子-靶-第二衔接子多核苷酸的序列互补的核苷酸，使所述附接的寡核苷酸从所述游离3’末端延伸，以产生杂交的第二文库多核苷酸的拷贝使得所述拷贝被附接至所述基底的所述表面。

17.根据权利要求16所述的方法，所述方法还包括扩增附接至所述基底的所述表面的所述第二文库多核苷酸的拷贝。

18.一种寡核苷酸衔接子，所述寡核苷酸衔接子用于在测序之前与靶多核苷酸连接，所述寡核苷酸衔接子包括：

具有5’末端和3’末端的第一寡核苷酸链；和

具有5’末端和3’末端的第二寡核苷酸链，

其中所述第一链的5’末端的区域包含与所述第二链的3’末端的区域中的核苷酸互补的核苷酸，使得互补区域是双链的，

其中所述第一链的3’末端的区域和所述第二链的5’末端的区域足够非互补以至于成为单链的，

其中所述第一链和所述第二链中的至少一条包含文库特异性索引标签序列，并且

其中所述第一链的3’末端被修饰以防止被具有3’外切核酸酶活性的酶消化，并且其中所述第二链的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。

19.根据权利要求18所述的寡核苷酸衔接子，其中

其中所述双链区域在标准连接条件下是双链的，并且

其中所述单链区域在标准连接条件下是单链的。

20.根据权利要求18或权利要求19所述的寡核苷酸衔接子，

其中所述第一链的3’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第一链的3’末端结合，其中生物素被附接至所述第一链的3’末端，其中抗体被附接至所述第一链的3’末端；并且

其中所述第二链的5’末端包含硫代磷酸酯键，其中单链DNA结合蛋白与所述第二的5’末端结合，其中生物素被附接至所述第二链的5’末端，或其中抗体被附接至所述第二链的5’末端。

21.根据权利要求18或权利要求19所述的方法，其中所述第一链的3’末端包含三个硫代磷酸酯键，并且其中所述第二链的5’末端包含三个硫代磷酸酯键。

22.一种试剂盒，所述试剂盒包括：

根据权利要求18-21中任一项所述的寡核苷酸衔接子；和外切核酸酶。

23.根据权利要求22所述的试剂盒，其中所述外切核酸酶包括3’外切核酸酶活性和5’外切核酸酶活性。

24.根据权利要求22或权利要求23所述的试剂盒，其中所述外切核酸酶包括针对没有切口的双链DNA的活性。

25.根据权利要求22所述的试剂盒，其中所述外切核酸酶包括具有3’外切核酸酶活性的第一外切核酸酶和具有5’外切核酸酶活性的第二外切核酸酶。

26.根据权利要求22所述的试剂盒，其中所述外切核酸酶是外切核酸酶V。

27.一种组合物，所述组合物包含根据权利要求18-21中任一项所述的衔接子；和外切核酸酶。

28.一种组合物，所述组合物包含：

根据权利要求18-21中任一项所述的衔接子；和

多于一个双链靶多核苷酸片段，每一个片段具有第一末端和第二末端。

29.根据权利要求28所述的组合物，所述组合物还包含连接酶。

30.一种组合物，所述组合物包含：

多于一个多核苷酸，所述多于一个多核苷酸包含第一衔接子-靶-第二衔接子序列，

其中所述靶序列是双链的，所述第一衔接子在所述靶附近的区域是双链的，所述第二衔接子在所述靶附近的区域是双链的，所述第一衔接子在所述靶远端的区域包括各自具有一个末端的两条单链，并且所述第二衔接子在所述靶远端的区域包括各自具有一个末端的两条单链，

其中所述第一衔接子或所述第二衔接子的两条单链中的至少一条链包含文库特异性索引标签序列，并且

其中所述第一衔接子和所述第二衔接子的两条单链的每一个末端被修饰以防止被外切核酸酶消化。

31.根据权利要求30所述的组合物，其中所述第一衔接子和所述第二衔接子的两条单链中的每一条包含硫代磷酸酯键。

32.根据权利要求30所述的组合物，其中所述第一衔接子和所述第二衔接子的两条单链中的每一条包含三个硫代磷酸酯键。

33.根据权利要求30-32中任一项所述的组合物，所述组合物还包含：

包括具有5’末端和3’末端的第一寡核苷酸链和具有5’末端和3’末端的第二寡核苷酸链的衔接子，

34.根据权利要求30-33中任一项所述的组合物，所述组合物还包含外切核酸酶。