CN110770353A

CN110770353A - 用于改进编索引的核酸文库中的样品鉴定的组合物和方法

Info

Publication number: CN110770353A
Application number: CN201880040485.3A
Authority: CN
Inventors: E·H·弗马斯; 马哈迪耶·霍斯鲁海达里; 克莱尔·贝维斯-莫特
Original assignee: Illumina Cambridge Ltd; Irumina Co Ltd
Current assignee: Illumina Cambridge Ltd; Irumina Co Ltd; Illumina Inc
Priority date: 2017-04-23
Filing date: 2018-04-23
Publication date: 2020-02-07
Also published as: AU2018260633B2; EP3842545A1; ES2937929T3; AU2024202607A1; WO2018200386A8; DK3615691T3; EP3615691B1; AU2021203361A1; US20210172014A1; SG11201909394PA; AU2018260633A1; EP3842545B1; US10934584B2; WO2018200386A1; CA3059952C; US20180305752A1; ES2882608T3; FI3842545T3; CA3059952A1; EP3615691A1

Abstract

本发明涉及组合物和方法，所述组合物和方法用于通过在扩增和测序之前，用任选的外切核酸酶处理修饰或封闭从多个样品汇集的编索引(indexed)的多核苷酸的5’末端和3’末端来提高用于多重下一代测序的编索引的核酸文库制备物中的正确样品鉴定率。

Description

用于改进编索引的核酸文库中的样品鉴定的组合物和方法

相关申请

本申请要求于2017年4月23日提交的美国临时申请第62/488,833号的权益，该美国临时申请在此通过引用并入本文。

领域

本公开内容尤其涉及对来自多个文库的多核苷酸的测序；并且更特别地，涉及增加测序正确地鉴定出多核苷酸所源自的文库的可能性。

背景

测序方法学的改进已经允许在单一测序方案中对来自不同文库的汇集的或多重化的多核酸(multiplexed polynucleic acid)测序。可以将文库特异性序列(“索引标签(index tag)”)添加到每个文库的多核酸，使得可以正确地鉴定出每个被测序的多核酸的起源。可以通过例如将包含索引标签序列的衔接子连接到多核酸的末端而将索引标签序列添加到文库的多核酸。

衔接子可以包含除索引标签序列之外的序列，诸如通用延伸引物序列和通用测序引物序列。通用延伸引物序列尤其可以与偶联到固体表面的第一寡核苷酸杂交。第一寡核苷酸可以具有游离3’末端，聚合酶可以使用杂交的文库多核苷酸作为模板从游离3’末端添加核苷酸，以使该序列延伸，导致文库多核苷酸的反向链被偶联到固体表面。正向链和反向链的另外的拷贝可以通过簇扩增偶联到固体表面。簇扩增的一个实例是桥式扩增，其中与固体表面结合的先前扩增的多核苷酸的3’末端与与固体表面结合的第二寡核苷酸杂交。第二寡核苷酸可以具有游离3’末端，聚合酶可以使用偶联的反向链多核苷酸作为模板从游离3’末端添加核苷酸，以使该序列延伸，导致文库多核苷酸的正向链经由第二寡核苷酸偶联到固体表面。可以重复该过程以产生偶联到固体表面的正向链和反向链的簇。在测序之前，可以例如通过裂解去除正向链或反向链。

测序引物可以与偶联到固体支持物的多核苷酸链的一部分杂交。例如，测序引物可以与通用测序引物序列(如果存在的话)杂交。测序可以通过使用偶联的多核苷酸作为模板多轮地将核苷酸添加到测序引物并且检测所添加的核苷酸的身份进行。测序引物的杂交可以发生在偶联的多核苷酸链上的一个位置处，以允许对索引标签序列以及偶联到固体表面的多核苷酸的靶序列进行序列鉴定，或可以使用单独的测序引物来对索引标签序列和靶序列单独地测序。因此，可以基于与靶序列缔合的索引标签序列，将靶序列索引到特定的文库来源。

尽管每个待测序的多核酸包含文库特异性索引标签序列，但由于被称为索引跳跃(index hopping)的现象，在鉴定被测序的多核酸的文库来源时可能发生错误。当来自一个文库的索引标签序列被不经意地被添加到来自另一个文库的多核酸时，索引跳跃发生。索引跳跃可能发生在文库制备或在用于测序的流动池或其他合适的固体支持物上进行多核苷酸的簇扩增期间。索引跳跃可能使测序的结果混淆，诸如导致被测序的多核苷酸的文库来源的不当指定或丢弃测序结果。

简述

本公开内容的一个或更多个方面通过在文库样品制备期间封闭多核酸包括未掺入的衔接子的3’末端，解决了与索引跳跃相关的至少一种潜在机制。不意图受理论束缚，认为当包含用于一个文库的索引标签序列的未掺入的衔接子与来自另一个文库的衔接子的一部分杂交并且未掺入的衔接子在簇扩增期间用作引物时，索引跳跃可能发生。因此，来自一个文库的靶序列可以用来自另一个文库的衔接子的索引标签进行加标签。在随后的多轮簇扩增期间，被错误加标签的靶的另外的拷贝可能在测序之前被扩增。这样的索引跳跃可能使随后测序的结果混淆。通过在文库样品制备期间封闭文库中的多核苷酸包括未掺入的衔接子的3’末端，未掺入的衔接子在簇扩增期间用作引物的能力将被阻断。

另外地或可选地，本公开内容的实施方案的方面涉及保护待固定在表面上用于测序的模板多核苷酸的5’末端和3’末端免受外切核酸酶的影响，并且降解剩余的未受保护的多核苷酸以抑制未受保护的多核苷酸参与索引跳跃的能力。

在本文描述的一些方面中，一种方法包括提供第一文库，该第一文库包含具有第一衔接子-靶-第一衔接子序列的第一多于一个多核苷酸。第一多于一个多核苷酸的多核苷酸在包含靶和在靶的两个末端的第一衔接子的至少一部分的区域是双链的。该方法还包括提供第一引物寡核苷酸，该第一引物寡聚物被配置为在第一衔接子的链的3’末端附近与第一衔接子的一部分杂交。第一引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。该方法还包括提供第二引物寡核苷酸，该第二引物寡聚物被配置为在第一衔接子的互补链的3’末端附近与第一衔接子的一部分的互补序列杂交。第二引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。该方法还包括将第一文库与第一引物寡核苷酸和第二引物寡核苷酸在适于扩增具有第一衔接子-靶-第一衔接子序列的多核苷酸的条件下在溶液中孵育，以产生具有被修饰以防止被具有5’外切核酸酶活性的酶消化的5’末端的扩增的第一文库多核苷酸。扩增的多核苷酸具有扩增的第一衔接子-靶-扩增的第一衔接子序列。扩增的第一衔接子序列包含第一文库特异性序列。该方法还包括修饰扩增的第一文库多核苷酸的3’末端，以防止(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到3’末端，从而产生具有修饰的5’末端和3’末端的受保护的第一文库多核苷酸。优选地，3’末端被修饰以抑制被具有聚合酶活性的酶将核苷酸添加到3’末端。

具有修饰的5’末端和3’末端的受保护的第一文库多核苷酸可以与来自其他文库的相似的多核苷酸一起被汇集，并且固定在表面用于测序。当3’末端被修饰以包含双脱氧核苷酸时，观察到索引跳跃减少了近100倍。

在本文描述的一些方面中，为固定用于测序而制备的多核苷酸具有衔接子-靶-衔接子序列。衔接子序列包含文库特异性序列。多核苷酸在包含靶和在靶的两个末端的衔接子的至少一部分的区域是双链的。在衔接子序列的区域中的多核苷酸的5’末端和3’末端是单链的。5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化。3’末端被修饰以抑制(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到3’末端。优选地，3’末端被修饰以抑制被具有聚合酶活性的酶将核苷酸添加到3’末端。

在一些实施方案中，组合物包含多核苷酸和外切核酸酶。

本文描述的方法、多核苷酸和组合物可用于减轻索引跳跃，例如通过在文库样品制备期间封闭多核苷酸，包括未掺入的衔接子的3’末端，或降解未封闭的多核苷酸，包括未掺入的衔接子。如果衔接子与衔接子-靶-衔接子多核苷酸序列在簇扩增期间杂交，通过封闭未掺入的衔接子的3’末端，未掺入的衔接子在簇扩增期间不能延伸。另外地或可选地，在3’端处未被封闭的那些多核苷酸可以被外切核酸酶降解以减轻索引跳跃。

本公开内容的主题的另外的特征和优点将在以下详细描述中阐述，并且部分地是依据该描述对于本领域技术人员显而易见的，或通过实践如本文描述的本公开内容(包括以下详细描述、权利要求书以及附图)的主题而被认识到。

将理解的是，前述一般描述和以下详细描述都展示了本公开内容的主题的实施方案，并且意图提供用于理解本公开内容如其所要求保护的主题的性质和特征的概述或框架。包括附图是为了提供对本公开内容的主题的进一步理解，并且被并入并且构成本说明书的一部分。附图图示了本公开内容的主题的多个实施方案，并且与描述一起用于解释本公开内容的主题的原理和运行。另外地，附图和描述意味着仅是说明性的，并且不意图以任何方式限制权利要求书的范围。

附图简述

当结合以下附图阅读时，可以最好地理解对本公开内容的特定实施方案的以下详细描述。

图1是图示了用于产生5’修饰的和3’封闭的模板多核苷酸的方法的一个实施方案的示意图。

图2是根据本文展示的公开内容的多个方面的衔接子的实施方案的示意图。

图3是根据本文展示的公开内容的多个方面的具有衔接子-靶-衔接子序列(其可以包括大体上如图2中示出的衔接子)的模板多核苷酸的实施方案的示意图。

图4是图示了使用根据本文展示的公开内容的多个方面的模板多核苷酸(其可以是图3中描绘的模板多核苷酸)的实施方案的簇扩增过程的实施方案的示意图。

图5是图示了3’末端封闭如何可以减少索引跳跃的实施方案的示意图。

图6是图示了根据本文描述的多个实施方案，外切核酸酶处理如何可以减少索引跳跃的实施方案的示意图。

图7A和7B图示了索引跳跃现象的性质。图7A示出了来自给定样品的读段(reads)如何被不正确地去多重化(demultiplexed)并且在去多重化之后与不同的样品混合。图7B展示了双索引系统中的索引跳跃，其中索引跳跃导致预期不到的索引标签序列的组合。

图8A和8B图示了测量给定系统中的索引跳跃率的一般方法。图8A示出了双衔接子板的示例性布局，其中96孔板的每个单独的孔包含独特的一对索引标签序列。图8B示出了旨在测量索引跳跃率的实验设置，其中只使用了独特的双索引标签组合。

图9A和9B图示了未连接的衔接子对索引跳跃率的影响。图9A示出了与游离衔接子的50％掺入(spike-in)相关的索引跳跃的6倍增加。图9B示出了在测试范围内游离分叉形衔接子(forked adapter)对索引跳跃率大致呈线性的影响。

图10示出了在Illumina

Nano(PCR)文库制备工作流程中，组合的外切核酸酶和3’封闭处理对索引跳跃率的影响，比较了标准衔接子和根据本发明的PCR保护的衔接子的性能。

示意图不一定按比例。附图中使用的相同数字是指相似的组件、步骤等。然而，将理解的是，在给定附图中使用某一数字指代一个组件不意图限制在另一幅图中用同一数字标记该组件。此外，使用不同的数字指代多个组件不意图指示被不同编号的组件不能与其他编号的组件相同或相似。

详细描述

现在将更详细地参考本公开内容的主题的多个实施方案，其一些实施方案在附图中图示。

定义

除非另外指明，否则本文使用的所有科学和技术术语具有本领域通常使用的含义。本文提供的定义是为了促进对本文频繁使用的某些术语的理解并且并不意味着限制本公开内容的范围。

除非上下文另外清楚指明，否则如本文使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此，除非上下文另外清楚指示，否则例如，提及“索引标签序列”包括具有两个或更多个这样的“索引标签序列”的实例。

除非上下文另外清楚指明，如本说明书和所附权利要求书中使用的，术语“或”通常以其包括“和/或”的意义被使用。术语“和/或”意列出的要素的一个或全部或列出的要素的任意两个或更多个的组合。在一些情况下使用“和/或”不暗示在其他情况下使用“或”可能不意指“和/或”。

如本文使用的，“具有(have)”、“具有(has)”、“具有(having)”、“包括(include)”、“包括(includes)”、“包括(including)”、“包含(comprise)”、“包含(comprises)”、“包含(comprising)”等是以其开放式的包含意义使用的，并且通常意指“包括但不限于(include,but not limited to)”、“包括但不限于(includes,but not limited to)”或“包括但不限于(including,but not limited to)”。

“任选的”或“任选地”意指随后描述的事件、情形或组分可以出现或可以不出现，并且该描述包括其中该事件、情形或组件出现的情况和其中其不出现的情况。

词语“优选的”和“优选地”是指在某些情形下可以提供某些益处的本公开内容的实施方案。然而，其他的实施方案在相同或其他的情形下也可以是优选的。此外，一个或更多个优选的实施方案的叙述不暗示其他实施方案是无用的，并且不意图将其他实施方案排除在本发明的技术的范围之外。

同样在本文中，通过端点叙述的数值范围包括包含在该范围内的所有数字(例如，1至5包括1、1.5、2、2.75、3、3.80、4、5等)。其中值的范围是“大于”、“小于”等一个特定值时，该值被包括在该范围内。

除非另外明确说明，否则绝不意图本文阐述的任何方法被理解为要求其步骤以特定顺序进行。因此，在方法权利要求实际上没有叙述它的步骤所遵循的顺序或者未在权利要求或说明书中以其他方式特别说明步骤将被限制于特定顺序的情况下，绝不意图推断任何特定顺序。任何一项权利要求中的任何叙述的单个或多个特征或方面可以与任何其他一项或更多项权利要求中的任何其他叙述的特征或方面组合或排列。

虽然可以使用过渡措辞“包含(comprising)”来公开特定实施方案的多个特征、要素或步骤，但将理解的是，隐含了替代性实施方案，包括可以使用过渡措辞“组成(consisting)”或“基本上由…组成(consisting essentially of)”来描述的那些。因此，例如，隐含的包含衔接子-靶-衔接子序列的多核苷酸的替代性实施方案包括其中多核苷酸由衔接子-靶-衔接子序列组成的实施方案和其中多核苷酸基本上由衔接子-靶-衔接子序列组成的实施方案。

如本文使用的，在多核苷酸、组合物或制品的上下文中，“提供”意指制备多核苷酸、组合物或制品，购买多核苷酸、组合物或制品，或以其他方式获得化合物、组合物或制品。

如本文使用的，“扩增(amplify)”、“扩增(amplifying)”或“扩增反应”及其派生词通常是指藉以将多核苷酸(例如模板多核苷酸)的至少一部分复制或拷贝到至少一个另外的多核苷酸中的任何动作或过程。该另外的多核苷酸任选地包括与模板多核苷酸的至少一部分基本上相同的或基本上互补的序列。模板多核苷酸可以是单链的或双链的，并且另外的多核苷酸可以独立地是单链的或双链的。扩增任选地包括多核苷酸的线性或指数复制。在一些实施方案中，这样的扩增可以使用等温条件进行；在其他实施方案中，这样的扩增可以包括热循环。在一些实施方案中，扩增是多重扩增，其包括在单个扩增反应中同时扩增多于一种靶序列。在一些实施方案中，“扩增”包括基于单独的DNA核酸的至少某部分和RNA核酸的至少某部分或其组合的扩增。扩增反应可以包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链式反应(PCR)。

如本文使用的，术语“聚合酶”意图与它在本领域中的使用一致，并且包括例如使用多核苷酸作为模板链产生多核苷酸的互补复制物的酶。通常，DNA聚合酶与模板链结合并且然后沿模板链向下游移动，顺序性地将核苷酸添加到核酸的增长链的3’末端处的游离羟基基团。DNA聚合酶通常从DNA模板合成互补DNA分子，并且RNA聚合酶通常从DNA模板合成RNA分子(转录)。聚合酶可以使用被称为引物的短RNA或DNA链以开始链增长。一些聚合酶可以在其一条链添加碱基的位点的上游置换该链。这样的聚合酶被称为是链置换的，意指它们具有从被聚合酶读取的模板链去除互补链的活性。具有链置换活性的示例性聚合酶包括但不限于Bst(嗜热脂肪芽孢杆菌(Bacillus stearothermophilus))聚合酶的大片段、外切Klenow聚合酶或测序级T7外切聚合酶。一些聚合酶降解它们前面的链，有效地将该前面的链替换为后面的增长链(5’外切核酸酶活性)。一些聚合酶具有降解它们后面的链的活性(3’外切核酸酶活性)。一些有用的聚合酶已经通过突变或以其他方式被修饰，以降低或消除3’外切核酸酶活性和/或5’外切核酸酶活性。

如本文定义的，“多重扩增”是指使用至少一种靶特异性引物对样品内的两种或更多种靶序列的选择性且非随机扩增。在一些实施方案中，进行多重扩增，使得一些或所有的靶序列在单个反应容器内被扩增。给定多重扩增的“重数(plexy)”或“重(plex)”通常是指在该单个多重扩增期间被扩增的不同靶特异性序列的数目。在一些实施方案中，重数可以是约12-重、24-重、48-重、96-重、192-重、384-重、768-重、1536-重、3072-重、6144-重或更高。还可能通过若干种不同的方法检测扩增的靶序列(例如，凝胶电泳随后是密度测定(densitometry)，用生物分析仪或定量PCR定量，与标记的探针杂交；掺入生物素化的引物随后是亲和素-酶缀合物检测；将32P标记的脱氧核苷酸三磷酸掺入到扩增的靶序列中)。

如本文使用的，术语“引物”及其派生词通常是指可以与感兴趣的靶序列杂交的任何多核苷酸。通常，引物作为核苷酸可以通过聚合酶被多聚化到其上的底物起作用；然而，在一些实施方案中，引物可以变得掺入到合成的核酸链中并且提供一个位点，另一种引物可以与该位点杂交以引发(prime)与合成的核酸分子互补的新链的合成。引物可以包含核苷酸或其类似物的任何组合。在一些实施方案中，引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指任何长度的核苷酸的聚合形式，并且可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅是指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。如本文使用的，“扩增的靶序列”及其派生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的多核苷酸序列。扩增的靶序列可以具有相对于靶序列相同有义序列(即正链)或反义序列(即，负链)。

如本文使用的，术语“连接(ligating)”、“连接(ligation)”及其派生词通常是指将两个或更多个分子共价地连接在一起例如将两个或更多个多核苷酸彼此共价地连接的过程。在一些实施方案中，连接包括连接多核苷酸的相邻核苷酸之间的切口(nick)。在一些实施方案中，连接包括在第一多核苷酸的末端和第二多核苷酸的末端之间形成共价键。在一些实施方案中，连接可以包括在一个核酸的5’磷酸基团和第二个核酸的3’羟基基团之间形成共价键，从而形成连接的多核苷酸。通常出于本公开内容的目的，扩增的靶序列可以被连接到衔接子以产生衔接子连接的扩增的靶序列。

如本文使用的，“连接酶”及其派生词通常是指能够催化两个底物分子连接的任何剂。在一些实施方案中，连接酶包括能够催化核酸的相邻核苷酸之间的切口的连接的酶。在一些实施方案中，连接酶包括能够催化一个核酸分子的5’磷酸与另一个核酸分子的3’羟基之间共价键的形成从而形成连接的核酸分子的酶。合适的连接酶可以包括但不限于T4 DNA连接酶、T4 RNA连接酶和大肠杆菌(E.coli)DNA连接酶。

如本文使用的，“连接条件”及其派生词通常是指适用于将两个分子彼此连接的条件。在一些实施方案中，连接条件适用于封闭核酸之间的切口或缺口(gap)。如本文使用的，术语切口或缺口与本领域中该术语的使用一致。通常，切口或缺口可以在适当的温度和pH在酶诸如连接酶的存在下连接。在一些实施方案中，T4 DNA连接酶可以在约70℃-72℃的温度连接核酸之间的切口。

如本文使用的，术语“通用序列”是指两个或更多个核酸分子共有的序列的区域，其中这些分子还具有彼此不同的序列的区域。存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列互补的通用捕获核酸的群体捕获多个不同核酸。相似地，存在于分子的集合的不同成员中的通用序列可以允许使用与通用序列互补的通用引物的群体复制或扩增多个不同核酸。因此，通用捕获多核苷酸或通用引物包括可以与通用序列特异性杂交的序列。多核苷酸可以被修饰以例如在不同序列的一个末端或两个末端处附接通用衔接子。

索引跳跃

本公开内容尤其涉及来自多个编索引的文库的核酸的测序；更特别地，涉及增加测序正确地鉴定出核酸所源自的文库的可能性。

当来自不同文库的多核苷酸被汇集或多重化用于测序时，来自每个文库的多核苷酸可以被修饰以包含文库特异性索引标签序列。在测序期间，索引标签与来自文库的靶多核苷酸序列一起被测序。因此，索引标签序列可以与靶多核苷酸序列缔合，使得可以鉴定出靶序列所源自的文库。

然而，被称为索引跳跃的现象可能发生在小百分比的序列结果中(通常为0.5％至2％)。索引跳跃是指来自一个文库的索引标签序列与来自另一个文库的靶多核苷酸缔合(参见图7A和7B)。虽然可能发生索引跳跃的机制未被完全理解，但索引跳跃率可以通过在衔接子被附接至文库的靶多核苷酸以尤其是在将索引标签序列附接至多核苷酸后封闭未掺入的衔接子的3’末端来有效降低。

初始文库样品制备

可以以将寡核苷酸衔接子附接至靶多核苷酸的任何合适的方式制备包含多核苷酸的文库。如本文使用的，“文库”是来自给定来源或样品的多核苷酸的群体。文库包含多于一个靶多核苷酸。如本文使用的，“靶多核苷酸”是期望测序的多核苷酸。靶多核苷酸基本上可以是序列已知或未知的任何多核苷酸。例如，靶多核苷酸可以是基因组DNA或cDNA的片段。测序可导致对全部或部分靶多核苷酸的序列的确定。靶多核苷酸可以来源于已经被随机片段化的初始多核苷酸样品。靶多核苷酸可以通过在每个靶片段的末端处放置通用引物序列被处理成适用于扩增的模板。靶多核苷酸还可以由初始RNA样品通过逆转录成cDNA获得。

术语“多核苷酸”和“寡核苷酸”在本文中可互换地用来指任何长度的核苷酸的聚合形式，并且可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅是指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。本文使用的术语多核苷酸和寡核苷酸还包括cDNA，其是例如通过逆转录酶的作用由RNA模板产生的互补或拷贝DNA。

初始多核苷酸分子可以源自双链DNA(dsDNA)形式(例如基因组DNA片段、PCR和扩增产物等)，或可能来源于单链形式的DNA或RNA并被转化为dsDNA形式。举例而言，可以使用本领域熟知的标准技术将mRNA分子拷贝成双链cDNA。初始多核苷酸的精确序列对于本文展示的公开内容通常是不重要的，并且可能是已知的或未知的。

在一些实施方案中，初始靶多核苷酸是RNA分子。在这样的实施方案的一个方面中，首先使用本领域已知的技术将从特定样品分离的RNA转化成双链DNA。然后该双链DNA可以用文库特异性标签进行索引标签化。包含文库特异性索引标签的这样的双链DNA的不同制备物可以由从不同来源或样品分离的RNA平行地产生。随后，包含不同文库特异性索引标签的双链DNA的不同制备物可以被混合，全体测序，并且根据文库特异性索引标签序列的存在，相对于从其它被分离/来源的文库确定每个被测序的片段的身份。

在一些实施方案中，初始靶多核苷酸是DNA分子。例如，初始多核苷酸可以代表生物体的整个遗传互补序列，并且是基因组DNA分子，诸如人类DNA分子，其包括内含子和外显子序列(编码序列)二者，以及非编码调控序列诸如启动子和增强子序列。虽然可以设想还可以使用多核苷酸序列或基因组DNA的特定子集，诸如，例如特定染色体或其一部分。在许多实施方案中，初始多核苷酸的序列是未知的。可以在片段化过程诸如随机片段化过程之前或之后，以及连接衔接子寡核苷酸之前、期间或之后，通过化学方法或酶方法处理DNA靶多核苷酸。

优选地，初始靶多核苷酸被片段化成适用于测序的适当长度。靶多核苷酸可以以任何合适的方式被片段化。优选地，靶多核苷酸被随机片段化。随机片段化是指多核苷酸通过例如酶促、化学或机械手段以无序方式片段化。这样的片段化方法是本领域已知的，并且使用标准方法(Sambrook和Russell,Molecular Cloning,A Laboratory Manual,第三版)。为了清楚起见，通过特异性PCR扩增较大块(larger piece of)多核苷酸的较小片段产生此类较小片段不等同于片段化较大块的核苷酸，因为较大块的多核苷酸保持完整(即，没有被PCR扩增片段化)。此外，随机片段化被设计成产生不考虑包含断裂和/或在断裂附近的核苷酸的序列身份或位置的片段。

在一些实施方案中，随机片段化通过机械手段诸如雾化或声波处理来产生长度为约50个碱基对至长度为约1500个碱基对，诸如长度为50个-700个碱基对或长度为50个-500个碱基对的片段。

多核苷酸分子通过机械手段(例如雾化、声波处理和Hydroshear)的片段化可能导致具有平末端和3’-突出末端(overhanging end)和5’-突出末端的异质混合物的片段。可以使用本领域已知的方法或试剂盒(诸如Lucigen DNA终止子末端修复试剂盒)修复片段末端，以产生最佳用于插入例如到克隆载体的平位点的末端。在一些实施方案中，核酸的群体的片段末端是平末端的。片段末端可以是平末端的和磷酸化的。可以通过酶促处理例如使用多核苷酸激酶引入磷酸部分。

在一些实施方案中，通过例如某些类型的DNA聚合酶诸如Taq聚合酶或Klenow exominus聚合酶的活性(具有非模板依赖性末端转移酶活性，将单个脱氧核苷酸例如脱氧腺苷(A)添加到例如PCR产物的3’末端)，靶多核苷酸被制备为具有单突出核苷酸。这样的酶可以被用于将单个核苷酸“A”添加到靶多核苷酸双链体的每条链的平末端的3’末端。因此，通过靶多核苷酸双链体与Taq聚合酶或Klenow exo minus聚合酶反应，“A”可以被添加到每个末端修复的双链体链的3’末端，而衔接子多核苷酸构建体可以是具有可相容的T-构建体，该“T”突出端存在于衔接子构建体的每个双链体区域的3’末端。这种末端修饰还防止靶多核苷酸的自连接，使得存在朝向形成组合的连接的衔接子-靶多核苷酸的偏倚(bias)。

在一些实施方案中，片段化是通过如例如国际专利申请公布WO2016/130704中描述的标记片段化(tagmentation)完成的。在这样的方法中，使用转座酶将双链多核苷酸片段化，并且将通用引物序列附接到双链多核苷酸的一条链中。所得的分子可以被填充了缺口并且经历延伸，例如通过PCR扩增，使用包含与附接的通用引物序列杂交的3’末端和包含衔接子的其他序列的5’末端的引物，或使用包含与附接的通用引物序列的互补序列杂交的3’末端和包含衔接子的其他序列的5’末端的引物。

衔接子或衔接子的部分可以以任何其他合适的方式附接至靶多核苷酸。在一些实施方案中，衔接子以多步骤过程被引入，诸如两步过程，包括将衔接子的一部分连接到具有通用引物序列的靶多核苷酸。第二个步骤包括延伸，例如通过PCR扩增，使用包含与附接的通用引物序列杂交的(或与通用引物序列的互补序列杂交的)3’末端和包含衔接子的其他序列的5’末端的引物。举例而言，这样的延伸可以按美国专利第8,053,192号中描述地进行。可以进行另外的延伸，以将另外的序列提供至所得的先前延伸的多核苷酸的5’末端。

在一些实施方案中，整个衔接子被连接到片段化的靶多核苷酸。连接的衔接子包含连接到双链靶多核苷酸的双链区域。优选地，双链区域在不损失功能的情况下是尽可能短的。在该背景中，“功能”是指双链区域在标准反应条件下形成稳定双链体的能力。在一些实施方案中，标准反应条件是指用于酶催化的多核苷酸连接反应的反应条件，其对于熟练技术读者将是熟知的(例如，在4℃至25℃的范围内的温度在适用于酶的连接缓冲液中孵育)，使得形成衔接子的两条链在衔接子连接到靶分子期间保持部分退火。连接方法是本领域已知的，并且可以使用标准方法(Sambrook和Russell,Molecular Cloning,ALaboratory Manual,第三版)。这样的方法使用连接酶诸如DNA连接酶以实现或催化在这种情况下是衔接子双链体寡核苷酸和靶多核苷酸双链体的两条多核苷酸链的末端的连接，使得共价连接形成。衔接子双链体寡核苷酸可以包含5’-磷酸部分以促进连接到靶多核苷酸3’-OH。靶多核苷酸可以包含从剪切过程剩余的或使用酶促处理步骤添加的5’-磷酸部分，并且已经被末端修复，并且任选地被一个突出碱基或更多个突出碱基延伸，以给出适用于连接的3’-OH。在本文中，附接意指先前未被共价连接的多核苷酸链的共价连接。在本发明的一个特定方面中，这样的附接通过在两条多核苷酸链之间形成磷酸二酯键而发生，但可以使用共价连接的其他手段(例如非磷酸二酯骨架连接)。将衔接子连接到靶多核苷酸在例如美国专利第8,053,192号中更详细地描述。

无论整个衔接子或衔接子的一部分被附接至双链靶片段，衔接子或部分包含双链区域和包含两条非互补单链的区域。衔接子的双链区域可以具有任何合适数目的碱基对。优选地，双链区域是通过两条部分互补的多核苷酸链的退火形成的短双链区域，通常包含5个或更多个连续碱基对。衔接子的这种“双链区域”是指其中两条链退火的区域，并且不暗示任何特定的结构构象。在一些实施方案中，双链区域包含20个或更少的连续碱基对，诸如10个或更少或5个或更少的连续碱基对。

双链区域的稳定性可以通过包含表现出比标准Watson-Crick碱基对更强的碱基配对的非天然核苷酸来增加，并且因此它的长度可能减小。优选地，衔接子的两条链在双链区域中100％互补。

当衔接子被附接至靶多核苷酸时，非互补单链区域可以形成待测序的多核苷酸的5’末端和3’末端。术语“非互补单链区域”是指衔接子的一个区域，其中形成衔接子的两条多核苷酸链的序列表现出一定程度的非互补性，使得两条链不能够在用于PCR反应的标准退火条件下彼此完全退火。

非互补单链区域由形成双链区域的相同两条多核苷酸链的不同部分提供。单链部分的长度的下限值通常将由例如提供用于引物延伸、PCR和/或测序的引物的结合的合适序列的功能来确定。理论上，不存在不匹配的区域的长度的上限值，除了通常将衔接子的总长度最小化例如以促进在一个或更多个附接步骤之后将未结合的衔接子与衔接子-靶构建体分离是有利的之外。因此，通常优选的是衔接子的非互补单链区域长度为50个或更少的连续核苷酸，诸如长度为40个或更少、30个或更少或者25个或更少的连续核苷酸。

在衔接子或衔接子的部分被附接至靶多核苷酸后，所得的多核苷酸可以经历清理(clean-up)过程以通过去除至少一部分的未掺入的衔接子来增强衔接子-靶-衔接子多核苷酸的纯度。可以使用任何合适的清理过程，诸如电泳、尺寸排阻色谱等。在一些实施方案中，可以使用固相反向固定化(solid phase reverse immobilization)(SPRI)顺磁性珠将衔接子-靶-衔接子多核苷酸与未附接的衔接子分离。虽然这样的方法可以增强所得的衔接子-靶-衔接子多核苷酸的纯度，但可能保留一些未附接的衔接子寡核苷酸。

如本文使用的，“附接的”或“结合的”在衔接子相对于靶序列的上下文中可互换地使用。如上文描述的，可以使用任何合适的过程将衔接子附接至靶多核苷酸。例如，衔接子可以通过以下附接至靶：通过用连接酶连接；通过衔接子的一部分的连接和通过延伸诸如PCR用包含衔接子的其他或剩余部分的引物添加衔接子的其他或剩余部分的组合；通过转座以掺入衔接子的一部分和通过延伸诸如PCR用包含衔接子的其他或剩余部分的引物添加衔接子的其他或剩余部分；等。优选地，附接的衔接子寡核苷酸与靶多核苷酸共价结合。

扩增

然后对由将衔接子或衔接子的一部分附接至双链靶得到的多核苷酸然后进行用具有被修饰以防止被具有5’外切核酸酶活性的酶消化的5’末端的引物的扩增。

可以以任何合适的方式修饰引物的5’末端以防止被具有5’外切核酸酶活性的酶消化。出于本公开内容的目的，“防止”被外切核酸酶消化的修饰，相对于外切核酸酶对未修饰的末端的作用，抑制了外切核酸酶的活性。优选地，防止被外切核酸酶消化的修饰消除了外切核酸酶消化多核苷酸链的能力。在一些实施方案中，引物的5’末端包含硫代磷酸酯键。优选地，引物的5’末端的末端三个核苷酸之间的键包含硫代磷酸酯键。出于本公开内容的目的，其末端三个核苷酸之间的键包含硫代磷酸酯键的多核苷酸的末端可以被称为包含三个硫代磷酸酯键的末端。如本领域熟知的，硫代磷酸酯键可以以任何合适的方式被引入到多核苷酸的5’末端中。包含末端硫代磷酸酯键的寡核苷酸可以从许多商业供应商购买，包括例如Integrated DNA Technologies和Sigma-Aldrich。

如果附接至靶的衔接子在扩增之前仅是衔接子的一部分，衔接子的剩余部分可以由引物的5’末端提供。

在任一情况下，用于扩增的具有修饰的5’末端的第一引物寡核苷酸被配置为在衔接子或衔接子部分的链的3’末端附近与衔接子或衔接子部分的一部分杂交。用于扩增的具有修饰的5’末端的第二引物寡核苷酸被配置为在衔接子或衔接子部分的互补序列的链的3’末端附近与衔接子或衔接子部分的一部分的互补序列杂交。衔接子的互补序列可以由使用衔接子-靶-衔接子作为模板延伸第一引物得到。在形成互补序列后，第二衔接子可以与互补序列杂交。

可以将第一引物和第二引物与由将衔接子或衔接子的一部分附接至双链靶得到的多核苷酸(“衔接子-靶-衔接子”多核苷酸)在适于扩增衔接子-靶-衔接子多核苷酸的条件下孵育，以产生具有修饰的5’末端的扩增的衔接子-靶-扩增的衔接子序列的多核苷酸。如果衔接子-靶-衔接子多核苷酸包含整个衔接子，则该衔接子-靶-衔接子多核苷酸可能具有与扩增的衔接子-靶-扩增的衔接子序列相同的序列。如果衔接子-靶-衔接子多核苷酸仅包含衔接子的一部分，则扩增的衔接子-靶-扩增的衔接子序列将由于从引物添加了衔接子序列的剩余部分而在扩增的衔接子序列的单链末端处具有另外的核苷酸。

如本文使用的，“适用于扩增的条件”及其派生词通常是指适用于扩增一个或更多个多核苷酸序列的条件。这样的扩增可以是线性的或指数的。在一些实施方案中，扩增条件可以包括等温条件，或可选地可以包括热循环条件，或者等温和热循环条件的组合。在一些实施方案中，适用于扩增一个或更多个多核苷酸序列的条件包括聚合酶链式反应(PCR)条件。通常，扩增条件是指足以扩增多核苷酸诸如一个或更多个靶序列，或扩增与一个或更多个衔接子连接的扩增的靶序列，例如衔接子连接的扩增的靶序列的反应混合物。通常，扩增条件包括用于扩增或用于多核苷酸合成的催化剂，例如聚合酶；与待扩增的核酸具有某种程度的互补性的引物；和核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，以促进引物在与核酸杂交后的延伸。扩增条件可能要求引物与核酸的杂交或退火、引物的延伸和变性步骤，在变性步骤中延伸的引物与经历扩增的多核苷酸序列分离。通常，但不一定，扩增条件可以包括热循环；在一些实施方案中，扩增条件包括其中重复了退火、延伸和分离的步骤的多于一个循环。通常，扩增条件包括阳离子，诸如Mg++或Mn++并且还可以包括多种离子强度助剂。

如本文使用的，术语“聚合酶链式反应”(“PCR”)是指K.B.Mullis美国专利第4,683,195号和第4,683,202号的方法，所述两篇美国专利描述了一种用于无需克隆或纯化而增加基因组DNA的混合物中感兴趣的多核苷酸的区段(sgement)的浓度的方法。这种用于扩增感兴趣的多核苷酸的方法由以下组成：将大量过量的两种寡核苷酸引物引入到包含期望的感兴趣的多核苷酸的DNA混合物中，随后在DNA聚合酶的存在下进行一系列热循环。两种引物与其对应的感兴趣的双链多核苷酸的链互补。混合物首先在较高的温度变性，并且然后引物退火至感兴趣分子的多核苷酸内的互补序列。在退火之后，用聚合酶延伸引物以形成新的一对互补链。变性、引物退火和聚合酶延伸的步骤可以重复许多次(称为热循环)以获得高浓度的期望的感兴趣的多核苷酸的扩增的区段。期望的感兴趣的多核苷酸的扩增的区段(扩增子)的长度由引物相对于彼此的相对位置确定，并且因此该长度是可控的参数。由于重复该过程，该方法被称为“聚合酶链式反应”(下文称为“PCR”)。因为感兴趣的多核苷酸的期望的扩增的区段成为混合物中的主要核酸序列(在浓度方面)，它们被称为“PCR扩增的”。在修改上文讨论的方法时，可以使用多于一个不同的引物对，在一些情况下，每个感兴趣的多核苷酸使用一个或更多个引物对，从而形成多重PCR反应来PCR扩增多核苷酸。

用5’修饰的引物扩增衔接子-靶-衔接子多核苷酸产生具有修饰的5’末端的扩增的衔接子-靶-扩增的衔接子序列的多核苷酸。

所得的扩增的衔接子包含文库特异性索引标签序列。因此，索引标签本身不是由靶多核苷酸的一部分形成的，而是变成用于在固体表面上扩增以便测序的模板的一部分。

优选地，索引标签序列长度为20个核苷酸或更少。例如，索引标签序列长度可以为1个-10个核苷酸或4个-6个核苷酸。四核苷酸索引标签提供了在同一阵列上多重化256个样品的可能性，六碱基索引标签使得能够在同一阵列上处理4096个样品。

扩增的衔接子可以包含多于一种索引标签，使得可以增加多重化可能性。

文库特异性索引标签序列可以位于衔接子的单链、双链区域，或跨越单链和双链区域。优选地，索引标签序列在衔接子的单链区域中。

文库特异性索引标签序列可以被包含在一种或两种5’修饰的引物上，或可以被包含在附接至模板片段的衔接子的一部分中。如果文库特异性索引标签序列不被包含在引物中而被包含在附接至模板片段的衔接子的部分中(并且引物添加衔接子的剩余部分)，来自不同文库的衔接子-靶-衔接子多核苷酸可以被汇集以对扩增的衔接子-靶-扩增的衔接子多核苷酸进行扩增。如果引物包括文库特异性索引标签序列，那么每个文库应该在汇集之前单独被扩增。

在任何情况下，扩增的衔接子可以包含除索引标签序列之外的任何其他合适的序列。例如，扩增的衔接子可以包含通用延伸引物序列，其通常位于扩增的衔接子和所得的用于测序的模板多核苷酸的5’末端或3’末端处。通用延伸引物序列可以与结合至固体基底表面的互补引物杂交。互补引物包含游离3’末端，聚合酶或其他合适的酶可以使用杂交的文库多核苷酸作为模板从该游离3’末端添加核苷酸以延伸序列，导致文库多核苷酸的反向链被偶联到固体表面。这样的延伸可以是测序运行或簇扩增的一部分。

在一些实施方案中，扩增的衔接子包含一个或更多个通用测序引物序列。通用测序引物序列可以与测序引物结合，以允许对索引标签序列、靶序列或索引标签序列和靶序列测序。

扩增的衔接子的精确核苷酸序列通常对本发明不重要，并且可以由使用者选择，使得期望的序列元件最终被包括在从扩增的衔接子获得的模板文库的共有序列中，扩增的衔接子例如提供用于特定组的通用延伸引物和/或测序引物的结合位点。

将理解的是，“衔接子-靶-衔接子序列”或其等同物是指衔接子相对于彼此的方向和相对于靶的方向，并且不一定意味着序列不能包括另外的序列，诸如例如接头序列。

其他文库可以以类似的方式制备，每个文库包括不同于来自其他文库的索引标签序列或索引标签的组合的至少一个文库特异性索引标签序列或索引标签序列的组合。

诸如上文描述的，可以对所得的具有扩增的衔接子-模板-扩增的衔接子序列的模板多核苷酸进行清理过程。

对所得的衔接子-靶-衔接子多核苷酸，无论是否先经历清理，与任何未掺入的引物寡核苷酸或剩余的多核苷酸种类一起进行3’封闭。

3’封闭

可以对单独的每一个文库，或对汇集的文库进行3’封闭。优选地，对汇集的文库进行3’封闭。

3’封闭的意指多核苷酸被修饰以防止核苷酸掺入在3’末端上以使多核苷酸从3’末端延伸，或以防止被具有3’外切核酸酶活性的酶消化。优选地，3’末端被封闭以防止核苷酸掺入在3’末端上以使多核苷酸从3’末端延伸。更优选地，3’末端被封闭以防止核苷酸掺入在3’末端上以使多核苷酸从3’末端延伸，并且以防止被具有3’外切核酸酶活性的酶消化。

在一些实施方案中，3’-OH封闭基团可以是可去除的，使得3’碳原子已经被附接了结构为—O—Z的基团，其中Z是—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″、—C(R′)₂—S—R″和—C(R′)₂—F的任何一种，其中每个R″是可去除的保护基团或是可去除的保护基团的一部分；每个R’独立地为氢原子、烷基、取代的烷基、芳基烷基、烯基、炔基、芳基、杂芳基、杂环、酰基、氰基、烷氧基、芳氧基、杂芳氧基或酰胺基团，或通过连接基团附接的可检测标记物；或(R′)₂代表式═C(R′″)₂的亚烷基基团，其中每个R′″可以是相同的或不同的，并且选自包含氢和卤素原子以及烷基基团的组；并且其中所述分子可以反应以产生中间体，其中每个R″被交换为H，或其中Z是—C(R′)₂—F，F被交换为OH、SH或NH₂，优选地交换为OH，其中间体在水性条件下解离以提供具有游离3’OH的分子；条件是当Z是—C(R′)₂—S—R″时，两个R′基团不是H。在封闭基团是—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″、—C(R′)₂—S—R″和—C(R′)₂—F的任何一个，即式Z的任何一个的情况下，每个R′可以独立地为H或烷基。优选地，Z具有式—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂、—C(R′)₂—N(H)R″和—C(R′)₂—SR″。特别优选地，Z具有式—C(R′)₂—O—R″、—C(R′)₂—N(R″)₂和—C(R′)₂—SR″。R″可以是苄基基团或取代的苄基基团。结构—O—Z(其中Z是—C(R′)₂—N(R″)₂)的基团的一个实例是其中—N(R″)₂是叠氮基(-N₃)的那些基团。一个这样的实例是叠氮基甲基，其中每个R’是H。可选地，式—C(R′)₂—N₃的Z基团和其他Z基团中的R’可以是本文讨论的任何其他基团。典型的R’基团的实例包括C_1-6烷基，特别是甲基和乙基。合适的3’封闭基团的其他非限制性实例在以下中提供：Greene等人"Protective Groups in OrganicSynthesis,"John Wiley&Sons,New York(1991)、美国专利第5,990,300号、第5,872,244号、第6,232,465号、第6,214,987号、第5,808,045号、第5,763,594号、第7,057,026号、第7,566,537号、第7,785,796号、第8,148,064号、第8,394,586号、第9,388,463号、第9,410,200号、第7,427,673号、第7,772,384号、第8,158,346号、第9,121,062号、第7,541,444号、第7,771,973号、第8,071,739号、第8,597,881号、第9,121,060号、第9,388,464号、第8,399,188号、第8,808,988号、第9,051,612号、第9,469,873号和美国公布第2016/0002721号和第2016/0060692号，其全部内容通过引用并入本文。

3’封闭可以以任何合适的方式完成。例如，封闭部分可以被共价地附接到3’末端处的3’羟基基团以防止从3’末端延伸。优选地，封闭基团在与将衔接子-靶-衔接子多核苷酸固定到固体表面和测序相关的后续过程期间保持共价结合。

在一些实施方案中，双脱氧核苷酸(ddNTP)被掺入到多核苷酸的3’末端上以封闭3’末端。ddNTP可以以任何合适的方式掺入。在一些实施方案中，ddNTP通过末端脱氧核苷酸转移酶(TdT)掺入。TdT能够在没有模板的情况下将核苷酸掺入到单链或双链DNA的3’末端上。在一些实施方案中，将ddNTP在DNA聚合酶诸如例如Pol19、Pol812或Pol963聚合酶的存在下通过TdT掺入到3’末端上。其他合适的聚合酶的非限制性实例在美国专利第8,460,910号、第8,852,910号、第8,623,628号、第9,273,352号、第9,447,389号和美国公布第2015/0376582号、第2016/0032377号、第2016/0090579号、第2016/0115461号中提供，其全部内容通过引用并入本文。

在一些实施方案中，将地高辛标记的双脱氧尿苷三磷酸使用末端转移酶添加到3’末端以封闭3’末端。用于将地高辛标记的双脱氧尿苷三磷酸添加到多核苷酸的3’末端的试剂盒从例如Sigma-Aldrich可得。

还可以使用任何其他合适的方法来修饰多核苷酸的3’末端。

在3’封闭期间或之后，可能得到许多化合物和组合物。例如，可以得到具有第一衔接子-靶-第二衔接子的核苷酸序列的多核苷酸，其中多核苷酸的5’末端是封闭的，并且多核苷酸的3’端是封闭的。可以得到包含5’修饰的且3’封闭的多核苷酸的组合物或文库。可以得到这样的多核苷酸的汇集的文库和包含这样的多核苷酸的汇集的文库的组合物。

进一步举例而言，可以得到包含这样的多核苷酸以及用于封闭多核苷酸的3’末端的酶和试剂的组合物。相似地，可以得到包含多核苷酸的文库以及酶和试剂的组合物。可以得到包含这样的多核苷酸的汇集的文库以及酶和试剂的组合物。在一些实施方案中，组合物包含ddNTP。组合物还可以包含TdT。组合物还可以包含DNA聚合酶，诸如例如Pol19、Pol812或Pol963聚合酶。

诸如上文描述的清理过程可以在封闭之后进行。

外切核酸酶处理

在封闭之后(或期间)，包含所得的多核苷酸的所得溶液或组合物，无论是否先经历清理，可以任选地进行用外切核酸酶处理。优选地，外切核酸酶处理具有3’外切核酸酶活性，以降解未被3’封闭的剩余的任何多核苷酸。因为5’末端对外切核酸酶耐受，外切核酸酶可以具有5’外切核酸酶活性和3’外切核酸酶活性二者。

具有“5’外切核酸酶活性”的外切核酸酶是在5’至3’方向上消化DNA的外切核酸酶。具有“3’外切核酸酶活性”的外切核酸酶是在3’至5’方向上消化DNA的外切核酸酶。

具有5’外切核酸酶活性和3’外切核酸酶活性二者的合适的外切核酸酶的一个实例是外切核酸酶V，其是来自大肠杆菌的RecBCD复合物并且从例如New England Biolabs可得。外切核酸酶V还对没有切口的双链DNA具有活性。

可以对单独的每一个文库，或对汇集的文库进行外切核酸酶处理。在外切核酸酶处理之后，可以进行诸如上文描述的清理步骤，然后将多核苷酸固定在固体表面上以便测序。

如果文库尚未被汇集，它们可以在固定在测序表面之前被汇集。

用于测序的固定的样品的制备

汇集的5’修饰的和3’封闭的文库制备物然后可以被固定在固体表面上以便为测序做准备。测序可以以单个分子的阵列进行，或可以在测序之前扩增。扩增可以使用一种或更多种固定的引物实施。一种或更多种固定的引物可以是平面表面上的坪(lawn)、平面表面上的簇，在多孔结构的孔中、珠的池上等。珠的池可以被分离成乳液，而在乳液的每个“区室(compartment)”中具有单个珠。在每个“隔室”仅一个模板的浓度，每个珠上仅单个模板被扩增。

如本文使用的术语“固相扩增”是指在固体支持物上或与固体支持物缔合实施的任何多核苷酸扩增反应，使得全部或一部分扩增产物在它们形成时被固定在固体支持物上。特别地，该术语包括固相聚合酶链式反应(固相PCR)和固相等温扩增，其是与标准溶液相扩增类似的反应，不同之处是正向扩增引物和反向扩增引物的一种或两种被固定在固体支持物上。固相PCR覆盖了系统，诸如其中一种引物被锚定到珠而另一种在自由溶液(freesolution)中的乳液，以及在固相凝胶基质中的克隆(colony)形成，其中一种引物被锚定到表面并且一种在自由溶液中。

虽然本公开内容包括其中仅一种扩增引物被固定(另一种引物通常存在于自由溶液中)的“固相”扩增方法，但优选向固相支持物提供固定的正向引物和反向引物二者。在实践中，因为扩增过程要求过量的引物以维持扩增，所以“多于一个”相同的正向引物和/或“多于一个”相同的反向引物将被固定在固体支持物上。除非上下文另外指示，否则本文中提及正向引物和反向引物将相应地解释为包括“多于一个”这样的引物。

如熟练的技术读者将理解的，任何给定扩增反应要求对待扩增的模板特异的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可以包含相同序列的模板特异性部分，并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换言之，仅使用一种类型的引物实施固相扩增是可能的，并且这样的单引物方法包括在本发明的范围内。其他实施方案可以使用包含相同模板特异性序列但其一些其他结构特征不同的正向引物和反向引物。例如，一种类型的引物可以包含另一种类型的引物中不存在的非核苷酸修饰。

在整个本公开内容中，当指衔接子和/或扩增引物时使用术语“P5”和“P7”。将理解的是，任何合适的扩增引物可以被用于本文展示的方法中，并且P5和P7的使用仅是示例性实施方案。扩增引物诸如P5和P7在流动池上的使用是本领域已知的，如由WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容例示的，其每一个通过引用以其整体并入。例如，任何合适的正向扩增引物，无论是固定的或在溶液中的，可在用于本文展示的方法中用于与互补序列杂交和扩增序列。相似地，任何合适的反向扩增引物，无论是固定的或在溶液中的，可用于本文展示的方法中用于与互补序列杂交和扩增序列。本领域技术人员将理解如何设计和使用适用于捕获和扩增如本文展示的核酸的引物序列。

用于固相扩增的引物优选地通过在引物的5’末端处或在引物的5’末端附近与固体支持物单点共价附接来固定，使引物的模板特异性部分自由退火至它的关联模板并且3’羟基基团自由用于引物延伸。本领域已知的任何合适的共价附接手段可以被用于该目的。选择的附接化学将取决于固体支持物的性质，以及对其应用的任何衍生化或官能化。引物本身可以包括可以是非核苷酸化学修饰的部分以促进附接。在一些实施方案中，引物在5’末端处包括含硫亲核剂，诸如硫代磷酸酯(phosphorothioate)或硫代磷酸酯(thiophosphate)。固体支持物的表面可以包括或被修饰成包括含硫亲核剂可以附接的部分。例如，含硫亲核剂可以与溴乙酰胺基团结合。在一些实施方案中，固体支持的聚丙烯酰胺水凝胶包含用于结合含硫亲核剂的溴乙酰胺基团。如WO 2005/065814中充分描述的，将引物和模板附接至固体支持物的更特定的手段是通过5’硫代磷酸酯附接至包含多聚化的丙烯酰胺和N-(5-溴乙酰胺基戊基)丙烯酰胺(BRAPA)的水凝胶。

包含惰性基底或基质(例如载玻片、聚合物珠等)的固体支持物可以，例如通过施加包含反应基团的中间材料层或涂层来“官能化”，所述反应基团允许共价附接至诸如多核苷酸的生物分子。这样的支持物的实例包括但不限于被支撑在惰性基底诸如玻璃上的聚丙烯酰胺水凝胶。在这样的实施方案中，生物分子(例如多核苷酸)可以被直接地共价附接至中间材料(例如水凝胶)，但中间材料自身可以被非共价附接至基底或基质(例如玻璃基底)。术语“共价附接至固体支持物”将相应地被理解为包括这种布置类型。

汇集的文库样品可以在包含正向和反向扩增引物的固体表面上扩增。在一些实施方案中，多核苷酸的汇集的文库被用于通过固相扩增并且更特别地通过固相等温扩增制备多核酸克隆的簇集的阵列，类似于美国专利公布第2005/0100900号、美国专利第7,115,400号、WO 00/18957和WO 98/44151中描述的那些。术语“簇”和“克隆”在本文中可互换地用来指固体支持物上包含多于一条相同的固定的核酸链和多于一条相同的固定的互补核酸链的离散位点。术语“簇集的阵列”是指由这样的簇或克隆形成的阵列。在本文中，术语“阵列”不应被理解为要求簇的有序布置。

术语固相或表面被用于意指平面阵列(其中引物被附接至平坦表面，例如，玻璃、二氧化硅或塑料显微镜载玻片)或相似的流动池装置；珠，其中一种或两种引物被附接至珠并且珠被扩增；在表面上的珠阵列(在珠被扩增后)等。

术语“固体表面”、“固体支持物”和本文中其他语法等同物是指适用于或可以被修饰以适用于模板多核苷酸的附接的任何材料。如本领域人员将理解的，可能的基底的数目是非常巨大的。可能的基底包括但不限于：玻璃和改性的或官能化的玻璃、塑料(包括丙烯酸、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、

等)、多糖、尼龙或硝酸纤维素、陶瓷、树脂、二氧化硅或基于二氧化硅的材料包括硅和改性的硅、碳、金属、无机玻璃、塑料、光学纤维束和多种其他聚合物。对于一些实施方案特别有用的固体支持物和固体表面位于流动池装置内。示例性流动池在下文被更详细地阐述。

在一些实施方案中，固体支持物包含图案化表面。“图案化表面”是指不同区域在固体支持物暴露的层中或暴露的层上的布置。例如，一个或更多个区域可以是其中存在一个或更多个扩增引物的特征。特征可以被其中不存在扩增引物的间隙区域分开。在一些实施方案中，图案可以是呈行和列的x-y格式的特征。在一些实施方案中，图案可以是特征和/或间隙区域的重复布置。在一些实施方案中，图案可以是特征和/或间隙区域的随机布置。可以被用于本文阐述的方法和组合物中的示例性图案化表面在美国专利第8,778,848号、第8,778,849号、第9,079,148号和美国公布第2014/0243224号中描述。

在一些实施方案中，固体支持物包括表面中的孔或凹坑(depression)的阵列。如本领域通常已知的，这可以使用多种技术来制造，所述多种技术包括但不限于光刻术(photolithography)、冲压技术、模塑技术和显微蚀刻技术。如将被本领域人员理解的，使用的技术将取决于阵列基底的组成和形状。

图案化表面中的特征可以是在具有图案化、共价连接的凝胶的玻璃、硅、塑料或其他合适的固体支持物上的孔的阵列中的孔(例如，微孔或纳米孔)，所述凝胶诸如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见，例如，美国公布第2013/184796号、WO 2016/066586和WO 2015/002813)。该过程产生用于测序的凝胶垫，其可以是经过大量循环的测序运行而稳定的。聚合物与孔的共价连接有助于在多种用途期间在结构化基底的整个寿命中将凝胶维持在结构化特征中。然而，在许多实施方案中，凝胶不必与孔共价连接。例如，在一些条件下，不共价附接至结构化基底的任何部分的不含硅烷的丙烯酰胺(SFA，参见，例如，美国专利第8,563,477号)可以用作凝胶材料。

在特定实施方案中，可以通过用孔(例如微孔或纳米孔)将固体支持材料图案化，用凝胶材料(例如，PAZAM、SFA或其化学修饰的变体，诸如叠氮化形式的SFA(叠氮-SFA))涂覆图案化支持物，并且例如通过化学或机械抛光来抛光凝胶涂覆的支持物，从而将凝胶保留在孔中，但去除结构化基底的表面上孔之间的间隙区域的基本上所有的凝胶或使基本上所有的凝胶失去活性。引物核酸可以被附接至凝胶材料。然后可以使靶核酸(例如，片段化的人类基因组)的溶液与抛光的基底接触，使得单独的靶核酸将通过与附接至凝胶材料的引物相互作用而对单独的孔接种；然而，由于凝胶材料不存在或无活性，靶核酸将不占据间隙区域。靶核酸的扩增将被限制于孔，因为间隙区域中的凝胶不存在或无活性阻止了增长中的核酸克隆的向外迁移。该过程是方便地可制造的，可扩大规模并且使用常规微米或纳米制造方法。如本文使用的术语“流动池”是指包含固体表面的室，一种或更多种流体试剂可以流动跨越所述室。可以在本公开内容的方法中容易地使用的流动池和相关的流体系统和检测平台的实例在以下中描述：例如Bentley等,Nature 456:53-59(2008)；WO 04/018497；US 7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082。

在一些实施方案中，固体支持物或它的表面是非平面的，诸如管或容器的内表面或外表面。在一些实施方案中，固体支持物包括微球或珠。本文中“微球”或“珠”或“颗粒”或语法等同物意指小的离散颗粒。合适的珠成分包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、二氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联右旋糖酐诸如Sepharose、纤维素、尼龙、交联胶束和以及本文概述的用于固体支持物的任何其他材料都可以被使用。来自Bangs Laboratories,Fishers Ind.的“微球检测指导(Microsphere Detection Guide)”是有用的指导。在某些实施方案中，微球为磁性微球或珠。

珠不必是球形的；不规则颗粒可以被使用。可选择地或另外地，珠可以是多孔的。珠尺寸范围从纳米即100nm至毫米即1mm，从约0.2微米至约200微米的珠是优选的，并且从约0.5微米至约5微米的珠是特别优选的，但是在一些实施方案中，可以使用更小或更大的珠。

可以使用如WO/9844151中描述的热循环过程或其中温度维持为恒定并且使用试剂的变化来进行延伸和变性的循环的过程来制备簇集的阵列。这样的等温扩增方法在专利申请第WO/0246456号和第US 2008/0009420号中描述。由于等温过程中要求较低的温度，这是特别优选的。

将理解的是，本文描述的或本领域通常已知的任何扩增方法可以与通用引物或靶特异性引物一起使用以扩增固定的DNA片段。用于扩增的合适的方法包括但不限于聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利第8,003,354号中描述的，其通过引用以其整体并入本文。上文的扩增方法可以被用于扩增一个或更多个感兴趣的核酸。例如，PCR包括多重PCR、SDA、TMA、NASBA等可以被用于扩增固定的DNA片段。在一些实施方案中，将特异地针对感兴趣的多核酸的引物被包括在扩增反应中。

用于扩增多核苷酸的其他合适的方法可以包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人,Nat.Genet.19:225-232(1998))和寡核苷酸连接测定(OLA)(通常参见美国专利第7,582,420号、第5,185,243号、第5,679,524号和第5,573,907号；EP 0 320 308B1；EP 0 336 731 B1；EP 0 439 182 B1；WO 90/01069；WO 89/12696；和WO 89/09835)技术。将理解的是，这些扩增方法可以被设计成扩增固定的DNA片段。例如，在一些实施方案中，扩增方法可以包括连接探针扩增或寡核苷酸连接测定(OLA)反应，其包括特异地针对感兴趣的核酸的引物。在一些实施方案中，扩增方法可以包括引物延伸-连接反应，该反应包括特异地针对感兴趣的核酸的引物。作为可以被特异地设计成扩增感兴趣的核酸的引物延伸和连接引物的一个非限制性实例，扩增可以包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如由美国专利第7,582,420号和第7,611,869号例示的。

可以在本公开内容的方法中使用的示例性等温扩增方法包括但不限于如由例如Dean等人Proc.Natl.Acad.Sci.USA 99:5261-66(2002)例示的多重置换扩增(MDA)，或由例如美国专利第6,214,587号例示的等温链置换核酸扩增。可以在本公开内容中使用的其他非基于PCR的方法包括例如在例如Walker等人,Molecular Methods for VirusDetection,Academic Press,Inc.,1995；美国专利第5,455,166号和第5,130,238号，以及Walker等人,Nucl.Acids Res.20:1691-96(1992)中描述的链置换扩增(SDA)，或在例如Lage等人,Genome Res.13:294-307(2003)中描述的超支化链置换扩增(hyper-branchedstrand displacement amplification)。对于基因组DNA的随机引物扩增，等温扩增方法可以与链置换Phi 29聚合酶或Bst DNA聚合酶大片段，5’->3’exo-一起使用。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上文阐述的，可以在等温条件下使用具有低持续合成能力和链置换活性的聚合酶诸如Klenow聚合酶产生较小的片段。对扩增反应、条件和组分的另外的描述在通过引用以其整体并入本文的美国专利第7,670,810号的公开内容中详细阐述。

在本公开内容中有用的另一种核酸扩增方法是标签化PCR(Tagged PCR)，其使用具有恒定5’区域随后是随机3’区域的双域引物(two-domain primer)的群体，如例如在Grothues等人Nucleic Acids Res.21(5):1321-2(1993)中描述的。实施第一次多轮扩增以允许在热变性的DNA上基于从随机合成的3’区域单独杂交的大量起始。由于3’区域的性质，起始位点预期是在整个基因组上随机的。其后，未结合的引物可以被去除并且另外的复制可以使用与恒定5’区域互补的引物发生。

在一些实施方案中，等温扩增可以使用也称为排除扩增(ExAmp)的动力学排除扩增(KEA)进行。本公开内容的核酸文库可以使用包括使扩增试剂反应以产生多于一个扩增位点的步骤的方法来制备，所述多于一个扩增位点的每一个包括来自已经接种该位点的单独靶核酸的扩增子的基本克隆群体(substantially clonal population)。在一些实施方案中，扩增反应进行到产生足够数目的扩增子以填充相应的扩增位点的容量。以这种方式将已经接种的位点填充至容量抑制了靶核酸在该位点处着落和扩增，从而在该位点处产生扩增子的克隆群体。在一些实施方案中，即使扩增位点在第二靶核酸到达该位点之前未被填充至容量，也可以实现表观克隆性(apparent clonality)。在一些条件下，第一靶核酸的扩增可以进行至足够数目的拷贝被产生以有效地胜过或压倒从被转运至位点的第二靶核酸的拷贝产生的点。例如在对直径小于500nm的圆形特征使用桥式扩增过程的实施方案中，已经确定，在第一靶核酸的14个循环的指数扩增之后，在同一位点处来自第二靶核酸的污染将产生的污染扩增子的数目不足以对Illumina测序平台上的边合成边测序(sequencing-by-synthesis)分析产生不利影响。

如上文的实例证明的，在特定实施方案中，阵列中的扩增位点可以是但不必是完全克隆的。而是，对于一些应用，单独扩增位点可以主要地用来自第一靶核酸的扩增子填充(populated)，并且还可以具有低水平的来自第二靶核酸的污染扩增子。只要污染水平对阵列的随后使用没有不可接受的影响，阵列可以具有一个或更多个具有低水平的污染扩增子的扩增位点。例如，当阵列将在检测应用中使用时，可接受的污染水平将是不会以不可接受的方式影响检测技术的信噪比或分辨率的水平。因此，表观克隆性将通常与由本文阐述的方法制成的阵列的特定用途或应用相关。在用于特定应用的单独扩增位点处可以接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可以包括具有这些示例性水平的污染扩增子的一个或更多个扩增位点。例如，阵列中多达5％、10％、25％、50％、75％或甚至100％的扩增位点可以具有一些污染扩增子。将理解的是，在阵列或其他位点集合中，至少50％、75％、80％、85％、90％、95％或99％或更多的位点可以是克隆的或表观克隆的。

在一些实施方案中，动力学排除可以发生在过程以足够快的速率发生以有效排除另一事件或过程发生时。以制备核酸阵列为例，其中阵列的位点用来自溶液的靶核酸随机接种，并且在扩增过程中产生靶核酸的拷贝以将每一个接种的位点填充至容量。根据本公开内容的动力学排除方法，接种和扩增过程可以在扩增速率超过接种速率的条件下同时进行。因此，在已经被第一靶核酸接种的位点处进行拷贝的相对较快的速率将有效地排除第二核酸接种该位点进行扩增。动力学排除扩增方法可以如美国公布第2013/0338042号中详细描述地进行，其通过引用以其整体并入本文。

动力学排除可以利用扩增起始的相对慢的速率(例如，制备靶核酸的第一拷贝的缓慢速率)对比制备靶核酸(或靶核酸的第一拷贝)的随后拷贝的相对快的速率。在先前段落的实例中，动力学排除的发生是由于靶核酸接种的相对慢的速率(例如相对慢的扩散或转运)对比扩增发生以用核酸种子的拷贝填充位点的相对快的速率。在另一个示例性实施方案中，动力学排除的发生可以是由于已经接种位点的靶核酸的第一拷贝的形成的延迟(例如，延迟的或缓慢的活化)对比制备随后拷贝以填充位点的相对快的速率。在该实例中，单独位点可能已经接种了若干种不同的靶核酸(例如，若干种靶核酸可以在扩增之前存在于每个位点处)。然而，对于任何给定的靶核酸，第一拷贝形成可以被随机活化，使得第一拷贝形成的平均速率与产生随后拷贝的速率相比相对慢。在这种情况下，虽然单独位点可能已经接种了若干种不同的靶核酸，但动力学排除将仅允许那些靶核酸的一种被扩增。更具体地，在第一靶核酸已经被活化用于扩增后，该位点将快速被第一靶核酸的拷贝填充至容量，从而防止第二靶核酸的拷贝在该位点处被制备。

扩增试剂可以包括促进扩增子形成并且在一些情况下增加扩增子形成的速率的另外组分。一个实例是重组酶。重组酶可以通过允许重复的侵入/延伸来促进扩增子形成。更具体地，重组酶可以促进靶核酸被聚合酶的侵入，并且使用靶核酸作为用于扩增子形成的模板通过聚合酶延伸引物。该过程可以作为链式反应重复，其中从每一轮的侵入/延伸产生的扩增子在随后一轮中用作模板。因为不要求变性循环(例如通过加热或化学变性)，所以该方法可以比标准PCR更快地发生。因此，重组酶促进的扩增可以等温地实施。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下为其不可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物特别有用，因为SSB可以进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge，UK)以TwistAmp试剂盒商业销售的那些。重组酶促进的扩增试剂的有用组分和反应条件在美国专利第5,223,414号和第7,399,590号中阐述，其内容通过引入并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的另一个实例是解旋酶。解旋酶可以通过允许扩增子形成的链式反应来促进扩增子形成。因为不要求变性循环(例如通过加热或化学变性)，所以该过程可以比标准PCR更快地发生。因此，解旋酶促进的扩增可以等温地实施。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可以进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelix(Beverly,MA)以IsoAmp试剂盒商业销售的那些。此外，包括解旋酶蛋白的有用制剂的实例在US 7,399,590和US 7,829,284中描述，其每一个通过引用并入本文。

可以被包括在扩增试剂中以促进扩增子形成并且在一些情况下增加扩增子形成的速率的组分的又另一个实例是起点结合蛋白(origin binding protein)。

测序中的用途/测序的方法

来自汇集的文库的固定的多核苷酸可以以任何合适的方式测序。优选地，通过边合成边测序进行测序，其中使用固定的多核苷酸作为模板将核苷酸连续添加到测序引物的游离3’羟基基团，导致多核苷酸链在5’至3’方向上的合成。优选地，添加的核苷酸的性质在每次核苷酸添加后确定。使用边连接边测序(sequencing by ligation)的测序技术(其中不是每个相连的碱基都被测序)，和诸如大规模平行标记测序(massively parallelsignature sequencing)(MPSS)的技术(其中碱基从表面上的链去除而不是添加到表面上的链)，以及使用焦磷酸释放检测的技术(焦磷酸测序)也在本公开内容的范围内。这样的基于焦磷酸测序的技术特别适于对珠的阵列测序，其中珠已经在乳液中扩增使得来自文库分子的单个模板在每个珠上被扩增。

可以通过将测序引物退火至固相扩增反应的产物提供用于测序反应的起始点。就此而言，在模板文库形成期间添加的一种或两种衔接子可以包括允许测序引物退火至诸如衔接子-靶-衔接子多核苷酸的固定的多核苷酸的核苷酸序列。

索引标签序列和靶序列可以在来自单测序引物的单个读段，或在来自多于一种测序引物的多个读段中确定。在来自两种测序引物的两个读段的情况下，“索引标签读取”和“靶读取”可以以任一顺序进行，在第一测序读取完成后具有合适的变性步骤以去除退火的引物。如本领域通常已知的，合适的变性步骤可以包括甲酰胺、氢氧化物或加热。

其中正向扩增引物和反向扩增引物二者共价地固定在固体表面上的固相扩增反应的产物可以是所谓的“桥接的”结构，该结构通过固定的多核苷酸链和固定的互补链的退火来形成，两条链都在5’末端附接至固体支持物。包含这样的桥接的结构的阵列无法为核酸测序提供有效模板，因为在用于杂交的标准条件下，常规测序引物与固定的链中的一条链的杂交与该链退火至它的固定的互补链相比是不被支持的。桥式扩增或簇扩增的实例在例如美国专利第7,985,565号和第7,115,400号中描述。

为了提供更适合核酸测序的模板，优选的是基本上去除“桥接的”结构中的固定的链中的一条链的全部，或去除或置换“桥接的”结构中的固定的链中的一条链的至少一部分，以产生至少部分为单链的模板。模板的为单链的部分因此将可用于与测序引物杂交。去除“桥接的”双链核酸结构中的一条固定的链的全部或一部分的过程在本文中可以被称为“线性化”，并且在WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO1998/044151和WO 2000/018957中进一步详细描述。

桥接的模板结构可以通过用限制性内切核酸酶裂解一条或两条链或通过用切口内切核酸酶裂解一条链来线性化。裂解的其他方法可以被用作限制性酶或切口酶的替代方案，包括尤其是化学裂解(例如用高碘酸盐裂解二醇连接)、通过用内切核酸酶(例如，如由NEB提供的“USER”,Cat#M5505S)裂解或通过暴露于加热或碱裂解脱碱基位点(abasicsites)、裂解掺入到原本包含脱氧核糖核苷酸的扩增产物中的核糖核苷酸、光化学裂解或裂解肽接头。

将理解的是，如果固相扩增反应仅用一种共价固定的引物和另一种在自由溶液中的引物进行，线性化步骤可能不是必不可少的。

在裂解步骤之后，无关乎用于裂解的方法，裂解反应的产物可以经历变性条件以去除未附接至固体支持物的一条或更多条裂解的链的一个或更多个部分。合适的变性条件，例如氢氧化钠溶液、甲酰胺溶液或加热，对于参考标准分子生物学方案(Sambrook等人,2001,Molecular Cloning,A Laboratory Manual,第3版,Cold Spring HarborLaboratory Press,Cold Spring Harbor Laboratory Press,NY；Current Protocols,Ausubel等人编著)的熟练技术读者将是明显的。变性导致部分或基本上为单链的测序模板的产生。然后可以通过测序引物与模板的单链部分杂交起始测序反应。

因此，在一些实施方案中，测序反应包括将测序引物与线性化的扩增产物的单链区域杂交，将一个或更多个核苷酸连续掺入到与待测序的扩增的模板链的区域互补的多核苷酸链中，鉴定存在于一个或更多个掺入的核苷酸中的碱基，并且从而确定模板链的区域的序列。

可以使用的一种优选的测序方法依赖于使用具有可去除的3’封闭的修饰的核苷酸，例如如在WO 2004/018497和美国专利第7,057,026号中描述的。在修饰的核苷酸已经被掺入到与正被测序的模板的区域互补的增长多核苷酸链中后，因为不存在游离3’-OH基团可用于指导另外的序列延伸，并且因此聚合酶不能够添加另外的核苷酸。在已经确定掺入到增长链中的碱基的性质后，3’封闭可以被去除以允许添加下一个连续的核苷酸。通过对使用这些修饰的核苷酸获得的产物排序，推断出DNA模板的DNA序列是可能的。如果每种修饰的核苷酸具有附接至其的不同的标记物，已知该标记物对应于特定的碱基以帮助区分在每个掺入步骤期间添加的碱基，则这样的反应可以在单个实验中完成。可选地，可以实施单独包含每种修饰的核苷酸的独立的反应。

修饰的核苷酸可以携带标签以促进其检测。例如，荧光标签可以被用于检测修饰的核苷酸。每种核苷酸类型因此可以携带不同的荧光标签，例如如WO 2007/135368中描述的。然而，可检测的标签不必须是荧光标签。可以使用允许检测掺入的核苷酸的任何标签。

一种用于检测荧光标记的核苷酸的方法包括使用具有对标记的核苷酸特异的波长的激光，或使用其他合适的照明源(sources of illumination)。来自核苷酸上的标记物的荧光可以通过CCD照相机或其他合适的检测手段检测。用于记录簇集阵列的图像的合适的仪器在WO 2007/123744中描述。

当然，可以使用任何其他合适的测序方法。优选地，测序方法依赖于将核苷酸连续掺入到多核苷酸链中。合适的可选技术包括例如焦磷酸测序、FISSEQ(荧光原位测序)、MPSS和通过基于连接的方法的测序，例如如美国专利第6,306,597号中描述的。

核酸样品可以被进一步分析以从片段的相对末端获得第二读段。用于对簇的两个末端测序的方法在WO 2007/010252和WO 2008/041002中描述。在一个实例中，一系列步骤可以如下进行：产生簇、线性化、使第一测序引物杂交并且获得第一测序读段。可以去除第一测序引物，使杂交第二引物并且对索引标签测序。然后可以通过从在簇扩增中使用的剩余固定的引物合成互补拷贝而在表面上使多核苷酸链“逆序(inverted)”。这种链再合成的过程再生双链簇。可以去除原始模板链以使再合成的链线性化，然后其可以退火至测序引物并且在第三次测序运行中测序。

在使用链再合成的情况下，两条链可以以允许随后释放固定的链的一部分的方式固定到表面。这可以通过如WO 2007/010251中描述的许多机制来实现。例如，一种引物可以包含尿嘧啶核苷酸，这意味着链可以使用去除核苷碱基的尿嘧啶糖基化酶(UDG)在尿嘧啶碱基处裂解和使用切除脱碱基核苷酸的内切核酸酶VIII裂解。这种酶组合从New EnglandBiolabs(Cat#M5505)以USER^TM酶可得。第二引物可以包含8-氧代鸟嘌呤核苷酸，其然后可被酶FPG(NEB Cat#M0240)裂解。引物的这种设计提供了对哪种引物在过程中的哪个点被裂解，以及还在簇中的哪些位置发生裂解的控制。引物还可以被化学修饰，例如用允许在特定位置处化学裂解的二硫化物或二醇修饰。

现在参考图1，其是图示了用于产生待固定在固体表面上用于测序的5’修饰的和3’封闭的模板多核苷酸的过程的实施方案的示意图。在图1A中，示出了双链靶多核苷酸片段。衔接子的初始部分可以通过连接(参见图1B)或加标签(tagmentation)而附接至靶的末端。衔接子的部分(ab)包括附接至双链靶的双链部分和远离靶向5’末端和3’末端延伸的单链部分。5’修饰的引物(B’)被配置成在3’末端附近与衔接子的单链部分(b)杂交(图1C)。聚合酶可用以使用衔接子的这些部分和靶作为模板来延伸引物B’，以产生衔接子的这些部分的互补序列(a’)和靶的互补序列(图1D，出于方便和清楚的目的，来自图1C的链被去除)。5’修饰的引物(A)被配置成在3’末端附近与衔接子部分的互补序列的单链部分(a’)杂交(图1E)。聚合酶可用以使用衔接子和靶的互补序列的部分作为模板延伸引物A，以产生衔接子的部分(b)和靶(图1F，出于方便和清楚的目的，来自图1E的链被去除)。

如果通过例如连接或加标签，添加的衔接子部分在用于引物(A、B’)杂交的序列和靶(当衔接子的部分被附接至靶时)之间的位置处包含文库特异性索引标签序列，可以对来自不同文库的汇集的靶片段进行用引物(A、B’)的扩增(图1C-F)，条件是来自每个文库的每个片段在相似位置包括衔接子的具有文库特异性索引标签序列的部分并且来自每个文库的衔接子的每个部分具有引物(A、B’)可以杂交的序列(或互补序列)。否则，每个文库应当单独被扩增。

可对所得的5’受保护的模板(扩增的衔接子-靶-扩增的衔接子)进行3’封闭以产生5’和3’受保护的模板多核苷酸(图1G)以便固定在固体表面上用于测序。3’封闭可能影响存在于具有5’受保护的模板的溶液中的任何多核苷酸，包括任何其他扩增片段或剩余的多核苷酸(未示出)。因此，如果衔接子部分(ab)被引物(A、B)扩增，未附接至模板(未示出)的扩增的衔接子也应当被3’封闭。

可以任选地将外切核酸酶处理应用于所得的混合物。在将模板多核苷酸固定在固体表面上之前，可以将剩余的未封闭或未受保护的多核苷酸降解。

现在参考图2的示意图，其示出了衔接子(扩增的衔接子)100可以在扩增准备用于测序的文库期间使用或得到。所描绘的衔接子100包含双链区域110和非互补单链区域120。5’末端被修饰(以“*”指示)为防止被外切核酸酶降解，并且3’末端是封闭的(以“X”指示)。所描绘的衔接子100的一条链包含通用延伸引物序列130、索引标签序列132和测序引物序列134。描绘的衔接子100的另一条链包含通用延伸引物序列140、索引标签序列142和测序引物序列144。

通用延伸引物序列130、140可以与附接至固体表面的延伸引物寡核苷酸杂交，以便于扩增或测序目的(如果衔接子100被附接至靶多核苷酸)。通用延伸引物序列140或其一部分还可以与测序引物杂交以便对索引标签序列142测序。可选地，该链可以包含另外的测序引物序列(未示出)。

测序引物序列134可以与测序引物杂交以允许对索引标签序列132测序。索引标签序列142和索引标签序列132可以是相同的或不同的。

测序引物序列144可以与测序引物杂交以允许对靶多核苷酸序列(如果附接至衔接子100)测序。

如果衔接子在如上文描述的多步骤过程中被附接至靶，则测序引物序列134、144可以与例如PCR引物杂交。

将理解的是，用于在本文描述的多个实施方案中使用的合适的衔接子可以具有比关于图2描述的序列特征更多或更少的序列特征或除了那些序列特征以外的其他序列特征。

现在参考图3，示出了具有衔接子100-模板210-衔接子100序列的文库的模板多核苷酸200的示意图。模板多核苷酸210是双链的并且附接至第一衔接子100和第二衔接子101的双链部分。例如如上文描述的，模板多核苷酸200的3’末端被封闭，并且5’末端被修饰。

现在参考图4，示出了用于将模板多核苷酸200从文库簇扩增至固体表面300以准备用于测序的过程的示意性图示。在第一幅图中，具有修饰的5’末端和封闭的3’末端的模板多核苷酸200与附接至固体表面300的第一延伸引物310杂交。例如，图2中描绘的衔接子的通用延伸引物序列140部分可以与第一延伸引物310杂交。

第一延伸引物310包含游离3’末端，并且因此可以在合适的聚合酶的存在下使用模板多核苷酸200作为模板将核苷酸添加到3’末端，以产生附接至固体表面300的拷贝模板链201(参见第二幅图)。模板链200可以被去除，并且拷贝链201可以与附接至固体表面300的第二延伸引物320杂交(参见第三幅图)。例如，图2中描绘的衔接子的通用延伸引物序列130部分可以与第二延伸引物320杂交。

第二延伸引物320包含游离3’末端，并且因此可以在合适的聚合酶的存在下使用拷贝模板多核苷酸201作为模板将核苷酸添加到3’末端，以产生附接至固体表面300的扩增的模板链202(参见第四幅图)。可以进行另外的多轮扩增以产生拷贝模板链201和扩增的模板链202的簇。

出于图示的目的，图4的第五幅图描绘了呈线性形式的拷贝模板链201和扩增的模板链202。

现在参考图5，示出了图示封闭3’末端(以防止从封闭的3’末端延伸)如何可以减少索引跳跃的示意图。图5的前两幅图与图4的前两幅图相同。如图5的第三幅图中示出的，剩余的未掺入的(未附接至靶多核苷酸)的衔接子链104可以与拷贝模板链201的衔接子部分杂交(例如，杂交可以发生在衔接子的双链区域和模板多核苷酸的衔接子部分)。衔接子链104可以来自与拷贝模板链201所源自的文库不同的文库。因此，衔接子104可以具有不同于与拷贝模板链201缔合的索引标签序列的索引标签序列。因为衔接子的3’末端被封闭(由“X”指示)，衔接子104不能用作延伸和拷贝拷贝模板链201的有效引物。然而，如果允许延伸(并且未掺入的衔接子104的3’末端未被封闭)，将产生这样的拷贝，其中不正确的索引标签(来自第二文库的衔接子104的索引标签)将与来自另一个文库的靶多核苷酸(来自第一文库的模板多核苷酸201的靶多核苷酸)缔合。在随后一轮的扩增中，不正确编索引的多核苷酸可以附接至表面300。

现在参考图6，示出了图示去除未封闭的和未掺入的衔接子或衔接子链的外切核酸酶处理如何可以减少索引跳跃的示意图。图6的前两幅图与图4的前两幅图相同。如图6的左下图中示出的，可能从扩增中产生的(例如，如关于图1B-F描述的)、在3’封闭步骤(例如，如关于图1G描述的)期间未被封闭的衔接子链104可以与拷贝模板链201的衔接子部分杂交(例如，杂交可以发生在衔接子的双链区域和模板多核苷酸的衔接子部分)。衔接子链104可以来自与拷贝模板链201所源自的文库不同的文库。因此，衔接子链104可以具有不同于与拷贝模板链201缔合的索引标签序列的索引标签序列。衔接子链104可以用作延伸和拷贝拷贝模板链201的有效引物。将产生扩增的链，其中不正确的索引标签(来自第二文库的衔接子链104的索引标签)将与来自另一个文库的靶多核苷酸(来自第一文库的模板多核苷酸201的靶多核苷酸)缔合。在随后一轮的扩增中，不正确编索引的多核苷酸可以附接至表面300。然而，并且如图6的右下图中图示的，如果可能得到的未封闭的衔接子或衔接子链被外切核酸酶处理消化，衔接子链不可用作延伸引物，并且索引跳跃减少。

现在参考图7A和7B，图示了索引跳跃现象的性质。图7A示出了来自给定样品的读段如何被不正确地去多重化并且在去多重化之后与不同的样品混合。图7B展示了双索引系统中的索引跳跃，其中索引跳跃导致预期不到的索引标签序列的组合。

现在参考图8A和8B，图示了测量给定系统中的索引跳跃率的一般方法。图8A示出了双衔接子板的示例性布局，其中96孔板的每个单独孔包含独特的一对索引标签序列(12种不同的P7索引与8种不同的P5索引组合)。图8B示出了旨在测量索引跳跃率的实验设置，其中使用了8个独特双索引标签组合(即没有P5索引被预期与多于一种P7索引配对，并且反之亦然)。然后则容易地将未预期的索引标签的组合(例如D505-D703)鉴定为索引跳跃的实例。

现在参考图9A和9B，图示了未连接的衔接子对索引跳跃率的影响。图9A示出了与游离衔接子的50％掺入相关的索引跳跃的6倍增加。图9B示出了在测试范围内游离分叉形衔接子对索引跳跃率大致呈线性的影响。本发明人还观察到，游离单链P7衔接子与游离单链P5衔接子相比对索引跳跃率的影响更明显(数据未示出)。

实施例

实施例1：对5’受保护的编索引的文库进行3’封闭的示例方案

该方案解释了如何对5’受保护的DNA文库进行3’封闭处理，以减少索引跳跃。该方法被设计成对DNA文库池进行，然后使用Illumina4000以及相似的测序平台(使用图案化流动池和基于ExAmp的簇集)(例如，

X和

)进行变性步骤和随后的簇产生。

已观察到索引跳跃发生在不正确的索引序列被分配到插入序列而导致样品错误分配时。在

4000上运行前，对DNA样品池进行这种处理，应将索引跳跃水平降低一定水平，该水平在现阶段无法被一致地预测。

处理工作流程可以被认为包括四个步骤：(i)产生DNA样品池；(ii)进行处理，(iii)清理样品并且定量；和(iv)簇集样品池和对样品池测序。

消耗品/设备：消耗品和设备可以由测序使用者或制造商提供。使用者提供的消耗品可包括DNA文库样品池—30μl，处于待用于簇集期间变性的浓度。使用者还可以提供新制备的80％乙醇(EtOH)。

下文表1说明了可能使用的一些消耗品和设备。

表1：消耗品和设备

测序制造商可以提供BMX(封闭混合物)、EMX(外切核酸酶混合物)、RSB(重悬浮缓冲液)和SPB(样品纯化珠)。

EMX可以包括外切核酸酶缓冲液(67mM甘氨酸-KOH、2.5mM MgCl₂、50μg/ml BSA)和λ外切核酸酶(New England Biolabs,Cat#M0262S/L)。

BMX可以包括测序预混合物(Tris缓冲液、氯化钠、蔗糖、硫酸镁、EDTA和Tween20)、ddNTP混合物、Pol19 DNA聚合酶和TdT末端转移酶。

RSB可以包括Tris缓冲液，pH 8.5。

SPB可以包括

XP珠(Beckman Coulter,Cat#A63880)。SPB应在每次使用前涡旋振荡。SPB应经常涡旋以确保珠均匀分布。由于溶液的粘性，应缓慢地抽吸和分散SPB。

一些消耗品应当如下文表2指示地储存和制备。

表2：消耗品的储存和制备

以下EMX程序可以保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)37℃持续30min；(iii)75℃持续10min；和(iv)保持在4℃。

以下BMX程序可以被保存在热循环仪上：(i)选择预热盖选项，并且设置为100℃；(ii)38℃持续20min；(iii)60℃持续20min；和(iv)保持在4℃。

对于3’封闭处理，样品可如下处理：(i)将BMX以600×g离心5秒钟；(ii)将30μl的5’受保护的DNA文库样品池添加到PCR管；(iii)将30μl BMX添加到每支PCR管中的每个样品并且然后通过上下吸打彻底混合；(iv)通过放置在热循环仪上并且运行BMX程序孵育。每个管包含60μl。

对于3’封闭加外切核酸酶处理，样品可如下处理：(i)将EMX以600×g离心5秒钟；(ii)将27μl的5’受保护的DNA文库样品池添加到PCR管；(iii)将5μl EMX添加到每支PCR管中的每个样品并且然后通过上下吸打彻底混合；(iv)通过放置在热循环仪上并且运行EMX程序孵育；(v)将BMX以600×g离心5秒钟；(vi)将32μl BMX直接添加到每支PCR管中的每种外切核酸酶反应物并且然后通过上下吸打彻底混合；和(vii)通过放置在热循环仪上并且运行BMX程序孵育。每个管包含64μl。

处理的汇集的样品可如下清理：(1)涡旋振荡SPB直到充分分散；(2)将60μl SPB添加到每个样品处理管并且通过上下吸打彻底混合；(3)在室温孵育5分钟；(4)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(5)从每个管取出并且弃去所有上清液；(6)如下洗涤2次：(a)将200μl新制备的80％EtOH添加到每个管，(b)在磁性支架上孵育30秒，和(c)从每个管取出并且弃去所有上清液；(7)使用20μl移液器从每个管去除剩余的EtOH；(8)在磁力架上风干5分钟；(9)将22.5μl RSB添加到每个管；(10)从磁性架取下并且然后通过上下吸打彻底混合；(11)在室温孵育2分钟；(12)放置在磁力架上并且等待液体澄清(2分钟-5分钟)；(13)将20μl上清液转移到新管；(14)如果需要，对文库定量并且进行标准簇集，以用于以NaOH变性步骤开始的4000平台；和(15)如果没有立即簇集，则储存在-25℃至-15℃。

实施例2：通过对5’受保护的编索引的文库进行3’封闭减少索引跳跃

可与以下材料、设备和方法组合应用上文实施例1中阐述的处理方案，以便于簇集和在在Illumina平台上测序。

实验条件：(1)使用以300pM上样的5’保护的P5引物和P7引物产生的人类450bpNA12878(Coriell Institute)

纳米文库；(2)根据制造商的说明的

X仪器和Illumina SBS化学；(3)550nm ILS v3流动池；(4)如先前描述的ExAmp扩增；和(5)50％衔接子掺入：来自Illumina双衔接子板(DAP)的游离分叉形衔接子掺入到模板文库中，然后变性、中和、添加ExAmp混合物和簇集。

该实验的结果总结在下文表3和图10中。

表3：通过具有3’封闭的PCR保护减少索引跳跃

文库	％索引跳跃
		标准衔接子	2.4
5’、3’受保护的衔接子	0.03
		受保护的衔接子+外切核酸酶	0.023

如上文说明的，通过使用如本文描述的5’受保护的和3’封闭的衔接子，索引跳跃相对于标准衔接子显著减少。任选的外切核酸酶处理可进一步减少索引跳跃。

本文中引用的任何专利、专利申请(无论是否公开)或其他文献在其不与本文中展示的公开内容相冲突的程度上在此分别全部或部分地并入本文。

除了本申请中已经引用的文件之外，在此参考三个临时专利申请(于2017年4月23日提交的美国临时申请第62/488,824号、第62/488,825号和第62/488,830号)，它们与本申请要求优先权的临时申请在同一天提交，名称同为“Compositions and methods forimproving sample identification in indexed nucleic acid libraries”。这些申请的全部内容也通过引用并入本文。

对本领域的技术人员将明显的是，可以对本发明的技术作出不脱离本发明的精神和范围的多种修改和变化。因为本领域技术人员可以想到体现本发明的技术的精神和实质的对所公开的实施方案的修改、组合、子组合和变化，所以本发明的技术应当被理解为包括在所附权利要求书范围内的所有方案及其等同方案。

Claims

1.一种方法，所述方法包括：

提供第一文库，所述第一文库包含具有第一衔接子-靶-第一衔接子序列的第一多于一个多核苷酸，其中所述第一多于一个多核苷酸的多核苷酸在包含所述靶和在所述靶的两个末端的所述第一衔接子的至少一部分的区域是双链的；

提供第一引物寡核苷酸，所述第一引物寡核苷酸被配置为在所述第一衔接子的链的3’末端附近与所述第一衔接子的一部分杂交，其中所述第一引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化；

提供第二引物寡核苷酸，所述第二引物寡核苷酸被配置为在所述第一衔接子的互补链的3’末端附近与所述第一衔接子的一部分的所述互补序列杂交，其中所述第二引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化；

将所述第一文库与所述第一引物寡核苷酸和所述第二引物寡核苷酸在适于扩增所述具有第一衔接子-靶-第一衔接子序列的多核苷酸的条件下在溶液中孵育，以产生具有被修饰以防止被具有5’外切核酸酶活性的酶消化的5’末端的扩增的第一文库多核苷酸，其中扩增的多核苷酸具有扩增的第一衔接子-靶-扩增的第一衔接子序列，并且其中所述扩增的第一衔接子序列包含第一文库特异性序列；

修饰所述扩增的第一文库多核苷酸的3’末端，以防止(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到所述3’末端，从而产生具有修饰的5’末端和3’末端的受保护的第一文库多核苷酸。

2.根据权利要求1所述的方法，其中修饰所述扩增的第一文库多核苷酸的3’末端包括在所述多核苷酸的3’末端处掺入双脱氧核苷酸。

3.根据权利要求1或权利要求2所述的方法，其中所述扩增的第一文库多核苷酸的5’末端包含硫代磷酸酯键。

4.根据权利要求1或权利要求2所述的方法，其中所述扩增的第一文库多核苷酸的5’末端包含三个硫代磷酸酯键。

5.根据权利要求1至4中任一项所述的方法，所述方法还包括将具有修饰的3’末端的所述受保护的第一文库多核苷酸与一种或更多种具有5’外切核酸酶活性和3’外切核酸酶活性的酶孵育。

6.根据权利要求1至5中任一项所述的方法，所述方法还包括：

提供基底，所述基底具有包含多于一个附接的寡核苷酸的表面，所述寡核苷酸具有游离3’末端；和

将所述基底的所述表面与包含具有修饰的3’末端的所述受保护的第一文库多核苷酸的组合物在允许所述受保护的第一文库多核苷酸的第一衔接子的链的一部分与附接至所述基底的所述表面的寡核苷酸的至少一部分杂交的条件下接触。

7.根据权利要求6所述的方法，所述方法还包括通过掺入与具有所述修饰的3’末端的、与所述附接的寡核苷酸杂交的所述受保护的第一文库多核苷酸的序列互补的核苷酸使附接至所述基底的所述表面的寡核苷酸从所述游离的3’末端延伸，以产生杂交的多核苷酸的拷贝使得所述拷贝被附接至所述基底的所述表面。

8.根据权利要求7所述的方法，所述方法还包括扩增附接至所述基底的所述表面的所述拷贝。

9.根据权利要求1至7中任一项所述的方法，所述方法还包括：

提供第二文库，所述第二文库包含具有第二衔接子-靶-第二衔接子序列的多于一个多核苷酸，其中所述第二多于一个多核苷酸的多核苷酸在包含所述靶和所述靶的两个末端的所述第二衔接子的至少一部分的区域是双链的；

提供第三引物寡核苷酸，所述第三引物寡核苷酸被配置为在所述第二衔接子的链的3’末端附近与所述第一衔接子的一部分杂交，其中所述第三引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化；

提供第四引物寡核苷酸，所述第四引物寡核苷酸被配置为在所述第二衔接子的互补链的3’末端附近与所述第二衔接子的一部分的互补序列杂交，其中所述第四引物寡核苷酸的5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化；

将所述第二文库与所述第三引物寡核苷酸和所述第四引物寡核苷酸在适于扩增具有第二衔接子-靶-第二衔接子序列的多核苷酸的条件下在溶液中孵育，以产生具有被修饰以防止被具有5’外切核酸酶活性的酶消化的5’末端的扩增的第二文库多核苷酸，其中扩增的多核苷酸具有扩增的第二衔接子-靶-扩增的第二衔接子序列，并且其中所述扩增的第二衔接子序列包含第二文库特异性序列；

修饰所述扩增的第二文库多核苷酸的3’末端，以防止(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到所述3’末端，从而产生具有修饰的5’末端和3’末端的受保护的第二文库多核苷酸。

10.根据权利要求9所述的方法，其中修饰所述扩增的第二文库多核苷酸的3’末端包括在所述多核苷酸的3’末端处掺入双脱氧核苷酸。

11.根据权利要求9或权利要求10所述的方法，其中所述扩增的第二文库多核苷酸的5’末端包含硫代磷酸酯键。

12.根据权利要求9或权利要求10所述的方法，其中所述扩增的第二文库多核苷酸的5’末端包含三个硫代磷酸酯键。

13.根据权利要求9至12中任一项所述的方法，所述方法还包括将具有修饰的3’末端的所述受保护的第二文库多核苷酸与一种或更多种具有5’外切核酸酶活性和3’外切核酸酶活性的酶孵育。

14.根据权利要求9至13中任一项所述的方法，所述方法还包括将所述基底的所述表面与包含具有修饰的3’末端的所述受保护的第二文库多核苷酸的组合物在允许所述受保护的第二文库多核苷酸的第二衔接子的链的一部分与附接至所述基底的所述表面的寡核苷酸的至少一部分杂交的条件下接触。

15.根据权利要求14所述的方法，所述方法还包括通过掺入与具有所述修饰的3’末端的、与所述附接的寡核苷酸杂交的所述受保护的第二文库多核苷酸的序列互补的核苷酸使附接至所述基底的表面的寡核苷酸从所述游离3’末端延伸，以产生杂交的多核苷酸的拷贝使得所述拷贝被附接至所述基底的所述表面。

16.根据权利要求15所述的方法，所述方法还包括扩增附接至所述基底的所述表面的所述拷贝。

17.根据权利要求1所述的方法，其中所述第一衔接子序列包含所述第一文库特异性序列。

18.根据权利要求17所述的方法，所述方法还包括：

提供第二文库，所述第二文库包含具有第二衔接子-靶-第二衔接子序列的多于一个多核苷酸，其中所述第二多于一个多核苷酸在包含所述靶和所述靶的任一个末端的所述第二衔接子的至少一部分的区域是双链的，其中所述第二衔接子包含第二文库特异性序列，

其中所述第一引物寡核苷酸被配置为在所述第二衔接子的链的3’末端附近与所述第二衔接子的一部分杂交，并且

其中所述第二引物寡核苷酸被配置为在所述第二衔接子的互补序列的链的3’末端附近与所述第二衔接子的一部分的互补序列杂交；和

将所述第二文库在所述溶液中与所述第一文库与所述第一引物寡核苷酸和所述第二引物寡核苷酸孵育，以扩增具有所述第二衔接子-靶-第二衔接子序列的多核苷酸，以产生具有被修饰以防止被具有5’外切核酸酶活性的酶消化的5’末端的扩增的第二文库多核苷酸，

其中修饰所述扩增的第一文库多核苷酸的3’末端还包括修饰所述扩增的第二文库多核苷酸，以防止(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到所述3’末端，从而产生具有修饰的5’末端和3’末端的受保护的第二文库多核苷酸。

19.根据权利要求1至19中任一项所述的方法，所述方法还包括将具有修饰的5’末端和3’末端的所述受保护的第一文库的组合物与外切核酸酶孵育。

20.一种为测序而制备的多核苷酸，所述多核苷酸包含

衔接子-靶-衔接子序列，

其中所述衔接子序列包含文库特异性序列，

其中所述多核苷酸在包含所述靶和所述靶的两个末端的所述衔接子的至少一部分的区域是双链的，并且

其中在所述衔接子序列的区域中的所述多核苷酸的5’末端和3’末端是单链的，

其中所述5’末端被修饰以防止被具有5’外切核酸酶活性的酶消化，并且

其中所述3’末端被修饰以抑制(i)或(ii)的一种或两种：(i)被具有3’外切核酸酶活性的酶消化，或(ii)被具有聚合酶活性的酶将核苷酸添加到所述3’末端。

21.一种组合物，所述组合物包含根据权利要求20所述的多核苷酸和外切核酸酶。