CN110036117A

CN110036117A - 通过多联短dna片段增加单分子测序的处理量的方法

Info

Publication number: CN110036117A
Application number: CN201780076550.3A
Authority: CN
Inventors: U.施莱希特; J.莫; A.苏
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2016-12-16
Filing date: 2017-04-04
Publication date: 2019-07-19
Anticipated expiration: 2037-04-04
Also published as: US20200010875A1; US20210363570A1; EP3555305A1; JP6925424B2; ES2866896T3; JP2020501554A; WO2018108328A1; EP3555305B1; CN110036117B; US20240352507A1

Abstract

本发明包括用于测序文库制备的新方法和组合物，其通过从短DNA分子库产生长的多联的模板来增加单分子测序（SMS）平台的处理量。

Description

通过多联短DNA片段增加单分子测序的处理量的方法

发明领域

本发明涉及核酸测序领域。更具体地，本发明涉及产生用于单分子测序的核酸文库的领域。

发明背景

单分子测序（SMS）平台，例如基于纳米孔（nanopore）的平台，使得碱基序列能够直接从个别DNA链实时读出。尽管能够有长的读段（read）长度，但与竞争的短读段测序平台相比，SMS平台目前有处理量低的缺点。同时，诸如肿瘤学和产前试验的许多测序应用固有地使用短的核酸片段，例如在母体血液或癌症患者的血液中以痕量存在的无细胞DNA（cfDNA）或循环肿瘤DNA（ctDNA）。（参见Newman，A.等人，（2014）An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage, NatureMedicine doi:10.1038/nm.3519。）需要一种使各种核酸靶适应于利用SMS平台的长读段长度的优点的方法。

发明概述

在一些实施方案中，本发明是一种从样品制备多联的靶核酸分子文库的方法，该方法包括：将具有至少一个双链区的第一衔接子附着到双链靶分子的每个末端；使样品与外切核酸酶接触以在靶分子的末端产生部分单链衔接子区；通过使所述靶分子的每条链上的部分单链衔接子区杂交以形成双链衔接子区并共价连接所述靶分子的链来连接至少两个靶分子，从而产生多联的靶分子；将第二衔接子附着到所述多联的分子上，所述衔接子包含条形码（barcode）、通用扩增引发位点和测序引发位点中的一个或多个，从而产生多联的靶核酸分子文库。第一衔接子可以通过用掺入衔接子序列的引物扩增靶核酸分子，或通过连接到靶核酸分子的末端来附着。外切核酸酶可具有5'-3'活性并且缺乏3'-5-活性。靶分子的连接可以包括聚合酶补平（fill-in），其中所述聚合酶可以缺乏3'-5'外切核酸酶活性。在一些实施方案中，靶分子的连接可包括连接步骤。在一些实施方案中，可以在附着第二衔接子的步骤之前纯化多联的产物。

在一些实施方案中，该方法进一步包括对多联的靶核酸分子文库进行测序的步骤。可以在测序之前通过大小分级分离多联的靶核酸分子。序列可以通过选自基于生物纳米孔的方法、基于固态纳米孔的方法和基于单分子实时（SMRT^®）的方法的方法获得。

在一些实施方案中，第一衔接子包含能够在两个末端连接的衔接子和能够在仅一个末端连接的衔接子的混合物。第一衔接子可包含离5'-末端至少约15个碱基的外切核酸酶抗性区。在一些实施方案中，外切核酸酶抗性区包含至少一个硫代磷酸酯核苷酸。在一些实施方案中，第二衔接子包含茎环结构。在一些实施方案中，第二衔接子由至少一个双链部分和至少一个单链环组成，它们一起形成发夹结构。

在一些实施方案中，在起始外切核酸酶处理之前扩增靶分子。在一些实施方案中，在连接第二衔接子之前扩增多联的分子。

在一些实施方案中，本发明是使用如下方法产生的多联的靶核酸分子文库，所述方法包括：将具有至少一个双链区的第一衔接子附着到双链靶分子的每个末端；使所述含有衔接子的双链靶分子与外切核酸酶接触以在所述靶分子的末端产生部分单链衔接子区；通过使所述靶分子的每条链上的部分单链衔接子区杂交以形成双链衔接子区并共价连接所述靶分子的链来连接至少两个靶分子，从而产生多联的靶分子；将第二衔接子附着到所述多联的分子上，所述衔接子包含条形码、通用扩增引发位点和测序引发位点中的一个或多个，从而产生多联的靶核酸分子文库。

在一些实施方案中，本发明是用于产生多联的靶核酸分子文库的试剂盒，其包括：具有至少一个双链区的第一衔接子，包含条形码、通用扩增引发位点和测序引发位点中的一个或多个的第二衔接子，外切核酸酶，核酸聚合酶和核酸连接酶。试剂盒可以进一步包括与第一衔接子序列互补的扩增引物，热稳定核酸聚合酶和至少四种脱氧核苷三磷酸的混合物。

在一些实施方案中，本发明是一种从样品制备多联的靶核酸分子文库的方法，该方法包括：将衔接子分子附着至双链靶核酸分子的至少一个末端，其中衔接子包含切点罕见限制性内切核酸酶识别位点，以形成衔接子连接的靶分子；用所述切点罕见限制性内切核酸酶消化所述衔接子连接的靶分子，以形成部分单链末端；通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的衔接子连接的靶分子，从而产生多联的靶分子。在一些实施方案中，通过用掺入所述切点罕见限制性内切核酸酶识别位点的引物扩增靶核酸分子来附着衔接子。在一些实施方案中，引物进一步包含靶特异性序列和分子条形码或随机序列和分子条形码。可以通过连接到靶核酸分子的末端来附着衔接子。切点罕见限制性内切核酸酶识别位点可以是10个或更多个碱基长。切点罕见限制性内切核酸酶是寻靶限制性内切核酸酶，例如，Sce I或VDE。

在一些实施方案中，在多联步骤之前纯化内切核酸酶消化的衔接子连接的靶分子。

在一些实施方案中，衔接子包含条形码序列。

在一些实施方案中，该方法进一步包括将第二衔接子附着至多联的分子的至少一个末端的步骤，该衔接子包含至少一个测序引物结合位点。在一些实施方案中，该方法进一步包括对多联的靶核酸分子文库进行测序的步骤。多联的靶核酸分子可以在测序之前通过大小分级分离，例如，通过添加沉淀剂。

序列通过选自基于生物纳米孔的方法、基于固态纳米孔的方法和基于单分子实时（SMRT^®）的方法的方法获得。

在一些实施方案中，本发明是一种从样品制备多联的靶核酸分子的方法，该方法包括：将衔接子分子附着至双链靶核酸分子的至少一个末端，其中衔接子包含切点罕见限制性内切核酸酶识别位点，以形成衔接子连接的靶分子；将引物与所述衔接子连接的靶分子的每条链杂交，其中所述引物包含切点罕见限制性内切核酸酶识别位点；延伸所述引物以从所述衔接子连接的靶分子的每条链形成在每个末端含有所述切点罕见限制性内切核酸酶识别位点的新分子，用所述切点罕见限制性内切核酸酶消化所述新分子，以形成部分单链末端；通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的新分子，从而产生多联的靶分子。引物可包含靶特异性序列和分子条形码。在一些实施方案中，该方法进一步包括扩增所述新分子的步骤。在一些实施方案中，该方法进一步包括如下步骤，即，将第二衔接子附着至所述多联的分子的至少一个末端，该衔接子包含至少一个测序引物结合位点，并对所述多联的靶核酸分子进行测序。

在一些实施方案中，本发明是使用如下方法产生的多联的靶核酸分子文库，所述方法包括：将衔接子分子附着至双链靶核酸分子的至少一个末端，其中衔接子包含切点罕见限制性内切核酸酶识别位点，以形成衔接子连接的靶分子；用所述切点罕见限制性内切核酸酶消化所述衔接子连接的靶分子，以形成部分单链末端；通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的衔接子连接的靶分子，从而产生多联的靶分子。

在一些实施方案中，本发明是用于产生多联的靶核酸分子文库的试剂盒，其包括：包含切点罕见限制性内切核酸酶识别位点和分子条形码的衔接子，包含通用引发位点的第二衔接子，切点罕见限制性内切核酸酶和核酸连接酶。试剂盒可以进一步包括与通用引发位点互补的引物，热稳定核酸聚合酶和至少四种脱氧核苷三磷酸的混合物。

附图简述

图1（a）-（c）举例说明了将短DNA扩增子连接成长的多联体的方法。图1（a）是在PCR引物中具有衔接子的本发明多联方法的实施方案的图。图1（b）是显示多联体积累的凝胶电泳图像。图1（c）是显示多联的样品的环状共有序列读段大小的直方图。

图2（a）-（e）举例说明了本发明的方法使测序处理量增加到不止五倍。图2（a）是描绘不同序列特征的类型和取向的示例性序列读段的图。图2（b）是描绘在所有读段中鉴定的正向和反向互补取向的片段和接头数目的直方图。图2（c）是描绘每个大小箱（bin）中片段频率的直方图。图2（d）是描绘读段长度和该读段中鉴定的片段数目之间的关系的散点图。图2（e）是描绘穿过所有读段的每个读段所鉴定的片段数目频率的直方图。

图3（a）-（d）举例说明本发明方法正确鉴定了肿瘤学扩增子实验对象组中的单核苷酸变体（SNVs）。图3（a）是本发明中使用的示例性生物信息学分析流水线（pipeline）的图。图3（b）是显示了依据预期频率标绘的多联样品的重复实验中鉴定的输入DNA）中已知单核苷酸变体的等位基因频率（AFs）的比较的散点图。图3（c）是显示了依据在非多联样品中发现的频率标绘的多联样品的重复实验中鉴定的AFs的比较的散点图。图3（d）是比较非多联的和三个多联样品的重复实验中的扩增子覆盖度的条形图（bar plot）。

图4（a）-（c）举例说明了本发明方法对备择的靶富集工作流程的适应。图4（a）是本发明的多联方法的实施方案的图，其中靶分子准备好通过末端修复和A-加尾（ERAT）进行接头连接。图4（b）是显示多联体积累的凝胶电泳图像。图4（c）是描绘在多联体读段去多联（deconcatenation）后片段长度的频率的直方图。

图5（a）-（c）举例说明了在多联期间接头和靶序列如何装配。图5（a）显示了靶-衔接子组合的一种取向。图5（b）显示了靶-衔接子组合的另一种取向。图5（c）显示了5（a）和5（b）中所示的“多联单元”可以以两种不同的方式装配。

图6（a）-（c）举例说明了多联的靶序列的测序。图6（a）是显示多联体积累的凝胶电泳图像。图6（b）是低分子量DNA梯的电泳图。图6（c）是衔接子连接和衔接子连接的片段选择性扩增后的电泳图。图6（d）是比较来自LMW-多联体测序运行和具有接头连接的和PCR扩增的LMW的运行的测序片段的数目的散点图。

图7举例说明了具有衔接子连接的方法的变化。

图8举例说明了具有引物延伸的方法的变化。

图9举例说明了具有连接再加上引物延伸的方法的变化。

图10显示了受控大小多联实验的结果。

发明详述

在第一方面，本发明提供了一种从样品制备多联的靶核酸分子文库的方法，该方法包括：

a. 将具有至少一个双链区的第一衔接子附着到双链靶分子的每个末端；

b. 使样品与外切核酸酶接触以在靶分子的末端产生部分单链衔接子区；

c. 通过使所述靶分子的每条链上的部分单链衔接子区杂交以形成双链衔接子区并共价连接所述靶分子的链来连接至少两个靶分子，从而产生多联的靶分子；和

d. 将第二衔接子附着到所述多联的分子上，所述衔接子包含条形码、通用扩增引发位点和测序引发位点中的一个或多个，从而产生多联的靶核酸分子文库。

第一衔接子可以通过用掺入衔接子序列的引物扩增靶核酸分子，或通过连接到靶核酸分子的末端来附着。

步骤b中的外切核酸酶可具有5'-3'活性并且缺乏3'-5-活性。步骤c中的靶分子的连接包括聚合酶补平。然后，所述聚合酶可以缺乏3'-5'外切核酸酶活性。

步骤c中靶分子的连接可包括连接步骤。在附着第二衔接子的步骤之前纯化多联的产物。本发明的方法可进一步包括对多联的靶核酸分子文库进行测序的步骤。既然是这样，可以在测序之前通过大小分级分离多联的靶核酸分子。序列可以通过选自基于生物纳米孔的方法、基于固态纳米孔的方法和基于单分子实时（SMRT^®）的方法的方法获得。

第一衔接子可包含能够在两个末端连接的衔接子和能够在仅一个末端连接的衔接子的混合物。第一衔接子也可包含离5'-末端至少约15个碱基的外切核酸酶抗性区，其可以包含至少一个硫代磷酸酯核苷酸。第二衔接子可包含茎环结构，或可由至少一个双链部分和至少一个单链环组成，它们一起形成发夹结构。

权利要求1的方法，其中可以在步骤b中的外切核酸酶处理之前扩增靶分子。在步骤d中连接第二衔接子之前扩增多联的分子。

在第二方面，本发明提供了使用如下方法产生的多联的靶核酸分子文库，所述方法包括：

b. 使所述含有衔接子的双链靶分子与外切核酸酶接触以在所述靶分子的末端产生部分单链衔接子区；

c. 通过使所述靶分子的每条链上的部分单链衔接子区杂交以形成双链衔接子区并共价连接所述靶分子的链来连接至少两个靶分子，从而产生多联的靶分子；

在第三方面，本发明提供了用于产生多联的靶核酸分子文库的试剂盒，其包括：具有至少一个双链区的第一衔接子，包含条形码、通用扩增引发位点和测序引发位点中的一个或多个的第二衔接子，外切核酸酶，核酸聚合酶和核酸连接酶。试剂盒可以进一步包括与第一衔接子序列互补的扩增引物，热稳定核酸聚合酶和至少四种脱氧核苷三磷酸的混合物。

在第四方面，本发明提供了一种从样品制备多联的靶核酸分子文库的方法，该方法包括：

a. 将衔接子分子附着至双链靶核酸分子的至少一个末端，其中衔接子包含切点罕见限制性内切核酸酶识别位点，以形成衔接子连接的靶分子；

b. 用所述切点罕见限制性内切核酸酶消化所述衔接子连接的靶分子，以形成部分单链末端；

c. 通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的衔接子连接的靶分子，从而产生多联的靶分子。

可以通过用掺入所述切点罕见限制性内切核酸酶识别位点的引物扩增靶核酸分子来附着衔接子。引物可以进一步包含靶特异性序列和分子条形码。所述切点罕见限制性内切核酸酶识别位点可以是至少10个碱基长。切点罕见限制性内切核酸酶可以是寻靶限制性内切核酸酶，或者可以选自Sce I和VDE。在多联步骤之前纯化内切核酸酶消化的衔接子连接的靶分子。衔接子也可包含条形码序列。

所述方法可以进一步包括将第二衔接子附着至多联的分子的至少一个末端的步骤，该衔接子包含至少一个测序引物结合位点。然后，可以执行对多联的靶核酸分子文库进行测序的进一步步骤。如果情况是这样，那么所述多联的靶核酸分子可以在测序之前通过添加聚合物沉淀剂通过大小分级分离。

在第五方面，本发明提供了一种从样品制备多联的靶核酸分子的方法，该方法包括：

b. 将引物与所述衔接子连接的靶分子的每条链杂交，其中所述引物包含切点罕见限制性内切核酸酶识别位点；

c. 延伸所述引物以从所述衔接子连接的靶分子的每条链形成在每个末端含有所述切点罕见限制性内切核酸酶识别位点的新分子；

d. 用所述切点罕见限制性内切核酸酶消化所述新分子，以形成部分单链末端；

e. 通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的新分子，从而产生多联的靶分子。

引物可包含靶特异性序列且可进一步包含分子条形码。该方法可进一步包括在步骤c之后扩增所述新分子的步骤。该方法也可包括如下步骤，即，将第二衔接子附着至所述多联的分子的至少一个末端，该衔接子包含至少一个测序引物结合位点。如果情况是这样，那么可添加对所述多联的靶核酸分子进行测序的步骤。

在第六方面，本发明提供了使用如下方法产生的多联的靶核酸分子文库，所述方法包括：

在第七方面，本发明提供了用于产生多联的靶核酸分子文库的试剂盒，其包括：包含切点罕见限制性内切核酸酶识别位点和分子条形码的衔接子，包含通用引发位点的第二衔接子，切点罕见限制性内切核酸酶和核酸连接酶。

定义

以下定义帮助理解本公开内容。

术语“样品”是指含有或假定含有靶核酸的任何组合物。这包括从个体分离的组织或流体样品，例如皮肤、血浆、血清、脊髓液、淋巴液、滑液、尿、眼泪、血细胞、器官和肿瘤，以及从取自个别患者或取自模型生物的细胞确立的体外培养物的样品，包括福尔马林固定的石蜡包埋的组织（FFPET）和从中分离的核酸。样品也可以包括无细胞材料，例如含有无细胞DNA（cfDNA）或循环肿瘤DNA（ctDNA）的无细胞血液级分。

术语“核酸”是指核苷酸（例如，核糖核苷酸和脱氧核糖核苷酸，天然和非天然的两者）的聚合物，包括DNA、RNA及其亚类，例如cDNA、mRNA等。核酸可以是单链或双链的，并且将通常含有5'-3'磷酸二酯键，尽管在一些情况下，核苷酸类似物可以具有其他键。核酸可包含天然存在的碱基（腺苷、鸟苷、胞嘧啶、尿嘧啶和胸苷）以及非天然碱基。非天然碱基的一些实例包括在例如Seela等人，（1999）Helv. Chim. Acta 82:1640中描述的那些。非天然碱基可具有特定功能，例如，增加核酸双链体的稳定性、抑制核酸酶消化或阻断引物延伸或链聚合。

术语“多联体（concatemer）”和“多联体（concatenate）”可互换使用，并且是指通过共价连接较短核酸产生的长连续核酸分子。

术语“多核苷酸”和“寡核苷酸”可互换使用。多核苷酸是单链或双链核酸。寡核苷酸是有时用于描述较短多核苷酸的术语。寡核苷酸可包含至少6个核苷酸或约15-30个核苷酸。寡核苷酸通过本领域已知的任何合适的方法制备，例如，通过如Narang等人(1979)Meth. Enzymol. 68:90-99；Brown等人(1979) Meth. Enzymol. 68:109-151；Beaucage等人(1981) Tetrahedron Lett. 22:1859-1862；Matteucci等人(1981) J. Am. Chem. Soc.103:3185-3191所述的涉及直接化学合成的方法。

术语“引物”是指单链寡核苷酸，其与靶核酸中的序列（“引物结合位点”）杂交，并且能够在适合于这种合成的条件下充当沿着核酸的互补链合成的起始点。引物结合位点对于每个靶可以是独特的，或者可以添加到所有靶（“通用引发位点”或“通用引物结合位点”）。

术语“衔接子”或“接头”可互换使用，并且意指可以添加到另一序列以便将额外的性质导入该序列的核苷酸序列。衔接子一般是可以是单链或双链的寡核苷酸，或者可以具有单链部分和双链部分两者。衔接子可以包含诸如条形码和通用引物或探针位点的序列。

术语“连接”是指连接两个核酸链的缩合反应，其中一个分子的5'-磷酸基团与另一个分子的3'-羟基反应。连接一般是由连接酶或拓扑异构酶催化的酶促反应。连接可以连接两条单链以产生一个单链分子。连接也可以连接两条链，每条链都属于双链分子，从而连接两个双链分子。连接也可以将双链分子的两条链连接到另一个双链分子的两条链上，从而连接两个双链分子。连接也可以将双链分子内的链的两个末端连接，从而修复双链分子中的切口。

术语“条形码”是指可以被检测和鉴定的核酸序列。条形码可以掺入各种核酸中。条形码足够长，例如2、5、10个核苷酸，因此在样品中，掺入条形码的核酸可根据条形码区分或分组。

术语“多重标识符”和“MID”是指鉴定靶核酸来源的条形码（例如，核酸所来源的样品，当组合来自多个样品的核酸时其是需要的）。来自相同样品的所有或基本上所有靶核酸将共享相同的MID。可以将来自不同来源或样品的靶核酸混合并同时测序。使用MIDs，可以将序列读段分配给靶核酸所来源的个别样品。

术语“独特分子标识符”和“UID”是指鉴定与其附着的核酸的条形码。来自相同样品的所有或基本上所有靶核酸将具有不同的UIDs。源自相同原始靶核酸的所有或基本上所有后代（例如，扩增子）将共享相同的UID。

术语“通用引物”和“通用引发结合位点”或“通用引发位点”是指存在于（一般，体外添加到）不同靶核酸中的引物和引物结合位点。例如，通用引发位点可以包含在与多个靶核酸连接的衔接子中。通用引发位点也可以是靶特异性（非通用的）引物的一部分，例如通过添加到靶特异性引物的5'-末端。通用引物可以结合并指导从通用引发位点的引物延伸。

如本文所用的，术语“靶序列”、“靶核酸”或“靶”是指待检测或分析的样品中核酸序列的一部分。术语靶包括靶序列的所有变体，例如，一种或多种突变型变体和野生型变体。

术语“测序”是指测定靶核酸中核苷酸序列的任何方法。

在过去十年的过程中，DNA测序成本以超过摩尔定律的速度显著下降。虽然我们正在快速接近整个人类基因组测序成本低于1,000美元的时代，但由于用于样品制备和测序的试剂成本、信息学基础结构、时间，破译大量复杂基因组仍然是不可行的。为此，近年来已经开发了多种“靶富集”方法，其选择性地富集包含感兴趣的信息的基因组部分。这些策略提供了降低测序成本、增加测序深度、缩短测序时间和简化数据分析的有效方式，并且它们被广泛用于检测可导致人类疾病的基因组变体。最流行的富集方法有多重PCR、分子倒置探针（molecular inversion probes）和杂交捕获。这些靶富集方法一般产生包含短DNA分子（100-300 bp）的测序文库，其理想地适合于短读段测序平台，例如由MiSeq和HiSeq系统例示的基于阵列的聚簇生成方法，其具有配对的末端读段。（Illumina，San Diego，Cal.）然而，诸如基于单分子实时（SMRT^®）和纳米孔的测序的备择测序平台正在获得吸引力。

例如，单分子实时（SMRT^®）技术（Pacific BioSciences，Menlo Park，Cal.）使用包含靶核酸的两条链的环状模板，其中DNA聚合酶可通过穿过两条链的多次通过产生比多个千碱基更长的读段。来自这些多次通过的信息减轻了每次通过的相对高的错误率，并且用于以高准确度生成环状共有序列（CCS）读段。基于纳米孔的测序涉及通过短接头与膜包埋的纳米孔蛋白偶联的单个DNA聚合酶。添加模板和四个独特标记的核苷酸以起始DNA合成。在三元复合物形成期间，聚合酶与互补标记的核苷酸结合；然后在孔中捕获对该核苷酸特异的标记物。每个标记物都设计为具有不同的大小、质量或电荷，以便它们生成特征性的电流阻断特征，从而唯一地鉴定所添加的碱基。参见Stranges等人，（2016）Design and characterization of a nanopore-coupled polymerase for single-molecule DNA sequencing by synthesis on an electrode array. PNAS 113(44):E6749。

长读段技术，例如基于SMRT^®和纳米孔的方法，致力于用于从头基因组装配的短读段测序仪、复杂结构变异的检测和基因组中扩展的重复区域的表征的当前限制。

然而，这些长读段技术目前有低测序处理量的缺点。在一些目前可用的系统上，每次运行产生的读段的数目一般数以万计。预计新一代仪器将测序处理量提高到约7倍，与短读段测序仪相比，其将仍然处于显著更低的处理量。考虑到涉及短DNA分子的测序应用，例如无细胞DNA（cfDNA），包括循环肿瘤DNA（ctDNA）或从福尔马林固定的石蜡包埋的组织（FFPET）提取的DNA，这提出了挑战。新的样品制备策略可以增加单分子测序仪的处理量，其中短DNA片段被多联成长DNA模板。此外，这种方法将增加这些平台以有成本效益的方式对长和短DNA分子两者进行测序的通用性。

近年来，合成生物学界已经开发了各种分子生物学方法，以为了基因组工程和高附加值生物分子（例如药物和生物燃料）的生产起见将DNA片段多联成基因或基因簇。例如，Gibson Assembly是利用三种酶的方法：5'外切核酸酶、DNA聚合酶和DNA连接酶，以在简单的一锅法（one-pot）等温反应中将DNA片段与互补末端共价连接（参见美国专利No. 8,968,999）。在大多数Gibson Assembly应用中，将多联的片段克隆到载体中，并接着通过细菌传代以进行所期望的构建体的序列验证。

在一个实施方案中，本发明是产生用于测序的多联的核酸文库的方法。图1（a）和图4（a）描绘了根据本发明的方法的实例。

本发明包括从样品产生靶核酸文库用于核酸测序。可以使用本文所述的方法和组合物将多个核酸（包括样品中的所有核酸）转化为文库分子。在一些实施方案中，样品来源于主体或患者。在一些实施方案中，样品可包括来源于主体或患者的实体组织或实体瘤的片段，例如通过活组织检查。样品也可包括体液（例如，尿、痰、血清、血浆或淋巴、唾液、痰、汗、眼泪、脑脊液、羊膜液、滑液、心包液（pericardial fluid）、腹膜液、胸膜液（pleuralfluid）、囊液（cystic fluid）、胆汁、胃液（gastric fluid）、肠液（intestinal fluid）或粪便样品）。样品可包括全血或血液级分，在那里可存在正常细胞或肿瘤细胞。在一些实施方案中，样品，尤其是液体样品，可包括无细胞材料，例如无细胞DNA或RNA，包括无细胞肿瘤DNA或肿瘤RNA。在一些实施方案中，样品是无细胞样品，例如，无细胞血液衍生的样品，在那里存在无细胞肿瘤DNA或肿瘤RNA。在其他实施方案中，样品是培养的样品，例如，含有或怀疑含有来源于培养物中的细胞或来源于培养物中存在的传染剂的核酸的培养物或培养物上清液。在一些实施方案中，传染剂是细菌、原生动物、病毒或支原体。样品也可以是含有或怀疑含有来自生物的核酸的环境样品。

靶核酸是可以存在于样品中的感兴趣的核酸。在一些实施方案中，靶核酸是基因或基因片段。在一些实施方案中，所有基因、基因片段和基因间区（整个基因组）构成靶核酸。在一些实施方案中，仅基因组的一部分，例如，仅基因组的编码区（外显子组（exome））构成靶核酸。在一些实施方案中，靶核酸含有遗传性变型的基因座，例如，多态性，包括单核苷酸多态性或变体（SNV的SNP），或导致例如基因融合的遗传重排。在一些实施方案中，靶核酸包含生物标志，即，其变体与疾病或状况有关的基因。在其他实施方案中，靶核酸是特定生物特有的，并且帮助鉴定生物或病原生物的特征，例如药物敏感性或抗药性。在再其他实施方案中，靶核酸是人主体特有的，例如，定义主体独特的HLA或KIR基因型的HLA或KIR序列。

在本发明的实施方案中，将一种或多种靶核酸转化为本发明的模板构型。在一些实施方案中，靶核酸在自然界中以单链形式存在（例如，RNA，包括mRNA、微小RNA、病毒RNA；或单链病毒DNA）。在其他实施方案中，靶核酸在自然界中以双链形式存在。本领域技术人员将认识到，本发明的方法具有多个实施方案。可以将单链靶核酸转化为双链形式，且然后经受图1所示的步骤。较长的靶核酸可以通过序列特异性方法（限制酶）或非特异性方法（超声处理）来片段化，尽管在一些应用中可能期望更长的靶核酸以实现更长的读段。在一些实施方案中，靶核酸是天然片段化的，例如，循环的无细胞DNA（cfDNA），或化学降解的DNA，例如在化学保存或归档的样品中发现的DNA。

在第一步中，提供多个双链DNA分子。在一些实施方案中，双链DNA分子可以是分离的基因组DNA或复杂性降低的基因组DNA（例如，扩增的基因组的选择的区域或捕获的基因组的选择的区域，例如外显子组）。在一些实施方案中，双链DNA是RNA的逆转录或将单链核酸复制成双链核酸的其他方式的结果。

在下一步中，双链DNA分子在每个末端附着到第一个衔接子。

在一个实施方案中，衔接子含有限制酶识别序列。优选衔接子含有在基因组中稀少存在的切点罕见识别序列。在一些实施方案中，识别序列为10个或更多个碱基长。在一些实施方案中，识别序列是非回文的，从而保证限制酶切消化片段的定向连接。许多这样的酶是本领域已知的。参见Bhagwat，A.，（1992）Restriction enzymes: Properties and use，Methods in Enzymology 216：199。在一些实施方案中，限制性内切核酸酶是寻靶内含子编码的内切核酸酶，例如Sce I或VDE。这些内切核酸酶具有极其长的识别序列（最多到18个碱基对），其在哺乳动物基因组中不太可能存在不止一次，且进一步地，这些内切核酸酶产生不对称切割，从而保证片段的定向连接，参见Jasin，M.（1996）Genetic manipulation of genomes with rare-cutting endonucleases, Trends in Genetics 12:224。

在一些实施方案中，模板DNA分子在每个末端与衔接子连接，并在两侧具有限制酶识别序列。在限制酶消化后，可以将多个模板DNA分子连接在一起。（图1）。衔接子可包含额外的序列，包括分子条形码和通用引物位点。在一些实施方案中，将衔接子进行设计以具有最佳长度和GC含量。在一些实施方案中，使用约10、15、20、30或40-bp长的衔接子。在一些实施方案中，衔接子序列的GC含量为约30％、40％或50％。

在一些实施方案中，衔接子通过延伸引物附着，所述引物包含靶特异性部分和衔接子部分。在一些实施方案中，引物用于进行引物延伸或DNA扩增（例如，PCR），在那里引物延伸产物或扩增子含有衔接子序列。在一些实施方案中，进行单轮引物延伸或扩增。在其他实施方案中，第一轮引物延伸或扩增使用包含靶特异性部分和通用引物结合位点的引物。第二轮引物延伸或扩增使用包含衔接子序列的通用引物。

在一些实施方案中，将衔接子连接至双链靶核酸。衔接子包含至少一个可连接的双链部分。靶核酸包含适合于连接的末端或经酶促处理以获得这种末端。在一些实施方案中，靶核酸的末端被“抛光（polished）”，即，用核酸聚合酶延伸以保证双链末端。在一些实施方案中，靶核酸的5'-末端被磷酸化。在一些实施方案中，连接是平端连接。在一些实施方案中，连接是粘性末端连接。靶核酸的3'-末端用单个核苷酸（例如，A）延伸，并且衔接子被人工改造以在3'-末端含有互补突出端（例如，T）。

在一些实施方案中，限制酶识别序列通过延伸引物附着，所述引物包含靶特异性部分和限制酶识别序列。（图8）。在一些实施方案中，使用杂交方法。设计双链衔接子以在所期望的取向具有（harbor）限制酶识别序列。将衔接子连接到DNA片段的两个末端（图9）。在衔接子连接后，将靶特异性延伸引物用于每条链（（+）或（-）链），并且具有链特异性ID（SID）和在所期望的取向的限制酶识别序列两者。引物与一条链杂交，或者两个引物分别与衔接子连接的靶分子的每条链杂交。靶特异性引物和与衔接子中存在的引物结合位点杂交的引物使得能够进行扩增，例如，通过从样品中仅PCR所期望的靶分子。扩增产物包含相对于限制酶识别序列在所期望的取向的靶DNA片段。

引入限制性内切核酸酶以消化衔接子连接的分子或引物延伸产物的末端。消化产生具有部分单链末端的不对称分子，其可以仅在某一取向连接。

在下一步中，将衔接子连接的靶分子连接以形成多联体。在一些实施方案中，至少两个、至少三个和最多到五个、十个或更多个靶分子在多联体中连接。这个策略使得能够产生多联体，其中每个单元都具有期望的取向，从而促进多联体内每个靶分子中的序列信息的下游鉴定和去褶合（deconvolution）。例如，UIDs的使用允许鉴定来源于相同原始序列的分子，因此可以获得分子的共有序列。这种方法在整理来自短DNA片段的信息方面具有更广泛的应用，所述短DNA片段代表用以检测与癌症有关的变体的临床衍生材料。

在一些实施方案中，较短核酸的库（连接在一起）由仅仅一个特定物类组成，且因此产生的“多联体（concatemers）”或“多联体（concatenates）”包含相同短核酸分子的多重拷贝。在一些实施方案中，较短核酸的库（连接在一起）由多种不同的核酸物类组成，且因此产生的“多联体（concatemers）”或“多联体（concatenates）”由不同的短核酸分子（其在一些情况下可以以多个拷贝存在）组成。在一些实施方案中，在将它们连接到多联体中之前，已经通过靶富集方法（例如，但不限于，杂交捕获、多重PCR、分子倒置探针（MIP）技术）预选较短核酸库。在一些实施方案中，短核酸库不对于具体靶区域进行富集，并且代表样品中的整个核酸分子群体（例如基因组DNA或无细胞DNA）。

在一些实施方案中，多联以随机方式发生；新单元可以添加到不断增长的多联体的两个末端。单体越来越被消耗，并且产生更高程度的多联体（例如二聚体、三聚体、四聚体等，统称为n-聚体）。在图1（b）所举例说明的实施方案中，观察到的n-聚体的长度几乎完全是预期的大小。

在一些实施方案中，连接步骤涉及独立的分子的互补或至少部分互补的单链末端的产生和杂交。在一些实施方案中，通过使衔接子连接的靶核酸分子与具有5'-3'-活性的外切核酸酶接触来产生互补或至少部分互补的单链末端。在一些实施方案中，外切核酸酶缺乏可检测的3'-5'活性。在一些实施方案中，外切核酸酶选自外切核酸酶T5、外切核酸酶T7、λ外切核酸酶、外切核酸酶VIII截短的及其混合物。

在一些实施方案中，连接步骤利用DNA聚合酶以补平通过独立的分子的互补或至少部分互补的单链末端的杂交形成的结构中的缺口。在一些实施方案中，DNA聚合酶缺乏可检测的3'-外切核酸酶活性。在一些实施方案中，DNA聚合酶是热稳定的。在一些实施方案中，DNA聚合酶选自Taq聚合酶、AmpliTaq聚合酶和AmpliTaq Gold^®聚合酶。

在一些实施方案中，连接步骤利用DNA连接酶以密封由DNA聚合酶延伸的链。在一些实施方案中，DNA连接酶是热稳定的。在一些实施方案中，DNA连接酶选自T4 DNA连接酶、T3 DNA连接酶及其混合物。

在一些实施方案中，通过大小分级分离多联的靶分子，并选择优选的大小用于进一步分析。在一些实施方案中，通过磁珠捕获，例如在有群集剂的情况下的磁珠捕获（固相可逆固定化（SPRI）技术），制备型凝胶电泳，包括脉冲场凝胶电泳，进行分级分离以富集更大片段（更大级多联体）。

在一些实施方案中，本发明包括控制在多联反应期间产生的多联体的最大长度的手段。在一些实施方案中，通过使用在两个末端可连接的衔接子和仅在一个末端可连接的“有毒”衔接子的混合物来限制多联。掺加合适的（一般小得多的）浓度的“有毒”衔接子将结果产生不再能通过进一步连接而延长的加帽的多联体。在一些实施方案中，“有毒”衔接子包含可连接的双链末端和不可连接的闭环发夹末端。在一些实施方案中，“有毒”衔接子包含可连接的磷酸化末端和不可连接的非磷酸化末端。在一些实施方案中，“有毒”衔接子是用于方法的测序步骤的第二衔接子（下面进一步详细描述）。在再另一个实施方案中，通过将具有碱性磷酸酶活性的酶引入反应中以限制可用于连接的衔接子的磷酸化末端的数目，来控制多联体的长度。

在再其他实施方案中，多联体的大小由大小依赖性沉淀控制。例如，在有聚合物沉淀剂的情况下温育连接反应。在一些实施方案中，沉淀剂是聚乙二醇（PEG），例如，PEG2000、4000、6000或8000，其浓度已知沉淀超过所期望的大小的DNA。在一些实施方案中，沉淀发生在固体支持体上并且可以通过添加剂（例如，阳离子如Mg²⁺）来控制或增强。在一些实施方案中，当多联体达到一定大小时，添加MgCl₂（例如，浓度为5mM、10mM、20mM或更高驱动多联体沉淀到固体支持体上。

在下一步中，多联的靶分子与第二衔接子连接。在一些实施方案中，第二衔接子使得衔接子连接的多联的靶分子能够测序。在一些实施方案中，第二衔接子含有特定测序平台所需的元件，例如，测序引物结合位点。在一些实施方案中，衔接子是发夹衔接子，其包含双链茎部分和单链环部分，如例如美国专利No. 8455193中所述的。

在一些实施方案中，衔接子包含一个或多个条形码。条形码可以是用于鉴定在混合样品（多重化）场合的样品来源的多重样品ID（MID）。条形码还可以充当用于鉴定每个原始分子及其后代的独特分子ID（UID）。条形码也可以是UID和MID的组合。在一些实施方案中，单个条形码用作UID和MID两者。另一种类型的条形码是进行设计以标记靶分子的每条链（例如，（+）和（-）链）的链条形码（SID）。

在一些实施方案中，每个条形码包含预定的序列。在其他实施方案中，条形码包含随机序列。条形码可以是1-20个核苷酸长。

在一些实施方案中，衔接子进一步包含用于至少一种通用引物的引物结合位点。引物结合位点是与引物互补的序列，引物可以与其结合并促进链延伸。

在一些实施方案中，衔接子具有不止一个，例如，两个引物结合位点。在一些实施方案中，一种引物用于扩增，例如，通过PCR（包括不对称PCR）、线性扩增或滚环复制（RCA）。

可以对衔接子连接的多联的靶核酸文库进行测序。通过本发明的方法产生的模板文库在能够具有长读段的单分子测序（SMS）技术中尤其有利。这种技术的例子包括利用SMRT^®技术的Pacific BioSciences平台（Pacific Biosciences，Menlo Park，Cal.）或利用纳米孔技术的平台，例如由Oxford Nanopore Technologies（Oxford，UK）或Roche Genia（Santa Clara，Cal.）制造的基于生物纳米孔的仪器，或例如在国际申请公开No. WO2016/142925和Stranges等人，（2016）Design and characterization of a nanopore-coupled polymerase for single-molecule DNA sequencing by synthesis on an electrode array. PNAS 113(44):E6749中描述的基于固态纳米孔的仪器，以及适合于长读段的任何其他目前存在的或将来的单分子测序技术。

在一些实施方案中，测序步骤涉及序列分析。序列分析可包括一级和二级分析。在一些实施方案中，一级分析包括由与测序仪器连接并将仪器收集的信号（例如，荧光或电子）转变为碱基调用的软件进行的分析。在一些实施方案中，对一级序列进行二级分析并包括序列比对。在一些实施方案中，二级分析进一步包括去多联。

在一些实施方案中，去多联包括考虑周到的步骤。在一些实施方案中，方法包括步骤，其中扫描窗口沿每个读段滑动并与预期的接头序列进行近似匹配。在一些实施方案中，取决于所用衔接子的长度，在衔接子序列匹配期间允许1、2、3、4或更多个错配，包括缺失和插入。在一些实施方案中，通过诸如BLAST的计算方法定位每个读段中的衔接子的位置。这些方法进一步包括在每个读段中生成接头和片段位置的清单的步骤。在一些实施方案中，在去多联后，将片段与基因组或亚基因组级分比对，例如来自靶基因组区域的序列清单。

在一些实施方案中，样品含有相似大小的靶核酸。例如，在一些实施方案中，靶核酸是从样品中分离和扩增的单个基因或基因区域。在其他实施方案中，靶核酸是相同长度的序列文库，例如，在人血液中发现的无细胞DNA，包括在母亲血液中发现的无细胞胎儿DNA。这种DNA平均为150 bp长。在一些实施方案中，可以计算预期大小的读段的数目或百分比。在其他实施方案中，可以计算多联体的平均长度。例如，表1中举例说明的计算证实，平均每个读段含有5.68个片段。

在一些实施方案中，与对非多联的片段库进行测序相比，本发明方法凭借着多联增加了测序处理量。例如，取决于多联程度，处理量可以增加到2、3、4、5或更多倍。

表1. PacBio测序运行概述

‘#’代表‘数目’；这排除了只有1 bp长的所有片段；这是片段#和总读段#的比率；这是总读段#的比对的读段的分数；

NC：非多联的库；C-1、2、3：多联的库，重复实验1、2、3；

本发明是一种制备测序文库的新方法“ConcatSeq和利用切点罕见限制酶的相关方法。“ConcatSeq”。与非多联的样品相比，该方法能够将单分子测序（SMS）平台的测序处理量提高到不止每次运行五倍。在一些实施方案中，可以观察到穿过所有测序读段检测到的平均片段数目为约5。在一些实施方案中，已经检测到长得多的多联体，其由最多到50个片段组成。在一些实施方案中，通过在测序之前将大小选择应用于文库来实现将测序处理量增加到远超过5倍的潜力。

在一些实施方案中，序列测定的准确度取决于从读出靶序列的若干拷贝获得的共有序列。例如，PacBio的SMRT^®技术的准确度取决于从穿过模板的两条链的多次通过确定的环状共有序列（CCS）读段。因此，存在对产生有用的测序信息的多联体长度的固有上限。例如，目前的统计数字显示PacBio的准确度在5次完整通过的情况下达到99％，且聚合酶读段的平均长度为10-15 kb，从而使得多联的测序文库的理想长度为2-4 kb。假定由靶富集工作流程产生的短片段一般为约200 bp，我们估计我们的方法可以进一步最优化，以将PacBio测序处理量提高到10-20倍。

为了控制在多联反应期间产生的多联体的最大长度，我们想像（除了上面列出的用于大小选择的策略之外）使用接头的掺加（spike-ins）的方法，其将在一个或两个末端对分子加帽。这种衔接子的非限制性实例是PacBio-特异性发夹接头。有毒的衔接子将阻止多联体进一步增长。这种“有毒”接头的起始浓度可用于控制最终文库的大小分布。

本文描述的实施例通过正确检测充分表征的DNA样品中的已知SNVs来举例说明本发明方法的确认。与原始库中已知等位基因频率和分子表现度的比较显示与非多联的样品非常高的一致，从而证实Gibson Assembly不显著增加错误率或取样偏差并确证了ConcatSeq的有效性（参见图3（c）和图3（d））。使用本文所述方法的序列测定的准确度可以通过仅包括“高质量”读段（例如，在至少5次通过情况下的CCS读段）和/或通过平衡PCR反应以保证每个扩增子的等摩尔表现度来进一步改善。虽然本文描述的实例集中在具有非常短片段（长度为80-220 bp）的肿瘤学靶实验对象组上，但使用LMW梯的实验（图5（a）-（c））证实ConcatSeq适用于多联长得多的片段，且因此可以应用于其他研究领域。

本发明的方法可以容易地应用于各种靶富集工作流程，如通过多重PCR所证实的，以及其中通过连接掺入测序接头的工作流程，例如杂交捕获。类似的解决方案可以应用于其他测定，例如基于分子倒置探针的HEAT-Seq（Roche Sequencing Solutions，Madison，Wisc.）。既然是这样，对原始规程的唯一修改是在环化靶分子的扩增过程中使用含有ConcatSeq衔接子或具有切点罕见限制酶位点的衔接子的引物。

由于本文描述的方法易于适应于不同的靶富集方案，同时最小限度地修改其原始工作流程，所以本多联方法及其变化为长读段测序技术提供了强大且通用的新样品制备工具，包括但不限于PacBio平台和基于纳米孔的平台。

在一些实施方案中，本发明是适合于测序的多联的核酸序列的文库。该文库包含多联的第一衔接子连接的靶核酸，其进一步侧接第二衔接子。通过包括以下步骤的方法产生文库，即，将衔接子分子附着到双链靶核酸分子的至少一个末端，其中衔接子包含切点罕见限制性内切核酸酶识别位点以形成衔接子连接的靶分子；用所述切点罕见限制性内切核酸酶消化所述衔接子连接的靶分子，以形成部分单链末端；通过杂交和共价连接所述部分单链末端来连接至少两个内切核酸酶消化的衔接子连接的靶分子，从而产生多联的靶分子。

在一些实施方案中，本发明是适合于测序的多联的核酸序列的另一文库。该文库包含多联的第一衔接子连接的靶核酸，其进一步侧接第二衔接子。该文库通过包括以下步骤的方法产生，即，将具有至少一个双链区的第一衔接子附着到双链靶分子的每个末端；使所述含有衔接子的双链靶分子与外切核酸酶接触以在所述靶分子的末端产生部分单链衔接子区；通过使所述靶分子的每条链上的部分单链衔接子区杂交以形成双链衔接子区并共价连接所述靶分子的链来连接至少两个靶分子，从而产生多联的靶分子；和将第二衔接子附着到所述多联的分子上，所述衔接子包含条形码、通用扩增引发位点和测序引发位点中的一个或多个，从而产生多联的靶核酸分子文库。

在一些实施方案中，本发明是用于产生多联的靶核酸分子文库的试剂盒，其包括：包含切点罕见限制性内切核酸酶识别位点和分子条形码的衔接子，包含通用引发位点的第二衔接子，切点罕见限制性内切核酸酶和核酸连接酶，以及任选地，与通用引发位点互补的引物，热稳定核酸聚合酶和至少四种脱氧核苷三磷酸的混合物。

在一些实施方案中，本发明是另一种用于产生多联的靶核酸分子文库的试剂盒，其包括：具有至少一个双链区的第一衔接子，包含条形码、通用扩增引发位点和测序引发位点中的一个或多个的第二衔接子，外切核酸酶，核酸聚合酶和核酸连接酶，以及任选地，还有与第一衔接子序列互补的扩增引物，热稳定核酸聚合酶和至少四种脱氧核苷酸三磷酸的混合物。

实施例

实施例1：产生多联的靶分子文库

DNA、寡核苷酸、试剂和试剂盒。在该实施例中，来自KRAS-突变型人细胞系的可商业获得的基因组DNA购自Horizon Discovery（HD701）和Promega（G1471）。低分子量DNA梯购自New England BioLabs（N3233）。寡核苷酸和无核酸酶双链体缓冲液（Nuclease-FreeDuplex Buffer）购自Integrated DNA Technologies。通过在胞嘧啶中掺入氨基，在内部修饰一种寡核苷酸。NEBuilder HiFi DNA装配主混合物（Master Mix）和Phusion高保真性（High-Fidelity）DNA聚合酶购自New England BioLabs（E2621）。外切核酸酶III（M0379）和外切核酸酶VII（M0206）购自New England BioLabs。具有缓冲液II和MgCl₂的AmpliTaqGold DNA聚合酶（N8080241）、无核酸酶水（AM9937）和用于Qubit dsDNA测定的试剂（Q32850和Q32851）购自Thermo Fisher Scientific。KAPA Hyper Prep试剂盒（KK8503）和KAPA纯珠（Pure Beads）（KK8002）购自KAPA BioSystems。用于Agilent 2100生物分析仪（Bioanalyzer）系统的Agilent DNA 7500试剂盒（5067-1504）购自Agilent Technologies。

靶分子的PCR扩增和多联。对于图1-3中所述的实验，首先使用AmpliTaq Gold DNA聚合酶使用基因特异性引物和30 ng基因组DNA的HD701扩增基因组的靶区域。该第一轮PCR将靶区域与每个扩增子两个末端的侧翼间隔区一起扩增。对于图1（a）-（c）和2（a）-（e）中所述的实验，然后在两个单独的PCR反应中用两个引物对扩增所得到的PCR产物，所述引物对从间隔区序列引发并将互补的ConcatSeq接头掺入两个末端。对于图3（a）-（d）中所述的实验，由于引物不相容性，首先在两个单独的PCR反应中扩增20个靶区域（分别为11和9个扩增子）。接着扩增两种PCR产物，以将互补的ConcatSeq接头掺入其末端。然后使用KAPA纯珠净化所得的PCR产物，并使用Qubit dsDNA BR测定试剂盒（Assay Kit）进行定量。然后将200-300 ng的两种PCR产物中的每一种混合，并用PCR-级水使最终体积为40μl。添加等体积（40μl）的NEBuilder HiFi DNA装配主混合物并在50℃温育1小时。Gibson Assembly后面是使用KAPA纯珠的净化步骤，后面是Qubit定量（一般浓度为~10 ng/μl）和使用Agilent DNA7500测定的大小范围分析。

在多联之前将ConcatSeq接头连接到靶分子。对于图4（a）-（c）中描述的实验，通过于20μM终浓度退火PCR引物序列产生两个不同的互补T-加尾的ConcatSeq接头。对于图4a中描述的实验，从人基因组DNA（男性）扩增EGFR基因座的四个不同区域。使用Qubit dsDNA BR测定来测定PCR产物的浓度，且然后于等摩尔浓度（~73 nM）合并。对于图4b中描述的实验，将来自NEB的LMW DNA梯稀释至10 ng/μl并用作输入材料。对于图4（a）和4（b）两者，将DNA样品分成两个反应（25μl，每个包含~250 ng总DNA量）并经受KAPA Hyper Prep测定：末端修复、A-加尾和连接到两个T-加尾的ConcatSeq接头。然后对所得到的接头-连接的片段库进行PCR扩增，以富集在两个末端已成功连接接头的片段。使用Qubit dsDNA BR测定试剂盒定量DNA浓度。然后将200-300 ng的两种PCR产物中的每一种混合并用PCR-级水填补至40μl。添加等体积的NEBuilder HiFi DNA装配主混合物，并在50℃温育30、60、100和120分钟。Gibson Assembly后面是使用KAPA纯珠的净化步骤（0.8x比率），后面是Qubit定量和使用Agilent DNA7500测定的大小范围的大小范围分析。

将具有UID和在所期望的取向的Sce I限制位点两者的双链衔接子连接到DNA片段的两个末端（图1）。连接产物通过Sce I消化并通过DNA连接酶连接。

PacBio文库制备。使用KAPA Hyper Prep试剂盒，使用大约100 ng多联的库制备PacBio测序文库。首先通过使用双链体缓冲液使衔接子寡核苷酸（20μM）自退火并加热5分钟至80℃，后面是缓慢斜降（0.2℃/秒）至25℃，来产生合适的T-加尾的发夹接头。然后使双链DNA多联体经受末端修复和A-加尾，并于20℃连接到发夹接头（于约为250:1的接头与多联体的比例）达30分钟。通过将外切核酸酶III和外切核酸酶VII（各1μl）添加到样品中并于37℃温育30分钟来除去未反应的T-加尾的发夹接头和多联的DNA分子。用KAPA纯珠以0.8x比率净化所得的文库分子，且然后使用Qubit dsDNA HS测定进行定量。平均来说，测序文库的终浓度为0.5-2 ng/μl。

实施例2. 对多联的靶分子文库进行测序

PacBio测序。使用结合计算器（Binding Calculator）（版本2.3.1）制备用于使用MagBead每孔一测定池（one-cell per well）（OCPW）规程进行PacBio测序的文库，并使用具有0.05 nM的板上（on-plate）浓度的结合试剂盒P6v2。引物调节（conditioning）和退火，以及聚合酶与模板的结合，以及与磁珠的复合结合完全如结合计算器规程所示进行。在加载SMRT测定池之前，将模板复合物与MagBeads于4℃温育2小时。记录四小时影片，并在PacBioRSII仪器上进行一级序列分析。

实施例3. 制备多联的靶核酸文库的备择方法

附着衔接子的备择方法。图4（a）描绘了对SeqCap方法（Roche Sequencing Solutions，Madison，Wisc.）的修改，其中在工作流程中只有两个变化。首先，在规程开始时与DNA片段连接的Y-接头被ConcatSeq接头替代（图4（a），接头连接步骤）。其次，引入新步骤，其中将捕获的和PCR-扩增的靶分子与酶主混合物一起温育1小时用于发生多联。

为了测试ConcatSeq是否在ConcatSeq接头与DNA片段连接而不是通过PCR扩增掺入的场合起作用，我们首先产生了由来自人EGFR基因座的四种PCR产物组成的库。扩增子均具有220 bp的大小，并使用男性人基因组DNA（G1471，Promega）作为模板进行扩增（图4（b））。将合并的DNA分成两个等分试样，并通过A-加尾的连接附着两种类型的重叠接头。如前面图1（a）所述的，我们在多联之前进行了用于富集的PCR步骤。注意，该PCR反应模拟当前工作流程中的PCR步骤，其中靶富集的文库在测序前被扩增。与先前的运行相比，每个读段的平均片段数目略微减少。然而，在靶（on-target）率优秀，从而证实了基于连接的方法是有效的。大多数去多联的片段具有220 bp的预期大小（图4（c））。对于第二测试，我们使用含有11个不同长度的双链DNAs的低分子量DNA梯（LMW）作为用于接头连接的原材料。在这个多联实验中，每个读段的平均片段数目仅为3.8-倍（表1），这是由于混合物中存在大得多的分子（最多到766 bp）而预期的。我们注意到LMW片段的表现度受接头连接和/或后来的PCR扩增的强烈影响（图6（a）-（d））。在接头连接后，在比对的LMW片段的频率和片段浓度之间发现高相关性（Pearson氏r = 0.971）（图5（d）），从而证实我们的方法在装配期间以低偏差对分子进行二次抽样。

实施例4. 测序数据分析

二级和三级数据分析。使用SMRT Portal上的默认设置测定插入片段的读段：对于CCS读段生成，仅包括具有不止一次完整通过和90％的最小预测准确度的读段。使用接头扫描方法对环状共有序列读段进行去多联，我们在R中实现其。简言之，30 bp的窗口（其对应于ConcatSeq接头的长度）沿每个读段滑动并且与ConcatSeq接头序列进行近似匹配（在正向和反向互补取向），其中使用agrep功能并允许最多到4个错配，插入和/或缺失。以这种方式鉴定的接头从读段中移除，从而留下去多联的片段。创建新的fastq-文件，其列举了由这个方法鉴定的所有接头和片段。在将片段与参考物（reference）比对之前，去除长度为1 bp的所有片段。间隔区序列（在图1（a）-（c）-3（a）-（d）中描述的实验中的第一次PCR扩增期间引入）在去多联后仍然是每个片段的一部分，并且在使用bwa mem进行比对之前未明确去除。在比对期间，将侧接每个片段的间隔区序列软修剪（soft-clipped）。仅保留具有0或16的samflag的比对用于进一步的分析，其分别指示正向或反向互补取向的正确比对。对于图3（a）-（d），我们使用samtools中的mpileup功能生成比对的片段的pileup。我们使用Perl脚本将pileup转换为报告在每个位置调用的每个碱基的频率的列联表。相关位置的等位基因频率（即，HD701中已知的单核苷酸变体）从这些表中提取，并作为在该位置比对的读段总数的分数进行绘制。

实施例5. 本发明方法的评价

ConcatSeq测序评价。为了确认我们的多联方法是成功的，我们（随机）选择了由来自ZMW 93的1719 bp组成的读段进行详细检查。根据它的长度，我们怀疑它是8聚体。在这个读段中鉴定了三个重复特征：30 bp ConcatSeq接头、靶序列和间隔区（图2（a））。（为简单起见，从这里开始我们将靶加上侧翼间隔区序列称为‘靶’或‘片段’。）正如由我们的方法中使用的设计所预期的那样，接头沿着读段在正向和反向互补取向之间转换。靶的取向是随机的，但两个取向以大致相同的频率存在（即，正向五个，且反向互补三个）。

为了将这种类型的分析扩展到所有14,739个测序读段，我们执行了生物信息学方法来使去多联自动化。这个方法基于一种算法，其中扫描窗口沿每个读段滑动并与预期的接头序列进行近似匹配（允许最多到4个错配，包括缺失和插入），并在每个读段中生成接头和片段位置的清单。正如预期的那样，正向和反向互补取向的所有片段的数目几乎完全相等（图2（b））。两个取向的接头的情况也如此。我们还观察到与片段相比较少数目的接头，我们假设这是由于位于多联体的末端的接头有时被截短，且因此没有被我们的接头扫描方法鉴定。进一步检查读段的末端证实了这一假设。

总之，在14,739个读段中鉴定出89,496个片段和75,312个接头。绝大多数的靶（n= 62,093，74.2％）具有187 bp的预期大小或与预期大小非常接近（181-190 bp）（图2（c））。值得注意的是，存在仅由一个碱基组成的第二片段群体（n = 5818，6.5％）。所有这些片段都位于读段的开始或结束，且这些的大部分是腺嘌呤或胸苷（85%）。这些单碱基片段最可能是在文库制备期间通过A-加尾的连接附着于n-聚体的发夹接头的剩余物（图1（a））。第三群体（n = 12,783，15.3％）由比预期大小稍长（> 190 bp）的片段组成。这些片段中的大多数也位于读段的末端并含有靶以及截短的接头序列。

我们从进一步分析中排除了5818个单核苷酸片段，从而在去多联后留下了83,678个片段（表1）。平均每个读段含有5.68个片段，从而表明与对非多联的片段库的测序相比，我们的方法将测序处理量提高到至少5倍。靶与参考序列的比对显示出极好的在靶率（98.0％），从而提示多联不与靶序列的保真性相干扰。这进一步确认了ConcatSeq的有效性。

因为在这个实验中多联的片段都具有相同的大小（图1b，泳道[N]），所以预期读段长度与该读段中的片段数目之间存在线性关系。对于大多数读段观察到这种线性关系（图2（d））。在剩余的22个读段中，少数接头序列未能由我们的算法鉴定，这是因为它们与参考序列有不止4个错配。引人注目的是，虽然大多数读段（70.5％）含有三到七个片段（图2（e））并且长度为600-1500 bp，但我们发现读段长度范围很广，最长的大小不止10kb且含有不止50个片段（图2（d））。这提示ConcatSeq具有通过在测序之前对较长的多联体进行大小选择来进一步增加测序处理量的潜力。

通过检测肿瘤学扩增子实验对象组中的单核苷酸变体（SNVs）证实ConcatSeq。我们接下来检查了ConcatSeq是否可用于正确鉴定生物样品中已知的SNVs及其等位基因频率。为此，我们使用充分表征的DNA参考物（HD701，Horizon Discovery）作为模板，通过PCR扩增了一组肿瘤学靶。HD701是商业上可获得的人工改造的等基因细胞系，其中已经通过数字PCR确定了主要肿瘤学靶的精确等位基因频率。这个DNA样品中经过验证的变体的等位基因频率（AFs）为1％-24.5％，从而允许评估我们的测定的准确度和灵敏度。跨越5个基因（EGFR、KRAS、NRAS、BRAF和PIK3CA）的20个扩增子在两个单独的多重PCRs中产生（分别含有11和9个靶），且然后侧接互补的ConcatSeq接头（图1（a））。将等摩尔量的这两个扩增子库混合并在三个独立反应中多联，后面是PacBio测序，从而充当一式三份的样品以评估我们的测定的再现性。如前所述，在这些样品中，每个读段平均观察到不止5个片段（表1）。我们还对非多联的扩增子库进行了测序作为对照。然后确立生物信息学流水线（pipeline）（图3（a）），其将去多联的和非多联的片段与20个参考序列比对，产生每个比对的pileup，且随后提取HD701细胞系DNA中已知变体的AFs。所有三个多联的样品和非多联的对照的在靶率再一次非常高（> 96.1％）。用ConcatSeq鉴定的等位基因频率在多联的样品的三个重复实验和预期频率之间高度相关（Pearson氏r = 0.959）（图3（b）），从而表明ConcatSeq以高准确度和灵敏度检索这个信息的能力。多联的和非多联的对照中AFs的比较显示甚至更高的一致（Pearson氏r = 0.987），从而表明与预期频率的偏差很可能是在扩增子产生期间而不是在多联或PacBio测序期间引入的。为了保证我们的方法不在多联之前对库中显示的扩增子的频率引入显著偏差，我们比较了三个多联的样品和非多联的样品中20个扩增子中的每一个的百分比覆盖度（图3（d））。在这些组之间发现了非常高的相关性（Pearson氏r >0.944），从而表明ConcatSeq以低偏差从原始库中对扩增子进行二次抽样。

实施例6. 通过衔接子连接产生多联的靶分子文库

实施例7. 通过引物延伸产生多联的靶分子文库

设计正向和反向引物以具有在所期望的取向的Sce I的限制位点以及UID（图2）。这些引物用于通过PCR选择样品中感兴趣的区域。PCR扩增后，扩增产物通过Sce I消化并通过DNA连接酶连接。

实施例8. 通过连接和引物延伸产生多联的分子文库

将具有UID和在所期望的取向的Sce I限制位点两者的双链衔接子连接到DNA片段的两个末端（图3）。针对（+）或（-）链设计并且具有链特异性ID（SID）和在所期望的取向的Sce I限制位点两者的延伸引物分别与靶分子的每条链杂交。PCR后，产生所期望的插入取向的衔接的（adapted）片段分子。或者，两条链的延伸引物同时与靶分子杂交。PCR后，产生具有随机插入取向的衔接的片段分子。然后可以如上所述处理来自两个反应的纯化的PCR产物。

实施例9. 产生所期望大小范围的多联体

用生物素化的引物PCR扩增靶DNA片段以产生生物素化的扩增子。使这些经受限制酶SceI消化以暴露非回文突出端用于进行多联。通过与链霉抗生物素蛋白结合的固体支持体一起温育除去所有生物素化的物类，以仅留下完全消化的产物。（图10，A）使用T4 DNA连接酶的标准连接反应在有羧化SeraMag Speedbeads（GE Healthcare Bio-Sciences，Pittsburgh，Penn.）和渐增量的PEG-8000的情况下进行。30分钟后，将珠磁化，除去上清液，并用70％乙醇洗涤珠。然后将多联体在TE缓冲液中洗脱。结果显示在图10，B中：泳道1-5显示了具有渐增浓度的PEG 8000（6％-14％w/v）的连接（ligaiton）混合物的电泳。泳道6是无沉淀对照。

Claims

1.从样品制备多联的靶核酸分子文库的方法，该方法包括：

2.权利要求1的方法，其中所述第一衔接子通过用掺入衔接子序列的引物扩增靶核酸分子来附着，或所述第一衔接子通过连接到靶核酸分子的末端来附着。

3.权利要求1的方法，其中所述第一衔接子包含能够在两个末端连接的衔接子和能够在仅一个末端连接的衔接子的混合物。

4.权利要求1的方法，其中所述第一衔接子包含离5'-末端至少约15个碱基的外切核酸酶抗性区。

5.使用如下方法产生的多联的靶核酸分子文库，所述方法包括：

6.用于产生多联的靶核酸分子文库的试剂盒，其包括：具有至少一个双链区的第一衔接子，包含条形码、通用扩增引发位点和测序引发位点中的一个或多个的第二衔接子，外切核酸酶，核酸聚合酶和核酸连接酶，且任选地进一步包括与第一衔接子序列互补的扩增引物，热稳定核酸聚合酶和至少四种脱氧核苷三磷酸的混合物。

7.从样品制备多联的靶核酸分子文库的方法，该方法包括：

8.权利要求7的方法，其中通过用掺入所述切点罕见限制性内切核酸酶识别位点的引物扩增靶核酸分子来附着所述衔接子。

9.权利要求7的方法，其中所述引物进一步包含靶特异性序列和分子条形码。

10.权利要求7的方法，其进一步包括将第二衔接子附着至所述多联的分子的至少一个末端的步骤，该衔接子包含至少一个测序引物结合位点。

11.从样品制备多联的靶核酸分子的方法，该方法包括：

12.权利要求11的方法，其中所述引物包含靶特异性序列，且任选地进一步包含分子条形码。

13.权利要求11的方法，其进一步包括如下步骤，即，将第二衔接子附着至所述多联的分子的至少一个末端，该衔接子包含至少一个测序引物结合位点。

14.使用如下方法产生的多联的靶核酸分子文库，所述方法包括：

15.用于产生多联的靶核酸分子文库的试剂盒，其包括：包含切点罕见限制性内切核酸酶识别位点和分子条形码的衔接子，包含通用引发位点的第二衔接子，切点罕见限制性内切核酸酶和核酸连接酶。