CN109312391B

CN109312391B - 生成用于单分子测序的单链环状dna文库的方法

Info

Publication number: CN109312391B
Application number: CN201780040192.0A
Authority: CN
Inventors: J.莫; U.施莱赫特
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2016-07-18
Filing date: 2017-07-14
Publication date: 2022-06-03
Anticipated expiration: 2037-07-14
Also published as: JP2019520839A; JP6876785B2; EP3485030B1; EP3485030A1; ES2875318T3; CN109312391A; US11085068B2; WO2018015318A1; US20210310048A1; US20190153514A1

Abstract

本发明包括用于核酸测序的环状单链模板、其制备和使用方法。

Description

生成用于单分子测序的单链环状DNA文库的方法

发明领域

本发明涉及核酸测序的领域，且更具体地，涉及制备用于核酸测序的环状模板。

发明背景

环状模板用于测序的用途是本领域已知的。例如，PACIFIC BIOSCIENCES使用SMRTBELL衔接子来产生此类模板。参见美国专利号7,302,146和8,153,375。环状单链模板在边合成边测序中具有若干优点：如果测序聚合酶可以进行滚环复制，则将多次读取模板并且将读取两条Watson和Crick链。配对链的多重读取允许更准确的共有序列输出。然而，现有的环状模板被设计成使得两个测序聚合酶可以结合各模板。两个聚合酶有可能相互干扰并引起合成的停滞或终止，产生次优的测序数据。本发明改进现有技术以实现更准确的测序读取值。

发明概述

在一个实施方案中，本发明是制备用于测序的靶核酸的方法，其包括提供包含靶核酸的样品；使所述样品与包含两条链的衔接子分子接触，形成至少一个双链体区域和至少一个非双链体区域，所述非双链体区域包含至少一个通用引物结合位点；且将所述衔接子分子连接至所述靶核酸，以形成包含具有至少一个通用引物结合位点的非双链体区域的双链环状接合分子。所述方法可以进一步包括使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触；和延伸所述通用引物，由此经由边合成边测序测定所述靶核酸的序列。所述衔接子可以包含两个双链体区域，其侧接具有两条未杂交链的单一非双链体区域。或者，所述衔接子可以包含两个侧接至少一个茎-环结构的双链体区域，每个结构包含双链体茎区域和非双链体环区域。衔接子的每条链可以包含一个引物结合位点。两条链具有相同的引物结合位点或具有不同的引物结合位点。所述连接可以是平末端连接或粘性末端连接。在一些实施方案中，所述方法包括以下初步步骤：以模板非依赖性的方式将核苷酸添加至所述靶核酸的3'-端并将互补核苷酸添加至所述衔接子分子的3'-端，由此产生粘性末端。在其它实施方案中，所述方法包括以下初步步骤：用限制性内切核酸酶消化所述靶核酸和所述衔接子分子以生成相容的粘性末端。在其它实施方案中，所述方法包括以下初步步骤：用外切核酸酶消化所述靶核酸和所述衔接子分子的3'-端。在一些实施方案中，所述靶核酸在3'-末端附近包含至少一个硫代磷酸酯核苷酸。在一些实施方案中，所述靶核酸和所述衔接子分子含有尿嘧啶碱基，并且所述方法在步骤b)前包括使所述靶核酸和所述衔接子分子与N-糖基化酶和AP-裂解酶接触的步骤。例如，使所述靶核酸和所述衔接子分子与尿嘧啶-DNA-糖基化酶和内切核酸酶VIII或尿嘧啶-DNA-糖基化酶和多胺接触并暴露于热。在一些实施方案中，所述聚合酶是链置换聚合酶。在一些实施方案中，所述样品包含多种靶核酸。在一些实施方案中，将所述靶核酸在开始所述方法的步骤前片段化。

在一些实施方案中，在开始所述方法的步骤前，通过DNA聚合酶对所述靶核酸进行末端修复。所述衔接子可以包含一个或多个条形码、独特标识符(UID)、多重标识符(MID)或其组合。

在一些实施方案中，本发明是制备用于测序的靶核酸的方法，其包括提供包含靶核酸的样品；使所述样品与包含形成双链体的两条链的衔接子分子接触，其中每条链包含通用引物结合位点；将所述衔接子分子连接至所述靶核酸，以形成包含两个通用引物结合位点的双链环状接合分子。在一些实施方案中，所述方法进一步包括使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触；延伸所述通用引物，由此经由边合成边测序测定所述靶核酸的序列。在一些实施方案中，每条链具有相同的引物结合位点。在其它实施方案中，两条链具有不同的引物结合位点。

在一些实施方案中，本发明是用于测序靶核酸的组合物，其包含双链环状分子，所述双链环状分子由连接至包含两条链的衔接子的靶核酸组成，其中所述链形成至少一个双链体区域和至少一个非双链体区域，所述非双链体区域中的每条链含有通用引物结合位点。所述组合物还可以包含通用引物和具有链置换活性的核酸聚合酶中的一种或多种。

附图简述

图1是使用两个茎-环衔接子组装环状分子的现有技术方法的图。

图2是使用夹板连接(splint ligation)组装环状分子的现有技术方法的图。

图3是使用单一双链衔接子组装环状分子的新型方法的图。

图4是使用具有两个双链区域和两个茎-环区域的单一衔接子组装环状分子的新型方法的图。

图5是使用具有两个侧接单链区域的双链区域的单一衔接子组装环状分子的新型方法的图。

发明详述

定义

以下定义有助于理解本公开。

术语“样品”是指含有或假定含有靶核酸的任何组合物。这包括从个体分离的组织或液体样品，例如皮肤、血浆、血清、脊髓液、淋巴液、滑液、尿液、泪液、血细胞、器官和肿瘤，以及由取自个体的细胞建立的体外培养物的样品，包括福尔马林固定的石蜡包埋的组织(FFPET)和从其分离的核酸。样品还可以包括无细胞材料，诸如含有无细胞DNA (cfDNA)或循环肿瘤DNA (ctDNA)的无细胞血液级分。

术语“核酸”是指核苷酸(例如，天然和非天然的核糖核苷酸和脱氧核糖核苷酸)的聚合物，此类聚合物是DNA、RNA及其亚类，诸如cDNA、mRNA等。核酸可以是单链或双链的并且将通常含有5'-3'磷酸二酯键，尽管在一些情况下，核苷酸类似物可以具有其它键。核酸可以包括天然存在的碱基(腺苷、鸟苷、胞嘧啶、尿嘧啶和胸苷)以及非天然碱基。非天然碱基的一些实例包括在例如Seela等人, (1999) Helv. Chim. Acta 82:1640中描述的那些。非天然碱基可以具有特定功能，例如，增加双链体的稳定性，抑制核酸酶消化或阻断引物延伸或链聚合。

术语“多核苷酸”和“寡核苷酸”可互换使用。多核苷酸是单链或双链核酸。寡核苷酸是有时用于描述较短多核苷酸的术语。寡核苷酸可以由至少6个核苷酸、例如至少约10-12个核苷酸或至少约15-30个核苷酸构成。寡核苷酸通过本领域已知的任何合适的方法，例如，通过涉及直接化学合成的方法来制备，如以下所述：Narang等人(1979) Meth. Enzymol. 68:90-99; Brown等人(1979) Meth. Enzymol. 68:109-151; Beaucage等人(1981) Tetrahedron Lett. 22:1859-1862; Matteucci等人(1981) J. Am. Chem. Soc.103:3185-3191。

术语“双链体”和“双链区域”可互换使用，以指其中两条核酸链杂交的区域。链不需要完全互补以维持双链体。根据序列，两条核酸链可以形成含有双链体区域和非双链体区域的结构。

术语“引物”是指与靶核酸中的序列(“引物结合位点”)杂交且能够在适合于这种合成的条件下充当沿着核酸的互补链的合成起始点的单链寡核苷酸。

术语“衔接子”意指可以被添加至另一序列、以便将额外的特性输入该序列的核苷酸序列。衔接子通常是这样的寡核苷酸，其可以是单链或双链的，或者可以同时具有单链部分和双链部分。

术语“连接”是指接合两条核酸链的缩合反应，其中一个分子的5'-磷酸酯基团与另一个分子的3'-羟基基团反应。连接通常是由连接酶或拓扑异构酶催化的酶促反应。连接可以接合两条单链以产生一个单链分子。连接还可以接合两条链(每条链属于双链分子)，因此接合两个双链分子。连接还可以将双链分子的两条链接合至另一双链分子的两条链，因此接合两个双链分子。连接还可以接合双链分子内的链的两个末端，因此修复双链分子中的切口。

术语“条形码”是指可以检测和标识的核酸序列。条形码通常被并入其它核酸中。条形码足够长，例如2、5、10个核苷酸，使得并入条形码的核酸可以根据条形码区分或分组。

术语“多重标识符”或“MID”是指标识靶核酸来源(例如，衍生出核酸的样品)的条形码。来自相同样品的所有或基本上所有靶核酸将共享相同的MID。可以将来自不同来源或样品的靶核酸混合并同时测序。使用MID，可以将序列读取值分配至靶核酸来源的单个样品。

术语“独特分子标识符”或“UID”是指标识与其附接的核酸的条形码。来自相同样品的所有或基本上所有靶核酸将具有不同的UID。源自相同原始靶核酸的所有或基本上所有后代(例如，扩增子)将共享相同的UID。

术语“通用引物”和“通用引发结合位点”是指存在于(通常，通过人工添加至)不同靶核酸的引物和引物结合位点。使用具有5'-翻转(5'-flap)区域的衔接子或靶特异性(非通用)引物将通用引发位点添加至靶核酸。所述通用引物可以结合通用引发位点并指导从通用引发位点的引物延伸。

术语“粘性末端”是指第一双链核酸的末端上的单链突出端，其能够与第二双链核酸的末端上的单链突出端形成双链体，使得可以例如通过连接(任选地用末端的聚合酶延伸)来接合两个核酸。对于待接合的两个分子，两个分子的粘性末端不需要完全互补。

术语“靶序列”、“靶核酸”或“靶标”是指待检测或分析的样品中核酸序列的一部分。术语靶标包括靶序列的所有变体，例如，一种或多种突变型变体和野生型变体。

术语“测序”是指确定靶核酸中核苷酸序列的任何方法。

本发明提供了制备用于测序的靶核酸的方法，其包括

(a)提供包含所述靶核酸的样品；

(b)使所述样品与包含两条链的衔接子分子接触，形成至少一个双链体区域和至少一个非双链体区域，所述非双链体区域包含至少一个通用引物结合位点；和

(c)将所述衔接子分子连接至所述靶核酸，以形成包含具有至少一个通用引物结合位点的非双链体区域的双链环状接合分子。

所述方法可以进一步包括以下步骤：

(d)使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触，所述DNA聚合酶可以是链置换聚合酶；和

(e)延伸所述通用引物，由此经由边合成边测序测定所述靶核酸的序列。

所述衔接子可以包含两个双链体区域，其侧接具有两条未杂交链的单一非双链体区域。所述衔接子还可以包含两个侧接至少一个茎-环结构的双链体区域，每个结构包含双链体茎区域和非双链体环区域。衔接子的每条链可以包含一个引物结合位点。

所述连接可以是平末端连接或优选粘性末端连接。在该情况下，本发明方法可以在步骤b)前包括以下步骤：以模板非依赖性的方式将核苷酸添加至所述靶核酸的3'-端并将互补核苷酸添加至所述衔接子分子的3'-端，由此产生粘性末端。本发明方法还可以在步骤b)前包括以下步骤：用限制性内切核酸酶消化所述靶核酸和所述衔接子分子以生成相容的粘性末端。本发明方法还可以在步骤b)前包括以下步骤：用外切核酸酶消化所述靶核酸和所述衔接子分子的3'-端。然后，所述靶核酸可以包含至少一个硫代磷酸酯核苷酸。所述靶核酸和所述衔接子分子可以含有尿嘧啶碱基，并且所述方法可以在步骤b)前包括以下步骤：使所述靶核酸和所述衔接子分子与N-糖基化酶和AP-裂解酶接触。所述N-糖基化酶和AP-裂解酶是尿嘧啶-DNA-糖基化酶和内切核酸酶VIII。所述靶核酸和所述衔接子分子可以在升高温度下与尿嘧啶-DNA-糖基化酶和多胺化合物接触。

所述样品可以包含多种靶核酸。将所述靶核酸在步骤b)前片段化，并且可以在步骤b)前通过DNA聚合酶进行末端修复。所述衔接子可以包含一个或多个条形码，所述条形码可以包括独特标识符(UID)、多重标识符(MID)或其组合中的一种或多种。

本发明还提供了制备用于测序的靶核酸的方法，其包括

(a)提供包含所述靶核酸的样品；

(b)使所述样品与包含形成双链体的两条链的衔接子分子接触，其中每条链包含通用引物结合位点；和

(c)将所述衔接子分子连接至所述靶核酸，以形成包含两个通用引物结合位点的双链环状接合分子。

所述方法可以进一步包括以下步骤：

(d)使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触；和

每条链可以具有相同或不同的引物结合位点。

本发明进一步提供了用于测序靶核酸的组合物，其包含双链环状分子，所述双链环状分子由连接至包含两条链的衔接子的靶核酸组成，其中所述链形成至少一个双链体区域和至少一个非双链体区域，所述非双链体区域中的每条链含有通用引物结合位点。所述组合物可以进一步包含通用引物或具有链置换活性的核酸聚合酶或两者。

在一些实施方案中，本发明是将双链靶核酸转化为可用于测序中的环状锁定链模板的方法。环状模板的使用是本领域已知的，并且在边合成边测序应用中具有若干优点。参见美国专利号7,302,146和8,153,375。如果使用链置换聚合酶，它将参与滚环复制，即连续置换新生链，并进行多轮复制环状模板。对靶标进行多次测序(通读)并比较连接至环状结构中的核酸的两条Watson和Crick链的能力允许生成无误差或低误差的共有序列。

然而，参考图1，现有的环状模板被设计成具有衔接子100，其与靶核酸102的两个末端连接，使得所得环状分子104含有两个衔接子序列100。(图1)。每个衔接子具有用于测序引物的结合位点，其允许两个引物和两个DNA聚合酶结合每个环状模板。一旦已经开始测序反应，两种聚合酶有可能相互干扰并引起合成的停滞或终止、降低测序数据的读取长度和产量。对于较短模板(其中两个聚合酶彼此定位相对接近)，这尤其有问题。

组装用于测序的环状分子的一种方法已将双链靶核酸的两条链各自转化为具有单一衔接子序列的单独的环状分子。参见US20120003675和美国专利号7,883,849。该方法需要衔接子的臂和靶核酸之间的互补性，使得单链可以连接至环中。该方法对于产生多种未知序列的核酸的文库是不实际的。

本发明是一种新型方法，其允许形成环状分子的文库，其无论序列如何都包含用于测序聚合酶的单一引物结合位点。(图3、4和5)。本发明是可以增加测序质量、读取长度和效率的新型方法。在本发明的实施方案中，每个双链靶核酸与单一衔接子缀合。所得环状双链分子包含两条链，每条链具有在该处开始测序的单一引物结合位点。

本发明包括修饰和测序样品中的靶核酸。在一些实施方案中，所述样品来源于受试者或患者。在一些实施方案中，所述样品可以包含例如通过活检来源于受试者或患者的实体组织或实体瘤的片段。所述样品还可以包括体液(例如，尿液、痰液、血清、血浆或淋巴液、唾液、痰液、汗液、泪液、脑脊髓液、羊水、滑液、心包液、腹膜液、胸膜液、囊液、胆汁、胃液、肠液和/或粪便样品)。所述样品可以包括可存在肿瘤细胞的全血或血液级分。在一些实施方案中，所述样品，尤其是液体样品，可以包含无细胞材料，诸如无细胞DNA或RNA，包括无细胞肿瘤DNA或无细胞肿瘤RNA。在一些实施方案中，所述样品是无细胞样品，例如无细胞血液级分，其中存在无细胞肿瘤DNA或无细胞肿瘤RNA。在其它实施方案中，所述样品是含有或怀疑含有感染病原体或源自感染病原体的核酸的培养的样品，例如，培养物或培养上清液。在一些实施方案中，所述感染病原体是细菌、原生动物、病毒或支原体。

分离靶核酸，即与其它组织和细胞组分分离，以使得本文所述的酶促反应能够发生。可以通过本领域已知的任何合适的方法进行分离。

靶核酸是可以存在于样品中的目标核酸。在一些实施方案中，所述靶核酸是基因或基因片段。在其它实施方案中，所述靶核酸含有遗传变体，例如，多态性或突变，包括单核苷酸多态性或变体(SNV的SNP)，或导致基因融合的遗传重排。在一些实施方案中，所述靶核酸包含生物标志物，即与疾病或病况相关的基因或基因变体。在其它实施方案中，所述靶核酸是特定生物体特征性的并且有助于鉴定病原生物体或病原生物体的特征，例如，药物敏感性或药物抗性。在还有其它实施方案中，所述靶核酸是人受试者特征性的，例如，定义受试者的独特HLA或KIR基因型的HLA或KIR序列。

在本发明的一个实施方案中，将双链靶核酸转化为本发明的模板构型。在其它实施方案中，所述靶核酸在自然界中以单链形式(例如，RNA，包括mRNA、微小RNA、病毒RNA；或单链病毒DNA)存在。在开始本文所述的方法的其它步骤前，将单链靶核酸转化为双链形式。尽管在一些应用中可能需要更长的靶核酸以实现更长的读取值，但可以将更长的靶核酸片段化。在一些实施方案中，所述靶核酸是天然片段化的，例如，循环的无细胞DNA (cfDNA)或化学降解的核酸，诸如在化学保存的样品(福尔马林固定的石蜡包埋的组织，FFPET)中发现的核酸。

在本发明的实施方案中，将衔接子分子连接至靶核酸的分子。将靶核酸的两个末端连接至单一衔接子的末端，由此形成接合分子。反应混合物的组成使得连接反应的动力学有利于将一个靶核酸连接至单一衔接子。单一衔接子连接优于自环化和连接至两个衔接子。在一些实施方案中，估计或定量样品中靶核酸的浓度，并添加合适摩尔量的衔接子。在一些实施方案中，靶标与衔接子比率是1/20、1/200或1/400。本领域技术人员将理解，与平末端连接相比，粘性末端连接是更有效的并且将需要更小浓度的衔接子。

在一些实施方案中，将衔接子和靶核酸或仅衔接子进行预处理以允许形成接合分子，但防止自连接，包括衔接子二聚化和靶核酸的自环化。在一些实施方案中，用3'-磷酸酯基团修饰衔接子以防止二聚化。在其它实施方案中，用碱性磷酸酶处理靶核酸以除去5'-磷酸酯基团并防止自环化。

在一些实施方案中，连接在两个步骤中发生：第一步是衔接子的连接，且第二步是连接的接合分子的自环化。在一些实施方案中，在第一步后，未连接的衔接子与接合分子分离。在一些实施方案中，所述分离是通过色谱或电泳。在一些实施方案中，在最终连接步骤后，例如通过外切核酸酶消化，除去未连接的靶核酸或未连接的衔接子。在一些实施方案中，不去除自环化的靶核酸，因为其不含引物结合位点，并且将不干扰该方法的后续步骤。

所述连接可以是平末端连接或更有效的粘性末端连接。可以通过链填充，即通过DNA聚合酶延伸3'-端以消除任何5'-突出端，使靶核酸或衔接子末端变平。

在一些实施方案中，通过将单个核苷酸添加至衔接子的3'-末端并将单个互补核苷酸添加至靶核酸的3'-末端，例如通过DNA聚合酶或末端转移酶，可以使衔接子和靶核酸的末端粘性。在还有其它实施方案中，所述衔接子和所述靶核酸可以通过用限制性内切核酸酶消化而获得粘性末端。后一种选择对于已知含有限制性酶识别位点的已知靶序列更有利。在一些实施方案中，可以在有利于从靶核酸的一条链或两条链的一个末端去除一个或多个核苷酸的条件下使靶核酸与外切核酸酶接触，因此产生粘性末端。在一些实施方案中，可以，例如通过控制消化时间或通过并入外切核酸酶抗性核苷酸，控制靶核酸的末端的外切核酸酶消化。在一些实施方案中，使用含有一个或多个外切核酸酶抗性硫代磷酸酯核苷酸的引物复制或扩增靶核酸。在一个实施方案中，通过糖基化酶和AP裂解酶的组合在靶核酸中产生粘性末端。在该实施方案中，所述靶核酸含有适合于通过糖基化酶切除碱基的核苷酸(例如，适合于通过尿嘧啶-N-DNA糖基化酶切除的脱氧尿苷碱基)。在一些实施方案中，碱基切除反应随后是无碱基位点的磷酸二酯骨架的热或酶促断裂。在一些实施方案中，在有利于脱碱基位点的核酸内切切割的条件下使样品与内切核酸酶VIII接触。在其它实施方案中，具有无碱基位点的DNA经历热降解。在一些实施方案中，可以添加无碱基DNA的热降解的非酶促增强剂，诸如多胺化合物，参见美国专利号8,669,061。

在每个上述实施方案中，所述衔接子分子可以通过下文进一步描述的衔接子寡核苷酸的设计和体外合成获得所需末端(平端、单碱基延伸或多碱基突出端)。

在一些实施方案中，可能需要其它酶促步骤来完成连接。在一些实施方案中，多核苷酸激酶对于将5'-磷酸酯添加至靶核酸分子和衔接子分子中的一者或两者可以是必需的。

本发明包括待连接至所述靶核酸的一个或两个末端的衔接子分子的用途。在一些实施方案中，所述衔接子包含形成双链结构的两条互补链。例如，参考图3，可以任选地变性具有正链122a和负链122b的双链DNA片段122以提供两个单链分子(即，正链122a和负链122b)。此后，双链DNA片段122 (或正链122a和负链122b各自)可以与衔接子124 (例如，经由连接)组合以提供双链环状分子126。在一个方面，衔接子124的每条链可以包括单个引物结合位点128，将在该处开始测序。

转到图4，在一些实施方案中，衔接子130具有包括第一链130a和第二链130b的十字形样结构。链130a和130b各自可以采用茎-环二级结构132，其包含至少一个双链区域134和至少一个单链区域136。双链区域134包含具有至少部分自身互补性、确保二级结构在本文所用的反应条件下的稳定性的区域。在另一个方面，链130a和130b的末端可以至少部分地彼此互补，以便提供图4中所示的十字形样结构。在又另一个方面，衔接子130的每条链可以包括单个引物结合位点138，将在该处开始测序。在一个实例中，引物结合位点138可以位于茎-环结构132的单链区域136内。衔接子130可以与具有正链140a和负链140b的双链DNA片段140组合以提供双链分子142。

参考图5，在一些实施方案中，衔接子144包含两条链144a和144b，其共享至少一个具有实质互补性的区域，形成至少一个双链区域146；且具有至少一个具有很少互补性或没有互补性的区域，形成至少一个单链区域148。在一些实施方案中，衔接子144由两条链构成，所述两条链形成由两个侧接单链区域148的双链区域146组成的结构。与图4中的衔接子130的情况一样，图5中的衔接子144的每条链可以包括单个引物结合位点(未显示)，将在该处开始测序。在一个实例中，所述引物结合位点可以位于单链区域148内。衔接子144可以与具有正链150a和负链150b的双链DNA片段150组合以提供双链分子152。

在一些实施方案中，衔接子的双链区域用于连接至双链或单链靶核酸。在其它实施方案中，衔接子的单链部分被连接至双链或单链靶核酸。

在一些实施方案中，使用夹板寡核苷酸进行连接单链核酸，参见例如美国申请公开号20120003657。例如，参考图2，可以变性具有正链108a和负链108b的双链DNA片段108以提供两个单链分子。其后，与正链108a的末端112互补的第一夹板寡聚物110可以与正链108a退火，随后正链108a的末端进行分子内连接，以提供环化产物114。类似地，与负链108b的末端118互补的第二夹板寡聚物116可以与负链108b退火，随后负链108b的末端进行分子内连接，以提供环化产物120。在其它实施方案中，使用5'-和3'-末端单链区域(突出端)进行连接单链核酸或部分单链核酸，参见例如美国申请公开号20140193860。

在一些实施方案中，所述衔接子包含一个或多个条形码：多重样品ID (MID)、独特ID (UID)或UID和MID的组合。在一些实施方案中，单一条形码用作UID和MID两者。

在一些实施方案中，所述衔接子的每条链包含通用引物(例如通用测序引物)的引物结合位点。在一些实施方案中，一个引物结合位点位于衔接子分子的单链部分中的每条链上(图4、5)。在一些实施方案中，一个引物结合位点位于衔接子分子的双链部分中的每条链上(图3)。位于分开链上的结合位点是不同的，即每条链具有不同引物的结合位点。在一些实施方案中，所述衔接子的仅一条链携带引物结合位点。

在一些实施方案中，通过组合两个体外合成的人工寡核苷酸在体外组装衔接子分子。在一些实施方案中，所述寡核苷酸是已知具有所需二级结构的体外合成的天然存在的序列。在一些实施方案中，所述寡核苷酸是分离的天然存在的分子或分离的非天然存在的分子。

在一些实施方案中，本发明利用酶。所述酶包括DNA聚合酶(包括测序聚合酶)、DNA连接酶、多核苷酸激酶、末端转移酶、任选尿嘧啶-N-DNA糖基化酶、外切核酸酶和内切核酸酶，即AP裂解酶。

在一些实施方案中，对含有靶核酸的环状接合分子进行测序。所述通用引物可以用测序聚合酶延伸，由此测定双链靶核酸的序列。在一些实施方案中，所述测序是边合成边测序，包括单分子测序或核酸或核酸衍生物的任何测序。测序技术可以包括PacBio® RS系统、纳米孔测序系统或隧道识别测序系统或其中可能和期望连续读取模板的任何测序系统。将每条链独立地测序。在一些实施方案中，将每条链在单一读取中(例如通过滚环复制)多次测序。

在一些实施方案中，使用衔接子中存在的条形码校正测序数据的误差。在一些实施方案中，使用独特分子ID (UID)来消除存在于与UID标识的相同的原始分子的一些拷贝、但不是所有拷贝中的测序误差。在一些实施方案中，使用UID来获得共有序列，其使用如通过匹配衔接子中存在的两个UID所标识的来自单一靶分子的两条链的序列数据。

在一些实施方案中，所述DNA聚合酶具有链置换活性并且不具有5'-3-外切核酸酶活性。在一些实施方案中，使用Phi29聚合酶及其衍生物。参见美国专利号5,001,050、5,576,204、7,858,747和8,921,086。

在一些实施方案中，本发明还利用DNA连接酶。在一些实施方案中，使用T4 DNA连接酶或大肠杆菌DNA连接酶。

在一些实施方案中，本发明还利用模板非依赖性DNA聚合酶，例如末端转移酶。在一些实施方案中，本发明使用哺乳动物末端转移酶。

实施例

实施例1 (预言性). 使用双链衔接子制备环状接合分子

在该实验中，获得双链靶DNA。DNA在体外片段化成合适的大小或者是天然片段化的。衔接子是双链分子，其在每条链上包含引物结合位点。(图3)。衔接子和靶核酸分子以200/1的相对浓度(其有利于单一衔接子与每个模板的连接)存在。通过核酸聚合酶填充靶核酸的两个末端并使得变平。任选地，将单个核苷酸添加至衔接子分子的3'-末端，并将互补的单个核苷酸添加至靶DNA。这些步骤使用KAPA HyperPlus试剂盒(Kapa Biosystems,Wilmington, Mass.)进行。将单一衔接子连接至每个靶DNA以产生接合分子。单一测序引物与衔接子的两条链上的相同引物结合位点互补，或者两个结合位点是不同的，并且各自与两个引物之一互补。测序如测序仪器的制造商所预期进行。通过消除存在于与UID标识的相同的原始分子的一些拷贝、但不是所有拷贝中的测序变异来校正测序数据的误差。通过使用如通过匹配衔接子中存在的两个UID所标识的来自单一靶分子的两条链的序列数据获得共有序列，进一步校正测序数据。

实施例2 (预言性). 使用茎-环衔接子制备环状接合分子。

在该实验中，获得双链靶DNA。衔接子是具有两个侧接单链区域的双链区域的双链分子，其中每条链形成茎-环结构。(图4)。如实施例1中所述处理和连接衔接子和靶核酸。将单一衔接子连接至每个靶DNA以产生接合分子。单一测序引物与衔接子的两条链的环部分中的相同引物结合位点互补，或者两个结合位点是不同的，并且各自与两个引物之一互补。测序如测序仪器的制造商所预期进行。

通过消除存在于与UID标识的相同的原始分子的一些拷贝、但不是所有拷贝中的测序变异来校正测序数据的误差。通过使用如通过匹配衔接子中存在的两个UID所标识的来自单一靶分子的两条链的序列数据获得共有序列，进一步校正测序数据。

实施例3 (预言性) 使用部分单链衔接子制备环状接合分子。

在该实验中，获得双链靶DNA。衔接子是具有两个侧接单链区域的双链区域的双链分子，其中所述链不相互杂交。(图5)。如实施例1中所述处理和连接衔接子和靶核酸。将单一衔接子连接至每个靶DNA以产生接合分子。单一测序引物与衔接子的两条链的未杂交部分中的相同引物结合位点互补，或者两个结合位点是不同的，并且各自与两个引物之一互补。测序如测序仪器的制造商所预期进行。

Claims

1.制备用于测序的靶核酸的方法，其包括：

(a) 提供包含所述靶核酸的样品；

(b) 使所述样品与包含两条链的衔接子分子接触，形成至少一个双链体区域和至少一个非双链体区域，所述非双链体区域包含至少一个通用引物结合位点；

(c) 将所述衔接子分子连接至所述靶核酸，以形成包含具有至少一个通用引物结合位点的非双链体区域的双链环状接合分子，

其中所述衔接子包含侧接至少一个茎-环结构的两个双链体区域，每个结构包含双链体茎区域和非双链体环区域。

2.权利要求1的方法，其进一步包括：

(d) 使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触；

(e) 延伸所述通用引物，由此经由边合成边测序测定所述靶核酸的序列。

3.权利要求2的方法，其中所述DNA聚合酶为链置换聚合酶。

4.权利要求1的方法，其中所述衔接子的每条链包含一个引物结合位点。

5.权利要求1的方法，其在步骤b)前包括以下步骤：以模板非依赖性的方式将核苷酸添加至所述靶核酸的3'-端并将互补核苷酸添加至所述衔接子分子的3'-端，由此产生粘性末端。

6.权利要求1的方法，其在步骤b)前包括以下步骤：用限制性内切核酸酶消化所述靶核酸和所述衔接子分子以生成相容的粘性末端。

7.权利要求1的方法，其在步骤b)前包括以下步骤：用外切核酸酶消化所述靶核酸和所述衔接子分子的3'-端。

8.权利要求1的方法，其中所述靶核酸和所述衔接子分子含有尿嘧啶碱基，并且所述方法在步骤b)前包括以下步骤：使所述靶核酸和所述衔接子分子与尿嘧啶-DNA-糖基化酶和内切核酸酶VIII接触。

9.权利要求1-8中任一项的方法，其中所述衔接子包含一个或多个条形码。

10.权利要求9的方法，所述条形码包括独特标识符、多重标识符或其组合。

11.制备用于测序的靶核酸的方法，其包括：

(a) 提供包含所述靶核酸的样品；

(b) 使所述样品与包含形成双链体的两条链的衔接子分子接触，其中每条链包含通用引物结合位点；

其中所述衔接子包含侧接至少一个茎-环结构的两个双链体区域，每个结构包含双链体茎区域和非双链体环区域，

(c) 将所述衔接子分子连接至所述靶核酸，以形成包含两个通用引物结合位点的双链环状接合分子；

(d) 使所述接合分子与DNA聚合酶和与所述引物结合位点互补的通用引物接触；和