CN114502742A

CN114502742A - 用于核酸测序及相关应用的方法和试剂

Info

Publication number: CN114502742A
Application number: CN202080055766.3A
Authority: CN
Inventors: J·J·索尔克
Original assignee: Twinstrand Biosciences Inc
Current assignee: Twinstrand Biosciences Inc
Priority date: 2019-08-01
Filing date: 2020-08-01
Publication date: 2022-05-13
Also published as: JP2022543778A; AU2020321991A1; WO2021022237A1; CA3146435A1; US20220220543A1; EP4007818A4; EP4007818A1; IL290274A

Abstract

本发明技术总体上涉及用于提供错误校正的核酸序列的方法和相关联的试剂。具体地，若干实施例涉及包括发夹形状的衔接子分子以及在双链测序和其它测序应用中使用此类衔接子的方法。在一些实施例中，包括第一链和第二链两者的物理连接的核酸复合物可以在测序表面上的同一克隆簇中进行扩增和独立测序。

Description

用于核酸测序及相关应用的方法和试剂

技术领域

本发明技术总体上涉及用于提供高准确度(例如，错误校正的)核酸序列的方法和相关试剂。具体地，若干实施例涉及包括发夹形状的衔接子分子以及在双链测序和其它测序应用中使用此类衔接子的方法。

相关申请的交叉引用

本申请要求于2019年8月1日提交的美国临时专利申请第62/881,936号的优先权和权益，所述美国临时专利申请的公开内容特此以全文引用的方式并入。

背景技术

双链测序是这样一种错误校正的方法，通过将源自各个双链核酸分子中的两条链的序列信息进行比较来实现卓越的序列准确度。关于双链测序过程或其它高准确度测序方式的效率，转化效率可以定义为输入到测序文库制备反应中的独特核酸分子的分数，从所述测序文库制备反应中产生至少一个双链共有序列读段(或其它高准确度序列读段)。在一些情况下，转换效率的不足可能限制高准确度测序在一些应用中的实用性，否则其将非常适合。例如，低转化效率将导致靶双链核酸的拷贝数有限的情况，这可能导致产生的序列信息量少于期望量。需要有成本效益且高效制造的方法来合成核酸分子的原始序列读段，以用于各种应用，包含双链测序应用。

发明内容

本发明技术总体上涉及用于核酸测序的方法和相关试剂。具体地，技术的一些方面涉及用于实现以更快的速率(例如，以更少的步骤)和/或以更少的成本(例如，使用更少的试剂)提供的高准确度测序读段并产生增加的期望的数据的方法。技术的其它方面涉及用于提高双链测序转换效率的方法和试剂。本发明技术的各个方面在临床前和临床测试和诊断以及其它应用中具有许多应用。

在一些方面，本公开提供了对双链靶核酸分子进行测序的方法，所述方法包括以下步骤：(a)在表面上扩增物理连接的核酸复合物，以产生以正向取向和反向取向两者与所述表面结合的物理连接的核酸复合物扩增子，其中所述物理连接的核酸复合物包括：(i)所述双链靶核酸分子；(ii)所述双链靶核酸分子的第一端上的包括接头结构域的第一衔接子；以及(iii)所述双链靶核酸分子的第二端上的具有双链部分和单链部分的第二衔接子；(b)去除(i)以所述反向取向与所述表面结合的所述物理连接的核酸复合物扩增子或(ii)以所述正向取向与所述表面结合的所述物理连接的核酸复合物扩增子；(c)切割剩余结合的物理连接的核酸复合物扩增子的一部分，以提供包括来自一条链的信息的单链扩增子的子集和物理连接的核酸复合物扩增子的子集；(d)对所述单链扩增子的子集进行测序，以提供源自所述双链靶核酸分子的原始链的测序读段；(e)在所述表面上扩增物理连接的核酸复合物扩增子的子集；(f)去除处于其它取向的所述物理连接的核酸复合物扩增子；(g)切割剩余结合的物理连接的核酸复合物扩增子，以提供包括来自另一条链的信息的单链扩增子；以及(h)对所述单链扩增子进行测序，以提供源自所述双链靶核酸分子的另一条原始链的测序读段。

在一些方面，本公开提供了对双链靶核酸分子进行测序的方法，所述方法包括以下步骤：(a)在表面上扩增物理连接的核酸复合物，以产生与所述表面结合的物理连接的核酸复合物扩增子的簇，其中所述物理连接的核酸复合物包括：(i)所述双链靶核酸分子；(ii)所述双链靶核酸分子的一端上的包括接头结构域的第一衔接子；以及(iii)所述双链靶核酸分子的另一端上的具有双链部分和单链部分的第二衔接子；(b)去除在(i)所述物理连接的核酸复合物扩增子的5'端或(ii)所述物理连接的核酸复合物扩增子的3'端处与所述表面结合的所述物理连接的核酸复合物扩增子；(c)在切割位点处切割剩余结合的物理连接的核酸复合物扩增子的至少一部分，以提供包括源自所述双链靶核酸分子的一条原始链的序列信息的单链扩增子；以及(d)对所述单链扩增子进行测序，以提供源自所述双链靶核酸分子的所述一条原始链的测序读段。在一些方面，所述方法进一步包括切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的至少一个物理连接的核酸复合物扩增子。在一些方面，所述方法进一步包括以下步骤：(e)在所述表面上扩增所述至少一个物理连接的核酸复合物扩增子，以再增殖与所述表面结合的所述物理连接的核酸复合物扩增子的簇；(f)去除未在(b)中去除的处于其它取向的所述物理连接的核酸复合物扩增子；(g)切割剩余结合的物理连接的核酸复合物扩增子，以提供包括源自所述双链靶核酸分子的另一条原始链的信息的单链扩增子；以及(h)对所述单链扩增子进行测序，以提供源自所述双链靶核酸分子的另一条原始链的测序读段。

在一些方面，所述方法进一步包括以下步骤：将来自所述一条原始链的序列读段与来自另一条原始链的序列读段进行比较，以产生所述双链靶核酸分子的共有序列。在一些方面，所述方法进一步包括以下步骤：标识来自所述一条原始链的序列读段和来自另一条原始链的序列读段中的序列变异，其中来自所述一条原始链和另一条原始链的所述序列变异是一致的序列变异；或者消除或忽视在所述一条原始链中而不在另一条原始链中发生的序列变异。在一些方面，所述方法进一步包括以下步骤：将来自所述一条原始链的序列读段与来自另一条原始链的序列读段进行比较；标识来自所述一条原始链的序列读段与来自另一条原始链的序列读段之间不一致的核苷酸位置；以及通过忽略、消除或校正已标识的所述不一致的核苷酸位置来产生所述双链靶核酸分子的错误校正的序列。

在一些方面，本公开提供对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸步骤包括第一链和第二链，所述方法包括以下步骤：(a)在表面上扩增多种物理连接的核酸复合物，以产生多个克隆簇，每个克隆簇包括多个物理连接的核酸复合物扩增子，每个核酸复合物扩增子包括第一链扩增子和第二链扩增子，其中每种物理连接的核酸复合物包括：(i)来自所述群体的双链靶核酸分子；(ii)与所述双链靶核酸分子的第一端连接的包括接头结构域的第一衔接子；以及(iii)与所述双链靶核酸分子的第二端连接的具有双链部分和单链部分的第二衔接子；(b)从以(i)所述反向取向或(ii)所述正向取向与所述表面结合的每个克隆簇中去除所述物理连接的核酸复合物扩增子；(c)切割(b)之后剩余的剩余表面结合的物理连接的核酸复合物扩增子的一部分，并且由此物理分离所述第一链扩增子和所述第二链扩增子；(d)去除未结合的物理分离的第一链扩增子或第二链扩增子；以及(e)对与所述表面结合的剩余物理分离的第一链扩增子或第二链扩增子进行测序，以针对所述表面上的每个克隆簇产生所述第一链或所述第二链的核酸序列读段。在一些方面，切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的所述克隆簇中的至少一些克隆簇中的至少一个物理连接的核酸复合物扩增子。在一些方面，所述方法进一步包括以下步骤：(f)在所述克隆簇中的至少一些克隆簇中，在所述表面上扩增所述至少一个物理连接的核酸复合物扩增子，以再增殖与所述表面结合的物理连接的核酸复合物扩增子的所述克隆簇；(g)从步骤(b)中去除处于其它取向的所述物理连接的核酸复合物扩增子；(h)去除未结合的物理分离的第一链扩增子或第二链扩增子；(i)切割(h)之后剩余的剩余结合的物理连接的核酸复合物扩增子，并且由此物理分离所述第一链扩增子和所述第二链扩增子；以及(j)对与所述表面结合的剩余物理分离的第一链扩增子或第二链扩增子进行测序，以针对所述表面上的每个克隆簇产生所述第一链或所述第二链的核酸序列读段。

在一些方面，本公开提供对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸步骤包括第一链和第二链，所述方法包括以下步骤：(a)扩增在表面上结合的多种物理连接的核酸复合物，以产生多个簇，每个簇包括表示原始双链靶核酸分子的多个物理连接的核酸复合物扩增子，其中每个物理连接的核酸复合物扩增子包括第一链扩增子和第二链扩增子，并且其中每个物理连接的核酸复合物包括来自所述群体的双链靶核酸分子，所述双链靶核酸分子：(i)在一端处与包括介于所述第一链与所述第二链之间的接头结构域的第一衔接子连接；以及(ii)在另一端处与具有双链部分和单链部分的第二衔接子连接；(b)切割所述表面结合的物理连接的核酸复合物扩增子，并且由此物理分离所述第一链扩增子和所述第二链扩增子；(c)去除未结合的物理分离的第一链扩增子和/或未结合的物理分离的第二链扩增子，其中与所述表面结合的剩余扩增子包括：(i)所述物理分离的第一链扩增子；以及(ii)所述物理分离的第二链扩增子；(d)对与所述表面结合的所述物理分离的第一链扩增子进行测序，以针对所述表面上的每个簇产生所述第一链的核酸序列读段；以及(e)对与所述表面结合的所述物理分离的第二链扩增子进行测序，以针对所述表面上的每个簇产生所述第二链的核酸序列读段。

在一些方面，针对所述表面上的所述簇中的至少一些簇，所述方法进一步包括以下步骤：将所述第一链的所述核酸序列读段与所述第二链的所述核酸序列读段进行比较，以产生原始双链靶核酸分子的错误校正的序列读段。在一些方面，所述方法进一步包括以下步骤：使用唯一分子标识符(UMI)使来自所述群体的原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段相关。在一些方面，所述UMI包括所述表面上的物理位置。在另一方面，所述UMI包括标签序列、分子特异性特征、所述表面上的簇位置或其组合。在一些方面，所述分子特异性特征包括针对参考序列的核酸映射信息、所述双链靶核酸分子的末端处或其附近的序列信息、所述双链靶核酸分子的长度或其组合。

在一些方面，所述方法进一步包括以下步骤：使用链限定元件(SDE)区分原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段。在一些方面，所述SDE是序列读段信息与步骤(e)和(j)或步骤(d)和(e)的关联。在一些方面，所述SDE包括衔接子序列的一部分。

在一些方面，对所述物理分离的第一链扩增子或所述第二链扩增子进行测序包括合成测序。

在一些方面，所述方法进一步包括以下步骤：通过将所述第一衔接子和所述第二衔接子与所述群体中的多个双链靶核酸分子中的每一个连接来制备所述物理连接的核酸复合物；以及将所述物理连接的核酸复合物呈递到所述表面，所述表面具有与所述第二衔接子的所述单链部分至少部分互补的多个结合的寡核苷酸，使得多种物理连接的核酸复合物通过与所述多个结合的寡核苷酸杂交而捕获在所述表面上。在一些方面，所述方法进一步包括以下步骤：在呈递步骤之前扩增所述物理连接的核酸复合物。在一些方面，在所述呈递步骤之前扩增所述物理连接的核酸复合物包括PCR扩增或环状扩增。在其它方面，所述物理连接的核酸复合物以正向和反向两种取向被捕获在所述表面上。

在一些方面，所述扩增步骤包括桥式扩增。

在一些方面，所述用于所述群体中的双链靶核酸分子中的至少一些双链靶核酸分子的方法进一步包括以下步骤：(i)将来自所述第一链的序列读段与来自所述第二链的序列读段进行比较；(ii)标识来自所述第一链的序列读段与来自所述第二链的序列读段之间不一致的核苷酸位置；以及(iii)通过忽略、消除或校正已标识的不一致的核苷酸位置来产生所述双链靶核酸分子的错误校正的序列读段。

在一些方面，所述第一衔接子包括可切割位点或基序。在一些方面，所述第一衔接子和所述第二衔接子各自包括测序引物结合位点以及任选地单分子标识符(SMI)序列。在一些方面，所述第二衔接子包括测序引物结合位点、扩增引物结合位点、索引序列或其任何组合。在一些方面，所述接头结构域包括切割位点。在一些方面，所述第一衔接子包括可切割结构域。在一些方面，所述第一衔接子包括发夹环结构，所述发夹环结构包括自互补茎部分和单链核苷酸环部分。在一些方面，所述单链核苷酸环部分包括可切割结构域。在一些方面，所述茎部分包括可切割结构域。在一些方面，所述可切割结构域包括酶识别位点。在一些方面，所述酶识别位点是核酸内切酶识别位点。在一些方面，所述核酸内切酶是限制酶或靶向核酸内切酶。

在一些方面，所述第二衔接子是“Y”形衔接子。在一些方面，所述Y形衔接子的一个或两个臂可以与结合到所述表面的寡核苷酸杂交。

在一些方面，所述第二衔接子的所述单链部分包括具有第一引物结合位点的第一臂和具有第二引物结合位点的第二臂。在一些方面，当变性时，所述物理连接的双链核酸复合物从5'到3'或从3'到5'包括：所述第一引物结合位点、所述第一链、包括所述接头结构域的所述第一衔接子、所述第二链和所述第二引物结合位点。

在一些方面，所述表面是测序表面。在一些方面，所述表面是流动池。在其它方面，所述表面是珠粒的表面。

在一些方面，所述扩增选自由以下组成的组：PCR扩增、等温扩增、克隆扩增、簇扩增和桥式扩增。在一些方面，所述扩增是所述表面上的桥式扩增。

在一些方面，所述多个第一链扩增子和/或所述多个第二链扩增子中的一个或多个以正向取向与表面结合。在一些方面，所述多个第一链扩增子和/或所述多个第二链扩增子中的一个或多个以反向取向与所述表面结合。

在一些方面，所述方法进一步包括以下步骤：在所述扩增之前使所述多种物理连接的双链核酸复合物流过所述表面。

在一些方面，所述表面包括与所述第二衔接子的一个或多个区域至少部分互补的多种一个或多个结合的寡核苷酸。在一些方面，所述多种一个或多个结合的寡核苷酸与所述第二衔接子的所述单链部分至少部分互补。

在一些方面，所述物理连接的核酸复合物的第一链和第二链通过多次扩增反应扩增以在所述表面上产生所述物理连接的核酸复合物扩增子的簇。在一些方面，所述多种物理连接的核酸复合物中的每一种的所述第一链和所述第二链扩增以在所述表面上同时产生所述多个簇。

在一些方面，切割所述结合的物理连接的核酸复合物扩增子的一部分包括在所述第一衔接子中的可切割位点处进行低效切割，从而在所述表面上的每个簇内产生经切割的核酸复合物和未切割的核酸复合物两者。在一些方面，流动池上的每个簇内的所有核酸复合物中的未切割核酸复合物的比率为1％、5％、10％、20％、30％、40％、45％或50％。在一些方面，所述经切割的核酸复合物在所述第一衔接子的所述接头结构域中的可切割位点处被切割促进剂切割。在一些方面，所述切割是定点酶促反应。在一些方面，所述切割促进剂是核酸内切酶。在一些方面，所述核酸内切酶是限制性位点核酸内切酶或靶向核酸内切酶。在一些方面，所述切割促进剂选自由以下组成的组：核糖核蛋白、Cas酶、Cas9样酶、大范围核酸酶、转录激活因子样基于效应子的核酸酶(TALEN)、锌指核酸酶、argonaute核酸酶或其组合。在一些方面，所述切割促进剂包括CRISPR相关酶。在一些方面，所述切割促进剂包括Cas9或CPF1或其衍生物。在其它方面，所述切割促进剂包括切口酶或切口酶变体。在一些方面，所述切割促进剂包括化学过程。

在一些方面，所述表面上剩余的未切割的核酸复合物的量可通过控制被引入用于定点切割的所述切割促进剂的量或浓度或通过控制被引入用于定点切割的所述切割促进剂的时间量来缩放。在一些方面，所述未切割的核酸复合物是通过在切割步骤之前或期间添加抗切割促进剂来保护的。在一些方面，所述抗切割促进剂在所述第一衔接子的所述接头结构域中包括抗切割基序。在一些方面，所述可切割位点已经存在于所述第一衔接子的所述接头结构域中，并且抗切割基序是通过与包括与所述第一衔接子的接头结构域至少部分互补的序列的寡核苷酸的杂交而产生的。

在一些方面，切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括以下步骤：(i)引入所述抗切割促进剂；以及(ii)在(i)之后或同时，引入所述切割促进剂，其中与所述抗切割促进剂的相互作用保护物理连接的核酸复合物扩增子免于切割。在一些方面，所述可切割位点是通过与包括与所述第一衔接子的所述接头结构域至少部分互补的序列的寡核苷酸杂交而产生的，并且其中未与所述寡核苷酸杂交的物理连接的核酸复合物扩增子未被切割。在一些方面，所述可切割位点是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第一寡核苷酸杂交而产生的，并且抗切割基序是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第二寡核苷酸杂交而产生的，并且其中切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括：(i)引入所述第一寡核苷酸和所述第二寡核苷酸的混合物；以及(ii)引入所述切割促进剂。在一些方面，所述第一寡核苷酸或所述第二寡核苷酸被甲基化。在一些方面，所述杂交可以通过控制被引入用于杂交的所述寡核苷酸的量或浓度或通过控制被引入用于杂交的所述寡核苷酸的时间量来缩放。在一些方面，所述抗切割基序包括具有阻止进入切割位点的大体积加合物或侧链的寡核苷酸序列。在一些方面，所述抗切割基序包括具有阻止切割促进剂识别所述切割位点的一个或多个错配的寡核苷酸序列。在一些方面，所述抗切割基序包括以下中的一个或多个：具有核苷类似物的寡核苷酸序列、无碱基位点、核苷酸类似物和肽核酸键。

在一些方面，所述经切割的核酸复合物在所述第一衔接子中的可切割位点处被催化活性酶切割，并且所述未切割的核酸复合物在所述第一衔接子中受催化灭活酶保护免于切割。在一些方面，所述切割位点位于所述第一衔接子的自互补部分或所述第一衔接子的单链部分中。在一些方面，当所述物理连接的核酸复合物扩增子在所述表面上处于自杂交构型时，所述切割位点是可用的。在一些方面，当所述物理连接的核酸复合物扩增子处于双链桥式扩增构型时，所述切割位点是可用的。

在一些方面，所述方法进一步包括以下步骤：在步骤(a)之前使具有一个或多个靶向基因组区域的物理连接的核酸复合物选择性富集，以提供多个富集的物理连接的核酸复合物。

附图说明

参考以下共同构成图的附图，可以更好地理解本公开的许多方面。这些图仅用于说明目的，而非用于限制。在图中的组分不一定是按比例的。而是将重点放在清楚地展示本公开的原理。

图1A和1B是根据本发明技术的实施例的各种双链测序方法步骤的概念图示。

图2A和2B展示了用于与本发明技术的实施例一起使用的核酸衔接子分子以及并且根据本发明技术的另一个实施例的由于此类衔接子与靶双链核酸片段连接而形成的双链衔接子-核酸复合物。

图3A-3D展示了根据本发明技术的实施例的用于对双链衔接子-核酸复合物进行测序的方法中的步骤。

图4A-4E展示了根据本发明技术的另一个实施例的用于对双链衔接子-核酸复合物进行测序的方法中的步骤。

图5A-5E展示了根据本发明技术的另外的实施例的用于对双链衔接子-核酸复合物进行测序的方法中的步骤。

图6-11B展示了根据本发明技术的实施例的各种衔接子及其用途。

图12A-12C展示了根据本发明技术的又另一个实施例的用于切割双链衔接子-核酸复合物的方法。

定义

为了更容易理解本公开，下面首先定义某些术语。用于以下术语和其它术语的另外的定义在整个说明书中阐述。

在本申请中，除非在上下文中另有说明，否则术语“一个”可以理解为表示“至少一个”。如在本申请中所使用的，术语“或”可以理解为意指“和/或”。在本申请中，术语“包括(comprising)”和“包含(including)”可以被理解为包含逐项列出的组件或步骤，无论是由它们单独呈现还是与一个或多个另外的组件或步骤一起呈现。在本文提供范围的情况下，包含端点。如在本申请中所使用的，术语“包括(comprise)”和所述术语的变体，如“包括(comprising)”和“包括(comprises)”，并不旨在排除其它添加剂、组分、整体或步骤。

约：术语“约”当在本文中参考值使用时，是指在上下文中与参考值类似的值。一般来说，熟悉上下文的本领域技术人员将理解在所述上下文中由“约”所包含的相关变化程度。例如，在一些实施例中，术语“约”可以涵盖一些在参考值的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小的范围内的值。

类似物：如本文中所使用的，术语“类似物”是指与参考物质共享一个或多个特定结构特征、元素、组分或部分的物质。通常，“类似物”示出与参考物质显著的结构相似性，例如共享核心或共识结构，但在某些离散方式上也有所不同。在一些实施例中，类似物是可以例如通过化学操纵参考物质从参考物质中产生的物质。在一些实施例中，类似物是可以通过执行与产生参考物质的合成过程基本上类似(例如，共享多个步骤)的合成过程产生的物质。在一些实施例中，类似物是通过或可以是通过执行与用于产生参考物质的合成过程不同的合成过程产生的。

生物样品：如本文中所使用的，术语“生物样品”或“样品”通常是指如本文所描述的从所关注的生物源(例如，组织或生物体或细胞培养物)获得或衍生的样品。在一些实施例中，所关注的来源包括生物体，如动物或人。在其它实施例中，所关注的来源包括微生物，如细菌、病毒、原生动物或真菌。在另外的实施例中，所关注的来源可以是合成组织、生物体、细胞培养物、核酸或其它材料。在又另外的实施例中，所关注的来源可以是基于植物的生物体。在又另一个实施例中，样品可以是环境样品，例如水样品、土壤样品、考古样品或从非生物源收集的其它样品。在其它实施例中，样品可以是多生物体样品(例如，混合生物体样品)。在一些实施例中，生物样品是或包括生物组织或流体。在一些实施例中，生物样品可以是或包括骨髓；血液；血细胞；腹水；组织或细针活检样品；含有细胞的体液；自由漂浮的核酸；痰；唾液；尿液；脑脊液、腹膜液；胸膜液；粪便；淋巴液；妇科流体；皮肤拭子；阴道拭子；巴氏涂片、口腔拭子；鼻拭子；冲洗液或灌洗液，如导管灌洗液或肺泡灌洗液；阴道流体、抽吸物；废料；骨髓样本；组织活检样本；胎儿组织或流体；外科样本；粪便、其它体液、分泌物和/或排泄物；和/或由此的细胞等。在一些实施例中，生物样品是或包括从个体获得的细胞。在一些实施例中，获得的细胞是或者包含来自从中获得样品的个体的细胞。在特定实施例中，生物样品是从受试者获得的液体活检样品。在一些实施例中，样品是通过任何合适的方式直接从所关注的来源获得的“初级样品”。例如，在一些实施例中，初级生物样品通过选自由以下组成的组的方法来获得：活检(例如，细针抽吸或组织活检)、手术、体液(例如，血液、淋巴液、粪便等)的收集。在一些实施例中，如将从上下文中清楚的是，术语“样品”是指通过处理(例如，通过除去初级样品的一种或多种组分和/或通过向初级样品中加入一种或多种药剂)初级样品获得的制剂。例如，使用半透膜过滤。此类“经处理的样品”可以包括例如从样品中提取的或者通过使初级样品经历例如mRNA的扩增或反转录、某些组分的分离和/或纯化等的技术而获得的核酸或蛋白质。切割位点：也称为“切割基序”和“切口位点”，是核酸分子中核苷酸之间的键或键对。在双链核酸分子(如双链DNA)的情况下，切割位点可以需要在双链分子中彼此紧邻的键(通常是磷酸二酯键)，使得在切割后形成“钝”端。切割位点也可以需要在成对的每条单链上的两个核苷酸键，这两个核苷酸键不是彼此直接相对的，使得当被切割时，留下“粘性末端”，从而单链核苷酸的区域保留在分子的末端。切割位点可以由特定核苷酸序列定义，所述特定核苷酸序列能够被酶如限制酶或另一种具有序列识别能力的核酸内切酶如CRISPR/Cas9识别。切割位点可以在此类酶(即1型限制酶)的识别序列内，或者通过一些确定的核苷酸间隔(即2型限制酶)与它们相邻。切割位点也可以由能够被某些核酸酶识别的经修饰的核苷酸的位置来定义。例如，无碱基位点可以被核酸内切酶VII以及酶FPG识别和切割。尿嘧啶碱基可以被酶UDG识别并变成无碱基位点。当退火至互补的DNA序列时，另外的DNA序列中含核糖的核苷酸可以被RNAseH2识别和切割。

确定：本文描述的许多方法包含“确定”的步骤。阅读本说明书的本领域普通技术人员将理解，这样的“确定”可以利用或通过使用本领域技术人员可用的各种技术中的任何一种来实现，包含例如本文明确提及的特定技术。在一些实施例中，确定包含物理样品的操作。在一些实施例中，确定包含对数据或信息的考虑和/或操纵，例如利用适于执行相关分析的计算机或其它处理单元。在一些实施例中，确定包含从来源接收相关信息和/或材料。在一些实施例中，确定包含将样品或实体的一个或多个特征与可比参考进行比较。

双链测序(DS)：如本文所使用的，“双链测序(DS)”在其最广泛的意义上是指通过将来自各个DNA分子中的两条链的序列进行比较来实现卓越准确度的错误校正的方法。

错误校正的：如本文所使用的，术语“错误校正的”或“错误校正”是指在核酸分子的双链部分的两条链彼此不完全互补的核酸分子区域中，标识并随后忽略、消除或以其它方式校正一个或多个核苷酸错误的所得产物或过程(例如，由于核苷酸错配)。在一些方面中，错配可以是点突变、缺失、插入或化学修饰的结果。在一些方面中，错配包含具有序列的相对链的碱基对，例如但不限于A-A、C-C、T-T、G-G、A-C、A-G、T-C、T-G或这些对的反向(其是等效的，即A-G相当于G-A)，使碱基中的一个或多个碱基的缺失、插入或其它修饰。错配可以是生物源性的、DNA合成源性的，或者是由受损或经修饰的核苷酸碱基引起的错配。在一些方面中，受损或经修饰的核苷酸碱基存在于一条或两条链上，并通过酶促过程(例如，DNA聚合酶、DNA糖基化酶或另一种核酸修饰酶或化学过程)转化为错配。在一些方面中，此错配可以用于在酶促过程或化学处理之前推断核酸损伤或核苷酸修饰的存在。

表达：如本文中所使用的，核酸序列的“表达”是指下列事件中的一个或多个：(1)由DNA序列产生RNA模板(例如，通过转录)；(2)处理RNA转录物(例如，通过剪接、编辑、5'帽形成和/或3'端形成)；(3)将RNA翻译成多肽或蛋白质；和/或(4)多肽或蛋白质的翻译后修饰。

官能化的表面：如本文所使用的，术语“官能化的表面”是指能够结合或固定核酸分子或其它捕获部分的固体表面、珠粒或另一个固定结构。在一些实施例中，官能化的表面包括能够捕获靶核酸的结合部分。在一些实施例中，结合部分与表面直接连接。在一些实施例中，与靶核酸至少部分互补的寡核苷酸充当结合部分。在一些实施例中，寡核苷酸与表面共价结合。在一些实施例中，官能化的表面可以包括可控孔玻璃(CPG)、磁性多孔玻璃(MPG)以及其它玻璃或非玻璃表面。在一个实施例中，官能化的表面可以是测序表面，如流动池的表面。化学官能化可以需要酮修饰、醛修饰、硫醇修饰、叠氮化物修饰和炔烃修饰等。在一些实施例中，官能化的表面和用于杂交捕获的寡核苷酸使用一组或多组形成酰胺键、烷基胺键、硫脲键、重氮键、肼键以及其它表面化学物质的固定化化学物质连接。在一些实施例中，使用一组试剂中的一种或多种连接官能化的表面和用于杂交捕获的寡核苷酸，所述试剂包含EDAC、NHS、高碘酸钠、戊二醛、吡啶基二硫化物、亚硝酸、生物素以及其它连接试剂。

gRNA：如本文中所使用的，“gRNA”或“向导RNA”是指短的RNA分子，其包含适于靶向核酸内切酶(例如，Cas酶如Cas9或Cpf1或具有类似性质的另一种核糖核蛋白等)的支架序列，所述靶向的核酸内切酶结合至有助于切割DNA或RNA的特定区域的基本上靶特异性的序列。

突变：如本文所使用的，术语“突变”是指核酸序列或结构相对于参考序列的改变。多核苷酸序列的突变可以包含点突变(例如，单碱基突变)、多核苷酸突变、核苷酸缺失、序列重排、核苷酸插入和样品中DNA序列的重复，以及复杂的多核苷酸变化。突变可以在双链DNA分子的两条链上发生作为互补碱基变化(即，真正的突变)，或者作为在一条链上而不在另一条链上的突变(即，异源双链)，所述突变有可能被修复、破坏或被错误修复/转化为真正的双链突变。参考序列可以存在于数据库中(即，HG38人参考基因组)或与序列进行比较的另一个样品的序列。突变也被称为遗传变体。

核酸：如本文所使用的，在其最广泛的意义上，是指被掺入到或可以被掺入到寡核苷酸链中的任何化合物和/或物质。在一些实施例中，核酸是通过磷酸二酯键被掺入到或可以被掺入到寡核苷酸链中的化合物和/或物质。如将从上下文中可以清楚的是，在一些实施例中，“核酸”是指单个核酸残基(例如，核苷酸和/或核苷)；在一些实施例中，“核酸”是指包括单个核酸残基的寡核苷酸链。在一些实施例中，“核酸”是或包括RNA；在一些实施例中，“核酸”是或包括DNA。在一些实施例中，核酸是一个或多个天然核酸残基、包括其或由其组成。在一些实施例中，核酸是一种或多种核酸类似物、包括其或由其组成。在一些实施例中，核酸类似物不同于核酸，因为其不利用磷酸二酯主链。例如，在一些实施例中，核酸是一种或多种“肽核酸”、包括其或由其组成，所述“肽核酸”是本领域中已知的，并且在主链中具有肽键而不是磷酸二酯键，被认为在本发明技术的范围内。可替代地或另外地，在一些实施例中，核酸具有一个或多个硫代磷酸酯和/或5'-N-亚磷酰胺键，而不是磷酸二酯键。在一些实施例中，核酸是、包括或由一种或多种天然核苷(例如，腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸腺嘧啶、脱氧鸟苷和脱氧胞苷)组成。在一些实施例中，核酸是以下、包括以下或由以下组成：一种或多种核苷类似物(例如，2-氨基腺苷、2-硫代嘧啶、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、C-5丙炔基-胞苷、C-5丙炔基-尿苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、2-硫代胞苷、甲基化碱基、插层碱基及其组合)。在一些实施例中，与通常存在的天然核酸中的核酸相比，核酸包括一种或多种经修饰的糖(例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖、己糖或锁核酸)。在一些实施例中，核酸具有编码功能基因产物，如RNA或蛋白质的核苷酸序列。在一些实施例中，核酸包含一个或多个内含子。在一些实施例中，核酸可以是非蛋白质编码RNA产物，如微RNA、核糖体RNA或CRISPR/Cas9向导RNA。在一些实施例中，核酸在基因组中起调节作用。在一些实施例中，核酸不是来自基因组。在一些实施例中，核酸包含基因间序列。在一些实施例中，核酸源自染色体外元件或非细胞核基因组(线粒体、叶绿体等)。在一些实施例中，核酸通过从天然来源分离、通过基于互补模板的聚合的酶促合成(体内或体外)、在重组细胞或系统中的复制和化学合成中的一种或多种来制备。在一些实施例中，核酸是至少2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000或更多的残基长度。在一些实施例中，核酸是部分或全部单链的；在一些实施例中，核酸是部分或全部双链的。在一些实施例中，核酸具有包括至少一种编码多肽的元件核苷酸序列，或者是编码多肽的序列的补体。在一些实施例中，核酸具有酶促活性。在一些实施例中，核酸发挥机械功能，例如在核糖核蛋白复合物或转移RNA中。在一些实施例中，核酸充当衔接子。在一些实施例中，核酸可以用于数据存储。在一些实施例中，核酸可以在体外化学合成。

参考：如本文中所使用的，描述了相对于其进行比较的标准或对照。例如，在一些实施例中，所关注的药剂、动物、个体、群体、样品、序列或值与参考或对照药剂、动物、个体、群体、样品、序列或值进行比较。在一些实施例中，基本上与所关注的测试或确定同时测试和/或确定参考或对照。在一些实施例中，参考或对照是历史参考或对照，任选地包含在有形介质中。通常地，如本领域技术人员将理解的，参考或对照在与被评估的条件或环境可比较的条件或环境下确定或表征。本领域技术人员将理解何时存在足够的相似性以证明对特定的可能的参考或对照的依赖和/或比较。

序列读段：如本文所使用的，术语“序列读段”或“测序读段”是指与参考核酸分子或靶核酸分子相对应的核酸序列数据。在一些方面中，数据是与由测序平台处理的参考核酸分子或靶核酸分子的全部或部分(例如，其片段或部分)相对应的碱基对(或碱基对概率)的推断序列。序列读段长度可以处于若干个碱基对(bp)到数百个千碱基(kb)的范围内。序列读段长度可能受到参考核酸分子或靶核酸分子的大小或长度以及所使用的测序平台的影响。在一些方面，序列读段是使用测序技术产生的，如但不限于下一代测序平台，例如，

牛津纳米孔测序系统(Oxford Nanopore sequencing systems)、

Ion

测序系统、Roche 454GS

Illumina Genome

AppliedBiosystems SOLiD

Helicos

Complete

和PacificBiosciences

单分子标识符(SMI)：如本文中所使用的，术语“单分子标识符”或“SMI”(其可以被称为“标签”、“条形码”、“分子条形码”、“唯一分子标识符”或“UMI”，以及其它名称)是指能够在大的异质分子群体中区分单个分子的任何材料(例如，核苷酸序列、核酸分子特征)。在一些实施例中，SMI可以是或包括外源性应用的SMI。在一些实施例中，外源性应用的SMI可以是或包括简并或半简并序列。在一些实施例中，基本上简并SMI可以被称为随机唯一分子标识符(R-UMI)。在一些实施例中，SMI可以包括来自已知代码池内的代码(例如，核酸序列)。在一些实施例中，预定义的SMI代码被称为定义的唯一分子标识符(DUMI)。在一些实施例中，SMI可以是或包括内源性SMI。在一些实施例中，内源性SMI可以是或包括与靶序列的特定剪切点或与包括靶序列的单个分子的末端相关的特征相关的信息。在一些实施例中，SMI可以涉及由对核酸分子的随机或半随机损伤、化学修饰、酶促修饰或其它修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在一些实施例中，SMI可以包括外源性元件和内源性元件两者。在一些实施例中，SMI可以包括物理上相邻的SMI元件。在一些实施例中，SMI元件在分子中可以在空间上不同。在一些实施例中，SMI可以是非核酸。在一些实施例中，SMI可以包括两种或更多种不同类型的SMI信息。在国际专利公开第WO2017/100441号中进一步公开了SMI的各个实施例，所述国际专利公开以全文引用的方式并入到本文中。

链限定元件(SDE)：如本文中所使用的，术语“链限定元件”或“SDE”是指允许识别双链核酸材料的特定链并且因此与另一/互补链区分的任何材料(例如，在测序或其它核酸询问后，使由靶双链核酸产生的两个单链核酸中的每一个的扩增产物基本上彼此可区分的任何材料)。在一些实施例中，SDE可以是或包括衔接子序列中基本上非互补序列的一个或多个片段。在特定实施例中，衔接子序列中基本上非互补的序列的片段可以由包括Y形或“环”形的衔接子分子提供。在其它实施例中，衔接子序列中基本上非互补序列的片段可能在衔接子序列中相邻互补序列的中间形成不成对的“泡”。在其它实施例中，SDE可以涵盖核酸修饰。在一些实施例中，SDE可以包括成对的链物理分离成物理分离的反应室。在一些实施例中，SDE可以包括化学修饰。在一些实施例中，SDE可以包括经修饰的核酸。在一些实施例中，SDE可能涉及由对核酸分子的随机或半随机损伤、化学修饰、酶促修饰或其它修饰引起的核酸分子中的序列变异。在一些实施例中，修饰可以是甲基胞嘧啶的脱氨基。在一些实施例中，修饰可能需要核酸切口的位点。在国际专利公开第WO2017/100441号中进一步公开了SDE的各个实施例，所述国际专利公开以全文引用的方式并入到本文中。

受试者：如本文中所使用的，术语“受试者”是指生物体，通常是哺乳动物(例如，人，在一些实施例中包含产前人类形式)。在一些实施例中，受试者患有相关疾病、病症或病状。在一些实施例中，受试者易患疾病、病症或病状。在一些实施例中，受试者表现出疾病、病症或病状的一种或多种症状或特征。在一些实施例中，受试者没有表现出疾病、病症或病状的任何症状或特征。在一些实施例中，受试者是具有对疾病、病症或病状的易感性或风险特征的一个或多个特征的人。在一些实施例中，受试者是患者。在一些实施例中，受试者是被施用和/或已经被施用诊断和/或疗法的个体。

基本上：如本文中所使用的，术语“基本上”是指表现出所关注的特征或性质的全部或接近全部的范围或程度的定性条件。生物学领域的普通技术人员应当理解的是生物学以及化学现象很少(如果有的话)会达到完成和/或进行到完成或实现或避免一个绝对的结果。因此，术语“基本上”被用在本文来获得在许多生物学以及化学现象中潜在地缺少的内在的完全性。

变体：如本文所使用的，术语“变体”是指显示出与参考实体的显著结构同一性但与参考实体相比在一个或多个化学部分的存在或水平上与参考实体在结构上不同的实体。在核酸的上下文中，变体核酸可以具有包含多个核苷酸残基的特性序列元件，所述核苷酸残基在线性或三维空间中相对于另一核酸具有指定位置。具有同源性的序列因一个或多个变体而不同。例如，由于核酸序列中的一个或多个差异，变体多核苷酸(例如，DNA)可以与参考多核苷酸不同。在一些实施例中，变体多核苷酸序列包含相对于另一序列(例如，样品中的参考序列或其它多核苷酸(例如，DNA)序列)的插入、缺失、取代或突变。变体的实例包含SNP、SNV、CNV、CNP、MNV、MNP、突变、癌症突变、驱动子突变、乘客突变、遗传多态性。

具体实施方式

本发明技术总体上涉及用于使用双链测序提供核酸材料的错误校正序列读段的方法和用于此类方法的相关试剂。技术的一些实施例涉及用于实现以更快的速率(例如，以更少的步骤)和/或以更少的成本(例如，使用更少的试剂)提供的高准确度测序读段并产生增加的期望的数据的方法。技术的其它方面涉及用于提高双链测序的转化效率(即，产生序列的核酸分子的比例)的方法和试剂。本发明技术的各个方面在临床前和临床测试和诊断以及其它应用中具有许多应用。

下文并参考图1A-12C描述了本发明技术的若干实施例的具体细节。尽管本文关于双链测序描述了许多实施例，但是除了本文所描述的那些之外，能够产生错误校正的测序读段的其它测序方式和用于提供序列信息的其它测序方式也处于本发明技术的范围内。进一步地，本发明技术的其它实施例的配置、组件和程序可以不同于本文描述的配置、组件或程序。因此，本领域的普通技术人员因而应理解，本发明技术可以包括具有另外元件的其它实施例，并且本发明技术可以包括不具有下文参考图1A-12C示出和描述的特征中的多个特征的其它实施例。

关于双链测序过程或其它高准确度测序方式的效率，转化效率可以定义为输入到测序文库制备反应中的独特核酸分子的分数，从所述测序文库制备反应中产生至少一个双链共有序列读段(或其它高准确度序列读段)。在一些情况下，转换效率的不足可能限制高准确度双链测序在一些应用中的实用性，否则其将非常适合。例如，低转化效率将导致靶双链核酸的拷贝数有限的情况，这可能导致产生的序列信息量少于期望量。此概念的非限制性实例包含来自循环肿瘤细胞的DNA或源自肿瘤的无细胞DNA，或脱落到如血浆等体液中并与来自其它组织的过量DNA混杂的产前婴儿。其它非限制性实例包含如留在犯罪现场的数量有限的法医材料、如可能在考古遗址处发现的古代DNA、例如通过针活检、抽吸或内窥镜获得的那些非常小的活检、少量福尔马林固定的临床材料、已显微解剖的样品、来自小生物区域或人或非人生物体的样品、样品或毛发、血斑或由多细胞生物体或单细胞生物体产生或源自其的有限数量的其它生物材料，包含单细胞或少量细胞。尽管双链测序通常的准确度是能够在超过十万个未突变的分子中分辨出一个突变分子，但例如如果样品中仅10,000个分子(例如，在单拷贝基因或基因座的情况下为10,000个基因组等效物)可用，并且即使将这些转化为双链共有序列读段的理想效率为100％，可以测量的最低突变频率也是1/(10,000^*100％)＝1/10,000。作为临床诊断，具有检测低水平癌症信号或治疗或诊断相关突变的最大灵敏度可能很重要，并且因此在此上下文中，相对低的转换效率将是不期望的。类似地，在法医应用中，可用于测试的DNA通常很少。当从犯罪现场或自然灾害地点只能恢复纳克或皮克数量时，和/或在来自多个人的DNA混合在一起的情况下，具有最大转换效率对于能够检测混合物内所有个体的DNA的存在可能很重要。

并入双链测序以及其它测序方式的方法可以包含将一个或多个测序衔接子连接(例如，连接)到靶双链核酸分子以产生双链靶核酸复合物。此类衔接子分子可以包含适于大规模并行测序平台的多种特征中的一种或多种，例如测序引物识别位点、扩增引物识别位点、条形码(例如，单分子标识符(SMI))序列(也称为唯一分子标识符(UMI))、索引序列、单链部分、双链部分、链区分元件或特征等。如上文所讨论的，为了获得双链测序信息，需要从原始双链分子的两条链中成功恢复序列信息。本公开的各方面提供了用于通过在扩增和测序之前物理连接链而从原始双链分子的两条链产生和关联测序信息的方法和试剂。

I.双链测序方法和相关衔接子和试剂的所选实施例

双链测序是一种用于从双链核酸分子中产生错误校正的DNA序列的方法，并且最初在国际专利公开第WO 2013/142389号和美国专利第9,752,188号中有所描述，所述两个文献以全文引用的方式并入本文。在技术的某些方面中，双链测序可以用于对各个DNA分子的两条链进行测序，其方式使得在大规模并行测序(MPS)(也通常称为下一代测序(NGS))期间，衍生序列读段可以被识别为源自相同的双链核酸亲本分子，但也作为测序后可区分的实体彼此区分。然后将来自每条链的所得序列读段进行比较，以获得原始双链核酸分子的错误校正序列。

图1是根据本发明技术的实施例的各种双链测序方法步骤的概念图示。在某些实施例中，并入双链测序的方法可以包含将一个或多个测序衔接子连接到多个靶双链核酸分子，每个靶双链核酸分子包括第一链靶核酸序列和第二链靶核酸序列以产生多个双链靶核酸复合物(图1A)。一旦形成双链核酸文库的制剂，就可以对复合物进行DNA扩增，如使用PCR或任何其它DNA扩增生化方法(例如，滚环扩增、多重置换扩增、等温扩增、桥式扩增、多克隆扩增、等温扩增或表面结合扩增)，使得产生第一链靶核酸序列的一个或多个拷贝和第二链靶核酸序列的一个或多个拷贝(例如，图1A)。然后可以对第一链靶核酸分子的一个或多个扩增拷贝和第二靶核酸分子的一个或多个扩增拷贝进行DNA测序，优选地使用“下一代”大规模平行DNA测序平台(例如，图1A)。

测序后，将从靶核酸分子的第一链产生的序列读段与从相同靶核酸分子的第二链产生的序列读段进行比较。在一些实施例中，可以从第一链和第二链产生多于一个序列读段。一旦比较，就可以产生错误校正的靶核酸分子序列(例如，图1B)。例如，其中来自第一链靶核酸序列和第二链靶核酸序列的碱基一致的核苷酸位置被认为是真序列，而在两条链之间不一致的核苷酸位置被认为是技术错误的潜在位点，其可以被忽略、消除、校正或以其它方式识别。在一些实施例中，当核苷酸位置不一致时，位点可以被标识为未知的(例如，在图1B中示出为“N”)。因此可以产生原始双链靶核酸分子的错误校正的序列(在图1B中示出)。任选地，并且在一些实施例中，并且在分别地对从第一链靶核酸分子和第二链靶核酸分子产生的每个测序读段进行分组之后，可以为第一链和第二链中的每一个生成单链共有序列。然后可以比较来自第一链靶核酸分子和第二链靶核酸分子的单链共有序列，以生成错误校正的靶核酸分子序列(例如，图1B)。

可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中生物衍生的错配的潜在位点。可替代地，在一些实施例中，两条链之间的序列不一致的位点可以被识别为原始双链靶核酸分子中来自DNA合成的错配的潜在位点。可替代地，在一些实施例中，两条链之间序列不一致的位点可以被识别为这样的潜在的位点，其中受损的或经修饰的核苷酸碱基存在于一条或两条链上，并通过酶促过程(例如，DNA聚合酶、DNA糖基化酶或另一种核酸修饰酶或化学过程)被转化为错配。在一些实施例中，经修饰的核苷酸碱基是5-甲基-胞嘧啶、8-氧代-鸟嘌呤、核糖碱基、无碱基核苷酸或尿嘧啶核苷酸。在一些实施例中，这一后来的发现可以用于推断在酶促过程或化学处理之前核酸损伤或核苷酸修饰的存在。

在某些实施例中，并且如美国专利第9,752,188号和国际专利公开第WO2017/100441号中所描述的，可以使用以下来将来自单个原始双链核酸分子的第一链测序读段和第二链测序读段相关(例如，分组)：(a)在文库制备期间与衔接子相关的单分子标识符(SMI)序列；(b)与原始双链分子相关的片段特征，如位于或接近或相对于片段末端的序列；以及其(c)组合。

在一个实施例中，用于双链测序的原始序列读段的产生体现了靶双链核酸分子的用途，其中发夹衔接子连接到分子的一端，并且“Y”形衔接子连接到分子的另一端。包括原始双链核酸分子的第一链和第二链的此连接或双链复合物可以使用任何类型的(例如，PCR或桥式)扩增进一步扩增，然后可以进行大规模并行测序(例如，合成测序、下一代测序(NGS)等)，以产生用于双链测序的序列读段。在非限制性实例中，具有发夹衔接子(即“环”或“U”形)的衔接子双链核酸复合物允许以以下方式从靶双链核酸分子的原始第一链和原始第二链产生序列读段：允许序列读段根据测序反应在流动池表面上的位置(如果通过合成测序)或以其它方式在测序反应/过程的位置的性质进行分组。

本发明技术的各方面涉及用于通过以下来将第一链测序读段和第二链测序读段关联和/或分组的方法和试剂：通过其物理连接的性质，以使得源自两条链的测序信息彼此相关的方式来物理连接第一链和第二链(例如，针对错误校正)。在某些实施例中，用于制备在双链测序中使用的测序文库的方法可以包含将发夹衔接子连接到靶双链核酸分子的一端，以及将“Y”形接头连接到同一靶双链核酸分子的相对端。在一个实施例中，发夹衔接子分子包括可切割发夹衔接子元件，用于靶双链核酸分子的靶向分离的第一链和第二链。

在一些实施例中，可以在测序仪上的测序反应期间或之后完成第一链序列读段和第二链测序读段的关联。例如，在某些实施例中，双链核酸分子的第一链和第二链通过中间接头结构域，例如发夹衔接子序列连接。在一个实施例中，源自原始核酸分子的两条链的序列信息在MPS测序仪(例如，流动池)上的相同克隆簇内产生。在测序仪上对连接的第一链和第二链进行测序面临挑战，因为自互补发夹序列可以优先在测序表面上或溶液中杂交，从而削弱聚合酶延伸。本发明技术的某些方面公开了用于克服与连接的第一链和第二链的自互补杂交相关的这些挑战，同时能够在测序仪上从同一克隆簇内的第一链和第二链获得测序读段的方法。

衔接子和衔接子序列

在各种排列中，设想包括引物位点、流动池序列和/或其它特征，如SMI(例如，分子条形码)或SDE的衔接子分子用于本文公开的许多实施例。在一些实施例中，所提供的衔接子可以是或包括与PCR引物(例如，引物位点)互补或至少部分互补的一个或多个序列，所述引物具有以下特性中的至少一种：1)高靶特异性；2)能够被多重；和3)表现出稳健和最小偏差的扩增。

在一些实施例中，衔接子分子可以是“Y”形、“U”形、“发夹”形、具有气泡(例如，非互补序列的一部分)或其它特征。在其它实施例中，衔接子分子可以包括“Y”形、“U”形、“发夹”形或气泡。出于本公开的目的，“U”形或“发夹”形衔接子均可以用于统称为具有接头结构域的衔接子，所述接头结构域将靶双链核酸分子的第一链连接(links或connects)到同一分子的第二链。某些衔接子可以包括经修饰的或非标准的核苷酸、限制性位点或用于体外操纵结构或功能的其它特征。衔接子分子可以与多种具有末端的核酸材料连接。例如，衔接子分子可以适于连接到T突出端、A突出端、CG突出端、多核苷酸突出端(在本文中也称为“粘性末端”或“粘性突出端”)或具有已知核苷酸长度(例如，1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个核苷酸)的单链突出区域、去羟基化的碱基、核酸材料的钝端和分子的末端，其中靶的5'被去磷酸化或以其它方式与传统连接阻断。在其它实施例中，衔接子分子可以在连接位点处的5'链上含有去磷酸化的或以其它方式防止连接的修饰。在后两个实施例中，此类策略可以用于防止文库片段或衔接子分子的二聚化。

图2A展示了用于与本发明技术的实施例一起使用的核酸衔接子分子以及根据本发明技术的实施例的由于衔接子分子与双链核酸片段连接而产生的双链衔接子核酸复合物。如图2A所示，第一衔接子分子(衔接子1)可以是具有第一引物位点和第二引物位点(标记为引物位点1和引物位点2)的Y形衔接子分子，并且适于通过T突出端与双链核酸片段连接。适于通过T突出端与靶核酸片段连接的第二衔接子分子(衔接子2)示出为包括单链连接结构域的发夹衔接子。双链核酸片段的群体的测序文库产生可以包含将包括衔接子1和衔接子2两者的衔接子池与双链核酸片段的群体连接。图2A展示了此描述的连接反应的一种所得产物。其它产物将包含在两端处包括衔接子1的衔接子核酸复合物和在两端处包括衔接子2的衔接子核酸复合物。在本文所描述的各个实施例中，期望产生如图2A所展示的用于与双链测序方法一起使用的衔接子核酸复合物。

图2B展示了另一个实施例，其中靶双链核酸片段包括位于片段的一端处的粘性末端1和位于片段的相对端处的粘性末端2。通过设计，粘性末端1(靶向片段的5'端处的突出端)的序列是已知的。类似地，粘性末端2(靶向片段的3'端处的突出端)的序列是已知的。在一个实施例中，粘性末端1的序列不同于粘性末端2的序列。在另一个实施例中，粘性末端1的序列与粘性末端2的序列长度不同。在另外的实施例中，粘性末端1是5'突出端，并且粘性末端2是3'突出端。可以合成包括基本上互补序列的特异性衔接子，使得片段可以在两端处连接到衔接子。在一个实施例中，衔接子可以不同(例如，衔接子1可以包括Y形并且衔接子2可以包括U形)。在其它实施例(未示出)中，衔接子可以是相同类型的衔接子(例如，包括Y形、U形的衔接子、条形码衔接子等)。如图2B所展示的，此设计允许每个靶双链核酸分子在一端上具有Y形衔接子并且在另一端上具有发夹(例如，具有连接结构域的衔接子)。如此，当变性时，衔接子核酸复合物包括单链分子，所述单链分子包括第一引物位点、第一链、连接结构域、第二链和第二引物位点。在其它应用中，设计特异性衔接子以定位在片段的5'端或3'端中可能具有优势。靶向片段上的基本上独特的粘性末端的特异性促进了这些类型的应用。此外，成功切割和衔接子连接的靶片段的阳性选择可以确保仅扩增靶标富集的核酸区域并对其进行测序。

因此，在一些实施例中，衔接子分子组可以包括相对于其它衔接子分子组不同的或独特的或半独特的粘性突出端。不同类型的粘性末端的数量可以是2个或3个、4个、5个、6个、7个、8个、9个或10个或更多个。其可以是约11个或12个或15个或20个或25个或30个或35个或40个或45个或50个或60个或70个或80个或90个或100个或120个或140个或150个或200个或300个或400个或500个或750个或1000个或更多个。在特定实例中，发夹衔接子分子可以包括适于连接到第一互补片段粘性末端的第一粘性突出端，并且Y形衔接子可以包括适于连接到第二互补片段粘性末端的第二粘性突出端。如此，核酸分子的群体的测序文库制备可以包括产生具有第一粘性末端和第二粘性末端的核酸片段，并且将核酸片段连接到发夹和Y形衔接子。所得测序文库可以包括多个双链衔接子核酸片段复合物，每个复合物具有第一端上的发夹衔接子以及第二端上的Y形衔接子。

扩增

在一个实施例中，方法可以包含在测序仪表面上如流动池的表面上扩增包括第一链和第二链两者的衔接子核酸复合物。在一些实施例中，表面上的扩增，如流动池的表面上的桥式扩增包含产生结合核酸模板的簇或多个拷贝。在特定实施例中，连接的第一链和第二链核酸模板可以在流动池的表面上桥式扩增，例如以产生多个克隆簇，其中每个克隆簇包括源自原始双链核酸分子的原始第一链和第二链两者的核酸模板拷贝。簇中的克隆拷贝中的一些克隆拷贝将处于正向取向，而其余的将处于反向取向。本领域的普通技术人员将理解的是，使用扩增的多克隆扩增、簇扩增、桥式扩增等各个实施例包含使衔接子核酸复合物流过提供与Y形衔接子的区域至少部分互补的结合寡核苷酸的表面的步骤。表面可以提供有一种或多于一种与衔接子的部分互补的寡核苷酸。实际上，Y形衔接子的两个臂都可以与流动池的表面杂交。

桥式扩增(未示出)可以用于产生复合物的多个拷贝以形成集落或簇(本文也称为克隆簇)。每个克隆簇包括源自原始分子(例如，衔接子核酸复合物)在正向取向和反向取向两者上的所述多个拷贝。

在一个实施例中，当处于正向取向的拷贝或处于反向取向的拷贝被切割并去除时，可以进行测序反应。图3A展示了在衔接子核酸复合物(例如，双链核酸复合物)的桥式扩增之后和在包括正向取向的拷贝(例如，其中核酸序列“2”与流动池的表面结合)被切割并去除之后的过程中的步骤。如图3A所示，剩余的复合物处于反向取向(例如，其中核酸序列“1”与流动池的表面结合；例如，分子的3'端与表面结合)。在一个实施例中，第一链的核酸序列容易与第二链的互补核酸序列杂交，使得通过合成更长的复合物进行测序变得困难。所展示的复合物的结合拷贝包括由发夹衔接子(例如，衔接子2，图2A和2B)提供的衔接子结构域。在一些实施例中，接头结构域包括可切割位点或基序(“C”)。可切割位点C可以包括核苷酸序列、单核苷酸碱基、经修饰的碱基或其它酶促或非酶促可切割特征。

如图3B所示，过程可以包含包括可切割位点C的切割以将第一链序列与第二链序列分开的步骤。在一个实施例中，位于位点C处的切割事件可以由切割促进剂(例如酶、化学品等)促进。在一个实施例中，切割步骤可以是低效的，使得复合物的仅一部分在位点C处被切割。如此，复合物的一部分(例如，约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约15％、约20％、约25％、约30％、约40％、约45％、约50％或更多或更少；约1％到约10％；约10％到约25％；约25％到约45％；大于约50％、小于约10％)可以保持未切割，并且第一链序列和第二链序列保持连接。在一些方面，复合物的至少50％、至少60％、至少70％、至少80％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％例如在位点C处被切割。

在通过在位点C处切割将第一链与第二链分离后，将洗掉未结合的链(例如，邻近的核酸序列2)。例如，如图3C所示，在位点C处切割的复合物的所述部分包括仅第一链的核苷酸序列和发夹衔接子的一部分。由于复合物将不再自杂交，因此使用对衔接子具有特异性的引物(例如，在核苷酸序列1处或附近，结合分子的3'端)的测序反应可以用于执行测序反应以产生克隆簇中剩余的第一链的测序读段(图3D)。也可以产生索引读段(未示出)。请注意，第一链的测序读段是单端序列读段。在克隆簇中保持未切割的复合物保持自杂交并且由于通过测序引物难以置换较长的第二链而很可能在测序反应期间不能成功测序(图3D)。

在从存在于克隆簇中的第一链获得测序信息之后，过程的下一步包括第二轮扩增(例如，桥式扩增)以提供未切割的复合物的更多拷贝。桥式扩增需要存在于全长复合物中的核酸序列1和核酸序列2。只有剩余的未切割的复合物具有仍然存在的两个衔接子序列。如此，可以利用与流动池表面结合的剩余寡核苷酸通过桥式扩增再增殖克隆簇(图4A)。

扩增后，当处于反向取向的拷贝被切割和去除时，可以进行第二测序反应。图4B展示了在衔接子核酸复合物(例如，双链核酸复合物)的桥式扩增之后和在包括反向取向的拷贝(例如，其中核酸序列“1”与流动池的表面结合)被切割并去除之后的过程中的步骤。如图4B所示，剩余的复合物处于正向取向(例如，其中核酸序列“2”与流动池的表面结合；例如，其中分子的5'端与表面结合)。如上文所描述的，第一链和第二链的核酸序列容易杂交，使得通过合成更长的复合物进行测序变得困难。

如图4C所示，过程可以包含包括可切割位点C的切割以将第二链序列与第一链序列分开的步骤。在一个实施例中，位于位点C处的切割事件可以由切割促进剂(例如酶、化学品等)促进。如上文所讨论的，切割步骤可以是低效的，使得复合物的仅一部分被切割并且位于位点C处。如此，复合物的一部分(例如，约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约15％、约20％、约25％、约30％、约40％、约45％、约50％或更多或更少；约1％到约10％；约10％到约25％；约25％到约45％；大于约50％、小于约10％)可以保持未切割，并且第一链序列和第二链序列保持连接。可替代地，切割步骤可以是高效的，并且可以切割所有复合物(例如，如图4C所展示的)。

在通过在位点C处切割将第二链与第一链分离后，将洗掉未结合的链(例如，邻近的核酸序列1)。例如，如图4D所示，在位点C处切割的复合物的所述部分包括仅第二链的核苷酸序列和发夹衔接子的部分。由于复合物将不再自杂交，因此使用对发夹衔接子的剩余部分具有特异性的引物的测序反应可以用于执行测序反应以产生克隆簇中剩余的第二链的测序读段(图4E)。也可以产生索引读段(未示出)。请注意，第二链的测序读段是单端序列读段。一旦产生源自第一链和第二链(例如，在同一克隆簇内)两者的序列读段，就可以对其进行比较以进行错误校正。

图5A-5E展示了用于在测序表面(例如，流动池)上提供双链测序信息的双链复合物测序的另一个实施例。在图5A-5E所展示的实施例中，可以在没有第二桥式扩增步骤的情况下产生来自原始衔接子核酸复合物的第一链和第二链的序列读段。如上文所讨论的，每个双链复合物可以在表面上独立地桥式扩增以产生包括双链复合物的多个拷贝的克隆簇，所述双链复合物具有第一链和互补的第二链两者，其中中间发夹接头结构域具有可切割位点(图5A)。如上文所讨论的，拷贝可以是正向取向和反向取向的。

如图5B所示，并且在一个实施例中，双链复合物可以在切割位点C处切割(例如，通过本文进一步讨论的切割促进剂)。在C位点处切割后，非结合链被去除。参考图5C，与流动池的表面结合的剩余分子包含(a)处于反向取向的第一链序列(例如，邻近引物位点“1”)和(b)处于正向取向的第二链序列(例如，邻近引物位点“2”)。

在下一步中，使用对反向取向具有特异性的引物的第一测序反应用于获得第一链的测序信息(图5D)。可以洗掉第一测序反应中使用的引物。在下一步中，使用对正向取向具有特异性的引物的第二测序反应用于获得第二链的测序信息(图5E)。图5D和5E所展示的实施例显示出连续测序第一链和第二链。将理解的是，在另一个实施例中，可以使用例如多色化学(例如，4色化学)随后对测序/颜色频率信号进行去卷积来确定特定测序仪碱基响应或信号的来源对第一链和第二链同时进行测序(例如，在同一测序反应中)。

一旦产生来自第一链和第二链的测序读段，就可以将第一链测序读段与第二链测序读段进行比较以提供双链错误校正。本文所描述的实施例克服了与上述转化效率相关的一些挑战，因为来自每个克隆簇的测序信息提供第一链测序读段和第二链测序读段两者。

II.用于切割发夹衔接子的方法和试剂的实施例。

常规地，发夹连接的衔接子核酸复合物的测序反应可能很困难，因为聚合酶必须置换自互补的杂交区域。例如，由于衔接子核酸复合物的自互补部分非常接近，并且因为第一链和第二链的互补部分的熔融温度(Tm)高，因此基于聚合酶对此类结构进行测序仍然是提供物理连接链的双链测序数据的障碍。

如上文所讨论的，本发明技术的各方面并入了使用具有可切割位点或基序的发夹衔接子，使得第一链核酸序列和第二链核酸序列可以在测序反应期间彼此分离。

在某些实施例中，并且如图6所展示的，发夹衔接子可以(例如，在单链部分或双链部分中)包括切割基序，所述切割基序允许通过酶(例如，核酸内切酶)或其它切割促进剂(化学或非酶促过程)随后切割发夹DNA分子。参考图7，并且在一个实施例中，发夹衔接子的单链(例如，接头区域)可以使用核酸内切酶(例如，限制性位点核酸内切酶、靶核酸内切酶等)来切割。例如，图7展示了可被核酸内切酶(例如，限制酶)消化的单链切割位点(例如，核酸序列)。参考图3A-5E和7，并且在双链复合物桥式扩增之后，可以引入酶(例如，流过流动池)以在切割位点处进行切割。在一些实施例中，期望低效率切割(例如，期望剩余的一些未切割的双链复合物来接种第二轮桥式扩增)。在一些实施例中，酶促反应可以是时间或浓度控制的，使得双链复合物的一部分被切割并且一部分将保持未切割。例如，可以使有限量的限制酶流过官能化的表面，以切割大部分但不是全部的发夹DNA分子。在另一个实施例中，限制酶可以流过表面持续有限的时间量，以切割大部分但不是全部的发夹DNA分子。在另一个实施例中，其中大部分具有催化活性并且少量不具有催化活性的酶混合物可以流过官能化的表面以切割大部分但不是全部的发夹DNA分子。

图8A和8B展示了以允许对克隆簇中的双链复合物进行低效切割的方式在发夹衔接子的接头结构域中提供切割位点的另一个实施例。在此实例中，并且在引入核酸内切酶之前，方法可以提供引入与发夹衔接子的接头结构域至少部分互补的寡核苷酸。如图8B所示，引入的寡核苷酸的杂交可以防止核酸内切酶的切割(例如，提供抗切割基序“AC”)。不具有杂交的寡核苷酸的双链复合物(图8A)仍然易被核酸内切酶切割。在酶促切割之前(或在与核酸内切酶引入的同时)提供给测序流动池的寡核苷酸浓度可以可扩展以在流动池上的每个克隆簇内保留期望数量的未切割的复合物。例如，少量含有抗切割基序的寡核苷酸序列可以流过官能化的表面，导致寡核苷酸序列与每个克隆簇中的发夹DNA分子的子集(例如，有限量)杂交(图8B)。大多数发夹DNA分子(在发夹内含有切割基序)将不会与含有抗切割基序的寡核苷酸序列杂交。如此，大多数发夹DNA分子(未与含有抗切割基序的寡核苷酸序列杂交)可以在发夹衔接子内的单链切割基序处被切割。与含有抗切割基序的寡核苷酸序列杂交的发夹DNA分子保持未被酶切割。

在一个实施例中，发夹衔接子内的切割基序可以是甲基化的，并且寡核苷酸序列内的抗切割基序可以是非甲基化的。然后，仅切割甲基化DNA的酶可以流过官能化的表面。在另一个实施例中，发夹衔接子内的切割基序可以是非甲基化的，并且寡核苷酸序列内的抗切割基序可以是甲基化的。然后，仅切割非甲基化DNA的酶可以流过官能化的表面。在另一个实施例中，寡核苷酸序列内的抗切割基序可以是防止发夹DNA分子被切割的侧链。在另一个实施例中，寡核苷酸序列内的抗切割基序可以是防止发夹DNA分子被切割的大体积加合物。在另一个实施例中，寡核苷酸序列内的抗切割基序可以是防止酶切割发夹DNA分子的一个或多个错配。在另一个实施例中，抗切割基序可以是防止切割的无碱基位点。在另一个实施例中，抗切割基序可以是防止切割的核苷酸类似物。在另一个实施例中，抗切割基序可以是防止切割的肽核酸键。

在图9A-9B所示的另一个实施例中，可以提供包括与发夹衔接子的接头结构域至少部分互补的序列的寡核苷酸，以与接头结构域杂交并形成切割位点/基序。例如，识别双链切割位点的核酸内切酶可以用于切割包括由杂交寡核苷酸提供的双链区域的接头区域(图9A)。例如，寡核苷酸可以流过官能化的表面，导致寡核苷酸序列与发夹衔接子的接头区域杂交，并且由此在发夹DNA分子的一部分中提供双链切割基序(图9A)。在一个实施例中，可以使有限量的寡核苷酸流过官能化的表面，以使寡核苷酸序列与发夹DNA分子，一些但不是所有发夹DNA分子之间发生杂交。在另一个实施例中，寡核苷酸可以流过官能化的表面持续有限的时间量，以使寡核苷酸序列与发夹DNA分子，一些但不是所有发夹DNA分子之间发生杂交。与寡核苷酸序列杂交由此提供切割基序的发夹DNA分子在核酸内切酶流过官能化的表面后被切割。未与含有切割基序的寡核苷酸序列杂交的发夹DNA分子保持未切割。

在图10A-10B所展示的又另一个实施例中，可以提供包括与发夹衔接子的接头结构域至少部分互补的序列的寡核苷酸池以与接头结构域杂交。寡核苷酸池可以包含寡核苷酸的子集，所述寡核苷酸一旦杂交就提供切割位点/基序(例如，用于合适的核酸内切酶)(图10A)。寡核苷酸池还可以包含寡核苷酸的子集，所述寡核苷酸一旦杂交，就提供抗切割基序(和/或通过例如破坏核酸内切酶的位点识别来防止切割)(图10B)。在一个实例中，寡核苷酸池可以流过官能化的表面。与含有切割基序的寡核苷酸序列杂交的发夹DNA分子被切割，并且与含有抗切割基序的寡核苷酸序列杂交的发夹DNA分子保持未切割。在一个实施例中，寡核苷酸的一个子集可以是甲基化的，并且寡核苷酸的第二子集可以是非甲基化的。在一个实施例中，然后，仅切割甲基化DNA的酶可以流过官能化的表面。在另一个实施例中，仅切割未甲基化DNA的酶可以流过官能化的表面。在另一个实施例中，提供抗切割基序的寡核苷酸可以包括防止发夹DNA分子被切割的侧链。在另一个实施例中，寡核苷酸序列内的抗切割基序可以是防止发夹DNA分子被切割的大体积加合物。在另一个实施例中，寡核苷酸序列内的抗切割基序可以是防止酶切割发夹DNA分子的一个或多个错配。在另一个实施例中，抗切割基序可以是防止切割的无碱基位点。在另一个实施例中，抗切割基序可以是防止切割的核苷酸类似物。在另一个实施例中，抗切割基序可以是防止切割的肽核酸键。本领域的普通技术人员将认识到用于提供寡核苷酸子集的其它生化手段，所述寡核苷酸子集将防止或促进切割所选核酸内切酶或其它酶。

在又另外的实施例中，并且如图11A和11B所展示的，可以通过使用具有部分催化活性酶(条纹；图11A)和部分催化失活酶(带点的黑色；图11B)的核酸内切酶的混合池来实现低效切割双链核酸复合物的克隆拷贝的一部分。

在一些实施例中，核酸内切酶是或包括靶向核酸内切酶。在一些实施例中，靶向核酸内切酶是或包括在识别位点处或附近切割DNA的限制性核酸内切酶(即，限制酶)中的至少一种(例如，EcoRI、BamHI、XbaI、HindIII、AluI、AvaII、BsaJI、BstNI、DsaV、Fnu4HI、HaeIII、MaeIII、N1aIV、NSiI、MspJI、FspEI、NaeI、Bsu36I、NotI、HinF1、Sau3AI、PvuII、SmaI、HgaI、AluI、EcoRV等)。若干种限制性核酸内切酶的列表以印刷形式和计算机可读形式提供，并且由许多商业供应商提供(例如，马萨诸塞州伊普斯威奇的新英格兰生物实验室(New England Biolabs,Ipswich,MA))。本领域的普通技术人员将理解的是，可以根据本发明技术的各个实施例使用任何限制性核酸内切酶。在其它实施例中，靶向核酸内切酶是或包括核糖核蛋白复合物中的至少一种，例如，CRISPR相关(Cas)酶/向导RNA复合物(例如，Cas9或Cpf1)或Cas9样酶。在其它实施例中，靶向核酸内切酶是或包括归巢核酸内切酶、锌指核酸酶、TALEN和/或大范围核酸酶(例如，megaTAL核酸酶等)、argonaute核酸酶或其组合。在一些实施例中，靶向核酸内切酶包括Cas9或CPF1或其衍生物。在另一个实施例中，核酸酶可以在分叉的核酸区域(例如，FEN1)处切割。在一些实施例中，可以使用多于一种靶向核酸内切酶(例如，2种、3种、4种、5种、6种、7种、8种、9种、10种或更多种)。

在一些实施例中，切割位点是或包括用于靶向核酸内切酶(例如，CRISPR或CRISPR样核酸内切酶)或其它可调谐核酸内切酶的用户定向识别序列。在一些实施例中，切割核酸材料可以包括以下中的至少一种：酶促消化、酶促切割、一条链的酶促切割、两条链的酶促切割、掺入经修饰的核酸随后进行酶促处理(其导致切割或一条或两条链)、掺入复制阻断核苷酸、掺入链终止子、掺入可光切割的接头、掺入尿嘧啶、掺入核糖碱基、掺入8-氧代-鸟嘌呤加合物、使用限制性核酸内切酶、使用核糖核蛋白核酸内切酶(例如，Cas酶，如Cas9或CPF1)或其它可编程核酸内切酶(例如，归巢核酸内切酶、锌指核酸酶、TALEN、大范围核酸酶(例如，megaTAL核酸酶)、精氨酸核酸酶等)以及其任何组合。

靶向核酸内切酶(例如，CRISPR相关的核糖核蛋白复合物，如Cas9或Cpf1、归巢核酸酶、锌指核酸酶、TALEN、megaTAL核酸酶、argonaute核酸酶和/或其衍生物)可以用于选择性地切割核酸材料的靶部分。在一些实施例中，靶向核酸内切酶可以被修饰，如具有氨基酸取代以提供例如增强的热稳定性、耐盐性和/或pH耐受性或增强的特异性或替代性PAM位点识别或更高的结合亲和力。在其它实施例中，靶向核酸内切酶可以是生物素化的、与链霉亲和素融合和/或并入其它基于亲和力的(例如，诱饵/猎物)技术。在某些实施例中，靶向核酸内切酶可以具有改变的识别位点特异性(例如，具有改变的PAM位点特异性的SpCas9变体)。在其它实施例中，靶向核酸内切酶可以是无催化活性的，因此一旦与核酸材料的靶向部分结合就不会发生切割。在一些实施例中，靶向核酸内切酶被修饰以切割核酸材料的靶向部分(例如，切口酶变体)的单链，由此在核酸材料中产生切口。本文进一步讨论了基于CRISPR的靶向核酸内切酶以提供使用靶向核酸内切酶的另外详细的非限制性实例。注意到围绕此类靶向核酸酶的命名法仍然在变化。出于本文的目的，使用术语“基于CRISPR的”一般意指包括核酸序列的核酸内切酶，其序列可以被修饰以重新定义要切割的核酸序列。Cas9和CPF1是目前使用的此类靶向核酸内切酶的实例，但在自然界的不同地方似乎更多地存在，并且此类靶向且易于调节的核酸酶的不同品种的可用性预期将在未来几年迅速增长。例如，Cas12a、Cas13、CasX等被设想用于各个实施例中。类似地，这些酶的用于增强或修饰其性质的多种工程化变体正在变得可用。在本文中，明确设想使用本文未明确描述或尚未发现的功能上基本上类似的靶向核酸内切酶，以实现与所描述的公开内容类似的目的。

特别设想可以使用多种限制性核酸内切酶(即，酶)中的任何一种。通常，限制酶通常由某些细菌/其它原核生物产生，并在给定DNA区段中的特定序列处、其附近或之间进行切割。

对本领域的技术人员显而易见的是，选择限制酶以在特定位点处或者在产生的位点处进行切割以产生用于切割的限制性位点。在一些实施例中，限制酶是合成酶。在一些实施例中，限制酶不是合成酶。在一些实施例中，如本文所使用的限制酶已被修饰以在酶本身的基因组内引入一种或多种变化。在一些实施例中，限制酶在给定DNA部分内的限定序列之间产生双链切割。

尽管根据一些实施例可以使用任何限制酶(例如，I型、II型、III型和/或IV型)，以下表示可以使用的限制酶的非限制性列表：AluI、ApoI、AspHI、BamHI、BfaI、BsaI、CfrI、DdeI、DpnI、DraI、EcoRI、EcoRII、EcoRV、HaeII、HaeIII、HgaI、HindII、HindIII、HinFI、HPYCH4III、KpnI、MamI、MNL1、MseI、MstI、MstII、NcoI、NdeI、NotI、PacI、PstI、PvuI、PvuII、RcaI、RsaI、SacI、SacII、SalI、Sau3AI、ScaI、SmaI、SpeI、SphI、StuI、TaqI、XbaI、XhoI、XhoII、XmaI、XmaII和其任何组合。合适的限制酶的广泛但非详尽的列表可以在公开可获得的目录和互联网上找到(例如，可在美国马萨诸塞州伊普斯威奇的新英格兰生物实验室获得)。本领域技术人员应该理解，可以单独或组合用于靶向可以实现相同目的的核酸分子的磷酸二酯主链切割的多种酶、核酶或其它核酸修饰酶可能不被包含在上述列表中或者尚未在上述列表中发现。多种核酸修饰酶可以识别碱基修饰(例如，CpG甲基化)，其可以用于靶向可以被切割(如被具有裂解酶活性的酶切割)的相邻核酸序列的另外的修饰(例如，用于产生无碱基位点)。如此，基于对DNA或RNA修饰的识别，可以实现切割的实质序列特异性，并且这可以单独使用或与靶向的核酸内切酶组合使用，以实现靶向的核酸片段化。切割促进剂的其它实施例可以包括非酶促进剂。例如，pH变化或水解可以用于在切割位点处切割。光切割方法也是打破此主链的一种方法。例如，在发夹衔接子序列中掺入经修饰的核苷酸或具有光敏部分的互补或部分互补寡核苷酸的杂交可以产生用于其它化学或酶促过程的将切割(例如，在暴露于光时)相对链的识别位点。

在一些实施例中，如上述那些，当物理连接的衔接子分子复合物在表面上处于自杂交构型时提供切割位点C(例如，图6、7、8A、9A、10A和11A，例如)。在又另外的实施例中，并且如图12A-C所展示的，当物理连接的核酸复合物或处于双链桥式扩增构型时，切割位点C可用于通过切割促进剂的切割。例如，切割位点C是由双链构型在跨过表面上的“桥”形成双链之后但在变性之前提供的双链基序(图12A)。一旦被切割，第一链序列扩增子将与第二链扩增子分离，同时仍与表面结合(图12B)。在变性和去除未结合的扩增子后(图12C)，第一链和第二链两者的单链扩增子保持结合并可用于测序。在一个实施例中，第一链扩增子和第二链扩增子的测序可以通过测序反应进行，如关于图5D和5E描述的那些。

衔接子

如本文所描述的，衔接子分子可以是或包括“Y”形、“U”形、“发夹”形、具有气泡(例如，非互补序列的一部分)或其它特征。“U”形或“发夹”形衔接子可以指具有接头结构域的衔接子，所述接头结构域将靶双链核酸分子的第一链连接(links或connects)到同一分子的第二链。某些发夹衔接子，例如可以是可切割发夹衔接子和/或可以包括经修饰的或非标准的核苷酸、限制性位点或用于体外操纵结构或功能的其它特征。

衔接子分子可以与多种具有末端的核酸材料连接。例如，衔接子分子可以适于连接到T突出端、A突出端、CG突出端、多核苷酸突出端(在本文中也称为“粘性末端”或“粘性突出端”)或具有已知核苷酸长度(例如，1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个核苷酸)的单链突出区域、去羟基化的碱基、核酸材料的钝端和分子的末端，其中靶的5'被去磷酸化或以其它方式与传统连接阻断。在其它实施例中，衔接子分子可以在连接位点处的5'链上含有去磷酸化的或以其它方式防止连接的修饰。在后两个实施例中，此类策略可以用于防止文库片段或衔接子分子的二聚化。

衔接子的连接结构域可以用核酸内切酶(例如，限制性核酸内切酶、靶向核酸内切酶等)切割以留下与制备的库片段的3'“A”突出端连接相容的3'“T”突出端。在某些实施例中，所得连接结构域是延伸的延伸链的3'端上的单个碱基对胸腺嘧啶(T)突出端，但在其它实施例中，其可以是平端，或不同类型或3'或5'突出的“粘性”末端。在此特定实例中，“CUT”意味着使用序列特异性核酸内切酶，如限制酶，以固有地产生可连接末端的方式进行切割。在其它实施例中，在切割之后，另外的酶促或化学处理，如使用末端转移酶可以产生可连接末端。

返回参考图2A，可连接末端示出为T突出端，然而，对于本领域的技术人员而言将显而易见的是，可连接末端可以是多种形式中的任一种，例如，平端、A-3'突出端、包括以下的“粘性”末端：一个核苷酸的3'突出端、两个核苷酸的3'突出端、三个核苷酸的3'突出端、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个核苷酸3'突出端、一个核苷酸5'突出端、两个核苷酸5'突出端、三个核苷酸5'突出端、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或更多个核苷酸5'突出端等(例如，图2B)。连接位点的5'碱基可以是磷酸化的，并且3'碱基可以具有羟基基团，或者可以单独或组合去磷酸化或脱水，或者被进一步化学修饰以促进增强一条链的连接，以防止一条链的连接，任选地直到稍后的时间点。

在一些实施例中，衔接子分子可以包括适于分离与其连接的所需靶核酸分子的捕获部分。

衔接子序列可以意指单链序列、双链序列、互补序列、非互补序列、部分互补序列、不对称序列、引物结合序列、流动细胞序列、连接序列或由衔接子分子提供的其它序列。在特定实施例中，衔接子序列可以意指通过互补寡核苷酸的方式用于扩增的序列。

在一些实施例中，所提供的方法和组合物包含至少一个衔接子序列(例如，两个衔接子序列，在核酸材料的5'和3'的末端中每一个上各一个)。在一些实施例中，所提供的方法和组合物可以包括2个或更多个衔接子序列(例如，3、4、5、6、7、8、9、10个或更多个)。在一些实施例中，衔接子序列中的至少两个彼此不同(例如，通过序列)。在一些实施例中，每个衔接子序列彼此不同(例如，通过序列)。在一些实施例中，至少一个衔接子序列与至少一个其它衔接子序列的至少一部分至少部分地不互补(例如，与至少一个核苷酸不互补)。

在一些实施例中，衔接子序列包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自无碱基位点、尿嘧啶、四氢呋喃、8-氧代-7,8-二氢-2'脱氧腺苷(8-氧代-A)、8-氧代-7,8-二氢-2'-脱氧鸟苷(8-氧代-G)、脱氧肌苷、5'硝基吲哚、5-羟甲基-2'-脱氧胞苷、异胞嘧啶、5'-甲基-异胞嘧啶或异鸟苷、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、光可裂解的接头、生物素化的核苷酸、脱硫生物素核苷酸、硫醇修饰的核苷酸、丙烯酸酯修饰的核苷酸、异dC、异dG、2'-O-甲基核苷酸、肌苷核苷酸锁核酸、肽核酸、5甲基dC、5-溴脱氧尿苷、2,6-二氨基嘌呤、2-氨基嘌呤核苷酸、无碱基核苷酸、5-硝基吲哚核苷酸、腺苷酸化核苷酸、叠氮化物核苷酸、洋地黄毒苷核苷酸、I-接头、5'己炔基修饰的核苷酸、5-辛二炔基dU、可光裂解的间隔子、非可光裂解的间隔子、点击化学相容的修饰核苷酸及其任何组合。

在一些实施例中，衔接子序列包括具有磁性性质的部分(即磁性部分)。在一些实施例中，这种磁性性质是顺磁的。在一些实施例中，其中衔接子序列包括磁性部分(例如，连接到包括磁性部分的衔接子序列的核酸材料)，当施加磁场时，包括磁性部分的衔接子序列基本上与不包括磁性部分(例如，连接到不包含磁性部分的衔接子序列的核酸材料)的衔接子序列分离。

在一些实施例中，至少一个衔接子序列位于SMI的5'处。在一些实施例中，至少一个衔接子序列位于SMI的3'处。

在一些实施例中，衔接子序列可以包括一个或多个接头结构域。在一些实施例中，接头结构域可以包含核苷酸。在一些实施例中，接头结构域可以包含至少一种经修饰的核苷酸或非核苷酸分子(例如，如在本公开中其它地方所描述的)。在一些实施例中，接头结构域可以是或包括环。

在一些实施例中，双链核酸材料的每条链的任一端或两端上的衔接子序列可以进一步包含一个或多个提供SDE的元件。在一些实施例中，SDE可以是或包括包含在衔接子序列中的不对称引物位点。

在一些实施例中，衔接子序列可以是或包括至少一个SDE和至少一个连接结构域(即可根据至少一种连接酶的活性修饰的结构域，例如，适于通过连接酶的活性连接到核酸材料的结构域)。在一些实施例中，从5'到3'，衔接子序列可以是或包括引物结合位点、SDE和连接结构域。

用于合成双链测序衔接子的各种方法先前已经在例如美国专利第9,752,188号、国际专利公开第WO2017/100441号和国际专利申请第PCT/US18/59908号(2018年11月8日提交)中被描述，所有这些专利以全文引用的方式并入到本文中。

用于合成双链测序衔接子的各种方法先前已经描述了(例如，美国专利第9,752,188号和美国专利第PCT/US19/17908号，所有美国专利通过引用并入到本文中)。例如，并且在一个实施例中，一种寡核苷酸可以与在非互补区域上含有简并核苷酸序列或半简并核苷酸序列的另一种寡核苷酸杂交。杂交的寡核苷酸然后可以化学连接，或者可以是当杂交时形成“环”或“U”形(发夹衔接子)的连续寡核苷酸的两个部分。然后可以使用能够聚合核苷酸的酶来拷贝单链简并区域或半简并区域，使得合成补体。因此产生了现在互补的双链简并序列或半简并序列，其可以在双链测序期间用作至少一个SMI元件。衔接子分子上的连接位点可以通过酶促或化学操作(例如，通过限制性消化、聚合酶或其它酶的末端转移酶活性或本领域已知的任何其它方法)从此延伸产物修饰。

引物

在一些实施例中，具有以下性质中的至少一种的一种或多种PCR引物被预期用于根据本发明技术的各方面的各个实施例中：1)高靶特异性；2)能够被多重；和3)表现出稳健的和最小偏差的扩增。许多以前的研究和商业产品已经被设计为满足常规PCR-CE的这些标准中的某些的引物混合物。然而，已经注意到这些引物混合物并不总是与MPS一起使用的最佳选择。事实上，开发高度多重的引物混合物可以是一个具有挑战性且耗时的过程。便利的是，Illumina和Promega最近都已经为Illumina平台开发了多重兼容的引物混合物，其显示出对多种标准和非标准STR和SNP基因座的稳健和高效的扩增。因为这些试剂盒在测序前使用PCR来扩增它们的靶区域，成对的末端测序数据中每个读段的5'端对应于用于扩增DNA的PCR引物的5'端。在一些实施例中，所提供的方法和组合物包含被设计用于确保均匀扩增的引物，这可能需要改变反应浓度、解链温度，并使二级结构和引物内/引物间相互作用最小化。已经描述了多种技术用于MPS应用的高度多重引物优化。特别地，这些技术通常被称为ampliseq方法，如本领域中描述的。

扩增

在各个实施例中，所提供的方法和组合物利用或用于至少一个扩增步骤，其中核酸材料(或其部分，例如，特定靶区域或基因座)被扩增以形成扩增的核酸材料(例如，一些扩增子产物)。

在一些实施例中，扩增核酸材料包含使用至少一种单链寡核苷酸从原始双链核酸材料中扩增源自第一和第二核酸链中的每一个的核酸材料的步骤，所述至少一种单链寡核苷酸与第一衔接子序列中存在的序列至少部分互补。扩增步骤进一步包含使用第二单链寡核苷酸来扩增每条所关注的链，并且此类第二单链寡核苷酸可以(a)至少部分地与所关注的靶序列互补，或者(b)至少部分地与第二衔接子序列中存在的序列互补，使得所述至少一条单链寡核苷酸和第二单链寡核苷酸以有效地扩增核酸材料的方式定向。

在一些实施例中，扩增样品中的核酸材料可以包含扩增“管”(例如，PCR管)、乳液液滴、微室和上述的其它实例或其它已知容器中的核酸材料。在一些实施例中，扩增核酸材料可以包括在两个或更多个(例如，3、4、5、6、7、8、9、10、20、30、40、50个或更多个样品)物理分离的样品(例如，管、液滴、室、容器等)中扩增核酸材料。

尽管任何适合应用的扩增反应都被认为与一些实施例相容，但作为具体的实例，在一些实施例中，扩增步骤可以是或包括聚合酶链反应(PCR)、滚环扩增(RCA)、多重置换扩增(MDA)、等温扩增、乳液内的聚合酶克隆扩增、在表面上、珠粒的表面上或在水凝胶内的桥式扩增，以及其任何组合。

在一些实施例中，表面上的扩增，如流动池的表面上的桥式扩增包含产生结合核酸模板的簇或多个拷贝。在特定实施例中，连接的第一链和第二链核酸模板可以在流动池的表面上桥式扩增，例如以产生多个克隆簇，其中每个克隆簇包括源自原始双链核酸分子的原始第一链和第二链两者的核酸模板拷贝。簇中的克隆拷贝中的一些克隆拷贝将处于正向取向，而其余的将处于反向来源。当处于正向取向的拷贝或处于反向取向的拷贝首先被切割并去除时，可以进行测序反应。

在一些实施例中，扩增核酸材料包含使用单链寡核苷酸，所述单链寡核苷酸至少部分地与核酸材料的每条链的5'和3'端上的衔接子序列的区域互补。在一些实施例中，扩增核酸材料包含使用至少一种与靶区域或所关注的靶序列(例如，基因组序列、线粒体序列、质粒序列、合成产生的靶核酸等)至少部分地互补的单链寡核苷酸和至少部分与衔接子序列的区域(例如，引物位点)互补的单链寡核苷酸。

通常，稳健的扩增，例如PCR扩增，可以高度地依赖于反应条件。例如，多重PCR对缓冲液组成、单价或二价阳离子浓度、洗涤剂浓度、拥挤剂(即PEG、甘油等)浓度、引物浓度、引物Tms、引物设计、引物GC含量、引物修饰的核苷酸性质和循环条件(即温度和延伸时间以及温度变化的速率)可以是敏感的。缓冲条件的优化可能是困难且耗时的过程。在一些实施例中，扩增反应可以根据先前已知的扩增方案使用缓冲液、引物池浓度和PCR条件中的至少一种。在一些实施例中，可以创建新的扩增方案，和/或可以使用扩增反应优化。作为具体的实例，在一些实施例中，可以使用PCR优化试剂盒，例如来自

的PCR优化试剂盒，其含有许多预先配制的缓冲液，这些缓冲液被部分优化用于各种PCR应用，如多重、实时、富含GC和抑制剂抗性扩增。这些预先调配的缓冲液可以快速地补充有不同的Mg2+和引物浓度，以及引物池比率。另外，在一些实施例中，可以评估和/或使用各种循环条件(例如，热循环)。在评估特定实施例是否适于特定的期望应用时，可以评估特异性、杂合基因座的等位基因覆盖率、基因座间平衡和深度以及其它方面中的一个或多个。扩增成功的测量可以包含产物的DNA测序、通过凝胶或毛细管电泳或HPLC或其它大小分离方法对产物的评价，随后是片段可视化、使用双链核酸结合染料或荧光探针的熔融曲线分析、质谱或本领域已知的其它方法。

在一些实施例中，至少一个扩增步骤包含至少一种引物，所述引物是或包括至少一个非标准核苷酸。在一些实施例中，非标准核苷酸选自尿嘧啶、甲基化核苷酸、RNA核苷酸、核糖核苷酸、8-氧代鸟嘌呤、生物素化核苷酸、锁核酸、肽核酸、高Tm核酸变体、等位基因识别核酸变体、本文别处描述的任何其它核苷酸或接头变体及其任何组合。

核酸材料

类型

根据各个实施例，可以使用各种核酸材料中的任何一种。在一些实施例中，核酸材料可以包括对典型的糖-磷酸主链内的多核苷酸的至少一种修饰。在一些实施例中，核酸材料可以在核酸材料中的任何碱基内包括至少一种修饰。例如，作为非限制性的实例，在一些实施例中，核酸材料是或包括双链DNA、单链DNA、双链RNA、单链RNA、肽核酸(PNA)、锁核酸(LNA)中的至少一种。

来源

设想核酸材料可以来自多种来源中的任何一种。例如，在一些实施例中，从来自至少一个受试者(例如，人或动物受试者)或其它生物来源的样品中提供核酸材料。在一些实施例中，核酸材料从库存/储存的样品中提供。在一些实施例中，样品是或包括以下中的至少一种：血液、血清、汗液、唾液、脑髓液、粘液、子宫灌洗液、阴道拭子、鼻拭子、口腔拭子、组织刮屑、毛发、指纹、尿液、粪便、玻璃体液、腹膜洗液、痰液、支气管灌洗液、口腔灌洗液、胸膜灌洗液、胃灌洗液、胃液、胆汁、胰管灌洗液、胆管灌洗液、胆总管灌洗液、胆囊液、滑液、感染的伤口、未感染的伤口、考古样品、法医样品、水样品、组织样品、食物样品、生物反应器样品、植物样品、指甲刮屑、精液、前列腺液、输卵管灌洗液、无细胞核酸、细胞内的核酸、宏基因组样品、植入的异物的灌洗液、鼻灌洗液、肠液、上皮刷取物、上皮灌洗液、组织活检样品、尸检样品、尸体剖检样品、器官样品、人类识别样品、人工产生的核酸样品、合成基因样品、核酸数据储存样品、肿瘤组织以及其任何组合。在其它实施例中，样品是或包括微生物、基于植物的生物体或任何收集的环境样品(例如，水、土壤、考古等)中的至少一种。

修饰

根据各个实施例，核酸材料可以在任何特定步骤之前、基本上同时或之后接受一种或多种修饰，这取决于使用特定提供的方法或组合物的应用。

在一些实施例中，修饰可以是或包括至少一部分核酸材料的修复。尽管任何适合应用的核酸修复的方式被认为与一些实施例相容，但是某些示例性的方法和组合物因此在下文和实例中进行描述。

作为非限制性的实例，在一些实施例中，可以利用DNA修复酶，例如尿嘧啶-DNA糖基化酶(UDG)、甲酰胺嘧啶DNA糖基化酶(FPG)和8-氧代鸟嘌呤DNA糖基化酶(OGG1)，来校正DNA损伤(例如，体外DNA损伤)。在一些实施例中，这些DNA修复酶例如是从DNA中去除受损的碱基的糖基化酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶自发水解引起)产生的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物种引起的最常见的DNA病变)。FPG还具有裂解酶活性，其可以在无碱基位点处产生1个碱基空位。此类无碱基位点随后将无法通过PCR扩增，例如，因为聚合酶无法复制模板。因此，使用此类DNA损伤修复酶可以有效地去除没有真正突变的损伤的DNA，但是在测序和双链序列分析之后可能不会以其它方式检测为错误。

在另外的实施例中，从本文所讨论的处理步骤中生成的测序读段可以被进一步过滤，以通过修整最容易生成伪像的读段的末端来消除假突变。例如，DNA片段化可以在双链分子的末端生成单链部分。这些单链部分可以在末端修复期间被填充(例如，通过Klenow)。在一些情况下，聚合酶使得在这些末端修复的区域中发生复制错误，导致“假双链分子”的生成。一旦被测序，这些伪像可能看起来是真正的突变。作为末端修复机制的结果，这些错误可以通过修整测序读段的末端以排除可能发生的任何突变，由此减少错误突变的数量而从测序后的分析中被消除。在一些实施例中，测序读段的此类修整可以自动完成(例如，正常过程步骤)。在一些实施例中，可以评估片段末端区的突变频率，并且如果在片段末端区域中观察到阈值水平的突变，则可以在生成DNA片段的双链共有序列读段之前进行测序读段修整。

双链测序方法的一些实施例提供了与使用可切割发夹衔接子进行错误校正相容的基于PCR的靶向富集策略。例如，利用连接的模板的分离的PCR用于测序的测序富集策略(“SPLiT-DS”)方法步骤也可以受益于使用本文所描述的一个或多个实施例的预富集的核酸材料。SPLiT-DS最初在国际专利公开第WO/2018/175997号中描述，所述国际专利公开以全文引用的方式并入本文中。SPLiT-DS方法可以以与上述类似的方式并参考标准的双链测序文库构建方案从用分子条形码标记(labelling)(例如，标记(tagging))片段化的双链核酸材料(例如，来自DNA样品)开始。在一些实施例中，双链核酸材料可以被片段化(例如，如用无细胞的DNA、受损的DNA等)；然而，在其它实施例中，各个步骤可以包含使用机械剪切如声处理或其它DNA切割方法(如本文进一步描述的)来片段化核酸材料。标记片段化的双链核酸材料的各方面可以包含末端修复和3'-dA-加尾(如果在特定的应用中需要的话)，然后用双链测序衔接子连接双链核酸片段(例如，可切割发夹衔接子、Y形衔接子等)。在其它实施例中，用于使来自原始核酸分子的两条链的信息唯一相关的内源或外源和内源SMI序列的组合也可以与第一链和第二链的物理连接组合使用。在将衔接子分子连接到双链核酸材料后，方法可以继续进行扩增(例如，PCR扩增、滚环扩增、多重置换扩增、等温扩增、桥式扩增、表面结合扩增等)。

具有试剂的试剂盒

本发明技术的各方面进一步涵盖用于进行双链测序方法的各个方面的试剂盒(在本文中也称为“DS试剂盒”)。在一些实施例中，试剂盒可以包括各种试剂以及用于进行本文所公开的用于核酸提取、核酸文库制备、扩增(例如，PCR、桥式扩增)、连接的核酸复合物的切割和测序的方法和方法步骤中的一种或多种的说明书。在一个实施例中，试剂盒可以进一步包含用于分析测序数据(例如，原始测序数据、测序读段等)来确定例如与样品相关的变体等位基因、突变等并且根据本发明技术的各方面的计算机程序产品(例如，在计算机上运行的编码算法、基于云的服务器以运行一个或多个算法的访问代码等)。试剂盒可以包含DNA标准品和其它形式的阳性和阴性对照。

在一些实施例中，DS试剂盒可以包括适于执行样品制备(例如，组织操纵、DNA提取、DNA片段化)、核酸文库制备、扩增、切割和测序仪表面处理步骤和测序的各个方面的试剂或试剂组合(例如，酶、dNTP、洗涤缓冲液等)。例如，DS试剂盒可以任选地包括一种或多种DNA提取试剂(例如，缓冲液、柱等)和/或组织提取试剂。任选地，DS试剂盒可以进一步包括一种或多种用于使双链DNA片段化的试剂或工具，如通过物理手段(例如，用于促进声剪切或超声处理的管、雾化器单元等)或酶促手段(例如，用于随机或半随机基因组剪切的酶和适当的反应酶)。例如，试剂盒可以包含用于使双链DNA酶促片段化的DNA片段化试剂，其包含一种或多种用于靶向消化的酶(例如，限制性核酸内切酶、CRISPR/Cas核酸内切酶和RNA向导和/或其它核酸内切酶)、双链片段酶混合物、用于使DNA片段主要呈现双链和/或破坏单链DNA的单链DNase(例如，绿豆核酸酶、S1核酸酶)以及促进此类酶促反应的适当缓冲液和溶液。

在一个实施例中，DS试剂盒包括用于从样品制备核酸序列文库的引物和衔接子，所述核酸序列文库适于执行双链测序过程步骤以在样品中产生双链核酸分子的错误校正(例如，高精确度)序列。例如，试剂盒可以包括至少一个包括接头结构域(例如，发夹衔接子)的衔接子分子池、至少一个包括双链部分和单链部分(例如，“Y”形衔接子)的衔接子分子池或用户创建其的工具(例如，单链寡核苷酸)。在一些实施例中，衔接分子池将包括单分子标识符(SMI)序列或适当数量的基本上唯一SMI序列，使得在连接衔接子分子后，样品中的多个核酸分子可以单独或与其所连接的片段的唯一特征组合被基本上唯一地标记。在分子标记领域有经验的技术人员将认识到，SMI序列需要的“合适”数量将根据各种特定因素(输入DNA、DNA片段化类型、片段的平均大小、基因组内测序的序列的复杂性与重复性等)变化多个数量级。任选地，衔接子分子进一步包含一个或多个PCR引物结合位点、一个或多个测序引物结合位点或两者。在另一个实施例中，DS试剂盒不包含包括SMI序列或条形码的衔接子分子，而是包含常规衔接子分子(例如，Y形测序衔接子等)，并且各种方法步骤可以利用测序表面上的内源性SMI和/或物理位置来使分子序列读段相关。在一些实施例中，衔接子分子是索引衔接子和/或包括索引序列。在其它实施例中，使用试剂盒中供应的引物，通过PCR“加尾(tailingin)”将索引添加到特异性样品。

在一个实施例中，DS试剂盒包括一组衔接子分子，每个衔接子分子具有非互补区域和/或一些其它链限定元件(SDE)，或供用户创建其的工具(例如，单链寡核苷酸)。在另一个实施例中，试剂盒包括至少一组衔接子分子，其中衔接子分子的至少一个子集各自包括至少一个SMI和至少一个SDE，或产生其的工具。在一些实施例中，衔接子分子的子集可以被配置成具有可连接末端(例如，平端、突出端、基本上或部分唯一的粘性末端等)。用于从样品制备适于执行双链测序过程步骤的核酸测序文库的引物和衔接子的另外的特征在上文进行了描述，并且公开于美国专利第9,752,188号、国际专利公开第WO2017/100441号和国际专利申请第PCT/US18/59908号(2018年11月8日提交)，所有文献均以全文引用的方式并入本文中。

在一个实施例中，DS试剂盒包括用于在测序表面上发生的处理步骤的试剂，如切割促进剂(例如，酶、非酶促溶液、光、杂交寡核苷酸等)和抗切割促进剂(例如，包含催化失活酶的酶、杂交寡核苷酸等)，以及用于执行方法的各个步骤的其它洗涤溶液。

另外，试剂盒可以进一步包含DNA定量材料，例如，DNA结合染料，如用于与Qubit^TM荧光计一起使用的SYBR^TM绿色或SYBR^TM金等(可从马萨诸塞州沃尔瑟姆的赛默飞世尔科技公司(Thermo Fisher Scientific,Waltham,MA)获得)，或在合适的荧光光谱仪或实时PCR机或数字液滴PCR机上使用的PicoGreen^TM染料(可从马萨诸塞州沃尔瑟姆的赛默飞世尔科技公司获得)。还设想了适于在其它平台上进行DNA定量的其它试剂。另外的实施例包含包括以下中的一种或多种的试剂盒：核酸大小选择试剂(例如，固相可逆固定化(SPRI)磁珠、凝胶、柱)、用于使用诱饵/猎物杂交捕获靶DNA的柱、qPCR试剂(例如，用于拷贝数测定)和/或数字液滴PCR试剂。在一些实施例中，试剂盒可以任选地包含以下中的一种或多种：文库制备酶(连接酶、聚合酶、核酸内切酶、用于例如RNA询问的逆转录酶)、dNTP、缓冲液、捕获试剂(例如，珠粒、表面、涂覆管、柱等)、索引引物、扩增引物(PCR引物)和测序引物。在一些实施例中，试剂盒可以包含用于评估DNA损伤类型的试剂，如容易出错的DNA聚合酶和/或高保真度DNA聚合酶。设想了在特定条件下用于PCR或连接反应的另外的添加剂和试剂(例如，高GC富集基因组/靶标)。

在一个实施例中，试剂盒进一步包括试剂，如修复干扰聚合酶链式反应(PCR)过程的DNA序列错误(相对于修复导致疾病的突变)的DNA错误校正酶。作为非限制性实例，酶包括以下中的一个或多个：单官能尿嘧啶-DNA糖基化酶(hSMUG1)、尿嘧啶-DNA糖基化酶(UDG)、N-糖基化酶/AP-裂解酶NEIL 1蛋白(hNEIL1)、甲酰胺基嘧啶DNA糖基化酶(FPG)、8-氧代鸟嘌呤DNA糖基化酶(OGG1)、人无嘌呤/脱嘧啶核酸内切酶(APE1)、核酸内切酶III(Endo III)、核酸内切酶IV(Endo IV)、核酸内切酶V(Endo V)、核酸内切酶VIII(EndoVIII)、T7核酸内切酶I(T7 Endo I)、T4嘧啶二聚体糖基化酶(T4 PDG)、人单链选择性人烷基腺嘌呤DNA糖基化酶(hAAG)等，以及其它糖基化酶、裂解酶、核酸内切酶和核酸外切酶等；并且可以用于校正DNA损伤(例如，体外或体内DNA损伤)。例如，此类DNA修复酶中的一些DNA修复酶是从DNA中去除受损碱基的糖基酶。例如，UDG去除由胞嘧啶脱氨基(由胞嘧啶自发水解引起)产生的尿嘧啶，并且FPG去除8-氧代鸟嘌呤(例如，由活性氧物种引起的最常见的DNA病变)。FPG还具有裂解酶活性，其可以在无碱基位点处产生1个碱基空位。此类无碱基位点随后将无法通过PCR扩增，例如，因为聚合酶无法复制模板。因此，使用此类DNA损伤修复酶和/或此处列出的和本领域已知的其它酶可以有效地去除不具有真正突变但可能未被检测为错误的受损DNA。

试剂盒可以进一步包括适当的对照，如DNA扩增对照、核酸(模板)定量对照、测序对照、源自类似生物来源(例如，健康受试者)的核酸分子。在一些实施例中，试剂盒可以包含对照细胞群。因此，试剂盒可以包含合适的试剂(测试化合物、核酸、对照测序文库等)，以用于提供产生预期双链测序结果的对照，这将确定包括罕见遗传变体(例如，包括可以掺入或包含在样品制备步骤中的疾病相关变体/突变的核酸分子)的样品的协议真实性。在一些实施例中，试剂盒可以包含参考序列信息。在一些实施例中，试剂盒可以包含用于标识细胞群或无细胞DNA样品中的一种或多种DNA变体的序列信息。在一个实施例中，试剂盒包括用于运送样品的容器；用于使样品稳定的储存材料；用于冷冻样品如细胞样品、用于分析以检测受试者样品中的DNA变体的材料。在另一个实施例中，试剂盒可以包含核酸污染控制标准(例如，对不同于测试或受试者生物体的生物体中的基因组区域具有亲和力的杂交捕获探针)。

试剂盒可以进一步包括一个或多个其它容器，所述容器包括从商业和用户角度来看所期望的材料，包含PCR和测序缓冲液、稀释剂、受试者样品提取工具(例如，注射器、拭子等)，以及带有使用说明书的包装插页。另外，可以在容器上提供带有使用说明的标签，如上述那些；和/或说明和/或其它信息也可以包含在与试剂盒一起包含的插页上；和/或通过其中提供的网站地址。试剂盒还可以包括实验室工具，例如，样品管、板密封器、微量离心管开启器、标签、磁性颗粒分离器、泡沫插入物、冰袋、干冰袋、绝缘材料等。

试剂盒可以进一步包含用于扩增测序文库的预包装或应用特异性官能化的表面。在一个实施例中，官能化的表面可以包含适于在其中执行测序反应的表面。官能化的表面可以被预配置成具有适于测序文库的桥式扩增的结合的寡核苷酸(例如，表面包括与衔接子组中的一个或多个衔接子组中的序列结构域互补的结合的寡核苷酸的分布菌苔)。在一个实施例中，官能化的表面是被配置成用于如下文所描述的测序系统的流动池。

试剂盒可以进一步包括可安装在电子计算装置(例如，膝上型/台式计算机、平板计算机等)上或可通过网络访问(例如，远程服务器、云计算)的计算机程序产品，其中计算装置或远程服务器包括一个或多个被配置成执行指令以执行包括双链测序分析步骤的操作的处理器。例如，处理器可以被配置成执行用于处理原始或未分析的测序读段的指令以生成双链测序数据。在另外的实施例中，计算机程序产品可以包含数据库，所述数据库包括受试者或样品记录(例如，关于特定受试者或样品或样品组的信息)和关于DNA靶向区域的经验衍生信息。计算机程序产品体现在非暂时性计算机可读介质中，当在计算机上执行时，所述介质执行本文所公开的方法的步骤。

试剂盒可以进一步包括用于访问远程服务器(包含基于云的服务器)以上传和下载数据(例如，测序数据、报告、其它数据)或要安装在本地装置上的软件的指令和/或访问代码/密码等。所有计算工作都可以驻留在远程服务器上，并由用户/试剂盒用户通过互联网连接等访问。

试剂盒可以适于被优化以用于与本文所描述的方法和试剂一起使用的测序系统。例如，测序系统和相关的测序试剂可以被配置成执行提供介入处理步骤的逐步测序反应。在一个实施例中，测序系统可以提供用于切割促进剂递送、抗切割促进剂递送、酶溶液递送、寡核苷酸递送、洗涤缓冲液等的递送系统。同样，测序系统可以包含适当的控制(例如，手动、自动、半自动等)和用于处理步骤时间、温度、pH、浓度等的内部程序。

实例

除了本文所描述的各个方面、实施例、实例等之外，本公开还包含以下编号为E1到E87的示例性方面(“E”)。各方面的此列表被呈现为示例性列表并且本申请不限于这些方面。

E1.一种对双链靶核酸分子进行测序的方法，所述方法包括：

(a)在表面上扩增物理连接的核酸复合物，以产生以正向取向和反向取向两者与所述表面结合的物理连接的核酸复合物扩增子，其中所述物理连接的核酸复合物包括：(i)所述双链靶核酸分子；(ii)所述双链靶核酸分子的第一端上的包括接头结构域的第一衔接子；以及(iii)所述双链靶核酸分子的第二端上的具有双链部分和单链部分的第二衔接子；

(b)去除(i)以所述反向取向与所述表面结合的所述物理连接的核酸复合物扩增子或(ii)以所述正向取向与所述表面结合的所述物理连接的核酸复合物扩增子；

(c)切割剩余结合的物理连接的核酸复合物扩增子的一部分，以提供包括来自一条链的信息的单链扩增子的子集和物理连接的核酸复合物扩增子的子集；

(d)对所述单链扩增子的子集进行测序，以提供源自所述双链靶核酸分子的原始链的测序读段；

(e)在所述表面上扩增物理连接的核酸复合物扩增子的子集；

(f)去除处于其它取向的所述物理连接的核酸复合物扩增子；

(g)切割剩余结合的物理连接的核酸复合物扩增子，以提供包括来自另一条链的信息的单链扩增子；以及

(h)对所述单链扩增子进行测序，以提供源自所述双链靶核酸分子的另一条原始链的测序读段。

E2.一种对双链靶核酸分子进行测序的方法，所述方法包括：

(a)在表面上扩增物理连接的核酸复合物，以产生与所述表面结合的物理连接的核酸复合物扩增子的簇，其中所述物理连接的核酸复合物包括：(i)所述双链靶核酸分子；(ii)所述双链靶核酸分子的一端上的包括接头结构域的第一衔接子；以及(iii)所述双链靶核酸分子的另一端上的具有双链部分和单链部分的第二衔接子；

(b)去除在(i)所述物理连接的核酸复合物扩增子的5'端或(ii)所述物理连接的核酸复合物扩增子的3'端处与所述表面结合的所述物理连接的核酸复合物扩增子；

(c)在切割位点处切割剩余结合的物理连接的核酸复合物扩增子的至少一部分，以提供包括源自所述双链靶核酸分子的一条原始链的序列信息的单链扩增子；以及

(d)对所述单链扩增子进行测序，以提供源自所述双链靶核酸分子的所述一条原始链的测序读段。

E3.根据E2所述的方法，其中切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的至少一个物理连接的核酸复合物扩增子。

E4.根据E3所述的方法，其进一步包括：

(e)在所述表面上扩增所述至少一个物理连接的核酸复合物扩增子，以再增殖与所述表面结合的所述物理连接的核酸复合物扩增子的簇；

(f)去除未在(b)中去除的处于其它取向的所述物理连接的核酸复合物扩增子；

(g)切割剩余结合的物理连接的核酸复合物扩增子，以提供包括源自所述双链靶核酸分子的另一条原始链的信息的单链扩增子；以及

E5.根据前述实例中任一项所述的方法，其进一步包括：将来自所述一条原始链的序列读段与来自另一条原始链的序列读段进行比较，以产生所述双链靶核酸分子的共有序列。

E6.根据E1到E4中任一项所述的方法，其进一步包括：

标识来自所述一条原始链的序列读段和来自另一条原始链的序列读段中的序列变异，其中来自所述一条原始链和另一条原始链的所述序列变异是一致的序列变异；或者

消除或忽视在所述一条原始链中而不在另一条原始链中发生的序列变异。

E7.根据E1到E4中任一项所述的方法，其进一步包括：

将来自所述一条原始链的序列读段与来自另一条原始链的序列读段进行比较；

标识来自所述一条原始链的序列读段与来自另一条原始链的序列读段之间不一致的核苷酸位置；以及

通过忽略、消除或校正已标识的所述不一致的核苷酸位置来产生所述双链靶核酸分子的错误校正的序列。

E8.一种对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸分子包括第一链和第二链，所述方法包括：

(a)在表面上扩增多种物理连接的核酸复合物，以产生多个克隆簇，每个克隆簇包括多个物理连接的核酸复合物扩增子，每个核酸复合物扩增子包括第一链扩增子和第二链扩增子，其中每种物理连接的核酸复合物包括：(i)来自所述群体的双链靶核酸分子；(ii)与所述双链靶核酸分子的第一端连接的包括接头结构域的第一衔接子；以及(iii)与所述双链靶核酸分子的第二端连接的具有双链部分和单链部分的第二衔接子；

(b)从以(i)所述反向取向或(ii)所述正向取向与所述表面结合的每个克隆簇中去除所述物理连接的核酸复合物扩增子；

(c)切割(b)之后剩余的剩余表面结合的物理连接的核酸复合物扩增子的一部分，并且由此物理分离所述第一链扩增子和所述第二链扩增子；

(d)去除未结合的物理分离的第一链扩增子或第二链扩增子；以及

(e)对与所述表面结合的剩余物理分离的第一链扩增子或第二链扩增子进行测序，以针对所述表面上的每个克隆簇产生所述第一链或所述第二链的核酸序列读段。

E9.根据E8所述的方法，其中切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的所述克隆簇中的至少一些克隆簇中的至少一个物理连接的核酸复合物扩增子。

E10.根据E9所述的方法，其进一步包括：

(f)在所述克隆簇中的至少一些克隆簇中，在所述表面上扩增所述至少一个物理连接的核酸复合物扩增子，以再增殖与所述表面结合的物理连接的核酸复合物扩增子的所述克隆簇；

(g)从步骤(b)中去除处于其它取向的所述物理连接的核酸复合物扩增子；

(h)去除未结合的物理分离的第一链扩增子或第二链扩增子；

(i)切割(h)之后剩余的剩余结合的物理连接的核酸复合物扩增子，并且由此物理分离所述第一链扩增子和所述第二链扩增子；以及

(j)对与所述表面结合的剩余物理分离的第一链扩增子或第二链扩增子进行测序，以针对所述表面上的每个克隆簇产生所述第一链或所述第二链的核酸序列读段。

E11.一种对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸分子包括第一链和第二链，所述方法包括：

(a)扩增在表面上结合的多种物理连接的核酸复合物，以产生多个簇，每个簇包括表示原始双链靶核酸分子的多个物理连接的核酸复合物扩增子，其中每个物理连接的核酸复合物扩增子包括第一链扩增子和第二链扩增子，并且其中每个物理连接的核酸复合物包括来自所述群体的双链靶核酸分子，所述双链靶核酸分子：(i)在一端处与包括介于所述第一链与所述第二链之间的接头结构域的第一衔接子连接；以及(ii)在另一端处与具有双链部分和单链部分的第二衔接子连接；

(b)切割所述表面结合的物理连接的核酸复合物扩增子，并且由此物理分离所述第一链扩增子和所述第二链扩增子；

(c)去除未结合的物理分离的第一链扩增子和/或未结合的物理分离的第二链扩增子，其中与所述表面结合的剩余扩增子包括：(i)所述物理分离的第一链扩增子；以及(ii)所述物理分离的第二链扩增子；

(d)对与所述表面结合的所述物理分离的第一链扩增子进行测序，以针对所述表面上的每个簇产生所述第一链的核酸序列读段；以及

(e)对与所述表面结合的所述物理分离的第二链扩增子进行测序，以针对所述表面上的每个簇产生所述第二链的核酸序列读段。

E12.根据E10或E11所述的方法，其进一步包括：针对所述表面上的所述簇中的至少一些簇，将所述第一链的所述核酸序列读段与所述第二链的所述核酸序列读段进行比较，以产生原始双链靶核酸分子的错误校正的序列读段。

E13.根据E10到E12中任一项所述的方法，其进一步包括：使用唯一分子标识符(UMI)使来自所述群体的原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段相关。

E14.根据E13所述的方法，其中所述UMI包括所述表面上的物理位置。

E15.根据E14所述的方法，其中所述UMI包括标签序列、分子特异性特征、所述表面上的簇位置或其组合。

E16.根据E15所述的方法，其中所述分子特异性特征包括针对参考序列的核酸映射信息、所述双链靶核酸分子的末端处或其附近的序列信息、所述双链靶核酸分子的长度或其组合。

E17.根据E10到E16中任一项所述的方法，其进一步包括：使用链限定元件(SDE)区分原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段。

E18.根据E17所述的方法，其中所述SDE是序列读段信息与E10的步骤(e)和步骤(j)或与E11的步骤(d)和(e)的关联。

E19.根据E17所述的方法，其中所述SDE包括衔接子序列的一部分。

E20.根据E8到E19中任一项所述的方法，其中对所述物理分离的第一链扩增子或所述第二链扩增子进行测序包括合成测序。

E21.根据E8到E20中任一项所述的方法，其进一步包括：

通过将所述第一衔接子和所述第二衔接子与所述群体中的多个双链靶核酸分子中的每一个连接来制备所述物理连接的核酸复合物；以及

将所述物理连接的核酸复合物呈递到所述表面，所述表面具有与所述第二衔接子的所述单链部分至少部分互补的多个结合的寡核苷酸，使得多种物理连接的核酸复合物通过与所述多个结合的寡核苷酸杂交而捕获在所述表面上。

E22.根据E21所述的方法，其进一步包括在呈递步骤之前扩增所述物理连接的核酸复合物的步骤。

E23.根据E22所述的方法，其中在所述呈递步骤之前扩增所述物理连接的核酸复合物包括PCR扩增或环状扩增。

E24.根据E21到E23中任一项所述的方法，其中所述物理连接的核酸复合物以正向和反向两种取向被捕获在所述表面上。

E25.根据E8到E24中任一项所述的方法，其中(a)中的所述扩增步骤包括桥式扩增。

E26.根据E8到E25中任一项所述的方法，其进一步包括：

针对所述群体中的所述双链靶核酸分子中的至少一些双链靶核酸分子：

(i)将来自所述第一链的序列读段与来自所述第二链的序列读段进行比较；

(ii)标识来自所述第一链的序列读段与来自所述第二链的序列读段之间不一致的核苷酸位置；以及

(iii)通过忽略、消除或校正已标识的不一致的核苷酸位置来产生所述双链靶核酸分子的错误校正的序列读段。

E27.根据E1到E26中任一项所述的方法，其中所述第一衔接子包括可切割位点或基序。

E28.根据E1到E27中任一项所述的方法，其中所述第一衔接子和所述第二衔接子各自包括测序引物结合位点以及任选地单分子标识符(SMI)序列。

E29.根据E1到E27中任一项所述的方法，其中所述第二衔接子包括测序引物结合位点、扩增引物结合位点、索引序列或其任何组合。

E30.根据E1到E29中任一项所述的方法，其中所述接头结构域包括切割位点。

E31.根据E1到E29中任一项所述的方法，其中所述第一衔接子包括可切割结构域。

E32.根据E1到E31中任一项所述的方法，其中所述第一衔接子包括发夹环结构，所述发夹环结构包括自互补茎部分和单链核苷酸环部分。

E33.根据E32所述的方法，其中所述单链核苷酸环部分包括可切割结构域。

E34.根据E32所述的方法，其中所述茎部分包括可切割结构域。

E35.根据E33或E34的方法，其中所述可切割结构域包括酶识别位点。

E36.根据E35所述的方法，其中所述酶识别位点是核酸内切酶识别位点。

E37.根据E36所述的方法，其中所述核酸内切酶是限制酶或靶向核酸内切酶。

E38.根据E1到E37中任一项所述的方法，其中所述第二衔接子是“Y”形衔接子。

E39.根据E38所述的方法，其中所述Y形衔接子的一个或两个臂可以与结合到所述表面的寡核苷酸杂交。

E40.根据E1到E39中任一项所述的方法，其中所述第二衔接子的所述单链部分包括具有第一引物结合位点的第一臂和具有第二引物结合位点的第二臂。

E41.根据E40所述的方法，其中当变性时，所述物理连接的双链核酸复合物从5'到3'或从3'到5'包括：所述第一引物结合位点、所述第一链、包括所述接头结构域的所述第一衔接子、所述第二链和所述第二引物结合位点。

E42.根据E1到E41中任一项所述的方法，其中所述表面是测序表面。

E43.根据E1到E42中任一项所述的方法，其中所述表面是流动池。

E44.根据E1到E43中任一项所述的方法，其中所述表面是珠粒的表面。

E45.根据E1到E44中任一项所述的方法，其中所述扩增选自由以下组成的组：PCR扩增、等温扩增、克隆扩增、簇扩增和桥式扩增。

E46.根据E1到E45中任一项所述的方法，其中所述扩增是所述表面上的桥式扩增。

E47.根据E8到E46中任一项所述的方法，其中所述多个第一链扩增子和/或所述多个第二链扩增子中的一个或多个以正向取向与表面结合。

E48.根据E8到E46中任一项所述的方法，其中所述多个第一链扩增子和/或所述多个第二链扩增子中的一个或多个以反向取向与所述表面结合。

E49.根据E8到E48中任一项所述的方法，其进一步包括：在(a)中的所述扩增之前使所述多种物理连接的双链核酸复合物流过所述表面。

E50.根据E1到E49中任一项所述的方法，其中所述表面包括与所述第二衔接子的一个或多个区域至少部分互补的多种一个或多个结合的寡核苷酸。

E51.根据E50所述的方法，其中所述多种一个或多个结合的寡核苷酸与所述第二衔接子的所述单链部分至少部分互补。

E52.根据E1到E51中任一项所述的方法，其中所述物理连接的核酸复合物的第一链和第二链在步骤(a)中通过多次扩增反应扩增以在所述表面上产生所述物理连接的核酸复合物扩增子的簇。

E53.根据E8到E52中任一项所述的方法，其中所述多种物理连接的核酸复合物中的每一种的所述第一链和所述第二链在步骤(a)中扩增以在所述表面上同时产生所述多个簇。

E54.根据E1到E8和E12到E53中任一项所述的方法，其中切割所述结合的物理连接的核酸复合物扩增子的一部分包括在所述第一衔接子中的可切割位点处进行低效切割，从而在所述表面上的每个簇内产生经切割的核酸复合物和未切割的核酸复合物两者。

E55.根据E54所述的方法，其中流动池上的每个簇内的所有核酸复合物中的未切割核酸复合物的比率为1％、5％、10％、20％、30％、40％、45％或50％。

E56.根据E54或E55所述的方法，其中所述经切割的核酸复合物在所述第一衔接子的所述接头结构域中的可切割位点处被切割促进剂切割。

E57.根据E56所述的方法，其中所述切割是定点酶促反应。

E58.根据E56或E57所述的方法，其中所述切割促进剂是核酸内切酶。

E59.根据E58所述的方法，其中所述核酸内切酶是限制性位点核酸内切酶或靶向核酸内切酶。

E60.根据E56或E57所述的方法，其中所述切割促进剂选自由以下组成的组：核糖核蛋白、Cas酶、Cas9样酶、大范围核酸酶、转录激活因子样基于效应子的核酸酶(TALEN)、锌指核酸酶、argonaute核酸酶或其组合。

E61.根据E56或E57所述的方法，其中所述切割促进剂包括CRISPR相关酶。

E62.根据E56或E57所述的方法，其中所述切割促进剂包括Cas9或CPF1或其衍生物。

E63.根据E56或E57所述的方法，其中所述切割促进剂包括切口酶或切口酶变体。

E64.根据E56所述的方法，其中所述切割促进剂包括化学过程。

E65.根据E54到E64中任一项所述的方法，其中所述表面上剩余的未切割的核酸复合物的量可通过控制被引入用于定点切割的所述切割促进剂的量或浓度或通过控制被引入用于定点切割的所述切割促进剂的时间量来缩放。

E66.根据E54到E63中任一项所述的方法，其中所述未切割的核酸复合物是通过在切割步骤之前或期间添加抗切割促进剂来保护的。

E67.根据E66所述的方法，其中所述抗切割促进剂在所述第一衔接子的所述接头结构域中包括抗切割基序。

E68.根据E67所述的方法，其中所述可切割位点已经存在于所述第一衔接子的所述接头结构域中，并且抗切割基序是通过与包括与所述第一衔接子的接头结构域至少部分互补的序列的寡核苷酸的杂交而产生的。

E69.根据E66到E68所述的方法，其中切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括：

(i)引入所述抗切割促进剂；以及

(ii)在(i)之后或同时，引入所述切割促进剂，

其中与所述抗切割促进剂的相互作用保护物理连接的核酸复合物扩增子免于切割。

E70.根据E54到E63所述的方法，其中所述可切割位点是通过与包括与所述第一衔接子的所述接头结构域至少部分互补的序列的寡核苷酸杂交而产生的，并且其中未与所述寡核苷酸杂交的物理连接的核酸复合物扩增子未被切割。

E71.根据E54到E63所述的方法，其中所述可切割位点是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第一寡核苷酸杂交而产生的，并且抗切割基序是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第二寡核苷酸杂交而产生的，并且其中切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括：

(i)引入所述第一寡核苷酸和所述第二寡核苷酸的混合物；以及

(ii)引入所述切割促进剂。

E72.根据E71所述的方法，其中所述第一寡核苷酸或所述第二寡核苷酸被甲基化。

E73.根据E70或E71所述的方法，其中所述杂交可以通过控制被引入用于杂交的所述寡核苷酸的量或浓度或通过控制被引入用于杂交的所述寡核苷酸的时间量来缩放。

E74.根据E67、E68或E71到E73中任一项所述的方法，其中所述抗切割基序包括具有阻止进入切割位点的大体积加合物或侧链的寡核苷酸序列。

E75.根据E67、E68或E71到E73中任一项所述的方法，其中所述抗切割基序包括具有阻止切割促进剂识别所述切割位点的一个或多个错配的寡核苷酸序列。

E76.根据E67、E68或E71到E73中任一项所述的方法，其中所述抗切割基序包括以下中的一个或多个：具有核苷类似物的寡核苷酸序列、无碱基位点、核苷酸类似物和肽核酸键。

E77.根据E54到E63所述的方法，其中所述经切割的核酸复合物在所述第一衔接子中的可切割位点处被催化活性酶切割，并且所述未切割的核酸复合物在所述第一衔接子中受催化灭活酶保护免于切割。

E78.根据E54到E63中任一项所述的方法，其中所述切割位点位于所述第一衔接子的自互补部分或所述第一衔接子的单链部分中。

E79.根据E78所述的方法，其中当所述物理连接的核酸复合物扩增子在所述表面上处于自杂交构型时，所述切割位点是可用的。

E80.根据E54到E63所述的方法，其中当所述物理连接的核酸复合物扩增子处于双链桥式扩增构型时，所述切割位点是可用的。

E81.根据E8到E80中任一项所述的方法，其进一步包括在步骤(a)之前使具有一个或多个靶向基因组区域的物理连接的核酸复合物选择性富集，以提供多个富集的物理连接的核酸复合物。

E82.一种能够用于双链核酸分子的错误校正双链测序的试剂盒，所述试剂盒包括：

至少一组测序引物；

一组第一衔接子分子，所述第一衔接子分子包括接头结构域；

一组第二衔接子分子，所述第二衔接子分子包括被配置成固定在用于扩增的所述表面上的双链部分和单链部分；

其中所述引物和所述衔接子分子能够用于错误校正双链测序实验；以及

说明书，所述说明书关于使用所述试剂盒对从生物样品中提取的核酸进行错误校正双链测序的方法。

E83.根据E82所述的试剂盒，其进一步包括切割促进剂。

E84.根据E82或E83所述的试剂盒，其中所述接头结构域具有可切割基序。

E85.根据E82到E84中任一项所述的试剂盒，其进一步包括抗切割促进剂。

E86.根据E82到E85中任一项所述的试剂盒，其进一步包括体现在非暂时性计算机可读介质中的计算机程序产品，当在计算机或远程计算服务器上执行所述计算机程序产品时，执行针对样品中的一个或多个双链核酸分子确定错误校正双链测序读段的步骤。

E87.一种测序系统，其包括：

测序表面，所述测序表面包括共价结合的寡核苷酸；

递送系统，所述递送系统用于将测序试剂递送到所述测序表面；

递送系统，所述递送系统用于将切割促进剂递送到所述测序表面；以及

计算网络，所述计算网络用于传输与测序数据相关的信息，其中所述信息包含原始测序数据、双链测序数据和样品信息中的一个或多个。

结论

对本发明技术的实施例的以上详细描述不旨在是详尽的或将本发明技术限制于以上所公开的确切形式。尽管以上出于说明性目的描述了本发明技术的具体实施例和实例，但是如相关领域的技术人员将会认识到的，在本发明技术的范围内，各种等效修改是可能的。例如，尽管步骤以给定顺序呈现，但是替代性实施例可以以不同顺序执行步骤。还可以将本文所描述的各个实施例进行组合以提供另外的实施例。所述文献全部如本文完全阐述的通过引用并入。

根据前述内容，将理解的是，在本文中已经出于说明性目的描述了本发明技术的特定实施例，但是尚未详细示出或描述众所周知的结构和功能，以避免不必要地使本发明技术的实施例的描述不清楚。在上下文允许的情况下，单数术语或复数术语还可以分别包含复数术语或单数术语。

此外，除非词语“或”被明确地限制为仅意指除了关于具有两个或更多项的列表的其它项之外的单个项，否则在这种列表中使用“或”应被解释为包含(a)列表中的任何单个项、(b)列表中的所有项或(c)列表中的项的任何组合。另外，术语“包括”在全文中用于表示至少包含一或多个所陈述特征，使得不排除任何更大数目的同一特征和/或另外类型的其它特征。还应当理解，出于说明的目的，本文已经描述了具体实施例但可以在不偏离本技术的情况下进行各种修改。进一步地，尽管已经在那些实施例的上下文中描述了与新技术的某些实施例相关联的优点，但是其它实施例也可以展现出此类优点并且并非所有的实施例都必需展现出此类优点才能落入本技术的范围内。因此，本公开和相关联的技术可以涵盖未在本文中明确示出或者描述的其它实施例。

Claims

1.一种对双链靶核酸分子进行测序的方法，所述方法包括：

(e)在所述表面上扩增物理连接的核酸复合物扩增子的子集；

(f)去除处于其它取向的所述物理连接的核酸复合物扩增子；

2.一种对双链靶核酸分子进行测序的方法，所述方法包括：

3.根据权利要求2所述的方法，其中切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的至少一个物理连接的核酸复合物扩增子。

4.根据权利要求3所述的方法，其进一步包括：

5.根据前述权利要求中任一项所述的方法，其进一步包括将来自所述一条原始链的序列读段与来自另一条原始链的序列读段进行比较，以产生所述双链靶核酸分子的共有序列。

6.根据权利要求1到4中任一项所述的方法，其进一步包括：

7.根据权利要求1到4中任一项所述的方法，其进一步包括：

8.一种对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸分子包括第一链和第二链，所述方法包括：

9.根据权利要求8所述的方法，其中切割剩余结合的物理连接的核酸复合物扩增子的至少一部分包括保留与所述表面结合的所述克隆簇中的至少一些克隆簇中的至少一个物理连接的核酸复合物扩增子。

10.根据权利要求9所述的方法，其进一步包括：

(h)去除未结合的物理分离的第一链扩增子或第二链扩增子；

11.一种对双链靶核酸分子的群体进行测序的方法，每个双链靶核酸分子包括第一链和第二链，所述方法包括：

12.根据权利要求10或权利要求11所述的方法，其进一步包括：针对所述表面上的所述簇中的至少一些簇，将所述第一链的所述核酸序列读段与所述第二链的所述核酸序列读段进行比较，以产生原始双链靶核酸分子的错误校正的序列读段。

13.根据权利要求10到12中任一项所述的方法，其进一步包括使用唯一分子标识符(UMI)使来自所述群体的原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段相关。

14.根据权利要求13所述的方法，其中所述UMI包括所述表面上的物理位置。

15.根据权利要求14所述的方法，其中所述UMI包括标签序列、分子特异性特征、所述表面上的簇位置或其组合。

16.根据权利要求15所述的方法，其中所述分子特异性特征包括针对参考序列的核酸映射信息、所述双链靶核酸分子的末端处或其附近的序列信息、所述双链靶核酸分子的长度或其组合。

17.根据权利要求10到16中任一项所述的方法，其进一步包括使用链限定元件(SDE)区分原始双链靶核酸分子的所述第一链的所述核酸序列读段与同一原始双链靶核酸分子的所述第二链的所述核酸序列读段。

18.根据权利要求17所述的方法，其中所述SDE是序列读段信息与权利要求10的步骤(e)和步骤(j)或与权利要求11的步骤(d)和(e)的关联。

19.根据权利要求17所述的方法，其中所述SDE包括衔接子序列的一部分。

20.根据权利要求8到19中任一项所述的方法，其中对所述物理分离的第一链扩增子或所述第二链扩增子进行测序包括合成测序。

21.根据权利要求8到20中任一项所述的方法，其进一步包括：

22.根据权利要求8到21中任一项所述的方法，其中(a)中的所述扩增步骤包括桥式扩增。

23.根据权利要求8到22中任一项所述的方法，其进一步包括

24.根据权利要求1到23中任一项所述的方法，其中所述第一衔接子包括可切割位点或基序。

25.根据权利要求1到24中任一项所述的方法，其中所述第一衔接子包括可切割结构域。

26.根据权利要求1到25中任一项所述的方法，其中所述第一衔接子包括发夹环结构，所述发夹环结构包括自互补茎部分和单链核苷酸环部分。

27.根据权利要求26所述的方法，其中所述可切割结构域位于所述单链核苷酸环部分或所述茎部分中。

28.根据权利要求33所述的方法，其中所述可切割结构域包括酶识别位点。

29.根据权利要求28所述的方法，其中所述酶识别位点被限制酶或靶向核酸内切酶靶向。

30.根据权利要求1到29中任一项所述的方法，其中所述第二衔接子的所述单链部分包括具有第一引物结合位点的第一臂和具有第二引物结合位点的第二臂。

31.根据权利要求30所述的方法，其中当变性时，所述物理连接的双链核酸复合物从5'到3'或从3'到5'包括：所述第一引物结合位点、所述第一链、包括所述接头结构域的所述第一衔接子、所述第二链和所述第二引物结合位点。

32.根据前述权利要求中任一项所述的方法，其中所述表面是测序表面。

33.根据权利要求8到32中任一项所述的方法，其进一步包括在(a)中的所述扩增之前使所述多种物理连接的双链核酸复合物流过所述表面。

34.根据前述权利要求中任一项所述的方法，其中所述表面包括与所述第二衔接子的一个或多个区域至少部分互补的多种一个或多个结合的寡核苷酸。

35.根据权利要求34所述的方法，其中所述多种一个或多个结合的寡核苷酸与所述第二衔接子的所述单链部分至少部分互补。

36.根据权利要求1到35中任一项所述的方法，其中所述物理连接的核酸复合物的第一链和第二链在步骤(a)中通过多次扩增反应扩增以在所述表面上产生所述物理连接的核酸复合物扩增子的簇。

37.根据权利要求8到36中任一项所述的方法，其中所述多种物理连接的核酸复合物中的每一种的所述第一链和所述第二链在步骤(a)中扩增以在所述表面上同时产生所述多个簇。

38.根据权利要求1到8和12到37中任一项所述的方法，其中切割所述结合的物理连接的核酸复合物扩增子的一部分包括在所述第一衔接子中的可切割位点处进行低效切割，从而在所述表面上的每个簇内产生经切割的核酸复合物和未切割的核酸复合物两者。

39.根据权利要求38所述的方法，其中流动池上的每个簇内的所有核酸复合物中的未切割核酸复合物的比率为1％、5％、10％、20％、30％、40％、45％或50％。

40.根据权利要求38或39所述的方法，其中所述经切割的核酸复合物在所述第一衔接子的所述接头结构域中的可切割位点处被切割促进剂切割。

41.根据权利要求40所述的方法，其中所述切割是定点酶促反应。

42.根据权利要求40或权利要求41所述的方法，其中所述切割促进剂是核酸内切酶。

43.根据权利要求40或权利要求41所述的方法，其中所述切割促进剂包括CRISPR相关酶。

44.根据权利要求40或权利要求41所述的方法，其中所述切割促进剂包括切口酶或切口酶变体。

45.根据权利要求40所述的方法，其中所述切割促进剂包括化学过程。

46.根据权利要求38到45中任一项所述的方法，其中所述表面上剩余的未切割的核酸复合物的量可通过控制被引入用于定点切割的所述切割促进剂的量或浓度或通过控制被引入用于定点切割的所述切割促进剂的时间量来缩放。

47.根据权利要求38到45中任一项所述的方法，其中所述未切割的核酸复合物是通过在切割步骤之前或期间添加抗切割促进剂来保护的。

48.根据权利要求47所述的方法，其中切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括：

(i)引入所述抗切割促进剂；以及

(ii)在(i)之后或同时，引入所述切割促进剂，

49.根据权利要求38到44所述的方法，其中所述可切割位点是通过与包括与所述第一衔接子的所述接头结构域至少部分互补的序列的寡核苷酸杂交而产生的，并且其中未与所述寡核苷酸杂交的物理连接的核酸复合物扩增子未被切割。

50.根据权利要求38到44所述的方法，其中所述可切割位点是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第一寡核苷酸杂交而产生的，并且抗切割基序是通过与包括与所述衔接子的所述接头结构域至少部分互补的序列的第二寡核苷酸杂交而产生的，并且其中切割所述结合的物理连接的核酸复合物扩增子的一部分进一步包括：

(ii)引入所述切割促进剂。

51.根据权利要求38到44所述的方法，其中所述经切割的核酸复合物在所述第一衔接子中的可切割位点处被催化活性酶切割，并且所述未切割的核酸复合物在所述第一衔接子中受催化灭活酶保护免于切割。

52.根据权利要求38到44中任一项所述的方法，其中所述切割位点位于所述第一衔接子的自互补部分或所述第一衔接子的单链部分中。

53.根据权利要求52所述的方法，其中当所述物理连接的核酸复合物扩增子在所述表面上处于自杂交构型时，所述切割位点是可用的。

54.根据权利要求38到44中任一项所述的方法，其中当所述物理连接的核酸复合物扩增子处于双链桥式扩增构型时，所述切割位点是可用的。