CN112513268A

CN112513268A - 用于核酸测序的追踪核酸片段来源的方法和组合物

Info

Publication number: CN112513268A
Application number: CN201980024884.5A
Authority: CN
Inventors: 陈宙涛; 吴采芹; 范龙金; 汪涌
Original assignee: Universal Sequencing Technology Corp
Current assignee: Universal Sequencing Technology Corp
Priority date: 2018-02-08
Filing date: 2019-02-08
Publication date: 2021-03-16
Also published as: US20240026442A1; US20210047683A1; WO2019157318A1; US11807903B2; EP3749765A1; EP3749765A4

Abstract

本发明提供了当原始核酸靶标断裂成小片段时，通过靶标特异性条形码标记来追踪核酸片段来源的方法和组合物。核酸靶标在体外被捕获在具有克隆定位的核酸条形码模板的固体载体上。可以以大规模平行的方式同时处理许多核酸靶标，而无需分割。这些核酸靶标追踪方法可用于全基因组测序和靶向测序中的多种应用，例如为了准确地鉴定基因组变体、单倍型定相和汇编。

Description

用于核酸测序的追踪核酸片段来源的方法和组合物

相关申请的交叉引用

本专利要求2018年2月8日提交的临时申请US 62/628,079和2018年4月12日提交的US 62/656,796的优先权。它们全部包含于此。本文提到的所有出版物、专利和其他文件将通过引用的方式全部并入。

技术领域

本发明总体上涉及用于核酸测序的方法和组合物。特别地，本文提供的方法和组合物涉及制备核酸文库和从中生成测序数据。

背景技术

核酸测序可以为多种的生物医学应用提供信息，包括诊断、预测、药物基因组学和法医生物学。测序可以涉及基本的低通量方法，包括Maxam-Gilbert测序(化学修饰的核苷酸)和Sanger测序(链末端)方法，或者下一代高通量的方法，包括大规模平行焦磷酸测序、合成测序、连接测序、半导体测序以及其他。对于大多数测序方法，在测序仪器上进行测序之前，需要将样本(如核酸靶标)处理到测序文库中。例如，样本可能被片段化、放大或附着在标识符(identifier)上。独特的标识符通常被用于鉴定特定样本的来源。

大多数商业上可得的测序技术的测序读段长度有限。特别地，第二代测序技术只能对几百个碱基进行测序，几乎不能达到一千个碱基。然而，基因的核酸序列可以跨越几个千碱基，也可以跨越几十个或几百个千碱基，这意味着要想成功地确定所有基因的单倍型，需要对几十个千碱基的读段长度进行测序。

为了克服序列读段长度短的问题，已经开发了许多方法以当长核酸靶标被分解成小片段用于制备测序文库时，靶向特异地标记长核酸靶标。这些方法包括：完整基因组的长片段读段、Illumina的合成长读段、10倍基因组的连锁读段(Zheng等人，2016年)、Illumina的单管法(Zhang等人，2017年)和我们自己的单管法(WO2017/151828)。这些靶标特异性的标签是短核酸序列，被称为条形码。可以根据这些短核酸片段独特的相关条形码来鉴定它们的来源。在该方法中，所使用的条形码群的多样性越广，其提供的鉴定的特异性就越好。10倍基因组的连锁读段方法被广泛应用。然而，要想保持特异靶标条形码标记反应的克隆性，需要一种油包水的乳化法。这一要求大大增加了其样品制备程序的复杂性和成本。几种方法，包括属于完全基因组学的方法(美国专利9328382)、Illumina的单管法(Zhang等人，2017年)和我们的方法(WO2017/151828)使用基于转座酶的系统和消除了在反应中用乳剂液滴分割核酸靶标的需要。这些方法原则上能够在单管反应形式中实现靶标特异性的条形码。本发明提供了新型基于转座酶的单管条形码方法，显著提高了反应效率，简化了工作流程。

发明内容

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供连接酶、在其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体、以及多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够直接或间接地与所述固体载体上的条形码模板连接。核酸靶标与一个反应容器中的连接酶、固体载体和转座体接触，以通过同时的链转移和连接反应将固体载体上的条形码信息附着到核酸靶标上。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着在固体载体上的条形码模板上。

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供在其上固定有克隆条形码模板或半克隆性条形码模板的多个固体载体，以及多个转座体，每个转座体包括可转座DNA和转座酶，其中转座体中的至少一个可转座DNA能够通过杂交或亲和基团直接或间接地被固体载体上的条形码模板所捕获。核酸靶标与一个反应容器中的固体载体和转座体接触，以通过同时的链转移和捕获反应将固体载体上的条形码信息附着到核酸靶标上。上述反应基本同时发生，不需要额外地将总的多个核酸靶标中的每个核酸靶标与另一个核酸靶标进行分割。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着在固体载体上的条形码模板上。

在一些情况下，通过直接合成、克隆扩增或其组合的方法制备固定在固体载体上的克隆条形码模板或半克隆条形码模板。克隆扩增可以是乳液PCR、桥式PCR、等温PCR、模板步移(template walking)、纳米球生成及其组合。在特定情况下，条形码化固体载体通过克隆扩增方法制备，而没有分离扩增的和未扩增的群体。进一步的情况下，条形码固体载体通过克隆扩增制备，而具有只有或主要是富集扩增的群体。

一方面，该反应在具有受控粘度的缓冲体系中进行，通过添加选自由以下项组成的组的物质以减少扩散并增加悬浮：聚乙二醇、普朗尼克、纤维素、琼脂糖、它们的衍生物、其他聚合物及其组合，在约20℃下粘度为约1-200mPas，优选地，在约20℃下粘度为1.5-30mPas。

一方面，转座体可以被单独的可转座DNA和转座酶取代，而无需将它们预先装配成转座体。

另一方面，在初始反应之后，向反应容器中的添加第二转座体；其中先前添加的转座体被称为第一转座体，第一转座体和第二转座体可以是相同类型或不同类型，或者是相同类型的不同转座体序列。另一方面，在将核酸靶标断裂成片段之后添加第二转座体。

另一方面，核酸靶标可以通过非特异性结合的方式预先附着到固体载体上。

另一方面，容器中的捕获反应是通过连接、或通过杂交、或通过亲和标签、或通过抗体和抗原反应、或通过点击化学或其组合进行的。

另一方面，捕获反应包括首先杂交和然后连接。

另一方面，条形码化固体载体具有可转座DNA或转座体，所述可转座DNA或转座体预先附着到固定在固体载体上的一些条形码模板末端上。

另一方面，所述转座酶选自由野生型或其突变型或标签型的Tn、Mu、Ty和Tc转座酶，及其组合组成的组。特别地，转座酶是野生型或其突变型或标签型的MuA转座酶、或Tn5转座酶或其组合。

另一方面，所述可转座DNA含有转座子，其中转座子选自野生型或其突变型的Tn、Mu、Ty和Tc转座子DNA及其组合。特别地，所述转座子是野生型或突变型的MuA转座子、或Tn5转座子、或其组合。

另一方面，所述可座转DNA还包括衔接子序列。

另一方面，能够被所述条形码模板捕获的所述可转座DNA与所述条形码模板不具有互补的序列，和通过接头(linker)促进所述可转座DNA捕获到所述条形码模板上。

另一方面，所述转座体包括至少一种类型的转座酶、至少一种类型的可转座DNA，或其组合。

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供连接酶、在其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体和通过非特异性结合将核酸靶标捕获到固体载体上，以及提供多个转座体，每个转座体包括可转座DNA和转座酶，其中转座体中的至少一个可转座DNA能够直接或间接地与固体载体上的条形码模板连接。将固体载体上的非特异性结合的核酸靶标与一个反应容器中的连接酶和转座体接触，以通过同时的链转移和连接反应将固体载体上的条形码信息附着到核酸靶标上。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着在固体载体上的条形码模板上。

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供在其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体、通过非特异性结合将核酸靶标捕获到固体载体上以及提供多个转座体，每个转座体包括可转座DNA和转座酶，其中转座体中的至少一个可转座DNA能够直接或间接地被特异地捕获到固体载体上的条形码模板上。将固体载体上的非特异性结合的核酸靶标与一个反应容器中的转座体接触，以通过同时的链转移和捕获反应将固体载体上的条形码信息附着到核酸靶标上。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着在固体载体上的条形码模板上。

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供在其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体、以及提供多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够直接或间接地与固体载体上的条形码模板连接。核酸靶标与转座体接触以形成稳定的链转移复合体。该链转移复合体通过非特异性结合被捕获到固体载体上。通过连接将固体载体上的条形码信息附着到核酸靶标上。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着到固体载体上的条形码模板上。在一些实施方案中，通过断裂链转移复合体，首先将固体载体上具有链转移复合体的所捕获的核酸靶标断裂成片段。通过非特异性结合将核酸片段保留在固体载体上。然后通过连接将固体载体上的条形码信息附着到核酸片段上，其中至少一个片段附着到固体载体上的条形码模板。

一方面，本文描述了通过条形码标签追踪核酸片段来源的方法。所述方法包括提供在其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体、以及提供多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够直接或间接地与固体载体上的条形码模板连接。核酸靶标通过非特异性结合捕获到固体载体上。转座体与非特异性结合的核酸靶标接触，在固体载体上形成稳定的链转移复合体。通过连接将固体载体上的条形码信息附着到核酸靶标上。通过断裂链转移复合体将核酸靶标断裂成片段，其中至少一个片段附着到固体载体上的条形码模板。在一些实施方案中，通过断裂所述链转移复合体，首先将固体载体上具有链转移复合体的所捕获的核酸靶标断裂成片段。通过非特异性结合将核酸片段保留在固体载体上。然后通过连接将固体载体上的条形码信息附着到核酸片段上，其中至少一个片段附着到固体载体上的条形码模板。

一方面，本文描述了用于确定核酸靶标的连接信息的方法。所述方法包括：根据本发明中描述的任何一种方法生成核酸靶标的条形码标签化片段；确定所述核酸片段和条形码的序列；和当来自同一核酸靶标的至少两个片段接收到相同的条形码信息时，基于所述条形码序列确定所述核酸靶标的连接信息。

一方面，本文描述了用于生成核酸靶标的条形码标签化片段的可溶性文库的方法。在一些实施方案中，可溶性文库包括整个基因组的序列信息。在一些实施方案中，可溶性文库包括靶区域的序列信息。在一些实施方案中，可溶性文库用于测序以确定核酸靶标的定相信息。在一些实施方案中，可溶性文库用于测序以确定复制读本的同一性。

一方面，本文描述了一种在不具有特定条形码序列的在先知识的情况下，对在某些或所有位置具有简并碱基的条形码设计的测序错误校正方法。

附图说明

图1示出了一种生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段在开放的整体反应中，利用同时的链转移和连接反应到条形码固体载体上，而不需要对核酸靶标进行分割。

图2显示了不同可转座DNA的设计，(A)带有3’端突出的一段转座子互补链，(B)带有分离互补接头寡核苷酸的转座子互补链，(C)带有5’端突出的转座子结合链，(D)在非结合端具有钝端的转座子。

图3显示了不同自由接头设计的实例。(A)单链接头，(B)双链接头，(C)部分双链接头。

图4示出了一种生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段同时使用不同的转座体，在开放的整体反应中，利用同时的链转移和连接反应到条形码固体载体上，而不需要对核酸靶标进行分割。

图5显示了使用核酸外切酶I去除固体载体上的单链多核苷酸。

图6示出了一种生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段同时使用不同的转座体，在开放的整体反应中，利用同时的链转移和连接反应到条形码固体载体上，而不需要对核酸靶标进行分割。

图7示出了一种生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段同时使用不同的转座体，在开放的整体反应中，利用同时的链转移和连接反应到条形码固体载体上，而不需要对核酸靶标进行分割，操作流程顺序不同于图6所示的。

图8示出了一种具有可替代的操作流程以生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段利用同时的链转移和连接反应到条形码固体载体上。

图9示出了一种具有可替代的操作流程以生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段利用同时的链转移和连接反应到条形码固体载体上。

图10示出了一种生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段利用非特异性结合和连接到条形码固体载体上。

图11示出了一种具有可替代的操作流程以生成克隆条形码标签化的核酸片段的方法，该克隆条形码标签化的核酸片段利用非特异性结合和连接到条形码固体载体上。

图12示出了使用转座体将衔接子引入到固定化的条形码标签化片段上的方法。

图13示出了一种利用片段化和连接反应将衔接子引入到固定化的条形码标签化片段上的方法。

图14示出了通过引物延伸和/或PCR扩增释放固定化的条形码标签化片段的一个或多个拷贝的方法。

图15是由条形码标签化片段生成的Illumina测序文库的实例。

图16示出了在TapeStation(A)上运行的条形码标签化的Illumina测序文库的电泳图，并基于到下一个比对的读段距离对具有相同条形码(B)的读段进行了读段计数直方图测序。

图17示出了另外一个在TapeStation(A)上运行的条形码标签化的Illumina测序文库的电泳图，并基于到下一个比对的读段距离对具有相同条形码(B)的读段进行了读段计数直方图测序。

图18示出了一种生成克隆条形码标签化的核酸片段的方法，在开放的整体反应中，利用同时的链转移和杂交反应到条形码固体载体上，而不需要对核酸靶标进行分割。

图19示出了三种不同的基于转座酶以生成用于测序文库构建的克隆条形码标签化片段的方法。

图20示出了使用三种不同的基于转座酶的方法(M1，方法1；M2，方法2；M3，方法3)的三个扩增的测序文库的2％琼脂糖凝胶EX图。100bp的DNA梯带图从上到下的片段大小分别为3000bp、2000bp、1500bp、1000bp、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp和100bp。

所有图形中的转座酶都是以MuA转座系统为基础的转座体中的四聚体示出。但是，也可以使用其他转座酶。

具体实施方式

如本发明和所附的权利要求中所使用的，在专利申请WO2017/151828中描述了条形码模板和在其上固定有克隆条形码模板或半克隆条形码模板的固体载体，即条形码固体载体，该专利申请通过引用将其全部并入本文中。在一些实施方案中，所有固体载体都附着有条形码模板。在一些实施方案中，只有一部分固体载体具有附着的条形码模板。具有条形码的固体载体的比例可以在1％至99％之间。当固体载体在物理上可分离时，例如珠粒或微粒时，可以通过克隆扩增的方法制备条形码固体载体，无论是否从未扩增的固体载体中富集扩增的固体载体。

本文所使用的术语“衔接子”是一段核酸序列，所述核酸序列可以包括引物结合序列、条形码、接头序列、与接头序列互补的序列、捕获序列、与捕获序列互补的序列、限制位点、亲和基团、独特的分子标识符及其组合。

本文所使用的术语“转座酶”是指功能性核酸蛋白复合体的组成部分，所述功能性核酸蛋白复合体能够转座并介导转座，其包括但不限于Tn、Mu、Ty和Tc转座酶。术语“转座酶”也指逆转录转座子或逆转录病毒来源的整合酶。它也指野生型蛋白、突变型蛋白和带有标签(如GST标签、His-标签，等)的融合型蛋白，及其组合。

本文所使用的术语“转座子”是指由转座酶或整合酶识别的核酸片段，其是能够转座的功能性核酸-蛋白质复合体的基本成分。与转座酶一起形成转座体，执行转座反应。它既包括野生型转座子，也包括突变型转座子。

本文所使用的“可转座DNA”是指包含至少一个转座子单元的核酸片段。它还可以包括亲和基团、非天然核苷酸和其他修饰。可转座DNA序列中除了转座子序列外还可以包含衔接子序列。

本文所使用的术语“转座体”是指稳定的核酸和蛋白质复合体，其是由转座酶非共价结合到转座子上形成的。它可以包括具有相同或不同单体单元的多聚单元。

本文所使用的“转座反应”是指将转座子插入到靶核酸中的反应。转座反应的主要成分是转座子、转座酶或整合酶、及其靶核酸。

本文所使用的“链转移反应”是指核酸和转座体之间的反应，在该反应中会形成稳定的链转移复合体。

本文所使用的术语“链转移复合体(STC)”是指转座子及其靶核酸的核酸-蛋白质复合物，转座子插入靶核酸中，其中转座子结合链的3’末端与其靶核酸的两条链共价连接。它是核酸和蛋白质复合体的非常稳定的形式，在体外具有极高的热和高盐抗性(Burton和Baker，2003)。

本文所使用的“转座酶结合区域”是指转座酶在介导转座时特异性结合的转座子末端序列内的核苷酸序列。转座酶结合区域可以包括多于一个的位点，所述位点用于结合转座酶亚单位。

本文所使用的“转座子结合链”是指通过转座酶，在插入位点连接到靶核酸上的双链转座子DNA链。

本文所使用的“转座子互补链”是指双链转座子DNA中转座子结合链的互补链。

本文所使用的“固体载体”选自由珠粒、微粒、孔、管、载玻片、平板、流通池及其组合所组成的组，其中当固体载体在物理上可分离时，例如珠粒或微粒，条形码模板被克隆或半克隆固定在整个表面上，当固体载体是连续的平坦表面(例如孔、管子、载玻片、平板、流通池)时，条形码模板作为可分离的克隆簇或半克隆簇固定在表面上。

本文所使用的“连接酶”选自由野生型、其突变型或标签型的DNA连接酶、或RNA连接酶及其组合；所述连接酶用于连接反应。

本文所使用的“捕获反应”是指特异性捕获，其是通过连接、杂交、与亲和基团(例如，生物素和链霉亲和素、抗体和抗原)的亲和结合、点击化学或其组合等进行。

本文所使用的“反应容器”是指具有连续的开放空间以容纳液体的物质；所述反应容器选自由试管、孔、平板、多孔平板中的孔、载玻片、载玻片上的斑、液滴、管子、通道、瓶、腔室和流通池。

通过采用体外MuA转座来举例说明本发明的方法和材料(Haapa等，1999和Savilahti等，1995)。可以使用其他转座系统或这些不同转座系统的组合，例如Ty1(Devine和Boeke，1994)、Tn7(Craig，1996)、Tn10和IS10(Kleckner等，1996)、Mariner转座酶(Lampe等，1996)、Tc1(Vos等，1996)、Tn5(Park等，1992)、P元素(Kaufman和Rio，1992)和Tn3(Ichikawa和Ohtsubo，1990)、细菌插入序列(Ohtsubo和Sekine，1996)、逆转录病毒(Varmus和Brown，1989)和酵母的逆转录转座子(Boeke，1989)。

本发明总体上涉及用于核酸测序的方法和组合物。特别地，本发明提供的方法和组合物涉及核酸文库的制备和由此生成的测序数据。

一方面，所述方法和组合物涉及靶核酸的单倍型定相。在一些实施方案中，核酸靶标是DNA。在一些实施方案中，核酸靶标是基因组DNA。在一些实施方案中，核酸靶标是扩增的DNA。在一些实施方案中，DNA是被修饰的DNA。所述修饰包括非天然核苷酸、亲和基团、化学处理(如亚硫酸氢盐处理或福尔马林固定石蜡包埋)、和蛋白质附着(如组蛋白、转录因子)。在一些实施方案中，核酸靶标是合成的DNA。在一些实施方案中，核酸靶标是RNA。在一些实施方案中，核酸靶标是mRNA。在一些实施方案中，核酸靶标是互补的DNA(cDNA)。在一些实施方案中，靶核酸来自单细胞。在一些实施方案中，靶核酸是无细胞DNA。核酸靶标的长度可以有很大的变化。它的范围从大约50bp到1Mb，甚至更多。核酸靶标的长度越长，定相应用的效果越好。在一次反应中，核酸靶标的数量可以从10亿到数十亿，甚至更多。在一些实施方案中，反应容器是管、孔、平板、多孔平板中的孔、载玻片、载玻片上的斑、液滴、管子、通道、瓶、腔室、或流通池。该反应以整体形式发生，而没有将总的多个核酸靶标中的每个核酸靶标与另一个核酸靶标分割。所述分割的示例有乳剂、孔、液滴、稀释剂等。本发明极大地简化了操作流程，在不需要分割的情况下易于规模化和自动化。

链转移反应到核酸靶标上，同时特异性捕获条形码模板

本发明提供了通过利用转座系统的链转移反应和特异性捕获反应(例如，用连接酶和/或杂交)，同时地捕获核酸靶标到克隆条形码的固体载体上的方法和组合物。所捕获的核酸靶标可以通过断裂链转移复合体而被片段化，其会从附着有靶标特异性条形码的核酸靶标上生成小片段(图1)。

在一个实施方案中，可转座DNA可仅包含一个转座子序列。因此，可转座DNA中的转座子序列不通过核苷酸序列与另一种转座子序列连接，即，可转座DNA仅包含一个转座酶结合区域(图2)。另外，可转座DNA的结合链的5’端具有磷酸盐，可通过单链端对端连接、双链端对端连接、或通过接头分子，连接至任何带有-OH基的DNA链的3’端。图2示出了一些可连接的可转座DNA的实例。在有或者没有可转座DNA上的转座酶存在下，转座子结合链的5’端可与固体载体上的多核苷酸连接。在某些情况下，转座子互补链的3’端和可转座DNA结合链的5’端具有不同的长度。在某些情况下，转座子互补链的3’端和可转座DNA结合链的5’端具有相同的长度。在某些情况下，转座子互补链的3’端被修饰，例如被双脱氧核苷酸、C3-间隔区(spacer)、磷酸基、硫代磷酸基、叠氮基或氨基接头，以阻断自我连接。在一些情况下，转座子互补链的3’端可以具有单个核苷酸突出或单个核苷酸凹入或错配核苷酸以阻断自我连接。在某些情况下，双链条形码模板上的单核苷酸突出和双链转座子的单核苷酸突出是互补的，用于促进连接。在某些情况下，双链条形码模板和双链转座子上的一个以上的核苷酸是突出的，可用于促进连接。在某些情况下，固体载体上的条形码模板是双链的。在某些情况下，固体载体上的条形码模板是单链的。在某些情况下，固体载体上的条形码模板部分地是单链的，部分地是双链的。在某些情况下，转座子序列中的一些序列变异被用作额外的样本标识符。在某些情况下，可转座DNA包含一个衔接子。在某些情况下，衔接子中的序列变异被用作额外的样本标识符。与不同转座子和/或可转座DNA序列反应的样品可以在反应后混合在一起，以在需要时简化下游过程。

在一个实施方案中，在固体载体上的条形码模板和被捕获的可转座DNA之间没有互补的捕获序列。可以使用基于接头的捕获方法来促进捕获反应。图3示出了一些基于接头的连接和/或捕获的实例。在一个实施方案中，接头分子是单链的。在一个实施方案中，接头分子是双链的。在一个实施方案中，接头分子部分地是双链的。在某些情况下，接头寡核苷酸可能预先与可转座DNA结合。在某些情况下，接头寡核苷酸可以预先与固体载体上的固定化的多核苷酸结合。在某些情况下，只有当捕获反应恰好将可转座DNA链的结合链的5’端连接到固体载体上的固定化的多核苷酸的3’端时，才可以添加接头寡核苷酸。游离接头方法往往比预结合接头方法生成更少的PCR副产物。接头分子的长度是变化的，例如5b(p)、10b(p)、20b(p)、30b(p)、40b(p)、50b(p)、100b(p)、200b(p)或更多。

一种对核酸靶标进行克隆片段化和条形码化的方法描述如下(图1)。在一个反应容器中，将双链核酸靶标、装配的转座体、连接酶和克隆或半克隆条形码固体载体混合在一起，不通过乳剂或稀释剂进行分隔。转座体中的可转座DNA可与固体载体上的条形码模板连接。转座体与核酸靶标之间的链转移反应和可转座DNA与条形码模板之间的连接反应在同一溶液中同时发生。在链转移反应过程中形成的稳定的STC将会将核酸靶标保持在一块。通过STC中的可连接的可转座DNA，条形码序列将克隆地附着到核酸靶标上(与STC一起)。反应后，用SDS溶液断裂STC，将核酸靶标断裂成小片段。许多小片段包含条形码序列，来自同一个核酸靶标的片段将具有相同的条形码。这种克隆条形码标签化方法高效的关键是同时发生的链转移反应和条形码连接反应。用本发明生成的条形码标签化片段的产量远高于专利申请WO2017/151828中的方法，其中首先核酸靶标在溶液中与转座体形成STC，然后将STC中的可转座DNA连接至固体载体上的条形码模板。本发明的反应效率也远高于美国专利9,328,382B2和单管文章(Zhang等，2017)中的方法，其中首先将转座体固定在条形码珠粒上，然后仅通过链转移反应捕获溶液中的游离核酸靶标。在本发明中，所使用的连接反应和链转移反应都是用来捕获核酸靶标。使用连接仅用于捕获的方法产量低的解释是一个充满STC的核酸靶标可能会产生空间位阻，空间位阻限制了连接效率。使用链转移仅用于捕获的方法效率低的解释是可转座DNA被固定在具有固定空间排列和位置的珠粒表面上，这可能会抑制转座体的形成和/或与游离核酸靶标的链转移反应的效率。为了充分利用同时发生的链转移和连接反应，优化了缓冲液组成、pH和温度等反应条件。

在一个反应容器中可以使用多个核酸靶标。该反应以整体形式发生，而无需将总的多个核酸靶中的每个核酸靶标与另一个核酸靶标分割。本发明极大地简化了操作流程，在不需要分割的情况下易于规模化和自动化。将多个核酸靶标均匀溶解在溶液中，以便在反应后均匀地捕获在固体载体上。在一些实施方案中，限制反应溶液中的扩散速率可以用于促进固体载体上的捕获均匀性。固体载体可以是连续的表面，如在具有全克隆或半克隆固定的条形码模板簇的孔、管、载玻片、平板或流通池中。也可以将其物理地分离为单个珠粒或微粒。珠粒和微粒可以具有范围从50nm至100μm的尺寸，优选地1μm至15μm。每个珠粒或微粒具有多个具有唯一序列的条形码模板。本发明的主要优点在于靶标特定的条形码的标签化可以发生于开放的整体反应中，而不用孔、微孔、斑、纳米通道、液滴、乳剂液滴、胶囊或稀释剂等来分割核酸靶标。为了获得更好的结果，珠粒或微粒的尺寸应该控制在50nm至100μm(直径)之间，优选地在1μm至15μm之间，尽管其可以小于50nm或大于100μm。为了使反应均匀，珠粒或微粒在反应期间需要保持悬浮状态，通过使用聚乙二醇、普朗尼克、纤维素、琼脂糖、或它们的衍生物、或其他聚合物或其组合来控制溶液的粘度，在20℃下的粘度为从1至200mPa·s，最优选地，20℃下为1.5-30mPa·s。对于固态表面(例如流通池表面)上的条形码簇，簇的尺寸应控制在50nm至200μm(直径)之间，优选地在100nm至10μm之间。簇的分离距离越大，一个核酸靶标分子被两个或多个条形码标签化的机会就越小。

由于STC结构非常稳定的性质(Surette等1987，Mizuuchi等1992，Savilahti等1995，Burton和Baker 2003，Au等2004，Amini等2014)以及固体载体上的克隆条形码模板，本发明生成的条形码标签化片段在条形码序列中可以保持其来源核酸靶标的标识。来自相同核酸靶标的片段共享相同的条形码序列。众所周知，这类条形码标签化片段可用于单倍型定相，从头汇编和其他应用(Zheng等，2016，Zhang等，2017)。

一方面，首先核酸靶标可以非特异性地结合到条形码化的固体载体上。然后将其与转座体和连接酶混合，以通过同时的链转移反应和连接反应将条形码信息共价地附着在核酸靶标上。

在一些实施方案中，在反应之前不预先装配转座体。将转座酶和可转座DNA直接用于与核酸靶标、连接酶和固体载体的反应中。在一些实施方案中，可通过单链连接或双链连接将可转座DNA直接连接至固体载体上的条形码模板(图2)。在一些实施方案中，可以在同时的链转移和连接反应中添加接头单元以促进连接(图3)。在一些实施方案中，所有的转座体均包含相同的可转座DNA序列。在一些实施方案中，转座体含有不同的可转座DNA序列(图4)。在一些实施方案中，转座体中仅一个可转座的DNA可以连接至条形码模板(图4)。在一些实施方案中，转座体中的所有可转座DNA可连接至条形码模板。在一些实施方案中，同一转座体中所有可转座DNA的单体单元序列相同。在一些实施方案中，同一转座体中可转座DNA的单体单元序列不同。在一些实施方案中，反应中使用了不同的转座酶。可以使用不同的方法来断裂链转移复合体，例如蛋白酶处理，高温处理或蛋白质变性剂(如SDS溶液、盐酸胍、尿素等)或其组合。在一些实施方案中，在条形码标签化后，单链核酸外切酶可用于去除固体载体上的不需要的单链多核苷酸(图5)。

一方面，转座体可以在反应中顺序地使用。在一些实施方案中，这些转座体是相同的。在其他实施方案中，这些转座体是不同的。在一些实施方案中(图6)，将第一转座体与核酸靶标、连接酶和条形码化固体载体混合，以在固体载体上生成固定化核酸STC复合物I。然后添加第二转座体以攻击固定化STC I并形成STCⅡ。在一些实施方案中，第二转座体可具有不同类型的转座子和转座酶。在一些实施方案中，第二转座体中的可转座DNA可具有与第一转座体中相同类型的转座子的不同转座子序列。在一些实施方案中，第二转座体可具有不同的可转座DNA序列，但具有与第一转座体相同的转座子序列。在一些实施方案中，捕获反应，例如连接和/或杂交与第二链转移反应再次同时发生。在一些实施方案中，反应缓冲液被优化以用于与转座体的第一和第二同时的链转移反应以及利用杂交和/或连接的捕获反应。在不同步骤之间，无需更改任何反应的缓冲液，可以显著地简化操作流程。断裂STC后，可以将靶标特异性条形码附着到片段上。在一些实施方案中，仅在破坏第一STC之后才可以添加第二转座体(图7)。第一和第二转座体可以是相同类型或不同类型。该方法具有更好的链转移效率，因为在第二链转移反应之前，消除了来自第一STC的位阻效应。在一些实施方案中，第二链转移反应用于生成较短的片段大小。在一些实施方案中，第二转座体用于引入与第一转座体不同的衔接子或引物序列，以促进下游的扩增和测序。

在一方面，将核酸靶标与第一转座体反应以形成稳定的STC I。然后将带有STC I的核酸与第二个转座体、连接酶和克隆的条形码化固体载体反应，生成靶标特异性条形码标签化片段(图8)。

一方面，首先可将转座体附着到条形码固体载体上。为了生成靶标特异性条形码标签化片段，如图9所示，然后将核酸靶标、溶液内转座体、连接酶和转座体附着的的条形码固体载体在一个反应容器中混合在一起。在一些实施方案中，溶液中的转座体与固体载体上预附着的转座体相同。在一些实施方案中，溶液内转座体与固体载体上预附着的转座体不同。

一方面，首先可将可转座的DNA附着于条形码固体载体。为了生成靶标特异性条形码标签化片段，然后将核酸靶标、溶液内转座体、连接酶和和可转座DNA附着的条形码固体载体在一个反应容器中混合在一起。在一些实施方案中，溶液内转座体与固体载体上预附着的可转座DNA具有相同的转座子。在一些实施方案中，溶液内转座体与固体载体上预附着的可转座DNA具有不同的转座子。在一些实施方案中，用单独的可转座DNA和转座酶代替溶液内转座体。

一方面，图1、4、6、7、8和9中描述的同时的链转移反应和连接反应中的连接反应可以用图18的杂交反应代替。可以在STC断裂之前或STC断裂之后在操作流程中的后期添加连接酶，以将杂交的可转座DNA共价连接于固体载体上的条形码模板。

一方面，图18中描述的同时的链转移反应和杂交反应中的杂交反应可以用其他捕获反应代替，例如亲和标签(例如生物素和链霉亲和素)、抗原与抗体、点击化学或其组合。

通过非特异性结合到固体载体上克隆捕获核酸靶标，用于条形码标签化

本发明提供了通过非特异性结合在克隆条形码的固体载体上，捕获核酸靶标的方法和组合物。捕获的核酸靶标可以共价地附着于固体载体上的条形码模板，并从附着有靶标特异性条形码的核酸靶标中生成小片段。

一方面，核酸靶标与转座体反应并形成链转移复合体。利用固定在表面的克隆或半克隆条形码模板，具有STC的核酸靶标非特异性结合至固体载体(图10)。在一些实施方案中，首先核酸靶标可以非特异性地与条形码化固体载体结合。然后，结合的核酸与溶液中的转座体反应，在固体载体上形成STC。一方面，通过SDS处理，STC断裂，核酸靶标断裂成小片段，在该条件下，所述小片段仍通过非特异性结合附着于固体载体(图10)。加入连接酶，以将小片段共价地附着到固体载体上的条形码模板上，生成附着有靶标特异性条形码序列的小片段(图10)。另一方面，非特异性结合至固体载体的具有STC的核酸靶标首先通过STC中的可连接的可转座DNA与固体载体上的条形码模板连接。然后通过SDS处理，将STC断裂，生成附着有靶标特异性条形码序列的小片段(图11)。

一方面，首先可以将核酸靶标非特异性地结合至条形码化的固体载体。然后，结合的核酸与溶液中的转座体和连接酶反应形成STC，并在固体载体上将可转座的DNA同时连接至条形码模板。

许多条件可使核酸以及核酸和蛋白质复合体非特异性地结合至固体载体。最值得注意的是，含盐聚乙二醇(Lis和Scheif，1975)、多胺和钴胺(Pelta等，1996)、和醇(Crouse和Amorese，1987)被广泛用于沉淀和/或浓缩核酸。

一方面，本发明中描述的连接反应可以被其他捕获反应代替，例如杂交、亲和标签(例如生物素和链霉亲和素)、抗原与抗体、点击化学或其组合。

释放克隆条形码标签化核酸片段以生成测序文库

条形码标签化片段固定在固体载体。它们可用于制作测序文库。在一些实施方案中，可以将其进一步操纵用于其他应用，例如经亚硫酸氢盐处理进行甲基化研究。在一些实施方案中，可以使用基于转座酶的标签化方法将另外的测序衔接子附着到条形码标签化片段上(图12)。在一些实施方案中，条形码标签化片段可以用物理剪切方法和/或酶促片段化方法进一步被片段化，然后其可以连接其他测序衔接子(图13)。固定化的条形码标签化片段可以多种方式从固体载体中释放。在一个实施方案中，附着于固体载体的寡核苷酸序列中可以包括可切割的连接或罕见的限制性位点。利用切割反应或限制酶消化，可以从固体载体中释放条形码标签化片段。在某些情况下，可以进行引物延伸以制作条形码标签化片段的一个或多个副本(图14A)。在一些实施方案中，引物是随机引物。在一些实施方案中，引物是靶标特异性引物(图14A，14C)。特异性引物的靶标可以是外显子、内含子、基因、外显子组等。专利申请WO 2017/151828中描述了靶向测序更详细的应用。使用对测序平台具有特异性的引物进行进一步的PCR扩增，例如Illumina的SBS文库的P5和P7引物(图15)或lonTorrent文库的P1和A引物，可能会为特定的测序平台生成易于测序的文库。当通过从固体载体中释放条形码标签化片段来制备文库时，可以使用具有样品特异性索引的引物。在某些情况下，条形码模板中的序列可用作样本特异性索引。释放的具有样品特异性索引的条形码标签化片段可以与其他样品具有其自身样品特异性索引的标签化片段混合在一起，以用于进一步的下游操作流程，以增加样品制备量并简化过程。当来自相同核酸靶标的至少两个片段接收到相同的条形码信息时，可以对构建的文库进行测序以确定条形码和核酸片段的序列，并基于条形码序列确定核酸靶标的连接信息。连接信息可用于单倍型定相、结构变异检测、CNV检测等。条形码信息还可用于区分来自扩增或测序的重复读段的来源。

将条形码测序读段装配成长读段

本发明提供了在开放的整体反应中克隆条形码标签核酸样品的方法和组合物，而没有像其他方法那样具有复杂的分隔或分割方案。条形码标签化片段可以来自整个基因组样本，或基因组的一部分，或特定的目标区域，或宏基因组样本。从这些条形码标签化片段生成的测序读段包含可用于识别这些片段的原始靶标的条形码信息，这些具有相同条形码的短测序读段可以组合在一起并沿着原始核酸靶标进行聚类。根据使用哪种转座酶系统，在具有相同条形码的这些读段中，来自相同核酸靶标的两个原始相邻读段的起始端将共享一些反向互补序列碱基(MuA转座酶系统为5个碱基，Tn5转座酶系统为9个碱基)。这些重叠序列可以进一步将条形码读段连接在一起。原则上，当所有标签化片段被条形码固体载体捕获并测序时，它可以完全重建原始核酸靶标。它们提供了有用的远程连接信息，可用于单倍型定相。原始核酸靶标越长，连接信息将越长，其对于定相应用越有用。可使用这些条形码读段开发用于完整基因组装配或结构变异分析的分析管线(analysis pipeline)，以进行从头测序和重测序。在一种情况下，所有测序读段可用于标准鸟枪汇编分析，以首先建立许多初始重叠群。然后可以使用条形码信息将初始重叠群定相为更长的重叠群。这些条形码标签化方法也可以用于定相靶标的一个基因、多个基因、或外显子组。这些条形码标签化方法也可用作区分靶标测序应用中重复读段的工具。此方法提高了混杂样品上测序测定的检测限度，例如癌症活检样品或循环肿瘤细胞/DNA中的体细胞突变检测。

具有随机简并碱基的条形码设计的测序错误校正方法

任何测序技术都会产生测序错误。大多数NGS测序技术的原始读段测序错误率为0.1％-1％。对于使用随机简并碱基的条形码设计，尤其是对于给定位置使用所有4种可能的简并碱基A、C、G或T，很难通过位置的设计将测序错误与真实碱基变异区分开。

本发明提供了一种方法，该方法能够在简并碱基处检测和校正测序错误，而无需该位置的序列参考。优选地，条形码集的总序列多样性比给定实验中使用的唯一条形码序列的实际数目大得多。测序读段计数至少应大于实验中使用的唯一条形码数量的2倍。测序深度越深，校正功能越好。

例如，一个随机的10-mer条形码设计在所有位置NNNNNNNNNN上均具有四个简并碱基A、C、G和T，总共将具有最多4¹⁰＝1,048,576个不同的唯一条形码序列。如果从该条形码库中随机选择1,000个唯一条形码序列，将其用于测序文库构建，测序产生了20,000个条形码读段。在1,000个唯一条形码序列中，大多数应具有超过1个读段并且每个条形码平均具有20个读段，如果没有测序错误，则应检测到总共1,000个唯一条形码序列。但是，由于测序错误，测序后识别出的唯一条形码的实际数量将超过1,000。因为大多数测序错误是随机产生的，包含一个或多个测序错误的条形码序列很可能会成为原始1000条条形码序列之外的新的唯一条形码序列。并且，具有测序错误的条形码也很可能仅与一个测序读段相关联。另外，由于在10-mer序列中产生多个测序错误的机会非常低，具有测序错误的条形码的序列很可能与其原始正确的条形码序列具有1或2个碱基的差异。可以通过比较仅具有一个测序读段的唯一条形码与具有多个测序读段的那些唯一条形码的序列同源性来识别这种错误条形码。人们希望在具有多个测序读段的那些唯一条形码中找到具有1个碱基不匹配或2个碱基不匹配的条形码，如果这是由于在测序中的测序错误而产生的，则这很可能是具有只有一个测序读段的唯一条形码的实际正确的条形码序列。

条形码中的简并碱基可以是来自A、C、G和T(U)的全部4个碱基、或任意3个碱基、或任意2个碱基。在条形码设计中，某些位置可以是简并碱基。条形码设计中可以使用其他特征来限制均聚物的长度。在本发明中描述的校正方法仍然可以用于这些条形码的设计。

这种具有简并碱基的条形码设计不仅可以用于测序读段的测序应用，还可以与其他信息和/或特性相关联，例如颜色、索引、ID、簇、位置、容器、或分隔信息。在一些实施方案中，它可以用于DNA或RNA。在一些实施方案中，它可以用于蛋白质、抗体和化学药品等。

尽管已经通过实施方案对本发明进行了说明，但应当理解，在不脱离本文所述的本发明的精神和范围的情况下，可以做出许多其他可能的修改和变化。

此外，一般而言，关于本文所述的过程、系统、方法等，应当理解，尽管已经将这些过程等的步骤描述为根据某个有序的顺序发生，但是可以以不同于本文描述的顺序来顺序执行所描述的步骤来实践这些过程。还应当理解，某些步骤可以同时执行，可以添加其他步骤，或者可以省略本发明描述的某些步骤。换句话说，本文中对过程的描述是出于说明某些实施方案的目的而提供的，并且绝不应解释为限制所要求保护的发明。

而且，应当理解，以上描述旨在说明性的而非限制性的。在阅读以上描述之后，除了所提供的示例之外的许多实施方案和应用对于本领域技术人员将是显而易见的。本发明的范围不应该参考上面的描述来确定，而是应该参考所附的权利要求以及这样的权利要求所赋予的等同形式的全部范围来确定。可以预期并预计，在本文中所讨论的本领域中未来发展，以及所公开的系统和方法将被并入这样的未来的实施方案中。总之，应该理解，可以对本发明进行修改和变化，其仅由所附的权利要求来限制。

最后，本申请中所使用的所有定义的术语，旨在赋予其与本文提供的定义一致的最广泛的合理构造。除非在本文中做出相反的明确指示，权利要求中使用的所有未定义术语，旨在赋予其与本领域技术人员所理解的普通含义一致的最广泛的合理构造。特别地，除非权利要求中列举相反的明确限制，否则诸如“一”，“该”，“所述”等单数冠词应理解为列举一个或多个指示的要素。

实施例1

本实施例描述了一种基因组DNA的靶标特异性条形码标签化的方法，在没有基因组DNA分割的情况下，将所述基因组DNA在开放的整体反应中利用同时的链转移和连接到条形码珠粒上(图4)。采用如专利申请WO 2017/151828中所述方法制备克隆条形码珠粒。每个条形码序列的长度为18个碱基。在BEAMing反应后直接收集所有珠粒，包括没有克隆扩增的条形码模板的珠粒(Diehl等，2005)。将两个MuA转座体分别与两个不同的MuA可转座DNA预先装配。一个MuA转座体中的MuA可转座DNA具有可连接的5’端转座子连接链，并且可以与条形码珠粒上的条形码模板杂交和/或连接。将珠粒上的双链条形码模板变性为单链。将2000万个变性的珠粒与从人类胚胎肾细胞293FT提取的5ng基因组DNA一起孵育，两个预装配的MuA转座子和T4 DNA连接酶在反应缓冲液中，能够基本上同时地在37℃下进行链转移反应和连接反应30分钟。用0.5％SDS溶液终止反应。洗涤过的珠粒用核酸外切酶I处理，去除单链多核苷酸，然后对其进行15周期PCR扩增，以释放固定化的条形码标签化DNA片段。用0.8XAMPure XP珠粒除去小的引物二聚体和PCR副产物以纯化PCR产物，并在TapeStation上用高灵敏度D5000筛选带检查(图16A)。纯化的PCR产物在Illumina MiniSeq仪器上进行测序。根据参考基因组的比对位置，对每个条形码对具有相同条形码序列的读段进行分类。计算到下一比对的读段距离，并且将沿着读段距离的读段计数频率绘制在图16B中。当条形码读段保留了来自标签化DNA片段的读段的连接信息时，预计增加近端读段。标签化前的原始DNA片段的读段距离也将随着远端读段的距离增加而增加。将预计读段计数频率图的双峰分布，在图16B中可以准确观察到。尽管在多样品MiniSeq运行中测序深度非常有限，但短距离近端读段的强富集证明了成功的条形码读段连续性。

实施例2

本实施例描述了一种基因组DNA的靶标特异性条形码标签化的方法(图7)，在没有基因组DNA分割的情况下，将所述基因组DNA在开放的整体反应中利用同时的链转移和连接到条形码珠粒上。一个MuA转座子包含一个MuA可转座DNA，该可转座DNA具有可连接的5’端转座子连接链，并可以连接到条形码珠粒的条形码模板上。将2000万个条形码珠与从人类胚胎肾细胞293FT中提取的5ng基因组DNA一起孵育，可连接MuA转座体和T4 DNA连接酶在缓冲液中，在37℃反应30分钟。用0.5％SDS溶液终止反应。然后将洗涤的珠粒与另一个MuA转座体和核酸外切酶I反应。再次用0.5％SDS终止反应。对具有条形码标签化片段的珠粒进行15周期PCR扩增，以释放固定化的条形码标签化DNA片段。此方法产生的PCR副产物比实施例1中的方法少。用0.8X AMPure XP珠粒除去小的引物二聚体和PCR副产物以纯化PCR产物，并在TapeStation上用高灵敏度D5000筛选带检查(图17A)。纯化的PCR产物在IlluminaMiniSeq仪器上进行测序。根据参考基因组的比对位置，为每个条形码对具有相同条形码序列的读段进行分类。计算到下一比对的读段距离，并且将沿着读段距离的读段计数频率绘制在图17B中。当条形码读段保留了来自标签化DNA片段的读段的连接信息时，预计增加近端读段。标签化前的原始DNA片段的读段距离也将随着远端读段的距离增加而增加。预计读段计数频率图的双峰分布，在图17B中可以准确观察到。尽管在多样品MiniSeq运行中测序深度非常有限，但短距离近端读段的强富集证明了成功的条形码读段连续性。

实施例3

使用HapMap样品NA12878的10ng基因组DNA生成条形码标签化Illumina测序文库，方法如图4所示。在Illumina NextSeq系统上进行2×75bp配对末端测序。使用HapCUT2算法收集了超过6亿对配对的末端读段用于单倍型定相分析(Edge P等，2017)。除去重复的读段后，有约为22倍的基因组覆盖深度。最大的相控块大小为9.5Mb，且N50的相控块大小为1.7Mb，切换错误率为0.14％。

实施例4

使用具有14个简并碱基的18碱基的条形码设计来生成克隆条形码模板珠粒。利用这些条形码模板化的珠粒，使用图7中所示的方法，从混合了lambda DNA的0.5ng大肠杆菌DH10B基因组DNA样品中制备条形码标签化测序文库。将该文库与其他文库合并，在Illumina MiniSeq系统上按以下测序循环条件进行测序：读段1(71个循环)、索引1(18个循环)、索引2(8个循环)和读段2(71个循环)。基于本发明，开发了序列错误校正算法，并将其应用于这些序列数据。首先该算法可以整理出唯一的条形码及其相关的标签化读段。然后，它将仅具有单个标签化读段的唯一条形码(单读段条形码)与仅具有1个碱基的不匹配的具有2个或多个标签化读段的唯一条形码(多读段条形码)进行比较。当仅识别出一个这样的多读段条形码时，其序列将被视为具有单个相关联的标签化读段的唯一条形码的原始序列，即此条形码的正确顺序，以便执行条形码错误校正。

下方表1显示了一个实施例的结果。

表1

在测序运行过程中识别出的总共550,271个具有唯一序列的条形码中，有211,484个条形码仅与单个标签化读段相关联。对这些具有单个标签化读段的唯一条形码进行了校正。其中它们中的110,140个能够从338,787个聚多个标签化读段的唯一条形码中识别出仅有1个1-碱基不同的条形码配对物。将对这些条形码序列进行相应的校正。

这些数据将进一步使用基于SPAdes的改进汇编程序用于从头汇编分析(Bankevich A et al，2012)。下方表2列出了从头汇编结果的一级摘要。通过对汇编程序进行进一步的优化，我们期望将获得更好的汇编结果。

表2

实施例5

我们比较了三种不同基于转座酶的方法来生成克隆条形码标签化片段，将其用于测序文库的构建(图19)。方法1是本发明公开的同时的链转移和捕获反应。将1ng大肠杆菌基因组DNA与可连接的转座体、DNA连接酶和2000万个珠粒混合，其中在同一个反应缓冲液中有100万个克隆条形码模板化的珠粒，以通过进一步的PCR扩增来产生克隆条形码标签化片段和可溶性测序文库。方法2和3是两种方法，分别使用链转移和捕获反应生成克隆条形码标签化片段。方法2是首先通过将可连接转座体与10ng大肠杆菌基因组DNA混合来生成溶液内STC；然后将这些包含1ng原始大肠杆菌基因组DNA的溶液内的1/10^th的STC与DNA连接酶和2000万个珠粒混合，其中在连接缓冲液中有一百万个克隆条形码模板化的珠粒，以将溶液内STC捕获到珠粒上。方法3是先将可连接的转座体和DNA连接酶与2000万个珠粒混合，将可连接的转座体固定在条形码模板珠粒上，其中在连接缓冲液中有100万个克隆条形码模板珠粒。洗涤反应的珠粒以除去连接酶，然后在链转移反应缓冲液中与1ng大肠杆菌基因组DNA反应。最后，对来自这三种方法的相同数量的珠粒进行PCR扩增，以通过相同数量的PCR循环生成可溶性测序文库。将PCR产物装载到2％琼脂糖E-gel EX上以比较它们的产量(图20)。如所期望的，方法1(图20，泳道M1)产生了最多的文库产品，这证明了方法1优于其他两种方法(图20，泳道M2和泳道M3)。

参考文献

Amini S.et al.2014.Nature Genetics,46(12):1343-1349.

Au T et al.2004.EMBO J.,23:3408-3420.

Bankevich A.et al.2012.J Comput Biol.5:455-77.

Boeke J.D.1989.Transposable elements in Saccharomyces cerevisiae inMobile DNA.pp.335-374in Mobile DNA,edited by D.E.BERG and.M.M.HOWE.

Burton B.M.and Baker T.A.2003.Chemistry&Biology 10:463-472.

Chen Z.et al.2017.Foreign Patent Application WO 2017/151828 A1.

Craig N.L.1996.Transposon Tn7.Curr.Top.Microbiol.Immunol.204:27-48.

Crouse J.and Amorese D.1987.Focus,7(4):1-2.

Devine S.E.and Boeke,J.D.1994.Nucleic Acids Research,22(18):3765-3772.

Diehl F.et al.2005.PNAS,102(45):16368-16373.

Drmanac R.,Peters B.A.and Alexeev A.2016.United State Patent US9,328,382B2.

Edge P,Bafna V.and Bansal V.2017.Genome Res.,27(5):801-812.

Haapa S.et al.1999.Nucleic Acids Research,27(13):2777-2784.

lchikawa H.and Ohtsubo E.1990.J.Biol.Chem,265(31):18829-32.

Kaufman P.and Rio D.C.1992.Cell,69(1):27-39.

Kleckner N.et al.1996.Curr.Top.Microbiol.Immunol.,204:49-82.

Mizuuchi M.,Baker T.A.and Mizuuchi K.1992.Cell,70,303-311.

Lampe D.J,Churchill M.E.A.and Robertson H.M.1996.EMBO J.,15(19):5470-5479.

LisJ.T.and Schleif R.1975.Nucleic Acid Research,2(3):383-389.

Ohtsubo E.and Sekine Y.1996.Curr.Top.Microbiol.Immunol.,204:126.

Park B.T,Jeong M.H.and Kim B.H.1992.Taehan Misaengmul Hakhoechi,27(4):381-9.

Pelta J,Livolant F.and Sikorav J.L.1996.J.Biological Chemistry,271:5656-5662.

Savilahti H,Rice P.A,and MiZuuchiK.1995.EMBO J.,14:4893-4903.

Surette M,Buch S.J.and Chaconas G.1987.Cell,70:303-311.

Varmus H.and Brown.P.A.1989.Retroviruses,in Mobile DNA.Berg D.E.andHowe M.eds.American Society for Microbiology,Washington D.C.pp.53-108.

Vos J.C.,Baere I.and Plasterk R.H.A.1996.Genes Dev.,10(6):755-61.

Zhang F.et al.2017.Nature Biotechnology,35(9):852-857.

Zheng G.X.et al.2016.Nature Biotechnology,34(3):303-311.

Claims

1.一种通过条形码标签追踪核酸片段来源的方法，所述方法包括：

a.提供其上固定有克隆条形码模板或半克隆条形码模板的多个固体载体；

b.提供多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够直接或间接地被所述固体载体上的所述条形码模板所捕获；

c.提供核酸靶标；

d.其中步骤a、b和c基本在同一时间在一个反应容器中发生，通过同时的链转移和捕获反应将所述固体载体上的条形码信息附着到所述核酸靶标上，不需要额外地将总的多个核酸靶标中的每个核酸靶标与另一个核酸靶标进行分割；

e.通过断裂链转移复合体将所述核酸靶标断裂成片段，其中至少一个片段附有条形码信息。

2.根据权利要求1所述的方法，其中所述固体载体选自由珠粒、微粒、孔、管、载玻片、平板、流通池及其组合组成的组，其中当固体载体在物理上可分离时，例如珠粒或微粒，条形码模板被克隆或半克隆固定在整个表面上，当固体载体是连续的平坦表面时，例如孔、管、载玻片、平板或流通池，条形码模板作为可分离的克隆簇或半克隆簇固定在表面上。

3.根据权利要求1-2所述的方法，其中固定在所述固体载体上的克隆条形码模板或半克隆条形码模板通过直接合成、克隆扩增、或其组合的方法制备。

4.根据权利要求1-3所述的方法，其中所述克隆扩增选自由乳液PCR、桥式PCR、等温扩增、模板步移、纳米球生成及其组合组成的组。

5.根据权利要求1-4所述的方法，其中所述条形码化固体载体通过克隆扩增方法制备，而没有分离扩增的和未扩增的群体。

6.根据权利要求1-4所述的方法，其中所述条形码固体载体通过克隆扩增方法制备，而具有只有或主要是富集扩增的群体。

7.根据权利要求2所述的方法，其中所述珠粒和微粒的尺寸范围为50nm至100μm，优选地1μm至15μm。

8.根据权利要求1所述的方法，所述反应在具有受控粘度的缓冲体系中进行，通过添加物质减少扩散并增加悬浮，所述物质选自由以下项组成的组：聚乙二醇、普朗尼克、纤维素、琼脂糖、它们的衍生物、其他聚合物及其组合。

9.根据权利要求8所述的方法，其中在工作浓度下，所述缓冲系统的粘度在20℃为约1-200mPa·s，优选地，在20℃为1.5-30mPa·s。

10.根据权利要求1所述的方法，所述转座体可以用单独的可转座DNA和转座酶代替，而无需将它们预先装配成转座体。

11.根据权利要求1所述的方法，还包括在步骤d后添加第二转座体。

12.根据权利要求1所述的方法，还包括在步骤e后添加第二转座体。

13.根据权利要求1所述的方法，其中所述核酸靶标可以通过非特异性结合的方式预先附着到固体载体上。

14.根据权利要求1所述的方法，其中在反应容器中的所述捕获反应是通过连接、或通过杂交、或通过亲和标签、或通过抗体与抗原反应、或通过点击化学或其组合进行的。

15.根据权利要求1所述的方法，其中所述捕获反应包括首先杂交和然后连接。

16.根据权利要求1所述的方法，所述条形码化固体载体具有可转座DNA或转座体，所述可转座DNA或转座体预先附着到固定在固体载体上的一些条形码模板末端上。

17.根据权利要求1-16中任一项所述的方法，其中所述转座酶选自由野生型或其突变型或标签型的Tn、Mu、Ty和Tc转座酶，及其组合组成的组。

18.根据权利要求1-16所述的方法，其中所述转座酶是野生型或其突变型或标签型的MuA转座酶，或Tn5转座酶或其组合。

19.根据权利要求1-18中任一项的方法，其中所述可转座DNA包含转座子，其中所述转座子选自野生型或其突变形的Tn、Mu、Ty和Tc转座子DNA，及其组合。

20.根据权利要求1-19所述的方法，其中所述转座子是野生型或突变型的MuA转座子，或Tn5转座子或其组合。

21.根据权利要求1-20中任一项所述的方法，其中所述可转座DNA还包括衔接子序列。

22.根据权利要求1所述的方法，其中能够被所述条形码模板捕获的所述可转座DNA与所述条形码模板不具有互补的序列，和通过接头促进所述可转座DNA捕获到所述条形码模板上。

23.根据权利要求1-22所述的方法，其中所述转座体包含至少一种类型的转座酶、至少一种类型的可转座DNA或其组合。

24.一种通过条形码标签追踪核酸片段来源的方法，所述方法包括：

b.提供多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够被直接或间接地被捕获到所述固体载体上的所述条形码模板上；

c.将核酸靶标与所述转座体接触以形成稳定的链转移复合体；

d.通过非特异性结合将所述链转移复合体附着到所述固体载体上；

e.将所述固体载体上的条形码信息捕获到所述核酸靶标上；和

f.通过断裂所述链转移复合体将所述核酸靶标断裂成片段，其中至少一个片段附着在所述固体载体上的条形码模板上。

25.一种通过条形码标签追踪核酸片段来源的方法，所述方法包括：

b.提供多个转座体，每个转座体包括可转座DNA和转座酶，其中所述转座体中的至少一个可转座DNA能够直接或间接地被捕获到所述固体载体上的所述条形码模板上；

e.通过断裂所述链转移复合体将所述核酸靶标断裂成片段，通过非特异性结合将片段保留在固体载体上；和

f.将所述固体载体上的条形码信息捕获到所述核酸片段上，其中至少一个片段附着到所述固体载体上的条形码模板。

26.一种通过条形码标签追踪核酸片段来源的方法，所述方法包括：

c.通过非特异性结合将核酸靶标附着到所述固体载体上；

d.将非特异性结合的核酸靶标与所述转座体接触，以在固体载体上形成稳定的链转移复合体；

f.通过断裂所述链转移复合体将所述核酸靶标断裂成片段，其中至少一个片段附着到所述固体载体上的条形码模板上。

27.一种通过条形码标签追踪核酸片段来源的方法，所述方法包括：

c.通过非特异性结合将核酸靶标附着到所述固体载体上；

28.根据权利要求24-27所述的方法，其中所述捕获反应是通过连接、或通过杂交、或通过亲和标签、或通过抗体与抗原反应、或通过点击化学或其组合进行的。

29.一种确定核酸靶标的连接信息的方法，所述方法包括：

a.根据权利要求1、24-27中任一项生成核酸靶标的条形码标签化片段；

b.确定核酸片段和条形码的序列；

c.当来自同一核酸靶标的至少两个片段接收到相同的条形码信息时，基于所述条形码序列确定所述核酸靶标的连接信息。

30.根据权利要求1、24-27所述的方法，其中将具有条形码标签化片段的所述固体载体进一步用单链核酸外切酶进行处理。

31.一种生成核酸靶标的条形码标签化片段的可溶性文库的方法，所述方法包括：

a.根据权利要求1、24-27所述的方法生成核酸靶标的条形码标签化片段；

b.将条形码标签化片段变性，从而产生固定在固体载体上的单链条形码标签化片段池；和

c.从固体载体中释放条形码标签化核酸片段，或通过引物延伸进行复制以生成可溶性文库。

32.一种生成核酸靶标的条形码标签化片段的可溶性文库的方法，所述方法包括：

b.修复核酸片段与转座子互补链在转座反应过程中产生的缺口；和

c.从固体载体中释放条形码标签化核酸片段，或通过引物延伸或扩增进行复制以生成可溶性文库。

33.一种生成核酸靶标的条形码标签化片段的可溶性文库的方法，所述方法包括：

b.提供可转座DNA和转座酶；

c.用所述可转座DNA和转座酶标记固定化的条形码标签化片段，以附着附加序列；和

d.通过引物延伸或扩增从固体载体中释放条形码标签化核酸片段，以使用至少一种靶向附着的附加序列的引物来产生可溶性文库。

34.一种生成核酸靶标的条形码标签化片段的可溶性文库的方法，所述方法包括：

b.物理地或酶促地，对条形码标记化片段进行进一步片段化；

c.将衔接子序列与固体载体上的条形码标签化片段连接；和

d.通过引物延伸或扩增，从固体载体中释放条形码标签化核酸片段，以使用至少一种靶向所附着的附加序列的引物来产生可溶性文库。

35.根据权利要求31-34所述的方法，其中在所述引物延伸或扩增中使用的引物选自由随机简并引物、普通衔接子引物、基因特异性引物、外显子组特异性引物或其组合组成的组。

36.根据权利要求31-35所述的方法，其中所述可溶性文库用于测序以确定所述核酸靶标的定相信息。

37.根据权利要求31-35所述的方法，其中所述可溶文库用于测序以确定重复读段的标识符。

38.根据权利要求1-37中任一项所述的方法，其中所述核酸靶标包括天然的、修饰的、扩增的或其他化学处理形式或链转移复合体形式的源自DNA或RNA的多个核酸分子。

39.根据权利要求1-38中任一项所述的方法，其中使用蛋白酶处理、高温处理、或蛋白质变性剂或其组合进行链转移复合体的断裂。

40.根据权利要求1-39中任一项所述的方法，其中所述连接酶选自由野生型、其突变型或标签型的DNA连接酶、或RNA连接酶及其组合组成的组。

41.一种在唯一条形码集中检测条形码中的测序错误的方法，其中，每个唯一条形码被设计为包括多个条形码读段，所述方法包括：

a.在唯一条形码集中识别第一唯一条形码，其中第一唯一条形码仅包括一个条形码读段；

b.将第一唯一条形码的序列与唯一条形码集进行比较；和

c.在唯一条形码集中识别第二唯一条形码，其中第二唯一条形码与第一唯一条形码的区别在于具有少于四个简并碱基错配，且其中第二唯一条形码包括多个条形码读段。

42.根据权利要求41所述的方法，其中所述第二唯一条形码与所述第一唯一条形码的区别在于少于三个简并碱基错配。

43.根据权利要求41所述的方法，其中所述第二唯一条形码与所述第一唯一条形码的区别在于少于两个简并碱基错配。

44.根据权利要求41所述的方法，其中还包括校正所述第一唯一条形码中的错配。

45.根据权利要求41所述的方法，其中每个条形码读段都与条形码相关联。

46.根据权利要求41所述的方法，其中条形码读段是以序列以外的信息为形式，只要该信息与条形码相关联。

47.根据权利要求46所述的方法，其中所述信息选自由颜色、索引、ID、簇、位置、容器、分隔信息及其组合组成的列表。