CN110139932A

CN110139932A - 液滴加标的相邻性保留的标签化dna

Info

Publication number: CN110139932A
Application number: CN201780078420.3A
Authority: CN
Inventors: R·雷伯弗斯基; J·阿格蕾丝蒂
Original assignee: Bio Rad Laboratories Inc
Current assignee: Bio Rad Laboratories Inc
Priority date: 2016-12-19
Filing date: 2017-12-19
Publication date: 2019-08-16
Anticipated expiration: 2037-12-19
Also published as: US20230392194A1; US11021738B2; WO2018118971A1; EP3555290B1; CN118441026A; US20180195112A1; US20210317509A1; EP3555290A1; EP3555290A4; CN110139932B; US11685947B2

Abstract

提供了用于保持测序的DNA相邻性的组合物和方法。

Description

液滴加标的相邻性保留的标签化DNA

相关申请的交叉引用

本申请要求2016年12月19日提交的美国临时专利申请号62/436,288的优先权，该文通过引用纳入本文。

背景技术

单倍型信息在许多遗传分析中可能是有价值的。然而，由于不能保持相邻性，因此很难从许多测序方法中获得关于单倍型的信息。Amini等Nature Genetics 46(12):1343-1349描述了保持相邻性的一种方法，但是该方法包括许多单独的反应，各反应需要显著的酶(例如，标签酶(tagmentase))。

发明内容

在一些实施方式中，提供了确定单倍型基因组序列的方法。在一些实施方式中，该方法包括：

提供基因组DNA的片段；

将片段与载有衔接体的标签酶反应，所述载有衔接体的标签酶产生由片段中断裂点限定的DNA片段并在断裂点插入衔接体，其中该反应处于标签酶结合断裂点以形成连接的DNA区段的条件下，所述连接的DNA区段处于DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)n-DNA区段的形式，其中n是任何整数并且“-”表示共价连接；

将连接的DNA区段包封在分区(partition)中，所述分区包含：

珠，该珠具有正向引物寡核苷酸，所述正向引物寡核苷酸通过正向引物寡核苷酸的5'端与珠连接，所述正向引物寡核苷酸具有珠特异性条码以及对第一或第二衔接体具有特异性并与其互补的3'端；

反向引物寡核苷酸，所述反向引物寡核苷酸具有与第一或第二衔接体互补的3'端，其中正向引物3'端和反向引物3'端与选自第一衔接体和第二衔接体的不同衔接体互补；

置换分区中区段的标签酶；进行扩增，其中正向引物和反向引物寡核苷酸由DNA区段生成扩增子，从而使分区内的扩增子被珠条码条码化；

合并分区以形成包含扩增子的反应混合物；和

对扩增子进行核苷酸测序。

在一些实施方式中，分区包含一定量的试剂，所述试剂从区段置换出标签酶但是不抑制聚合。在一些实施方式中，该试剂是聚合酶。在一些实施方式中，该试剂是去污剂。在一些实施方式中，将标签酶热置换。

在合并上述任何实施方式的一些实施方式中，扩增之前，插入的衔接体的单链区被DNA聚合酶填平。在一些实施方式中，该填平在过程中从区段置换出标签酶。在合并上述任何实施方式的一些实施方式中，扩增之前，片段化的靶核酸的单链区被合并上述任何实施方式的DNA聚合酶填平。在一些实施方式中，正向引物寡核苷酸由珠释放，并且扩增发生在溶液中。

在合并上述任何实施方式的一些实施方式中，试剂是去污剂。在合并上述任何实施方式的一些实施方式中，去污剂是十二烷基硫酸钠(SDS)。在合并上述任何实施方式的一些实施方式中，SDS的浓度是0.005-0.05％(例如，0.01-0.04％，例如，0.01-0.02％)。

在合并上述任何实施方式的一些实施方式中，片段平均为5-10Mb。

在合并上述任何实施方式的一些实施方式中，分区是乳液中的液滴。

在合并上述任何实施方式的一些实施方式中，包封将平均0.02-3(例如，0.05-1，0.08-0.5，例如，0.1、1、2或3)个珠包封于分区中。

在合并上述任何实施方式的一些实施方式中，基因组DNA来自单细胞。在合并上述任何实施方式的一些实施方式中，基因组DNA来自哺乳动物或植物。

在合并上述任何实施方式的一些实施方式中，第一衔接体和第二衔接体具有不同的序列。在合并上述任何实施方式的一些实施方式中，第一衔接体和第二衔接体具有5’突出端序列，并且该5’突出端序列的相同性小于50％。

在合并上述任何实施方式的一些实施方式中，第一衔接体和第二衔接体具有相同的序列。

在合并上述任何实施方式的一些实施方式中，当第一衔接体和第二衔接体加载到连接酶时，其通过连接序列连接，从而使DNA区段通过标签酶和连接序列两者连接。在合并上述任何实施方式的一些实施方式中，连接序列包含限制性识别序列，并且连接序列在包封之后和进行扩增之前被限制酶切割。在合并上述任何实施方式的一些实施方式中，连接序列包含一个或多个尿嘧啶，并且连接序列在包封之后和进行扩增之前被尿嘧啶-DNA N-糖基化酶切割。在合并上述任何实施方式的一些实施方式中，连接序列包含一个或多个核糖核苷酸，并且连接序列在包封之后和进行扩增之前在核糖核苷酸处被切割。

在合并上述任何实施方式的一些实施方式中，n是选自0-10,000的整数。

在合并上述任何实施方式的一些实施方式中，DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)_n-DNA的长度为5kb-10Mb，例如，1Mb-10Mb。

在合并上述任何实施方式的一些实施方式中，至少10,000个不同的连接的DNA区段被包封于不同的分区中。

在合并上述任何实施方式的一些实施方式中，标签酶与固体支持物连接。例如，在一些实施方式中，固体支持物是与连接正向引物的珠不同的珠。

还提供了多种分区。在一些实施方式中，分区包含：

珠，该珠具有正向引物寡核苷酸，所述正向引物寡核苷酸通过正向引物寡核苷酸的5'端与珠连接，所述正向引物寡核苷酸具有珠特异性条码以及对第一或第二衔接体具有特异性并与其互补的3'端；和

反向引物寡核苷酸，所述反向引物寡核苷酸具有与第一或第二衔接体互补的3'端，其中正向引物3'端和反向引物3'端与选自第一衔接体和第二衔接体的不同衔接体互补。

在一些实施方式中，分区包含一定量的试剂，所述试剂从DNA置换出标签酶但是不抑制聚合。

在一些实施方式中，分区还包含：标签酶；和基因组DNA，其中DNA的区段具有由衔接体限定的末端，所述衔接体插入在由标签酶产生的断裂点，处于第一衔接体-DNA区段-第二衔接体的形式。

在一些实施方式中，该试剂是去污剂。在一些实施方式中，所述去污剂是十二烷基硫酸钠(SDS)。在一些实施方式中，SDS的浓度是0.005-0.05％(例如，0.01-0.04％，例如，0.01-0.02％)。

在一些实施方式中，分区是乳液中的液滴。

在一些实施方式中，分区包含平均0.02-3(例如，0.05-1，0.08-0.5，例如，0.1、1、2或3)个珠。

在一些实施方式中，基因组DNA来自单细胞。在一些实施方式中，基因组DNA来自哺乳动物或植物。

在一些实施方式中，第一衔接体和第二衔接体具有不同的序列。在一些实施方式中，第一衔接体和第二衔接体的相同性小于50％。

在一些实施方式中，第一衔接体和第二衔接体具有相同的序列。

在一些实施方式中，第一衔接体和第二衔接体通过连接序列连接，以包含第一衔接体-DNA区段-第二衔接体-(接头序列)-第一衔接体-DNA区段-第二衔接体)_n的形式，其中n是1或更大的任何整数。

在一些实施方式中，连接序列包含限制性识别序列，并且任选地，分区还包含限制性识别序列限制酶。

在一些实施方式中，连接序列包含一个或更多个尿嘧啶，并且任选地，分区还包含尿嘧啶-DNA N-糖基化酶。

在一些实施方式中，连接序列包含一个或更多个核糖核苷酸。

在一些实施方式中，n是选自1-10,000的整数。

在一些实施方式中，第一衔接体-DNA区段-第二衔接体-(接头序列-第一衔接体-DNA区段-第二衔接体)_n的长度为5kb-10Mb，例如，1Mb-10Mb。

在一些实施方式中，多个分区包含至少10,000个不同的分区。

在一些实施方式中，标签酶连接固体支持物。例如，在一些实施方式中，固体支持物是与连接正向引物的珠不同的珠。

还提供了包含这样的DNA区段的多个分区，所述DNA区段具有通过标签酶保持的相邻性。在一些实施方式中，分区包含连接的DNA区段，所述连接的DNA处于DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)n-DNA区段的形式，其中n是任何整数，“-”表示共价连接，并且其中连接的DNA相较于基因组DNA保持相邻性。

在一些实施方式中，分区是乳液中的液滴。

在一些实施方式中，n是选自1-10,000的整数。

在一些实施方式中，多个分区包含至少10,000个不同的分区。

附图说明

图1显示了可能的工作流程的第一部分。DNA片段与载有衔接体的标签酶反应，与珠一起包封于分区中并在分区中扩增，所述珠连接了条码化的引物和第二引物。

图2显示了可能的工作流程的第二部分(图1的延续)。混合来自分区的扩增子(例如，如果使用乳液中的液滴，那么将乳液破坏并汇集水性液滴)。然后对扩增子进行测序。图2显示了用于测序的引物的许多构型中的几个。

图3显示了生成可以用于本文所述方法中的珠连接的和条形码化的寡核苷酸的一种可能性。

图4是图3延续。

图5显示了可以用于扩增具有衔接体的DNA区段的示例性标签酶(Tn5)衔接体和扩增引物。

图6显示了珠连接的寡核苷酸引物的各种可能非限制性选项。

图7显示了珠连接的寡核苷酸引物的其他可能非限制性选项。

图8显示了使用载有异型衔接体(heteroadaptor)的标签酶的可能选项。

图9是图8延续。

图10显示了使用载有异型衔接体的标签酶的可能选项(与图8不同)。

图11显示了使用载有异型衔接体的标签酶的可能选项(与图8或10不同)。

图12显示了使用载有异型衔接体的标签酶的可能选项(与图8、10或11不同)。

图13显示了使用载有同型衔接体(homoadaptor)的标签酶的可能选项。

图14显示了使用载有同型衔接体的标签酶时引物序列的一些可能选项。

图15显示了使用载有同型衔接体的标签酶的可能选项。

图16是图15延续。

图17是图15延续，并且显示了在使用同源衔接的Tn5转座酶的情况下，如何使用PCR抑制优选抑制聚合酶延伸所产生的同源加尾的(homo-tailed)扩增子。

图18显示了使用载有同型衔接体的标签酶的可能选项(与图15不同)。

图19是图18延续。

图20是图18延续，并且显示了在使用同源衔接的Tn5转座酶的情况下，如何使用PCR抑制优选抑制聚合酶延伸所产生的同源加尾的扩增子。

图21显示了方法可能的实施方式并且阐释了Tn5作用的机制。

图22显示了其中标签酶上载有的两个衔接体通过连接序列连接的选项。连接序列包含通过标签酶插入的衔接体，并且因此连接序列起着保持DNA区段相邻性的作用。

图23是图22延续，并且描述了用于切割连接序列，从而将分离的DNA区段释放到分区中的各种可能的选项。

图24显示了用作同型衔接体的示例性衔接体。

图25显示了用于图24所示同型衔接体的可能的寡核苷酸引物。

图26是图25延续，并且显示了可以如何使用引物。

图27是图26延续。

图28是图25延续，并且显示了可以如何使用引物的可选方案。

图29是图28延续。

图30A-C：证明液滴中CPTseq的实验。图30A显示了工作流程。图30B显示了产品的累积。图30C显示了卡通测序读数和QC结果。

图31：由图30A-C中所示测序运行产生的数据集的预期全基因组分析和定相数据。

图32：ddSEQ芯片或筒的示意图，并指示吹打DNA和酶混合物的位置。将油移液到底部的第2行中。如所示引发DNA和酶混合物入口。产生乳液的输出孔(output well)在顶行显示。

定义

除非另有说明，本文所用的所有科技术语具有本发明所属领域普通技术人员通常所理解的含义。通常，本文所用的命名和下述细胞培养、分子遗传学、有机化学和核酸化学以及杂交中的实验室步骤均为本领域熟知和常用的。使用标准技术进行核酸和肽合成。按照本领域和各种通用参考文献所述的常规方法进行这些技术和步骤(通常参见，Sambrook等，《分子克隆：实验室手册》(MOLECULAR CLONING:A LABORATORY MANUAL)，第2版(1989)冷泉港实验室出版社(Cold Spring Harbor Laboratory Press)，纽约冷泉港(Cold SpringHarbor,N.Y.)，其通过引用纳入本文)，全文中提供这些参考文献。本文所用的命名以及下述分析化学和有机合成中的实验室步骤均为本领域熟知且常用。

术语“扩增反应”指用于以线性或指数方式倍增核酸靶序列拷贝的各种体外方法。这类方法包括但不限于聚合酶链反应(PCR)；DNA连接酶链反应(参见美国专利号4,683,195和4,683,202，PCR Protocols:A Guide to Methods and Applications(PCR方案：方法和应用指南)(Innis等编，1990))(LCR)；基于QBeta RNA复制酶和基于RNA转录的扩增反应(例如，涉及T7、T3或SP6引导的RNA聚合)，例如转录扩增系统(TAS)，基于核酸序列的扩增(NSABA)，和自主维持序列复制(3SR)；等温扩增反应(例如，单引物等温扩增(SPIA))；以及本领域技术人员已知的其它方法。

“扩增”指将溶液置于足以扩增多核苷酸的条件下的步骤(如果反应的所有组分是完整的)。扩增反应的组分包括，例如，引物、多核苷酸模板、聚合酶、核苷酸等。术语“扩增”通常指靶核酸的“指数型”增长。然而，本文所用的“扩增”也可指核酸的选择靶序列数量的线性增长，如由循环测序或线性扩增所得。在一个示例性实施方式中，扩增是指使用第一和第二扩增引物的PCR扩增。

术语“扩增反应混合物”指包含用于扩增靶核酸的各种试剂的水性溶液。这些试剂包括酶、水性缓冲剂、盐、扩增引物、靶核酸和三磷酸核苷。扩增反应混合物还可包含稳定剂和其它添加剂以优化效率和特异性。根据上下文，混合物可以是完全或是不完全的扩增反应混合物。

“聚合酶链反应”或“PCR”是指靶双链DNA的特定区段或子序列得以几何级数式扩增的一种方法。PCR是本领域技术人员所熟知的；参见例如，美国专利号4,683,195和4,683,202；和《PCR方案：方法和应用指南》，Innis等编，1990。示例性PCR反应条件一般包括两步或三步循环。两步循环具有变性步骤，之后是杂交/延伸步骤。三步循环包括变性步骤，之后是杂交步骤，之后是独立的延伸步骤。

“引物”指与靶核酸上的序列杂交并且用作核酸合成的起始点的多核苷酸序列。引物可以是各种长度的并且通常长度小于50个核苷酸，例如长度为12-30个核苷酸。可基于本领域技术人员已知的原理设计用于PCR的引物的长度和序列，参见例如Innis等(同上)。引物可以是DNA、RNA或DNA部分与RNA部分的嵌合体。在一些情况中，引物可包括一个或多个带修饰或非天然的核苷碱基。在一些情况中，引物被标记。

核酸或其部分与另一核酸“杂交”的某些条件使得生理缓冲液(例如，pH6-9,25-150mM盐酸盐)中限定温度下的非特异性杂交最少。在一些情况中，核酸或其部分与一组靶核酸之间共有的保守序列杂交。在一些情况中，如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16或18个连续的互补核苷酸，引物或其部分能杂交至引物结合位点。或者，如果在至少约12、14、16或18个连续的互补核苷酸中有不到1或2个互补错配，引物或其部分能杂交至引物结合位点。在一些实施方式中，发生特异性杂交的限定温度是室温。在一些实施方式中，发生特异性杂交的限定温度高于室温。在一些实施方式中，发生特异性杂交的限定温度至少约37、40、42、45、50、55、60、65、70、75或80℃。在一些实施方式中，发生特异性杂交的限定温度是37、40、42、45、50、55、60、65、70、75或80℃。

“模板”指包含待扩增的多核苷酸、其侧或为一对引物杂交位点的多核苷酸序列。因此，“靶模板”包含毗邻引物的至少一个杂交位点的靶多核苷酸序列。在一些情况中，“靶模板”包含侧接有“正向”引物和“反向”引物的杂交位点的靶多核苷酸序列。

本文所用的“核酸”表示DNA、RNA、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于，提供引入其它电荷、极化性、氢键、静电相互作用、与核酸配体碱基或核酸配体整体的连接点和作用点的化学基团的那些修饰。这类修饰包括但不限于，肽核酸(PNA)、磷酸二酯基团修饰(例如，硫代磷酸酯、甲基膦酸酯)、2'-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺处的修饰、4-硫尿核苷的取代、5-溴或5-碘-尿嘧啶的取代、骨架修饰、甲基化、不常见的碱基配对组合如异碱基(isobase)、异胞苷和异胍(isoguanidine)等。核酸也可包含非天然碱基，如硝基吲哚。修饰还可包括3'和5'修饰，包括但不限于用荧光团(例如，量子点)或其他部分加帽。

“聚合酶”是指能进行模板引导的多核苷酸(例如，DNA和/或RNA)合成的酶。该术语同时包括全长多肽和具有聚合酶活性的结构域。DNA聚合酶是本领域技术人员熟知的，包括但不限于分离或衍生自激烈火球菌(Pyrococcus furiosus)、滨海嗜热球菌(Thermococcuslitoralis)和海栖热袍菌(Thermotogamaritime)的DNA聚合酶或其修饰版本。市售可得的聚合酶的其他示例包括但不限于：克列诺(Klenow)片段(新英格兰生物实验室公司、TaqDNA聚合酶(凯杰公司(QIAGEN))、9°N^TMDNA聚合酶(新英格兰生物实验室公司)、DeepVent^TMDNA聚合酶(新英格兰生物实验室公司)、Manta DNA聚合酶(酶学公司)、Bst DNA聚合酶(新英格兰生物实验室公司)、和phi29DNA聚合酶(新英格兰生物实验室公司)。

聚合酶包括DNA-依赖聚合酶和RNA-依赖聚合酶，如逆转录酶。已知至少5个DNA-依赖DNA聚合酶家族，虽然大多数落入A、B和C家族。其它类型DNA聚合酶包括噬菌体聚合酶。相似地，RNA聚合酶通常包括真核RNA聚合酶I、II和III，和细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是DNA依赖性和RNA依赖性的。

本文所用术语“划分”或“经划分的”指将样品分为多个部分或多个“分区(partition)”。分区通常是实体意义上的，例如，一个分区中的样品不与或基本不与邻近分区中的样品混合。分区可以是固体或流体。在一些实施方式中，分区是固体分区，例如微通道。在一些实施方式中，分区是流体分区，例如液滴。在一些实施方式中，流体分区(如液滴)是不互溶的流体(如水和油)的混合物。在一些实施方式中，流体分区(如液滴)是水性液滴，其被不互溶的运载体流体(如油)包围。

如本文所用“条码”是鉴别其所偶联分子的短核苷酸序列(例如，长至少约4、6、8、10或12个核苷酸)。例如，条码可用来鉴定划分产物中的分子。相对于其它分区的条码，这样的分区特异性条码应为该分区所独有。例如，含有来自单一细胞的靶RNA的划分产物可以经受逆转录条件，各划分产物中采用的引物含有不同的划分产物特异性条码序列，从而将独有“细胞条码”的拷贝纳入各划分产物逆转录所得核酸。由此，来自各细胞的核酸可藉由独有“细胞条码”而与其它细胞的核酸相区分。一些情况中，细胞条码是由偶联至颗粒的寡核苷酸上存在的“颗粒条码”来提供，其中所述颗粒条码为偶联至该颗粒的全部或基本全部寡核苷酸所共有(例如，在它们之间相同或基本相同)。因此，细胞和颗粒条码可存在于分区中、附着于颗粒、或结合细胞核酸，以同一条码序列的多个拷贝。相同序列的细胞或颗粒条码可鉴定为衍生自相同细胞、分区或颗粒。此类划分产物特异性的细胞或粒子条码可用各种方法产生，这些方法导致条码偶联至或纳入固相或水凝胶支持物(例如，固体珠或粒子或水凝胶珠或粒子)。一些情况中，使用本文所述的拆分(split)与混合(也称拆分与汇集)合成方案来产生分区特异性细胞或颗粒条码。分区特异性条码可以是细胞条码和/或颗粒条码。类似地，细胞条码可以是分区特异性条码和/或颗粒条码。此外，颗粒条码可以是细胞条码和/或分区特异性条码。

其它情况中，条码专一性辨识其偶联的分子。例如，通过使用各自含有独有“分子条码”的引物进行逆转录。同样在另一些实施例中，可以利用包含各分区所独有的“分区特异性条码”、以及各分子独有的“分子条码”的引物。条码化之后，可以合并分区，并任选地扩增，而保持虚拟分区。因此，例如，可计算包括各条码的靶核酸(例如，逆转录所得的核酸)的存在与否(例如，通过测序)，而无需维持实体分区。

条码序列的长度决定了可以对多少独特的样品进行区分。例如，1个核苷酸条码可以对不多于4个样品或分子进行分区；4个核苷酸条码可以对不多于4⁴(即256)个样品进行分区；6个核苷酸条码可以对不多于4096个不同样品进行分区；而8个核苷酸的条码可以标引不多于65,536个不同样品。此外，条码可通过对第一和第二链合成都采用条码化引物(通过连接)或在标签化(tagmentation)反应中来同时附着于两条链。

通常使用固有不精确的过程来合成和/或聚合(例如，扩增)条码。因此，旨在均一的条码(例如，单个分区、细胞或珠的全部条码化核酸所共有的细胞、颗粒或分区特异性条码)可以相对于范本条码序列包含不同的N-1缺失或其它突变。因此，被称作“相同的”或“基本相同的”拷贝的条码是指由于例如合成、聚合或纯化错误中一个或多个错误而导致条码相对范本条码序列含有不同的N-1缺失或其它突变的不同的条码。此外，在使用例如本文所述的拆分与汇集方法和/或核苷酸前体分子等同混合物的合成过程中，条码核苷酸的随机偶联可能导致低概率事件，其中条码并非绝对独特(例如，不同于群体的其它条码，或不同于不同分区、细胞或珠的条码)。但是，这类偏离理论上理想的条码的轻微偏差不会干扰本文所述的高通量测序分析方法、组合物和试剂盒。因此，如本文所用，术语“独特/独有”在涉及颗粒、细胞、分区特异性或分子条码的内容中涵盖偏离理想条码序列的各种非有意的N-1缺失和突变。一些情况中，由于条码合成、聚合和/或扩增所致的不精确性质造成的问题通过对与待区分的条码序列的数量相比进行可能的条码序列的过量采样(oversampling)来克服(例如，至少约2、5、10倍或更多倍的可能的条码序列)。例如，可用具有9个条码核苷酸的细胞条码(代表262,144个可能的条码序列)来分析10,000个细胞。本领域熟知条码技术的使用，参见例如Katsuyuki Shiroguchi等人Proc Natl Acad Sci U S A.，2012年1月24日109(4):1347-52和Smith,AM等人的Nucleic Acids Research Can 11,(2010)。使用条码技术的其他方法和组合物包括U.S.2016/0060621中描述的那些。

“转座酶”或“标签酶”是指这样的酶，所述酶能够与含转座子末端的组合物形成功能性复合物并催化含转座子末端的组合物插入或转移到与该组合物在体外转座反应中孵育的双链靶DNA中。

术语“转座子末端”是指双链DNA，其仅显示与在体外转座反应中起作用的转座酶形成复合物所必需的核苷酸序列(“转座子末端序列”)。转座子末端形成“复合物”或“突触复合物”或“转座体复合物”或“具有转座酶或整合酶的转座体组合物，其识别并结合转座子末端，并且该复合物能够将转座子末端插入或转座到与该复合物在体外转座反应中孵育的靶DNA中。转座子末端显示两个互补序列，其由“转移的转座子末端序列”或“转移的链”和“非转移的转座子末端序列”或“非转移的链”组成。例如，一个转座子末端与过度活跃的在体外转座反应中有活性的Tn5转座酶(例如，EZ-Tn5^TM转座酶，EPICENTRE生物技术公司(EPICENTRE Biotechnologies)，美国威斯康星州麦迪逊)形成复合物，其包含表现出如下“转移的转座子末端序列”的转移链：

5′AGATGTGTATAAGAGACAG 3′,

以及表现出如下“非转移的转座子末端序列”的非转移链：

5′CTGTCTCTTATACACATCT 3′。

转移链的3'末端在体外转座反应中连接或转移至靶DNA。表现出与转移的转座子末端序列互补的转座子末端序列的非转移链在体外转座反应中不连接或转移至靶DNA。

在一些实施方式中，转移的链和非转移的链共价连接。例如，在一些实施方式中，转移的和非转移的链序列在单个寡核苷酸上提供，例如以发夹构型提供。因此，尽管非转移链的游离末端不通过转座反应直接与靶DNA连接，但非转移的链间接地附连至DNA片段，因为非转移的链通过发夹结构的环与转移的链连接。

发明详述

绪论

发明人发现了保持序列相邻性的高效方法，从而可以确定相同单体型上的序列并使彼此相关联。例如，可以用载有衔接体的标签酶处理基因组DNA，使得标签酶在DNA中随机产生断裂点并在断裂点的任一侧插入第一衔接体和第二衔接体。当衔接体加载到标签酶上时，衔接体具有共同的双链部分和任选的特定部分，所述特定部分是单链并且在同型衔接体的情况下可以是相同的，或者在异型衔接体的情况下可以是不同的。单链衔接体子通过标签酶导入断裂点，其中单链衔接体包括共同序列和(如果存在)特定部分。导入的衔接体序列将具有5'单链突出端，其可以被聚合酶填平。选择条件使标记酶不从DNA释放，从而形成连接具有与基因组DNA中出现的关系(单体型)相同的桥连的DNA区段。因此，标签酶步骤可以批量发生(在分区形成之前)。可以将所得标记酶桥接的DNA区段添加到分区中，从而使一组桥接的DNA区段(例如，平均)在分区中。因此保持相邻性直到桥接的区段被分入不同的分区。一旦进入分区，可以用分区特异性条码对连续DNA区段进行条码化，从而允许在批量测序后(在分区内含物合并之后)后续鉴定连续的DNA。

分区还将包含分离DNA区段的试剂。在其中标签酶自身桥接DNA区段的实施方式中，分区可以包括这样的试剂，所述试剂从DNA片段将标签酶解离。在其中存在连接添加标签酶的衔接体的连接序列的实施方式中，分区可以包括切割连接序列的试剂。

分区还将包含与第一寡核苷酸连接的珠，所述第一寡核苷酸具有游离的3'端。该寡核苷酸将包含对其连接的特定珠粒具有特异性的条码，并且还包含3'端序列，该3'端序列对DNA区段上的衔接体序列具有特异性并与其互补。在一些实施方式中，分区还包含起着反向引物作用的第二寡核苷酸，相较于第一寡核苷酸杂交的衔接体，其具有对DNA区段相对端的衔接体序列具有特异性并与其互补的3'端。

扩增前，存在缺口填平反应，从而合成转座酶衔接体5'突出端的互补物。缺口填平不涉及连接。扩增在分区中进行。因此，各分区仅包含来自基因组DNA的连续的DNA。所得扩增子将包含珠特异性条码。

扩增后，可以合并分区的内含物以形成扩增子的混合物。所得扩增子混合物可以通过使用者所需的任何方法进行核苷酸测序。来自相同单体型的DNA将易于识别，因为具有相同的珠特异性条码。

在分区(例如，液滴)中进行该方法能够：1)释放珠寡核苷酸，这使得寻找结合伴侣的热力学更有利和2)进行突出端+缺口填平以产生连续的底链(bottom strand)，其是释放的寡核苷酸引物的可扩展模板。这还相比连接增加了数倍的效率。这比在珠上进行的方法实现了高得多的效率，因此具有更好的覆盖率，并且因此需要更少的珠-反应。

基因组DNA

这些方法可以使用任何基因组DNA。在一些实施方式中，DNA来自单细胞或来自生物体的单一类型的细胞。在一些实施方式中，基因组DNA来自真核生物，例如，来自哺乳动物，例如，人。在一些实施方式中，基因组DNA来自植物或真菌。在一些实施方式中，如所需对起始DNA进行纯化并直接用于方法中。或者，DNA可以经处理以生成所需平均大小的DNA，例如，使用尺寸选择柱或凝胶纯化。例如，在一些实施方式中，起始DNA片段平均为5kb-10Mb。

标签酶

可以如本文所述使用载有异型衔接体的标签酶和载有同型衔接体的标签酶。载有同型衔接体的标签酶是包含只有一个序列的衔接体的标签酶，其中衔接体被添加至基因组DNA中标签酶诱导的断裂点的末端之一。载有异型衔接体的标签酶是包含两个不同的衔接体的标签酶，从而使不同的衔接体序列被添加至DNA中标签酶诱导的断裂点所产生的两个DNA末端。载有衔接体的标签酶进一步描述于例如美国专利公开号：2010/0120098；2012/0301925；和2015/0291942以及美国专利号：5,965,443；美国专利6,437,109；7083980；9005935；和9,238,671，其中各自内容通过引用全文并入本文用于所有目的。

标签酶是指这样的酶，所述酶能够与含转座子末端的组合物形成功能性复合物并催化含转座子末端的组合物插入或转移到与该组合物在体外转座反应中孵育的双链靶DNA中。示例性的转座酶包括但不限于相较于野生型TN5过分活跃的修饰的TN5转座酶，例如，可以具有选自E54K、M56A或L372P的一个或多个突变。野生型Tn5转座子是复合型转座子，其中2个几乎相同的插入序列(IS50L和IS50R)侧接3个抗生素抗性基因(Reznikoff WS.AnnuRev Genet 42:269–286(2008))。各IS50包含2个反向19-bp末端序列(ES)，外侧端(outsideend，OE)和内侧端(inside end，IE)。然而，野生型ES的活性相对较低并且被过分活跃的镶嵌端(mosaic end，ME)序列体外取代。因此，具有19-bp ME的转座酶复合物是转座发生所必需的，只要间插DNA足够长以使这些序列中的两个靠近在一起形成活性Tn5转座酶同二聚体(Reznikoff WS.,Mol Microbiol 47:1199–1206(2003))。转座在体内是非常罕见的事件，并且过分活跃的突变体历史上源自Tn5蛋白的476个残基中导入三个错义突变(E54K、M56A、L372P)，其由IS50R编码(Goryshin IY,Reznikoff WS.1998.J Biol Chem 273:7367–7374(1998))。转座通过“剪切-和-粘贴”机制起作用，其中Tn5将其从供体DNA中切除并插入靶序列，产生靶标的9-bp重复(Schaller H.Cold Spring Harb Symp Quant Biol 43:401–408(1979)；Reznikoff WS.,Annu Rev Genet 42:269–286(2008))。在当前的商业解决方案(Nextera^TMDNA试剂盒，亿明达公司(Illumina))中，游离的合成ME衔接体与靶DNA的5′-端通过转座酶(标签酶)末端连接。在一些实施方式中，标签酶与固体支持物连接(例如，与连接正向引物的珠不同的珠)。商购的珠连接的标签酶的实例是Nextera^TMDNA Flex(亿明达公司)。

在一些实施方式中，衔接体长度为至少19个核苷酸，例如，19-100个核苷酸。在一些实施方式中，衔接体是具有5'端突出端的双链，其中5'突出端序列在异型衔接体间不同，但是双链部分(通常为19bp)是相同的。在一些实施方式中，衔接体包含TCGTCGGCAGCGTC或GTCTCGTGGGCTCGG。在涉及载有异型衔接体的标签酶的一些实施方式中，标签酶载有包含TCGTCGGCAGCGTC的第一衔接体和包含GTCTCGTGGGCTCGG的第二衔接体。在一些实施方式中，衔接体包含AGATGTGTATAAGAGACAG和其互补物(也就是镶嵌端，并且这是Tn5转座唯一特别需要的顺式活性序列)。在一些实施方式中，衔接体包含TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG与AGATGTGTATAAGAGACAG的互补物或GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG与AGATGTGTATAAGAGACAG的互补物。在涉及载有异型衔接体的标签酶的一些实施方式中，标签酶载有这样的第一衔接体，所述第一衔接体包含

TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG与

AGATGTGTATAAGAGACAG的互补物和

GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG与

AGATGTGTATAAGAGACAG的互补物。

在一些实施方式中，衔接体具有19bp双链区域和5’15bp单链突出端。15bp的序列在异型衔接体间不同，然而双链区域具有衔接体(同型或异型衔接体)之间的共有序列，参见例如图5。

在一些实施方式中，无论衔接体是否加载有异型或同型衔接体，衔接体对可以经由连接核苷酸序列连接。该方面例示于图21-22。连接序列可以是连接2个衔接体的任何核苷酸序列。在一些实施方式中，连接序列可以为2个核苷酸至5kb长。在一些实施方式中，连接序列可以包含一个或更多个限制性识别序列，从而使连接序列后续可以被添加至分区的限制酶切割。为了避免DNA区段自身内的切割，选择稀有的切割限制酶可能是有益的，例如，具有8个或更多个核苷酸的识别序列的限制酶。

在其他实施方式中，连接序列可以包含1个或更多个(例如，2、3、4、5、6、7、8、9或10)个尿嘧啶。随后，可以在尿嘧啶-DNA N-糖基化酶(例如，“UNG”)存在的情况下切割连接序列，所述尿嘧啶-DNA N-糖基化酶可以包含在分区中。

在其他实施方式中，连接序列可以包含1个或更多个(例如，2、3、4、5、6、7、8、9或10)个核糖核苷酸。随后，可以在碱基或RNA酶存在的情况下切割连接序列，所述碱基或RNA酶可以包含在分区中。

选择标签化的条件，从而使标签酶在DNA中产生断裂点并使得加载在标签酶上的衔接体被添加到断裂点的任一端。标签酶在断裂点的任一端导入单链衔接体序列，形成5'突出端。然后通过聚合酶将5'突出端填平(“缺口填平”)以在DNA区段的任一端生成双链序列。参见例如图9。非转移底链因此是连续的并与转移的顶链(top strand)互补。该连续的底链与聚合酶延伸反应(例如，PCR)相容。因此，“缺口填平”是标签化后的过程，其使得底链(未转移的链)在DNA区段末端与顶链连续。缺口填平指底链的重构。这优选通过DNA聚合酶完成，其由位于缺口上游的底部非转移链的3'延伸回来。缺口填平的聚合酶可以具有5'-3'外切活性或链置换活性以协助克服非转移的镶嵌端。缺口填平或添加条码都不涉及连接。

还选择条件使得标签酶保持与DNA断裂点结合，从而保持相邻性。已经观察到标签酶保持与DNA结合，直到向反应中加入去污剂如SDS(Amini等Nature Genetics 46(12):1343-1349)。

分区

本文所述方法可以使用任何类型的分区。虽然已经使用液滴例示了该方法，但是应该理解也可以使用其他类型的分区。

在一些实施方式中，在与分段的DNA接触之前，分区将包含与珠连接的第一寡核苷酸以及任选的第二反向寡核苷酸引物。分区还可以包括足够量的试剂以从DNA中去除标签酶或切割连接序列(如果存在)。如本文所述，随后，可以将分段并连接的DNA添加到分区中。分段并连接的DNA分子的数量，尽管理想地在一些实施方式中，可以是每个分区一个，可以如所需选择，例如取决于分区的数量和其他因素。

用于进行划分分区的方法和组合物描述于例如公开的专利申请WO 2010/036,352，US 2010/0173,394，US 2011/0092,373和US 2011/0092,376中，其全部内容通过引用并入本文。多个混合物分区可以是多个乳液液滴，或多个微孔等。

在一些实施方式中，可以将引物和其他试剂划分到多个混合物分区，然后可以将连接的DNA区段导入多个混合物分区中。用于将试剂递送至一个或多个混合物分区的方法和组合物包括本领域已知的微流体方法；液滴或微胶囊合并，聚结，融合，破裂或降解(例如，如U.S.2015/0027,892；US 2014/0227,684；WO 2012/149,042；和WO 2014/028,537中所述)；液滴注入方法(例如，如WO2010/151,776中所述)；及其组合。

如本文所述，混合物分区可以是皮孔、纳米孔或微孔。混合物分区可以是皮米，纳米或微米反应室，例如皮米，纳米或微米胶囊。混合物分区可以是皮米，纳米或微米通道。混合物分区可以是液滴，例如乳液液滴。

在一些实施方式中，分区是液滴。在一些实施方式中，液滴包含乳液组合物，即不互溶的流体(如水和油)的混合物。在一些实施方式中，液滴是水性液滴，其被不互溶的运载体流体(如油)包围。在一些实施方式中，液滴是油性液滴，其被不互溶的运载体流体(如水性溶液)包围。在一些实施方式中，本文所述液滴是相对稳定的并在两个或更多个液滴之间具有最小聚结。在一些实施方式中，由样品生成的液滴中少于0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、7％、8％、9％或10％与其他液滴聚结。这些乳液还可具有有限的絮凝，一种分散相以薄片中悬浮液产生的过程。在一些情况下，这种稳定性或最小聚结可保持长达4、6、8、10、12、24或48小时或更长时间(例如，在室温下，或在约0、2、4、6、8、10或12℃下)。在一些实施方式中，使油相流过水相或试剂，从而形成液滴。

该油相可包含氟化基础油，其可通过与氟化表面活性剂(如全氟聚醚)联用而进一步稳定。在一些实施方式中，该基础油包括以下一种或多种：HFE 7500、FC-40、FC-43、FC-70或其他常见氟化油。在一些实施方式中，该油相包含阴离子含氟表面活性剂。在一些实施方式中，该阴离子含氟表面活性剂是Ammonium Krytox(Krytox-AS)、Krytox FSH的铵盐或Krytox FSH的吗啉代衍生物。Krytox-AS的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox-AS的浓度是约1.8％。在一些实施方式中，Krytox-AS的浓度是约1.62％。KrytoxFSH的吗啉代衍生物的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.8％。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.62％。

在一些实施方式中，该油相还包含用于调节油性质(如蒸气压、粘度或表面张力)的添加剂。非限制性示例包括全氟辛醇和1H,1H,2H,2H-全氟癸醇。在一些实施方式中，1H,1H,2H,2H-全氟癸醇添加至约0.05％、0.06％、0.07％、0.08％、0.09％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.25％、1.50％、1.75％、2.0％、2.25％、2.5％、2.75％或3.0％(w/w)的浓度。在一些实施方式中，1H,1H,2H,2H-全氟癸醇添加至约0.18％(w/w)的浓度。

在一些实施方式中，该乳液配制为生成具有类液界面膜的高度单分散液滴，其可通过加热转化为具有类固界面膜的微胶囊；这类微胶囊可作为生物反应器以通过一段时间的孵育保持其含量。转化为微胶囊可在一经加热后即发生。例如，这类转化可发生在大于约40°、50°、60°、70°、80°、90°或95℃的温度下。加热过程期间，流体或矿物油覆盖物可用于阻止蒸发。过量的连续相油可在加热前去除或留在原位。这些微胶囊可在大范围的热和机械处理下抗聚结和/或絮凝。

在将液滴转化成微胶囊之后，这些微胶囊可储存于约-70°、-20°、0°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°或40℃下。在一些实施方式中，这些微胶囊可用于储存或运输分区混合物。例如，可在一个位置处收集样品，划分到含有酶、缓冲剂和/或引物或其它探针的液滴中，任选地可进行一个或多个聚合反应，然后可加热该分区以进行微囊化，并且可储存或运输微胶囊用于进一步分析。

在一些实施例中，将样品划分为至少500个分区，1000个分区，2000个分区，3000个分区，4000个分区，5000个分区，6000个分区，7000个分区，8000个分区，10,000个分区，15,000个分区，20,000个分区，30,000个分区，40,000个分区，50,000个分区，60,000个分区，70,000个分区，80,000个分区，90,000个分区，100,000个分区，200,000个分区，300,000个分区，400,000个分区，500,000个分区，600,000个分区，700,000个分区，800,000个分区，900,000个分区，1,000,000个分区，2,000,000个分区，3,000,000个分区，4,000,000个分区，5,000,000个分区，10,000,000个分区，20,000,000个分区，30,000,000个分区，40,000,000个分区，50,000,000个分区，60,000,000个分区，70,000,000个分区，80,000,000个分区，90,000,000个分区，100,000,000个分区，150,000,000个分区或200,000,000个分区。

在一些实施方式中，生成的液滴在形状和/或尺寸方面基本均匀。例如，在一些实施方式中，这些液滴在平均直径方面基本均匀。在一些实施方式中，生成的液滴的平均直径为约0.001微米、约0.005微米、约0.01微米、约0.05微米、约0.1微米、约0.5微米、约1微米、约5微米、约10微米、约20微米、约30微米、约40微米、约50微米、约60微米、约70微米、约80微米、约90微米、约100微米、约150微米、约200微米、约300微米、约400微米、约500微米、约600微米、约700微米、约800微米、约900微米或约1000微米。在一些实施方式中，生成的液滴的平均直径为小于约1000微米、小于约900微米、小于约800微米、小于约700微米、小于约600微米、小于约500微米、小于约400微米、小于约300微米、小于约200微米、小于约100微米、小于约50微米，或小于约25微米。在一些实施方式中，生成的液滴在形状和/或尺寸方面是不均匀的。

在一些实施方式中，生成的液滴在体积上基本均匀。例如，液滴体积的标准偏差可以低于约1皮升、5皮升、10皮升、100皮升、1nL或低于约10nL。在一些情况中，液滴体积的标准偏差可低于平均液滴体积的约10-25％。在一些实施方式中，生成的液滴的平均体积为约0.001nL、约0.005nL、约0.01nL、约0.02nL、约0.03nL、约0.04nL、约0.05nL、约0.06nL、约0.07nL、约0.08nL、约0.09nL、约0.1nL、约0.2nL、约0.3nL、约0.4nL、约0.5nL、约0.6nL、约0.7nL、约0.8nL、约0.9nL、约1nL、约1.5nL、约2nL、约2.5nL、约3nL、约3.5nL、约4nL、约4.5nL、约5nL、约5.5nL、约6nL、约6.5nL、约7nL、约7.5nL、约8nL、约8.5nL、约9nL、约9.5nL、约10nL、约11nL、约12nL、约13nL、约14nL、约15nL、约16nL、约17nL、约18nL、约19nL、约20nL、约25nL、约30nL、约35nL、约40nL、约45nL或约50nL。

如上所述，分区将包含每个分区一个或若干个(例如，1、2、3、4)珠，其中各珠与具有游离3'端的第一寡核苷酸引物连接。第一寡核苷酸引物将具有珠特异性条码和与衔接体互补的3'端。在一些实施方式中，条码的长度将为例如2-10个核苷酸，例如，2、3、4、5、6、7、8、9或10个核苷酸。条码可以是连续的或不连续的，即被其他核苷酸打断。在一些实施方式中，3’端将与整个衔接体序列互补。在一些实施方式中，寡核苷酸的至少最3'的6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个与衔接体中的序列互补。在一些实施方式中，第一寡核苷酸引物还包含通用或其他序列来协助扩增子的测序和下游操控。例如，当使用基于Illumina的测序时，第一寡核苷酸引物可以具有5’P5或P7序列(任选地具有第二寡核苷酸引物，所述第二寡核苷酸引物具有两个序列中的另一个)。任选地，第一寡核苷酸引物包含限制或切割位点以在需要时从珠去除第一寡核苷酸引物。在一些实施方式中，一旦DNA区段与珠连接的第一寡核苷酸引物在分区中时，第一寡核苷酸引物在扩增前被从珠切去。

术语“珠”指可以存在于分区中的任何固体支持物，例如，小颗粒或其他固体支持物。示例性的珠可以包括水凝胶珠。一些情况中，水凝胶是溶胶(sol)形式。一些情况中，水凝胶是凝胶(gel)形式。示例性水凝胶是琼脂糖水凝胶。其它水凝胶包括但不限于例如下列文件中所述：美国专利号4,438,258、6,534,083、8,008,476、8,329,763；美国专利申请号2002/0,009,591、2013/0,022,569、2013/0,034,592；以及国际专利申请号WO/1997/030092和WO/2001/049240。

将寡核苷酸与珠连接的方法述于例如WO 2015/200541中。在一些实施方式中，设置成连接水凝胶和条码的所述寡核苷酸共价连接至水凝胶。本领域已知用于共价连接寡核苷酸与一种或多种水凝胶基质的许多方法。仅举一例，醛衍生化琼脂糖可共价连接至合成寡核苷酸的5’-胺基团。

如本文其他地方所述，该分区还可以包含第二寡核苷酸引物，其可任选地与珠连接或不连接。该引物可以作为第一寡核苷酸引物的反向引物，从而使两种寡核苷酸在PCR中生成扩增子。第二寡核苷酸引物将具有与衔接体序列互补的3'末端，即相较于第一寡核苷酸引物靶向的衔接体序列位于DNA区段相对端的衔接体序列。在一些实施方式中，3’端将与整个衔接体序列互补。在一些实施方式中，寡核苷酸的最3'的6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个与衔接体中的序列互补。该第二寡核苷酸引物还可以包含通用或其他序列来协助扩增子的测序和下游操控。例如，当使用基于Illumina的测序时，第二寡核苷酸引物可以具有5’P5或P7序列用于结合Illumina流动室(任选地具有第一寡核苷酸引物，所述第一寡核苷酸引物具有两个序列中的另一个)。

分区还可以将包含从DNA区段去除标签酶的试剂。在一些实施方式中，试剂是去污剂，例如，离子或非离子去污剂。示例性的去污剂是十二烷基硫酸钠(SDS)。例如，发明人已经确定浓度为0.1和0.2％的SDS足以去除标签酶，但又足够低以不干扰扩增。因此，在一些实施方式中，分区包含0.02-0.4％，例如，0.05-0.3％的SDS。在一些实施方式中(例如，其中使用了液滴)，所述试剂与液滴形成相容。在一些实施方式中，试剂是聚合酶，例如，用于缺口填平或以其他方式用于扩增DNA的聚合酶。或者，在一些实施方式中，标签酶可以通过加热置换。例如，在一些实施方式中，加热至70℃或更高(例如，约72℃)降低标签酶对DNA的亲和力或置换标签酶。

扩增前，可以将第一寡核苷酸引物从珠去除或切割。这可以通过所需的任何方法实现。切割的方法包括但不限于，改变pH或用UDG/ApeI或限制性内切核酸酶接触寡核苷酸。在一些实施方式中，寡核苷酸与珠经由一个或多个尿嘧啶(U)连接，而USER酶(例如，来自NEB)用于切割纳入寡核苷酸骨架的U。USER具有2种酶：UDG和内切核酸酶VIII。一些情况中，寡核苷酸通过二硫连接与固体支持物连接(例如，通过固体支持物上的硫和共价结合在寡核苷酸5’或3’端或中间核酸的硫之间的二硫键)。这类情况中，可通过使固体支持物接触还原剂来切下所述寡核苷酸，所述还原剂例如硫醇或膦试剂，包括但不限于β-巯基乙醇、二硫苏糖醇(DTT)或三(2-羧基乙基)膦(TCEP)。出于许多原因，从珠释放第一寡核苷酸引物可以是有利的。例如，DNA相互作用的热动力学将大幅增强。

扩增可以在分区内实现(在合并内含物至分区之前)。本领域已知并且可以使用各种数字扩增方法。

扩增后，将分区的内含物合并并测序。可以使用所需的的任何核苷酸测序方法，只要能确定至少一些DNA区段序列和条码序列。高通量测序和基因分型的方法是本领域已知的。例如，此类测序技术包括但不限于：焦磷酸测序、连接法测序、单分子测序、合成法测序(SBS)、大量同步克隆法、大量同步单分子SBS、大量同步单分子实时法，大量同步单分子纳米孔技术等。Morozova和Marra提供对一些此类技术的综述，见Genomics,92:255(2008)，该文在此通过引用全文纳入本文。

示例性的DNA测序技术包括基于荧光的测序技术(参见如Birren等，GenomeAnalysis:Analyzing DNA,1(基因组分析：DNA分析，第1卷)，纽约冷泉港，该文在此通过引用全文纳入本文)。在一些实施方式中，使用本领域已理解的自动化测序技术。在一些实施方式中，本技术提供带分隔扩增子的同步测序(PCT申请号WO 2006/0841,32，该文在此通过引用全文纳入本文)。在一些实施方式中，DNA测序的实现是通过同步寡核苷酸延伸(参见如美国专利号5,750,341和6,306,597，两者在此通过引用全文纳入本文)。测序技术的补充示例包括：Church多克隆技术(Mitra等，2003,Analytical Biochemistry 320,55-65；Shendure等，2005Science 309,1728-1732；和美国专利号6,432,360，6,485,944，6,511,803；在此通过引用全文纳入本文)，454皮升焦磷酸测序技术(picotiter pyrosequencingtechnology，Margulies等，2005Nature 437,376-380；美国公布号2005/0130173；在此通过引用全文纳入本文)，Solexa单碱基添加技术(Bennett等，2005,Pharmacogenomics,6,373-382；美国专利号6,787,308和6,833,246；在此通过引用全文纳入本文)，Lynx大量同步极好测序技术(Brenner等，(2000).Nat.Biotechnol.18:630-634；美国专利号5,695,934，5,714,330；在此通过引用全文纳入本文)和Adessi PCR克隆技术(Adessi等(2000).NucleicAcid Res.28,E87；WO 2000/018957；在此通过引用全文纳入本文)。

通常，高通量测序都具有大量同步这一共同特征，高通量策略的目的是使成本比较早的测序方法低(参见如Voelkerding等，Clinical Chem.,55:641-658,2009；MacLean等，Nature Rev.Microbiol.,7:287-296；两者在此都通过引用全文纳入本文)。此类方法可大致分成通常用和不用模板扩增两大类。需要扩增的方法包括罗氏公司以454技术平台商业化的焦磷酸测序(例如，GS 20和GS FLX)，Illumina销售的Solexa平台，和应用生物系统公司(Applied Biosystems)销售的支持态寡核苷酸连接和检测(SupportedOligonucleotide Ligation and Detection，SOLiD)平台。非扩增方法也称为单分子测序，其示例有螺旋生物科学公司(Helicos BioSciences)销售的HeliScope平台，VisiGen公司、牛津纳米孔技术公司(Oxford Nanopore Technologies)、生命技术公司(LifeTechnologies)/离子流(Ion Torrent)和太平洋生物科学公司销售的平台。

焦磷酸测序(Voelkerding等，Clinical Chem.,55:641-658,2009；MacLean等，Nature Rev.Microbial.,7:287-296；美国专利号6,210,891和6,258,568；其各自通过引用全文纳入本文)中，模板DNA被片段化、末端修复、连接衔接子、并用珠捕获单模板分子来进行原位克隆性扩增，珠上载有与衔接子互补的寡核苷酸。载有单模板类型的各珠被分入油包水微泡中，模板被克隆性扩增，所用技术被称作乳液PCR。扩增后破乳，珠被置入皮升微孔板(picotitre plate)的各孔内，孔在测序反应中作为流动室。在测序酶和发光报告物如萤光酶的存在下，流动室中发生四种dNTP试剂各自的有序迭代引入。合适的dNTP被加到测序引物的3′端时，所产生的ATP导致孔内发光脉冲，用CCD相机予以记录。能够实现大于或等于400个碱基的读数长度，且能够实现10⁶个序列读数，得到最多达5亿碱基对(Mb)的序列。

在Solexa/Illumina平台中(Voelkerding等，Clinical Chem.,55.641-658,2009；MacLean等，Nature Rev.Microbial.,7:287-296；美国专利号6,833,246，7,115,400和6,969,488；其各自通过引用全文纳入本文)，以较短的读数形式产生测序数据。该方法中，单链的片段化DNA末端修复产生5′-磷酸化钝端，然后由Klenow介导添加单一A碱基至这些片段的3′端。添加A便于添加T-突端衔接子寡核苷酸，后者将被用来捕获流动室表面上模板-衔接子分子，流动室中插有寡核苷酸锚。锚被用作PCR引物，但由于模板的长度且其靠近其它邻近的锚寡核苷酸，PCR延伸导致分子“拱跨(arching over)”杂交邻近的锚寡核苷酸在流动室表面形成桥式结构。这些DNA环被变性并切割。正链随后通过可逆染料终止子来测序。通过检测纳入后荧光来确定所纳入核苷酸的序列，在下一轮dNTP添加前除去各荧光团和阻断。序列读数长度从36个核苷酸到超过50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

用SOLiD技术(Voelkerding等，Clinical Chem.,55:641-658,2009；MacLean等，Nature Rev.Microbial.,7:287-296；美国专利号5,912,148；和6,130,073；其各自通过引用全文纳入本文)对核酸分子进行测序还包括片段化模板，连接寡核苷酸衔接子，连接珠，以及乳液PCR克隆性扩增。此后，载有模板的珠被固定化在玻璃流动室的衍生化表面，与衔接子寡核苷酸互补的引物发生退火。但该引物并不用作3′延伸，而是用来提供5′磷酸基团供连接至问询探针，这些探针含有两个探针特异性碱基及其后6个简并碱基和四种荧光标记其一。SOLiD系统中，问询探针中每个探针3′的两个碱基有16种可能的组合而在5′端是四种荧光标记之一。荧光颜色，及由此辨识的各探针对应于指定的颜色-空间编码方案。多轮(通常7轮)探针退火、连接和荧光检测后变性，然后用相对初始引物错开一位碱基的引物进行第二轮的测序。以此方式，模板序列可通过计算得以重建，而且模板碱基问询两次，得到更高的精确度。序列读数长度平均为35个核苷酸，总体输出为每次测序运行超过40亿个碱基。

某些实施方式中，采用纳米孔测序(参见如Astier等，J.Am.Chem.Soc.2006年2月8日；128(5)1705-10，通过引用纳入本文)。纳米孔测序的原理涉及纳米孔浸入传导液并跨纳米孔施加电压(伏特)时所发生的现象。这些条件下，可观察到由于离子传导有微弱电流通过纳米孔，而电流的量对纳米孔的大小极度敏感。随着核酸的每个碱基通过该纳米孔，就会导致通过纳米孔的电流幅度有变化，这种变化对于四种碱基的每一种是不同的，从而允许确定DNA分子的序列。

某些实施方式中，采用螺旋生物科学公司(Helicos BioSciences Corporation)的HeliScope(Voelkerding等，Clinical Chem.,55.641-658,2009；MacLean等，NatureRev.Microbial,7:287-296；美国专利号7,169,560，7,282,337，7,482,120，7,501,245，6,818,395，6,911,345和7,501,245；其各自通过引用全文纳入本文)。模板DNA被片段化并在3′端多腺苷化，最后的腺苷载有荧光素标记。变性的多腺苷化模板片段连接到流动室表面上的聚(dT)寡核苷酸上。由CCD相机记录被捕获模板的初始物理位置，然后切下并洗去标记。通过添加聚合酶并系列添加带荧光标记的dNTP试剂来实现测序。纳入事件产生对应于dNTP的荧光信号，而CCD相机在每轮dNTP添加前捕捉信号。序列读数长度在25-50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

离子流技术是基于对DNA聚合所释放氢离子的检测的DNA测序(参见如Science327(5970):1190(2010)；美国专利申请号2009/0026082；2009/0127589；2010/0301398；2010/0197507；2010/0188073和2010/0137143；全部通过引用全文纳入本文用于所有目的)。微孔含有待测序的模板DNA链。微孔层下方是超敏ISFET离子传感器。所有层都包含在CMOS半导体芯片内，该芯片与电子工业中所用的类似。在dNTP被纳入生长中的互补链时释放氢离子，触发超敏离子传感器。若模板系列中存在均聚重复系列，单次循环中会纳入多个dNTP分子。这导致对应数量的氢释放，和成比例的更高电子信号。这一技术与其它测序技术的区别之处在于不适用带修饰核苷酸和光学元件。离子流测序仪的单碱基精确度为每50碱基读数约99.6％，每次运行产生约100Mb。读数长度是100个碱基对。5个重复的均聚重复序列的精确度是约98％。离子半导体测序的优势在于测序速度快且前期和运行成本低。

可适用于本发明的另一示例性核酸测序方法是由Stratos Genomics公司开发并用到Xpandomer分子的测序方法。该测序方法通常包括提供由模板引导的合成产生的子链。该子链通常包括按对应于靶核酸全部或部分的连续核苷酸序列偶联的多个亚单元，各亚单元含有接臂(tether)、至少一个探针或核碱基残基和至少一个选择性可切割的键。选择性可切割的键是被切割来得到Xpandomer，其长度大于子链的所述多个亚单元的长度。Xpandomer通常包括接臂和报道子元件，报道子元件用以解析序列中对应于靶核酸的全部或部分的连续核苷酸序列的遗传信息。Xpandomer随后被测得。对基于Xpandomer的方法的补充细节在文献中有记载，例如美国专利公开号2009/0035777，其通过引用全文纳入本文。

其它单分子测序方法包括利用VisiGen平台通过合成来实时测序(Voelkerding等，Clinical Chem.,55:641-58,2009；美国专利号7,329,492，美国专利申请序列号11/671,956和11/781,166；其各自通过引用全文纳入本文)，其中，固定化的带引物DNA模板用带荧光素修饰的聚合酶和荧光素受体分子来进行链延伸，在核苷酸添加时产生可测的荧光共振能量转移(FRET)。

另一由太平洋生物科学公司(Pacific Biosciences)开发的实时单分子测序系统(Voelkerding等，Clinical Chem.,55.641-658,2009；MacLean等，NatureRev.Microbiol.,7:287-296；美国专利号7,170,050，7,302,146，7,313,308和7,476,503；其各自通过引用全文纳入本文)利用直径50-100nm含有约20仄升(10^-21L)反应体积的反应孔。利用固定化模板、改良的phi29DNA聚合酶和高局部浓度荧光素标记的dNTP来进行测序反应。高局部浓度和连续反应条件允许采用激光激发、光学波导和CCD相机来通过荧光信号检测实时捕捉纳入事件。

在某些实施方式中，单分子实时(SMRT)DNA测序方法采用太平洋生物科学公司(Pacific Biosciences)开发的零级波导(zero-mode waveguide，ZMW)或类似方法。用此技术，DNA测序在SMRT芯片上进行，这些芯片各自含有数千个零级波导(ZMW)。ZMW是孔，直径是纳米的几十分之一，制造在100nm金属膜中，该膜置于二氧化硅底物上。每个ZMW成为提供检测体积仅20仄升(10^-21L)的纳米光子可视化室。以此体积，可在数千个标记的核苷酸背景中检测出单个分子的活性。ZMW通过合成进行测序，为观察DNA聚合酶提供了窗口。各ZMW室内，单个DNA聚合酶分子结合在底面从而永久保持在检测体积内。磷酸连接的(phospholinked)核苷酸每种标记有不同颜色的荧光团，这些核苷酸随后以高浓度引入反应溶液中，这些浓度提高酶速度、精确性和处理能力(processivity)。由于ZMW体积小，即使在这些高浓度下，检测体积被众核苷酸占据的时间占比很小。此外，由于转运核苷酸的扩散距离很短，对检测体积的经停很快，仅持续几微秒。结果就是背景很低。

可调试用于本发明的用于此类实时测序的方法和系统记载于，例如，美国专利号7,405,281、7,315,019、7,313,308、7,302,146和7,170,050；美国专利公布号2008/0212960、2008/0206764、2008/0199932、2008/0199874、2008/0176769、2008/0176316、2008/0176241、2008/0165346、2008/0160531、2008/0157005、2008/0153100、2008/0153095、2008/0152281、2008/0152280、2008/0145278、2008/0128627、2008/0108082、2008/0095488、2008/0080059、2008/0050747、2008/0032301、2008/0030628、2008/0009007、2007/0238679、2007/0231804、2007/0206187、2007/0196846、2007/0188750、2007/0161017、2007/0141598、2007/0134128、2007/0128133、2007/0077564、2007/0072196和2007/0036511，以及Korlach等(2008)“选择性铝钝化用于将单个DNA聚合酶分子靶向固定在零级波导纳米结构中(Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguidenanostructures)”PNAS 105(4):1176-81，其全部在此通过引用全文纳入本文。

竞争测序后，可以通过相同的条码分选序列，其中具有相同条码的序列来自同一分区并因此是连续的。在一些实施方式中，可以确定基于常规条码序列连接的序列，并且任选地，可以检测每个条码各片段的SNP。在一些实施方式中，可以检测超出偶然的片段共定位至单个条码(偏斜分布)，从而检测重排。

实施例

提供以下实施例，以说明而非限制所要求保护的发明。

进行证明液滴中的CPTseq的实验。图30A中提供的工作流程包括对DNA水性入口测试的5个条件：(1)珠，(2-3)珠+P5PCR引物(2个重复)，(4)仅N70X和(5)无模板对照(NTC)。该方法方案如下所示。简言之，DNA在试管中经标签化(用标签化DNA酶(TDE))以生成CPT DNA，使用每种条件各不相同的各种寡核苷酸、PCR试剂和该CPT DNA制备5个乳液。在液滴中，针对各珠条件从珠释放寡核苷酸，Tn5从CPTDNA置换，缺口填平并进行10个循环的PCR。然后打破液滴，纯化DNA，进行第二巢式PCR，然后进行最后的纯化。将产物在凝胶上运行，结果示于图30B。使用珠的测试条件以条件1-3示出。条件4中不存在扩增阴性对照，省略了珠和所有珠引物，但是包括N70X引物，证明了条件1-3中的扩增是珠依赖性的。对于条件5，确认了未显示扩增的NTC。Illumina测序仪上对珠样品的测序方法以及测序QC度量在图30C中显示。高簇密度低以及大多数碱基大于30的Q评分证明成功执行了测序。

图31显示了在液滴预期结果中的CPTseq中，通过图30A-C中所示测序运行产生的数据集的预期的全基因组分析和定相数据。提供了珠批量数据(Zhang等2017NatureBiotechnology)和10X数据(Zheng等2017Nature Biotechnology)用于比较。

具体方案：

设备：热循环仪(C1000Touch或T100)

标签化反应(150单倍体基因组/uL)

标签化反应

通过吹打充分混合。

在热循环仪中孵育(Lid温度：55C，样品体积：100uL)。

55℃ 10分钟

4℃

保持在冰上。在该浓度的DNA时，150单倍体基因组/uL(用于酶混合物)。

寡核苷酸

P5-短 AATGATACGGCGAC

P7-短 CAAGCAGAAGACGG

N70X CAAGCAGAAGACGGCATACGAGATXXXXXXXXGTCTCGTGGGCTCGG

酶混合物：

DNA混合物

酶/DNA混合物：

根据上表制备酶混合物。

根据上表制备DNA混合物。不添加N70X引物，如果多重化。

在等分DNA混合物后，向各样品添加1uL的N70X寡聚物(50uM)。将DNA和酶混合物保持在冰上直至制备液滴。

可以调整上述混合物。然而，为了成功生成液滴(drop)，一些常量将是有帮助的。

成功生成液滴的常量：

1)液滴溶液量

2)Optiprep浓度

3)酶混合物中含有的甘油量

液滴生成

对于所有液滴生成和转移步骤，使用Rainin移液管和相应的吸头。

加载芯片之前用溶液冲洗移液管吸头。当载入筒中时仅按压移液管活塞至第一停顿以避免气泡。

将筒插入筒固定器。检查筒是否完全插入并平放于固定器底部，然后关闭控制杆。

使用储库(reservoir)和P20多通道移液器，向筒的第二行的各孔添加20uL的引发溶液。

允许引发溶液在孔中保持1分钟，然后用多通道移液器去除所有溶液。不允许引发溶液在孔中保留超过3分钟。

通过吹打混合DNA溶液。使用P20单通道移液器，将20uL加载到B端口的底部。

通过吹打混合酶溶液。使用P20单通道移液器，将20uL加载到编号1-4的端口的底部。参见图32。

注意：不要将第二行中的任何端口留空

将EvaGreen油导入储库。使用P200多通道移液器，将80uL油加载到标记为OIL的筒底部行的各孔中。

将装载的筒固定器放入ddSEQ单池隔离器中，按下机器顶部的银色按钮关闭。

机器完成运行后(所有3个指示灯为绿色)，取出筒固定器。

使用设定为43uL带Rainin吸头的P50多通道移液器，从输出孔轻缓地吹打所有包封样品(约40ul)。转移至96孔PCR平板。

PCR：在热循环仪中孵育(Lid温度：105C，样品体积：50uL)。

注意：使用伯乐公司C1000Touch(Deep Well)或T100热循环仪

37℃ 30分钟

72℃ 5分钟

98℃ 30秒

37℃

72℃ 10秒

98℃ 30秒

37℃ 120秒

72℃

98℃ 5分钟

4℃

乳液破碎和清理-如果合并芯片

向各样品中添加10uL液滴破碎剂(2个孔/样品)。

添加40uL水。不混合。

添加70uL Ampure珠(1X清理)。

在水层中的吹打混合物仅直到珠均匀地分布。不要将水层与孔底部的油层混合。

混合后，各样品应当具有2不同的层：位于孔底部的油层和位于顶部的均匀棕色水层。

在室温下孵育混合物5分钟。

置于磁力架并等待5分钟。

将板保持在磁力架上，移除并丢弃上清液，包括油。

在磁体上如下所示洗涤2次：

向各孔添加200uL新鲜制备的80％EtOH

孵育30秒

从各孔移除并丢弃上清液。

使用P20移液器，移除各孔残留的80％EtOH。

在磁力架上风干约10分钟。干燥时间可根据室内温度/湿度而变化。不要使沉淀过度干燥。

从磁力架上移除板。向各样品孔添加10uL RSB。吹打至混合。

在室温下孵育2分钟(不在磁力架上)。

将管置于磁力架上，等待约2分钟或直至溶液澄清。

通过将各样品孔中10uL上清液移至新板，将2个孔中的各样品合并成单个孔。

各样品的最终体积(现在合并的)应当为20uL。在HS DNA芯片上运行1uL。

虽然通过阐述和举例的方式详细描述了上述发明以清晰理解，但本发明技术人员应理解可在所附权利要求书范围内实施某些改变和修改。此外，本文提供的各参考文献通过引用全文纳入本文，就如同各参考文献单独通过引用纳入本文。当即时应用和本文提供的参考之间存在冲突时，即时应用占主导地位。

Claims

1.一种确定单倍型基因组序列信息的方法，所述方法包括：

提供基因组DNA的片段；

将所述片段与载有衔接体的标签酶反应，所述载有衔接体的标签酶产生由片段中断裂点限定的DNA片段并在所述断裂点插入衔接体，其中所述反应处于使得所述标签酶结合所述断裂点以形成连接的DNA区段的条件下，所述连接的DNA区段为DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)_n-DNA区段的形式，其中n是任何整数并且“-”表示共价连接；

将连接的DNA区段包封在分区中，所述分区包含：

珠，所述珠具有正向引物寡核苷酸，所述正向引物寡核苷酸通过所述正向引物寡核苷酸的5'端与所述珠连接，所述正向引物寡核苷酸具有珠特异性条码以及对所述第一或第二衔接体具有特异性并与其互补的3'端；

反向引物寡核苷酸，所述反向引物寡核苷酸具有与所述第一或第二衔接体互补的3'端，其中所述正向引物3'端和所述反向引物3'端与选自所述第一衔接体和所述第二衔接体的不同衔接体互补；

从所述分区中的所述区段置换出所述标签酶；

进行扩增，其中所述正向引物和所述反向引物寡核苷酸由所述DNA区段生成扩增子，从而用所述珠条码条码化分区内的扩增子；

合并所述分区以形成包含所述扩增子的反应混合物；和

对扩增子进行核苷酸测序。

2.如权利要求1所述的方法，其中，所述分区包含一定量的试剂，所述试剂从所述区段置换出所述标签酶但是不抑制聚合。

3.如权利要求1所述的方法，其中，在扩增之前，插入的衔接体的单链区被DNA聚合酶填平。

4.如权利要求1所述的方法，其中，在扩增之前，片段化的靶核酸的单链区被DNA聚合酶填平。

5.如权利要求1所述的方法，其中，所述正向引物寡核苷酸由所述珠释放，并且扩增发生在溶液中。

6.如权利要求1所述的方法，其中，所述试剂是去污剂。

7.如权利要求6所述的方法，其中，所述去污剂是十二烷基硫酸钠(SDS)。

8.如权利要求7所述的方法，其中，所述SDS的浓度是0.005-0.05％(例如，0.01-0.04％，例如，0.01-0.02％)。

9.如权利要求1所述的方法，其中，所述片段平均为5-10Mb。

10.如权利要求1所述的方法，其中，所述分区是乳液中的液滴。

11.如权利要求1所述的方法，其中，所述包封将平均0.02-3(例如，0.05-1，0.08-0.5，例如，0.1、1、2或3)个珠包封于分区中。

12.如权利要求1所述的方法，其中，所述基因组DNA来自单细胞。

13.如权利要求1所述的方法，其中，所述基因组DNA来自哺乳动物或植物。

14.如权利要求1所述的方法，其中，所述第一衔接体和所述第二衔接体具有不同的序列。

15.如权利要求14所述的方法，其中，所述第一衔接体和所述第二衔接体的相同性小于50％。

16.如权利要求1所述的方法，其中，所述第一衔接体和所述第二衔接体具有相同的序列。

17.如权利要求1所述的方法，其中，当所述第一衔接体和所述第二衔接体加载到所述连接酶时，所述第一衔接体和所述第二衔接体通过连接序列连接，从而使所述DNA区段通过所述标签酶和所述连接序列两者连接。

18.如权利要求17所述的方法，其中，所述连接序列包含限制性识别序列，并且所述连接序列在包封之后和进行扩增之前被限制酶切割。

19.如权利要求17所述的方法，其中，所述连接序列包含一个或更多个尿嘧啶，并且所述连接序列在包封之后和进行扩增之前被尿嘧啶-DNA N-糖苷酶切割。

20.如权利要求17所述的方法，其中，所述连接序列包含一个或更多个核糖核苷酸，并且所述连接序列在包封之后和进行扩增之前在所述核糖核苷酸处被切割。

21.如权利要求1所述的方法，其中，n是选自0-10,000的整数。

22.如权利要求1所述的方法，其中，所述DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)_n-DNA区段的长度为5kb-10Mb，例如，1Mb-10Mb。

23.如权利要求1所述的方法，其中，至少10,000个不同的连接的DNA区段被包封于不同的分区中。

24.多个划分产物，所述划分产物包含：

珠，所述珠具有正向引物寡核苷酸，所述正向引物寡核苷酸通过所述正向引物寡核苷酸的5'端与所述珠连接，所述正向引物寡核苷酸具有珠特异性条码以及对第一或第二衔接体具有特异性并与其互补的3'端；

反向引物寡核苷酸，所述反向引物寡核苷酸具有与所述第一或第二衔接体互补的3'端，其中所述正向引物3'端和所述反向引物3'端与选自所述第一衔接体和所述第二衔接体的不同衔接体互补；和

一定量的试剂，所述试剂从DNA置换出标签酶但是不抑制聚合。

25.多个分区，其中，所述分区还包含：

标签酶；和

基因组DNA，其中所述DNA的区段具有由衔接体限定的末端，所述衔接体插入在由所述标签酶产生的断裂点，处于第一衔接体-DNA区段-第二衔接体的形式。

26.如权利要求24所述的多个分区，其中，所述试剂是去污剂。

27.如权利要求26所述的多个分区，其中，所述去污剂是十二烷基硫酸钠(SDS)。

28.如权利要求27所述的多个分区，其中，所述SDS的浓度是0.005-0.05％(例如，0.01-0.04％，例如，0.01-0.02％)。

29.如权利要求24所述的多个分区，其中，所述分区是乳液中的液滴。

30.如权利要求24所述的多个分区，其中，所述分区包含平均0.02-3(例如，0.05-1，0.08-0.5，例如，0.1、1、2或3)个珠。

31.如权利要求24所述的多个分区，其中，所述基因组DNA来自单细胞。

32.如权利要求24所述的多个分区，其中，所述基因组DNA来自哺乳动物或植物。

33.如权利要求24所述的多个分区，其中，所述第一衔接体和所述第二衔接体具有不同的序列。

34.如权利要求33所述的多个分区，其中，所述第一衔接体和所述第二衔接体的相同性小于50％。

35.如权利要求24所述的多个分区，其中，所述第一衔接体和所述第二衔接体具有相同的序列。

36.如权利要求24所述的多个分区，其中，所述第一衔接体和第二衔接体通过连接序列连接，以包含第一衔接体-DNA区段-第二衔接体-(接头序列)-第一衔接体-DNA区段-第二衔接体)_n的形式，其中n是1或更大的任何整数。

37.如权利要求36所述的多个分区，其中，所述连接序列包含限制性识别序列，并且任选地，所述分区还包含所述限制性识别序列限制酶。

38.如权利要求36所述的多个分区，其中，所述连接序列包含一个或更多个尿嘧啶，并且任选地，所述分区还包含尿嘧啶-DNA N-糖基化酶。

39.如权利要求36所述的多个分区，其中，所述连接序列包含一个或更多个核糖核苷酸。

40.如权利要求36所述的多个分区，其中，n是选自1-10,000的整数。

41.如权利要求36所述的多个分区，其中，所述第一衔接体-DNA区段-第二衔接体-(接头序列-第一衔接体-DNA区段-第二衔接体)_n的长度为5kb-10Mb，例如，1Mb-10Mb。

42.如权利要求24-41中任一项所述的多个分区，其包含至少10,000个不同的分区。

43.含有DNA区段的多个分区，所述DNA区段具有通过标签酶保持的相邻性，所述分区包含：

连接的DNA区段，所述连接的DNA处于DNA区段-第一衔接体-标签酶-第二衔接体-(DNA区段-第一衔接体-标签酶-第二衔接体)_n-DNA区段的形式，其中n是任何整数，“-”表示共价连接，并且其中连接的DNA相较于基因组DNA保持相邻性。

44.如权利要求43所述的多个分区，其中，所述分区是乳液中的液滴。

45.如权利要求43所述的多个分区，其中，所述分区包含平均0.02-3(例如，0.05-1，0.08-0.5，例如，0.1、1、2或3)个珠。

46.如权利要求43所述的多个分区，其中，所述基因组DNA来自单细胞。

47.如权利要求43所述的多个分区，其中，所述基因组DNA来自哺乳动物或植物。

48.如权利要求43所述的多个分区，其中，所述第一衔接体和所述第二衔接体具有不同的序列。

49.如权利要求48所述的多个分区，其中，所述第一衔接体和所述第二衔接体的相同性小于50％。

50.如权利要求43所述的多个分区，其中，所述第一衔接体和所述第二衔接体具有相同的序列。

51.如权利要求43所述的多个分区，其中，所述连接序列包含限制性识别序列，并且任选地，所述分区还包含所述限制性识别序列限制酶。

52.如权利要求43所述的多个分区，其中，所述连接序列包含一个或更多个尿嘧啶，并且任选地，分区还包含尿嘧啶-DNA N-糖基化酶。

53.如权利要求43所述的多个分区，其中，所述连接序列包含一个或更多个核糖核苷酸。

54.如权利要求43所述的多个分区，其中，n是选自1-10,000的整数。

55.如权利要求43所述的多个分区，其中，所述第一衔接体-DNA区段-第二衔接体-(接头序列-第一衔接体-DNA区段-第二衔接体)_n的长度为5kb-10Mb，例如，1Mb-10Mb。

56.如权利要求43-55中任一项所述的多个分区，其包含至少10,000个不同的分区。