CN111295443A

CN111295443A - 基于转座酶的基因组分析

Info

Publication number: CN111295443A
Application number: CN201880071427.7A
Authority: CN
Inventors: R·雷伯弗斯基; J·陈
Original assignee: Bio Rad Laboratories Inc
Current assignee: Bio Rad Laboratories Inc
Priority date: 2017-11-02
Filing date: 2018-11-01
Publication date: 2020-06-16
Anticipated expiration: 2038-11-01
Also published as: EP3704247A1; US20210164036A1; WO2019089959A1; EP4180534A1; US20240158847A1; US20190127792A1; US11834710B2; EP3704247B1; US10907205B2; CN111295443B; EP3704247A4

Abstract

提供了用于使用分区(例如，液滴)技术同时避免在液滴中进行扩增来对DNA样品进行条码化和分析的方法和试剂。

Description

基于转座酶的基因组分析

相关申请的交叉引用

本申请要求2017年11月2日提交的美国临时申请第62/580,946号的权益，为所有目的其全文通过引用全文纳入本文。

序列表

本申请包含以ASCII格式电子提交的序列表，并通过引用全文纳入本文。2018年10月31日创建的所述ASCII拷贝，命名为094868-1103056_115910PC_SL.txt，大小为3,345字节。

背景技术

现代测序文库的制备通常涉及引入Tn5转座酶的高活性变体，该变体介导双链DNA的片段化并在5分钟的反应中将合成的寡核苷酸两端连接(Adey A等，Genome Biol 11：R119(2010))。野生型Tn5转座子是复合型转座子，其中2个几乎相同的插入序列(IS50L和IS50R)侧接3个抗生素抗性基因(Reznikoff WS.Annu Rev Genet42：269-286(2008))。各IS50包含2个反向19-bp末端序列(ES)，外侧端(outside end，OE)和内侧端(inside end，IE)。然而，野生型ES的活性相对较低并且被过分活跃的镶嵌端(mosaic end，ME)序列体外取代。因此，具有19-bp ME的转座酶复合物是转座发生所必需的，只要间插DNA足够长以使这些序列中的两个靠近在一起形成活性Tn5转座酶同二聚体(Reznikoff WS.，MolMicrobiol 47：1199-1206(2003))。转座在体内是非常罕见的事件，并且过分活跃的突变体历史上源自Tn5蛋白的476个残基中导入三个错义突变(E54K、M56A、L372P)，其由IS50R编码(Goryshin IY，Reznikoff WS.1998.J Biol Chem 273：7367-7374(1998))。转座通过“剪切-和-粘贴”机制起作用，其中Tn5将其从供体DNA中切除并插入靶序列，产生靶标的9-bp重复(Schaller H.Cold Spring Harb Symp Quant Biol 43：401-408(1979)；ReznikoffWS.，Annu Rev Genet 42：269-286(2008))。在当前的商业解决方案(Nextera DNA试剂盒，亿明达公司(Illumina))中，游离的合成ME衔接子与靶DNA的5′-末端通过转座酶末端连接。

发明概述

在一些实施方式中，提供了条码化DNA的方法。在一些实施方式中，该方法包括

通过使DNA与载有寡核苷酸衔接子的转座酶接触向DNA中随机引入寡核苷酸衔接子，其中寡核苷酸衔接子包含3′单链部分和双链部分，第一寡核苷酸具有3′末端和5′末端并且是双链部分的链，第二寡核苷酸包含单链部分和双链部分的互补链，和

其中转座酶将双链断裂引入DNA中，其中每个双链断裂形成两个DNA末端，并且转座酶将第一寡核苷酸连接至每个DNA末端的一条链，以形成在两端包含寡核苷酸衔接子的DNA片段；

形成液滴，其中所述液滴包含DNA片段和具有珠特异性条码序列的第一寡核苷酸引物，其中第一寡核苷酸引物与珠连接，并包含与寡核苷酸衔接子的3′单链部分互补的游离3′末端；

使第一寡核苷酸引物(可选地从珠释放)的3′末端与寡核苷酸衔接子的3′单链部分杂交；

合并液滴的内容物以形成反应混合物；

使反应混合物与连接酶接触，从而将第一寡核苷酸引物连接至与DNA末端连接的第一寡核苷酸的5′末端，从而形成条码化的DNA片段。

在一些实施方式中，该方法进一步包括扩增条码化的片段。在一些实施方式中，扩增包括聚合酶链式反应。

在一些实施方式中，该方法包括在杂交之前从DNA中剥离转座酶。在一些实施方式中，剥离发生在液滴中。在一些实施方式中，DNA在核中，并且剥离在液滴形成之前发生。

在一些实施方式中，该方法包括在杂交之前从珠上切割寡核苷酸引物。

在一些实施方式中，转座酶载有具有相同的双链部分和不同的单链部分的两个不同的衔接子寡核苷酸。在一些实施方式中，液滴还包含第二寡核苷酸引物，其中第二寡核苷酸引物包含与单链部分之一至少50％(例如，至少60％，70％，80％，90％或100％)互补的3′末端序列，并且第一寡核苷酸引物包含与不同的3′单链部分至少50％(例如60％，70％，80％，90％或100％)互补的游离3′末端，并且杂交包括使第二寡核苷酸引物与互补的3′单链部分杂交。在一些实施方式中，一个单链部分包含GACGCTGCCGACGA(A14；SEQ ID NO：1)，而另一个单链部分包含CCGAGCCCACGAGAC(B15；SEQ ID NO：2)。

在一些实施方式中，转座酶载有两个相同的衔接子寡核苷酸。

在一些实施方式中，第一寡核苷酸引物包含5′PCR柄序列。在一些实施方式中，第一寡核苷酸引物的5′PCR柄序列包含AATGATACGGCGACCACCGAGATCTACAC(P5；SEQ ID NO：3)。在一些实施方式中，液滴进一步包含第二寡核苷酸引物，并且其中第二寡核苷酸引物包含5′PCR柄。在一些实施方式中，第二寡核苷酸引物的5′PCR柄包括CAAGCAGAAGACGGCATACGAGAT(P7；SEQ ID NO：4)。在一些实施方式中，第二寡核苷酸引物进一步包含索引标签(例如，条码)。

在一些实施方式中，第二寡核苷酸的单链部分包括：

i.与第一寡核苷酸引物小于50％互补的3′末端序列；和

ii.与第一寡核苷酸引物的游离3’末端至少50％(例如，至少60％，70％，80％，90％或100％)互补的中间序列。

在一些实施方式中，DNA在引入过程中包含DNA结合的蛋白质。在一些实施方式中，该方法进一步包括在合并后从DNA中去除DNA结合的蛋白质。在一些实施方式中，去除包括使DNA与离液剂或蛋白酶接触。在一些实施方式中，该方法进一步包括在合并前从DNA中去除DNA结合的蛋白质。在一些实施方式中，去除包括使DNA与离液剂或蛋白酶接触。

在一些实施方式中，与DNA相比，该形成维持DNA片段的相邻性(contiguity)。在一些实施方式中，DNA在合并之后和接触之前被纯化。

在一些实施方式中，该方法进一步包括在合并期间，将液滴的内容物与包含单链部分的竞争性寡核苷酸混合，该竞争性寡核苷酸与第一寡核苷酸引物的未结合拷贝的3′末端杂交，从而防止合并后未结合的DNA片段的从头结合。

在一些实施方式中，该方法进一步包括在合并期间，将液滴的内容物与包含单链部分的竞争性寡核苷酸混合，该竞争性寡核苷酸与寡核苷酸衔接子的未结合拷贝的3′末端杂交，从而防止合并后未结合的DNA片段的从头结合。

在一些实施方式中，竞争性寡核苷酸包含不能通过聚合酶延伸的3′末端。

在一些实施方式中，接触中的聚合酶是链置换聚合酶。

在一些实施方式中，接触中的聚合酶具有5’-3’核酸外切酶活性。

在一些实施方式中，转座酶是TN5转座酶。

在一些实施方式中，转座酶与珠连接。

在一些实施方式中，该方法进一步包括对条码化的DNA序列进行测序，其中测序包括杂交测序引物并将其延伸至条码化的DNA序列。在一些实施方式中，测序引物包含一个或多个人工核苷酸，其形成比天然核苷酸中更高的亲和性碱基配对。

定义

除非另有说明，本文所用的所有科技术语具有本发明所属领域普通技术人员通常所理解的含义。通常，本文所用的命名和下述细胞培养、分子遗传学、有机化学和核酸化学以及杂交中的实验室步骤均为本领域熟知和常用的。使用标准技术进行核酸和肽合成。按照本领域和各种通用参考文献所述的常规方法进行这些技术和步骤(通常参见，Sambrook等，《分子克隆：实验室手册》(MOLECULAR CLONING：A LABORATORY MANUAL)，第2版(1989)冷泉港实验室出版社(Cold Spring Harbor Laboratory Press)，纽约冷泉港(Cold SpringHarbor，N.Y.)，其通过引用纳入本文)，全文中提供这些参考文献。本文所用的命名以及下述分析化学和有机合成中的实验室步骤均为本领域熟知且常用。

术语“扩增反应”指用于以线性或指数方式倍增核酸靶序列拷贝的各种体外方法。这类方法包括但不限于聚合酶链式反应(PCR)；DNA连接酶链反应(参见美国专利号4,683,195和4,683,202，PCR Protocols：A Guide to Methods and Applications(PCR方案：方法和应用指南)(Innis等编，1990))(LCR)；基于QBeta RNA复制酶和基于RNA转录的扩增反应(例如，涉及T7、T3或SP6引导的RNA聚合)，例如转录扩增系统(TAS)，基于核酸序列的扩增(NSABA)，和自主维持序列复制(3SR)；等温扩增反应(例如，单引物等温扩增(SPIA))；以及本领域技术人员已知的其它方法。

“扩增”指将溶液置于足以扩增多核苷酸的条件下的步骤(如果反应的所有组分是完整的)。扩增反应的组分包括，例如，引物、多核苷酸模板、聚合酶、核苷酸等。术语“扩增”通常指靶核酸的“指数型”增长。然而，本文所用的“扩增”也可指核酸的选择靶序列数量的线性增长，如由循环测序或线性扩增所得。在一个示例性实施方式中，扩增是指使用第一和第二扩增引物的PCR扩增。

术语“扩增反应混合物”指包含用于扩增靶核酸的各种试剂的水性溶液。这些试剂包括酶、水性缓冲剂、盐、扩增引物、靶核酸和三磷酸核苷。扩增反应混合物还可包含稳定剂和其它添加剂以优化效率和特异性。根据上下文，该混合物还可以是完整或不完整的扩增反应混合物。

“聚合酶链式反应”或“PCR”是指靶双链DNA的特定区段或子序列得以几何级数式扩增的一种方法。PCR是本领域技术人员所熟知的；参见例如，美国专利号4,683,195和4,683,202；和《PCR方案：方法和应用指南》，Innis等编，1990。示例性PCR反应条件一般包括两步或三步循环。两步循环具有变性步骤，之后是杂交/延伸步骤。三步循环包括变性步骤，之后是杂交步骤，之后是独立的延伸步骤。

“引物”是指与靶核酸上的序列杂交并用作基于模板的核酸合成(例如通过引物延伸或PCR)的起始点的多核苷酸序列。引物可以是各种长度的并且通常长度小于50个核苷酸，例如长度为12-30个核苷酸。可基于本领域技术人员已知的原理设计用于引物延伸或PCR的引物的长度和序列，参见例如Innis等(同上)。引物可以是DNA、RNA或DNA部分与RNA部分的嵌合体。在一些情况中，引物可包括一个或多个带修饰或非天然的核苷碱基。在一些情况中，引物被标记。

术语“衔接子”仅仅是区分混合物中不同寡核苷酸的术语。如本文所用，“衔接子”用于寡核苷酸(其在化学上是不可区分的或与其他寡核苷酸不可区分的)，所述寡核苷酸已被加载到转座酶上，或随后在DNA的转座酶片段化之后被转座酶连接至DNA末端。

核酸或其部分与另一核酸“杂交”的某些条件使得生理缓冲液(例如，pH 6-9，25-150mM盐酸盐)中限定温度下的非特异性杂交最少。在一些情况中，核酸或其部分与一组靶核酸之间共有的保守序列杂交。在一些情况中，如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16或18个连续的互补核苷酸，引物或其部分能杂交至引物结合位点。或者，如果在至少约12、14、16或18个连续的互补核苷酸中有不到1或2个互补错配，引物或其部分能杂交至引物结合位点。在一些实施方式中，发生特异性杂交的限定温度是室温。在一些实施方式中，发生特异性杂交的限定温度高于室温。在一些实施方式中，发生特异性杂交的限定温度为至少约37、40、42、45、50、55、60、65、70、75或80℃。在一些实施方式中，发生特异性杂交的限定温度为37、40、42、45、50、55、60、65、70、75或80℃。为了发生杂交，引物结合位点和杂交的引物部分将至少基本上互补。“基本上互补”是指引物结合位点具有包含至少6、8、10、15或20(例如4-30、6-30、4-50)个连续碱基区域的碱基序列，该连续碱基区域与引物序列中存在的相等长度的连续碱基区域至少50％，60％，70％，80％，90％或95％互补。“互补的”是指两条核酸链的多个连续核苷酸可供具有标准的沃森-克里克碱基配对。对于特定的参考序列，100％互补是指一条链中的每个核苷酸与第二条链中连续序列上的核苷酸互补(标准碱基配对)。

“模板”指包含待扩增的多核苷酸、其侧或为一对引物杂交位点的多核苷酸序列。因此，“靶模板”包含毗邻引物的至少一个杂交位点的靶多核苷酸序列。在一些情况中，“靶模板”包含侧接有“正向”引物和“反向”引物的杂交位点的靶多核苷酸序列。

本文所用的“核酸”表示DNA、RNA、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于，提供引入其它电荷、极化性、氢键、静电相互作用、与核酸配体碱基或核酸配体整体的连接点和作用点的化学基团的那些修饰。这类修饰包括但不限于，肽核酸(PNA)、磷酸二酯基团修饰(例如，硫代磷酸酯、甲基膦酸酯)、2′-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺处的修饰、4-硫尿核苷的取代、5-溴或5-碘-尿嘧啶的取代、骨架修饰、甲基化、不常见的碱基配对组合如异碱基(isobase)、异胞苷和异胍(isoguanidine)等。核酸也可包含非天然碱基，如硝基吲哚。修饰还可包括3′和5′修饰，包括但不限于用荧光团(例如，量子点)或其他部分加帽。

“聚合酶”是指能进行模板引导的多核苷酸(例如，DNA和/或RNA)合成的酶。该术语同时包括全长多肽和具有聚合酶活性的结构域。DNA聚合酶是本领域技术人员熟知的，包括但不限于分离或衍生自激烈火球菌(Pyrococcus furiosus)、滨海嗜热球菌(Thermococcuslitoralis)和海栖热袍菌(Thermotoga maritime)的DNA聚合酶或其修饰版本。市售可得的聚合酶的其它示例包括但不限于：克列诺(Klenow)片段(New England

公司)、Taq DNA聚合酶(凯杰公司(QIAGEN))、9°N^TM DNA聚合酶(New England

公司)、Deep Vent^TM DNA聚合酶(New England

公司)、Manta DNA聚合酶(酶学公司)、BstDNA聚合酶(New England

公司)和phi29 DNA聚合酶(New England

公司)。

聚合酶包括DNA依赖性聚合酶和RNA依赖性聚合酶，如逆转录酶。已知至少5个DNA依赖性DNA聚合酶家族，虽然大多数落入A、B和C家族。其它类型DNA聚合酶包括噬菌体聚合酶。相似地，RNA聚合酶通常包括真核RNA聚合酶I、II和III，和细菌RNA聚合酶以及噬菌体和病毒聚合酶。RNA聚合酶可以是DNA依赖性和RNA依赖性的。

本文所用术语“划分”或“经划分的”指将样品分为多个部分或多个“分区(partition)”。分区通常是实体意义上的，例如，一个分区中的样品不与或基本不与邻近分区中的样品混合。分区可以是固体或流体。在一些实施方式中，分区是固体分区，例如微通道。在一些实施方式中，分区是流体分区，例如液滴。在一些实施方式中，流体分区(如液滴)是不互溶的流体(如水和油)的混合物。在一些实施方式中，流体分区(如液滴)是水性液滴，其被不互溶的运载体流体(如油)包围。

如本文所用“条码”是鉴别其所偶联分子的短核苷酸序列(例如，长至少约4、6、8、10、12、15、20或50个核苷酸或更长)。例如，条码可用来鉴定划分产物中的分子。相对于其它分区的条码，这样的分区特异性条码应为该分区所独特。例如，包含来自单个细胞的靶RNA的分区可以经受逆转录条件，在各分区中使用包含不同分区特异性的条码序列的引物，从而将独特“细胞条码”的拷贝纳入各分区的逆转录所得核酸。由此，来自各细胞的核酸可藉由独特“细胞条码”而与其它细胞的核酸相区分。在其他实例中，可以使用在每个分区中包含不同分区特异性条码序列的引物使含有CPT-DNA的分区经历PCR条件，从而将独特的CPT-DNA条码的拷贝掺入每个分区的PCR扩增子中。底物可以是细胞RNA，细胞DNA和/或长连续DNA分子。一些情况中，底物条码是由偶联至颗粒的寡核苷酸上存在的“颗粒条码”(也称为“珠特异性条码”)来提供，其中所述颗粒条码为偶联至该颗粒的全部或基本全部寡核苷酸所共有(例如，在它们之间相同或基本相同)。因此，底物和颗粒条码可存在于分区中、附着于颗粒或结合细胞核酸，以同一条码序列的多个拷贝。可以将具有相同序列的底物或颗粒条码识别为源自相同的底物(例如已被切割但保持相邻性的长DNA分子)，细胞，分区或颗粒。

其它情况中，条码专一性鉴别其偶联的分子。例如，通过使用各自含有独特“分子条码”的引物进行逆转录。同样在另一些实施例中，可以利用包含针对各分区独特的“分区特异性条码”、以及针对各分子独特的“分子条码”的引物。条码化之后，可以合并分区，并任选地扩增，而保持虚拟分区。因此，例如，可计算包括各条码的靶核酸(例如，逆转录所得的核酸)的存在与否(例如，通过测序)，而无需维持实体分区。

条码序列的长度决定了可以对多少独特的样品进行区分。例如，1个核苷酸条码可以对不多于4个样品或分子进行分区；4个核苷酸条码可以对不多于4⁴(即256)个样品进行分区；6个核苷酸条码可以对不多于4096个不同样品进行分区；而8个核苷酸的条码可以标引不多于65,536个不同样品。另外，条码可以例如通过连接或在转座酶反应中附连。

通常使用固有不精确的过程来合成和/或聚合(例如，扩增)条码。因此，旨在均一的条码(例如，单个分区、细胞或珠的全部条码化核酸所共有的细胞、底物、颗粒或分区特异性条码)可以相对于范本条码序列包含不同的N-1缺失或其它突变。因此，被称作“相同的”或“基本相同的”拷贝的条码是指由于例如合成、聚合或纯化错误中一个或多个错误而导致条码相对范本条码序列含有不同的N-1缺失或其它突变的不同的条码。此外，在使用例如拆分与汇集方法和/或核苷酸前体分子等同混合物的合成过程中，条码核苷酸的随机偶联可能导致低概率事件，其中条码并非绝对独特(例如，不同于群体的其它条码，或不同于不同分区、细胞或珠的条码)。但是，这类偏离理论上理想的条码的轻微偏差不会干扰本文所述的高通量测序分析方法、组合物和试剂盒。因此，如本文所用，术语“独特”在涉及颗粒、底物、细胞、分区特异性或分子条码的内容中涵盖偏离理想条码序列的各种非有意的N-1缺失和突变。一些情况中，由于条码合成、聚合和/或扩增所致的不精确性质造成的问题通过对与待区分的条码序列的数量相比进行可能的条码序列的过量采样(oversampling)来克服(例如，至少约2、5、10倍或更多倍的可能的条码序列)。例如，可用具有9个条码核苷酸的细胞条码(代表262,144个可能的条码序列)来分析10,000个细胞。本领域熟知条码技术的使用，参见例如Katsuyuki Shiroguchi等人Proc Natl Acad Sci U S A.，2012年1月24日109(4)：1347-52和Smith，AM等人的Nucleic Acids Research Can 11，(2010)。使用条码技术的其他方法和组合物包括U.S.2016/0060621中描述的那些。

“转座酶”或“标签酶”(在本文中同义使用)是指这样的酶，所述酶能够与含转座子末端的组合物形成功能性复合物并催化含转座子末端的组合物插入或转移到与该组合物在体外转座反应中孵育的双链靶DNA中。示例性的转座酶包括但不限于相较于野生型TN5过分活跃的修饰的TN5转座酶，例如，可以具有选自E54K、M56A或L372P或如背景技术部分中所述的一个或多个突变。

“合并液滴的内容物”是指形成多个液滴的内容物的连续混合物的任何方式。例如，当乳液中存在液滴时，乳液破裂(从而在乳液中混合液滴的内容物)通过添加试剂或通过施加物理力来实现。例如，可以添加表面活性剂(例如，全氟辛醇)和/或加热。力的选择包括重力和/或离心。

附图说明

图1描绘了用于本文所述方法的示例性寡核苷酸。Tn5转座酶衔接子包含3′突出端，并且衔接子的所有链都被5′磷酸化。对于凝胶珠引物，珠条码可以变化并且可以包含固定和可变序列的组合。凝胶珠寡核苷酸竞争物不可从3′末端延伸。这可以通过使用如图所示的反向dT或通过使用任何已知的不可延伸的碱基来实现。图1按出现的顺序分别公开了SEQ ID NO：5-6、5、7、3和8-10。

图2a-b描绘了带大量延伸连接反应的3’突出端转座酶衔接子杂交。在该图的顶部示出了在该实施方式中使用的两种类型的Tn5转座酶复合物。第一步涉及将Tn5复合物与不含核小体或不含阻止Tn5结合的蛋白质的DNA反应。第二步涉及DNA的标签化，包括双链底物的片段化，然后将两个镶嵌末端链之一与目标DNA连接。然后将结合了Tn5的DNA包封在液滴中，并任选剥离Tn5。在先前步骤中已与转座的DNA包封在一起的寡核苷酸珠，例如在液滴形成时，使用引入液滴的试剂将其寡核苷酸从珠释放出来。珠寡核苷酸的3′末端与转座的DNA以及反向PCR引物杂交。破乳，并任选将竞争性不可延伸的寡核苷酸加入溶液中，以防止未结合的寡核苷酸从头结合到未被占据的Tn5衔接子上。使用硫氰酸胍和/或其他蛋白质变性剂从包括核小体的细胞物质中纯化DNA。然后将DNA的3′末端延伸，并在5′和3′序列彼此并列的切口(nick)处连接链。

图3描绘了3′突出端转座酶衔接子杂交，其中使用大量链置换聚合酶的延伸反应进行。发生与图2所示相同的过程，除了使用链置换聚合酶来大量生成DNA的互补末端。

图4描绘了3’突出端转座酶衔接子杂交，仅使用具有5′至3’核酸外切酶活性的聚合酶进行大量延伸反应。发生与图2所示相同的过程，除了使用具有5′至3′核酸外切酶活性的DNA聚合酶来大量生成DNA的互补末端。

图5描绘了用于本文所述方法的示例性寡核苷酸。Tn5衔接子包含3′突出端，其包含完整的P7序列，Tn5 A14和镶嵌末端(ME)序列。衔接子的所有链都被5′磷酸化。对于凝胶珠引物，珠条码可以变化并且可以包含固定和可变序列的组合。凝胶珠寡核苷酸竞争物不可从3′末端延伸。这可以通过使用如图所示的反向dT或通过使用不可延伸的碱基来实现。显示了P7和P5移接(grafting)序列以及LNA测序引物的示例。图5按出现的顺序分别公开了SEQ ID NO：5、11、3、8、12、4和13。

图6a-c描绘了本文所述的示例性方法，其中衔接子寡核苷酸包括具有3′部分和5′部分的单链部分。单链部分的5′部分与第一寡核苷酸引物的3′末端杂交，而单链部分的3′部分与第一寡核苷酸引物不互补，因此不杂交，从而产生“Y”型杂交。图6c描绘了使用具有一个或多个连接的核酸(LNA)核苷酸的测序引物进行的对于所得DNA片段的可能的测序反应。

发明详述

导言

本文所述的方法和试剂供于使用分区(例如液滴)技术对DNA(例如纯化的DNA或核小体)进行条码化和分析，同时避免在液滴中进行扩增或其他酶促反应(例如连接，DNA延伸，核酸外切酶处理)。例如，在液滴的内容物已经合并之后，扩增可以大量发生。发明人已经确定了如何获得分区技术的好处，从而允许在进行大量扩增(例如PCR)和其他步骤的同时进行DNA的分区特异性条码化，从而避免了例如在被转座酶片段化的DNA样品上进行PCR时可能出现的性能问题。

避免液滴中PCR和任选其他酶促步骤的优点是，可以在液滴中使用一些试剂，这些试剂在其他情况下由于酶对它们的敏感性而被避免使用。例如，可以在液滴中使用离液剂(例如，硫氰酸胍)或蛋白酶。这允许改善的反应，并且在一些实施方式中，可以提高灵敏度。

转座酶反应

所述方法包括通过转座酶随机片段化DNA的步骤以及在由片段化产生的末端上引入寡核苷酸衔接子的步骤。转座酶载有两个寡核苷酸衔接子。在一些实施方式中，加载到转座酶上的寡核苷酸衔接子包含3′单链部分(即3′突出端)和双链部分，第一寡核苷酸具有3′末端和5′末端并且是双链部分的一条链并且第二寡核苷酸包含单链部分和双链部分的互补链。示例性的单链部分的长度可以是例如6-30、10-20或12-18个核苷酸。在一些实施方式中，转座酶载有异型衔接子(heteroadapter)，其中寡核苷酸衔接子之一的单链部分是GACGCTGCCGACGA(A14；SEQ ID NO：1)，而寡核苷酸衔接子之一的单链部分是CCGAGCCCACGAGAC(B15；SEQ ID NO：2)。示例性的寡核苷酸衔接子显示在图1的顶行中。在一些实施方式中，转座酶载有具有相同的双链部分和不同的3’单链部分的两个不同的衔接子寡核苷酸。在这些实施方式中，较短的链(形成双链区的一条链)在两个衔接子中是相同的，并且正是该链转移到DNA末端。参见例如图1和2a。但是，转移链的互补链(具有单链和双链部分的链)不同于第二转移链的互补链。图1的第一行中的两个替代物是寡核苷酸衔接子的示例性组，其形成要加载到转座酶上的异型衔接子(heteroadaptor)。在一些实施方式中，衔接子寡核苷酸的一条或两条链在5′末端被磷酸化，从而允许在以后的连接中使用。因此，使靶多核苷酸(例如，基因组DNA或双链cDNA)与加载有同型衔接子(homoadapter)的转座酶接触将单种转移链共价连接至由转座酶产生的片段的5′末端。在一些实施方式中，载有同型衔接子的转座酶用于不含有加载不同的转座酶(例如，不含有载有不同同型衔接子的转座酶和不含载有异型衔接子的标签酶)的反应混合物中。在这种反应混合物中，转移的链对于标签化反应的每种产物是相同的。

载有衔接子的转座酶进一步描述于例如美国专利公开号：2010/0120098；2012/0301925；和2015/0291942以及美国专利号：5,965,443；美国专利6,437,109；7083980；9005935；和9,238,671，其中各自内容通过引用全文并入本文用于所有目的。寡核苷酸可例如通过首先混合寡核苷酸衔接子的两条链，从而使它们成为双链，然后使双链衔接子寡核苷酸与转座酶接触而被加载到转座酶上。参见例如，美国专利号6,294,385。

在一些实施方式中，第二(衔接子)寡核苷酸的单链部分包含5′核苷酸序列和3′核苷酸序列(注意3′核苷酸序列不在寡核苷酸的3′末端，而是单链部分的3′部分)。在一些实施方式中，5′核苷酸序列与第一寡核苷酸引物的游离3′末端互补，并且第二(衔接子)寡核苷酸的单链部分的3′核苷酸序列与第一寡核苷酸引物的互补性小于50％(例如，小于40％，30％，20％，10％)。这例如在图6a-b中示出。例如在图6b的部分4中，衔接子的单链部分的5′部分与第一寡核苷酸引物的3′末端杂交，但是衔接子的单链区域的3′部分不与第一寡核苷酸引物杂交(在图6b中描述为与“珠条码”对角的部分)。这种配置改进了用于测序的文库转换，因此允许更多片段可用于测序。

在一些实施方式中，转座酶与珠连接。所述连接可以是共价的或非共价的(例如，通过生物素-链霉亲和素或其他连接)。在这些实施方式中，与转座酶连接的珠与以下所述与第一寡核苷酸引物连接的珠不同。与转座酶连接的珠可以是磁性的或非磁性的。为此目的的示例性珠包括但不限于Dynabeads^TM M-280链霉亲和素(赛默飞世尔(ThermoFisher))。

转座酶片段化的双链DNA可以根据需要来自任何来源。例如，这些方法可以使用任何基因组DNA。在一些实施方式中，DNA来自单细胞或来自生物体的单一类型的细胞。在一些实施方式中，基因组DNA来自真核生物，例如，来自哺乳动物，例如，人。在一些实施方式中，DNA来自植物或真菌。在一些实施方式中，如所需对起始DNA进行纯化并直接用于方法中。或者，DNA可以经处理以生成所需平均大小的DNA，例如，使用尺寸选择柱或凝胶纯化。

生物样品可获自任何生物体，例如动物、植物、真菌、病原体(例如细菌或病毒)或任何其他生物体。在一些实施方式中，该生物样品来自动物，例如哺乳动物(例如人或非人灵长类动物、奶牛、马、猪、绵羊、猫、狗、小鼠或大鼠)、鸟(例如鸡)、或鱼。生物样品可以是获自生物体的任何组织或体液，例如血液，血液成分或血液产品(如血清、血浆、血小板、血红细胞等)，痰液或唾液，组织(如肾、肺、肝、心、脑、神经组织、甲状腺、眼、骨骼肌、软骨或骨组织)；培养的细胞，例如原代培养物，外植体，和转化的细胞，干细胞，粪便，尿液等。在一些实施方式中，样品是包含细胞的样品。在一些实施方式中，样品是单细胞样品。在一些实施方式中，来自细胞(例如，在某些方面包括癌细胞)的DNA可以以无细胞DNA的形式滴入血液中。因此，在一些实施方式中，样品是这种无细胞(例如，包括但不限于来自无细胞DNA的核小体)样品中的DNA。

在一些实施方式中，将转座酶应用于具有染色质的DNA(例如，形成核小体的组蛋白和/或包含形成染色质的其他DNA辅助因子)。在这些实施方式中，由于核小体的存在，转座酶将不能同等地触及所有DNA。这些方法有时被称为“ATAC-seq”(参见，例如，美国专利公开号20160060691；Buenrostro等，(2015)Curr Protoc Mol Biol.109：21.29.1-21.29.9)，并且可以用于，例如，确定染色质在不同条件下的变化。

在其他实施方式中，DNA基本上不含蛋白质。例如，DNA样品已用苯酚提取以去除DNA结合蛋白。

在一些实施方式中，DNA包含在其天然细胞内。例如，天然细胞可以被固定和透化，使得转座酶可以进入细胞核并在染色质结构允许的情况下切割DNA。这可以被认为是染色质的转座酶可及性的一种测定方法。因此，在一些实施方式中，DNA为染色质形式。在一些实施方式中，DNA是保留相邻性的标签化的多核苷酸(例如DNA)序列。在相邻性保留的转座或标签化(tagmentation)中，转座酶(例如，Tn5转座酶)被用于修饰具有衔接子序列的DNA，同时维持DNA区段的相邻关系。制备相邻性保留的标签化的多核苷序列的条件是本领域已知的。参见例如，Amini等，Nature Genetics，2014，46：1343-1349；WO 2016/061517；和美国临时专利申请号62/436,288；各自通过引用纳入本文。

一旦已用转座酶处理了DNA样品，就可以将DNA形成于多个单独的分区(例如液滴)中。在本文描述的方法中可以使用任何类型的分区。虽然已经使用液滴例示了该方法，但是应该理解也可以使用其他类型的分区。

用于进行划分分区的方法和组合物描述于例如公开的专利申请WO 2010/036,352，US 2010/0173,394，US 2011/0092,373和US 2011/0092,376中，其全部内容通过引用并入本文。多个分区可以是多个乳液液滴，或多个微孔等。

在一些实施方式中，在液滴形成期间添加一种或多种试剂，或在液滴形成之后将一种或多种试剂添加到液滴中。用于将试剂递送至一个或多个分区的方法和组合物包括本领域已知的微流体方法；液滴或微胶囊合并，聚结，融合，破裂或降解(例如，如U.S.2015/0027,892；US 2014/0227,684；WO 2012/149,042；和WO 2014/028,537中所述)；液滴注入方法(例如，如WO2010/151,776中所述)；及其组合。

如本文所述，分区可以是皮米孔、纳米孔或微孔。分区可以是皮米，纳米或微米反应室，例如皮米，纳米或微米胶囊。分区可以是皮米，纳米或微米通道。分区可以是液滴，例如乳液液滴。

在一些实施方式中，分区是液滴。在一些实施方式中，液滴包含乳液组合物，即不互溶的流体(如水和油)的混合物。在一些实施方式中，液滴是水性液滴，其被不互溶的运载体流体(如油)包围。在一些实施方式中，液滴是油性液滴，其被不互溶的运载体流体(如水性溶液)包围。在一些实施方式中，本文所述液滴是相对稳定的并在两个或更多个液滴之间具有最小聚结。在一些实施方式中，由样品生成的液滴中少于0.0001％、0.0005％、0.001％、0.005％、0.01％、0.05％、0.1％、0.5％、1％、2％、3％、4％、5％、6％、7％、8％、9％或10％与其他液滴聚结。这些乳液还可具有有限的絮凝，一种分散相以薄片中悬浮液产生的过程。在一些情况下，这种稳定性或最小聚结可保持长达4、6、8、10、12、24或48小时或更长时间(例如，在室温下，或在约0、2、4、6、8、10或12℃下)。在一些实施方式中，使油相流过水相或试剂，从而形成液滴。

该油相可包含氟化基础油，其可通过与氟化表面活性剂(如全氟聚醚)联用而进一步稳定。在一些实施方式中，该基础油包括以下一种或多种：HFE 7500、FC-40、FC-43、FC-70或其他常见氟化油。在一些实施方式中，该油相包含阴离子含氟表面活性剂。在一些实施方式中，该阴离子含氟表面活性剂是Ammonium Krytox(Krytox-AS)、Krytox FSH的铵盐或Krytox FSH的吗啉代衍生物。Krytox-AS的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox-AS的浓度是约1.8％。在一些实施方式中，Krytox-AS的浓度是约1.62％。KrytoxFSH的吗啉代衍生物的浓度可以是约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、2.0％、3.0％或4.0％(w/w)。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.8％。在一些实施方式中，Krytox FSH的吗啉代衍生物的浓度是约1.62％。

在一些实施方式中，该油相还包含用于调节油性质(如蒸气压、粘度或表面张力)的添加剂。非限制性示例包括全氟辛醇和1H，1H，2H，2H-全氟癸醇。在一些实施方式中，1H，1H，2H，2H-全氟癸醇添加至约0.05％、0.06％、0.07％、0.08％、0.09％、0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％、0.9％、1.0％、1.25％、1.50％、1.75％、2.0％、2.25％、2.5％、2.75％或3.0％(w/w)的浓度。在一些实施方式中，1H，1H，2H，2H-全氟癸醇添加至约0.18％(w/w)的浓度。

在一些实施方式中，该乳液配制为生成具有类液界面膜的高度单分散液滴，其可通过加热转化为具有类固界面膜的微胶囊；这类微胶囊可作为生物反应器以通过一段时间的孵育保持其内容物。转化为微胶囊可在一经加热后即发生。例如，这类转化可发生在大于约40°、50°、60°、70°、80°、90°或95℃的温度下。加热过程期间，流体或矿物油覆盖物可用于阻止蒸发。过量的连续相油可在加热前去除或留在原位。这些微胶囊可在大范围的热和机械处理下抗聚结和/或絮凝。

在将液滴转化成微胶囊之后，这些微胶囊可储存于约-70℃、-20℃、0℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、15℃、20℃、25℃、30℃、35℃或40℃下。在一些实施方式中，这些微胶囊可用于储存或运输分区混合物。例如，可在一个位置处收集样品，划分到含有酶、缓冲剂和/或引物或其它探针的液滴中，任选地可进行一个或多个聚合反应，然后可加热该分区以进行微囊化，并且可储存或运输微胶囊用于进一步分析。

在一些实施例中，将样品划分为至少500个分区，1000个分区，2000个分区，3000个分区，4000个分区，5000个分区，6000个分区，7000个分区，8000个分区，10,000个分区，15,000个分区，20,000个分区，30,000个分区，40,000个分区，50,000个分区，60,000个分区，70,000个分区，80,000个分区，90,000个分区，100,000个分区，200,000个分区，300,000个分区，400,000个分区，500,000个分区，600,000个分区，700,000个分区，800,000个分区，900,000个分区，1,000,000个分区，2,000,000个分区，3,000,000个分区，4,000,000个分区，5,000,000个分区，10,000,000个分区，20,000,000个分区，30,000,000个分区，40,000,000个分区，50,000,000个分区，60,000,000个分区，70,000,000个分区，80,000,000个分区，90,000,000个分区，100,000,000个分区，150,000,000个分区或200,000,000个分区。

在一些实施方式中，生成的液滴在形状和/或尺寸方面基本均匀。例如，在一些实施方式中，这些液滴在平均直径方面基本均匀。在一些实施方式中，生成的液滴的平均直径为约0.001微米、约0.005微米、约0.01微米、约0.05微米、约0.1微米、约0.5微米、约1微米、约5微米、约10微米、约20微米、约30微米、约40微米、约50微米、约60微米、约70微米、约80微米、约90微米、约100微米、约150微米、约200微米、约300微米、约400微米、约500微米、约600微米、约700微米、约800微米、约900微米或约1000微米。在一些实施方式中，生成的液滴的平均直径为小于约1000微米、小于约900微米、小于约800微米、小于约700微米、小于约600微米、小于约500微米、小于约400微米、小于约300微米、小于约200微米、小于约100微米、小于约50微米，或小于约25微米。在一些实施方式中，生成的液滴在形状和/或尺寸方面是不均匀的。

在一些实施方式中，生成的液滴在体积上基本均匀。例如，液滴体积的标准偏差可以低于约1皮升、5皮升、10皮升、100皮升、1nL或低于约10nL。在一些情况中，液滴体积的标准偏差可低于平均液滴体积的约10-25％。在一些实施方式中，生成的液滴的平均体积为约0.001nL、约0.005nL、约0.01nL、约0.02nL、约0.03nL、约0.04nL、约0.05nL、约0.06nL、约0.07nL、约0.08nL、约0.09nL、约0.1nL、约0.2nL、约0.3nL、约0.4nL、约0.5nL、约0.6nL、约0.7nL、约0.8nL、约0.9nL、约1nL、约1.5nL、约2nL、约2.5nL、约3nL、约3.5nL、约4nL、约4.5nL、约5nL、约5.5nL、约6nL、约6.5nL、约7nL、约7.5nL、约8nL、约8.5nL、约9nL、约9.5nL、约10nL、约11nL、约12nL、约13nL、约14nL、约15nL、约16nL、约17nL、约18nL、约19nL、约20nL、约25nL、约30nL、约35nL、约40nL、约45nL或约50nL。

在一些实施方式中，液滴的形成导致包含预先用转座酶和连接至珠的第一寡核苷酸引物处理过的DNA的液滴。术语“珠”指可以存在于分区中的任何固体支持物，例如，小颗粒或其他固体支持物。示例性的珠可包括水凝胶珠。一些情况中，水凝胶是溶胶(sol)形式。一些情况中，水凝胶是凝胶(gel)形式。示例性水凝胶是琼脂糖水凝胶。其它水凝胶包括但不限于例如下列文件中所述：美国专利号4,438,258、6,534,083、8,008,476、8,329,763；美国专利申请号2002/0,009,591、2013/0,022,569、2013/0,034,592；以及国际专利申请号WO/1997/030092和WO/2001/049240。

将寡核苷酸与珠连接的方法述于例如WO 2015/200541中。在一些实施方式中，设置成连接水凝胶和条码的所述寡核苷酸共价连接至水凝胶。本领域已知用于共价连接寡核苷酸与一种或多种水凝胶基质的许多方法。仅举一例，醛衍生化琼脂糖可共价连接至合成寡核苷酸的5’-胺基团。

如上所述，分区将包含每个分区一个或若干个(例如，1、2、3、4)珠，其中各珠与具有游离3′末端的第一寡核苷酸引物连接。第一寡核苷酸引物将具有珠特异性条码和与衔接子互补的3′末端。在一些实施方式中，条码的长度将是例如2-10个核苷酸，例如2、3、4、5、6、7、8、9或10个核苷酸。条码可以是连续的或不连续的，即被其他核苷酸打断。在一些实施方式中，3′末端将与整个衔接子序列至少50％互补(例如，至少60％，70％，80％，90％或100％)互补(使得它们杂交)。在一些实施方式中，寡核苷酸的至少最3′处的6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个与衔接子中的序列至少50％互补(例如至少60％，70％，80％，90％或100％)互补。在一些实施方式中，衔接子序列包含GACGCTGCCGACGA(A14；SEQ ID NO：1)或CCGAGCCCACGAGAC(B15；SEQ IDNO：2)。在一些实施方式中，第一寡核苷酸引物进一步包含通用序列或其他附加序列，以辅助下游操作或扩增子测序。例如，当使用基于Illumina的测序时，第一寡核苷酸引物可以具有5’P5或P7序列(任选地具有第二寡核苷酸引物，所述第二寡核苷酸引物具有两个序列中的另一个)。任选地，第一寡核苷酸引物包含限制或切割位点，以在需要时从珠移下第一寡核苷酸引物。在一些情况下，第一寡核苷酸引物通过二硫键(例如，通过固相支持物的硫化物和共价附接于寡核苷酸的5′或3′末端，或插入核酸的硫化物之间的二硫键)连接至固相支持物(例如珠)。这类情况中，可通过使固体支持物接触还原剂来切下所述寡核苷酸，所述还原剂例如硫醇或膦试剂，包括但不限于β-巯基乙醇、二硫苏糖醇(DTT)或三(2-羧基乙基)膦(TCEP)。在一些实施方式中，一旦DNA区段与珠连接的第一寡核苷酸引物在分区中，但在杂交之前，第一寡核苷酸引物在扩增前被从珠切去。如果多于一个的珠(以及因此珠特异性条码经由第一寡核苷酸引物)被引入液滴中，则可以使用反卷积来将序列数据从特定珠定向到该珠。用于使一起存在于单个分区内的珠解卷积的一种方法是提供具有底物的分区，所述底物包括用于针对特定分区中的珠生成独特的序列组合的条码序列，从而使得在它们的序列分析(例如，通过下一代测序)后虚拟连接珠。参见，例如，PCT申请WO2017/120531。

如上所述，在一些实施方式中，分区进一步包括与第一寡核苷酸引物结合用作反向引物的第二寡核苷酸引物。参见例如图1和2b。第二寡核苷酸引物的3′末端与连接至DNA片段的寡核苷酸衔接子的3′单链部分至少50％互补(例如，至少60％，70％，80％，90％或100％)互补。参见例如图2b。在一些实施方式中，第二寡核苷酸引物的3’末端将与整个衔接子序列互补。在一些实施方式中，第二寡核苷酸引物的最3′的6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个与衔接子中的序列互补。在一些实施方式中，第二寡核苷酸引物包含条码序列，其例如可以具有与以上针对第一寡核苷酸引物的条码列出的长度相同的长度。在一些实施方式中，条码包括索引条码，例如样品条码，例如Illumina i7或i5序列。

分区中DNA的数量和类型可以根据需要变化。例如，在一些实施方式中，来自样品的特定分区中的所有DNA均来自单个细胞或细胞核。在一些实施方式中，液滴中的DNA不超过0.02％的单倍体基因组。在一些实施方式中，所述分区包含60兆碱基或更少的DNA。当每个分区包含较少的DNA时，需要更多的分区才能实现相同的数据分辨率。在一些实施方式中，分区平均具有1kb-10兆碱基的DNA。

在一些实施方式中，在需要有关单倍体基因组的信息的情况下，维持液滴中的DNA，使得维持由转座酶产生的片段之间的相邻性。例如，这可以通过选择条件来实现，以使得转座酶不从DNA释放出来，从而形成连接与基因组DNA中情况具有相同关系(单倍型)的DNA片段的桥接物。例如，已经观察到转座酶保持与DNA结合，直到向反应中加入去污剂如SDS(Amini等Nature Genetics 46(12)：1343-1349)。

任选地，在一些实施方式中，在液滴形成后，即在分区/液滴内，将转座酶从DNA上剥离。在液滴中不发生酶促反应的实施方式中，可以在液滴中使用更严苛的试剂。这可以改善使用试剂的反应，并且可以在随后发生的大量酶促反应之前除去此类试剂。例如，DNA/转座酶复合物可以与从DNA上去除转座酶的试剂合并。在一些实施方式中，该试剂是去污剂，例如离子或非离子去污剂。示例性的去污剂是十二烷基硫酸钠(SDS)。在一些实施方式中，0.1和0.2％SDS的浓度足以除去标签酶，但又足够低以不干扰扩增。在一些实施方式中，例如通过蛋白酶消化(例如蛋白酶K消化)来消化转座酶。在一些实施方式中，通过与离液剂例如硫氰酸胍接触，从DNA上剥离转座酶。在一些实施方式中(例如，其中使用液滴)，该试剂与液滴形成相容。

在一些实施方式中，以上形成的分区(例如，液滴)可以进一步包含第二寡核苷酸引物。参见例如图2b。在一些实施方式中，第二寡核苷酸引物不与珠或其他固体支持物连接。在一些实施方式中，第二寡核苷酸引物用作与第一寡核苷酸引物的一对扩增引物的第二部分。在一些实施方式中，例如，第二寡核苷酸引物充当反向引物。例如，第二寡核苷酸引物可以具有与寡核苷酸衔接子的单链部分之一互补的3′末端，其中第一寡核苷酸引物3′末端和第二寡核苷酸引物3′末端与不同的寡核苷酸衔接子的单链部分互补。在一些实施方式中，第二寡核苷酸引物将包含5′PCR柄序列(例如，P5或P7序列(任选地第一寡核苷酸引物具有两个序列中的另一个))。PCR柄的长度可以是例如2-40个核苷酸，例如10-30个核苷酸。

因此，在一些实施方式中，分区包括片段化的和经转座酶处理的DNA，以及第一寡核苷酸引物和第二寡核苷酸引物，这两个引物充当在两端具有不同衔接子的片段的正向和反向引物。参见例如图2b。由于第一寡核苷酸将包括基于珠的(或分区)特异性条码，并且不同的分区通常将具有一个或很少的第一寡核苷酸引物珠，每个寡核苷酸引物珠具有独特的珠特异性条码，因此每个分区(例如液滴)都可以随后用于用分区(例如，珠)特异性条码对DNA片段进行条码化。在其中保留相邻性的实施方式中，例如，单倍体基因组将因此包括相同的珠特异性条码。因此，在DNA处于染色质中且包含在细胞核内的实施方式中，细胞的ATAC DNA(转座酶可及的染色质形式的DNA)也将包含相同的珠特异性条码。

因此，在形成包含至少一个寡核苷酸引物的分区，以及在一些实施方式中，包含第一和第二寡核苷酸引物的分区之后，这些引物在DNA片段末端与衔接子序列杂交。可以根据需要选择杂交条件，以允许引物与衔接子的特异性杂交。

杂交发生后，但在酶促反应之前，各种(例如数百，数千或更多)分区的内容物可以合并。可以使用任何合并液滴的方法。合并液滴的示例性方法可以在以下中找到，例如，Priest等，(2006)Appl.Phys.Lett.，89：134101：1-134101：3；Ahn等，(2006)Appl.Phys.Lett.，88：264105；Fidalgo等，(2007)Lab Chip，7(8)：984-986；Tan等，(2004)Lab Chip，4(4)：292-298。

在一些实施方式中，组蛋白，非DNA核小体因子和/或染色质可以在液滴中去除。例如，一旦形成液滴，就可以使所形成的混合物与试剂接触以除去这些物质。在一些实施方式中，通过将两种水性流(例如，与不混溶的液体组合)，其中源自用于产生液滴的水性流之一的试剂与另一种含有DNA底物的流合并而形成液滴。从DNA上除去这些物质的试剂可以包括，例如，蛋白酶消化，例如蛋白酶K消化，或与离液剂，例如，硫氰酸胍接触。这可以帮助最大化从珠释放的与第一寡核苷酸引物的结合位点的数量。

任选地，一旦液滴合并，可以使所得的大份混合物与试剂接触以除去组蛋白。示例性试剂是例如硫氰酸胍。

任选地，在合并之前，期间或之后，可以将竞争性寡核苷酸引入混合物中以与未结合的试剂拷贝杂交，从而减少条码对多个液滴的错误分配。例如，在一些实施方式中，可以以足够的浓度引入竞争性寡核苷酸，使得其或其单链部分与第一寡核苷酸引物的未结合拷贝的3′末端杂交，从而防止未结合DNA片段在合并后从头结合。在一些实施方式中，可以以足够的浓度引入竞争性寡核苷酸，使得其或其单链部分与寡核苷酸衔接子的未结合拷贝的3′末端杂交，从而防止未结合DNA片段在合并后从头结合。竞争性寡核苷酸的长度可以是例如至少10个核苷酸，并且在一些实施方式中不长于第一寡核苷酸引物的引物结合部分。在一些实施方式中，竞争性寡核苷酸包含A14GACGCTGCCGACGA(SEQ ID NO：1)或B15CCGAGCCCACGAGAC(SEQ ID NO：2)的反向互补物，或使用不同的竞争性寡核苷酸，其各自具有这些序列中单独的一个。在一些实施方式中，竞争性寡核苷酸的浓度比第一寡核苷酸引物的最终浓度高至少2倍。在一些实施方式中，竞争性寡核苷酸浓度在200nM和10μM之间。

一旦将液滴的内容物合并，则将DNA与一种或多种酶接触以操纵DNA。为了检查，在一些实施方式中，可使与本文所述的寡核苷酸引物杂交的DNA片段与连接酶，聚合酶或两者接触，从而将第一寡核苷酸引物的3′末端连接至处于DNA片段的末端的寡核苷酸衔接子的5′末端。

在一些实施方式中，杂交后，可以将第一寡核苷酸引物的3′末端(和如果存在的话，第二寡核苷酸引物的3′末端)连接至DNA片段上的衔接子。任选地，与连接结合(之前，之后或同时)，聚合酶可填充5′突出端(“缺口填充”)，以通过延伸3′末端形成双链序列。参见例如图2b。缺口填充后，可以进行其他连接。在一些实施方式中，聚合酶可以具有链置换活性(参见图3)或具有5′至3′外切活性(参见图4)。

如果需要，可以例如使用与第一和第二寡核苷酸引物上的PCR柄序列杂交的正向和反向引物扩增所得的DNA产物。可以使用任何类型的扩增，包括但不限于PCR。

在互补序列出现在扩增子的任一末端的实施方式中，当使DNA呈单链时，互补序列可能会形成发夹。为避免形成发夹，可以使用包含一个或多个人工核苷酸的测序引物，所述人工核苷酸形成比天然核苷酸更高的亲和性碱基配对(例如，更高的Tm)，从而与发夹相比有利于测序引物的杂交。示例性的人工核苷酸可以包括但不限于锁核酸(LNA^TM)。

可以使用所需的的任何核苷酸测序方法，只要能确定至少一些DNA区段序列和条码序列。高通量测序和基因分型的方法是本领域已知的。例如，此类测序技术包括但不限于：焦磷酸测序、连接法测序、单分子测序、合成法测序(SBS)、大量同步克隆法、大量同步单分子SBS、大量同步单分子实时法，大量同步单分子纳米孔技术等。Morozova和Marra提供对一些此类技术的综述，见Genomics，92：255(2008)，该文在此通过引用全文纳入本文。

示例性的DNA测序技术包括基于荧光的测序技术(参见如Birren等，GenomeAnalysis：Analyzing DNA，1(基因组分析：DNA分析，第1卷)，纽约冷泉港，该文在此通过引用全文纳入本文)。在一些实施方式中，使用本领域已理解的自动化测序技术。在一些实施方式中，本技术提供经划分的扩增子的同步测序(PCT申请号WO 2006/0841,32，该文在此通过引用全文纳入本文)。在一些实施方式中，DNA测序的实现是通过同步寡核苷酸延伸(参见如美国专利号5,750,341和6,306,597，两者在此通过引用全文纳入本文)。测序技术的补充示例包括：Church多克隆技术(Mitra等，2003，Analytical Biochemistry 320，55-65；Shendure等，2005 Science 309，1728-1732；和美国专利号6,432,360，6,485,944，6,511,803；在此通过引用全文纳入本文)，454皮升焦磷酸测序技术(picotiter pyrosequencingtechnology，Margulies等，2005 Nature 437，376-380；美国公布号2005/0130173；在此通过引用全文纳入本文)，Solexa单碱基添加技术(Bennett等，2005，Pharmacogenomics，6，373-382；美国专利号6,787,308和6,833,246；在此通过引用全文纳入本文)，Lynx大量同步极好测序技术(Brenner等，(2000).Nat.Biotechnol.18：630-634；美国专利号5,695,934，5,714,330；在此通过引用全文纳入本文)和Adessi PCR克隆技术(Adessi等(2000).Nucleic Acid Res.28，E87；WO 2000/018957；在此通过引用全文纳入本文)。

通常，高通量测序都具有大量同步这一共同特征，高通量策略的目的是使成本比较早的测序方法低(参见如Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol.，7：287-296；两者在此都通过引用全文纳入本文)。此类方法可大致分成通常用和不用模板扩增两大类。需要扩增的方法包括罗氏公司以454技术平台商业化的焦磷酸测序(例如，GS 20和GS FLX)，Illumina销售的Solexa平台，和应用生物系统公司(Applied Biosystems)销售的支持态寡核苷酸连接和检测(SupportedOligonucleotide Ligation and Detection，SOLiD)平台。非扩增方法也称为单分子测序，其示例有螺旋生物科学公司(Helicos BioSciences)销售的HeliScope平台，VisiGen公司、牛津纳米孔技术公司(Oxford Nanopore Technologies)、生命技术公司(LifeTechnologies)/离子流(Ion Torrent)和太平洋生物科学公司销售的平台。

焦磷酸测序(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号6,210,891和6,258,568；其各自通过引用全文纳入本文)中，模板DNA被片段化、末端修复、连接衔接子、并用珠捕获单模板分子来进行原位克隆性扩增，珠上载有与衔接子互补的寡核苷酸。载有单模板类型的各珠被分入油包水微泡中，模板被克隆性扩增，所用技术被称作乳液PCR。扩增后破乳，珠被置入皮升微孔板(picotitre plate)的各孔内，孔在测序反应中作为流动室。在测序酶和发光报告物如萤光酶的存在下，流动室中发生四种dNTP试剂各自的有序迭代引入。合适的dNTP被加到测序引物的3′末端时，所产生的ATP导致孔内发光脉冲，用CCD相机予以记录。能够实现大于或等于400个碱基的读数长度，且能够实现10⁶个序列读数，得到最多达5亿碱基对(Mb)的序列。

在Solexa/Illumina平台中(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号6,833,246，7,115,400和6,969,488；其各自通过引用全文纳入本文)，以较短的读数形式产生测序数据。该方法中，单链的片段化DNA末端修复产生5′-磷酸化钝端，然后由Klenow介导添加单一A碱基至这些片段的3′末端。添加A便于添加T-突端衔接子寡核苷酸，后者将被用来捕获流动室表面上模板-衔接子分子，流动室中插有寡核苷酸锚。锚被用作PCR引物，但由于模板的长度且其靠近其它邻近的锚寡核苷酸，PCR延伸导致分子“拱跨(arching over)”杂交邻近的锚寡核苷酸在流动室表面形成桥式结构。这些DNA环被变性并切割。正链随后通过可逆染料终止子来测序。通过检测纳入后荧光来确定所纳入核苷酸的序列，在下一轮dNTP添加前除去各荧光团和阻断。序列读数长度从36个核苷酸到超过50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

用SOLiD技术(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbial.，7：287-296；美国专利号5,912,148；和6,130,073；其各自通过引用全文纳入本文)对核酸分子进行测序还包括片段化模板，连接寡核苷酸衔接子，连接珠，以及乳液PCR克隆性扩增。此后，载有模板的珠被固定化在玻璃流动室的衍生化表面，与衔接子寡核苷酸互补的引物发生退火。但该引物并不用作3′延伸，而是用来提供5′磷酸基团供连接至问询探针，这些探针含有两个探针特异性碱基及其后6个简并碱基和四种荧光标记其一。SOLiD系统中，问询探针中每个探针3′的两个碱基有16种可能的组合而在5′末端是四种荧光标记之一。荧光颜色，及由此辨识的各探针对应于指定的颜色-空间编码方案。多轮(通常7轮)探针退火、连接和荧光检测后变性，然后用相对初始引物错开一位碱基的引物进行第二轮的测序。以此方式，模板序列可通过计算得以重建，而且模板碱基问询两次，得到更高的精确度。序列读数长度平均为35个核苷酸，总体输出为每次测序运行超过40亿个碱基。

某些实施方式中，采用纳米孔测序(参见如Astier等，J.Am.Chem.Soc.2006年2月8日；128(5)1705-10，通过引用纳入本文)。纳米孔测序的原理涉及纳米孔浸入传导液并跨纳米孔施加电压(伏特)时所发生的现象。这些条件下，可观察到由于离子传导有微弱电流通过纳米孔，而电流的量对纳米孔的大小极度敏感。随着核酸的每个碱基通过该纳米孔，就会导致通过纳米孔的电流幅度有变化，这种变化对于四种碱基的每一种是不同的，从而允许确定DNA分子的序列。

某些实施方式中，采用螺旋生物科学公司(Helicos BioSciences Corporation)的HeliScope(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，NatureRev.Microbial，7：287-296；美国专利号7,169,560，7,282,337，7,482,120，7,501,245，6,818,395，6,911,345和7,501,245；其各自通过引用全文纳入本文)。模板DNA被片段化并在3′末端多腺苷化，最后的腺苷载有荧光素标记。变性的多腺苷化模板片段连接到流动室表面上的聚(dT)寡核苷酸上。由CCD相机记录被捕获模板的初始物理位置，然后切下并洗去标记。通过添加聚合酶并系列添加带荧光标记的dNTP试剂来实现测序。纳入事件产生对应于dNTP的荧光信号，而CCD相机在每轮dNTP添加前捕捉信号。序列读数长度在25-50个核苷酸，总体输出为每次运行分析超过10亿个核苷酸对。

离子激流技术是基于对DNA聚合所释放氢离子的检测的DNA测序(参见如Science327(5970)：1190(2010)；美国专利申请号2009/0026082；2009/0127589；2010/0301398；2010/0197507；2010/0188073和2010/0137143；全部通过引用全文纳入本文用于所有目的)。微孔含有待测序的模板DNA链。微孔层下方是超敏ISFET离子传感器。所有层都包含在CMOS半导体芯片内，该芯片与电子工业中所用的类似。在dNTP被纳入生长中的互补链时释放氢离子，触发超敏离子传感器。若模板系列中存在均聚重复系列，单次循环中会纳入多个dNTP分子。这导致对应数量的氢释放，和成比例的更高电子信号。这一技术与其它测序技术的区别之处在于不适用带修饰核苷酸和光学元件。离子流测序仪的单碱基精确度为每50碱基读数约99.6％，每次运行产生约100Mb。读数长度是100个碱基对。5个重复的均聚重复序列的精确度是约98％。离子半导体测序的优势在于测序速度快且前期和运行成本低。

可适用于本发明的另一示例性核酸测序方法是由Stratos Genomics公司开发并用到Xpandomer分子的测序方法。该测序方法通常包括提供由模板引导的合成产生的子链。该子链通常包括按对应于靶核酸全部或部分的连续核苷酸序列偶联的多个亚单元，各亚单元含有系连物(tether)、至少一个探针或核碱基残基和至少一个选择性可切割的键。选择性可切割的键是被切割来得到Xpandomer，其长度大于子链的所述多个亚单元的长度。Xpandomer通常包括系连物和报告物元件，报告物元件用以解析序列中对应于靶核酸的全部或部分的连续核苷酸序列的遗传信息。Xpandomer的报告物元件随后被测得。对基于Xpandomer的方法的补充细节在文献中有记载，例如美国专利公开号2009/0035777，其通过引用全文纳入本文。

其它单分子测序方法包括利用VisiGen平台通过合成来实时测序(Voelkerding等，Clinical Chem.，55：641-58，2009；美国专利号7,329,492，美国专利申请序列号11/671,956和11/781,166；其各自通过引用全文纳入本文)，其中，固定化的带引物DNA模板用带荧光素修饰的聚合酶和荧光素受体分子来进行链延伸，在核苷酸添加时产生可测的荧光共振能量转移(FRET)。

另一由太平洋生物科学公司(Pacific Biosciences)开发的实时单分子测序系统(Voelkerding等，Clinical Chem.，55.641-658，2009；MacLean等，NatureRev.Microbiol.，7：287-296；美国专利号7,170,050，7,302,146，7,313,308和7,476,503；其各自通过引用全文纳入本文)利用直径50-100nm含有约20仄升(10^-21L)反应体积的反应孔。利用固定化模板、改良的Φ29 DNA聚合酶和高局部浓度荧光素标记的dNTP来进行测序反应。高局部浓度和连续反应条件允许采用激光激发、光学波导和CCD相机来通过荧光信号检测实时捕捉纳入事件。

在某些实施方式中，单分子实时(SMRT)DNA测序方法采用太平洋生物科学公司(Pacific Biosciences)开发的零级波导(zero-mode waveguide，ZMW)或类似方法。用此技术，DNA测序在SMRT芯片上进行，这些芯片各自含有数千个零级波导(ZMW)。ZMW是孔，直径是纳米的几十分之一，制造在100nm金属膜中，该膜置于二氧化硅底物上。每个ZMW成为提供检测体积仅20仄升(10^-21L)的纳米光子可视化室。以此体积，可在数千个标记的核苷酸背景中检测出单个分子的活性。ZMW通过合成进行测序，为观察DNA聚合酶提供了窗口。各ZMW室内，单个DNA聚合酶分子结合在底面从而永久保持在检测体积内。磷酸连接的(phospholinked)核苷酸每种标记有不同颜色的荧光团，这些核苷酸随后以高浓度引入反应溶液中，这些浓度提高酶速度、精确性和处理能力(processivity)。由于ZMW体积小，即使在这些高浓度下，检测体积被众核苷酸占据的时间占比很小。此外，由于转运核苷酸的扩散距离很短，对检测体积的经停很快，仅持续几微秒。结果就是背景很低。

可调试用于本文所述方法的用于此类实时测序的方法和系统记载于，例如，美国专利号7,405,281、7,315,019、7,313,308、7,302,146和7,170,050；美国专利公布号2008/0212960、2008/0206764、2008/0199932、2008/0199874、2008/0176769、2008/0176316、2008/0176241、2008/0165346、2008/0160531、2008/0157005、2008/0153100、2008/0153095、2008/0152281、2008/0152280、2008/0145278、2008/0128627、2008/0108082、2008/0095488、2008/0080059、2008/0050747、2008/0032301、2008/0030628、2008/0009007、2007/0238679、2007/0231804、2007/0206187、2007/0196846、2007/0188750、2007/0161017、2007/0141598、2007/0134128、2007/0128133、2007/0077564、2007/0072196和2007/0036511，以及Korlach等(2008)“选择性铝钝化用于将单个DNA聚合酶分子靶向固定在零级波导纳米结构中(Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguidenanostructures)”PNAS 105(4)：1176-81，其全部在此通过引用全文纳入本文。

竞争测序后，可以通过相同的条码分选序列，其中具有相同条码的序列来自同一分区并因此是连续的。在一些实施方式中，可以确定基于常规条码序列连接的序列，并且任选地，可以检测每个条码各片段的SNP。在一些实施方式中，可以检测超出偶然的片段共定位至单个条码(偏斜分布)，从而检测重排。

应理解，本文所述的实施例和实施方式仅用于说明目的，本领域技术人员应了解据此作出的各种修饰或改变，且它们包括在本申请的主旨和权益以及所附权利要求书的范围内。本文引用的所有发表物、序列方面编号、专利以及专利申请通过引用全文纳入本文以用于所有目的。

序列表

<110> 生物辐射实验室股份有限公司（BIO-RAD LABORATORIES, INC.）

<120> 基于转座酶的基因组分析

<130> 094868-1103056 (115910PC)

<140>

<141>

<150> 62/580,946

<151> 2017-11-02

<160> 13

<170> PatentIn version 3.5

<210> 1

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 1

gacgctgccg acga 14

<210> 2

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 2

ccgagcccac gagac 15

<210> 3

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成引物

<400> 3

aatgatacgg cgaccaccga gatctacac 29

<210> 4

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成引物

<400> 4

caagcagaag acggcatacg agat 24

<210> 5

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 5

agatgtgtat aagagacag 19

<210> 6

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 6

ctgtctctta tacacatctg acgctgccga cga 33

<210> 7

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 7

ctgtctctta tacacatctc cgagcccacg agac 34

<210> 8

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成引物

<400> 8

tcgtcggcag cgtc 14

<210> 9

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 9

gacgctgccg acgat 15

<210> 10

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成引物

<220>

<221> 修饰的碱基

<222> (25)..(32)

<223> a, c, t, g, 未知或其他

<400> 10

caagcagaag acggcatacg agatnnnnnn nngtctcgtg ggctcgg 47

<210> 11

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 11

ctgtctctta tacacatctg acgctgccga cgaatctcgt atgccgtctt ctgcttg 57

<210> 12

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成寡核苷酸

<400> 12

gacgctgccg acgat 15

<210> 13

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 人工序列说明：合成引物

<400> 13

tcgtcggcag cgtcagatgt gtataagaga cag 33

Claims

1.一种条码化DNA的方法，所述方法包括通过使DNA与载有寡核苷酸衔接子的转座酶接触向DNA中随机引入寡核苷酸衔接子，

其中寡核苷酸衔接子包含3′单链部分和双链部分，第一寡核苷酸具有3′末端和5′末端并且是双链部分的链，第二寡核苷酸包含单链部分和双链部分的互补链，和

合并液滴的内容物以形成反应混合物；

2.如权利要求1所述的方法，还包括扩增所述条码化的片段。

3.如权利要求2所述的方法，其中所述扩增包括聚合酶链式反应。

4.如权利要求1所述的方法，包括在杂交之前从DNA中剥离转座酶。

5.如权利要求4所述的方法，其中所述剥离发生在液滴中。

6.如权利要求4所述的方法，其中DNA在核中，并且剥离在液滴形成之前发生。

7.如权利要求1所述的方法，包括在杂交之前从珠切割寡核苷酸引物。

8.如权利要求1所述的方法，其中所述转座酶载有具有相同的双链部分和不同的单链部分的两个不同的衔接子寡核苷酸。

9.如权利要求8所述的方法，其中所述液滴还包含第二寡核苷酸引物，其中第二寡核苷酸引物包含与单链部分之一至少50％(例如，至少60％，70％，80％，90％或100％)互补的3′末端序列，并且第一寡核苷酸引物包含与不同的3′单链部分至少50％(例如60％，70％，80％，90％或100％)互补的游离3′末端，并且杂交包括使第二寡核苷酸引物与互补的3′单链部分杂交。

10.如权利要求9所述的方法，其中一个单链部分包含GACGCTGCCGACGA(A14；SEQ IDNO：1)，而另一个单链部分包含CCGAGCCCACGAGAC(B15：SEQ ID NO：2)。

11.如权利要求1所述的方法，其中所述转座酶载有两个相同的衔接子寡核苷酸。

12.如权利要求1-11中任一项所述的方法，其中所述第一寡核苷酸引物包含5’PCR柄序列。

13.如权利要求12所述的方法，其中第一寡核苷酸引物的5′PCR柄序列包含AATGATACGGCGACCACCGAGATCTACAC(P5；SEQ ID NO：3)。

14.如权利要求12或13所述的方法，其中所述液滴进一步包含第二寡核苷酸引物，并且其中第二寡核苷酸引物包含5′PCR柄。

15.如权利要求14所述的方法，其中所述第二寡核苷酸引物的5′PCR柄序列包含CAAGCAGAAGACGGCATACGAGAT(P7；SEQ ID NO：4)。

16.如权利要求15所述的方法，其中所述第二寡核苷酸引物还包含索引标签。

17.如权利要求1所述的方法，其中所述第二寡核苷酸的单链部分包含：

i.与第一寡核苷酸引物小于50％互补的3′末端序列；和

18.如权利要求1-15中任一项所述的方法，其中所述DNA在引入期间包含DNA结合的蛋白质。

19.如权利要求18所述的方法，还包括在合并后从DNA中去除DNA结合的蛋白质。

20.如权利要求19所述的方法，其中去除包括使所述DNA与离液剂或蛋白酶接触。

21.如权利要求18所述的方法，还包括在合并前从DNA中去除DNA结合的蛋白质。

22.如权利要求19所述的方法，其中去除包括使所述DNA与离液剂或蛋白酶接触。

23.如权利要求1所述的方法，其中与DNA相比，所述形成维持DNA片段的相邻性。

24.如权利要求1所述的方法，其中在合并后并在接触前纯化DNA。

25.如权利要求1所述的方法，还包括在合并期间，将液滴的内容物与包含单链部分的竞争性寡核苷酸混合，所述竞争性寡核苷酸与第一寡核苷酸引物的未结合拷贝的3′末端杂交，从而防止合并后未结合的DNA片段的从头结合。

26.如权利要求1所述的方法，还包括在合并期间，将液滴的内容物与包含单链部分的竞争性寡核苷酸混合，所述竞争性寡核苷酸与寡核苷酸衔接子的未结合拷贝的3′末端杂交，从而防止合并后未结合的DNA片段的从头结合。

27.如权利要求25或26所述的方法，其中所述竞争性寡核苷酸包含不能通过聚合酶延伸的3′末端。

28.如权利要求1所述的方法，其中接触中的聚合酶是链置换聚合酶。

29.如权利要求1所述的方法，其中所述接触中的聚合酶具有5’-3’核酸外切酶活性。

30.如权利要求1所述的方法，其中所述转座酶是TN5转座酶。

31.如权利要求1所述的方法，其中所述转座酶与珠连接。

32.如权利要求1-31中任一项所述的方法，还包括对条码化的DNA序列进行测序，其中所述测序包括杂交测序引物并将其延伸至条码化的DNA序列。

33.如权利要求32所述的方法，其中所述测序引物包含一个或多个人工核苷酸，其形成比天然核苷酸中更高的亲和性碱基配对。