CN109154013A

CN109154013A - 转座酶和y衔接子用于片段化和标签化dna的用途

Info

Publication number: CN109154013A
Application number: CN201780032464.2A
Authority: CN
Inventors: R·A·哈; N·M·萨姆帕斯; B·J·彼得
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2016-03-31
Filing date: 2017-01-19
Publication date: 2019-01-04
Anticipated expiration: 2037-01-19
Also published as: EP3436596A4; US20170283864A1; US20190194737A1; EP3436596A1; US11535889B2; CN109154013B; EP3436596B1; WO2017171985A1

Abstract

本文中特别描述了包含一群第一寡核苷酸、第二寡核苷酸和第三寡核苷酸的衔接子，其中第一寡核苷酸、第二寡核苷酸和第三寡核苷酸杂交在一起以产生复合物，所述复合物包含：(i)包含转座酶识别序列的第一端，(ii)可变序列的中心单链区和(iii)包含非互补序列的第二端。还提供了一种方法、以及用于实施该方法的试剂盒。

Description

转座酶和Y衔接子用于片段化和标签化DNA的用途

背景

下一代测序(NGS)技术已经使得全基因组测序(WGS)成为常规，而各种靶向富集方法已使研究人员能够将测序精力集中在最重要的感兴趣区域。然而，仍然需要更好的方法来制备NGS测序文库。例如，可以通过“标签片段化”制备用于下一代测序(NGS)的基因组DNA，其中转座酶引起基因组DNA中的交错双链断裂，同时在末端插入小寡核苷酸标签。然而，此方法的一个问题是，需要在标签片段化之后在任何特定片段的两端存在不同的标签以便进行PCR扩增，因为由于抑制PCR效应，在两端具有相同序列的片段将不能充分PCR。然而，在许多方法中，为了获得在片段末端的不同序列，必须在标签片段化之前将两个不同的序列负载到转座酶上。由于每个末端都被随机标签片段化，因此有50％的可能性，片段的两端都将被添加相同的序列。然后这些片段在PCR和/或测序中丢失。

此外，所有测序方法都产生包含错误(例如，PCR错误和测序错误)的序列读段。可以纠正一些错误，但是当样品量有限时(例如，当相对于非突变分子只存在少数突变分子时)，通常不可能确定序列中的变异是由错误引起的还是“真实的”突变。

概述

本文中特别描述了包含一群第一寡核苷酸、第二寡核苷酸和第三寡核苷酸的衔接子，其中第一寡核苷酸、第二寡核苷酸和第三寡核苷酸杂交在一起以产生复合物，所述复合物包含：(i)包含转座酶识别序列的第一端，(ii)可变序列的中心单链区和(iii)包含非互补序列的第二端。

本文中还特别描述了用于标签片段化(tagmenting)样品的方法，其包括：使包含双链DNA的样品与负载有本发明衔接子的转座酶接触；并且使用聚合酶和连接酶填充和密封所述衔接子的中心单链区，由此产生一群在两端都被Y衔接子标签化的DNA片段，每个所述Y衔接子的两条链都包含第一寡核苷酸的可变序列。

还提供了用于实施所述方法的试剂盒。在某些实施方案中，试剂盒可包含转座酶；本发明衔接子；和聚合酶。

本文所述的组合物、方法和试剂盒具体可以用于分析这样的DNA样品，其中DNA的量是有限的，并且含有具有低拷贝数突变的片段(例如，由相对于不含突变的序列以低拷贝数存在的突变引起的序列)。在这样的样品中，突变序列可仅以非常有限的拷贝数存在(例如，在数百或数千个拷贝的野生型序列的背景中小于10个)，并且需要高效地捕获那些序列并将它们标签化，使得每个带标签的分子的两条链上添加相同的分子条形码。真实的突变应该在两条链中的相同位置，因此，能够将相同的条形码添加到初始双链分子的两条链上，就可以鉴定和比较衍生自初始分子的两条链的序列读段。如果潜在序列变异存在于同一分子的两条链中，那么它是真实的变异(而不是PCR错误或测序错误)的可信度增加。

附图简述

技术人员将理解的是，下文描述的附图仅用于说明的目的。附图并不旨在以任何方式限制本发明教导的范围。

图1示意性地说明了本发明衔接子的一些特征。

图2示意性地说明了本发明衔接子的一个实施方案。

图3示意性地说明了在本发明衔接子中条形码如何从一条链复制到另一条链，由此允许在标签片段化过程中两条链添加相同的条形码。

图4示意性地说明了本发明衔接子如何能够用于对基因组DNA加标签。

图5示意性地说明了本发明衔接子的另一个实施方案，其中单链区接合形成环区。

图6A、6B和6C示意性地说明了本发明衔接子的其他实施方案，其中环区包含切割位点。

图7示意性地说明了如何构建本发明衔接子的另一个实施方案，其允许在标签片段化期间将相同的条形码添加到两个链。

图8示意性地说明了具有单链区的衔接子，所述单链区包含可切割位点和表示为“NNN”的简并碱基区(DBR)条形码。

定义

在更详细地描述示例性实施方案之前，阐述了以下定义以说明和定义在说明书中使用的术语的含义和范围。

数值范围包括定义该范围的数字。除非另外指明，否则核酸以5’至3’方向从左向右书写；氨基酸序列对应地以氨基至羧基方向从左向右书写。

除非另有说明，本发明的实施可以采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和免疫学的常规技术和说明，这些在本领域的技能之内。这样的常规技术包括聚合物阵列合成、杂交、连接和使用标记物的杂交检测。通过参考下文的实施例可以获得适当技术的具体说明。然而，当然也可以使用其他等同的常规程序。这些常规技术和说明可以在标准实验室手册中找到，例如Genome Analysis:A LaboratoryManual Series(第I-IV卷),Using Antibodies:A Laboratory Manual,Cells:ALaboratory Manual,PCR Primer:A Laboratory Manual,and Molecular Cloning:ALaboratory Manual(均来自Cold Spring Harbor Laboratory Press),Stryer,L.(1995)Biochemistry(第4版)Freeman,New York,Gait,“Oligonucleotide Synthesis:APractical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,A.,Principles of Biochemistry第3版，W.H.Freeman Pub.,New York,N.Y.以及Berg等人(2002)Biochemistry，第5版，W.H.Freeman Pub.,New York,N.Y.，出于所有目的将所有这些文献通过提述完整并入本文。

必须注意的是，如本文中和在所附权利要求中所使用的，单数形式“一个(a)”、“一种(an)”以及“该”包括复数指示物，除非上下文中另外清楚地指出。例如，术语“引物”是指一个或多个引物，即单个引物和多个引物。还应注意的是，可以将权利要求书起草为排除任何可选要素。因此，本声明旨在用作与权利要求要素的叙述相关的诸如“单独”、“仅”等等排他性术语的使用或“否定”限制的使用的前置基础。

如本文中使用的术语“样品”涉及通常但不一定处于液体形式的含有一种或多种感兴趣的分析物的材料或材料混合物。在一个实施方案中，以其最广义的方式使用的术语是指含有DNA或RNA的任何植物、动物或病毒材料，例如，从个体分离的组织或流体(包括但不限于血浆、血清、脑脊液、淋巴、泪液、唾液和组织切片)，来自保存的组织(比如FFPE切片)或来自体外细胞培养成分，以及来自环境的样品。

如本文中使用的，术语“核酸样品”表示含有核酸的样品。本文中使用的核酸样品可能由于含有多个不同的包含序列的分子而是复杂的。来自哺乳动物(例如，小鼠或人)的基因组DNA样品是复杂样品类型。复杂样品可能具有多于10⁴、10⁵、10⁶或10⁷个不同的核酸分子。同样，复杂样品可仅包含少数个分子，其中这些分子合起来具有多于10⁴个、10⁵个、10^6个或10⁷个或更多个核苷酸。DNA靶标可以来源于任何来源，比如基因组DNA或人工DNA构建体。可以在本文中采用任何含有核酸的样品，所述核酸例如由组织培养细胞或组织样品制备的基因组DNA。

如本文中使用的术语“混合物”指的是散在的、无任何特定顺序的多个要素的组合。混合物是异质的，并且在空间上不可分解成其不同组分。要素混合物的实例包括溶解在同一种水溶液中的许多不同的要素，以及附着到固体支持物上的随机位置(即，无特定的顺序)的许多不同的要素。混合物是不可寻址的(not addressable)。举例而言，如本领域公知的，由空间上分离的、表面结合的多核苷酸所成的阵列不是表面结合的多核苷酸的混合物，因为表面结合的多核苷酸种类在空间上是截然可区分的，且阵列是可寻址的。

术语“核苷酸”预期包括这样的模块，它们不仅含有已知的嘌呤和嘧啶碱基，还含有经修饰的其他杂环碱基。这样的修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其他杂环。另外，术语“核苷酸”包括这样的模块，它们含有半抗原或荧光标记物，而且仅可以含有常规的核糖和脱氧核糖，还可以含有其他糖。修饰的核苷或核苷酸还包括在糖模块上的修饰，例如其中一个或多个羟基被卤素原子或脂族基团置换，被官能化为醚、胺等等。

术语“核酸”和“多核苷酸”在本文中可互换使用，用于描述任何长度的聚合物，例如大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于1000个碱基、至多约10,000个或更多个碱基组成的核苷酸，例如脱氧核糖核苷酸或核糖核苷酸，并且可以通过酶或合成产生(例如PNA，如美国专利No.5,948,902和其中引用的参考文献所述)，其可以类似于两个天然存在的核酸的杂交的序列特异性方式与天然存在的核酸杂交，例如可以参与沃森-克里克碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶、尿嘧啶(分别为G、C、A、T和U)。DNA和RNA分别具有脱氧核糖和核糖糖骨架，而PNA的骨架由通过肽键连接的重复的N-(2-氨基乙基)-甘氨酸单元组成。在PNA中，各种嘌呤和嘧啶碱基通过亚甲基羰基键与骨架连接。通常称为不可接近RNA的锁核酸LNA是经修饰的RNA核苷酸。将LNA核苷酸的核糖模块用连接2'氧和4'碳的外桥修饰。所述桥将核糖“锁”在3'-内(北)构象中，该构象常见于A型双链体中。在需要时，LNA核苷酸可以与寡核苷酸中的DNA或RNA残基混合。术语“非结构化核酸”或“UNA”是含有以降低的稳定性彼此结合的非天然核苷酸的核酸。例如，非结构化核酸可以含有G'残基和C'残基，其中这些残基对应于G和C的非天然存在形式，即G和C的类似物，其以降低的稳定性彼此碱基配对，但保留分别与天然存在的C和G残基碱基配对的能力。在US20050233340中描述了非结构化核酸，将针对其UNA的公开内容通过提述并入本文。

如本文中使用的术语“寡核苷酸”表示核苷酸的单链多聚体，其长度为约2个至200个核苷酸，最多500个核苷酸。寡核苷酸可以是合成的或可以经酶法制备，并且在一些实施方案中，其长度为30个至150个核苷酸。寡核苷酸可含有核糖核苷酸单体(即，可以是寡核糖核苷酸)或脱氧核糖核苷酸单体，或核糖核苷酸单体和脱氧核糖核苷酸单体两者。例如，寡核苷酸的长度可以是10至20个、11至30个、31至40个、41至50个、51至60个、61至70个、71至80个、80至100个、100至150个或150至200个核苷酸。

术语“引物”是指天然或合成的寡核苷酸，其在与多核苷酸模板形成双链体时能够充当核酸合成的起始点并且从其3'端沿着所述模板延伸，从而形成延伸的双链体。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列决定。通常引物通过DNA聚合酶延伸。引物通常具有与其在引物延伸产物的合成中的用途相容的长度，并且通常在8至100个核苷酸的长度范围内，比如10至75、15至60、15至40、18至30、20至40、21至50、22至45、25至40个等，更通常在18-40、20-35、21-30个核苷酸长的范围内，以及所陈述范围之间的任何长度。典型的引物可以在10-50个核苷酸长的范围内，比如15-45、18-40、20-30、21-25等，以及所言明范围之间的任何长度。在一些实施方案中，引物在长度上通常为不多于约10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65个、或70个核苷酸。

引物通常是单链的，以获得最大的扩增效率，但也可以是双链的。如果是双链的，通常在用于制备延伸产物之前首先处理引物以使其链分离。这个变性步骤通常受到热量的影响，但也可以使用碱来进行，然后中和。因此，“引物”与模板互补，并与模板通过氢键键合或杂交形成复合物，以产生用于通过聚合酶起始合成的引物/模板复合物，所述引物在DNA合成过程中通过添加与模板互补的在其3'端连接的共价键合的碱基而延伸。

术语“杂交”是指核酸链在正常杂交条件下与第二互补核酸链退火并形成稳定双链体(同源双链体或异源双链体)并且在相同的正常杂交条件下不与无关核酸分子形成稳定双链体的过程。通过在杂交反应中退火两个互补核酸链来完成双链体的形成。通过调整发生杂交反应的杂交条件(通常称为杂交严格性)，可以使杂交反应高度特异，使得两条核酸链之间的杂交不会形成稳定的双链体，例如，在正常严格条件下保留双链性(double-strandedness)区域的双链体，除非所述两条核酸链在特定序列中含有一定数量的基本上或完全互补的核苷酸。对于任何给定的杂交反应，“正常杂交或正常严格条件”易于确定。参见，例如，Ausubel等人，Current Protocols in Molecular Biology,John Wiley&Sons,Inc.,New York，或Sambrook等人，Molecular Cloning:A Laboratory Manual,ColdSpring Harbor Laboratory Press。如本文中使用的，术语“杂交”是指核酸链通过碱基配对与互补链结合的任何过程。

如果核酸与参考核酸序列在中等至高严格杂交和洗涤条件下彼此特异性地杂交，则认为这两个序列“选择性杂交”。中等和高严格杂交条件是已知的(参见，例如Ausubel等人，Short Protocols in Molecular Biology，第3版，Wiley&Sons 1995以及Sambrook等人，Molecular Cloning:A Laboratory Manual，第3版，2001Cold Spring Harbor,N.Y.)。高严格条件的一个实例包括在约42℃下在50％甲酰胺、5X SSC、5X Denhardt溶液、0.5％SDS和100μg/ml变性载体DNA中杂交，接着在室温下在2X SSC和0.5％SDS中洗涤两次，再在42℃下在0.1X SSC和0.5％SDS中洗涤两次。

本文中使用的术语“双链体”或“双链体的”描述碱基配对即杂交到一起的两个互补的多核苷酸。

本文中使用的术语“扩增”是指合成与模板核酸的一条链或两条链互补的核酸分子的过程。扩增核酸分子可包括使模板核酸变性，在低于引物的解链温度的温度下使引物与模板核酸退火，以及从引物酶促延伸以生成扩增产物。变性、退火和延伸步骤可各自进行一次或多次。在某些情况下，变性、退火和延伸步骤进行多次，使得扩增产物的量加倍，常常以指数方式加倍，但本方法不要求必须有指数扩增。为了聚合酶的最佳活性，扩增通常需要脱氧核糖核苷三磷酸、DNA聚合酶和适当的缓冲液和/或辅因子的存在。术语“扩增产物”是指通过本文中定义的扩增方法产生的核酸序列。

术语“确定”、“测量”、“评价”、“评估”、“测定”和“分析”在本文中可互换使用，以指代任何形式的测量，并且包括确定要素是否存在。这些术语包括定量和/或定性测定两者。评估可以是相对的或绝对的。“评估……的存在”包括确定某物存在的量，以及确定它是否存在。

术语“使用”具有其常规含义，并且因此意味着采用例如投入使用的方法或组合物来达到目的。例如，如果程序用于创建文件，则执行程序以生成文件，该文件通常是程序的输出。在另一个实例中，如果使用计算机文件，则通常存取、读取所述文件，并且采用存储在文件中的信息来达到目的。类似地，如果使用唯一标识符，例如条形码，则通常读取唯一标识符以识别例如与所述唯一标识符相关联的对象或文件。

“多个”包含至少2个成员。在某些情况下，多个可具有至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少10⁶个、至少10⁷个、至少10⁸个或至少10⁹个或更多个成员。

如果两个核酸是“互补的”，它们在高严格条件下彼此杂交。术语“完全互补”用于描述双链体，其中一个核酸的每个碱基与另一个核酸中的互补核苷酸碱基配对。在许多情况下，互补的两个序列具有至少10个，例如至少12个或15个核苷酸的互补性。

“寡核苷酸结合位点”是指寡核苷酸在靶多核苷酸中杂交的位点。如果寡核苷酸“提供”引物的结合位点，则引物可以与该寡核苷酸或其互补序列杂交。

术语“共价连结”是指在两个不同分子(例如双链核酸的顶链和底链)之间产生共价连结。连接是一种共价连结。

本文中使用的术语“基因分型”是指任何类型的核酸序列分析，并且包括测序、多态性(SNP)分析以及鉴定重排的分析。

本文中使用的术语“测序”是指获得多核苷酸的至少10个连续核苷酸的身份(例如，至少20个、至少50个、至少100个或至少200个或更多个连续核苷酸的身份)的方法。

术语“下一代测序”是指目前被Illumina、Life Technologies、Pacific Bio和Roche等采用的所谓的并行化的边合成边测序或边连接边测序平台。下一代测序法还可包括纳米孔测序法或基于电子检测的方法，如被Life Technologies商业化的离子激流(IronTorrent)技术。

如本文中使用的术语“延伸”是指通过使用聚合酶添加核苷酸的引物延伸。如果使退火到核酸上的引物延伸，则该核酸充当延伸反应的模板。

如本文中使用的，术语“条形码序列”或“分子条形码”是一段独特的核苷酸序列，可用于a)识别和/或追踪反应中的多核苷酸的来源、b)计数初始分子被测序的次数、c)将来自同一分子的不同链的序列读段配对。条形码序列在大小和组成上可以有很大变化；以下参考文献提供了用于选择适合于具体实施方案的条形码序列组的指导：Casbon(Nuc.AcidsRes.2011,22e81),Brenner，美国专利No.5,635,400；Brenner等人，Proc.Natl.Acad.Sci.,97:1665-1670(2000)；Shoemaker等人，Nature Genetics,14:450-456(1996)；Morris等人，欧洲专利公开0799897A1；Wallace，美国专利No.5,981,179；等等。在具体实施方案中，条形码序列的长度可以在2至36个核苷酸、或6至30个核苷酸、或8至20个核苷酸的范围。

在一些情况下，条形码可含有“简并碱基区”或“DBR”，其中术语“简并碱基区”和“DBR”是指一种类型的分子条形码，其复杂性足以帮助人们在已经添加DBR的片段之间进行区分。在一些情况下，基本上每个带标签的片段均可具有不同的DBR序列。在这些实施方案中，可以使用高复杂度的DBR(例如，由至少10,000个或100,000个或更多个序列组成的DBR)。在其他实施方案中，可以用相同的DBR序列对一些片段加标签，但是这些片段仍然可以通过以下组合加以区分：i.DBR序列，ii.片段的序列，iii.片段末端的序列，和/或iv.DBR插入到片段中的位点。在一些实施方案中，至少95％，例如，至少96％、至少97％、至少98％、至少99％或至少99.5％的靶多核苷酸变为与不同的DBR序列相关联。在一些实施方案中，DBR可包含选自R、Y、S、W、K、M、B、D、H、V、N(由IUPAC代码定义)的一个或多个(例如，至少2个、至少3个、至少4个、至少5个、或5至30个或更多个)核苷酸。在一些情况下，可以制备含有简并序列的寡核苷酸(例如，具有一串2-10个或更多个“Ns”的寡核苷酸)，并且然后将条形码的互补序列复制到另一条链上，来产生双链条形码，如下所述。

含有可变序列例如DBR的寡核苷酸可以通过分开制备多个寡核苷酸，将寡核苷酸混合在一起，并通过将它们一同扩增来制备。换言之，含有可变序列的寡核苷酸群可以作为含有简并位置(即，含有多于一种类型的核苷酸的位置)的单一寡核苷酸来制备。或者，可以通过单独地制作各个寡核苷酸，或使用原位合成方法利用寡核苷酸阵列，从基底上切割下寡核苷酸，并任选地扩增它们，来制备这样的寡核苷酸群。此类方法的实例例如由Cleary等人(Nature Methods 2004 1:241-248)和LeProust等人(Nucleic Acids Research201038:2522-2540)描述。

在一些情况下，条形码可以是纠错性的(error-correcting)。在各处文献中可以找到示例性错误识别(或错误校正)序列的描述(例如，描述于美国专利申请公开US2010/0323348和US2009/0105959中，将两者都通过提述并入本文)。可纠错码对于定量分子的绝对数量可能是必需的。文献中的许多报告使用的是原为二进制的纠错而开发的代码(汉明码、里德-所罗门码等)，或将这些代码应用于四进制(例如，四元汉明码；参见基于汉明码的广义DNA条形码设计，Bystrykh 2012PLoS One.2012 7:e36852)。

在一些实施方案中，条形码可另外用于确定已分析的初始靶多核苷酸分子的数目，即“计数”已分析的初始靶多核苷酸分子的数目。对于已用某个条形码标签化的多个分子进行PCR扩增可以产生多个克隆相关的(clonally related)产物亚群，因为每个不同的亚群都是从单个带有标签的分子扩增而来的。显而易见的是，虽然PCR产物的任何一个克隆相关的亚群中都可能有数千个或数百万个或更多个分子，而且那些克隆相关亚群中的靶分子的数目可能变化很大，但还是可以通过计数与PCR产物群中呈现的某个靶序列相关联的DBR序列的数目来估计在该方法的第一步中被标签化的分子的数目。该数目是有用的，因为在某些实施方案中，可以将使用该方法制备的PCR产物群测序以产生多个序列。可以计数与靶多核苷酸的序列相关联的不同条形码序列的数目，并可以使用该数目(连同例如片段的序列、片段末端的序列和/或DBR插入片段中的位点)来估计已被测序的初始模板核酸分子的数目。

术语“样品标识符序列”或“样品索引”是指可以附加到靶多核苷酸上的一种类型的条形码，其中该序列标识靶多核苷酸的来源(即，靶多核苷酸所来源的样品)。在使用中，将每个样品用不同的样品标识符序列标签化(例如，将每个样品附加一个序列，不同的样品附加不同的序列)，将标签化的样品合并。在对合并的样品进行测序之后，可使用样品标识符序列来鉴定序列的来源。

如本文中使用的术语“链”是指由通过共价键、例如磷酸二酯键共价连接在一起的核苷酸构成的核酸。在细胞中，DNA通常以双链形式存在，因此具有两条互补的核酸链，在本文中称为“顶”链和“底”链。在某些情况下，染色体区的互补链可以称为“正”链和“负”链、“第一”链和“第二”链、“编码”链和“非编码”链、“沃森”链和“克里克”链、或“有义”链和“反义”链。将链命名为顶链或底链是任意的，并不意味着任何特定的取向、功能或结构。几种示例性哺乳动物染色体区(例如，BAC、组装体、染色体等)的第一链的核苷酸序列是已知的，并且可以例如在NCBI的Genbank数据库中找到。

如本文中使用的，术语“顶链”是指核酸的任一链而不是核酸的两条链。当寡核苷酸或引物“仅与顶链”结合或退火时，它仅与一条链结合而不与另一条链结合。如本文中使用的，术语“底链”是指与“顶链”互补的链。当寡核苷酸“仅与一条链”结合或退火时，它仅与一条链例如第一链或第二链结合，而不与另一条链结合。

术语“反向引物”和“正向引物”是指与双链DNA分子中的不同链杂交的引物，其中引物通过聚合酶朝向另一引物的方向延伸。

如本文中使用的术语“片段的两端”是指双链DNA分子的两端(即，如果将分子在水平方向上画出，是指左手端和右手端)。

如本文中使用的术语“条形码(的)序列”是指构成条形码的核苷酸序列。条形码的序列的长度可以是至少3个核苷酸，更常见的长度为5至-30个或更多个核苷酸。

如本文中使用的术语“匹配”是指这样的行为，将两个序列进行比较，如果它们完全相同、互补或非常相似(例如，当使用纠错条形码时)则将它们指示为匹配。在一些实施方案中，将匹配的序列置于一个组中。

本文中使用的术语“或其变体”是指具有与具有已知活性的蛋白质至少80％、至少85％、至少90％、至少95％、至少97％、至少98％或至少99％相同的氨基酸序列的蛋白质，其中所述变体与具有已知活性的蛋白质具有至少一些相同的活性。例如，野生型转座酶的变体应该能够催化相应的转座子插入DNA中。

如本文中使用的，术语“PCR试剂”是指在模板上进行聚合酶链反应(PCR)所需的所有试剂。正如本领域已知的，PCR试剂主要包括第一引物、第二引物、热稳定聚合酶和核苷酸。取决于所用的聚合酶，也可以存在离子(例如Mg²⁺)。PCR试剂可任选地含有可扩增出靶序列的模板。

术语“邻近”是指小于一个核苷酸的最长维度的距离。术语“可连接地邻近于(ligatably adjacent to)”是指两个核苷酸在链上彼此紧邻，没有间插核苷酸。

术语“(具)有尾”，在“有尾的寡核苷酸”或“具有5'尾或3'尾的寡核苷酸”的语境中，是指这样的寡核苷酸，其在5'或3'端具有一个区域(例如，至少12-50个核苷酸的区域)，该区域不与和引物的另一端相同的序列杂交。

术语“可区分的序列”是指彼此不同的序列。

如本文中使用的术语“靶核酸”是指被研究的感兴趣的多核苷酸。

术语“靶核酸分子”是指在组合物中可能或者可能不与其他靶核酸分子一起存在的单个分子。分离的靶核酸分子是指在不处于含其他靶核酸分子的组合物中的单个分子。

术语“区域”是指一段核苷酸序列，可为单链或双链。

术语“可变”，在“两个或更多个可变核酸序列”的语境中，是指两个或更多个核酸彼此具有不同的核苷酸序列。换言之，如果一群多核苷酸具有可变序列，则这群多核苷酸分子的核苷酸序列在不同分子之间是变化的。术语“可变”不应理解为要求群体中的每个分子都与群体中的其他分子具有不同的序列。

术语“转座子识别序列”是指转座酶(例如，Tn5转座酶或其变体)所结合的双链序列，其中转座酶催化双链DNA样品片段化，且同时用与转座子末端序列邻近的序列将这些片段标签化(即，通过“标签片段化”)。用于标签片段化的方法以及转座子末端序列是本领域熟知的(参见，例如，Picelli等人，Genome Res.2014 24:2033-40；Adey等人，GenomeBiol.2010 11:R119以及Caruccio等人，Methods Mol.Biol.2011 733:241-55，US2010012009和US20130203605)。用于进行标签片段化的试剂盒由Illumina(San Diego,CA)以商品名NEXTERA^TM进行商业销售。Tn5转座子识别序列的长度为19bp，许多其他长度是已知的，通常为18-20bp，例如长度为19bp。

术语“衔接子”是指这样的核酸，其可以通过转座酶介导的反应与双链DNA分子的至少一条链连接。显然，衔接子的一端可含有转座子末端序列。术语“衔接子”是指至少部分为双链的分子。衔接子的长度可以是40至150个碱基，例如50至120个碱基，但这个范围之外的衔接子也在考虑之内。

如本文中使用的，术语“衔接子标签化的”是指已用衔接子标签化的核酸。衔接子可以连接到核酸分子的5'端和/或3'端。

如本文中使用的，术语“标签化(或加标签)的DNA”是指具有添加的衔接子序列(即，合成来源的“标签”)的DNA分子。可通过转座酶添加(即，“附加”)衔接子序列。

术语“Y衔接子”是指这样的衔接子，其包含双链区和单链区，单链区中相对的序列(oppositing sequences)不互补。双链区的末端可以，或可能，与靶分子(如基因组DNA的双链片段)连接，例如通过转座酶催化的反应连接。对于已连接上Y衔接子的衔接子标签化双链DNA，其每条链是不对称标签化的，因为该链的一端具有Y衔接子的一条链的序列，另一端具有Y衔接子的另一条链的序列。将已经两端与Y衔接子连接的核酸分子进行扩增产生不对称标签化的核酸，即核酸的5'端含有一个标签序列，3'端具有另一个标签序列。Y衔接子的相对的非互补序列称为衔接子的“臂”。Y衔接子的双链区称为衔接子的“茎”。示例性Y衔接子的结构显示在图3的下边。

术语“包含非互补序列的末端”是指至少部分双链分子(at least partiallydouble-stranded molecule)的末端，其中相对的链彼此不碱基配对。

术语“复杂度”是指一个群体中不同序列的总数。例如，如果一个群体有4种不同的序列，那么该群体的复杂度为4。一个群体可具有至少4、至少8、至少16、至少100、至少1,000、至少10,000或至少100,000或更高的复杂度，这取决于期望的结果。

如本文中使用的术语“标签片段化”是指在转座酶催化下，将双链DNA样品片段化，并且用与转座子末端序列邻近的序列给片段加标签。用于标签片段化的方法是熟知的(参见，例如，Picelli等人，Genome Res.2014 24:2033-40；Adey等人，Genome Biol.2010 11:R119和Caruccio等人，Methods Mol.Biol.2011 733:241-55，US20100120098和US20130203605)。用于进行标签片段化的试剂盒由多家制造商商业销售。

术语“负载的”是指这样的过程，将转座酶和含有转座子末端序列的分子混合在一起以形成复合物，该复合物含有与所述分子结合的转座酶。

术语“填充和密封”(filling in and sealing)是指这样的反应，两个双链序列之间的单链区在聚合酶(通常是非链置换性聚合酶)的作用下被填充，并通过连接酶连接。

术语“两条链上的相同条形码”，及其语法等同物，是指这样的双链分子，其一条链的5'端共价连接有条形码序列，另一条链的3'端共价连接有该条形码序列的互补序列。

整个说明书中可能出现其他术语的定义。

示例性实施方案的说明

在描述各个实施方案之前，应该理解本公开的教导并不限于所描述的具体实施方案，正因为如此，当然可以改变。还应当理解，本文中使用的术语是仅仅出于描述具体实施方案的目的，而不意图限制，因为本发明教导的范围仅由所附权利要求书限定。

在本文中使用的章节标题仅仅是出于组织的目的，而不应当解释为以任何方式限制所描述的主题。虽然结合各个实施方案描述了本发明教导，但是并不意味着本发明教导限于这样的实施方案。相反，如本领域技术人员将理解的，本发明教导涵盖各种替代方案、修改和等同物。

除非另外定义，本文中使用的全部技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。尽管可以在本发明教导的实践或测试中使用类似于或等同于本文所述的那些任何方法和材料，但描述了一些示例性的方法和材料。

任何出版物的引用是因为其公开在申请日之前，并且不应被解释为承认由于在先发明而使本权利要求书没有资格先于这样的出版物。此外，提供的出版日期可能与需要独立证实的实际出版日期不同。

对于本领域技术人员在阅读本公开内容后将显而易见的是，本文中描述和展示的每个单独的实施方案具有离散的部件和特征，其可以容易地与任何其他几个实施方案的特征分离或组合，而不脱离本发明教导的范围或精神。任何叙述的方法可以按照叙述的事件的顺序或以逻辑上可能的任何其他顺序进行。

本文中提及的所有专利和出版物，包括在这些专利和出版物中公开的所有序列在内，都明确地通过提述并入本文。

本文中提供了用于对含有双链DNA分子的样品加标签/标签化的多种多样的组合物、方法和试剂盒。用这些组合物、方法和试剂盒可以用于分析来自几乎任何生物的基因组DNA，包括但不限于植物、动物(例如，爬行动物、哺乳动物、昆虫、蠕虫、鱼等)、组织样品、细菌、真菌(例如酵母)、噬菌体、病毒、尸体组织、考古/古代样品等。在某些实施方案中，在所述方法中使用的基因组DNA可以源自哺乳动物，其中在某些实施方案中，哺乳动物是人。在示例性实施方案中，样品可含有来自诸如人、小鼠、大鼠或猴细胞的哺乳动物细胞的基因组DNA。样品可以由培养的细胞或临床样品的细胞制成，例如组织活检，法医样品的刮擦物或灌洗物或细胞(即，在犯罪现场采集的样品的细胞)。在具体实施方案中，核酸样品可以从诸如细胞、组织、体液和粪便的生物样品获得。感兴趣的体液包括但不限于血液、血清、血浆、唾液、粘液、痰、脑脊液、胸膜液、泪液、乳管液、淋巴液、痰液、滑液、尿液、羊水和精液。在具体实施方案中，可以从受试者例如人获得样品。

在一些实施方案中，样品包含从临床样品获得的DNA片段，例如，来自具有或疑似具有疾病或病症比如癌症、炎性疾病或妊娠的患者。在一些实施方案中，可以通过从存档的患者样品(例如，福尔马林固定石蜡包埋的组织样品)中提取片段化的DNA来制备样品。在其他实施方案中，患者样品可以是来自体液(例如外周血)的无细胞循环DNA的样品。在该方法的最初步骤中使用的DNA片段应该是未经预先变性的非扩增的DNA。在其他实施方案中，样品中的DNA可能已经被部分片段化(例如，对于FFPE样品和循环无细胞DNA(cfDNA)，例如ctDNA，即为如此)。

参考图1，本发明衔接子可包含一群第一寡核苷酸1、第二寡核苷酸3和第三寡核苷酸5，其中第一寡核苷酸、第二寡核苷酸和第三寡核苷酸杂交在一起以产生复合物2，该复合物包含：(i)包含转座酶识别序列4的第一端，(ii)可变序列6的中心单链区和(iii)包含非互补序列8的第二端。在许多实施方案中，第一寡核苷酸应当与第二和第三寡核苷酸分别具有至少10个碱基对的互补性，而在实践中，第一寡核苷酸可能与第二和第三寡核苷酸分别具有至少15个碱基对的互补性，如图所示。

在一些实施方案中，非互补序列8，即“臂”，可以具有任何适合的长度，例如，至少10个、至少12个、至少14个核苷酸的长度，并且可以设计为与下游使用的测序平台相容。例如，如图2所示，衔接子可含有P5和P7序列，它们与Illumina的测序平台相容。在一些实施方案中，如图5所示，非互补序列可以在环结构9中彼此连接。可变序列6的长度可以是至少2个，例如，至少3个、至少4个、至少5个、至少6个、至少7个或至少8个核苷酸，并且可以具有至少4、至少8、至少16、至少100、至少1,000、至少10,000或更高的复杂度，这取决于可变序列将如何被使用。图2中所示的复合物的顶链可以是5'至'3方向或3'至5'方向。

如图2中所示，在某些实施方案中，第一寡核苷酸群包含5'区、3'区以及5'区与3'区之间的可变序列区；第二寡核苷酸与各第一寡核苷酸的3'区互补并杂交，以形成转座酶识别序列(显示为黑色)；第三寡核苷酸包含与第一寡核苷酸的3'区的3'端互补并杂交的5'端，并且包含与第一寡核苷酸的3'区的5'端不互补的3’尾。如所示，第二和第三寡核苷酸两者都具有5'磷酸。

衔接子的转座酶识别序列可以是Tn转座酶(例如Tn3、Tn5、Tn7、Tn10、Tn552、Tn903)、MuA转座酶、Vibhar转座酶(例如来自哈维氏弧菌)的转座酶识别序列，不过也可以使用其他转座酶(Ac-Ds、Ascot-1、Bs1、Cin4、Copia、En/Spm、F元件、hobo、Hsmar1、Hsmar2、IN(HIV)、IS1、IS2、IS3、IS4、IS5、IS6、IS10、IS21、IS30、IS50、IS51、IS150、IS256、IS407、IS427、IS630、IS903、IS911、IS982、IS1031、ISL2、L1、Mariner、P元件、Tam3、Tc1、Tc3、Tel、THE-1、Tn/O、TnA、Tn3、Tn5、Tn7、Tn10、Tn552、Tn903、Tol1、Tol2、TnlO、Tyl，包括它们的变体)的转座酶识别序列。

含有衔接子的组合物还可以含有识别转座酶识别序列的转座酶，在某些情况下，转座酶可以负载有衔接子。所述组合物还可包含非链置换性聚合酶(例如，T4DNA聚合酶)和连接酶。

根据下面的论述可以显见，可变序列充当分子条形码，帮助在测序后识别片段以及片段的链。正如下面将更详细地解释的(并且如图3中所示)，可变区在标签片段化过程中可以被容易地复制到衔接子的另一条链，从而提供了一个用相同的分子条形码将DNA片段的两条链都加标签的途径。具体地说，所述衔接子提供了这样一种途径，双链分子的两条链都可以用相同的条形码加标签，使得在测序或扩增后，衍生自顶链的序列读段可以与衍生自底链的序列读段连接和/或比较。这个特征是重要的，因为“真实的”突变应该在两条链中(即，在顶链和底链中)都有，并且知道了序列读段是来自顶链还是底链，就可以将顶链序列与底链序列进行比较，使得序列中的变异确实对应于突变的可信度更高。

本文中还提供了用于标签片段化样品的方法，包括使包含双链DNA的样品与负载有上述衔接子的转座酶接触；并且使用聚合酶和连接酶填充并密封衔接子的中心单链区。应仔细考虑用于填充和密封反应的DNA聚合酶的性质。在一些实施方案中，使用非链置换性聚合酶，因此第二双链体区5保持退火。在其他实施方案中，链置换聚合酶可以在这样的条件下使用：第二双链体区5仅被少数核苷酸置换，并且产生的结构可以利用瓣状核酸内切酶活性结合连接酶活性解开。非链置换性聚合酶的实例包括T4或T7聚合酶。在一些实施方案中，可以使用3'-5’核酸外切酶活性降低或缺乏3'-5’核酸外切酶活性的聚合酶，使得Y的3'臂不被聚合酶消化。例如，可以使用具有降低的3'-5’外切活性的突变体T4聚合酶。例如，可以使用硫化叶菌(Sulfolobus)DNA聚合酶IV。该反应产生一群DNA片段，这些DNA片段的两端被Y衔接子标签化，每个Y衔接子的两条链上均包含第一寡核苷酸的可变序列。图3示意性地说明了这种填充和密封反应。在该反应之后，片段一端的两条链将与第一条形码及其互补序列相关联，而片段另一端的两条链将与第二条形码及其互补序列相关联。此外，因为转座酶插入是定向的，所以每个通过所述方法产生的片段将被不对称标签化，即每个带标签的DNA链的5'端将与一个非互补序列8(例如，P5序列)连接，而链的3'端将与另一个非互补序列8(例如，P3序列)连接。使用一对靶向非互补序列的引物(例如，靶向例如P5和p7序列的引物)可以有效地扩增不对称标签化的片段。

在具体实施方案中，上述填充和密封反应与在标签片段化过程中发生的填充和密封反应可以在同一反应中完成(并且如图4所示)。因此，在一些实施方案中，该方法通过在单个反应容器中使样品、负载有衔接子的转座酶、聚合酶(例如T4DNA聚合酶)和连接酶相混合来完成。在这些实施方案中，聚合酶和连接酶填充并密封衔接子的单链区，并修复标签化片段的3'端与转座子识别序列的底链的5'端之间的空位(通常为9bp)。

参考图4，所述方法的一些实施方案可以包括将衔接子负载到转座酶二聚体中，并在发生标签片段化的条件下，将负载的衔接子与基因组DNA和其他必需的试剂(例如，dNTP、连接酶、聚合酶等等)混合。所得复合物中的空位(由转座酶断裂和单链条形码区域所导致)可以用非链置换性聚合酶(比如T4DNA聚合酶)来填充，并且，借助第二和第三寡核苷酸中的两个上的5'磷酸，可以用DNA连接酶连接末端。

在一个替代的实施方案中，含有测序引物和P7序列的寡核苷酸在转座之后与基因组片段杂交，而不是在转座之前负载到转座酶中。这有几个潜在优势。首先，这意味着在连接之前将不会由于损失这个第三部分(例如在酶原液的储存或再水化中)而损失测定效率。其次，在转座反应过程中，双链DNA是转座酶的潜在靶标。双链区可能太短而不能有效转座，但可能有显著量的切割活性存在。第三，没有该部分，使得在连接之前熔融掉(meltingaway)19bp磷酸化的转座酶识别序列成为可能。这意味着每个末端只需要单独一次连接事件，取决于该步骤的效率，这可能是有用的。这些实施方案的代价是额外的杂交反应。然而，由于杂交的茎序列对于所有末端可以是相同的，因此该杂交反应可以过量且相对较快地进行。

在一些实施方案中，衔接子可以仅包含一个或两个形成茎-环结构的分子，其具有包含转座酶识别序列的双链体区(图5，以黑色显示)和单链环区(图5)。使用茎环衔接子的转座酶衔接子的一个实例描述于美国专利申请2010/0120098A1中。然而，在我们在此描述的实施方案中，我们使用包含特异性扩增序列的大环区。这种环状构型的一个优点在于，衔接子的单链区将对核酸外切酶消化或某些聚合酶中存在的3'-5'核酸外切酶活性具有抗性。这种构型的第二个优点在于，仅需要一个或两个寡核苷酸来形成衔接子，而不是三个。在实施方案中，单个长寡核苷酸的环区可具有可切割区，比如可被核糖核酸酶切割的核糖核酸区域、或可被USER酶切割的一个或多个脱氧尿苷残基、或一个或多个无碱基位点、或可化学切割或可光切割的基团(图6A)。在其他实施方案中，可切割区可包含另一个双链体区，该双链体区包含限制性消化位点。双链体区可以通过使用可让单链区在其末端退火的序列(图6B)或通过使用与衔接子的单链区的两个末端退火的夹板寡核苷酸来形成。茎环结构作为衔接子的应用描述于美国专利No.8,883,990、8,029,993和8,288,097中。在其他实施方案中，单链环区还可含有一个或多个随机核苷酸序列(DBR)，其可用作独特的分子标识符(图6C)。在这些实施方案中，整个衔接子可以由单个寡核苷酸制成，该单个寡核苷酸与其自身退火，填充和密封步骤仅需要密封转座反应所产生的9个碱基的空位。另外，使用单环结构代替Y的臂，使得衔接子构建的替代方法成为可能(图7)。在这个实施方案中，可以使用单个寡核苷酸构建衔接子，聚合酶延伸引物将复制DBR条形码和转座酶结合位点。然后可以将这些经延伸的衔接子负载到转座酶中用于标签片段化，并且如图6C所示，填充和密封反应仅需要密封转座酶反应所产生的9个碱基的空位。

在一些实施方案中，单链环中没有可切割区。在这些实施方案中，环衔接子上的填充和密封反应将会把双链体靶DNA转化为环状DNA。Travers KJ等人在Nucleic AcidsRes.2010Aug；38(15):e159中描述了操作和测序环状DNA靶标的方法，这些方法中的一些已被Pacific Biosciences Corporation商业化为SMRTbell技术。在本文所述的实施方案中，在用茎环衔接子进行标签片段化之后，所形成的环状DNA产物可以使用结合于环内的引物进行PCR扩增拆分成线性产物。

图8说明了衔接子的另一个实施方案，其中存在多个包含切割位点的单链区。在这个图中，P5和P7代表在Illumina平台上的桥式扩增(bridge amplification)所必需的引物序列；这些引物序列可以被另一个测序平台例如离子激流的相应序列代替；“P”指示5'磷酸化，转座酶结合序列(显示为黑色)是19bp ES序列。在实施方案中，与DBR相对的单链区(灰色)可包含一个或多个可切割位点。例如，与DBR相对的区域可包含可被核糖核酸酶切割的核糖核酸、或可被USER酶切割的一个或多个脱氧尿苷残基、或一个或多个无碱基位点、或一个或多个可化学切割或可光切割的基团。与DBR相对的切割位点和单链环中的切割位点可以通过相同的方法切割，也可以通过不同的方法切割。

在其他实施方案中，想到了图1中的“Y”衔接子和图5中的杆环衔接子之外的衔接子结构。例如，如果Y衔接子是通过两个或三个寡核苷酸分子退火形成的，如图1中示意性所示，那么Y的一个或两个单链区可以包含回折于自身的回文序列，从而产生发夹以及3’端、5’端或这两者。这种发夹策略可用于减少或消除核酸外切酶活性、特别是在一些DNA聚合酶如T4DNA聚合酶或T7DNA聚合酶中发现的强烈的3'-5'核酸外切酶活性对单链区的消化。或者，Y衔接子的键连(linkages)可以包含3'-3'连接的核苷酸或硫代磷酸酯键，使它们具有核酸酶抗性。

在任何实施方案中，所述方法可以进一步包括使用与Y衔接子的臂杂交或互补的引物扩增标签化的DNA片段群(即，使用与添加到每个链的一端的序列互补的一个引物、和与添加到链的另一端的序列相同的另一个引物)。如上所述，因为由该过程产生的片段是不对称标签化的，所以该方法的这个部分的效率至少是使用两个不同衔接子的方法的两倍。这个扩增步骤可以在溶液中进行(即，使用溶液中的引物)，或者可以通过桥式PCR进行(使用引物，例如栓系到固体支持物上的P5和P7引物)。因此，在某些情况下，标签片段化产物可以被直接施用到用于测序的基底上并通过桥式PCR扩增。显然，如果片段不在溶液中扩增而直接测序，那么衔接子的臂应该兼容所使用的测序平台，例如Illumina的可逆终止子法、Roche的焦磷酸测序法(454)、Life Technologies的边连接边测序(SOLiD平台)或LifeTechnologies的离子激流平台等。在其他实施方案中，可以在测序之前在溶液中扩增标签化片段，在这种情况下，可以使用其他引物(例如，以P5和P7序列加尾的引物)。换言之，标签化的DNA可以在纯化后直接加载到Illumina测序芯片上，也可以视需要用P5和P7引物序列进行PCR以产生更多的靶材料。生成的标签片段化DNA理应呈现100％的基因组DNA起始序列，因此等位基因脱扣(dropout)的水平可以降到最低。应当注意的是，如果不需要使用条形码技术的话，这种方法可以不使用条形码技术。通过相应地修饰初始衔接子序列，其他不利用P5和P7序列的NGS方法也可以与这种方法一起使用。

接下来，可以对至少一些标签化的DNA片段测序。标签化的片段可以被直接测序，或者在一些实施方案中，可以扩增片段(例如通过PCR)以产生扩增产物，然后测序。下一代测序方法的实例描述于以下参考文献中：Margulies等人(Nature 2005 437:376–80)；Ronaghi等人(Analytical Biochemistry 1996 242:84–9)；Shendure等人(Science 2005309:1728-32)；Imelfort等人(Brief Bioinform.2009 10:609-18)；Fox等人(Methods MolBiol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)和Morozova等人(Genomics.2008 92:255-64)，将所述方法的一般描述和方法的具体步骤通过提述并入本文，包括每个步骤的所有起始产物、试剂和最终产物在内。

测序步骤可以使用任何合宜的下一代测序方法完成，并且可以产生至少10,000、至少50,000、至少100,000、至少500,000、至少1M、至少10M、至少100M或至少1B序列读段。在一些情况下，读段是双端测序(paired-end)读段。可以使用任何适合的方法将产物测序，包括但不限于Illumina的可逆终止子法、Roche的焦磷酸测序法(454)、Life Technologies的边连接边测序(SOLiD平台)、Life Technologies的离子激流平台或Pacific Biosciences的荧光碱基裂解法。这样的方法的实例描述于以下参考文献中：Margulies等人(Nature2005437:376–80)；Ronaghi等人(Analytical Biochemistry 1996 242:84–9)；Shendure(Science 2005 309:1728)；Imelfort等人(Brief Bioinform.2009 10:609-18)；Fox等人(Methods Mol Biol.2009；553:79-108)；Appleby等人(Methods Mol Biol.2009；513:19-39)English(PLoS One.2012 7:e47768)和Morozova(Genomics.2008 92:255-64)，将所述方法的一般描述和方法的具体步骤通过提述并入本文，包括每个步骤的所有起始产物、试剂和最终产物在内。

在另一个实施方案中，可以使用纳米孔测序(例如，如Soni等人在Clin.Chem.200753:1996-2001中所述，或如Oxford Nanopore Technologies所述)对带有标签的DNA测序。纳米孔测序是一种单分子测序技术，单个DNA分子在通过纳米孔时被直接测序。纳米孔是一个直径为1纳米量级的小孔。将纳米孔浸入导电流体中并施加穿过纳米孔的电势(电压)，由于离子通过纳米孔的传导而产生轻微的电流。流过的电流的量对于纳米孔的大小和形状是敏感的。当DNA分子穿过纳米孔时，DNA分子上的每个核苷酸都会以不同的程度阻塞纳米孔，从而以不同的程度改变通过纳米孔的电流大小。因此，这种随着DNA分子穿过纳米孔而改变的电流代表了对DNA序列的读取。纳米孔测序技术公开于美国专利No.5,795,782、6,015,714、6,627,067、7,238,485和7,258,838以及美国专利申请No.2006003171和20090029477中。

可以在序列读段中鉴定分子条形码序列，并且，利用可自已知方法改编的方法，参见，例如，Casbon(Nucl.Acids Res.2011 39:e81)、Fu(Proc.Natl.Acad.Sci.2011 108:9026-9031)和Kivioia(Nat.Methods 2011 9:72-74)，可用于鉴定序列错误，用于等位基因判读，用于赋予置信度，用于进行拷贝数分析，以及估计基因表达水平。若使用可纠错条形码，这样的分析可以变得更准确，因为即使一个条形码被错读，也可以纠正错误或者消除读段。

可以通过计算机分析序列读段，因此，执行下面阐述的步骤的指令可以作为程序设计描述，可以记录在适合的物理计算机可读存储介质中。下面描述了一些分析步骤的一般原理。

如上所述，所述方法导致相同的条形码序列(即，条形码序列及其互补序列)附加到片段的两条链上，这允许人们将源自初始片段的顶链的读段与源自该片段的底链的读段进行匹配。在一些情况下，条形码序列可出现在序列读段的开始或序列读段的末端。在某些情况下，可以在双端测序读段的开始处鉴定远端条形码。

在一些实现方式中，可对序列读段进行初始处理以鉴定序列中的任何分子条形码(包括样品标识符序列)，和/或修剪读段以移除低质量或不必要的衔接子序列。在一些实施方案中，序列读段可以按照它们的序列和序列读段的片段化断点分组，其中片段化断点表示为在已经修剪掉添加的序列之后的序列的“末端”。假定断裂位于随机或半随机位置，则具有相同序列的不同片段可以通过其片段化断点加以区分。按照片段化断点对序列读段进行分组提供了确定某个序列(例如变体)是否存在于多于一个起始分子中的途径。

在某些实施方案中，所述方法可以进一步包括鉴定对应于片段的顶链的一组序列读段中的潜在序列变异，并确定所述潜在序列变异是否存在于任何对应于该片段的底链的序列读段中。可以对这些读段进行分组，因为如上所述，它们具有相同的条形码。如果某个潜在序列变异不同时存在于片段的两条链中，则该潜在序列变异更可能是由于PCR错误或测序错误所致。如果片段的两条链中都有该潜在序列变异，那么该潜在序列变异更可能对应于样品中的“真实”序列变异。因此，如果某个潜在序列变异存在于样品中同一分子的两条链中，则它是真实的变异(而不是PCR错误或测序错误)的可信度增加。由于能够区分源自不同片段的序列读段与源自相同片段的不同链的序列读段，使得人们更可信地确定序列变异是否为真实的。

在某些实施方案中，测序的样品可包含来自多个样品的核酸池，其中样品中的核酸具有指示其来源的不同的分子条形码。在一些实施方案中，被分析的核酸可以衍生自单一来源(例如，来自单一受试者的不同部位或时程)，而在其他实施方案中，核酸样品可以是从多个不同来源提取的核酸的池(例如，来自不同受试者的核酸的池)，其中“多个”是指两个或更多个。因此，在某些实施方案中，核酸样品可以含有来自2个或更多个来源、3个或更多个来源、5个或更多个来源、10个或更多个来源、50个或更多个来源、100个或更多个来源、500个或更多个来源、1000个或更多个来源、5000个或更多个来源，至多并且包括约10,000个或更多个来源的核酸。这些分子条形码允许来自不同来源的序列在被分析之后得以区分。这样的条形码可以在衔接子中，也可以在扩增过程中(在加标签之后)添加。

试剂盒

本公开还提供了用于实施如上所述的主题方法的试剂盒。在某些实施方案中，试剂盒可包含如上所述的转座酶和衔接子。在一些实施方案中，试剂盒可以进一步包含连接酶和聚合酶，并且在某些实施方案中，所述转座酶负载有衔接子。负载的转座酶、聚合酶和连接酶可以构成预混物，即，处于一个容器中。在一些实施方案中，试剂盒进一步包含一对引物，所述引物与所述衔接子的第二端的非互补序列互补或相同。

任一试剂盒可另外包含用于进行所述方法的适合的反应试剂(例如，缓冲液等)。试剂盒的各种组分可以存在于分开的容器中，或者根据需要可以将某些相容的组分预组合到单个容器中。除了上述试剂之外，试剂盒可以含有在上述方法中使用的任何其他组分，例如一种或多种酶和/或缓冲液等。

除了上述组分之外，主题试剂盒可以进一步包括关于使用试剂盒的组分来实施主题方法的说明书，即，关于样品分析的说明书。用于实施主题方法的说明书通常记录在适合的记录介质上。例如，说明书可以印刷在诸如纸或塑料等基材上。因此，说明书可以作为包装说明书存在于试剂盒中，在所述试剂盒的容器或其组件的标签中(即，与包装或分装相关联)。在其他实施方案中，说明书作为存在于适合的计算机可读存储介质(例如CD-ROM，磁盘等)上的电子存储数据文件存在。仍然在其他实施方案中，在试剂盒中并不存在实际的说明书，但提供了从远程来源(例如，通过互联网)获得说明书的手段。这种实施方案的实例是包括网址的试剂盒，可以在所述网址查看说明书和/或可以从该网址下载说明书。与说明书一样，这种用于获得说明书的手段记录在适合的基材上。

实施例

使用负载有Y衔接子寡核苷酸的Vibhar转座酶以下列方式将基因组DNA成功标签片段化并测序。我们首先使具有以下序列的两个寡核苷酸退火：

5’-AAGAACCAGGCTTGTCCTCATAGATCGCACTTGTGATCAAGAGACAG-3’(SEQ ID NO:1)

和

5’-pCTGTCTCTTGATCACAAGTTAAGGCGATTTCTCAAGGCAATGGGACT-3’(SEQ ID NO:2)

将冻干的寡核苷酸重悬在10mM N,N-二羟乙基甘氨酸(pH 7.9)和20mM KCl的溶液中至800微摩尔浓度来进行退火。然后将两种寡核苷酸以一比一的比例混合并加热至70摄氏度维持10分钟，然后使其缓慢冷却至室温维持数小时。然后通过制备50微升下列混合物使得到的双链DNA与Vibhar转座酶结合：

116μM DNA

225mM KCl

9.4％甘油

1mM EDTA

2mM DTT

0.05％聚乙二醇苯基醚

3.07mg/ml Vibhar转座酶

将该混合物在25摄氏度下温育4小时，然后在4摄氏度下温育3天。然后在4μl的该负载的转座酶混合物中加入118.8μl的[20mM N,N-二羟乙基甘氨酸-NH₄，pH 7.9；250mMKCl；2mM DTT；0.1mM EDTA，pH8.0；50％甘油]进行稀释。

为了标签片段化人基因组DNA，将1μl的上述转座酶稀释液添加至2μl的25ng/μ人基因组DNA，所述人基因组DNA在来自Agilent SureSelect QXT文库制备试剂盒(AgilentTechnologies，目录号G9682A)的17μl的Agilent SureSelect QXT缓冲液中。如SureSelectQXT文库制备试剂盒方案中所述，在AMPure XP珠子(Beckman Coulter Genomics目录号A63880)上进行标签片段化和随后的纯化。然后在以下反应系统中30摄氏度反应9分钟，将转座酶标签片段化的DNA中的九个核苷酸空位填充并连接：

10μl标签片段化的基因组DNA

1mM ATP

0.1mM脱氧核糖核苷三磷酸

20mM Tris-HCl

10mM(NH4)2SO4

10mM KCl

2mM MgSO4

0.1％Triton X-100

2个单位的硫化叶菌DNA聚合酶IV(New England BioLabs)

3,000个单位的T3DNA连接酶(New England BioLabs)

如Agilent SureSelect QXT文库制备试剂盒方案中所述将反应物再次在AMPure珠子上纯化，然后通过PCR扩增，不同之处在于使用以下PCR引物进行10轮PCR：

5’-AATGATACGGCGACCACCGAGATCTACACCGACAGGTTCAGAAGAACCAGGCTTGTCCTCA-3’(SEQ ID NO:3)

5’-CAAGCAGAAGACGGCATACGAGATGCGCGTCCGACGAGCAGTCCCATTGCCTTGAGAAA-3’(SEQID NO:4)

用Agilent Bioanalyzer分析PCR反应产物并且通过在Illumina MiSeq仪器上的测序证明，基因组DNA已被成功标签片段化，并且适合于测序。

实施方案

实施方案1：一种衔接子，包含第一寡核苷酸的群体、第二寡核苷酸和第三寡核苷酸，其中第一寡核苷酸、第二寡核苷酸和第三寡核苷酸杂交在一起以产生复合物，所述复合物包含：(i)包含转座酶识别序列的第一端，(ii)可变序列的中心单链区，和(iii)包含非互补序列的第二端。

实施方案2：在一些实施方案中，a)第一寡核苷酸的群体包含5'区、3'区以及5'区与3'区之间的可变序列区；b)第二寡核苷酸与第一寡核苷酸的3'区互补并杂交，以形成转座酶识别序列；和c)第三寡核苷酸包含与第一寡核苷酸的3'区的3'端互补并杂交的5'端，并且包含与第一寡核苷酸的3'区的5'端不互补的3’尾。

实施方案3：任何前述实施方案的衔接子，其中所述可变序列具有至少为10的复杂度。

在任何实施方案中，第一寡核苷酸的5'端和第三寡核苷酸的3’尾可以通过可切割区连接在一起。

实施方案4：任何前述实施方案的衔接子，其中所述可变序列具有至少为1,000的复杂度。

在任何实施方案中，第一、第二和第三寡核苷酸可以通过允许大于60个核苷酸的单一寡核苷酸自我退火，然后切割位于第一和第三寡核苷酸之间的序列与第二和第三寡核苷酸之间的序列之间的可切割位点来形成。

实施方案5：任何前述实施方案的衔接子，其中转座酶识别序列是Tn5转座酶或其变体的识别序列。

实施方案6：任何前述实施方案的衔接子，其中转座酶识别序列是Vibhar转座酶或其变体的识别序列。

实施方案7：任何前述实施方案的衔接子，其中第一寡核苷酸分别与第二和第三寡核苷酸具有至少10个碱基对的互补性。

在任何实施方案中，第三寡核苷酸的3'尾可以包含修饰，使得3'端对3'-5'核酸外切酶活性的消化具有抗性。

实施方案8：一种组合物，包含实施方案1-7中任一项的衔接子和转座酶。

实施方案9：一种用于标签片段化样品的方法，其包括：使包含双链DNA的样品与负载有实施方案1-7中任一项的衔接子的转座酶接触；并且使用聚合酶和连接酶填充和密封所述衔接子的中心单链区，由此产生在两端都被Y衔接子标签化的DNA片段的群体，每个Y衔接子在两条链上都包含第一寡核苷酸的可变序列。

实施方案10：任何前述方法实施方案的方法，其中所述方法通过在单个反应容器中使样品、负载有衔接子的转座酶、聚合酶和连接酶混合来完成。

实施方案11：任何前述方法实施方案的方法，其中填充通过T4聚合酶来完成。

在任何实施方案中，填充可以通过硫化叶菌DNA聚合酶IV在低于50摄氏度的温度下完成。

实施方案12：任何前述方法实施方案的方法，其中所述方法进一步包括使用靶向Y衔接子的臂的引物来扩增所述DNA片段的群体。

实施方案13：实施方案12的方法，其中所述扩增在溶液中完成。

实施方案14：实施方案12的方法，其中所述扩增通过桥式PCR完成。

实施方案15：任何前述方法实施方案的方法，进一步包括对至少一些标签化的DNA片段测序。

实施方案16：任何前述方法实施方案的方法，进一步包括对至少一些标签化的DNA片段测序。

实施方案17：任何前述方法实施方案的方法，其中a)第一寡核苷酸的群体包含5'区、3'区以及5'区与3'区之间的可变序列区；b)第二寡核苷酸与第一寡核苷酸的3'区互补并杂交，以形成转座酶识别序列；和c)第三寡核苷酸包含与第一寡核苷酸的3'区的3'端互补并杂交的5'端，并且包含与第一寡核苷酸的3'区的5'端不互补的3’尾。

实施方案18：任何前述方法实施方案的方法，其中所述可变序列具有至少为10的复杂度。

实施方案19：任何前述方法实施方案的方法，其中所述可变序列具有至少为1,000的复杂度。

实施方案20：任何前述方法实施方案的方法，其中转座酶识别序列是Tn5转座酶或其变体的识别序列。

实施方案21：任何前述方法实施方案的方法，其中转座酶识别序列是Vibhar转座酶或其变体的识别序列。

实施方案22：任何前述方法实施方案的方法，其中第一寡核苷酸分别与第二和第三寡核苷酸具有至少10个碱基对的互补性。

实施方案23：一种试剂盒，其包含：转座酶；实施方案1-7中任一项的衔接子；和聚合酶。

实施方案24：任何前述试剂盒实施方案的试剂盒，其中所述转座酶负载有衔接子。

实施方案25：任何前述试剂盒实施方案的试剂盒，其中负载的转座酶、聚合酶和连接酶构成预混物。

实施方案26：任何前述试剂盒实施方案的试剂盒，其中试剂盒进一步包含一对引物，所述引物与所述衔接子的第二端的非互补序列互补或相同。

在一些实施方案中：a)第一寡核苷酸群包含5'区、3'区以及5’区与3’区之间的可变序列区；b)第二寡核苷酸与第一寡核苷酸的3'区互补并杂交，以形成转座酶识别序列；和c)第三寡核苷酸包含与第一寡核苷酸的3'区的3'端互补并杂交的5'端，并且包含与第一寡核苷酸的3'区的5'端不互补的3’尾。

实施方案27：任何前述试剂盒实施方案的试剂盒，其中所述可变序列具有至少为10的复杂度。

实施方案28：任何前述试剂盒实施方案的试剂盒，其中所述可变序列具有至少为1,000的复杂度。

实施方案29：任何前述试剂盒实施方案的试剂盒，其中转座酶识别序列是Tn5转座酶或其变体的识别序列。

实施方案30：任何前述试剂盒实施方案的试剂盒，其中转座酶识别序列是Vibhar转座酶或其变体的识别序列。

实施方案31：任何前述试剂盒实施方案的试剂盒，其中第一寡核苷酸分别与第二和第三寡核苷酸具有至少10个碱基对的互补性。

实施方案32：一种衔接子，其包含第一寡核苷酸和第二寡核苷酸，其中第一和第二寡核苷酸杂交在一起以产生复合物，所述复合物包含：(i)包含双链转座酶识别序列的第一端和(ii)包含非互补序列的第二端。这两个寡核苷酸衔接子可以含有前述三寡核苷酸衔接子的许多(如果不是全部)一般特征，例如条形码等，不同之处是单链可变区现在是双链的，并且是衔接子的茎的一部分。在一些情况下，在这个实施方案中，所述衔接子的一个臂可以包含条形码。

实施方案33：一种用于标签片段化样品的方法，其包括：使包含双链DNA的样品与负载有实施方案31的衔接子的转座酶接触，由此产生在两端都被Y衔接子标签化的DNA片段的群体，其中每个所述Y衔接子的两条链上均包含第一寡核苷酸的可变序列。

实施方案34：一种衔接子，其包含第一寡核苷酸，其中所述第一寡核苷酸包含：(i)双链体区和单链环区，(ii)双链体区包含转座酶识别序列，和(iii)单链环区包含切割区。

实施方案35：任何前述实施方案的衔接子，其中衔接子包含可变序列区。

实施方案36：任何前述实施方案的衔接子，其中衔接子包含可变序列区，其中所述可变序列在单链区中。

实施方案37：任何前述实施方案的衔接子，其中衔接子包含多于一个可变序列区，其中所述可变序列在单链区中。

实施方案38：任何前述实施方案的衔接子，其中衔接子包含多于一个可切割区，其中一个可切割区在单链区中。

实施方案39：任何前述实施方案的衔接子，其中衔接子包含脱氧核酸，并且可切割区包含尿嘧啶或脱氧尿嘧啶。

实施方案40：任何前述实施方案的衔接子，其中衔接子包含脱氧核糖核酸，并且可切割区包含核糖核酸。

实施方案41：任何前述实施方案的衔接子，其中衔接子包含脱氧核糖核酸，并且可切割区包含可化学切割的基团。

实施方案42：任何前述实施方案的衔接子，其中衔接子包含脱氧核糖核酸，并且可切割区包含可光切割的基团。

实施方案43：任何前述实施方案的衔接子，其中第一寡核苷酸的5'端和第三寡核苷酸的3’尾通过可切割区连接在一起。

实施方案44：任何前述实施方案的衔接子，其中第一、第二和第三寡核苷酸通过允许大于60个核苷酸的单一寡核苷酸自我退火，然后切割位于第一和第三寡核苷酸之间的序列与第二和第三寡核苷酸之间的序列之间的可切割位点来形成。

实施方案45：任何前述实施方案的衔接子，其中第三寡核苷酸的3'尾包含修饰，使得3'端对3'-5'核酸外切酶活性的消化具有抗性，其中所述抗性定义为比没有修饰的天然的单链DNA具有更少的核酸外切酶消化。

实施方案46：任何前述方法实施方案的方法，其中填充通过具有降低的3'-5'核酸外切酶活性或缺乏3'-5'核酸外切酶活性的T4聚合酶突变体来完成。

实施方案47：任何前述方法实施方案的方法，其中填充通过具有降低的3'-5'核酸外切酶活性或缺乏3'-5'核酸外切酶活性的T7聚合酶突变体来完成。

实施方案48：任何前述方法实施方案的方法，其中填充通过硫化叶菌DNA聚合酶来完成。

实施方案49：任何前述方法实施方案的方法，其中填充通过硫化叶菌DNA聚合酶在低于50摄氏度的温度下完成。

序列表

<110> 安捷伦科技有限公司

<120> 转座酶和Y衔接子用于片段化和标签化DNA的用途

<130> 20160021-03

<150> 62/316,385

<151> 2016-03-31

<160> 4

<170> PatentIn version 3.5

<210> 1

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 1

aagaaccagg cttgtcctca tagatcgcac ttgtgatcaa gagacag 47

<210> 2

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 2

ctgtctcttg atcacaagtt aaggcgattt ctcaaggcaa tgggact 47

<210> 3

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 3

aatgatacgg cgaccaccga gatctacacc gacaggttca gaagaaccag gcttgtcctc 60

a 61

<210> 4

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 合成寡核苷酸

<400> 4

caagcagaag acggcatacg agatgcgcgt ccgacgagca gtcccattgc cttgagaaa 59

Claims

1.一种衔接子，其包含第一寡核苷酸的群体、第二寡核苷酸和第三寡核苷酸，其中第一寡核苷酸、第二寡核苷酸和第三寡核苷酸杂交在一起产生复合物，所述复合物包含：(i)包含转座酶识别序列的第一端，(ii)可变序列的中心单链区和(iii)包含非互补序列的第二端。

2.权利要求1所述的衔接子，其中：

a)第一寡核苷酸的群体包含5'区、3'区以及5’区与3’区之间的可变序列区；

b)第二寡核苷酸与第一寡核苷酸的3'区互补并杂交，以形成转座酶识别序列；和

c)第三寡核苷酸包含与第一寡核苷酸的3'区的3'端互补并杂交的5'端，并且包含与第一寡核苷酸的3'区的5'端不互补的3’尾。

3.任一前述权利要求所述的衔接子，其中第一寡核苷酸的5'端与第三寡核苷酸的3’尾在单个分子中，并且通过可切割区连接在一起。

4.任一前述权利要求所述的衔接子，其中所述可变序列具有至少1,000的复杂度。

5.任一前述权利要求所述的衔接子，其中第一、第二和第三寡核苷酸通过允许大于60个核苷酸的单一寡核苷酸分子自我退火，然后切割位于第一和第三寡核苷酸之间的序列与第二和第三寡核苷酸之间的序列之间的可切割位点来形成。

6.权利要求1-5中任一项所述的衔接子，其中转座酶识别序列是Vibhar转座酶或其变体的识别序列。

7.任一前述权利要求所述的衔接子，其中第三寡核苷酸的3'尾包含修饰，使得3'端对3'-5'核酸外切酶活性的消化具有抗性。

8.一种组合物，其包含任一前述权利要求所述的衔接子以及转座酶。

9.一种用于标签片段化样品的方法，其包括：

使包含双链DNA的样品与负载有权利要求中1-7中任一项所述的衔接子的转座酶接触；并且

使用聚合酶和连接酶填充和密封所述衔接子的中心单链区，由此产生在两端都被Y衔接子标签化的DNA片段的群体，每个Y衔接子在两条链上均包含第一寡核苷酸的可变序列。

10.权利要求9所述的方法，其中所述方法通过在单个反应容器中使样品、负载有衔接子的转座酶、聚合酶和连接酶混合来完成。

11.权利要求9或10所述的方法，其中所述填充由硫化叶菌DNA聚合酶IV在低于50摄氏度的温度下完成。

12.权利要求9-11中任一项所述的方法，其中该方法进一步包括使用靶向所述Y衔接子的臂的引物来扩增所述DNA片段的群体。

13.权利要求12所述的方法，其中所述扩增在溶液中完成。

14.权利要求12所述的方法，其中所述扩增通过桥式PCR完成。

15.权利要求9-14中任一项所述的方法，进一步包括对至少一些标签化的DNA片段测序。

16.一种试剂盒，其包含：

转座酶；

权利要求1-7中任一项所述的衔接子；和

聚合酶。

17.权利要求16所述的试剂盒，其中所述转座酶负载有所述衔接子。

18.权利要求17所述的试剂盒，其中负载的转座酶、聚合酶和连接酶形成预混物。

19.权利要求16-18中任一项所述的试剂盒，其中试剂盒进一步包含一对引物，所述引物与所述衔接子的第二端的非互补序列互补或相同。