CN110291207A

CN110291207A - 用于长程测序的条形码化dna

Info

Publication number: CN110291207A
Application number: CN201880008693.5A
Authority: CN
Inventors: G.诺兰
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG; Roche Diagnostics GmbH
Priority date: 2017-01-27
Filing date: 2018-01-26
Publication date: 2019-09-27
Also published as: US20200010893A1; JP2020505045A; EP3574112B1; EP3574112A1; JP7033602B2; WO2018138237A1

Abstract

本发明涉及用于促进核酸序列组装的方法和试剂盒，所述方法包括产生条形码，所述条形码编码从中合成多个完整或部分互补拷贝并随后测序的模板核酸的身份。

Description

用于长程测序的条形码化DNA

背景技术

本发明涉及DNA测序领域，且尤其涉及促进序列组装和定相测序的方法。

发明概述

本发明提供了促进核酸序列组装的方法，该方法包括：a）提供包含单链模板核酸的核酸样品；b）用一条或多条条形码起始引物引发各模板核酸以产生退火的核酸组装体，其中每条条形码起始引物包含3'-模板杂交部分和5'-条形码起始部分；c）进行聚合酶延伸以产生互补链，所述互补链保持与模板核酸退火；d）进行两轮或多轮偶联寡核苷酸编码单元“可测定的聚合物亚单元”（APS）的分开-合并合成，以在包含条形码区、引物区和与所述靶核酸互补的靶特异性区域的互补链的每一条上组装寡核苷酸条形码序列；e）对条形码化互补链进行测序；和f）使用条形码序列，鉴定由相同模板核酸产生的条形码化互补链，并从条形码化互补链的靶特异性区域组装模板核酸序列。

在一些实施方案中，该方法还包括在步骤（b）之前用亲和标签在3'末端对单链模板核酸进行末端标记。在一些实施方案中，亲和标签用于在进行步骤（e）之前纯化步骤（e）的条形码化的链。在一些实施方案中，亲和标签是生物素。在一些实施方案中，核酸是DNA。在一些实施方案中，DNA是基因组DNA或外来DNA。在一些实施方案中，条形码起始引物分子的第一序列区包含随机引物序列区。在一些实施方案中，随机引物序列区的长度为约4个核苷酸至约10个核苷酸。在一些实施方案中，条形码起始引物分子的第一序列区包含半随机引物序列区。在一些实施方案中，半随机引物序列区的长度为约4个核苷酸至约10个核苷酸。在一些实施方案中，条形码起始引物分子还包含扩增引物结合序列、测序引物结合序列或两者。在一些实施方案中，条形码起始引物平均每50-1,000个碱基对与模板核酸结合。在一些实施方案中，聚合酶延伸反应还包括使用双脱氧核苷酸以引入合成终止，从而防止聚合酶分子从退火的核酸组装体中的置换(displacement)或将其降到最低。在一些实施方案中，APS选自2至200种独特APS的库。在一些实施方案中，APS是寡核苷酸。在一些实施方案中，APS还包含错误检查子代码。在一些实施方案中，每个APS还包含随机或半随机标签序列。在一些实施方案中，随机或半随机标签序列的长度为2至8个核苷酸。在一些实施方案中，与模板核酸片段的每个单独条形码化的互补核酸拷贝缔合的随机或半随机标签序列充当独特的分子计数器序列。在一些实施方案中，与模板核酸条形码序列缔合的不同分子计数器序列的数目用于计算衍生自给定模板DNA核酸的互补DNA拷贝的初始数目，或用于检测给定模板DNA核酸内的重复序列。在一些实施方案中，分子计数器序列用于确定模板核酸序列变体在扩增反应期间衍生自聚合酶错误的概率。在一些实施方案中，通过退火至夹板分子在两轮或多轮分开-合并合成期间组装APS。在一些实施方案中，使用连接或点击化学在两轮或多轮分开-合并合成期间组装APS。在一些实施方案中，该方法用于长程DNA序列组装。在一些实施方案中，该方法用于序列定相。在一些实施方案中，该方法用于单倍型分析。在一些实施方案中，该方法用于确定选自缺失、插入、重复、易位和倒位的基因组DNA结构变异。

还公开了系统，其中该系统被配置以进行如所附权利要求中描述的方法。

本发明进一步提供了试剂盒，其包含由以下组成的组分：一组条形码起始引物、一种或多种聚合酶、核苷酸、双脱氧核苷酸、一组可测定的聚合物亚单元（APS）、模板分子（夹板）、连接试剂、点击化学偶联试剂、扩增引物和测序引物。

在一些实施方案中，条形码起始引物包含随机引物序列区。在一些实施方案中，条形码起始引物包含半随机引物序列区。在一些实施方案中，APS的组包含2至20种独特APS。在一些实施方案中，APS是寡核苷酸。

附图简述

在所附权利要求中具体阐述了本发明的新颖特征。通过参考以下详述将获得对本发明的特征和优点的更好理解，所述详述阐述了其中利用本发明的原理的示例性实施方案以及附图，在所述附图中：

图1A-C说明了本文公开的方法的一个实施方案，其中对样品中每个单独的模板DNA核酸产生多个条形码化的DNA核酸。

图2说明了用于将条形码添加到由多个引物延伸反应产生的每个互补DNA序列中的分开-合并合成方法的一个实施方案，其中所述条形码编码单独模板DNA核酸的身份，从所述模板DNA核酸中合成互补DNA的每条单独的链。

图3提供了使用“夹板”分子组装和合成模板核酸条形码的一种非限制性方法的示意图，所述“夹板”分子包含共同接头序列以组装包含互补的共同接头序列的一系列编码单元（APS）。几轮分开-合并合成（各自包括在每轮中每个样品合并物的不同编码单元的退火和连接）可用于产生模板核酸条形码。

图4显示了分子复合物的一个实施方案的示意图，所述分子复合物包含条形码起始引物、夹板分子和包含4个APS编码单元（还包含子代码SCI-SC4）的模板DNA核酸条形码。每个APS代码包含通过与夹板寡核苷酸互补的退火序列（共同接头序列）在任一端侧接的子代码区，所述夹板寡核苷酸自身退火至条形码起始引物的互补区。在通过与夹板寡核苷酸退火组合组装模板DNA核酸条形码之后，连接APS亚单元（在箭头所示的位置）以形成单个、共价连接的分子复合物。

图5提供了使用“夹板”分子组装和合成模板核酸条形码的一种非限制性方法的示意图，所述“夹板”分子包含共同接头序列以组装包含互补的成环共同接头序列的一系列编码单元（APS）。几轮分开-合并合成（各自包括在每轮中每个样品合并物的不同编码单元的退火和连接）可用于产生模板核酸条形码。

发明详述

本文公开了进行模板DNA条形码化用于促进DNA序列组装和定相测序的方法、试剂盒和系统。在一些情况下，该方法包括使已经从样品中提取的DNA片段化；向模板DNA的至少第一末端添加亲和标签；将至少第一条形码起始引物与标签化的模板DNA核酸杂交，其中所述至少第一条形码起始引物包含与模板DNA核酸杂交的至少第一序列区和进一步包含条形码起始位点例如条形码起始物序列、条形码起始物部分或用于与“夹板”分子杂交的共同接头序列的第二序列区；进行聚合酶延伸反应以产生与模板DNA核酸的全部或部分退火的互补DNA的至少第一链，并随后进行连续轮次的分开-合并合成以向互补DNA的每条退火链中添加两个或多个编码单元以产生独特的条形码，其用于鉴定从其中合成互补DNA的至少第一链的单独的模板DNA片段（图1A-C）。有利地，所公开的DNA条形码化方法不需要在条形码化、扩增和测序之前将单独的模板DNA核酸分配到单独的区室中。本文还公开了包含进行DNA条形码化方法所需的试剂的试剂盒，以及配置用于进行DNA条形码化方法的系统。

在一些情况下，所公开的方法可用于促进序列组装，例如基因组DNA序列组装。例如，在一些情况下，可以通过以下从每个单独的模板DNA核酸制备多个（或“一组”）条形码化的互补DNA序列：沿着模板DNA核酸在多个位点引发，对每个退火的引物进行聚合酶延伸反应以合成与模板DNA核酸的至少一部分互补的DNA，并随后使用分开-合并合成方法将两个或多个编码单元添加到每个退火的引物-互补序列中以产生编码单独模板DNA核酸的身份的独特条形码，从所述模板DNA核酸中制备每组条形码化的互补DNA序列。在条形码化的互补DNA序列的扩增和测序之后，每个序列读取的条形码序列区域可用于鉴定和比对每个模板DNA核酸的互补DNA序列的组，从而实现比现代的高通量测序技术的典型读取长度大得多的DNA核酸的有效的长程序列组装和序列确定。

在一些情况下，所公开的方法可用于促进定相测序，组装含有重复序列的长DNA链，解析染色体倒位、缺失或插入，克服短序列读取的限制，和单倍型的鉴定。例如，短序列读取不能解决癌症中的重要染色体差异，例如倒位、易位或重复。对于这些，需要跨越重复区域或倒位/易位的长序列读取以在其正确的染色体位置的背景下正确地“放置”DNA。对于单倍型测定，全基因组测序通常产生单个共有序列而不区分序列变体，例如，在不同的同源染色体（例如来源自母本和父本的遗传系的那些）上发现的单核苷酸多态性（SNP）、插入、缺失和/或突变。定相测序通过确定哪些遗传变体出现在相同或不同的染色体上并因此一起或分开遗传来解决该限制。关于遗传变异模式的信息，诸如单倍型（即，作为连续区块遗传的一组序列变体）对于理解遗传学上的遗传性状和遗传疾病是重要的，关于特定基因的拷贝数的信息也是如此。定相测序提供了用于确定单倍型以及鉴定新生（de novo）突变存在的方法，并因此在群体遗传学和遗传疾病的研究中有应用。

在一些情况下，使用所公开的方法产生的条形码序列可用于鉴定与相同DNA链和/或相同染色体相关的那些DNA序列（或其互补序列），而无需在进行扩增和测序反应之前将单独的DNA链或染色体分配到单独的区室中。在一些情况下，条形码信息可以与一条或多条已知标记基因序列结合使用，以鉴定与相同DNA链和/或相同染色体相关的那些DNA序列（或其互补序列），而无需在进行扩增和测序反应之前将单独的DNA链或染色体分配到单独的区室中。在一些情况下，然后可以得出关于特定遗传变体定相的结论。此类信息可用于鉴定单倍型，即，位于相同核酸链或不同核酸链上的指定的一组遗传变体。在一些情况下，确定与一条或多条指定的已知基因序列相关的独特条形码的数目可用于鉴定那些基因的拷贝数变异。

定义：除非另有定义，否则本文使用的所有技术术语都具有与公开内容所属领域普通技术人员通常理解相同的含义。如本说明书和所附权利要求书中所用，单数形式 “一个/种(a、an)”和“所述/该”包括复数的指代物，除非上下文另外明确指出。除非另有说明，否则本文对“或”的任何提及旨在涵盖“和/或”。

样品：本文公开的方法、试剂盒和系统可用于分析从任何各种样品中提取的DNA（或其他核酸分子），所述样品包括但不限于血液、细胞、细胞悬浮液、亚细胞细胞器、组织样品等。

核酸：术语“核酸”是指核苷酸聚合物或其片段，除非另有限制，否则包括天然核苷酸的已知类似物，其可以与天然存在的核苷酸以类似的方式起作用（例如，杂交）。例如，本文公开的方法、试剂盒和系统可用于分析DNA或除DNA以外的核酸分子，包括但不限于基因组DNA、染色体DNA、线粒体DNA、RNA、信使RNA（mRNA）、转移RNA（tRNA）或通过RNA、mRNA或tRNA的逆转录合成的互补DNA（cDNA）等。

DNA提取和片段化：可以使用本领域技术人员已知的许多技术进行从多种生物样品中的DNA提取。典型的DNA提取程序包括（i）收集要从中提取DNA的细胞样品或组织样品，（ii）破坏细胞膜（即细胞裂解）以释放DNA和其他细胞质成分，（iii）用浓缩的盐溶液处理裂解的样品以沉淀蛋白质、脂质和RNA，然后离心以分离出沉淀的蛋白质、脂质和RNA，和（iv）从上清液中纯化DNA以去除去污剂、蛋白质、盐，或细胞膜裂解步骤中使用的其他试剂。

可以使用多种机械剪切（例如，通过经过弗氏压碎器或细针）或超声波破碎技术进行细胞膜的破坏。细胞裂解步骤通常包括使用去污剂和表面活性剂来溶解细胞膜和核膜上的脂质。在一些情况下，裂解步骤可以进一步包括使用蛋白酶以分解蛋白质，和/或使用RNA酶来消化样品中的RNA。

用于DNA纯化的合适技术的实例包括但不限于（i）在冰冷的乙醇或异丙醇中沉淀，然后离心（可通过增加离子强度，例如通过添加乙酸钠来增强DNA的沉淀），（ii）苯酚-氯仿提取，然后离心以将含有核酸的水相与含有变性蛋白质的有机相分离，和（iii）固相色谱，其中核酸根据缓冲液的pH和盐浓度吸附到固相（例如，二氧化硅或其他）。

在一些情况下，可以通过添加蛋白酶或通过用乙酸钠或乙酸铵沉淀蛋白质，或通过在DNA沉淀步骤之前用苯酚-氯仿混合物提取来除去与DNA结合的细胞蛋白质和组蛋白蛋白质。

在一些情况下，可以使用多种合适的商业化DNA提取和纯化试剂盒中的任何一种来提取DNA。实例包括但不限于来自Qiagen (Germantown, MD) 的QIAamp（用于从人类样品中分离基因组DNA）和DNAeasy（用于从动物或植物样品中分离基因组DNA）试剂盒或来自Promega (Madison, WI)的Maxwell®和ReliaPrep™系列的试剂盒。

分离后，通常将DNA溶解在弱碱性缓冲液（例如Tris-EDTA（TE）缓冲液）或超纯水中。如果需要，可以使用机械片段化（例如，使用超声、针剪切、雾化、点槽剪切（point-sinkshearing）或通过压力室）或酶消化技术（例如，使用限制酶或核酸内切酶）进行额外的DNA片段化。

适用于所公开的DNA条形码化方法的模板DNA核酸或片段可以比当前高通量测序技术通常使用的那些模板DNA核酸或片段长得多。在一些情况下，模板DNA核酸的平均长度可以在约25个碱基（单链DNA的核苷酸，或双链DNA的碱基对）至约100千碱基的范围内。在一些情况下，模板DNA核酸的平均长度可以是至少25个碱基、至少50个碱基、至少75个碱基、至少100个碱基、至少250个碱基、至少500个碱基、至少750个碱基、至少1,000个碱基、至少10千碱基、至少20千碱基、至少30千碱基、至少40千碱基、至少50千碱基、至少60千碱基、至少70千碱基、至少80千碱基、至少90千碱基、或至少10千碱基。在一些情况下，模板DNA片段的平均长度可以是至多100千碱基、至多90千碱基、至多80千碱基、至多70千碱基、至多60千碱基、至多50千碱基、至多40千碱基、至多30千碱基、至多20千碱基、至多10千碱基、至多1,000个碱基、至多750个碱基、至多500个碱基、至多250个碱基、至多100个碱基、至多75个碱基、至多50个碱基、或至多25个碱基。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，模板DNA片段的平均长度可以在约750碱基至约20千碱基的范围内。本领域技术人员将认识到，模板DNA片段的平均长度可具有该范围内的任何值，例如约4.5千碱基。

用于纯化模板DNA片段和相关互补链的亲和标签：在一些情况下，模板DNA核酸可以用亲和标签标记以促进随后的分离和纯化步骤。可以使用本领域技术人员已知的多种亲和标签中的任何一种。例如，在一些情况下，变性（单链）模板DNA的3'末端可以用生物素部分标记，以使用抗生物素蛋白或链霉抗生物素蛋白捕获技术促进分离和纯化步骤。可以使用本领域技术人员已知的多种技术完成变性（单链）DNA的3'-标记。实例包括但不限于通过末端脱氧核苷酸转移酶（TdT或“末端转移酶”）在单链DNA的3'-OH末端掺入非模板指导的核苷酸。TdT表现出对单链DNA的强烈偏好，但也会以较低的效率标记具有3'突出端的双链DNA和平末端双链体。TdT可用于在单链DNA的3'末端掺入修饰的核苷酸，例如生物素化的核苷酸。用生物素在3'末端标记单链DNA核酸可以使用商品化试剂盒进行，诸如Pierce -Biotin 3' End DNA Labeling Kit, 目录号89818 (ThermoFisher Scientific,Waltham, MA)。

生物素化的分子，例如生物素化的DNA核酸可以使用本领域技术人员已知的许多技术中的任何一种进行亲和纯化。通常，将生物素化的物质通过包含固定的抗生物素蛋白或链霉抗生物素蛋白或其亚结构域的树脂或基于珠粒的基质，并且生物素部分与抗生物素蛋白或链霉抗生物素蛋白结合口袋之间的强非共价相互作用允许生物素化物质从反应混合物的其他组分中分离。一些生物素类似物，例如脱硫生物素，可逆地结合抗生物素蛋白样蛋白，并允许使用较不苛刻的洗脱条件从抗生物素蛋白样蛋白中洗脱生物素化分子。

用于纯化生物素化或脱硫生物素化蛋白质、肽、寡核苷酸或其他分子的亲和纯化树脂和其他基于亲和力的捕获产品通常包含抗生物素蛋白、链霉抗生物素蛋白、NeutrAvidin™或CaptAvidin™蛋白或其亚结构域，并且可以以包括但不限于基于珠粒的树脂、包被的磁珠、离心柱、包被的微孔板和配体特异性试剂盒的多种形式获得。CaptAvidin™ (ThermoFisher Scientific, 目录号C2l 386)是生物素结合蛋白，其在其生物素结合位点含有硝化酪氨酸。这种化学修饰还允许抗生物素蛋白-生物素复合物在比常规抗生物素蛋白-生物素复合物更温和的条件下解离。

用于合成互补DNA链的条形码起始引物：可以通过进行引物延伸反应来合成包含模板DNA片段的全部或部分的互补序列的互补DNA链。在一些情况下，多条条形码起始引物可以在合适的杂交条件下与每个模板DNA杂交（即，沿着模板DNA的多个位点），并且多条（或“一组”）条形码化的互补DNA序列或链可以通过对每条退火的引物进行聚合酶延伸反应以合成与模板DNA核酸的全部或部分互补的DNA来制备（图1A-C）。

在一些情况下，在合适的退火条件下与每条模板DNA核酸结合的条形码起始引物的平均数目可根据需要而变化。在一些情况下，条形码起始引物可以平均每50个碱基对到每10,000个碱基对与模板DNA核酸结合。更频繁的结合促进更完整的基因组测序覆盖。在一些情况下，条形码起始引物可以平均至少每50个碱基对、至少每100个碱基对、至少每500个碱基对、至少每1,000个碱基对、至少每2,000个碱基对、至少每3,000个碱基对、至少每4,000个碱基对、至少每5,000个碱基对、至少每6,000个碱基对、至少每7,000个碱基对、至少每8,000个碱基对、至少每9,000个碱基对，或至少每10,000个碱基对与模板DNA核酸结合。在一些情况下，条形码起始引物可以平均至多每10,000个碱基对、至多每9,000个碱基对、至多每8,000个碱基对、至多每7,000个碱基对、至多每6,000个碱基对、至少每5000个碱基对、至多每4,000个碱基对、至多每3,000个碱基对、至多每2,000个碱基对、至多每1,000个碱基对、至多每500个碱基对、至多每100个碱基对，或至多每50个碱基对与模板DNA核酸结合。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，条形码起始引物可以平均每500个碱基对至每4,000个碱基对与模板DNA核酸序列结合。本领域技术人员将认识到，条形码起始引物可以以具有该范围内的任何值，例如平均约每5,250个碱基对的频率与模板DNA核酸结合。

在一些情况下，与每个模板DNA核酸结合的条形码起始引物的平均数目可以是至少1、至少2、至少3、至少4、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45或至少50条。在一些情况下，与每个模板DNA核酸结合的条形码起始引物的平均数目可以是至多50、至多45、至多40、至多35、至多30、至多25、至多20、至多15、至多10、至多5、至多4、至多3、至多2或至多1条。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，与每个模板DNA核酸结合的条形码起始引物的平均数目可以在约5至约30条的范围内。本领域技术人员将认识到，与每个模板DNA核酸结合的条形码起始引物核酸的平均数目可以具有该范围内的任何值，例如约12条。

通常，在所公开的DNA条形码化方法中使用的条形码起始引物可包含能够与模板DNA片段杂交的第一序列区，和包含条形码起始位点例如条形码起始物序列、条形码起始物部分、或用于与“夹板”分子杂交的共同接头序列的第二序列区。在一些情况下，第一序列区可包含能够与模板DNA核酸杂交的随机、半随机或靶特异性序列。在一些情况下，在所公开的DNA条形码化方法中使用的条形码起始引物可以进一步包含至少第三序列区，其中所述至少第三序列区可以包含用于连接可检测标记的接头序列、用于分隔第一序列区和第二序列区的间隔序列、扩增引物结合位点、测序引物结合位点或其任何组合。

随机引发：在一些情况下，合成单链模板DNA的互补链的聚合酶延伸反应可以使用随机引发方法进行，例如，对于条形码起始引物的第一序列区，使用在任意位置识别并结合模板DNA的随机序列的短寡核苷酸区域（即，“随机条形码起始引物”），从而允许合适的DNA聚合酶（例如，Klenow聚合酶）在退火的随机引物的3'-OH末端掺入核苷酸。在一些情况下，随机引物序列区的长度可以在约4个核苷酸至约12个核苷酸的范围内，即足够长以在退火温度下提供稳定的杂交并且足够短以使引物在多个位点识别并结合模板DNA。在一些情况下，随机引物序列区的长度可以是至少4个核苷酸、至少6个核苷酸、至少8个核苷酸、至少10个核苷酸或至少12个核苷酸。在一些情况下，随机引物序列区的长度可以是至多12个核苷酸、至多10个核苷酸、至多8个核苷酸、至多6个核苷酸或至多4个核苷酸。所用或所需的核苷酸的数目可随退火温度和/或影响退火产物的退火温度的溶剂条件而变化。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，随机引物序列区的长度可以在约4个核苷酸至约8个核苷酸的范围内。本领域技术人员将认识到，随机引物序列区的长度可以具有该范围内的任何值，例如约7个核苷酸。

在一些情况下，随机条形码起始引物可包含位于分子3'-末端附近的随机第一序列区（例如，“NNNNNN”），其中NNNNNN是随机六核苷酸序列。在一些情况下，随机条形码起始引物可包含位于分子5'-末端附近的扩增引物结合位点和/或测序引物区（例如，Illumina测序引物序列）。如上所述，随机引物可进一步包含第二序列区，其进一步包含位于分子的5'-末端附近的条形码起始位点例如条形码起始物序列、条形码起始物部分或用于与“夹板”分子杂交的共同接头序列。在一些情况下，随机第一序列区、扩增和/或测序引物结合区和/或第二序列区可以通过一条或多条间隔序列分隔开。

半随机引发：在一些情况下，合成单链模板DNA的互补链的聚合酶延伸反应可以使用半随机引发方法进行，例如，对于条形码起始引物的第一序列区，使用在半任意位置以可调频率识别和结合模板DNA的包含半随机序列的短寡核苷酸（即，“半随机条形码起始引物”），从而允许合适的DNA聚合酶（例如，Klenow聚合酶）在退火的半随机引物的3'-OH末端掺入核苷酸。在一些情况下，半随机引物序列区的长度可以在约4个核苷酸至约12个核苷酸的范围内，即足够长以在退火温度下提供稳定的杂交并且足够短以使引物在多个位点识别并结合模板DNA。在一些情况下，半随机引物序列区的长度可以是至少4个核苷酸、至少6个核苷酸、至少8个核苷酸、至少10个核苷酸或至少12个核苷酸。在一些情况下，半随机引物序列区的长度可以是至多12个核苷酸、至多10个核苷酸、至多8个核苷酸、至多6个核苷酸或至多4个核苷酸。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，半随机引物序列区的长度可以在约4个核苷酸至约8个核苷酸的范围内。本领域技术人员将认识到，半随机引物序列区的长度可以具有该范围内的任何值，例如，约7个核苷酸。

在一些情况下，半随机引物序列的非随机部分的长度可以在约2至约4个核苷酸的长度范围内。所用非随机核苷酸序列的选择将决定半随机引物平均与模板DNA结合的频率。例如，序列XXXCCC（其中X是随机核苷酸）将平均每64个碱基对结合一次，这取决于模板DNA的GC含量。

在一些情况下，半随机条形码起始引物可包含位于分子3'-末端附近的半随机第一序列区（例如，“NNNGAG”），其中NNN是随机三核苷酸序列。在一些情况下，半随机条形码起始引物可包含位于分子5'-末端附近的扩增引物结合位点和/或测序引物区（例如，Illumina测序引物序列）。如上所述，半随机条形码起始引物可以进一步包含第二序列区，其进一步包含位于分子的5'-末端附近的条形码起始位点例如条形码起始物序列、条形码起始物部分或用于与“夹板”分子杂交的共同接头序列。在一些情况下，半随机第一序列区、扩增和/或测序引物结合区和/或第二序列区可以通过一条或多条间隔序列分开。

在一些情况下，半随机序列区域可以是(M)_i(X)_j(N)_k的形式，其中(M)_i和(N)_k分别是长度为i和k的任何随机核苷酸序列，并且其中(X)_j是长度为j的特定寡核苷酸序列，其选择为在一系列特定的子序列位置上互补模板DNA核酸序列。通常，i和k的值可以在0至6的范围内，并且j的值可以在3至6的范围内。在一些情况下，半随机序列区可以被设计为在相对于已知或部分已知的模板DNA核酸序列的3'-末端的特定位置处与特定的模板DNA核酸序列互补，从而产生长度为约Z个核苷酸的扩增产物，其中Z的值通常可以在50-1000的范围内。

条形码起始序列区：如上所述，在一些情况下，多条条形码起始引物可以在合适的杂交条件下与每个模板DNA片段（即，在沿着模板DNA核酸的多个位点）杂交，并且多条（或“一组”）条形码化的互补DNA序列随后可以通过以下来合成：首先在每个退火的引物上进行聚合酶延伸反应，然后进行多轮分开-合并合成以产生条形码，所述条形码鉴定从其中产生条形码化的互补DNA序列的组的单独模板DNA核酸（图1A-C和2）。条形码的产生要求多条条形码起始引物包含第二序列区，所述第二序列区进一步包含条形码起始位点例如条形码起始物序列、条形码起始物部分或用于与“夹板”分子杂交的共同接头序列。可以使用本领域技术人员已知的多种条形码合成起始技术中的任何一种。在一些情况下，例如，条形码起始物序列可以包含5'-叠氮化物末端核苷酸，用于随后与3'-炔烃封端的寡核苷酸编码单元和模板化或非模板化点击化学使用（El-Sagheer,等(2011), "Biocompatible ArtificialDNA Linker That is Read Through by DNA Polymerases and is Functional inEscherichia coli", PNAS 108(28):11338-11343）来组装DNA核酸条形码。在一些情况下，条形码起始物部分可包含用例如伯胺、羧基、巯基等官能化的经修饰的核苷酸，其为氨基酸或肽编码单元的后续共价缀合提供起始位点以组装DNA核酸条形码。在一些情况下，引物的第二序列区可以包含允许引物退火至“夹板”分子（例如，短寡核苷酸序列）的共同接头序列，所述“夹板”分子也与附着于寡核苷酸编码单元的共同线性序列互补。然后，引物、夹板和编码单元寡聚物的退火使引物和编码单元寡聚物定位，使得它们可以通过连接而连接，并且可以使用退火、连接和变性的重复循环来组装DNA核酸条形码。在共同未决的PCT申请WO 2012/106385中已经描述了使用夹板（或“模板”）来组装细胞起源寡核苷酸条形码序列。

引物结合位点：在一些情况下，扩增和/或测序引物结合位点区的长度可以在约18至约30个核苷酸的范围内，并优选长度为约20至25个核苷酸，其具有65℃至75℃的解链温度（Tm）。使用具有更多GC含量或更长长度的序列将使Tm转变为更高的温度。通常，引物序列的GC含量将为40％至60％，且引物的3'-末端以C或G结尾以促进结合。在一些情况下，测序引物结合位点可包含与Illumina测序引物互补的序列。

间隔序列或接头序列：在一些情况下，所公开的DNA条形码化方法中使用的条形码起始引物可以进一步包含用于分隔第一和第二序列区或用于连接可检测标记的间隔序列或接头序列。通常，间隔和/或接头序列的长度可以在约2个核苷酸至约20个核苷酸的范围内。在一些情况下，间隔和/或接头序列的长度可以是至少2个核苷酸、至少4个核苷酸、至少6个核苷酸、至少8个核苷酸、至少10个核苷酸、至少12个核苷酸、至少l4个核苷酸、至少16个核苷酸、至少18个核苷酸，或至少20个核苷酸。在一些情况下，间隔和/或接头序列的长度可以是至多20个核苷酸、至多18个核苷酸、至多16个核苷酸、至多14个核苷酸、至多12个核苷酸、至多10个核苷酸、至多8个核苷酸、至多6个核苷酸、至多4个核苷酸，或至多2个核苷酸。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，间隔和/或接头序列的长度可以在约4个核苷酸至约16个核苷酸的范围内。本领域技术人员将认识到，间隔和/或接头序列的长度可具有该范围内的任何值，例如约7个核苷酸。

条形码起始引物的总长度：随机、半随机或靶向条形码起始引物的总长度包含与靶标（例如，模板DNA）互补的区域的长度，以及用于掺入共同接头序列、随机序列区、扩增或测序引物结合序列等的其他序列区的长度。在一些情况下，在所公开的DNA条形码化方法中使用的随机、半随机或靶向条形码起始引物分子的总长度可以在约5个核苷酸到约80个核苷酸的范围内。在一些情况下，条形码起始引物的长度可以是至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少35个核苷酸、至少40个核苷酸、至少45个核苷酸、至少50个核苷酸、至少55个核苷酸、至少60个核苷酸、至少65个核苷酸、至少70个核苷酸、至少75个核苷酸，或至少80个核苷酸。在一些情况下，条形码起始引物的长度可以是至多80个核苷酸、至多75个核苷酸、至多70个核苷酸、至多65个核苷酸、至多60个核苷酸、至多55个核苷酸、至多50个核苷酸、至多45个核苷酸、至多40个核苷酸、至多35个核苷酸、至多30个核苷酸、至多25个核苷酸、至多20个核苷酸、至多15个核苷酸、至多10个核苷酸，或至多5个核苷酸。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，条形码起始引物的长度可以在约10个核苷酸至约40个核苷酸的范围内。本领域技术人员将认识到，条形码起始引物的长度可具有该范围内的任何值，例如约28个核苷酸。

互补DNA链的合成：如上所述，可以通过进行引物延伸反应，即通过在退火到模板DNA的条形码起始引物分子的3'-OH末端掺入核苷酸来合成包含模板DNA核酸的全部或部分的互补序列的互补DNA链。在一些情况下，多个条形码起始引物分子可以在合适的杂交条件下与每个模板DNA核酸杂交，并且可以通过对每个退火的条形码起始引物进行聚合酶延伸反应以合成与模板DNA核酸的全部或部分互补的DNA来制备多条（或“一组”）条形码化的互补DNA序列。用于引物延伸的合适DNA聚合酶的实例包括但不限于DNA聚合酶1的Klenow片段（其缺少DNA聚合酶1的5'→3'核酸外切酶活性）、Taq聚合酶（因为它的热稳定性常用于基于聚合酶链式反应（PCR）的方法）、Pfu DNA聚合酶（由于与Taq聚合酶相比其优越的热稳定性和校对性能，也用于PCR）等，或其组合。引物延伸反应在维持稳定引物结合并优化所用聚合酶的活性的温度下进行，例如，Taq聚合酶在75-80℃具有最佳活性，并且该酶使用约72℃的反应温度。DNA聚合酶通过在5'至3'方向添加与模板互补的脱氧核苷酸三磷酸（dNTP），将dNTP的5'-磷酸基团与生长中的互补DNA链的末端的3'-羟基缩合来合成与模板DNA核酸互补的新DNA链。延伸反应时间根据所用的DNA聚合酶和待复制的DNA核酸的长度（DNA聚合酶在最佳条件下每分钟掺入大约一千个碱基）而变化。除模板DNA核酸、引物、DNA聚合酶和dNTP外，延伸反应混合物通常还包括合适的缓冲液、二价阳离子例如镁离子和单价阳离子例如钾离子。在一些情况下，延伸反应可以在体积为约0.2-0.5ml的反应管中以约10-200μl的小反应体积进行。

在一些情况下，可能期望通过以适当的浓度和/或时间向反应混合物中引入双脱氧核苷酸三磷酸（ddNTP）来阻断随机位置上互补DNA链的进一步延伸（例如，以避免通过聚合酶在相同的模板DNA片段上合成的另外互补链的置换）。例如，由于不存在游离的3'-OH基团，引入ddCTP将阻断模板DNA中下一个G残基位置上的互补DNA链的进一步延伸，从而终止生长中的互补DNA链。

在一些情况下，例如，当靶标是RNA时，可以使用逆转录酶（RT）对与RNA模板退火的条形码起始引物进行引物延伸反应。可以使用本领域技术人员已知的几种合适的逆转录酶中的任一种，其包括但不限于禽成髓细胞瘤病毒（AMV）逆转录酶和莫洛尼鼠白血病病毒（M-MuLV、MMLV）逆转录酶（New England Biolabs, Ipswich, MA）。M-MuLV逆转录酶（也来自NewEngland Biolabs, Ipswich, MA）缺乏3' → 5'核酸外切酶活性。ProtoScript® II逆转录酶（New England Biolabs, Ipswich, MA）是重组M-MuLV逆转录酶，其具有降低的RNaseH活性和增加的热稳定性，并且可以用于在比野生型酶更高的温度下合成第一链cDNA。工程改造的RT的使用提高了全长产物形成的效率，从而确保mRNA转录物的5'-末端的复制是完整的，并且使得能够合成和表征RNA模板序列的准确cDNA拷贝。热稳定更高的RT的使用（其中逆转录反应可以在更高的温度下进行）促进含有大量二级结构的RNA的转录。

DNA条形码的分开-合并合成：如本文所用，短语“分开-合并合成(split-poolsynthesis)”是指组合合成过程的一个非限制性实例，其中在进行偶联反应之前将反应混合物分成几个不同的等分试样，并且其中每个等分试样接收待偶联的不同化学单体（即，可测定的聚合物亚单元（APS）或编码单元）。在偶联反应之后，将等分试样组合（合并），混合，并在进行下一轮偶联之前分（分开）成一组新的等分试样。通常，该方法可用于多种偶联反应和缀合化学，包括但不限于氨基酸（或短肽）偶联反应以产生完全或部分随机的氨基酸序列的较长肽，脱氧核糖核苷酸（或短DNA寡核苷酸）的偶联以产生完全或部分随机的碱基序列的较长DNA寡核苷酸，或核糖核苷酸（或短RNA寡核苷酸）的偶联以产生完全或部分随机的碱基序列的较长RNA寡核苷酸。多种化学单体中的任何一种，例如氨基酸、小分子、短肽、短寡核苷酸等因此可用作组装独特条形码的构建模块。在优选的实施方案中，在连续轮次的分开-合并合成中使用的APS包含独特设计的核酸序列。本文公开的模板DNA核酸条形码组装和合成方法的优点在于，在进行条形码组装和合成反应之前，不需要将单独的模板DNA核酸分配到单独的反应区室中。

图2的上半部分说明了用于产生独特模板DNA核酸条形码的分开-合并合成途径的第一轮。在使用与每个模板DNA核酸退火的多个条形码起始引物分子合成多条互补DNA链之后，将样品分成一系列等分试样并且第一个可测定的聚合物亚单元（APS），例如，短寡核苷酸编码单元与样品等分试样内每个退火的互补DNA/模板DNA复合物上的条形码合成起始位点偶联，其中用不同的APS处理每个样品等分试样。

图2的下半部分说明了用于产生独特模板DNA核酸条形码的分开-合并合成途径的后续轮次。在第一轮APS（或编码单元）偶联轮次之后，将样品等分试样合并，混合并分配到一系列新的等分试样中。然后将第二编码单元与每个退火的互补DNA/模板DNA复合物上的第一编码单元偶联，其中再次用不同的APS（或编码单元）处理每个样品等分试样。因此，进行连续几轮分开-合并合成导致产生一组基本上独特的模板DNA核酸条形码，其编码来自原始样品的单独模板DNA核酸的身份。

可以通过进行逐步分开-合并组装和合成来实现的模板DNA条形码文库的多样性（即理论上可能的独特模板DNA核酸条形码的数目）取决于可用于每轮的独特APS（或编码单元）的数目，以及用于组装模板DNA核酸条形码的总轮次数。例如，对于使用四轮的组装/合成（即，用于具有四个APS位置的模板DNA条形码）和100种独特APS产生的模板DNA条形码，可能的独特模板DNA条形码序列的总数为100⁴=10⁸或100,000,000。或者，对于使用六轮的装配/合成（即，具有六个APS位置的模板DNA条形码）和100种独特APS产生的模板DNA条形码，可能的独特模板DNA条形码序列的总数为100⁶ = 10¹²或1,000,000,000,000。通常，期望设计模板DNA条形码文库，使得可用的独特序列的总数显著大于待标记的单独模板DNA核酸的数目，从而确保任何两个模板DNA核酸被相同模板DNA条形码标记的概率是极低的。在一些情况下，考虑到基因组的非冗余性和已知序列组装体的使用，可以使用较少的条形码。

通常，用于产生独特模板DNA核酸条形码的分开-合并合成的轮次数可以在约2至约40轮的范围内。在一些情况下，可进行至少2、至少4、至少6、至少8、至少10、至少12、至少14、至少16、至少18、至少20、至少25、至少30、至少35、或至少40轮的分开-合并合成。在一些情况下，可以进行至多40、至多35、至多30、至多25、至多20、至多18、至多16、至多14、至多12、至多10、至多8、至多6、至多4、或至多2轮分开-合并合成。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，进行的分开-合并合成的轮次数可以在约4至约12轮的范围内。本领域技术人员将认识到，进行的分开-合并合成的轮次数可具有该范围内的任何值，例如约7轮。

通常，用于在每轮分开-合并合成中偶联的独特APS的库可包含约2至约200种独特APS。在一些情况下，库中独特APS的数目可以是至少2、至少4、至少6、至少8、至少10、至少20、至少30、至少40、至少50、至少100、至少150、或至少200种。在一些情况下，库中独特APS的数目可以是至多200、至多150、至多100、至多100、至多50、至多40、至多30、至多20、至多10、至多8、至多6、至多4、或至多2种。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，库中独特APS的数目可以在约4个核苷酸至约20种的范围内。本领域技术人员将认识到，库中的独特APS的数目可以具有该范围内的任何值，例如，约12种独特APS。

如上所述，在一些情况下，模板DNA核酸条形码的APS（或用于组装条形码的编码单元）以连续、线性方式共价或非共价偶联到生长中的条形码分子的一端。在一些情况下，使用退火引物（即，模板分子或“夹板”）将APS（或编码单元）缝合在一起和/或退火到共同接头（CL）序列（图3）。在一些情况下，退火引物可以包含与在前一轮逐步合成期间添加的APS互补的序列区域（即，第一互补区）。在一些情况下，退火引物还可以包含第二序列区（即，第二互补区），其与在当前轮次期间添加的APS互补。因此，退火引物可以与连续轮次的两个或多个寡核苷酸亚单元杂交，这在一些情况下可以后接连接反应，从而将它们缝合在一起。在一些实施方案中，每轮的退火引物的第一互补区不同于其他轮次的退火引物的第一互补区。在一些实施方案中，每轮的退火引物的第二互补区不同于其他轮次的退火引物的第二互补区。在一些实施方案中，不同轮次的退火引物的第一或第二互补区在轮次之间共享。在一些实施方案中，模板或“夹板”（即，延伸的CL分子）用于组装APS，其中夹板包括多组退火区域（例如，共同接头序列），其被设计为允许单独APS（或编码亚单元）的逐步杂交和连接以产生完整的模板DNA条形码。

在一些情况下，CL或“夹板”寡核苷酸包含一对或多对环退火区域。在这些情况下，APS可以被设计成与CL或夹板杂交以产生环几何体，即，通过与APS的每个末端处的CL环退火区域杂交（图5）。在一些情况下，环退火区域可以被设计为对分开-合并合成的轮次是特异性的，使得连续轮次的添加和杂交沿着夹板聚集于(populate) APS位置。然后可以使用本领域已知的任何方法，例如通过连接将APS连接在一起。在一些情况下，可以设计APS以确保它们不会在对其他合成轮次特异的环退火区处有效地与夹板杂交。因此，如果由于一些原因导致来自特定轮次的APS丢失，则在后续轮次中添加的APS不太可能被正确连接，从而降低了下游分析错误的可能性。或者，即使缺失APS，偶尔也可以合成模板DNA条形码，其位置侧翼为一对环退火区。然后可以相应地分析所得到的模板DNA条形码，并且可以丢弃所述模板DNA条形码，或者可以交替地处理所检索的信息。

随机或半随机标签序列：在一些情况下，除了编码序列之外，多个APS还可以包含随机或半随机标签序列，其中与给定模板DNA核酸条形码缔合的每个APS的随机或半随机标签序列充当独特的分子计数器序列以鉴定来源于给定模板DNA核酸的条形码化的互补DNA的单独链。在一些情况下，与每个模板DNA核酸条形码序列缔合的不同分子计数器序列的数目可以用于计算或证实来源于给定模板DNA核酸的互补DNA拷贝的初始数目（即，在进行后续扩增反应之前存在的互补DNA拷贝的数目），或用于检测给定模板DNA核酸内的重复序列。在一些情况下，这种分子计数器序列可以用于确定模板核酸片段序列变体来源于扩增反应期间的聚合酶错误（例如链转换）的可能性。在一些情况下，随机或半随机标签序列可以掺入到条形码起始引物分子中。

在一些情况下，随机或半随机标签序列的长度可以在约2至约8个核苷酸的范围内。在一些情况下，随机或半随机标签序列的长度可以是至少2个、至少4个、至少6个或至少8个核苷酸。在一些情况下，随机或半随机标签序列的长度可以是至多8个、至多6个、至多4个或至多2个核苷酸。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，随机或半随机标签序列的长度可以在约4个核苷酸至约6个核苷酸的范围内。本领域技术人员将认识到，随机或半随机标签序列的长度可具有该范围内的任何值，例如约7个核苷酸。

错误检查：在一些情况下，多个APS可以包含一组独特设计的核酸序列，其包含一个或多个子代码（SC）区域（图4），其中所述子代码序列对于多个APS中的每个单独的APS分子是唯一的。在一些情况下，SC区域或序列的长度为约3、4、5、6、7、8、9、10个或多于10个核苷酸。在一些情况下，子代码包含确定长度、例如7个核苷酸的独特的一组核酸序列，其被设计用于提供错误校正能力。在一些情况下，该组子代码包含7个核苷酸序列，其被设计使得该组中序列的任何成对组合表现出确定的“遗传距离”或错配碱基的数目，例如3的距离。在这种情况下，检查在测定的最后步骤中鉴定的一组模板DNA片段条形码中的子代码允许技术人员在进行测定数据的最终分析之前检测杂交或扩增错误。在一些情况下，随机序列区可以包括在APS代码附近，但不作为退火区域的一部分。

扩增反应：在公开的DNA条形码化方法的一些情况下，可以进行一个或多个核酸扩增反应以产生模板DNA核酸或其条形码化的互补DNA链的多个拷贝。在一些情况下，可以以多重方式进行扩增，其中同时扩增多个模板DNA核酸序列或条形码化的互补DNA链。在一些情况下，扩增反应可用于向核酸分子添加测序衔接子。扩增反应可以包括扩增条形码的至少一部分（如果存在的话）。扩增反应可包括扩增多个模板DNA核酸或其条形码化的互补DNA链的至少1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%或100％。

在一些情况下，可以使用聚合酶链式反应（PCR）进行特定寡核苷酸序列的扩增。如本文所用，PCR可以指通过DNA的互补链的同时引物延伸来体外扩增特定DNA序列的反应。如本文所用，PCR可包括反应的衍生形式，包括但不限于逆转录酶PCR（RT-PCR）、实时PCR、嵌套PCR、定量PCR、多重PCR、数字PCR和组装PCR。

在一些情况下，特定寡核苷酸序列的扩增可包括基于非PCR的方法。基于非PCR的方法的实例包括但不限于多重置换扩增（MDA）、转录介导的扩增（TMA）、基于核酸序列的扩增（NASBA）、链置换扩增（SDA）、实时SDA、滚环扩增或环-环扩增。其他基于非PCR的扩增方法包括进行多个循环的DNA依赖性RNA聚合酶驱动的RNA转录扩增或RNA指导的DNA合成和转录以扩增DNA或RNA靶标、连接酶链反应（LCR）、Q复制酶（Q）方法、回文探针的使用、链置换扩增、使用限制性内切核酸酶的寡核苷酸驱动扩增（其中引物与核酸序列杂交并且所得双链体在延伸反应和扩增之前被切割的扩增方法）、使用缺乏5'核酸外切酶活性的核酸聚合酶的链置换扩增、滚环扩增和分支延伸扩增（RAM）。

进行一个或多个扩增反应可包括使用一条或多条扩增引物。如上所述，一条或多条扩增引物的长度范围可以为约10个核苷酸至约40个核苷酸。在一些情况下，扩增引物的长度可以是至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸、至少35个核苷酸或至少40个核苷酸。在一些情况下，扩增引物的长度可以是至多40个核苷酸、至多35个核苷酸、至多30个核苷酸、至多25个核苷酸、至多20个核苷酸、至多15个核苷酸，或至多10个核苷酸。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，扩增引物的长度范围可以为约15个核苷酸至约25个核苷酸。本领域技术人员将认识到，扩增引物的长度可具有该范围内的任何值，例如约22个核苷酸。

一条或多条扩增引物可以与多条条形码化核酸序列的至少一部分退火。一条或多条引物可以在多条条形码化核酸序列的3'末端处或附近退火。一条或多条引物可以更靠近多条条形码化核酸序列的5'末端退火。一条或多条引物可以与多条条形码化核酸序列的内部区域退火。一条或多条扩增引物可包含固定的引物组。一条或多条扩增引物可包含一条或多条定制引物。可以设计一条或多条定制引物以与一条或多条靶核酸序列，例如一条或多条基因序列退火。一条或多条扩增引物可包含一条或多条对照引物。一条或多条对照引物可包含至少一条或多条持家基因引物。一条或多条扩增引物可包含通用引物。通用引物可以与通用引物结合位点退火。一条或多条扩增引物可与以下退火：第一模板DNA核酸条形码、第二模板DNA核酸条形码、另一模板DNA核酸条形码、已掺入所有模板DNA核酸条形码中的扩增或通用引物结合位点、第一模板DNA核酸序列、第二模板DNA核酸序列、另一模板DNA核酸序列等、或其组合。一条或多条扩增引物可包含通用引物和一条或多条定制引物。

在一些方面，确定不同条形码化模板DNA核酸的数目可包括确定条形码化模板DNA核酸或其任何产物（例如，条形码化-扩增子）的序列。确定条形码化模板DNA核酸或其任何产物（例如，条形码化扩增子）的序列可包括进行测序反应以确定以下的序列：条形码的至少一部分、条形码化模板DNA核酸序列的至少一部分、其互补物、其反向互补物或其任何组合。

测序：在所公开方法的一些方面，确定两条或多条指定模板DNA序列之间的空间关系（例如，如通过单个模板DNA核酸内的共定位所指示的它们在基因组的给定区段内的接近性）可包括鉴定与相同的互补DNA链条形码相关的那些模板序列。在所公开方法的一些方面，确定样品中指定模板DNA序列（例如特定基因序列）的拷贝数可包括确定与指定模板DNA序列相关的独特互补DNA条形码序列的数目。确定条形码化互补DNA链或其任何产物（例如，条形码化扩增子）的序列可包括进行测序反应以确定以下的序列：条形码的至少一部分、条形码化互补DNA链的至少一部分、其互补物、其反向互补物或其任何组合。

核酸序列（例如，条形码化的互补DNA链或其条形码化扩增子）的确定可以使用多种测序方法中的任一种进行，其包括但不限于通过合成测序（SBS）（例如，Sanger测序或焦磷酸测序）、通过杂交测序（SBH）、通过连接测序（SBL）、基于循环阵列的测序、聚合菌落（polymerized colony）（POLONY）测序等。

在一些情况下，确定条形码化互补DNA链或其任何产物的序列可包括使用配对末端测序、鸟枪（shotgun）测序、高通量测序、基于纳米孔的测序、染料终止子测序、多引物DNA测序、引物步移、Sanger双脱氧测序、Maxim-Gilbert测序、焦磷酸测序、真正的单分子测序或其任何组合。或者，条形码化的互补DNA链或其任何产物的序列可以在一些情况下使用微阵列芯片、通过电子显微镜或使用化学敏感的场效应晶体管（chemFET）阵列来确定。

还可以利用高通量测序方法，诸如使用平台诸如Roche 454、Illumina Solexa、ABI-SOLiD、Ion Torrent、Complete Genomics、Pacific Bioscience、Helices或Polonator平台的循环阵列测序。在一些情况下，测序可包括Illumina MiSeq测序。

在一些情况下，对由公开的DNA条形码化方法产生的条形码化互补DNA链进行测序可以包括对代表生物体基因组的约0.01％的基因至生物体基因组的约100％的基因的互补DNA序列进行测序。在一些情况下，进行测序的互补DNA可以包含至少0.01％的生物体基因组、至少0.1％的生物体基因组、至少1％的生物体基因组、至少5％的生物体基因组、至少10％的生物体基因组、至少20％的生物体基因组、至少30％的生物体基因组、至少40％的生物体基因组、至少50％的生物体基因组、至少60％的生物体基因组、至少70％的生物体基因组、至少80％的生物体基因组、至少90％的生物体基因组或至少95％的生物体基因组。在一些情况下，进行测序的互补DNA可以包含至多95％的生物体基因组、至多90％的生物体基因组、至多80％的生物体基因组、至多70％的生物体基因组、至多60％的生物体基因组、至多50％的生物体基因组、至多40％的生物体基因组、至多30％的生物体基因组、至多20％的生物体基因组、至多10％的生物体基因组、至多5％的生物体基因组、至多1％的生物体基因组、至多0.1％的生物体基因组或至多0.01％的生物体基因组。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，进行测序的互补DNA可以包含约5％至约40％的生物体基因组。本领域技术人员将认识到，进行测序的互补DNA可包含该范围内的任何值，例如约63％的生物体基因组。

在一些情况下，测序可以包括测序条形码化核酸序列的至少约10、20、30、40、50、60、70、80、90、100、200、300、400或更多个核苷酸或碱基对。在一些情况下，测序可以包括测序条形码化核酸序列的至少约500、600、700、800、900、1,000或更多个核苷酸或碱基对。在其他情况下，测序包括测序条形码化核酸序列的至少约1,500、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个或更多个核苷酸或碱基对。

在一些情况下，测序可以包括每个运行至少约100、1,000、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹或10¹⁰或更多个测序读取。在一些情况下，测序可包括每个运行小于或等于约1,000,000,000个测序读取。在一些情况下，测序可包括每个运行小于或等于约100,000,000个读取。在一些情况下，测序可包括每个运行小于或等于约10,000,000个读取。在一些情况下，测序可包括每个运行小于或等于约1,000,000个读取。在一些情况下，测序可包括每个运行小于或等于约100,000个读取。在一些情况下，测序可包括每个运行小于或等于约10,000个读取。

序列组装：通过鉴定来自多个短序列读取的重叠序列以组装更长的、连续的序列部分来进行从相对短的序列读取组装较长的DNA或其他寡核苷酸序列，例如基因组片段或全基因组。在一些情况下，与来自相同或相似生物体的已知参考序列或共有序列的比较可用于鉴定组装序列中的缺口或错误。可以使用本领域技术人员已知的多种生物信息学软件程序中的任何一种来从相对短的序列读取组装较长的序列。

实例包括但不限于DBG2OLC、SPAdes、SparseAssembler、Fermi和SGA。在本公开内容中，与每个短模板DNA序列读取相关的条形码序列促进鉴定由相同模板DNA核酸产生的那些序列，因此促进模板序列组装过程以绘制整个基因组或其部分。

定相和单倍型分析：全基因组测序通常产生单一共有序列，而不区分序列变体，例如，在不同的同源染色体（例如来源自母本和父本的遗传系的那些）上发现的单核苷酸多态性（SNP）、插入、缺失和/或突变。定相测序通过确定哪些遗传变体出现在相同或不同的染色体上并因此一起或分开遗传来解决该限制。关于遗传变异模式的信息，诸如单倍型（即，作为连续区块遗传的一组序列变体），对于理解遗传学上遗传性状和遗传疾病是重要的，关于特定基因的拷贝数的信息也是如此。定相测序提供了用于确定单倍型以及鉴定新生突变存在的方法，并因此可用于群体遗传学和遗传疾病的研究。

如上所述，术语“单倍型”是指在连续区块中一起遗传的DNA序列变体（等位基因）的组。通常，人类基因组含有每个基因的两个拷贝 – 母本拷贝和父本拷贝。对于每个具有两个可能等位基因的基因对，例如基因等位基因“A”和“a”，以及基因等位基因“B”和“b”，给定个体的基因组将包括两个单倍型中的一个，“AB/ab”，其中A和B等位基因位于同一染色体上（“顺式”构型），或“Ab/aB”，其中A和B等位基因位于不同的染色体上（“反式”构型）。可以使用定相测序方法或测定来确定指定的一组基因等位基因是位于相同染色体上还是位于不同染色体上。在一些情况下，定义单倍型的几个连锁等位基因可能与特定疾病表型相关或关联；在这种情况下，单倍型而不是任何一种特定的遗传变体可能是患者是否会表现出疾病的最具决定性的因素。

许多遗传疾病，特别是癌症，与染色体重排诸如缺失、插入、重复、易位和倒位有关（Lee, 等 (2012), "Targeted Chromosomal Duplications and Inversions in theHuman Genome Using Zinc Finger Nucleases", Genome Research 22:539-548）。这些基因组结构变异（SV）在健康个体以及疾病患者中观察到，因此促成了遗传多样性和疾病的发作。

基因拷贝数也在一些疾病表型中起作用。大多数基因通常以两个拷贝存在，然而，“扩增的”基因是以多于两个功能性拷贝存在的基因，因此导致产生异常水平的mRNA和蛋白质表达，可能导致癌症状态。癌症和其他遗传病症通常与染色体的异常（即，增加或减少的）数目（“非整倍性”）相关。细胞遗传学技术诸如荧光原位杂交或比较基因组杂交通常用于检测异常基因或染色体拷贝数的存在。

条形码化DNA片段用于定相测序的用途：本文公开的方法提供了产生多个条形码化DNA分子的方法，其中每个条形码化DNA分子包含至少第一序列区、第二序列区和第三序列区。第一序列区是使用分开-合并合成方法组装的条形码序列，如上所述，其中所述条形码序列为DNA分子起源的原始模板DNA核酸提供了独特的标识符。第二序列区是随机或半随机引物序列、或靶特异性引物序列（其用于引发原始模板DNA核酸）的互补物。第三序列区是一段DNA，其与原始模板DNA核酸的全部或部分互补。因此条形码序列可用于鉴定由单一模板DNA核酸产生的多个互补DNA分子。因此，相关的互补DNA序列的后续比对和组装允许技术人员确定比典型的测序读取长度长得多的原始模板DNA的区段的序列。在一些情况下，所公开的用于长程测序的DNA条形码化方法可用于鉴定与相同DNA链和/或相同染色体相关的那些DNA序列（或其互补物），而无需在进行扩增和测序反应之前将单独的DNA链或染色体分配到独立的区室中。在一些情况下，条形码信息可以与一条或多条已知的标记基因序列结合使用，以鉴定与相同DNA链和/或相同染色体上的一条或多条已知标记基因序列相关的那些DNA序列（或其互补物），同样地，在进行扩增和测序反应之前不需要将单独的DNA链或染色体分配到单独的区室中。在一些情况下，然后可以得出关于特定遗传变体的定相的结论。此类信息可用于鉴定单倍型，即，位于相同核酸链或不同核酸链上的指定的一组遗传变体。在一些情况下，位于相同核酸链或不同核酸链上的特定的一组遗传结构变体（例如，缺失、插入、重复、易位和倒位）的鉴定可用于诊断遗传病，例如，癌症。在一些情况下，确定与一条或多条指定的已知基因序列相关的独特条形码序列的数目可用于鉴定那些基因的拷贝数变异。

所公开的方法提供了优于当前核酸测序技术及其相关样品制备方法的显著优点。除了促进从短测序读取组装较长DNA序列之外，如上所示，本公开的条形码化方法可潜在地应用于确定单倍型定相和拷贝数变异。单倍型定相和拷贝数变异数据通常不能通过测序基因组DNA获得，因为生物样品（例如，血液、细胞或组织样品）通常分批处理以从大量细胞中提取遗传物质，并将其转化为针对给定测序技术的输入要求而专门配置的测序文库。作为该分批采样和处理方法的结果，测序通常提供非定相的共有序列数据，对于该数据，不可能确定特定的遗传变体是存在于相同染色体上还是不同的染色体上。最近，若干出版物已经公开了用于产生条形码化cDNA并进行定相和单倍型分析的方法（参见，例如，US 8,268,564；WO2014/124338；WO2014/210353；WO2015/200869；和WO2015/200893）。通常，后者方法依赖于使用预合成的条形码和将预合成的条形码和细胞或从其分离的核酸分配到单独的反应区室中，例如由油包水乳液形成的液滴。

许多研究已经证明，当可获得相信息时，人类基因组DNA序列和表型（包括疾病）之间的关系可以得到更充分的理解（Tewhey, 等 (2011), "The Importance of PhaseInformation for Human Genomics", Nat. Rev. Genet. 12(3):215-223)。定相测序和单倍型分析的应用包括确定基因型和检测基因型错误，了解遗传变异（例如，结构变异，诸如缺失、插入、重复、易位和倒位）和疾病的相互作用，推断先前未表征的遗传变异的存在，推断人类人口学历史，推断重组点，检测复发突变和选择的特征，并建模基因表达的顺式调控（Brown和Brown (201l), "Haplotype Phasing: Existing Methods and NewDevelopments", Nat. Rev. Genet. 12(10):703-714)。

试剂盒：本发明进一步涉及用于促进长程测序或序列组装以及用于进行定相测序和单倍型分析的试剂盒。在一些情况下，本公开内容的试剂盒可包含一组一条或多条条形码起始引物，其用于合成互补DNA的条形码化的组，其中来自单个模板DNA核酸的所有互补链包含相同的独特条形码，并且其中该组的每条链包含与同一模板DNA核酸的全部或部分互补的DNA序列。在一些情况下，一组中条形码起始引物的数目的范围可以为约2至约40条。在一些情况下，该组可包含至少2条、至少4条、至少6条、至少8条、至少10条、至少20条、至少30条或至少40条条形码起始引物。在一些情况下，该组可包含至多40条、至多30条、至多20条、至多10条、至多8条、至多6条、至多4条或至多2条条形码起始引物。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，一组中条形码起始引物的数目的范围可以为约4至约16条。本领域技术人员将认识到，一组中条形码起始引物的数目可以具有该范围内的任何值，例如，约9条条形码起始引物。

在一些情况下，试剂盒还可以包含一种或多种聚合酶、核苷酸和其他试剂，用于使用条形码起始引物进行引物延伸反应。

在一些情况下，试剂盒还可以包含用于合成独特的模板DNA核酸条形码的一组两种或多种APS（或编码单元）、以及模板分子（“夹板”）和其他化学偶联（例如，点击化学）或连接试剂。在一些情况下，一组中的独特APS（或编码单元）的数目的范围可以为约2至约40种。在一些情况下，该组可包含至少2、至少4、至少6、至少8、至少10、至少20、至少30或至少40种独特APS。在一些情况下，该组可包含至多40、至多30、至多20、至多10、至多8、至多6、至多4或至多2种独特APS。可以组合本段中描述的任何较低和较高值以形成本公开内容中包括的范围，例如，一组中独特APS的数目的范围可以为约6至约20种。本领域技术人员将认识到，一组中独特APS的数目可以具有该范围内的任何值，例如，约12种独特APS。

在一些情况下，本公开内容的试剂盒还可以包含一组一条或多条扩增引物（例如，通用引物和/或定制引物）、一组一条或多条测序引物（例如，Illumina测序引物）、用于制备测序文库的其他衔接子和试剂等，或其任何组合。

系统：本文还公开了用于执行所述的DNA条形码化和长程序列组装方法的系统。在一些情况下，本公开内容的系统可包含多个反应容器（例如，管、小瓶、微孔板）、流体处理和分配组件（例如，泵、阀、管、试剂瓶、自动移液器或注射器等），以及处理器或控制器，其中所述系统被配置成分配试剂、混合和分配反应混合物，并进行模板DNA核酸条形码的自动化分开-合并合成。在一些情况下，该系统可以进一步包括温度控制器，并且可以被配置为进行引物延伸和核酸扩增反应。在一些情况下，处理器或控制器可以包括光学和/或磁性数据存储介质，其包括仪器控制软件、数据采集和分析软件，和/或数据可视化软件。在一些情况下，该系统可以包括集成的或独立的数据分析软件，其基于针对多个条形码化的互补DNA序列获得的模板序列数据来促进长程序列组装。在一些情况下，系统可以包括集成的或独立的数据分析软件，其基于使用包含错误校正子代码的一组APS合成的条形码的序列数据进行错误检查和/或错误校正。

实施例 - 使用条形码化互补DNA的长程测序

本公开内容的DNA条形码化方法示于图1A-C中。将片段化的DNA样品（例如，片段化的基因组DNA、外来(exomic) DNA或其他类型的DNA）解链或变性（即，以产生单链DNA）并在3'末端用生物素进行末端标记以用于后续纯化（图1A）。该步骤可在约30分钟内完成。

在生物素标记步骤之后，使用多条条形码起始引物，例如，包含随机或半随机模板退火区和条形码起始位点或部分的引物分子引发模板DNA核酸片段（图1B）。在将一条或多条条形码起始引物退火至每个模板DNA核酸片段后，进行聚合酶延伸反应以产生与模板DNA退火的“一组”互补DNA链。退火和引物延伸反应均可在单个管或反应容器中进行。在一些情况下，可以将双脱氧核苷酸（例如 ddCTP）引入反应混合物中以产生随机终止，其阻止聚合酶置换与相同模板DNA核酸连接的其他互补DNA链。该步骤可在约30分钟内完成。

在引物延伸步骤之后，通过使用如上所述的一组APS（或编码单元）进行分开-合并合成或组装反应来对每组互补DNA链进行条形码化（图1C和2）。选择分开-合并合成的轮次数和每轮合成时可用于偶联的独特APS的数目，以确保任何两个模板DNA核酸（或与两个模板DNA退火的互补DNA链的组）具有相同条形码的概率非常小。因此，每个模板DNA核酸（或与每个模板DNA核酸退火的互补DNA链的组）具有实质上独特的条形码，其随后可用于鉴定从单个模板DNA核酸片段合成的互补DNA序列的组。模板DNA片段条形码的分开-合并合成可以例如使用多通道移液器(pippetor)在简单的微流体装置中或在96孔板中进行。不需要分离或离心步骤（除了样品的合并和再等分之外），并且不需要将单独的模板DNA核酸分配到单独的反应容器或区室中。该步骤可在约1小时内进行。

在合成条形码之后，可以使用多种生物素/抗生物素蛋白纯化方案中的任何一种来亲和纯化与模板DNA核酸退火的条形码化的互补DNA链的组，将条形码化的互补DNA链变性和扩增（例如，使用PCR和互补链的半随机引发），测序，并可以通过使用条形码以鉴定从单个模板DNA核酸合成的互补序列的组来组装长程序列。

Claims

1.促进核酸序列组装的方法，所述方法包括：

a）提供包含单链模板核酸的核酸样品；

b）用一条或多条条形码起始引物引发各模板核酸以产生退火的核酸组装体，其中每条条形码起始引物包含3'-模板杂交部分和5'-条形码起始部分；

c）进行聚合酶延伸以产生互补链，所述互补链保持与所述模板核酸退火；

d）进行两轮或多轮偶联寡核苷酸编码单元“可测定的聚合物亚单元”（APS）的分开-合并合成，以在包含条形码区域、引物区域和与靶核酸互补的靶特异性区域的互补链的每一条上组装寡核苷酸条形码序列；

e）对条形码化互补链进行测序；和

f）使用所述条形码序列，鉴定从相同模板核酸产生的条形码化互补链，并从所述条形码化互补链的靶特异性区域组装模板核酸序列。

2.权利要求1的方法，其进一步包括在步骤（b）之前用亲和标签在3'末端对所述单链模板核酸进行末端标记。

3.权利要求1或权利要求2所述的方法，其中所述亲和标签是生物素。

4.前述权利要求中任一项的方法，其中所述3'-条形码起始部分包含随机序列。

5.前述权利要求中任一项的方法，其中步骤c）中的聚合酶延伸包含双脱氧核苷酸。

6.前述权利要求中任一项的方法，其中所述APS包含错误检查子代码（SC），所述错误检查子代码（SC）包含与样品中其他SC至少3个核苷酸不同的约7个核苷酸的确定序列。

7.前述权利要求中任一项的方法，其中每个APS包含随机序列。

8.前述权利要求中任一项的方法，其还包括计数由相同模板核酸产生的条形码化互补链，从而检测所述模板核酸的初始拷贝数的步骤。

9.前述权利要求中任一项的方法，其中所述APS通过与夹板分子退火而偶联。

10.前述权利要求中任一项的方法，其中使用点击化学来偶联所述APS。

11.试剂盒，其包含由以下组成的组分：一组条形码起始引物、一种或多种聚合酶、核苷酸、双脱氧核苷酸、一组可测定的聚合物亚单元（APS）、一种或多种模板分子（夹板）、连接试剂、点击化学偶联试剂、扩增引物和测序引物。

12.权利要求11的试剂盒，其中所述条形码起始引物包含随机引物序列区。

13.权利要求11或权利要求12的试剂盒，其中所述APS的组包含2至20种独特APS。

14.权利要求11-13中任一项的试剂盒，其中所述APS是寡核苷酸。