CN108138228A

CN108138228A - 用于下一代测序的高分子量dna样品追踪标签

Info

Publication number: CN108138228A
Application number: CN201680043622.XA
Authority: CN
Inventors: 马丁·冉妮科; 埃里克·范德沃特; 保罗·麦克尤恩
Original assignee: Kappa Bio System Inc
Current assignee: Kappa Bio System Inc
Priority date: 2015-09-29
Filing date: 2016-09-28
Publication date: 2018-06-08
Anticipated expiration: 2036-09-28
Also published as: JP7332733B2; US11001834B2; CN108138228B; WO2017058936A1; JP2022071064A; US20170088832A1; EP3356552A1; JP2018527928A; JP7051677B2; CA2996735A1

Abstract

本发明提供了可以加入到样品中用于识别和追踪的合成核酸分子标签。除此外，本发明提供了合成的高分子量多联体，其可以与样品组合以产生数以百万计的唯一识别符。可以使用合成核酸分子标签的实例应用包括工业应用、研究应用和临床应用。

Description

用于下一代测序的高分子量DNA样品追踪标签

相关申请的交叉引用

本申请是基于2015年9月29日提交的美国临时申请序列号62/234,630以及2016年5月12日提交的美国临时申请序列号62/335,364，要求其优先权，并通过引用将其全部内容并入本文。

关于联邦资助研究的声明

不适用。

序列表的并入

在2016年9月27日创建并且大小为20KB的名为“RMSI-006001WO_SeqList.txt”的文本文件的内容在此通过引用以其整体并入。

背景

DNA测序技术正在进行的革命正在改变医学科学、农业科学和法医科学，产生了在有限的时间内处理大量的样品的期望和要求。最近的一篇技术综述描述了目前的项目，如Roadmap Epigenomics Consortium–其使用高通量DNA测序技术来描述人类细胞类型的表观基因组–分析小鼠大脑的单细胞转录组的研究，并努力将纽约市地铁的宏基因组记录为“以前难以想象的”。(Perkel，JM，2015年2月24日在Biocompare上发表的Next-Gen DNASequencing:2015Update(下一代DNA测序：2015更新))。

概述

除其他之外，本公开提供了与追踪核酸样品的技术有关的某些见解。在一个方面，本公开内容识别与许多现有的核酸管理和/或分析系统相关的问题的来源。例如，本公开内容涵盖如下见解：许多高通量设施如临床实验室和核心实验室存在混淆样品或交叉污染样品的风险。在许多情况下，这些类型的错误不能通过标准质量控制工作流程检测到，尤其是在临床环境(例如体细胞突变检测)中造成可能严重的后果，法医检验中的DNA分析错误等等。本公开内容因此认识到，检测这样的错误是样品处理和分析中重要的、未满足的需求。

除其他之外，本发明提供了例如用于确认样品身份和/或检测样品交叉污染的高分子量合成的核酸标签。

在一些实施方案中，提供的标签包含DNA或由其组成。在一些实施方案中，提供的标签包含双链DNA(“dsDNA”)或由其组成。在一些实施方案中，提供的标签(例如，dsDNA标签)具有包含序列元件(sequence element)的重复或由序列元件的重复组成的核苷酸序列，其中所述序列元件包含如本文所述的标签序列和通用序列或由其组成。在一些实施方案中，提供的标签可以以标签质量与样品质量的特定比率被“加标(spiked in)”或添加到样品中。

在一些实施方案中，提供的标签可以例如以限定的量(重量和/或体积)添加(“加标”)到分析中(例如，进行核酸测序或其他处理技术)的核酸样品。

在一些实施方案中，可以使用诸如基于探针的qPCR的技术来检测和区分提供的标签。

在一些实施方案中，提供的标签可以用作独立的DNA标志物(例如，用于给物理对象加标签)。在一些实施方案中，加标签的物理对象不是核酸分子。

在一些这样的实施方案中，可以将提供的标签添加到进行特定分析的多个样品中。在一些实施方案中，提供的标签可以被添加到进行特定分析的所有样品。

根据本公开内容的一些实施方案，可以以标签与样品DNA的预定质量比(例如0.1％)将如本文所述的标签添加到样品中。

在一些实施方案中，可以将标签添加到进行测序分析(例如DNA测序分析)的样品(并因此包含用于测序分析的组分和/或试剂)。在一些实施方案中，可将标签添加到进行高通量测序分析的样品中。在一些实施方案中，标签可以被添加到进行所谓的“下一代测序(next-generation sequencing)”(“NGS”)分析的样品中。

在一些实施方案中，可以将标签添加到一组彼此相关的样品中，其中它们包括来自单一来源(例如单个基因组，单一转录组等等)或来自一组相关的来源的样品核酸(例如，待测序的靶DNA或RNA)。在一些实施方案中，一组样品是“库”。

在一些实施方案中，如本文所述的标签可以在它们收集时添加到样品中(例如添加到例如特定生物或细胞核酸的粗制样品)，从而进一步降低样品交叉污染的可能性。根据本公开内容，在一些实施方案中，提供的标签的某些特征(例如，它们的合成设计，包含随机和/或通用序列元件，它们的重复结构等等)有助于在数据分析期间改善的、明确的源于标签的序列识别。唯一标签之间的大的编辑距离可以允许清楚地识别样品交叉污染，并且可以用于分析技术参数诸如索引性衔接子条码串扰。在一些实施方案中，重复标签结构允许在目标测序应用(诸如杂交捕获和扩增子测序)中使用提供的标签。组合样品加标签将允许使用相对较少的一组唯一的标签序列来产生许多唯一的样品标签组合。除此之外，所提供的样品加标签方法为确保样品安全性(特别是高通量，例如NGS样品)和从样品收集到序列分析的过程控制提供了简单和可靠的手段。

在一些实施方案中，本发明提供了合成的核酸标签，其核酸序列可以具有结构A-B-C的多个重复单元，并且具有由下式表示的整体结构：X-[A-B-C]_n-Y。在一种实施方案中，n为至少两个，并且A，B和C中的每一个具有2个或更多个残基的限定长度。

在一些实施方案中，具有根据式X-[A-B-C]_n-Y的式的标签具有A和C中的每一个的序列，序列具有至少一个引物着陆点(primer landing pad)序列元件，在该元件中与其杂交的引物可以被延伸，并且另外其中A和C具有彼此相容的核苷酸序列，其中相反方向的引物可以同时与两者杂交，从而通过延伸该杂交的引物产生扩增产物。

在一些实施方案中，至少B具有不与在用于分析的相关样品中发现的任何序列杂交的序列，其中B具有足够的长度以确保标签中个体B区之间至少为2的编辑距离。

在一些实施方案中，具有根据式X-[A-B-C]_n-Y的式的标签具有任选存在或不存在的X，并且如果存在的话可以由-C-的一个或多个实例组成或包括-C-的一个或多个实例，或者可以由另一种元件组成或包含另一种元件。在一些实施方案中，Y任选地存在或不存在，并且如果存在的话，可以由-A-的一个或多个实例组成或包含-A-的一个或多个实例，或者可以由另一元件组成或包含另一元件。

在一些实施方案中，本发明提供了包含DNA和至少一个合成的核酸标签的测序样品，其中A和C各自为至少2个核酸长度，并且具有相同或不同的长度；并且其中B包含至少2个核酸，并且其中多个重复单元是至少两个。

在一些实施方案中，本发明提供了用于序列分析的一组样品，其中每个样品含有至少一个合成的核酸标签，该标签的核苷酸序列包含多个根据式A-B-C的重复单元，其中A和C各自为至少8个核酸长度，并且是相同或不同的长度；并且其中B包含至少8个核酸。

在一些实施方案中，标签包含为双链的核酸分子。在一些实施方案中，A的长度和C的长度各自为至少至少2个核苷酸。在一些实施方案中，B的长度是至少2个核苷酸。

在一些实施方案中，每分子重复单元的数目至少为2。

在一些实施方案中，本发明提供了试剂盒。在一些实施方案中，试剂盒包含多种核酸分子标签，其每一种具有由下式表示的核酸序列：[A-B-C]_n，其中n为至少2，其中A、B和C中每一个具有2个或更多个残基的限定长度。

在一些实施方案中，试剂盒具有不同的标签或标签组。在一些实施方案中，试剂盒中的不同标签在结构上彼此相关，其中：每种标签具有相同的A序列元件；每种标签具有相同的C序列元件；并且每种标签具有不同于试剂盒中的其他标签的B序列元件。

在一些实施方案中，本发明提供了包括如本文所述的一种或多种标签的样品采集管。

在一些实施方案中，核酸分子标签是双链DNA。

在一些实施方案中，A和C各自的长度是至少2个核苷酸。在一些实施方案中，B的长度是至少2个核苷酸。

在一些实施方案中，标签内的重复的数目至少为2。

在一些实施方案中，本发明提供给样品加标签的方法。在一些实施方案中，该方法包括使样品与如本文所述的至少一种标签在使得标签和样品被包含在同一容器中的条件下接触。

在一些实施方案中，样品是粗制样品。在一些实施方案中，样品被分成一个或多个部分(子样品)。

在一些实施方案中，样品是纯化的样品。在一些实施方案中，纯化的样品是分离的DNA。

在一些实施方案中，样品与标签的接触在收集样品时发生。在一些实施方案中，接触发生在样品纯化之前。在一些实施方案中，接触发生在DNA提取之前。在一些实施方案中，接触发生在DNA提取之后。在一些实施方案中，接触发生在DNA纯化之后。

在一些实施方案中，接触发生在含有样品的收集容器中。在一些实施方案中，接触发生在孔板/容器中，该容器将用于放大和分析样品。在一些实施方案中，接触发生在样品被分成多于一部分之前。在一些实施方案中，接触发生在样品被分成多于一部分之后。

在一些实施方案中，接触包括将标签以相对于样品质量至少约0.0001％至至少约10％的标签质量添加至样品。

在另一种实施方案中，本公开内容提供了合成的核酸标签，其核酸序列包括结构A-B-C的多个重复单元。合成的核酸标签具有由下式表示的整体结构：X-[A-B-C]_n-Y_j。合成的核酸标签包含结构A-B-C的n个重复，其中n至少为2。在一个方面，A、B和C中的每一个是具有至少两个残基的限定长度的核酸，合成的核酸标签包括i个重复的X，合成的核酸标签包括j个重复的Y。另一方面，X是C、另一种核酸和核酸修饰中的至少一种，并且Y是A、另一种核酸和核酸修饰中的至少一种。在又一方面，i和j是独立地选自0-100的整数。

附图说明

图1是使用根据本公开内容的高分子量DNA标签的样品追踪方法的实例。

图2是制作若干根据本公开内容的标签的方法的实施方案的示意图。

图3A是产生根据本公开内容的高分子量样品追踪DNA标签的高通量方法的第一实例。

图3B是图3A的方法的示意图。

图4是图3A和3B的方法的实例产品的示意图，示出哪些产品将通过实例质量控制(QC)措施。

图5A是产生根据本公开内容的高分子量样品追踪DNA标签的高通量方法的第二实例。

图5B是图5A的方法的示意图。

图6是用DNA聚合酶制备的消化的和未消化的高分子量标签的凝胶电泳后的琼脂糖凝胶的图像。从左至右，凝胶泳道装载有标准DNA阶梯(Ladder)，未消化的纯化的HMWTag 1 DNA(L1)，用HaeIII消化的Tag 1 DNA(L2)和无模板对照(L3)。

图7显示了实例性高分子量标签的实时扩增结果。添加正向(F)引物(RCA_PCR_F(SEQ ID NO：8))和反向(R)引物(RCA_PCR_R(SEQ ID NO：9))使得能够指数扩增，指数扩增在3小时后保持平稳。单独添加正向引物也是足够的，而单独添加反向引物不足以发生多重置换扩增。无模板对照(NTC)反应不产生扩增产物。

图8显示实时PCR的结果，例如由百日咳博德特氏菌(Bordetella pertussis)DNA和加标的高分子量样品追踪标签制备的测序文库。通过扩增来对样品进行分析：i)使用来自KAPA文库量化试剂盒(LQK)的文库特异性引物来检测50ng或1ng百日咳博德特氏菌文库DNA，并且ii)使用标签特异性引物来检测2％的加标标签1 DNA。扩增的(50ng)和未扩增的(1ng)文库均展示了源于标签的文库分子与文库分子相同的比率。

图9显示了示例性文库的测序的原始结果。来自文库的原始读出(read)的比对(alignment)被映射到标签1序列。

图10显示了用两种不同聚合酶产生高分子量标签的示例性结果。泳道1：KAPA通用阶梯(Kapa Biosystems，Inc.)。泳道2-3：HMW DNA标签1和泳道4-6：分别用DNA聚合酶产生的HMW DNA标签5、13和14。泳道7：DNA聚合酶NTC反应。泳道8-11：分别用Bst大片段DNA聚合酶产生的标签1、5、13和14。泳道12：Bst DNA聚合酶NTC反应。

图11显示测序读出的比对被映射到示例性的高分子量标签。上图：用产生的标签4 HMW DNA。下图：用Bst DNA聚合酶产生的标签4 HMW DNA。

图12A是显示了对于根据本公开内容制备的96种不同的HMW DNA标签的集合，与正确标签参考序列比对的读出的百分比(中值99.9％)的散点图。图中的每个点表示单个标签。

图12B是显示了对于图12A的96种不同的HMW DNA标签的集合，与不正确标签参考序列比对的读出的百分比(中值0.06％)的散点图。图中的每个点代表一个标签。

定义

在本申请中，除非由上下文另外清楚，否则(i)术语“一”可以理解为是指“至少一”；(ii)术语“或”可以被理解为是指“和/或”；(iii)术语“包含”和“包括”可以被理解为涵盖分项组件或步骤，无论其自身呈现还是与一个或多个额外组件或步骤一起呈现；和(iv)术语“约”和“大约”可被理解为允许如本领域普通技术人员将理解的标准变化；和(v)在提供范围的地方，包括端点。

大约：如本文所使用的，应用于一个或多个感兴趣值的术语“大约”或“约”是指与所述参考值类似的值。在某些实施方案中，术语“大约”或“约”除非另有说明或从上下文中另外明确(除了该数字将超过可能值的100％之外)是指落在任一方向(大于或小于)所述参考值的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小之内的值的范围。

相关联：一个事件或实体的水平和/或形式，如果存在，与另一事件或实体相关，那么这两个事件或实体彼此相“关联”，如该术语在本文使用那样。例如，特定实体(例如，多肽，遗传标记(genitic signature)，代谢物等)的水平和/或形式，如果其存在，与特定疾病、失调或病症的发病率和/或易感性(例如跨相关人群)相关，那么认为该特定实体与所述疾病、失调或病症相关联。在一些实施方案中，如果两个或更多个实体直接或间接地相互作用，使得它们处于和/或保持彼此物理接近，则两个或更多个实体在物理上彼此“关联”。在一些实施方案中，彼此物理上相关联的两个或更多个实体彼此共价连接；在一些实施方案中，彼此物理上相关联的两个或更多个实体彼此不是共价连接的，而是例如通过氢键、范德华相互作用、疏水相互作用、磁性以及它们的组合非共价关联。

条码(barcode)：如本文所用，术语“条码”意在表示特定的核酸分子或序列，其在被混合和/或添加到待分析(例如，通过核酸测序分析)的样品时用作机器可读识别符。在一些实施方案中，使用条码来识别、追踪和/或确认特定样品的存在和/或不存在

生物样品：如本文所使用的，术语“生物样品”通常是指从如本文所述的感兴趣的生物来源(例如，组织或生物体或细胞培养物)获得或衍生的样品。在一些实施方案中，感兴趣的来源包括生物(如动物或人类)或由其组成。在一些实施方案中，生物样品包含生物组织或流体或由生物组织或流体组成。在一些实施方案中，生物样品可以是或包含骨髓；血液；血细胞；腹水；组织或细针活检样品；含有细胞的体液；自由漂浮的核酸；痰；唾液；尿；脑脊液，腹膜液；胸膜液；粪便；淋巴；妇科流体；皮肤拭子；阴道拭子；口腔拭子；鼻拭子；洗涤物或灌洗物，如导管灌洗物或支气管肺泡灌洗物；抽吸物；刮出物；骨髓样本；组织活检样本；手术样本；其他体液，分泌物和/或排泄物；和/或来自其的细胞等。在一些实施方案中，生物样品包含从个体获得的细胞或由其组成。在一些实施方案中，获得的细胞是或包括来自获得样品的个体的细胞。在一些实施方案中，样品是通过任何适当的手段从感兴趣的来源直接获得的“原始样品”。例如，在一些实施方案中，通过选自由活检(例如，细针抽吸或组织活检)、手术、体液(例如血液，淋巴，粪便等)的收集等等组成的组的方法获得原始生物样品。在一些实施方案中，从上下文可以清楚地看出，术语“样品”是指通过处理(例如，通过去除原始样品的一种或多种组分和/或通过向原始样品添加一种或多种剂)而获得的制品。例如，使用半透膜进行过滤。这样的“处理过的样品”可以包括例如从样品中提取的或者通过使原始样品经受诸如mRNA的扩增或逆转录，某些组分的分离和/或纯化等技术获得的核酸或蛋白质。

载体：如本文所用，术语“载体”是指与组合物一起施用的稀释剂、佐剂、赋形剂或媒介物。在一些示例性实施方案中，载体可以包括无菌液体，诸如，例如水和油，包括石油、动物、植物或合成来源的油，诸如，例如花生油、大豆油、矿物油、芝麻油等等。在一些实施方案中，载体是或包含一种或多种固体组分。

细胞裂解物：如本文所用，术语“细胞裂解物(cellular lysate)”或“细胞的裂解物(cell lysate)”是指含有一种或多种破裂细胞(即，其膜已被破坏的细胞)的内容物的流体。在一些实施方案中，细胞裂解物包含亲水性和疏水性细胞组分。在一些实施方案中，细胞裂解物是选自由以下组成的组的一种或多种细胞的裂解物：植物细胞、微生物(例如细菌或真菌)细胞、动物细胞(例如哺乳动物细胞)、人细胞及其组合。在一些实施方案中，细胞裂解物是一种或多种异常细胞如癌细胞的裂解物。在一些实施方案中，细胞裂解物是粗裂解物，其中在破坏细胞之后进行很少或不进行纯化，这产生“初级”裂解物。在一些实施方案中，对初级裂解物进行一个或多个分离或纯化步骤。然而，术语“裂解物”是指包含多种细胞组分的制品而不是指任何个体组分的纯制品。

特征序列：“特征序列”是在多肽或核酸家族的所有成员中发现的序列，因此可以由本领域普通技术人员用来定义家族的成员。

特征序列元件：如本文所用，短语“特征序列元件”是指在聚合物(例如，在多肽或核酸中)中发现的代表该聚合物的特征部分的序列元件。在一些实施方案中，特征序列元件的存在与聚合物的特定活性或特性的存在或水平相关。在一些实施方案中，特征序列元件的存在(或不存在)将特定聚合物定义为特定家族或这类聚合物的组的成员(或非成员)。特征序列元件通常包含至少两个单体(例如氨基酸或核苷酸)或由其组成。在一些实施方案中，特征性序列元件包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50个或更多个单体(例如，连续连接的单体)。在一些实施方案中，特征序列元件包含由一个或多个间隔区间隔开的连续单体的至少第一和第二延伸(stretch)，其长度在共享该序列元件的聚合物上可以改变或可以不改变。

相容的：本文在上下文相容的引物中使用的术语“相容的”是指例如反应内的两个引物可用于相同的反应中而没有有害作用(包括例如形成引物二聚体或结合至基因组或样品DNA序列)的特征。例如，相容的引物可具有包括GC含量百分比、解链温度和结合特异性的类似特征，使得它们与目标靶结合比与彼此结合的可能性更大。

包含：本文描述为“包含”一个或多个指定要素或步骤的组合物或方法是开放式的，这意味着所述指定要素或步骤是必需的，但是可以在该组合物或方法的范围内添加其他要素或步骤。应该理解的是，被描述为“包含”(或其“包括”)一个或多个所述指定要素或步骤的组合物或方法也描述了“基本上由相同的指定要素或步骤组成”(或者其“主要由相同的指定要素或步骤组成”)的相应的，更限制的组合物或方法，意味着该组合物或方法包括所述命名的主要要素或步骤，并且还可以包括不会实质上影响该组合物或方法的一种或多种基本和新颖特征的额外要素或步骤。还应该理解的是，在此描述为“包含”一个或多个所述指定要素或步骤或“基本上由其组成”的任何组合物或方法也描述“由所述指定要素或步骤组成”(或“由其组成”)以排除任何其他未命名的要素或步骤的相应的，更有限的和封闭的组合物或方法。在本文公开的任何组合物或方法中，任何命名的基本要素或步骤的已知的或公开的等同物可以替代该要素或步骤。

多联体(concatemer)：如本文所用，术语“多联体”是指连续的核酸分子，所述核酸分子具有包含重复的核酸序列或由其组成的核酸序列，所述核酸序列本身包含彼此串联连接的多个序列元件或由其组成。在一些实施方案中，多联体包含整个基因组的拷贝。在一些实施方案中，多联体包含基因组的部分。在一些实施方案中，多联体包含一个或多个基因。在一些实施方案中，多联体包含一组或多组合成产生的核苷酸。在一些实施方案中，连接的一系列序列元件例如被每个重复之间的短核苷酸序列分开。例如，序列元件A、B和C的“多联体”可具有由ABCABCABCABC或ACBACBACBACB或BCABCABCABCA或BACBACBACBAC或CABCABCAB或CBACBACBA或AABCAABCAABC等表示的序列。

简并寡核苷酸：如本文所用，短语“简并寡核苷酸“在一些实施方案中是指以允许在合成期间在特定寡核苷酸位置并入全部四种碱基(即，A，T，G和C)的方式合成的寡核苷酸的混合物。例如，ACGCGACGNNNNNNTGGGACGA是简并序列/简并寡核苷酸，其中“N”代表简并核苷酸。由于存在6个连续的简并核苷酸和使用4种不同碱基(即A，T，G和C)，用示例序列的寡核苷酸合成将产生4⁶个寡核苷酸。

设计的：如本文所用，术语“设计的”是指如下一种剂：(i)其结构是由人手选择；(ii)由需要人手的过程所产生；和/或(iii)不同于天然物质和其他已知的剂。

确定：阅读本说明书的本领域普通技术人员将会理解，“确定”可以利用或通过使用本领域技术人员可用的各种技术(包括例如本文明确提及的特定技术)中的任一种来实现。在一些实施方案中，确定涉及物理样品的操纵。在一些实施方案中，确定涉及例如利用计算机或适于执行相关分析的其他处理单元考虑和/或操纵数据或信息。在一些实施方案中，确定涉及从源接收相关信息和/或材料。在一些实施方案中，确定涉及将样品或实体的一个或多个特征与可比较的参考进行比较。

诊断信息：如本文所使用的，“诊断信息”或“用于诊断的信息”是可用于以下方面的信息：确定患者是否具有疾病、失调或病症和/或将疾病、失调或病症归类为表型类别或任何关于疾病、失调或病症的预后或对疾病，失调或病症的治疗(一般治疗或任何特定的治疗)的可能响应具有显著性的类别。类似地，“诊断”是指提供任何类型的诊断信息，包括但不限于受试者是否可能具有或发展疾病、失调或病症，在受试者中表现的疾病、失调或病症的状态、分期或特征，与肿瘤的性质或分类有关的信息，与预后有关的信息和/或在选择适当治疗方面有用的信息。治疗的选择可以包括选择特定的治疗剂或其他治疗方式，如手术、放疗等，关于是否保留或递送治疗的选择，与剂量方案有关的选择(例如，特定治疗剂或治疗剂的组合的一个或更多个剂量的频率或水平)等。

域(domain，结构域)：术语“域”在本文中用于指实体的节段或部分。在一些实施方案中，“域”与实体的特定结构和/或功能特征相关联，使得当域与其母实体的其余部分物理分离时，其基本上或完全保留特定结构和/或功能特点。可替代地或另外地，域可以是或包括当与该(母)实体分离并与不同(接受者)实体连接时基本上保留和/或赋予接受者实体一个或多个结构和/或功能特点的实体部分，所述结构和/或功能特点在母实体中以域为特征。在一些实施方案中，域是分子结构(例如，小分子，碳水化合物，脂质，核酸或多肽)的区段或部分。在一些实施方案中，域是多肽的区段；在一些这样的实施方案中，域的特征在于特定的结构元件(例如，特定的氨基酸序列或序列基序，α-螺旋特征，β-折叠特征，卷曲螺旋特征，无规卷曲特征等)，以及/或特定的功能特点(例如结合活性，酶活性，折叠活性，信号传导活性等)。

编辑距离：如本文所用，短语“编辑距离”表示例如一系列核酸、核酸分子或标签(作为标签在本文中描述)彼此不同的核酸的数目，并且是指一个标签被错误识别为另一标签需要发生的取代、插入、缺失或其他变化的数目(例如，对于两个核酸分子，例如标签1和标签2，编辑距离为8个核酸的情况下，在标签1的序列中将需要七个改变事件，其中这样的改变事件使得标签1更类似于标签2，以便标签1被标识为标签2)。在一些实施方案中，编辑距离可与“莱文斯坦距离(Levenshtein distance)”互换使用，如在Levenshtein，VladimirI.(1966年2月).“Binary codes capable of correcting deletions,insertions,andreversals(能够纠正删除，插入和反转的二进制代码)”.Soviet Physics Doklady 10(8):707–710。

表达：如本文所用，核酸序列的“表达”是指以下事件中的一个或多个：(1)从DNA序列中产生RNA模板(例如，通过转录)；(2)处理RNA转录本(例如通过剪接，编辑，5'帽形成和/或3'端形成)；(3)将RNA翻译成多肽或蛋白质；和/或(4)多肽或蛋白质的翻译后修饰。

片段：本文所述的材料或实体的“片段”具有包括整体的不连续部分但缺少整体中发现的一个或多个部分的结构。在一些实施方案中，片段由这样的分离部分组成。在一些实施方案中，片段由整体中存在的特征性结构元件或部分组成或者包含特征性结构元件或部分。在一些实施方案中，聚合物片段包含以下或由其组成：至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、275、300、325、350、375、400、425、450、475、500或更多个在整个聚合物中发现的单体单元(例如残基)。在一些实施方案中，聚合物片段包含以下或由其组成：至少约5％、10％、15％、20％、25％、30％、25％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或更多的在整个聚合物中发现的单体单元(例如残基)。整个材料或实体在一些实施方案中可以被称为整体的“母体”。

基因：如本文所用，术语“基因”是指染色体中编码产物(例如，RNA产物和/或多肽产物)的DNA序列。在一些实施方案中，基因包括编码序列(即，编码特定产物的序列)；在一些实施方案中，基因包括非编码序列。在一些具体的实施方案中，基因可以包括编码(例如外显子)和非编码(例如内含子)序列二者。在一些实施方案中，基因可以包括一个或多个调控元件，所述调控元件例如可以控制或影响基因表达(例如细胞类型特异性表达，诱导型表达等)的一个或多个方面。

基因产物或表达产物：如本文所用，术语“基因产物”或“表达产物”通常是指从基因转录的RNA(前处理和/或后处理)或由基因转录的RNA编码的多肽(前修饰和/或后修饰)。

基因组：如本文所用，术语“基因组”是指个体生物体或细胞所携带的由其染色体的完整DNA序列所代表的全部遗传信息。

基因组谱(genome profile)：如本文所使用的，术语“基因组谱”是指包含在基因组内的全部信息的代表性子集。通常，基因组谱在特定的一组多态性基因座处包含基因型。在一些实施方案中，基因组谱可以与例如特定动物、品系、品种或杂交种群的特征的特定特点、性状或其组合相关。

基因组DNA：如本文所用，短语“基因组DNA”是指代表至少约一个拷贝的包含在生物体基因组中的总遗传信息的DNA。在一些实施方案中，基因组DNA是从染色体中提取的。在一些实施方案中，基因组DNA是可用于例如PCR扩增和/或测序分析等的染色体外基因组DNA。

基因型：如本文所用，术语“基因型”是指给定细胞或生物体中的给定遗传基因座(genetic locus)或一组相关基因座处的等位基因的二倍体组合。纯合子受试者携带两个拷贝的同一等位基因，而杂合子受试者携带两个不同的等位基因。在具有两个等位基因“A”和“a”的基因座的最简单情况下，可以形成三种基因型：A/A，A/a和a/a。

基因分型：如本文所用，术语“基因分型”是指用于在一个或多个明确定义的基因座上区分个体基因型的实验、计算或观察方案。本领域技术人员将意识到能够有用地且有效地进行基因分型的各种技术。在一些实施方案中，基因分型涉及核酸或核酸序列的直接检测。在一些实施方案中，基因分型包括例如通过检测或分析与核酸或核酸序列的存在相关的代理标记或事件来间接检测核酸或核酸序列。

高分子量DNA：如本文所用，短语“高分子量DNA”尤其是指在整个处理期间将容易地与基因组DNA一起移动和/或共纯化的DNA。高分子量DNA通常不会移动穿过用于短(5千碱基或更少)PCR产物或消化/切割DNA的基因分型或分析的标准品，例如琼脂糖凝胶(例如1-2％琼脂糖)。在一些实施方案中，高分子量DNA不同于PCR产物，其中PCR产物通常不是高分子量的并且可能在结构上不同。在一些实施方案中，高分子量DNA包含以下或由以下组成：至少约400个碱基、至少约500个碱基、至少约600个碱基、至少约700个碱基、至少约800个碱基、至少约900个碱基、至少约1千碱基、至少约2千碱基、至少约3千碱基、至少约4千碱基、至少约5千碱基、至少约6千碱基、至少约7千碱基、至少约8千碱基、至少约9千碱基、至少约10千碱基、至少约11千碱基、至少约12千碱基、至少约13千碱基、至少约14千碱基、至少约15千碱基、至少约16千碱基、至少约17千碱基、至少约18千碱基、至少约19千碱基、至少约20千碱基、至少约30千碱基、至少约40千碱基、至少约50千碱基、至少约60千碱基、至少约70千碱基、至少约80千碱基、至少约90千碱基、至少约100千碱基或大于100千碱基。

同源性：如本文所用，术语“同源性”是指聚合物分子之间，例如核酸分子(例如DNA分子和/或RNA分子)之间和/或多肽分子之间的总体相关性。在一些实施方案中，如果聚合物分子的序列为至少25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％相同，则认为聚合物分子彼此是“同源的”。在一些实施方案中，如果聚合物分子的序列为至少25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％相似(例如，在相应位置包含具有相关化学特性的残基)，则认为聚合物分子彼此是“同源的”。如本领域技术人员将理解的，多种算法是可用的，所述多种算法允许比较序列以确定它们的同源性程度，包括通过允许一个序列中相对于另一个序列的指定长度的空位(在考虑哪些残基“对应于”不同序列中的另外残基时)。两个核酸序列之间的同源性百分比的计算例如可以通过为了最佳比较目的比对这两个序列来进行(例如，可以将空位引入第一和第二核酸序列中的一个或两个中以最佳比对并且为了比较的目的，可以忽略非对应序列)。在某些实施方案中，为比较目的比对的序列的长度为参考序列长度的至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或基本上100％。然后比较相应核苷酸位置的核苷酸。当第一序列中的一个位置被与第二序列中对应位置相同的核苷酸占据时，那么这些分子在该位置是相同的；当第一序列中的位置被与第二序列中对应位置相似的核苷酸占据时，则这些分子在该位置是相似的。两个序列之间的同源性百分比是考虑到空位的数目和每个空位(需要引入空位用于两个序列的最佳比对)的长度由这些序列共有的相同和相似位置的数目的函数。可用于确定两个核苷酸序列之间同源性百分比的代表性算法和计算机程序包括例如Meyers和Miller(CABIOS，1989,4：11-17)的算法，其已被并入使用PAM120权重残基表、空位长度罚分为12、空位罚分为4的ALIGN程序(2.0版本)。两个核苷酸序列之间的同源性百分比可以可选地例如使用GCG软件包中的GAP程序来确定，GAP程序使用NWSgapdna.CMP矩阵。

同一性：如本文所用，术语“同一性”是指聚合物分子之间，例如核酸分子(例如DNA分子和/或RNA分子)之间和/或多肽分子之间的总体相关性。在一些实施方案中，如果聚合物分子的序列为至少25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％相同，则认为聚合物分子彼此“基本上相同(基本上同一)”。两个核酸或多肽序列的同一性百分比的计算例如可以通过为了最佳比较目的比对两个序列而进行(例如，可以将空位引入第一和第二核酸序列中的一个或两个中以最佳比对并且为了比较的目的，可以忽略非对应序列)。在某些实施方案中，为比较目的比对的序列的长度为参考序列长度的至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％至少95％或基本上100％。然后比较相应位置的核苷酸。当第一序列中的一个位置被与第二序列中对应位置相同的残基(例如核苷酸或氨基酸)占据时，那么这些分子在该位置是相同的。两个序列之间的同一性百分比是考虑到空位的数目和每个空位(需要引入空位用于两个序列的最佳比对)的长度由这些序列共有的相同位置的数目的函数。两个序列之间序列的比较和同一性百分比的确定可使用数学算法来完成。例如两个核苷酸序列之间的同一性百分比可使用Meyers和Miller(CABIOS，1989,4：11-17)的算法来确定，该算法已被并入的ALIGN程序(2.0版本)。在示例性实施方案中，用ALIGN程序进行的核酸序列比较使用PAM120权重残基表、空位长度罚分为12和空位罚分为4。两个核苷酸序列之间的同一性百分比可以可选地例如使用GCG软件包中的GAP程序来确定，GAP程序使用NWSgapdna.CMP矩阵。

分离的：如本文所用，术语“分离的”是指如下物质和/或实体：已经(1)与最初产生时(无论是在自然界中和/或在实验环境中)与其相关联的至少一些组分分离和/或(2)由人工设计、产生、制备和/或制造的物质和/或实体。分离的物质和/或实体可以与约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或多于约99％的与其最初相关联的其他组分分离。在一些实施方案中，分离的剂是约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或者多于约99％纯的。如本文所用，如果物质基本上不含其他组分，则该物质是“纯的”。在一些实施方案中，如本领域技术人员将理解的，在与某些其他组分诸如例如一种或多种载体或赋形剂(例如缓冲液，溶剂，水等)组合后，物质仍可被认为是“分离的”或甚至是“纯的”；在这样的实施方案中，不包括这样的载体或赋形剂的情况下计算物质的分离或纯度百分比。仅举一个例子，在一些实施方案中，当在自然界中产生的生物聚合物如多肽或多核苷酸在以下情况下时被认为是“分离的”：a)由于其起源或获取来源与在自然界中在其天然状态下伴随它的某些或全部组分不相关联；b)它基本上不含与自然界中产生它的物种相同物种的其他多肽或核酸；c)由不属于在自然界中产生它的物种的细胞或其他表达系统表达或以其他方式与来自不属于在自然界中产生它的物种的细胞或其他表达系统的组分相关。因而，例如，在一些实施方案中，被化学合成或在与自然界中产生它的细胞系统不同的细胞系统中合成的核酸分子被认为是“分离的”核酸分子。可替代地或另外地，在一些实施方案中，已经经历一种或多种纯化技术的核酸分子可被认为在已经与其他组分分离的程度上是“分离的”核酸分子，所述其他组分a)在自然界中与核酸分子相关联；和/或b)在初始产生时与核酸分子相关联。

连接子：如本文所用，术语“连接子”用于指将不同元件相互连接的多元件多肽的部分。例如，本领域的普通技术人员认识到，其结构包括两个或更多个功能或组织结构域的多肽通常在这些结构域之间包括使其彼此连接的一段氨基酸。在一些实施方案中，包含连接子元件的多肽具有通式S1-L-S2的总体结构，其中S1和S2可以相同或不同，并且代表通过连接子彼此相关联的两个结构域。在一些实施方案中，连接子为至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多个氨基酸长度。在一些实施方案中，连接子的特征在于其倾向于不采用刚性三维结构，而是为多肽提供灵活性。当设计本领域已知的多肽(例如融合多肽)时，可以适当地使用各种不同的连接子元件(参见例如Holliger,P.,等人(1993)Proc.Natl.Acad.Sci.USA 90:6444-6448；Poljak,R.J.,等人(1994)Structure 2:1 121-1123)。

核酸：如本文所用，术语“核酸”在其最广义上是指并入或者可以并入到寡核苷酸链中的任何化合物和/或物质。在一些实施方案中，核酸是通过磷酸二酯键而并入或可以并入寡核苷酸链中的化合物和/或物质。从上下文可以清楚地看出，在一些实施方案中，“核酸”是指个体的核酸残基(例如核苷酸和/或核苷)；在一些实施方案中，“核酸”是指包含个体核酸残基的寡核苷酸链。在一些实施方案中，“核酸”是或包含RNA；在一些实施方案中，“核酸”是或包含DNA。在一些实施方案中，核酸是一个或多个天然核酸残基，包含一个或多个天然核酸残基，或一个或多个天然核酸残基组成。在一些实施方案中，核酸是一种或多种核酸类似物，包含一种或多种核酸类似物或由一种或多种核酸类似物组成。在一些实施方案中，核酸类似物不同于核酸之处在于其不利用磷酸二酯骨架。例如，在一些实施方案中，核酸是一个或多个“肽核酸”，包含一个或多个“肽核酸”或由一个或多个“肽核酸”组成，该“肽核酸”是本领域已知的并且在骨架中具有肽键而不是磷酸二酯键，被认为在本发明的范围之内。可替代地或另外地，在一些实施方案中，核酸具有一个或多个硫代磷酸酯和/或5'-N-亚磷酰胺键而不是磷酸二酯键。在一些实施方案中，核酸是，包含一种或多种天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)，或由其组成。在一些实施方案中，核酸是、包含、或由以下组成：一种或多种核苷类似物(例如2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、C-5丙炔基-胞苷、C-5丙炔基-尿苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氮杂腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤、2-硫代胞苷、甲基化的碱基、插入的碱基及其组合)。在一些实施方案中，与天然核酸中的糖相比，核酸包含一种或多种修饰的糖(例如，2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖)。在一些实施方案中，核酸具有编码功能性基因产物(例如RNA或蛋白质)的核苷酸序列。在一些实施方案中，核酸包括一个或多个内含子。在一些实施方案中，核酸通过以下中的一种或多种来制备：从天然来源分离，通过基于互补模板的聚合的酶促合成(体内或体外)，在重组细胞或系统中再现，以及化学合成。在一些实施方案中，核酸为至少3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、20、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000或更多个残基的长度。在一些实施方案中，核酸是单链的；在一些实施方案中，核酸是双链的。在一些实施方案中，核酸具有包含至少一个元件的核苷酸序列，该至少一个元件编码多肽的序列或者是编码多肽的序列的互补序列。在一些实施方案中，核酸具有酶活性。

主要存在：如本文所用，术语“主要存在”是指在遍及群体的特定位置处存在实体(例如氨基酸残基)。例如，如果遍及多肽群体，特定氨基酸在统计学上存在于相关群体内至少约50％，约55％，约60％，约65％，约70％，约75％，约80％，约85％，约90％，约95％，约96％，约97％，约98％，约99％或更多的多肽的特定位置，那么氨基酸可以是主要存在。

引物着陆点：如本文所用，短语“引物着陆点”是指一段核酸上的引发位点，互补的一段核酸如用于引发PCR扩增反应的寡核苷酸可以与之结合。在一些实施方案中，这种引物着陆点适合于引发多个置换扩增反应。

纯的：如本文所用，如果剂或实体基本上不含其他组分，则为“纯的”。例如，含有超过约90％的特定的剂或实体的制品通常被认为是纯的制品。在一些实施方案中，剂或实体是至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％或至少99％纯的。

随机的：如本文所用，术语“随机的”是指产生算法组装序列或算法组装序列的方法，所述算法组装序列用于基于通过标准(诸如GC含量、长度、和任意两个序列之间的编辑距离)过滤的随机选择产生核酸排列。

参考：如本文所用，术语“参考”描述相对于其进行比较的标准或对照。例如，在一些实施方案中，将剂、动物、个体、群体、样品、序列或感兴趣的值与参考或对照剂、动物、个体、群体、样品、序列或值进行比较。在一些实施方案中，参考或对照基本上与测试或感兴趣的确定同时测试和/或确定。在一些实施方案中，参考或对照是可选地被包含在有形介质中的历史参考或对照。典型地，如本领域技术人员将理解的，参考或对照在与评估的条件或情况相当的条件或情况下被确定或表征。当存在足够的相似性以证明依赖于和/或与特定可能的参考或对照相比时，本领域技术人员将会理解。

样品：如本文所用，术语“样品”是指包含用于定性和或定量评估的感兴趣的组成的物质。在一些实施方案中，样品是生物样品(即，来自活物(例如细胞或生物体)。在一些实施方案中，样品来自地质的、水生的、天文的或农业的来源。在一些实施方案中，感兴趣的来源包括生物体(如动物或人)或由其组成。在一些实施方案中，用于法医分析的样品是或包含生物组织，生物流体，有机或非有机物质，诸如例如衣物、污垢、塑料、水。在一些实施方案中，农业样品包含有机物质如叶子、花瓣、树皮、木材、种子、植物、水果等，或由它们组成。

单核苷酸多态性(SNP)：如本文所用，术语“单核苷酸多态性”或“SNP”是指基因组中的特定碱基位置，其中已知可选碱基将一个等位基因与另一等位基因区分开来。在一些实施方案中，一个或几个SNP和/或CNP足以将复杂的遗传变体彼此区分开来，从而为了分析目的，一个或一组SNP和/或CNP可被认为是特定变体、性状、动物、品系、品种、杂交品种或其组合的特征。在一些实施方案中，可考虑一个或一组SNP和/或CNP来定义特定变体、性状、动物、品系、品种、杂交品种或其组合。

特异性：术语“特异性”当关于具有活性的剂在本文中使用时，本领域技术人员应将其理解为是指该剂在潜在的靶实体或状态之间进行区分。例如，在一些实施方案中如果剂在一种或多种竞争性替代靶的存在下优先与靶结合，则称剂“特异性”结合其靶。在许多实施方案中，特异性相互作用取决于靶实体的特定结构特征(例如表位，裂片(cleft)，结合位点)的存在。应该理解，特异性不一定是绝对的。在一些实施方案中，可以相对于结合剂对于一种或多种其他潜在的靶实体(例如竞争者)的特异性来评估特异性。在一些实施方案中，相对于参考特异性结合剂的特异性评估特异性。在一些实施方案中，相对于参考非特异性结合剂的特异性评估特异性。在一些实施方案中，剂或实体在结合其靶实体的条件下没有可检测地结合竞争性替代靶。在一些实施方案中，与一种或多种竞争性替代靶相比，结合剂以较高的结合速率、较低的解离速率、增加的亲和力、降低的解离和/或增加的稳定性与其靶实体结合。

基本上：如本文所使用的，术语“基本上”是指表现感兴趣的特征或特性的全部或接近全部的程度或度的定性条件。生物领域的普通技术人员将会理解，生物和化学现象(如果有的话)很少会达到完全和/或进行到完全性或达到或避免绝对结果。因此，术语“基本上”在本文用于刻画许多生物学和化学现象中固有的潜在缺乏完全性。

基本同一性：如本文所用，短语“基本同一性”是指氨基酸序列或核酸序列之间的比较。如本领域普通技术人员将理解的，如果两个序列在对应位置含有相同的残基，则通常认为这两个序列是“基本上同一性的”。如本领域众所周知的，可以使用多种算法中的任一种来比较氨基酸序列或核酸序列，所述算法包括在商业计算机程序中可获得的那些算法，商业计算机程序例如用于核苷酸序列的BLASTN和用于氨基酸序列的BLASTP、空位BLAST和PSI-BLAST。示例性的这种程序描述在Altschul等人,Basic local alignment searchtool,J.Mol.Biol.,215(3):403-410,1990；Altschul等人,Methods in Enzymology；Altschul等人,Nucleic Acids Res.25:3389-3402,1997；Baxevanis等人,Bioinformatics:APractical Guide to the Analysis of Genes and Proteins,Wiley,1998；和Misener,等人,(编),Bioinformatics Methods and Protocols(Methods inMolecular Biology,Vol.132),Humana Press,1999中。除了识别相同的序列，上述程序还通常提供同一性度指示。在一些实施方案中，如果在相关的一段残基上两个序列至少50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的相应残基是相同的，那么这两个序列被认为基本同一性的。在一些实施方案中，相关的一段是完整的序列。在一些实施方案中，相关的一段是至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500或更多个残基。

基本序列同源性：短语“基本同源性”在本文中用于指氨基酸序列或核酸序列之间的比较。如本领域普通技术人员将理解的，如果两个序列在对应位置含有同源残基，则通常认为它们是“基本同源的”。同源残基可以是相同的残基。可替代地，同源残基可以是不相同的残基，具有适当相似的结构和/或功能特征。如本领域众所周知的，可以使用多种算法中的任一种来比较氨基酸序列或核酸序列，包括在商业计算机程序中可获得的那些算法，例如用于核苷酸序列的BLASTN和用于氨基酸序列的BLASTP、缺口BLAST和PSI-BLAST。示例性的这种程序描述在Altschul,等人,Basic local alignment search tool,J.Mol.Biol.,215(3):403-410,1990；Altschul,等人,Methods in Enzymology；Altschul,等人,"GappedBLAST and PSI-BLAST:a new generation of protein database search programs",Nucleic Acids Res.25:3389-3402,1997；Baxevanis,等人,Bioinformatics:APracticalGuide to the Analysis of Genes and Proteins,Wiley,1998；和Misener,等人,(编),Bioinformatics Methods and Protocols(Methods in Molecular Biology,Vol.132),Humana Press,1999中。除了识别同源序列之外，上述程序还通常提供同源性度指示。在一些实施方案中，如果在相关的一段残基上两个序列至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或更多的对应残基是同源的，那么这两个序列被认为基本同源的。在一些实施方案中，相关的一段是完整的序列。在一些实施方案中，相关的一段是至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少55、至少60、至少65、至少70、至少75、至少80、至少85、至少90、至少95、至少100、至少125、至少150、至少175、至少200、至少225、至少250、至少275、至少300、至少325、至少350、至少375、至少400、至少425、至少450、至少475、至少500或更多个残基。

合成的：如本文所用，“合成的”一词是指由人工产生的，因此是一种自然界种不存在的形式，要么是因为它具有一种自然界中不存在的结构，要么是因为它与一个或多个自然界中不与其相关联的其他组分相关联，或者它不与一个或多个自然界中与其相关联的其他组分相关联。

可变的：如本文所用，术语“可变的”是指特定元件之间的差异，例如，使得不被认为是恒定的区域。例如，在根据AB式排列的序列中，如果一组序列具有恒定区“A”和在区域“B”中的组中的每个成员中的不同序列，则“B”的序列是可变的。如本文所用，通过产生简并寡核苷酸混合物的有限稀释，可变的也适用于设计本发明标签的构思。

变体：如本文所用，术语“变体”是指与参考实体相比显示出与参考实体显著结构同一性但是在结构上与参考实体不同之处在于一种或多种化学部分的存在或水平的实体。在许多实施方案中，变体在功能上也与其参考实体不同。总体上，特定实体是否被适当地视为参考实体的“变体”是基于其与参考实体的结构同一性程度。如本领域技术人员将理解的，任何生物或化学参考实体具有某些特征性结构元件。根据定义，变体是共有一个或多个这种特征性结构元件的不同的化学实体。仅举几个例子，小分子可具有特征性核心结构元件(例如，大环核心)和/或一个或多个特征性悬垂部分，使得小分子的变体是共有该核心结构元件和特征性悬垂部分，但在其他悬垂部分和/或核心内存在的键类型(单对双，E对Z等)方面不同的变体，多肽可以具有由多个氨基酸组成的特征性序列元件，所述多个氨基酸具有在线性或三维空间中相对于彼此的指定的位置和/或有助于特定的生物学功能，核酸可以具有由多个核苷酸残基组成的特征性序列元件，所述多个核苷酸残基具有在线性或三维空间相对于彼此的指定的位置。例如，由于氨基酸序列中的一个或多个差异和/或共价连接至多肽骨架的化学部分(例如碳水化合物，脂质等)中的一个或多个差异，变体多肽可能与参考多肽不同。在一些实施方案中，变体多肽显示出与参考多肽至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％或99％的总体序列同一性。可替代地或另外地，在一些实施方案中，变体多肽不与参考多肽共有至少一个特征性序列元件。在一些实施方案中，参考多肽具有一种或多种生物学活性。在一些实施方案中，变体多肽共有参考多肽的一种或多种生物学活性。在一些实施方案中，变体多肽缺少参考多肽的一种或多种生物学活性。在一些实施方案中，与参考多肽相比，变体多肽显示一种或多种生物学活性水平降低。在许多实施方案中，如果感兴趣的多肽具有与亲本的氨基酸序列相同的氨基酸序列，但在特定位置有少量的序列改变，则感兴趣的多肽被认为是亲本或参考多肽的“变体”。典型地，变体中少于20％、15％、10％、9％、8％、7％、6％、5％、4％、3％、2％的残基与亲本相比被取代。在一些实施方案中，与亲本相比，变体具有10、9、8、7、6、5、4、3、2或1个取代的残基。通常，变体具有非常少数目(例如，少于5、4、3、2或1个)数目的取代的功能性残基(即参与特定生物活性的残基)。此外，与亲本相比，变体通常具有不多于5、4、3、2或1个添加或缺失，并且通常不具有添加或缺失。此外，任何添加或缺失典型地少于约25、约20、约19、约18、约17、约16、约15、约14、约13、约10、约9、约8、约7、约6并且常见地少于约5、约4、约3或约2个残基。在一些实施方案中，变体还可以具有一个或多个功能缺陷和/或可以另外被认为是“突变体”。在一些实施方案中，亲本或参考多肽是自然界中发现的多肽。如本领域普通技术人员将理解，感兴趣的特定多肽的多种变体通常可以在自然界中找到，特别是当感兴趣的多肽是感染剂多肽时。

具体实施方式

本申请提供了标签等等。在一个方面，标签对于识别样品、追踪样品、分析样品等及其组合是有用的。

参考图1，根据本公开内容的方法100的实施方案包括使用可以与样品组合的高分子量DNA标签以进行识别、追踪、分析等。方法100的步骤102包括收集样品。在一个方面，一个或多个样品可以包括待分析的核酸。因此，可以从包含核酸的任何合适的来源收集样品。可以从中收集样品的一个示例来源包括一个或多个人类、植物或动物受试者，但是其他来源可以是合适的，如本文所述。在方法100的步骤104中，将样品与本公开内容的标签组合。通常，每个样品可以与唯一的标签序列组合，以便在下游分析过程中将样品互相区分。关于方法100，如果标签的核酸序列与方法100中使用的每种其他标签至少一个核苷酸不同，则认为标签是唯一的。

继续参考图1，步骤106包括提取DNA和任选地来自包括标签的样品的其他核酸。DNA提取将产生i)来自样品的核酸与ii)标签DNA的组合。在步骤108中，使用任何合适的技术(例如剪切，酶促断裂，超声处理等)将提取的DNA片段化。在步骤110中，可以进行各种任选的步骤以进一步制备用于测序或其他下游分析的DNA样品。例如，可以修复片段化DNA的末端，可以对基于T-A的衔接子(adapter)连接等进行加A尾(A-tailing)，并且可以将衔接子连接到或以其他方式添加到片段化DNA中。可以在步骤112中进行进一步的操作，例如DNA片段大小选择和制备的DNA文库的质量控制测试。

在方法100的下一个步骤114中，可以将包括标签DNA的制备的样品汇集在一起(即，多重化(multiplex))以用于测序或其他下游分析。此后，在步骤114中获取的数据可以被解多重化(de-multiplexing)并且在步骤116中分析。

在本公开内容的方法的某些实施方案中，本公开内容的高分子量DNA标签可以在样品收集之后立即与一个或多个样品组合(参见，例如，图1)。此外，本公开内容的高分子量DNA标签可以与样品序列(例如样品内的基因组DNA序列)一起处理，而除了用来分析样品本身那些步骤之外不需要额外或不同的步骤来处理或检测标签。因此，不同于通常包含视觉可检测标记或特异性结合抗体的标记的多肽标签或标签(其意欲通过DNA测序以外的手段来检测)，本公开内容的高分子量DNA标签提供在包含多个(多个包括1、2、3、4、5、10、25、50、100、500、1000个或在不同样品之间的任何整数)样品的高通量反应中明确识别每个样品的相同结果，同时消除其他技术中通常需要的处理或检测标签本身的步骤。每个不同的样品可以包含为每个样品提供识别码的一种或多种标签。不属于样品中任何给定样品的指定码的任何标签的识别都指示污染。由于每个码对于每个样品是独一无二的，因此一旦识别出污染标签，就立即知道污染的来源。对于高通量应用，使用由与样品相同的材料(DNA聚合物)组成同时具有唯一序列的标签容许显著提高样品序列的识别、追踪、分析等的效率。

样品

在一些实施方案中，根据本发明待分析的样品(例如，可以向其添加一种或多种标签)含有核酸。在一些实施方案中，样品的特征在于它适合于核酸序列分析。例如，在一些实施方案中，样品可以基本上不含核酸测序酶或试剂的一种或多种特定抑制剂。在一些实施方案中，样品相对于待分析的核酸可以是足够纯的，使得这种分析可以成功地进行。

在一些实施方案中，样品包含生物的、临床的、法医学的、地质学的、天文学的、水生的、或农业的样品或由其组成。在某些实施方案中，样品是未经处理的粗制样品(例如，血液、岩石、木材、池水)，或样品被处理和/或纯化(例如DNA提取，并任选从来源如血液、树皮、叶子、种子纯化)(图1)。

在一些实施方案中，生物样品包含生物组织或流体或者由其组成。在一些实施方案中，生物样品可以包含以下或由其组成：骨髓；血液；血细胞；腹水；组织或细针活检样品；含有细胞的体液；自由漂浮的核酸；痰；唾液；尿；脑脊液，腹膜液；胸膜液；粪便；淋巴；妇科流体；皮肤拭子；阴道拭子；口腔拭子；鼻拭子；洗涤物或灌洗物，如导管灌洗物或支气管肺泡灌洗物；抽吸物；刮出物；骨髓样本；组织活检样本；手术样本；其他体液，分泌物和/或排泄物；和/或来自其的细胞等。在一些实施方案中，生物样品包含从个体获得的细胞或由其组成。在一些实施方案中，获得的细胞是或包括来自获得该样品的个体的细胞。

在一些实施方案中，样品是通过任何适当的手段从感兴趣的来源直接获得的“原始样品”。例如，在一些实施方案中，原始生物样品通过选自由活检(例如细针抽吸或组织活检)、手术、体液(例如血液，淋巴，粪便等)的收集等组成的组的方法来获得。在一些实施方案中，从上下文中可以清楚地看出，术语“样品”是指未经处理或最低限度处理的制品。这样的“粗制样品”可以包括例如从生物体收集后不经过进一步处理的尿液。在一些实施方案中，收集粗制样品，且在分析之前和/或在添加标签之前不进一步处理。

在一些实施方案中，从上下文将清楚，术语“样品”是指通过处理原始样品(例如，通过自其去除一种或多种组分和/或通过向其添加一种或多种剂)而获得的制品。例如，使用半透膜进行过滤。这样的“处理过的样品”可以包括例如从样品中提取的或者通过使原始样品经受诸如mRNA的扩增或逆转录，某些组分的分离和/或纯化等技术获得的核酸或蛋白质。在一些实施方案中，应用于粗制样品的处理具有纯化存在于粗制样品中的核酸的作用，从而提供用于分析的样品。

如本文所述，本发明人成功开发了标签和使用这样的标签的方法，所述标签展示了其在各种应用中的成功。标签在诸如样品追踪、样品识别和样品分析(例如测序)的应用中是有用的。本发明的标签相对于样品追踪、识别和/或分析的现有标签和方法提供了某些特征和优点。

在一些实施方案中，这种标签可被添加或“加标”到样品，使得至少一个样品和至少一种或多种标签紧密接近地存在于诸如例如收集管中、孔板中，或在物体的表面上。将样品和至少一种标签紧密组合容许容易地确定样品的身份，这可以通过各种测序方案进行测定，而不需要任何插补(imputation)。

在一些实施方案中，样品用于核酸测序反应(例如DNA测序反应)。

在一些实施方案中，标签用于例如样品识别和/或分析(图1)。

标签

本公开内容提供了用于例如追踪、识别和/或以其他方式改进经历分析的核酸样品的处理的标签。提供的标签相对于已知的标签或加标签系统赋予多种优点，例如当用于识别和/或检测核酸样品的交叉污染时。

已知的加标签系统包括例如由Quail等人在国际专利申请公布WO2014128453(下文中称为“Quail”)中描述的，其公开了“核酸标志分子”，例如用于识别核酸样品和用于检测样品的交叉污染。Quail的标志分子是使用phiX(一种病毒)作为模板产生的具有不同长度的PCR片段，其具有外嵌(在每端的序列的侧翼)条码。所描述的具有侧翼条码的phiX序列本身就是标签(“Quail标签”)，并被添加到样品以便例如通过处理和序列分析来追踪和/或识别样品。Quail公开了添加其核酸标志分子以追踪通过测序和分析的来自预处理的样品(以下称为“Quail技术”)。

本公开内容识别和/或理解已知的加标签系统如Quail技术的某些限制。例如，Quail技术利用相对较短且分子量较低的各种大小的核酸标志分子。本公开内容提供这样的见解，即这样的策略不适用于包括例如长序列读出(read)应用的某些应用，并且此外可能不容易扩展到涉及数百、数千和/或数十万个样品或更多。此外，本公开内容认识到，如果Quail所述的核酸标志分子被添加到粗制样品中，则它们可能在后续处理步骤(例如剪切步骤期间)中易于分解。

本发明尤其提供了由高分子量DNA组成的标签、使用标签的方法、试剂盒、收集小瓶以及其他和包含标签的容器。此外，提供的标签尤其适用于各种应用，诸如例如长读取应用，对涉及至少数百、数千和/或数十万个样品或更多样品的应用的可扩展性，加标签、追踪和/或识别来自例如收集点的样品，之后分离或纯化，直至测序和分析。

在一些实施方案中，本文所述的标签包含合成的高分子量核酸(例如，双链DNA(“dsDNA”))，使得当标签被添加到样品中并在整个处理过程中与样品一起保留。与样品中的基因组或高分子量DNA类似，高分子量DNA标签可以耐受典型的处理程序，例如分离，纯化和分析。

在一些实施方案中，标签的高分子量性质使得它们用于长读出技术(例如，PACBIO，OXFORD NANOPORE，GENIA，ROCHE)的样品加标签是理想的。短PCR标签和/或短寡核苷酸通常不适合或不希望用于这种应用。

提供的标签尤其对例如在法医学、医学和/或农业领域中的例如追踪是有用的。

考虑可将有用的这种标签设计和/或构建为具有如下的核苷酸序列：所述核苷酸序列包含序列A(恒定)序列B(对各标签唯一)和序列C(恒定)的重复单元或由其组成，其中每个标签至少有两个A-B-C重复单元。在一些实施方案中，根据包含X-[A-B-C]_n-Y的式子来设置标签，其中n为至少2，并且A、B和C中的每一个均具有2个或更多个残基的限定长度。在一些实施方案中，X任选地存在或不存在，并且如果存在的话，可以由-C-的一个或多个例子组成或包含-C-的一个或多个例子，或者另外可以由另一种元件组成或包含另一种元件。在一些实施方案中，Y任选地存在或不存在，并且如果存在的话，可以由-A-的一个或多个例子组成或包含-A-的一个或多个例子，或者另外可以由另一种元件组成或包含另一种元件。在一些实施方案中，所述元件包含核酸、5'或3'引物修饰(例如，硫代磷酸化，内部修饰，甲基化胞嘧啶等)或由其组成。

在一个方面，将理解，标签的概括的X-[A-B-C]_n-Y结构提供了源于标签的对读出的直接和一致的标别。另一方面，标签的结构可以实现源于标签的读出的秘密去除或净化，这对于从头基因组测序和其他没有样品参考或线索(key)的类似应用可能是有用的。

在一些实施方案中，如果标签表现类似于基因组DNA，则标签被认为是高分子量的。在一些实施方案中，如果标签持续通过处理程序(例如，剪切)，则认为标签是高分子量的。

在一些实施方案中，如果标签的分子量在以下限和上限为界限(其中上限大于下限)的范围内，则认为标签是高分子量的；在一些这样的实施方案中，下限为约260000道尔顿、约325000道尔顿、约390000道尔顿、约455000道尔顿、约520000道尔顿、约585000道尔顿、约650000道尔顿、约1300000道尔顿、约1950000道尔顿、约2600000道尔顿、约3250000道尔顿、约3900000道尔顿、约4550000道尔顿、约52000000道尔顿、约5850000道尔顿、约65000000道尔顿、约7150000道尔顿、约7800000道尔顿、约8450000道尔顿、约9100000道尔顿、约9750000道尔顿、约10400000道尔顿、约11050000道尔顿、约11700000道尔顿、约12350000道尔顿、约13000000道尔顿、约19500000道尔顿、约26000000道尔顿、约32500000、约39000000道尔顿、约45500000道尔顿、约52000000道尔顿、约58500000道尔顿、约65000000道尔顿或大于65000000道尔顿。在一些实施方案中，上限为约325000道尔顿、约390000道尔顿、约450000道尔顿、约520000道尔顿、约585000道尔顿、约650000道尔顿、约1300000道尔顿、约1950000道尔顿、约2600000道尔顿、约3250000道尔顿、约3900000道尔顿道尔顿、约4550000道尔顿、约5200000道尔顿、约5850000道尔顿、约6,500,000道尔顿、约7150000道尔顿、约7800000、约8450000道尔顿、约9100000道尔顿、约9750000道尔顿、约10400000道尔顿、约11050000道尔顿、约11700000道尔顿、约12500000道尔顿、约13000000道尔顿、约19500000道尔顿、约26000000道尔顿、约32500000、约39000000道尔顿、约45500000道尔顿、约52000000道尔顿、约58500000道尔顿、约65000000道尔顿或大于65000000道尔顿。在一些实施方案中，高分子量标签具有约260000道尔顿至约大于65000000道尔顿的范围内的分子量。在一些实施方案中，高分子量标签具有约325000道尔顿至约65000000道尔顿的的范围内的分子量。在一些实施方案中，高分子量标签具有约390,000道尔顿至约58500000道尔顿的范围内的分子量。

在一些实施方案中，如果标签具有在由下限和上限为界限(其中上限大于下限)的范围内的长度，则标签被认为是高分子量的；在一些这样的实施方案中，下限为约400个碱基、约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1千碱基、约2千碱基、约3千碱基、约4千碱基、约5千碱基、约6千碱基、约7千碱基、约8千碱基、约9千碱基、约10千碱基、约11千碱基、约12千碱基、约13千碱基、约14千碱基、约15千碱基、约16千碱基、约17千碱基、约18千碱基、约19千碱基、约20千碱基、约30千碱基、约40千碱基、约50千碱基、约60千碱基、约70千碱基、约80千碱基、约90千碱基、约100千碱基和大于100千碱基。在一些实施方案中，上限为约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1千碱基、约2千碱基、约2千碱基、约2千碱基、约3千碱基、约4千碱基、约5千碱基、约6千碱基、约7千碱基、约8千碱基、约9千碱基、约10千碱基、约11千碱基、约12千碱基、约13千碱基、约14千碱基、约15千碱基、约16千碱基、约17千碱基、约18千碱基、约19千碱基、约20千碱基、约30千碱基、约40千碱基、约50千碱基、约60千碱基、约70千碱基、约80千碱基、约90千碱基、约100千碱基和大于100千碱基。在一些实施方案中，高分子量标签具有在约400个碱基与约大于100千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约500碱基与约100千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约600碱基与约90千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约700碱基与约80千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约800碱基与约70千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约900碱基与约60千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约1千碱基与约50千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约2千碱基与约40千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约3千碱基与约30千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约4千碱基和约20千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约5千碱基和约19千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约6千碱基与约18千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约7千碱基与约17千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约7千碱基与约16千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约8千碱基与约15千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约9千碱基和约14千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约10千碱基与约13千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约11千碱基与约12千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约500碱基与约5千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约600碱基与约6千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约700碱基与约7千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约800碱基与约8千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约900碱基与约9千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约1千碱基与约50千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约2千碱基与约40千碱基之间的范围内的长度。在一些实施方案中，高分子量标签具有在约2千碱基与约30千碱基之间的范围内的长度。在一些实施方案中，高分子量标签的长度在约2千碱基和约20千碱基之间的范围内。在一些实施方案中，高分子量标签具有在约1千碱基与约5千碱基之间的范围内的长度。

在一些实施方案中，预期标签可包含至少约12个核苷酸到至少约300,000个核苷酸或由其组成。在一些实施方案中，标签可以包含或由下组成：至少约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、300、4000、5000、6000、7000、8000、9000、10000、11000、12000、13000、14000、15000、16000、17000、18000、19000、20000、21000、22000、23000、24000、25000、26000、27000、28000、29000、30000、31000、32000、33000、34000、35000、36000、37000、38000、39000、40000、41000、42000、43000、44000、45000、46000、47000、48000、49000、50000、60000、70000、80000、90000、100000、110000、120000、130000、140000、150000、160000、170000、180000、190000、200000、210000、220000、230000、240000、250000、260000、270000、280000、290000或300000个碱基。

在一些实施方案中，标签可以包含至少约12个核苷酸到至少约100个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约13个核苷酸到至少约99个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约14个核苷酸到至少约98个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约15个核苷酸到至少约97个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约16个核苷酸到至少约96个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约17个核苷酸到至少约95个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约18个核苷酸到至少约94个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约19个核苷酸到至少约93个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约20个核苷酸到至少约92个核苷酸或由其组成。在一些实施方案中，标签可包含至少约20个核苷酸到至少约90个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约20个核苷酸到至少约80个核苷酸或由其组成。在一些实施方案中，标签可包含至少约20个核苷酸到至少约70个核苷酸或由其组成。在一些实施方案中，标签可包含至少约20个核苷酸到至少约60个核苷酸或由其组成。在一些实施方案中，标签可以包含至少约20个核苷酸到至少约50个核苷酸或由其组成。

不受任何具体理论的束缚，认为在一些实施方案中，每个标签具有多个单元可以提供某些特定的优点。在一些实施方案中，标签具有至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、50、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300或大于300个单元。在一些实施方案中，标签包含至少约2至约300个单元或由其组成。在一些实施方案中，标签包含至少约3个至约290个单元或由其组成。在一些实施方案中，标签包含或由至少约24至约280个单元组成。在一些实施方案中，标签包含至少约5至约270个单元或由其组成。在一些实施方案中，标签包含至少约6至约260个单元或由其组成。在一些实施方案中，标签包含至少约7至约250个单元或由其组成。在一些实施方案中，标签包含或由至少约8个至约240个单元组成。在一些实施方案中，标签包含至少约9至约230个单元或由其组成。在一些实施方案中，标签包含至少约10至约220个单元或由其组成。在一些实施方案中，标签包含至少约11至约210个单元或由其组成。在一些实施方案中，标签包含至少约12至约200个单元或由其组成。在一些实施方案中，标签包含至少约13至约190个单元或由其组成。在一些实施方案中，标签包含或由至少约14至约180个单元组成。在一些实施方案中，标签包含至少约15至约170个单元或由其组成。在一些实施方案中，标签包含或由至少约16至约180个单元组成。在一些实施方案中，标签包含至少约17至约190个单元或由其组成。在一些实施方案中，标签包含或由至少约18至约180个单元组成。在一些实施方案中，标签包含至少约19至约170个单元或由其组成。在一些实施方案中，标签包含至少约20至约160个单元或由其组成。在一些实施方案中，标签包含至少约21至约150个单元或由其组成。在一些实施方案中，标签包含至少约22至约140个单元或由其组成。在一些实施方案中，标签包含至少约23至约130个单元或由其组成。在一些实施方案中，标签包含至少约24至约120个单元或由其组成。在一些实施方案中，标签包含至少约25至约110个单元或由其组成。在一些实施方案中，标签包含至少约26至约100个单元或由其组成。在一些实施方案中，标签包含至少约27至约90个单元或由其组成。

在一些实施方案中，包含在特定标签中的单元的数目可以由单个单元的长度来影响和/或确定。通常，由较短个体单元组成的标签可能比单元较长的标签具有更大数目的这种单元。

在一些实施方案中，单元长度是至少约6个核酸到至少约大于1000个核酸。在一些实施方案中，单元长度为至少约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000和大于1000个核酸。

在一些实施方案中，单元长度为至少约20到至少约100。在一些实施方案中，单元长度为至少约20到至少约80。在一些实施方案中，单元长度为至少约30到至少约80。在一些实施方案中，单元长度为至少约20到至少约60。在一些实施方案中，单元长度为至少约10到至少约100。在一些实施方案中，单元长度为约10到至少约80。在一些实施方案中，单元长度为至少约40到至少约80。在一些实施方案中，单元长度为至少约30到至少约90。在一些实施方案中，单元长度为至少约40到至少约70。在一些实施方案中，标签具有通式结构X-[A-B-C]_n-Y，其中X和Y是任选的，并且A、B和C中的每一个是如本文所述定义和/或选择的序列元件。不希望受任何特定理论的限制，本文提出具有这种结构(即，具有以多个重复的A-B-C单元为特征的结构)的高分子量核酸标签可以显示出特别有利的特点，包括例如高稳定性。尤其，本公开内容提供了这样的见解，即这种结构的标签可以与天然样品中(例如基因组DNA中)发现的高分子量DNA共有某些特征。

如本文所示，具有多联体结构(例如，其结构包括如本文所述的根据式X-[A-B-C]_n-Y串联布置的单元的重复或由其组成)的标签能够存续/持续通过各种样品制备程序，包括一些确实或可能破坏或降解其他可用标志剂(例如Quail核酸标志分子和/或其他较短寡核苷酸剂，特别是线性寡核苷酸和/或例如不具有本文所述的标签的结构[例如X-[A-B-C]_n-Y]、通过PCR可产生的约2至约600个残基范围内的长度的寡核苷酸)。

在一些实施方案中，提供的标签中的元件A和C具有被设计和/或选择成与引物杂交并允许其延伸以产生核酸(例如DNA)聚合物的序列。在一些实施方案中，元件A和C被特异性设计成与用于聚合酶链式反应(“PCR”)的引物对的成员杂交。在一些实施方案中，元件A和C被设计为在多重PCR反应的背景下彼此相容，使得引发在多重形成中得到支持。在一些实施方案中，A和C的序列在一个或多个(并且在一些实施方案中具有多个)不同平台(例如杂交捕获等)的背景中彼此相容。例如，在一些实施方案中，元件A和C具有以与A和C中的每一个杂交的引物为特征的序列，该引物具有可比较的解链温度。

通常，元件B具有被设计和/或选择成具有在待分析样品中存在的低或零概率的序列。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值的同源性或同一性的序列(例如，通过参考可用的序列信息数据库确定的)。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知植物序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知植物序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值同源性或同一性(例如，通过参考序列信息的可用数据库确定的)的序列。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知脊椎动物序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知脊椎动物序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值同源性或同一性的序列(例如，通过参考序列信息的可用数据库确定的)。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知的无脊椎动物序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知的无脊椎动物序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值同源性或同一性的序列(例如，通过参考序列信息的可用数据库确定的)。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知的哺乳动物序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知哺乳动物序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值同源性或同一性的序列(例如，通过参考序列信息的可用数据库确定的)。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知的人序列不同的序列(例如，通过参考序列信息的可用数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知人序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值同源性或同一性的序列(例如，通过参考序列信息的可用数据库确定的)。在一些实施方案中，元件B具有被设计和/或选择为与任何和所有已知病毒、细菌、微生物和/或酵母序列不同的序列(例如，通过参考可用的序列信息数据库确定的)。例如，在一些实施方案中，元件B具有被设计和/或选择为具有与任何和所有已知病毒、细菌、微生物和/或酵母序列之间等于或小于1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％或任何百分比值的同源性或同一性的序列(例如，如通过参考序列信息的可用数据库确定的)。公开可用的序列信息数据库包括但不限于例如GenBank(ncbi.nlm.nih.gov/genbank)。可替换地或另外地，在一些实施方案中，元件B具有被设计和/或选择为具有以大约35-65％、大约40-60％、大约45-55％或大约50％G/C含量为特征的序列的序列。

一些实施方案中，A、B和/或C中的任一个或全部是或者包含合成元件，因为它是通过人手动被化学合成的。在一些实施方案中，这样的化学合成不利用聚合酶。在一些实施方案中，这样的化学合成确实利用聚合酶，但不是在细胞的情况下，和/或不在天然产生聚合酶的细胞的情况下。在一些实施方案中，这样的化学合成利用作为天然存在的酶的变体和/或在不同于天然存在的酶在自然界运行情况的情况下(例如体外，离体，缺乏天然模板核酸，存在标签等)利用的聚合酶。

本公开内容提供的一种见解是，在许多实施方案中，如本文所述的元件A、B和/或C中包含的序列的精确同一性可能不是关键的以实现由所述标签的整体结构提供的益处。也就是说，在一些实施方案中，本公开内容预期可以使用多种特异性序列中的任何一种作为A、B和C元件，执行本文提供的指导原则，来组装具有如本文所述的所需重复单元结构的高分子量标签。

因此，本公开内容教导和展示具有以下结构的高分子量核酸标签的实用性和出人意料的优点：

X-[A-B-C]_n–Y

其中X和Y是任选的，并且A、B和C是如本文所述。在许多实施方案中，标签内的每个“A”与标签内的每个其他“A”相同；标签内的每个“B”与标签内的每个其他“B”相同；并且标签内的每个“C”与标签内的每个其他“C”相同，使得标签具有真正相同的重复单元的结构。然而，如本文所述，本公开内容的一个方面是如下见解：对元件内的精确序列同一性的刚性定义可能不是如本文所述的有效且有用的标签所要求的。在一些实施方案中，如本文所述的标签即使在各个和每个重复单元与每个其他单元不完全相同时可以仍是有效的。例如，在一些实施方案中，标签内的一个或多个“B”元件可以改变。在一些实施方案中，一个或多个A或C元件可以改变，但是通常优选单个标签中的所有A和C元件是相容的，因为它们可以与相同引物组的允许延伸部分杂交以产生具有相当或相同长度的扩增产物(这也要求它们之间的B元件具有合适的长度以确保这种可比性或同一性)。因此，例如，可以想象的是，如本文所述的有用标签可以具有结构：

X-A_i-B_i-C_i-A_ii-B_ii-C_ii-A_iii-B_iii-C_iii-...–A_n-B_n-C_n-Y，和/或

X-[A_i-B_i-C_i]_ni-[A_ii-B_ii-C_ii]_nii-[A_iii-B_iii-C_iii]_niii-...[A_n-B_n-C_n]_nn

其中每个A不一定与每个其他A相同，每个B不一定与每个其他B相同，和/或每个C不一定与每个其他C相同(和/或每个n可以等于或可以不等于每个其他n)，根据此处描述的参数。然而，在许多或大多数实施方案中，每个A与每个其他A相同，每个B与每个其他B相同，和/或每个C与每个其他C相同。

在一些实施方案中，A、B、和/或C中的任一个或全部具有被认为是“随机的”或“合成的”的序列，因为它没有被选择或建模在特定的参考序列上。在许多实施方案中，作为元件A、B和/或C所包括的精确序列可以通过输入到计算机中或以其他方式实现本文所述的设计指导原则来设计(例如，A和C包括相容的引物杂交位点，B具有在相关范围内的GC含量，A、B和C一起形成适当长度和功能特征的单元，作为如本文所述的标签的“单元”)。在一些实施方案中，“随机的”或“合成的”序列的特征在于其不(或预测不)高于背景与在感兴趣的特定样品或样品组中发现的(或预期发现的)其他核酸杂交；在一些实施方案中，这样的随机或合成序列被认为能够“唯一地”标志(例如，标记)其可以被添加的样品。这样的标志可以允许如果或当样品进行其他处理和/或分析时对样品的容易识别和/或表征。

在一些实施方案中，标签可以具有包括一个或多个连接子元件(例如，在一个或多个单元内，在所有单元内，和/或在终端单元与可能存在的任何X或Y元件之间)的结构。通常，连接子元件，特别是单元内连接子元件是或包含少数(通常少于约30、约29、约28、约27、约26、约25、约24、约23、约22、约21、约20、约19、约18、约17、约16、约15、约14、约13、约12、约11、约10、约9、约8、约7、约6、约5、约4、约3、约2、约1、约0个)的核酸残基。连接子不应该干扰它们被包括其中或与之相邻的个体元件的、单元的和/或标签的如本文所述的功能。

在一些实施方案中，标签不包含如本文所述的任何连接子元件(例如具有由X-[A-B-C]_nY组成的结构)。

在一些实施方案中，标签可以具有包含切割位点(例如，限制性内切位点)的序列。在一些实施方案中，标签可以具有包含多个切割位点的序列。在一些实施方案中，这样的切割位点可以完全在单个元件(例如，X、Y、A、B或C元件)内；在一些实施方案中，其可以通过两个不同序列元件的并置形成。

在一些实施方案中，相对较长的标签是优选的以确保与最宽范围的制备和测序方案的相容性。在一些实施方案中，期望的是标签包含条码基序(barcode motifs)，条码基序优选足够长以便为明确地可识别的，但足够短以确保例如每约100bp读出至少一个完整标签；在本文中例示的某些实施方案中，利用20个碱基对的条码基序。在一些实施方案中，条码基序是至少约6到至少约10000个核苷酸。在一些实施方案中，条码基序至少约6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、2000、300、4000、5000、6000、7000、8000、9000、10000个核苷酸。在一些实施方案中，条码基序是至少约6到至少约100个核苷酸。在一些实施方案中，条码基序是至少约8到至少约80个核苷酸。在一些实施方案中，条码基序是至少约8到至少约60个核苷酸。在一些实施方案中，条码基序是至少约10到至少约50个核苷酸。在一些实施方案中，条码基序是至少约10到至少约40个核苷酸。在一些实施方案中，条码基序是至少约10到至少约30个核苷酸。在一些实施方案中，条码基序是至少约10到至少约20个核苷酸。

在一些实施方案中，标签以标准化浓度制备，例如以允许准确的加标(spiking)。通常优选的是，在相关分析(例如测序分析，特别是下一代测序分析)中，加标与模板的质量比与源于加标的读出的百分比相关性良好。

在一些实施方案中，标签以至少约0.0001％到至少约10％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.001％到至少约2％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.01％到至少约2％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.1％到至少约2％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约1％到至少约2％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.001％到至少约1％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.01％到至少约1％的标签对样品的浓度加标到样品中。在一些实施方案中，标签以至少约0.1％到至少约1％的标签对样品的浓度加标到样品中。在某些优选的实施方案中，标签与样品的比率导致每100-100,000个样品读出至少约1个标签读出。

应理解，使用具有重复结构的高分子量标签允许使用保守序列(例如，如本文所例示的序列元件A和C)，用于使用靶向聚合酶链式反应(“PCR”；(例如，AMPLISEQ)或基于杂交的捕获技术来捕获加标标签)。

标签的集合

在一些实施方案中，本公开内容提供了如本文所述的标签的集合，所述标签的集合例如可以被一起利用(例如，在多重测序分析中)来个体地标志/标记多个不同的样品。在一些实施方案中，集合内的不同标签具有相关的结构。仅举一个例子，在一些实施方案中，集合中的所有标签可以具有共同的A和/或C元件，但是它们的B元件彼此不同。在一些这样的实施方案中，集合内的所有标签可以具有相当的或相同的长度和/或GC含量等但不同的精确序列的B元件。

例如，在一些实施方案中，提供的标签的集合(例如，包括多种标签群的集体)可以由以下公式集合表示：

集合1：标签1，标签2，…，标签N

标签1：X₁-[A₁-B₁-C₁]_n1-Y₁

标签2：X₂-[A₂-B₂-C₂]_n2-Y₂

标签N：X₃-[A_N-B_N-C_N]_nN-Y_N；

在一些实施方案中，n1、n2和nN全部相同(即，集合中的所有标签具有相同的长度)；在一些实施方案中，n1、n2和nN是相当的(即，集合中的所有标签具有相当的长度)。在一些实施方案中，集合中的不同标签可以具有不同的长度。

在一些实施方案中，如上所指出的，A₁、A₂和A_N全部相同(即，该集合中的所有标签具有共同的“A”元件)，和/或C₁，C₂和C_N全部相同(即，该集合中的所有标签都有共同的“C”元件)。在一些实施方案中，标签集合之间的各B与各其他B是不同的。在一些实施方案中，每个B与标签内的每个其他B可以相同或不同。

在根据如本文所述的集合中的标签的通用结构的一些实施方案中，预期只要集合内的不同标签彼此可区分，但是共有足够的共同特征或特点以有效地用作例如当暴露于相当的处理条件时唯一地识别样品的标签，则这样的标签将适用于至少如本文所述的应用，包括在诸如多重测序的多重评价的背景下。

在一些实施方案中，集合内的标签以其编辑距离彼此相关。本公开内容提供了如下见解：具有如下编辑距离的标签集合可以如本文所述是特别有用的：不超过约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约21、约22、约23、约24、约25、约26、约27、约28、约29、约30和更多。在一些实施方案中，标签集合的特征在于由下限和上限界定的范围内的编辑距离，上限高于下限。在一些实施方案中，下限是2并且上限是30，并且在某些实施方案中，在由一些实施方案中下限界定的范围内，例如标签的集合，使得A和C在标签之间是恒定的，并且B是不同的，考虑使用编辑距离作为有利的特征。

本发明尤其认为，具有如本文所述的有限编辑距离的引物集合显示出相对于有时用于标志核酸样品的其他技术的某些优点。例如，本文描述的Quail技术和其他技术(例如Illumina测序平台)通常利用短的(例如，在约4到约11的范围内)核酸作为用于索引样品的条码或标志(或“衔接子”)(“索引条码”)。本公开内容提供了如下见解：使用这样的短衔接子增加了在处理和测序期间的事件可能引起衔接子序列的变化的可能性，以致于例如，由于例如为4的编辑距离，条码1被错误地识别为条码2(即，三个变化被引入到条码1中，导致序列的调用被识别为条码2)。

在一些实施方案中，预期大的编辑距离使得降低将一种标签错误地识别为另一种的可能性。在一些实施方案中，预期至少约4到至少约15的编辑距离。在一些实施方案中，编辑距离是至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30。在一些实施方案中，编辑距离在约4和约15之间。

本发明尤其认为，大的编辑距离是优于其他可用的方法的优点。在一些实施方案中，大的编辑距离允许能够产生潜在无限数目的标签和组合的可能性。除了大的编辑距离之外，标签的重复性质允许在下一代测序平台的单个测序读出中探寻多个可变(B)区域，这可以提供进一步防止测序和制造错误。

制作标签的方法

根据本发明的标签可以使用几种方法来产生。在一些实施方案中，通过连接双链DNA环然后是多重置换扩增(MDA)来产生标签。在一些实施方案中，根据图2-5所示的示例性方法产生标签。

转到图2，标签单体200是包含顶链202和互补底链202'的双链DNA。在一个方面，单体200可以包括至少一种如本文所述的式[A-B-C]的唯一核苷酸标签单体。单体200的顶链202包括5'突出(5’overhang)204，并且底链202'包括5'突出206。在本实例中，突出204与突出206互补。因此，一个单体200的突出204可以退火另一单体200的突出206，且退火的单体200可以连接在一起。四个单体200的组合的一个实例在图2中显示为线性四聚体208。线性四聚体208可以被环化并连接以提供双链环状模板210。值得注意的是，环状模板210包括单体200的多个重复单元。可以使用诸如本文所述的一种或多种技术的方法来复制环状模板210，以提供具有式X_i-[A-B-C]_n-Y_j的高分子量DNA标签212。在一个方面，n表示特定单体序列的单体或重复单元的数目(通常至少两个)，并且X和Y表示另外的核酸或对标签212的末端进行的核酸修饰。

在一些实施方案中，使用连接形成小的单链DNA(ssDNA)环(例如，模板332，图3)的随机或特异性标签单体寡核苷酸，随后进行多重置换扩增(MDA)，产生标签。在一些实施方案中，根据图3A、图3B和图4中所示的示例性方法产生标签。在一些实施方案中，标签是根据包括多个步骤或由多个步骤组成的方法生产的。这样的步骤可以顺序地或者同时发生，并且步骤可以被组合成单个步骤，例如，在一些实施方案中，第一步骤和第二步骤可以按照诸如步骤1之后步骤2的次序执行，而在一些实施方案中，第一步和第二步可以在一个步骤内执行。在一些实施方案中，第一步包括或由以下组成：放置特定标签或将简并标签的有限稀释物放置到平板中。

参考图3A，产生标签的一个实例方法300包括制备具有唯一B区或条码序列的单链DNA(ssDNA)标签单体的步骤302。在步骤304中，将标签单体排列在例如多孔板(例如标准96孔板)中。此后，可以在步骤306中使每个ssDNA标签单体环化并在步骤308中扩增。在步骤310中，可以使用例如基于荧光的定量聚合酶链式反应(qPCR)或其他合适的技术来监测环化标签单体的扩增。在一个方面，监测扩增作为质量控制措施来确定标签单体中哪个可能已被成功扩增可能是有用的。在步骤312中，从步骤308中的扩增产生的产物可以被测序以进一步确认成功的扩增，并且确保每个标签都不被另一个标签或标签单体污染。那些通过各种质量控制措施的产物可以在步骤314中被选择以进一步使用。

参考图3B，方法300的一种实施方案以具有式[A-B-C]的ssDNA单体316开始。单体316包括：i)具有对单体316唯一的核苷酸条码序列的B区318，ii)具有在不同单体316之间保守的核苷酸序列的A区320，以及iii)具有在不同单体316之间保守的核苷酸序列的C区322。在一些实施方案中，A区320的核苷酸序列可以不同于C区322的核苷酸序列。

多种不同的单体324(其可以包括单体316)，被排列到合适的制品诸如多孔板326中，使得多孔板的每个孔接收不同的单体324中的单独的一种。在一个方面，可以采取随机方法，其中将单体324稀释使得多孔板326的每个孔接收0或1种单体324以防止任何一个孔接收多于一种的单体324。在另一方面，可以采取定向的方法，其中多孔板326中的每个孔可以直接被提供有不同的单体324中的单独的一种。例如，可以在多孔板326的每个孔中直接合成不同的单体324，使得每个孔包含不同的单体324之一。

在将单体324排列到多孔板326中之后，可以将桥寡核苷酸328添加到多孔板326的每个孔中。桥寡核苷酸328可以与单体324中的每一个退火以形成环状构建体330。在本实例中，实例环形构建体330包括单体316，其中单体316的末端各自与桥寡核苷酸328杂交，从而在单体316的末端之间(相对于桥寡核苷酸328的序列)存在切口并且没有核苷酸空位。在这种构造中，单体316的末端可以连接在一起以提供环状模板332。然后可以使用例如MDA扩增模板332以提供具有与模板332的序列互补的多个连续重复序列的长ssDNA334。可以通过添加反向引物336和正向引物338来实现ssDNA334的第二链合成和子序列扩增，以提供根据本公开内容的高分子量双链DNA(dsDNA)标签。在一个方面，所得标签具有式X_i-[A-B-C]_n-Y_j，其中n代表特定单体序列的单体或重复单元的数目(典型地至少两个)，并且X和Y代表另外的核酸或对标签末端进行的核酸修饰。

现在转到图4，图3B中所示的多孔板326中的每个孔可以产生dsDNA标签。为了确定给定的孔是否产生了包括单个唯一条码序列的标签，可以采取一种或多种质量控制措施。例如，图3A和3B中描述和显示的方法可产生多种扩增产物400，包括第一扩增产物402，第二扩增产物404，第三扩增产物406，第四扩增产物408和第五扩增产物410。第一产物402、第二产物404和第三产物406中的每一个被确定为包括单一类型标签的组成，其中每个标签包括相同的唯一单体序列(即，单体包括唯一的条码序列)。例如，第一产物402仅包括包含唯一单体412的重复单元，第二产物404仅包括包含唯一单体414的重复单元，以及第三产物406仅包括唯一单体416的重复单元。

在一些情况下，图3A和3B中描述和显示的方法可能产生被两种或更多种不同单体或标签污染的产物。在一个实例中，产物408被确定为包括包含单体414和单体416的异质标签序列。在另一个实例中，产物410被确定为包括至少两种不同均质标签的混合物。也就是说，产物410是产物402和产物404的混合物。值得注意的是，其他包含两种或更多种标签、两种或更多种单体序列或其组合的非均质产物的迭代也是可能的。此外，基于测序的质量控制措施可以另外地(或可替换地)用于确定每种单体的保真度(例如，缺失、取代或其他类似合成错误的存在)。

在一些实施方案中，简并物(degenerate)包含以允许在合成期间在特定的寡核苷酸位置并入所有四种碱基(A，T，G，C)的方式合成的寡核苷酸的混合物：

例如，ACGCGACGNNNNNNTGGGACGA

符合被表征为简并物的标准。由于存在6个连续的简并核苷酸和使用4种不同碱基(即A，T，G和C)，具有示例序列的寡核苷酸合成将产生4⁶种寡核苷酸。

在一些实施方案中，第二步包括以下或由以下组成：使桥寡核苷酸退火以环化标签寡核苷酸，然后连接切口。在一些实施方案中，第三步包括以下或由其组成：用链置换聚合酶如phi29DNA聚合酶或Bst DNA聚合酶进行MDA。考虑到这类聚合酶的使用由于这类聚合酶的校读特征和高保真度表现而是有利的。在一些实施方案中，第四步包括以下或由其组成：通过对至少一种MDA产物进行下一代测序来确认标签身份和纯度。

在一些实施方案中，使用长距离PCR产生标签。在一些实施方案中，根据图5A和5B中所示的示例性方法产生标签。在一些实施方案中，使用具有校读活性的高保真度DNA聚合酶(例如，)来产生提供的标签。

转到图5A，产生标签的一个实例方法500包括制备唯一单链DNA(ssDNA)单体的步骤502。在步骤504中，将单体排列到例如多孔板(例如标准96孔板)中。此后，可以在步骤506中扩增每种ssDNA单体。然后可以在步骤508中将扩增的标签单体以首尾相连的方式连接在一起，以提供由个体标签单体构成的多聚体。步骤508可以进一步包括使标签多聚体环化(例如通过连接)以提供环状模板的集合。一方面，连接和环化可以在单一协调的反应步骤中发生，而另一方面，连接和环化可以在顺序的反应步骤中发生。在步骤510中，可以扩增环化的产物，并且可以使用例如基于荧光的qPCR或其他合适的技术来监测环化的多聚体的扩增。在一个方面，监测扩增作为质量控制措施来确定单体中哪种可能已被成功扩增可能是有用的。在步骤512中，可以对在步骤510中扩增产生的产物进行测序，以进一步确认成功的扩增，并确保每个标签未被另一个标签或单体污染。那些通过各种质量控制措施的产物可以在步骤514中被选择用于进一步的使用。

参考图5B，方法500的一种实施方案以具有式[A-B-C]的ssDNA单体516开始。单体516包括：i)具有对单体516唯一的核苷酸条码序列的B区518，ii)具有在不同单体516之间保守的核苷酸序列的A区520，以及iii)具有在不同单体516之间保守的核苷酸序列的C区522。在一些实施方案中，A区520的核苷酸序列可以不同于C区522的核苷酸序列。

多种不同的单体524(其可以包括单体516)，被排列到合适的物品诸如多孔板526中，使得多孔板的每个孔接收不同的单体524中的单独一种。在一个方面，可以采取随机方法，其中单体524被稀释，使得多孔板526的每个孔接收0或1种单体524以防止任何一个孔接收多于一种的单体524。在另一个方面，可以采取定向的方法，其中多孔板526的每个孔可以被直接提供有不同的单体524中的单独一种。例如，可以在多孔板526的每个孔中直接合成不同的单体524，使得每个孔含有单体524中不同的一种。

在将单体524排列到多孔板526中之后，就可以将引物528的集合添加到多孔板526的每个孔中。引物528可以与每个单体524退火以形成单体524的多个拷贝。在本实例中，显示单体516被引物528扩增。现在双链单体516'的拷贝然后可以连接在一起以形成由单体516'的多个拷贝或单体构成的中间线性构建体530。线性构建体530可以环化并连接以提供包含单体516'的若干重复单元的环状双链模板532。然后可以使用例如MDA扩增模板532以提供具有模板532的多个连续重复序列的长ssDNA标签534，使得标签534具有式X_i-[A-B-C]_n-Y_j。在一个方面，n表示特定单体序列的单体或重复单元的数目(通常至少两个)，并且X和Y表示另外的核酸或对标签534的末端进行的核酸修饰。

在一些实施方案中，加标标签用于确定和校正样品索引条码串扰。例如，通常包括样品索引条码(在例如Illumina测序平台中也被称为索引，该平台可以具有例如24个不同的索引)作为测序分析处理的一部分。这些索引用于同时对作为混合物的多个文库进行测序，随后根据样品特异性的索引对所得到的序列进行细分。这样的条码通常由短长度的核酸组成，使得索引条码之间的编辑距离很小。这增加了由于在处理期间的累积性测序变化，给定条码可能被错误地识别为另一个条码的统计学可能性。根据本发明的加标标签对于克服和/或纠正序列分析的这个问题是有用的。

在一些实施方案中，根据本发明的标签以有限稀释制备，其中使用有限稀释包含简并寡核苷酸，并且这样的稀释将使得几乎完全唯一的条码的产生成为可能(例如对于曾经测序过的每个样品而言唯一的一个标签签名)。

在一些实施方案中，简并寡核苷酸的使用允许用单个寡核苷酸合成产生许多唯一的寡核苷酸。应该认识到，与其他已知方法相比，本发明通过使用简并寡核苷酸和有限稀释提供了诸如成本和人力节约措施的优点。为了举例说明序列NNNN的寡核苷酸，在混合物中产生4⁴个(即256个)寡核苷酸。然后，使用有限稀释法，稀释成每孔仅大约单个寡核苷酸(如果，例如使用孔板形式)，可以获得4⁴种寡核苷酸而不必进行4⁴次合成。

阅读本公开内容的本领域普通技术人员将理解，提供的标签可以用于多种测定中的任一种中，并且可以用于这种测定的多种平台中的任何一种。具体而言，提供的标签在任何高通量(例如，NGS)测序平台中都是有用的。另外，提供的标签在长读出测序应用(例如，PACBIO，OXFORD NANOPORE，GENIA)中是有用的。

样品组合加标签

在一些实施方案中，根据本发明采用样品组合加标签。不希望被任何特定的理论所束缚，可以用少至384种标签并且每个样品使用三种或四种标签，对于每个样品的三种和四种标签中的每一种允许的唯一组合是：C(384,3)＝9,363,584和C(384,4)＝891,881,376种唯一的组合。在一些实施方案中，这样的组合允许测序核心给移动穿过其设施的每个样品唯一地加标签。此外，结合另一384种标签的集合，可以给这个星球上每个个体唯一地加标签。

试剂盒

本发明还考虑试剂盒形式，其包括具有一个或多个容器的包装单元，所述容器包含根据本发明的至少一种标签。在一些实施方案中，试剂盒包含用于标签重构或稀释的各种试剂的容器。在一些实施方案中，试剂盒包含用于例如PCR、处理和/或测序分析的各种试剂的容器。在一些实施方案中，试剂盒还可以含有缓冲剂、说明书和对照中的至少一种或多种。

标签使用方法

考虑了根据本发明的标签的各种使用。在一些实施方案中，通过使样品与至少一种或多种标签接触来给样品加标签。在一些实施方案中，零或至少一种或多种标签在样品收集之前、过程中或之后立即加标到含有样品的容器中。在一些实施方案中，零或至少一种或多种标签在处理之前、过程中或之后被加标到样品中。在一些实施方案中，在分离之前或之后将0、1种或更多种标签加标到样品中。在一些实施方案中，在纯化之前或之后将0、1种或更多种标签加标到样品中。在一些实施方案中，将0、1种或更多种标签加标到正发生下游处理和/或分析的容器中。可以理解的是，一些实施方案可以允许使用合成的加标标签作为手段来确定和校正测序错误。这种确定和校正是基于例如已知序列和可变序列的高保真度产生，其中可以合理地确信，当在序列之后观察到错配时，在观察到的和期望的序列比对之间，可以以高置信度确定这种错配可归因于用于分析样品的测序过程的化学和/或碱基调用。

本发明认识到，例如，标签的重复单元排列的益处包括即使在小百分比标签被加标到给定样品中的情况下也将分析(例如测序)每种标签的许多拷贝。

在一些实施方案中，例如，如果测序过程所产生的特定的系统类型的错误(例如，G>C突变)将允许用于开发统计模型以针对这种类型的假阳性结果对SNP调用算法进行加权，那么可以使用错误校正。

在一些实施方案中，标签序列可用于评价一种测序方法在给特定DNA基序/序列类型(例如，重复，发夹等)或用在分析平台(例如Illumina测序中的phiX基因组)中的参考序列测序时如何。应理解，本发明的合成序列提供了针对使用源自于已知生物体的基因组的对照的平台进行比较的优点。

实施例

以下实施例是说明性的，并不意图以任何方式进行限制。

实施例1：高分子量(HMW)标签的产生

使用下述组分和方法产生高分子量双链DNA标签。

单个限定的60-mer DNA寡核苷酸被设计为具有引发恒定部分(A区)和(C区)和标签区(B区；被标记为标签1或标签2)。用于产生不同的加标标签的寡核苷酸被设计为具有相同的恒定区A和C，但不同的标签或B区(即，标签1和标签2)。

包含标签1B区的第一寡核苷酸(RCA_Tag_1)具有序列：RCA_Tag_1：ATGCACAAGGCCGACAATAGGCACGAGCATAGAAGTTAGTACGTAGCGTGGTCGCATAAG(SEQ ID NO：1)

第一寡核苷酸(SEQ ID NO：1)包含具有以下序列的A区、B区和C区：

A区：ATGCACAAGGCCGACAATA(SEQ ID NO：2)，

B区(标签1)：GGCACGAGCATAGAAGTTAGTA(SEQ ID NO：3)

C区：CGTAGCGTGGTCGCATAAG(SEQ ID NO：4)

包含标签2B区的第二寡核苷酸(RCA_Tag_2)具有序列：

RCA_Tag_2：

ATGCACAAGGCCGACAATAGAGTAGGACAATGATTGAGAAGCGTAGCGTGGTCGCATAAG(SEQ IDNO：5)

第二寡核苷酸(SEQ ID NO：5)包含来自第一寡核苷酸(SEQ ID NO：1)的A区(SEQID NO：2)和C区(SEQ ID NO：4)。然而，第二寡核苷酸(SEQ ID NO：5)包含具有标签2序列的不同B区：

B区(标签2)：GAGTAGGACAATGATTGAGAAG(SEQ ID NO：6)

使用具有如下序列的桥寡核苷酸(RCA_Tag_Bridge)将第一寡核苷酸(SEQ ID NO：1)和第二寡核苷酸(SEQ ID NO：5)环化：桥寡核苷酸(RCA_Tag_Bridge):CCTTGTGCATCTTATGCGAC(SEQ ID NO:7)

将切口连接以产生60个碱基的ssDNA环。

用正向引物和反向引物(分别为RCA_PCR_F和RCA_PCR_R)以及DNA聚合酶通过MDA扩增寡核苷酸。正向引物和反向引物具有以下序列：

正向引物(RCA_PCR_F)：ATGCACAAGGCCGACAATA(SEQ ID NO：8)

反向引物(RCA_PCR_R)：CTTATGCGACCACGCTACG(SEQ ID NO：9)

通过用限制性内切酶HaeIII(识别序列＝GGCC)切割来测试双链性(doublestrandedness)。

将第一寡核苷酸(SEQ ID NO：1)和第二寡核苷酸(SEQ ID NO：5)单独地合并并与桥寡核苷酸(SEQ ID NO：7)退火以形成环状结构(例如330，图3B)，并使用T4DNA连接酶连接切口。接下来，添加过量的引物RCA_PCR_F(SEQ ID NO：8)和RCA_PCR_R(SEQ ID NO：9)。桥寡核苷酸(SEQ ID NO：7)使用或另一种链置换DNA聚合酶引发ssDNA合成。

本实施例的方法产生具有含恒定区和标签区的重复单元的长单链。例如，包含两个重复单元(即[A-B-C]₂)的扩增产物将具有以下序列：CTTATGCGACCACGCTACGTACTAACTTCTATGCTCGTGCCTATTGTCGGCCTTGTGCATCTTATGCGACCACGCTACGTACTAACTTCTATGCTCGTGCCTATTGTCGGCCTTGTGCAT(SEQ ID NO:10)

RCA_PCR_F引物(SEQ ID NO：8)与所得的ssDNA扩增产物(例如SEQ ID NO：10)退火，使聚合酶能够合成反向链。此后，RCA_PCR_R引物(SEQ ID NO：9)在新合成的链上引发DNA合成。将环状模板(SEQ ID NO：1；SEQ ID NO：5)、桥寡核苷酸(SEQ ID NO：7)、RCA_PCR_F(SEQ ID NO：8)和RCA_PCR_R(SEQ ID NO：9)的组合连同链置换DNA聚合酶一起导致指数、等温地产生具有重复结构的长双链高分子量DNA(例(例如SEQ ID NO：10)。

具体地，将RCA_Tag_1(SEQ ID NO：1)和RCA_Tag_Bridge(SEQ ID NO：7)的寡核苷酸重悬于10mM Tris-Cl pH 8.0中至100pmol/μl(μM)以提供寡核苷酸储备溶液。

用退火缓冲液(10mM Tris-Cl，1mM EDTA，10mM NaCl)将寡核苷酸储备溶液稀释成百分之一。

用10μl(400ng，10pmol)RCA_Tag_1(SEQ ID NO：1)和RCA_Tag_Bridge(SEQ ID NO：7)寡核苷酸在20μl反应体积中使用标准退火条件(90℃30秒，随后以0.2度每秒缓降至4℃)进行退火。计算浓度为0.5pmol/μl或30ng/μl。

在下一步中，使用KAPA快速连接试剂盒在20μl反应混合物中将2μl(60ng)退火的寡核苷酸在室温(RT)下连接15分钟，该反应混合物含有10μl 2×连接酶缓冲液、2μl模板(1pmol)、1μl T4连接酶(25U)、7μl水。没有进行清理。计算模板浓度为0.05pmol/μl或3×10¹⁰拷贝/μl。

接下来，将1μl连接产物稀释到300μl 10mM Tris-Cl中，得到1×10⁸拷贝/μl(100-200pg/μl)。

使用环状模板的稀释系列进行MDA，如以下步骤详述的。

将20μl具有聚合酶(New England Biolabs，目录号M0269S)的扩增反应混合物制备如下：0.5μl(5U)，2μl缓冲液，0.2μl 100×BSA，10mM dNTP(各0.4μl-200μM)，1μl 20×KAPA SYBR GREEN染料，水至20μl。为了扩增，将反应混合物在30℃保持400分钟，每2分钟使用绿色通道收集荧光测量值，总共200个读出。

将引物RCA_PCR_F(SEQ ID NO：8)、RCA_PCR_R(SEQ ID NO：8)或两者加入到反应中至0.5μM的终浓度。还包括无模板反应(NTC)和无引物对照反应。

使用Qiagen Rotorgene仪器上的SYBR绿色(SYBR green)监测扩增。使反应进行12小时至完成(图7)。

使用1×Ampure XP珠粒纯化DNA并在10mM Tris-Cl中洗脱，使用分光光度法(Nanodrop 1000)进行定量，并标准化至10ng/μl。

用HaeIII限制性内切酶消化所得DNA的等分试样以确认所得DNA是完全双链的。通过凝胶电泳分析消化产物(图6)。

允许MDA反应在30℃下进行至完成，产生>3μg的纯化产物(相当于数千个测序反应)。

产物似乎作为高分子量DNA在琼脂糖凝胶上迁移(大部分驻留在孔中)。

用HaeIII限制性内切酶消化的HMW材料(每个重复单个位点)分解成低分子量材料。因此，大部分材料看来是双链DNA。

NTC在过夜温育后没有产生可检测的产物。

用正向(RCA_PCR_F)和反向(RCA_PCR_R)引物以及单独的正向引物的扩增是指数的。

没有未连接的环的反应不产生产物。

3小时后反应平台期。

实施例2：例如用于其中两个文库用标签1加标签的Illumina平台的测序文库的产生

将来自实施例1的已知质量的标签1加标到来自百日咳博德特氏菌的已知质量的基因组DNA(gDNA)并且用KAPA Hyper Plus文库制备试剂盒创建Illumina相容的文库。

将被加标的文库进行测序，并确定标签1是否在预测丰度下可检测到。

将标签1 HMW材料在10mM Tris-Cl中稀释至1ng/μl和20pg/μl。将纯化的标签1MDA产物以按质量2％加入到50ng或1ng百日咳博德特氏菌gDNA中(即分别为1ng和20pg的MDA产物；文库1和2)。

同时构建来自艰难梭菌gDNA(50ng和1ng)的无加标标签的文库(文库3和4)。

使用KAPA Hyper Plus文库制备试剂盒创建Illumina相容的文库(30分钟剪切DNA，然后是根据制造商的说明书进行加A尾和衔接子连接)。

在文库制备之后，使用50ng文库而不进行PCR扩增，而1ng文库被扩增12个循环以产生与50ng文库相同量的末端产物连接文库。

对具有加标特异性引物RCA_PCR_F(SEQ ID NO：8)和RCA_PCR_R(SEQ ID NO：8)的文库进行qPCR以确定加标的标签材料是否成为文库的一部分，以及扩增的文库是否保持相同的标签与文库的比率(图8)。

汇集文库并在Illumina MiSeq平台上测序。

将修剪的Illumina序列与标签1序列比对以确定来源于标签1的读出的百分比(图9)。参考图9，重复[A-B-C]单体序列的A区在900处显示，B区在902处，C区在904a和904b处。值得注意的是，由于标签序列的重复性质，C区显示在所示的读出的两端。

在对四个文库进行测序之后，使用blastn对标签1序列的读出进行定位，并对源于标签1的读出的百分比进行计数。标签1的数目：匹配读出如下：

文库1：4000个读出(总数的0.8％)

文库2：6500个读出(总数的1.3％)

文库3：0个读出(总数的0％)

文库4：0个读出(总数的0％)

qPCR显示，尽管经历了12个循环的文库扩增，加标了2％的标签1HMW材料的文库保留了相等比例的源于标签1的文库插入片段(图8)。

在解多重化(de-multiplexing)之后，对于文库1至文库4中的每一个获得至少500,000个读出。

源于标签1的读出在结构上是规则的，即可变区两侧是恒定区(图9)。

[(恒定A区)-(可变B区)-(恒定C区)]重复单元的存在显示HMW标签1 DNA是一个多联体。

标签1 HMW含有相对较少的错误，只观察到少量错配，这可能不是由于测序错误。

在一个方面，标签1 HMW DNA的加标允许在序列分析后识别带标签的文库。而且，以非常低(1ng)和非常高(50ng)的模板DNA的量加标标签1 HMW DNA是有效的。在另一方面，标签1 DNA被保留在PCR扩增的NGS文库中。在仍另一方面，加标至样品DNA的质量比通过加标标签1 HMW DNA的文库中映射至标签1的Illumina短读出的百分比来反映。

实施例3：加标两种不同标签中以证明唯一地鉴别加标签的样品

根据实施例1中描述的方案，从RCA_Tag_1(SEQ ID NO：1)和RCA_Tag_2(SEQ IDNO：5)制备HMW DNA加标标签，分别产生加标标签标签1和标签2。根据表1中详述的实验设计测试将标签1和标签2加标到文库的网络中。

表1：

微生物基因组DNA样品与按质量1％、0.1％和0.01％的DNA标签标签1或标签2组合。通过声剪切使DNA片段化为300bp或500bp的平均大小，并且根据实施例2中所述的程序构建具有不同索引的Illumina相容文库。在Illumina MiSeq仪器上进行测序。在每个测序文库中计数与每种标签匹配的读出的数目，并以百万分率(ppm)报告结果。

表2和3说明可以基于映射到相应参考的读出的数目识别加标DNA标签标签1和标签2的文库。除非另有说明，表2和表3中所示的所有结果以百分数表示。此外，表2和3中的结果对应于表1中显示的实验设计。

表2：映射到标签1 DNA的百分比读出

表3：映射到标签2 DNA的百分比读出

在这个实验中，只允许完全匹配到参考，这意味着对于每种标签观察到的加标比例和读出数目之间的较不完全相关性。

标签1和标签2 HMW材料被成功地用于以不同的加标百分比给来自各种微生物的全基因组测序文库加标签。

实施例4：设计和测序由多种聚合酶产生的标签

设计另外14种标签，其在可变区中具有>8的编辑距离。使用DNA聚合酶和BstDNA聚合酶从这些标签的子集合成HMW DNA标签。使用Illumina MiSeq平台对HMW标签进行测序以测试纯度和序列一致性。标签具有以下单体(即[A-B-C]₁)序列(B区用下划线表示)：

RCA_Tag_3：

ATGCACAAGGCCGACAATAACTTTGAGCAAACGTCGTCTGTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：11)

RCA_Tag_4

ATGCACAAGGCCGACAATATAAGCACCTTCTGTGCGTAATGCGTAGCGTGGTCGCATAAG(SEQ IDNO.：12)

RCA_Tag_5

ATGCACAAGGCCGACAATATTACGACGTAGCTCCGATTTAGCGTAGCGTGGTCGCATAAG(SEQ IDNO.：13)

RCA_Tag_6

ATGCACAAGGCCGACAATAAGTGAGACTGATCCTTCTAGCTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：14)

RCA_Tag_7

ATGCACAAGGCCGACAATACTCTGATTCGAATGCAAGTCGTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：15)

RCA_Tag_8

ATGCACAAGGCCGACAATAGGTAGCATCAATTTAGCTCGTCCGTAGCGTGGTCGCATAAG(SEQ IDNO.：16)

RCA_Tag_9

ATGCACAAGGCCGACAATACACGGCTATTTCACGTTGTAGACGTAGCGTGGTCGCATAAG(SEQ IDNO.：17)

RCA_Tag_10

ATGCACAAGGCCGACAATAGCCGGAACTCTTTTAAGGCATTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：18)

RCA_Tag_11

ATGCACAAGGCCGACAATAGCGCCAATTATGTGGACTACTTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：19)

RCA_Tag_12

ATGCACAAGGCCGACAATACGTCACCTGTAGAAATGTCGTTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：20)

RCA_Tag_13

ATGCACAAGGCCGACAATAGAGCAGGTCCTATCATTATCTGCGTAGCGTGGTCGCATAAG(SEQ IDNO.：21)

RCA_Tag_14

ATGCACAAGGCCGACAATATCATTCATCGATTGGCAGGTACCGTAGCGTGGTCGCATAAG(SEQ IDNO.：22)

RCA_Tag_15

ATGCACAAGGCCGACAATATCGCTGAGACGGTTCTAAATCTCGTAGCGTGGTCGCATAAG(SEQ IDNO.：23)

RCA_Tag_16

ATGCACAAGGCCGACAATACATTGACGGGTTAGATATCCTCCGTAGCGTGGTCGCATAAG(SEQ IDNO.：24)

使用凝胶电泳分析用和Bst大片段(LF)DNA聚合酶产生的HMW DNA标签(图10)。一般而言，用和Bst LF DNA聚合酶产生的HMW标签是纯的(表4)，并且HMW DNA标签1、2、4、5、7、11和13的深度测序表明与预测的序列非常好的一致性(图11)。

通过对或Bst DNA聚合酶产生的标签的子集测序并将所得的Illumina短读出映射到标签参考序列来测量标签纯度。交叉污染的极低水平是明显的(<0.1％)，这归因于索引性条码串扰(表4)。

表4：与标签1-13的参考序列对齐的读出的数目。与加标到每个样品的标签对齐的读出加下划线。样品名称表示序列样品编号，加标到样品的标签和用于获得HMW标签的聚合酶，例如S39_11_bst表示序列样品39、标签11和Bst聚合酶。

标签编号

实施例5：制备96种标签证明按比例增加标签使用的能力

设计了另外80种ssDNA寡核苷酸，其在可变区中具有>8的编辑距离。

使用Bst DNA聚合酶根据实施例1中描述的方案从ssDNA寡核苷酸合成HMW DNA标签。总共使用96种ssDNA寡核苷酸，其包括标签1-16(SEQ ID NO：1、5和11-24)和表5中所示的另外的80种寡核苷酸(SEQ ID NO：28-107)集合：

表5：

参考表5，寡核苷酸中的每一种遵循如本文所述的[A-B-C]单体序列格式(B区用下划线表示)。

使用KAPA Hyper Plus文库制备试剂盒从每种标签产生Illumina相容的文库(30分钟剪切DNA，随后根据制造商的说明书进行加A尾和衔接子连接)。

汇集96个文库并在Illumina MiSeq平台上测序。

将修剪的Illumina序列与标签序列的多联体比对以确定与标签对齐的读出百分比。多联体包含结构X₂₀-[A-B-C]₃-Y₂₀，其中X₂₀和Y₂₀各自表示20个连续简并碱基的序列(即，四种核酸中任何一种的组合)。

参考图12，真阳性和假阴性分布是基于与正确的标签参考序列(真阳性)和不正确的标签参考序列(假阴性)对齐的总标签读出的百分比确定的。

在解多重化之后，对于文库1到文库96中的每一个获得至少40,000个读出。

超过99％(中值99.9％)的读出与正确的标签对齐，在所有标签序列中具有相似的分布，由此证明增加使用的标签数目而没有交叉污染的可行性。此外，小于0.5％(中值0.06％)的假阴性率表明在96种标签集合之间存在充分的可变性，以允许以最小的串扰进行清楚的识别。

实施例6：将甲基化的核苷酸并入标签序列中

在一个方面，可将甲基化的核苷酸并入标签序列中，其可用于各种应用。具有一个或多个甲基化核苷酸的标签的一个应用包括用于亚硫酸氢盐测序实验、甲基化DNA免疫沉淀(MeDIP)实验或其组合的加标对照。通常，MeDIP是一种纯化技术，其中样品富集甲基化的DNA序列。因此，可以在富集之前将具有一个或多个甲基化核苷酸的标签添加到样品中，以提供样品中任何甲基化序列旁边的甲基化标签的富集。

具有一个或多个甲基化核苷酸的标签可另外(或替换地)用于亚硫酸氢盐测序实验。在一个实例中，可以改变标签中甲基化核苷酸与非甲基化核苷酸的比率(即甲基化比率)以追踪亚硫酸氢盐转化的程度。此外，可以改变甲基化比率以识别检测不同甲基化水平所需的亚硫酸氢盐转化的量。在另一个实例中，可以提供不同标签的组合，其中每种不同标签具有不同的甲基化比率或若干甲基化核苷酸。在一种实施方案中，不同标签的组合可以包括具有至少一个甲基化dCTP的第一标签和仅具有非甲基化dCTP的第二标签(即，第二标签不包含甲基化dCTP)。在另一种实施方案中，不同标签的组合可以包括与第二标签相比具有至少一个以上甲基化dCTP的第一标签。在又一种实施方案中，不同标签的组合可以包括与第二标签相比具有相同数目的甲基化dCTP的第一标签，其中第一标签具有与第二标签不同的甲基化模式。在第一标签和第二标签具有相同的核酸序列(但是不同的甲基化模式)的情况下，两种标签的组合可以模拟在单个基因座(locus)的不同甲基化水平。甲基化标签可以如本文所述通过在用链置换DNA聚合酶的聚合步骤期间包含5-甲基-dCTP而不是(或另外)包含dCTP来产生。

实施例7：具有一个或多个生物素化的dNTP的标签

在另一种实施方案中，可以如本文所述将一个或多个生物素化的dNTP并入标签中(例如在聚合步骤期间)。例如，生物素-16-dUTP可以通过使用含有生物素化碱基的引物，通过在标签合成过程中包括百分比的生物素化核苷酸等等，以及它们的组合来并入到标签序列中。生物素化标签可用于涉及基于生物素-链霉抗生物素蛋白的捕获的工作流程中，所述捕获例如溶液中杂交捕获(参见例如Rodesch等人的美国专利申请公开号2012/0046175)。另一方面，向标签添加生物素化碱基通常可用于标签纯化或操作。除了生物素化以外(或作为替代)，标签可以设有另一种类似的结合部分，例如地高辛或另一种合适的结合部分。

实施例8：包含RNA聚合酶启动子序列的标签

在一种实施方案中，标签可以设计成在标签的至少一个保守区内包含RNA聚合酶启动子序列。RNA聚合酶启动子序列可选自真核启动子序列、原核启动子序列、古细菌启动子序列、合成启动子序列、其他类似启动子序列或其组合。包含启动子序列可以使得能够使用RNA聚合酶合成基于RNA的标签以使用基于DNA的标签作为模板产生逃离转录本(run-offtranscript，延续转录本)。具有RNA聚合酶启动子序列的标签的一个实例包括具有以下通用结构的标签：

5'-[RNA聚合酶启动子]-[可变区]-[恒定区]-3'

如上所示，标签在5'至3'方向包括：i)包含RNA聚合酶启动子序列的第一区域，ii)具有可变序列的第二区域，以及iii)具有恒定或限定序列的第三区域。用于制备标签的核苷酸序列的具体实例包括T7 RNA聚合酶启动子TAATACGACTCACTATAG(SEQ ID NO：25)，可变序列GGCACGAGCATAGAAGTTAGTA(SEQ ID NO：3)和恒定序列GTAGCGTGGTCGCATAA(SEQ ID NO：26)如下：TAATACGACTCACTATAGGGCACGAGCATAGAAGTTAGTACGTAGCGTGGTCGCATAAG(SEQ IDNO：27)

如前述实例中所述，核苷酸序列(SEQ ID NO：27)将退火并连接以提供连接的环状模板以用于使用本文所述的链置换聚合酶产生长双链DNA(dsDNA)。高分子量dsDNA产物可以是T7 RNA聚合酶的底物，从而导致标签DNA转录成相应的RNA。标签的RNA转录本将含有标签的重复结构，并且由于标签模板转录中固有的可变随机终止，会产生不同长度的RNA产物的一般连续分布。

在用于合成标签的RNA转录本的一个示例性方法中，1μg实施例1中产生的高分子量dsDNA可在含有100单位T7 RNA聚合酶，1×T7 RNA聚合酶反应缓冲液(New EnglandBiolabs)，ATP、CTP、GTP和TTP各0.5mM，1单位RNA酶抑制剂和5mM DTT的反应中用作模板。反应可以在37℃温育2小时，然后可以通过首先用DNA酶I消化模板DNA，然后乙醇沉淀RNA转录本来纯化所得RNA转录本。定量后，可以在用于RNA-seq的文库制备之前将标签的RNA转录本添加到包括mRNA或总RNA的样品中。

实施例9：将标签包含在样品收集容器中

在一个方面，根据本公开内容的标签可以被单独提供或作为样品收集系统的组件提供。在包含标签作为样品收集系统的组件的情况下，代替提供标签作为单独的组件以在文库制备之前添加到核酸样品或者在核酸提取之前添加到粗制组织样品，标签可以提供在诸如样品收集管或小瓶的容器中。在一个实例中，标签可以被包括在收集小瓶中，诸如唾液收集小瓶，血液收集小瓶等。收集小瓶可以作为唯一标记(例如，条码)的样品收集管提供，该样品收集管已经包括设置在其中的组合物，其中组合物包含对收集小瓶上的标记唯一或特定的特定标签。在包括标签的收集瓶中添加样品(例如血液，组织，唾液等)的情况下，样品以及因此其中包含的任何核酸材料可以在收集点处被不可磨灭地混合。在收集点处包含标签可以减少在提取、文库制备和测序工作流程中交叉污染或错误标签分配的可能性。在又一个实例中，通过将标签吸附到诸如血斑(Guthrie)卡、颊拭子工具等的固体收集表面上来将标签与收集工具组合提供。

等同物

本领域技术人员将认识到或者能够使用不超过常规实验来确定本文描述的本发明的具体实施方案的许多等同物。本发明的范围并不旨在限于上述说明书，而是如所附权利要求所述。

序列表

<110> 卡帕生物系统公司（Kapa Biosystems, Inc.）

马丁·冉妮科（RANIK, Martin）

埃里克·范德沃特（VAN DER WALT, Eric）

保罗·麦克尤恩（MCEWAN, Paul）

<120> 用于下一代测序的高分子量DNA样品追踪标签

<130> RMSI-006/N01US; 33799-US1

<150> US 62/234,630

<151> 2015-09-29

<150> US 62/335,364

<151> 2016-05-12

<160> 107

<170> PatentIn version 3.5

<210> 1

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 1

atgcacaagg ccgacaatag gcacgagcat agaagttagt acgtagcgtg gtcgcataag 60

<210> 2

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 2

atgcacaagg ccgacaata 19

<210> 3

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 3

ggcacgagca tagaagttag ta 22

<210> 4

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 4

cgtagcgtgg tcgcataag 19

<210> 5

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 5

atgcacaagg ccgacaatag agtaggacaa tgattgagaa gcgtagcgtg gtcgcataag 60

<210> 6

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 6

gagtaggaca atgattgaga ag 22

<210> 7

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 7

ccttgtgcat cttatgcgac 20

<210> 8

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 8

atgcacaagg ccgacaata 19

<210> 9

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 9

cttatgcgac cacgctacg 19

<210> 10

<211> 120

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 10

cttatgcgac cacgctacgt actaacttct atgctcgtgc ctattgtcgg ccttgtgcat 60

cttatgcgac cacgctacgt actaacttct atgctcgtgc ctattgtcgg ccttgtgcat 120

<210> 11

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 11

atgcacaagg ccgacaataa ctttgagcaa acgtcgtctg tcgtagcgtg gtcgcataag 60

<210> 12

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 12

atgcacaagg ccgacaatat aagcaccttc tgtgcgtaat gcgtagcgtg gtcgcataag 60

<210> 13

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 13

atgcacaagg ccgacaatat tacgacgtag ctccgattta gcgtagcgtg gtcgcataag 60

<210> 14

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 14

atgcacaagg ccgacaataa gtgagactga tccttctagc tcgtagcgtg gtcgcataag 60

<210> 15

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 15

atgcacaagg ccgacaatac tctgattcga atgcaagtcg tcgtagcgtg gtcgcataag 60

<210> 16

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 16

atgcacaagg ccgacaatag gtagcatcaa tttagctcgt ccgtagcgtg gtcgcataag 60

<210> 17

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 17

atgcacaagg ccgacaatac acggctattt cacgttgtag acgtagcgtg gtcgcataag 60

<210> 18

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 18

atgcacaagg ccgacaatag ccggaactct tttaaggcat tcgtagcgtg gtcgcataag 60

<210> 19

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 19

atgcacaagg ccgacaatag cgccaattat gtggactact tcgtagcgtg gtcgcataag 60

<210> 20

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 20

atgcacaagg ccgacaatac gtcacctgta gaaatgtcgt tcgtagcgtg gtcgcataag 60

<210> 21

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 21

atgcacaagg ccgacaatag agcaggtcct atcattatct gcgtagcgtg gtcgcataag 60

<210> 22

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 22

atgcacaagg ccgacaatat cattcatcga ttggcaggta ccgtagcgtg gtcgcataag 60

<210> 23

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 23

atgcacaagg ccgacaatat cgctgagacg gttctaaatc tcgtagcgtg gtcgcataag 60

<210> 24

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 24

atgcacaagg ccgacaatac attgacgggt tagatatcct ccgtagcgtg gtcgcataag 60

<210> 25

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> T7 RNA polymerase promoter sequence

<400> 25

taatacgact cactatag 18

<210> 26

<211> 17

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 26

gtagcgtggt cgcataa 17

<210> 27

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 27

taatacgact cactataggg cacgagcata gaagttagta cgtagcgtgg tcgcataag 59

<210> 28

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 28

atgcacaagg ccgacaataa tcgcactgta gtggtagtgc gtagcgtggt cgcataag 58

<210> 29

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 29

atgcacaagg ccgacaataa tcatgcgagg ctctctctac gtagcgtggt cgcataag 58

<210> 30

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 30

atgcacaagg ccgacaatac catagtccgg tctctgtatc gtagcgtggt cgcataag 58

<210> 31

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 31

atgcacaagg ccgacaatat cgcatcaaga ggctccaatc gtagcgtggt cgcataag 58

<210> 32

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 32

atgcacaagg ccgacaatag agatatcaac ttcgcgagcc gtagcgtggt cgcataag 58

<210> 33

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 33

atgcacaagg ccgacaatac gcgaattaga actagtccgc gtagcgtggt cgcataag 58

<210> 34

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 34

atgcacaagg ccgacaataa gtaggacctg cgttaagctc gtagcgtggt cgcataag 58

<210> 35

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 35

atgcacaagg ccgacaatac tcgccagtat acaactgctc gtagcgtggt cgcataag 58

<210> 36

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 36

atgcacaagg ccgacaataa ctcgtcctct agatgcagac gtagcgtggt cgcataag 58

<210> 37

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 37

atgcacaagg ccgacaatag agaagtacgg cgcgaattac gtagcgtggt cgcataag 58

<210> 38

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 38

atgcacaagg ccgacaatag ctgctatgca ctatctctcc gtagcgtggt cgcataag 58

<210> 39

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 39

atgcacaagg ccgacaataa tgtcgcacta caggttgcac gtagcgtggt cgcataag 58

<210> 40

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 40

atgcacaagg ccgacaatat atcacctatc cacatggccc gtagcgtggt cgcataag 58

<210> 41

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 41

atgcacaagg ccgacaatat cacctgtact gtggtggttc gtagcgtggt cgcataag 58

<210> 42

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 42

atgcacaagg ccgacaatag atcgcatata gtgcacctgc gtagcgtggt cgcataag 58

<210> 43

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 43

atgcacaagg ccgacaatac ttaacggttg cacggattcc gtagcgtggt cgcataag 58

<210> 44

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 44

atgcacaagg ccgacaatac acaggctgtc taatctacgc gtagcgtggt cgcataag 58

<210> 45

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 45

atgcacaagg ccgacaatac ctatagcgca attgtgtccc gtagcgtggt cgcataag 58

<210> 46

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 46

atgcacaagg ccgacaatac ctgtagcatg caatgacgtc gtagcgtggt cgcataag 58

<210> 47

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 47

atgcacaagg ccgacaatag cgtgtgatta accttgcagc gtagcgtggt cgcataag 58

<210> 48

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 48

atgcacaagg ccgacaatat agttcatagg tccgtgacgc gtagcgtggt cgcataag 58

<210> 49

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 49

atgcacaagg ccgacaatag gtctattcgg agcacgttac gtagcgtggt cgcataag 58

<210> 50

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 50

atgcacaagg ccgacaatac ttaggctagg aggcttgtac gtagcgtggt cgcataag 58

<210> 51

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 51

atgcacaagg ccgacaatac taacgtggtt agtgagcacc gtagcgtggt cgcataag 58

<210> 52

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 52

atgcacaagg ccgacaatag gtctaagaag tcatctgcgc gtagcgtggt cgcataag 58

<210> 53

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 53

atgcacaagg ccgacaatac caatgtagcc gctattaggc gtagcgtggt cgcataag 58

<210> 54

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 54

atgcacaagg ccgacaatac tgtgtattac ggagccaagc gtagcgtggt cgcataag 58

<210> 55

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 55

atgcacaagg ccgacaataa ccggtggtga tcagttaagc gtagcgtggt cgcataag 58

<210> 56

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 56

atgcacaagg ccgacaatat tcacggtatg cacaccttgc gtagcgtggt cgcataag 58

<210> 57

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 57

atgcacaagg ccgacaatac gtatgacctc acactctcac gtagcgtggt cgcataag 58

<210> 58

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 58

atgcacaagg ccgacaataa actggcgccg aacatctaac gtagcgtggt cgcataag 58

<210> 59

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 59

atgcacaagg ccgacaatag atcggtcgca ctaatgaacc gtagcgtggt cgcataag 58

<210> 60

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 60

atgcacaagg ccgacaatag tctgaacacg tgaatcggac gtagcgtggt cgcataag 58

<210> 61

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 61

atgcacaagg ccgacaatat tcctcgatgc tatcgcacac gtagcgtggt cgcataag 58

<210> 62

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 62

atgcacaagg ccgacaataa gattacgaac cgtaggaccc gtagcgtggt cgcataag 58

<210> 63

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 63

atgcacaagg ccgacaatac atgttcgtat tggtgcctgc gtagcgtggt cgcataag 58

<210> 64

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 64

atgcacaagg ccgacaatag cctgtgttcc atcagcttac gtagcgtggt cgcataag 58

<210> 65

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 65

atgcacaagg ccgacaataa aggtcgtgag tactccttcc gtagcgtggt cgcataag 58

<210> 66

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 66

atgcacaagg ccgacaataa gtgtattggc gaaccgactc gtagcgtggt cgcataag 58

<210> 67

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 67

atgcacaagg ccgacaatag cctcgatgta tattgcgcac gtagcgtggt cgcataag 58

<210> 68

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 68

atgcacaagg ccgacaatac gctagaatga ggtaggcaac gtagcgtggt cgcataag 58

<210> 69

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 69

atgcacaagg ccgacaatac atacgcctta gtcggaacac gtagcgtggt cgcataag 58

<210> 70

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 70

atgcacaagg ccgacaatat tgcttacgat ctgcgtaggc gtagcgtggt cgcataag 58

<210> 71

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 71

atgcacaagg ccgacaatat gcgttattgc agtatcgccc gtagcgtggt cgcataag 58

<210> 72

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 72

atgcacaagg ccgacaatac tagacgcctg aagaatggac gtagcgtggt cgcataag 58

<210> 73

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 73

atgcacaagg ccgacaatag agaaggaacg agtgttaccc gtagcgtggt cgcataag 58

<210> 74

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 74

atgcacaagg ccgacaataa ttcaaccgac tcgaactgcc gtagcgtggt cgcataag 58

<210> 75

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 75

atgcacaagg ccgacaatag tactcctaga tatgacggcc gtagcgtggt cgcataag 58

<210> 76

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 76

atgcacaagg ccgacaatac gcggacatag ttaagcgtac gtagcgtggt cgcataag 58

<210> 77

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 77

atgcacaagg ccgacaatat tcgtacgaga cgtgctgatc gtagcgtggt cgcataag 58

<210> 78

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 78

atgcacaagg ccgacaataa cacataacgc cgcaatctcc gtagcgtggt cgcataag 58

<210> 79

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 79

atgcacaagg ccgacaatat agaccagcct actattcgcc gtagcgtggt cgcataag 58

<210> 80

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 80

atgcacaagg ccgacaatag acacagtgtc tctaatgccc gtagcgtggt cgcataag 58

<210> 81

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 81

atgcacaagg ccgacaataa tggctcgcag gagatgtatc gtagcgtggt cgcataag 58

<210> 82

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 82

atgcacaagg ccgacaatag cttacggtgt gatagtacgc gtagcgtggt cgcataag 58

<210> 83

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 83

atgcacaagg ccgacaatat gtactacggc tgattcctcc gtagcgtggt cgcataag 58

<210> 84

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 84

atgcacaagg ccgacaatat cgttctgtac tggttgctcc gtagcgtggt cgcataag 58

<210> 85

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 85

atgcacaagg ccgacaatat gagacggtat gtcgcagatc gtagcgtggt cgcataag 58

<210> 86

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 86

atgcacaagg ccgacaataa ccttgcaatc cgtcacaagc gtagcgtggt cgcataag 58

<210> 87

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 87

atgcacaagg ccgacaataa ccaagagtct tgtccagagc gtagcgtggt cgcataag 58

<210> 88

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 88

atgcacaagg ccgacaatag gtaagctgac attcgacacc gtagcgtggt cgcataag 58

<210> 89

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 89

atgcacaagg ccgacaatac aattgaggtg tgcaatggcc gtagcgtggt cgcataag 58

<210> 90

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 90

atgcacaagg ccgacaatag gctgttcgtg ataggatcac gtagcgtggt cgcataag 58

<210> 91

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 91

atgcacaagg ccgacaataa ggcggtgcgt aatagtgttc gtagcgtggt cgcataag 58

<210> 92

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 92

atgcacaagg ccgacaatag atacgaagtt acagcctgcc gtagcgtggt cgcataag 58

<210> 93

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 93

atgcacaagg ccgacaatac taatgcatac tgctggaggc gtagcgtggt cgcataag 58

<210> 94

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 94

atgcacaagg ccgacaatag cttcggttag actagagagc gtagcgtggt cgcataag 58

<210> 95

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 95

atgcacaagg ccgacaatac cggttgatat tctaggccac gtagcgtggt cgcataag 58

<210> 96

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 96

atgcacaagg ccgacaatac atgaggagag gtattcctcc gtagcgtggt cgcataag 58

<210> 97

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 97

atgcacaagg ccgacaatag aatcgtctac ctagctcgtc gtagcgtggt cgcataag 58

<210> 98

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 98

atgcacaagg ccgacaatag gtgaagttag acctggactc gtagcgtggt cgcataag 58

<210> 99

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 99

atgcacaagg ccgacaatag gattgtagga tgactcctgc gtagcgtggt cgcataag 58

<210> 100

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 100

atgcacaagg ccgacaataa gattgcgccg gtacaattgc gtagcgtggt cgcataag 58

<210> 101

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 101

atgcacaagg ccgacaatag ttccgccgag tattcatagc gtagcgtggt cgcataag 58

<210> 102

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 102

atgcacaagg ccgacaatac ttgtacagca gtctaagccc gtagcgtggt cgcataag 58

<210> 103

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 103

atgcacaagg ccgacaatag aagcgcgcat gaattgatcc gtagcgtggt cgcataag 58

<210> 104

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 104

atgcacaagg ccgacaatat accggaatcg tgtctgtctc gtagcgtggt cgcataag 58

<210> 105

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 105

atgcacaagg ccgacaatag cttcatggca atgcatcgtc gtagcgtggt cgcataag 58

<210> 106

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 106

atgcacaagg ccgacaatag acctgcgtac cttgtcttac gtagcgtggt cgcataag 58

<210> 107

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的核酸

<400> 107

atgcacaagg ccgacaatag ccgcagatta caaggattgc gtagcgtggt cgcataag 58

Claims

1.一种合成的核酸标签，其核酸序列包含结构A-B-C的多个重复单元，所述合成的核酸标签具有由下式表示的总体结构：

X_i-[A-B-C]_n-Y_j，

其中，所述合成的核酸标签包括n个重复的所述结构A-B-C

其中，n为至少2，

其中，A、B和C中的每一个是具有至少两个残基的限定长度的核酸，

其中，所述合成的核酸标签包含i个重复的X，

其中，所述合成的核酸标签包括j个重复的Y，

其中，X是C、另一种核酸和核酸修饰中的至少一个，

其中，Y是A、另一种核酸和核酸修饰中的至少一个，

并且其中i和j是独立地选自0-100的整数。

2.如权利要求1所述的标签，其中：

A和C中的每一个包含至少一个引物着陆点序列元件，在所述引物着陆点序列元件中与其杂交的引物可以被延伸，并且

另外其中，A和C具有彼此相容的核苷酸序列，在所述核苷酸序列中相反方向的引物可以同时与A和C两者杂交，从而通过延伸所杂交的引物产生扩增产物。

3.如权利要求1所述的标签，其中：

至少B具有不与在用于分析的相关样品中发现的任何序列杂交的序列，并且

其中，B具有足够的长度以确保所述标签中个体B元件之间至少为2的编辑距离。

4.一组用于序列分析的样品，其中，每个样品含有至少一种合成的核酸标签，所述标签的核苷酸序列包含多个根据式A-B-C的重复单元，

其中，A和C各自为长度至少8个核酸，并且其中A和C为相同长度和不同长度之一；并且

其中，B包含至少8个核酸。

5.如权利要求1所述的标签，其中，所述标签的至少一部分是双链的。

6.如权利要求1的标签，其中，所述标签包含至少一个甲基化的核苷酸。

7.如权利要求1的标签，其中，所述标签包含至少一个结合部分。

8.如权利要求1所述的标签，其中，所述标签包含用于RNA聚合酶的至少一个启动子序列。

9.如权利要求1所述的标签，其中，所述标签是设置在收集容器、以及被吸附到收集工具表面上中的一种。

10.一种包含多种核酸分子标签的试剂盒，所述核酸分子标签中的每一种具有由下式表示的核酸序列：

[A-B-C]_n，

其中，所述合成的核酸标签包含n个重复的结构A-B-C，

其中，n为至少2，

其中A、B和C中的每一个是具有至少2个残基的限定长度的核酸。

11.如权利要求10所述的试剂盒，其中：

所述试剂盒中的不同标签在结构上彼此相关，其中：

每种标签具有相同的A序列元件；

每种标签具有相同的C序列元件；并且

每种标签具有B序列元件，所述B序列元件与所述试剂盒中其他标签中的每一种的B序列元件不同。

12.如权利要求10所述的试剂盒，还包括样品收集管。

13.如权利要求10所述的试剂盒，其中，所述多种核酸分子标签的至少一部分包含至少一个甲基化的核苷酸。

14.如权利要求10所述的试剂盒，其中，所述多种核酸分子标签的至少一部分包含至少一个结合部分。

15.如权利要求14所述的试剂盒，其中，所述结合部分是生物素。

16.如权利要求10所述的试剂盒，其中，所述多种核酸分子标签的至少一部分包含用于RNA聚合酶的至少一个启动子序列。

17.如任何权利要求16所述的试剂盒，其中，所述启动子序列选自真核启动子序列、原核启动子序列、古细菌启动子序列、合成启动子序列中的至少一种。

18.如权利要求10所述的试剂盒，其中，所述多种核酸分子标签为置于收集容器中或被吸附到收集工具表面上中的一种。

19.一种从合成的核酸标签制备RNA转录本的方法，包括转录具有启动子序列的合成的核酸标签，所述合成的核酸标签具有包含结构A-B-C的多个重复单元的核酸序列，所述合成的核酸标签进一步具有由下式表示的总体结构：

X_i-[A-B-C]_n-Y_j，

其中，所述合成的核酸标签包括n个重复的所述结构A-B-C

其中，n为至少2，并且

其中，所述合成的核酸标签包含i个重复的X，

其中，所述合成的核酸标签包括j个重复的Y，

其中，X是C、另一种核酸和核酸修饰中的至少一个，

其中，Y是A、另一种核酸和核酸修饰中的至少一个，

并且其中i和j是独立地选自0-100的整数。

20.如权利要求19所述的方法，其中：

A和C中的每一个包含至少一个引物着陆点序列元件，在引物着陆点序列元件中与其杂交的引物可以被延伸，并且

21.一组用于序列分析的样品，其中，每个样品含有至少一种根据权利要求1所述的合成的核酸标签。

22.一种包含多种根据权利要求1所述的核酸分子标签的试剂盒。