CN104334739A

CN104334739A - 通过新一代测序进行基因分型

Info

Publication number: CN104334739A
Application number: CN201380013610.9A
Authority: CN
Inventors: 帕特里克·S·施纳布尔; 刘三震; 吴薇
Original assignee: Data2Bio
Current assignee: Data2Bio
Priority date: 2012-01-13
Filing date: 2013-01-11
Publication date: 2015-02-04
Also published as: EP3434789A1; HK1204337A1; US20150344947A1; US9951384B2; EP2802666B1; EP2802666A4; US10704091B2; US20180201996A1; US20130184165A1; CN108611398A; EP2802666A1; WO2013106737A1

Abstract

本文提供与基因分型有关的技术并且特别但不仅仅是通过基因组测序对一种或多种有机体进行基因分型的方法。在所述技术的一些实施方案中，使用两种限制性内切酶以在所消化片段的每个末端产生具有不同突出端的两个位点。一个位点与条形码寡核苷酸连接以允许样本在分析(例如测序)期间的多重化。另一个位点与不具有条形码的寡核苷酸连接。通过设计和选择与非条形码位点互补的扩增引物来进一步减少靶向于分析的位点数目。

Description

通过新一代测序进行基因分型

本申请要求2012年1月13日提交的美国临时专利申请61/586,596的优先权，其以全文引用的方式并入本文中。

关于联邦资助的研究或开发的声明

本发明是在国家科学基金会授予的资助号IOS-1027527、IOS-0820610、IOS-0910642和DEB0919348的政府支持下完成的。政府对本发明享有某些权利。

技术领域

本文提供与基因分型有关的技术并且特别但不仅仅是通过基因组测序对一种或多种受试者进行基因分型的方法。

发明背景

新一代测序使得研究人员能够以较低成本获得大量的数据并因此对于深入地对任何物种的个体进行基因分型提供巨大的机会(Lai等，″Genome-wide patterns of genetic variation among elite maize inbredlines″2010，Nat Genet 42：1027-1030)。近来，开发了若干种通过测序进行基因分型(GBS)的方法以同时对数百名个体进行基因分型(Andolfatto等，″Multiplexed shotgun genotyping for rapid and efficientgenetic mapping″2011，Genome Res 21：610-17；Baird等，″Rapid SNPdiscovery and genetic mapping using sequenced RAD markers″ 2008，PLoS One 3：e3376；Elshire等，″A Robust，SimpleGneotyping-by-Sequencing(GBS)Approach for High Diversity Species″2011 PLoS One 6：e19379)。

最通常使用必须预先发现和验证的预定义的SNP标记进行常规的基因分型；这些标记通常具群体特异性。这些SNP典型地通过杂交或通过基于单独的SNP特异性PCR的测定法检测。相比之下，GBS技术使得能够相比于基于PCR的测定法(例如，SNP加上小的插入和/或缺失，例如，“indel”)检测更宽泛范围的多态性。GBS技术无需预先发现和验证多态性。因此，GBS可以用于任何多态物种和任何分离群体中。

然而，常规的GBS方法共有至少两个缺点。首先，常规方法使用双链衔接子并且因此相关方法需要严格控制衔接子连接中的模板：衔接子浓度比。结果是，需要精确定量的高质量输入DNA作为起始物质(参见例如Elshire等)。其次，这些方法调查几十万或更多个位点并因此需要众多的测序读段以对每个样本中的每个位点产生足够的覆盖。

发明内容

因此，本文提供与GBS有关的技术。特别是，提供使用单链寡核苷酸代替常规的双链衔接子用于连接反应的本技术的实施方案(参见例如Liu等，“DLA-based strategies for cloning insertion mutants：cloning the g14 locus of maize using Mu transposon tagged alleles”2009Genetics 183：1215-25，其出于所有目的以全文引用的方式并入本文中)。例如，单链寡核苷酸进行自连接的程度不如双链衔接子并且因此模板：衔接子比远远不如在常规方法中关键。

此外，在本技术的一些实施方案中，使用单链寡核苷酸消化和连接的方法以对核酸(例如，DNA)进行“条形码标记”或标签标记。因此，在一些实施方案中，在维持每个DNA的条形码中的源信息的同时，将众多(例如，数百个、数千个、数万个、数百万个等)条形码标记DNA组合于单个多重化样本中以进行分析。在分析之后，将数据解卷积以获得与每个条形码标记DNA相关的数据。

在本技术的一些实施方案中，使用两种限制性内切酶以在所消化片段的每个末端产生具有不同突出端(overhang)的两个位点。一个位点与条形码寡核苷酸连接以允许样本在分析(例如测序)期间的多重化。另一个位点与不具有条形码的寡核苷酸连接。通过设计和选择与非条形码位点互补的扩增引物来进一步减少靶向于分析(例如，通过测序)的位点数目。通过操纵限制性内切酶和条形码序列的选择，本文提供的GBS技术的实施方案是“可调节的”，原因在于研究人员能够在预定数目的遗传标记下测定基因型并将所期望数目的个体的基因分型多重化。例如，在本技术的一些实施方案中，对每名个体测定数百种标记，而在其他实施方案中，对每名个体测定数千种或甚至数万种标记。如果测定较少的标记，则每名个体需要较少测序。因此，通过在一个实验中多重化多个样本并且对每单位成本更多的个体进行基因分型而降低成本。

在一些实施方案中，使用生成具有与条形码寡核苷酸连接的突出端的片段的限制性内切酶。所述条形码寡核苷酸包含与所述突出端互补的序列、DNA条形码和用作例如用于扩增的引物结合位点的共同序列。使用不同的条形码允许将来自不同来源的DNA汇集以及每个提供DNA的单独受试者的数据的后续解卷积。对于所感兴趣的给定序列靶标，设计单一引物以结合于靶标上邻接酶识别位点的区域。将这种单一引物和与条形码寡核苷酸的共同序列互补的第二引物组合用于扩增，例如通过PCR。在一些实施方案中，根据所期望的靶标数目设计多个引物并指定引物重数。在这些实施方案中，在条形码标记DNA池中扩增多个靶标。

即使在不存在先前基因分型信息的情况下，本技术也可用于例如对具有数百名至数千名单独受试者的群体进行基因分型。调节GBS技术的能力使研究人员具有将GBS应用于广泛多种项目的独特灵活性，例如，在育种和牲畜养殖业中、用于知识产权的保护、在法医领域中以及用于人类和牲畜中的亲子鉴定。这个列表欲为示例性的，而非限制适于所提供技术的应用。此外，一些实施方案包含标靶富集方法(例如，序列捕捉)以对大量个体上的靶向区域进行测序。基于本文所含的教导，其他的实施方案和应用对于相关领域的技术人员来说将是显而易见的。

因此，本文提供方法的实施方案，其包括用限制性内切酶消化核酸以产生片段；将单链条形码寡核苷酸连接至所述片段以产生模板；将所述模板扩增以产生扩增子；以及对所述扩增子测序以产生序列读段。在一些实施方案中，通过混合多个模板来产生模板池，例如，在一些实施方案中，通过混合来自多名个体的多个模板来产生模板池。一些实施方案进一步提供解析所述序列读段，定位所述序列读段，以及指定基因型。在所述方法的一些实施方案中，用两种不同的限制性内切酶(例如，NspI和BfuCI)来消化核酸。一些实施方案提供单链条形码寡核苷酸鉴定作为核酸来源的受试者。一些实施方案提供扩增包括使用靶标特异性引物例如以选择扩增子来进行测序。

因此，所述技术提供通过测序进行基因分型的方法，所述方法包括提供来自第一受试者的第一组多个核酸；提供来自第二受试者的第二组多个核酸；用限制性内切酶消化所述第一组多个核酸以产生第一组多个片段；用所述限制性内切酶消化所述第二组多个核酸以产生第二组多个片段；将第一单链条形码寡核苷酸连接至所述第一组多个片段的每个片段以产生第一组多个模板；将第二单链条形码寡核苷酸连接至所述第二组多个片段的每个片段以产生第二组多个模板；将所述第一组多个模板与所述第二组多个模板混合以产生模板池；使用靶标特异性引物扩增所述模板池的子集以产生多个扩增子；对所述多个扩增子测序以产生多个序列读段；以及使用所述第一条形码寡核苷酸的第一序列和所述第二条形码寡核苷酸的第二序列对所述序列读段进行解卷积。

此外，与本技术相关的是包含单链条形码寡核苷酸的组合物的实施方案，其中所述单链条形码寡核苷酸包含选自由SEQ ID NO：1-23组成的群组的序列。在一些实施方案中，所述组合物进一步包含第二单链寡核苷酸。在一些实施方案中，提供包含核酸的组合物，其中所述核酸序列包含单链条形码寡核苷酸的序列、靶标位点的序列以及第二单链寡核苷酸的序列。所述组合物的一些实施方案进一步包含与单链条形码寡核苷酸互补的第一扩增引物和与第二单链寡核苷酸互补的靶标特异性扩增引物。

此外，本技术提供将上述组合物用于对一种或多种受试者进行基因分型的实施方案和包含上述组合物的试剂盒的实施方案。

附图说明

本技术的这些和其他特征、方面和优点将关于以下附图变得更好理解：

图1是描述本文提供的技术的方法实施方案的图。

图2是描述本文提供的技术的方法实施方案的图。

图3是描述本文提供的技术的方法实施方案的图。

图4是描述本文提供的技术的方法实施方案的图。

具体实施方式

本文提供与基因分型有关的技术并且特别但不仅仅是通过基因组测序对一种或多种受试者进行基因分型的方法。在一些实施方案中，所述技术使用单链条形码寡核苷酸和靶标选择来调节测序。

定义

为了促进对本技术的理解，下文定义多个术语和短语。在整个具体实施方式中阐述了其他定义。

在整个说明书和权利要求书中，除非上下文另外明确指出，否则以下术语采用本文明确相关的含义。如本文所用的短语“在一个实施方案中”未必是指同一实施方案，但这是可能的。此外，如本文所用的短语“在另一个实施方案中”未必是指不同的实施方案，但这是可能的。因此，如下文所述，在不偏离本发明的范围或精神的情况下，本发明的多个实施方案可容易地组合。

另外，如本文所用，除非上下文另外明确指出，否则术语“或”为包涵性“或”运算符并且等效于术语“和/或”。除非上下文另外明确指出，否则术语“基于”并非排他性并且允许基于未描述的其他因素。另外，在整个本说明书中，“一”和“所述”的含义包括复数个提及物。“在……中”的含义包括“在……中”和“在……上”。

术语“受试者”是指生物有机体如人类或其他动物(例如，猪、牛、小鼠等)等、或植物、细菌、古细菌或病毒。在一些实施方案中，任何具有基因型的实体为受试者。

术语“基因”是指包含产生RNA或多肽或其前体所必需的编码序列的核酸(例如，DNA或RNA)序列。术语“部分”当关于基因使用时是指所述基因的片段。片段的尺寸范围为几个核苷酸至整个基因序列减去一个核苷酸。因此，“包含基因的至少一部分的核苷酸”可包含基因的片段或整个基因。

术语“基因”还涵盖结构基因的编码区域并包括邻近所述编码区域的5′端和3′端定位使每一端的距离为约1kb的序列以使得所述基因对应于全长mRNA的长度。位于编码区域的5′端并且存在于mRNA上的序列被称为5′非翻译序列。位于编码区域的3′端或下游并且存在于mRNA上的序列被称为3′非翻译序列。术语“基因”涵盖cDNA和基因组形式的基因。基因的基因组形式或克隆含有被称为“内含子”或“中间区域”或“中间序列”的非编码序列中断的编码区域。内含子为被转录至核RNA(hnRNA)中的基因的区段；内含子可含有调节元件如增强子。从核或初级转录物中移出或“剪接出”内含子；因此在信使RNA(mRNA)转录物中不存在内含子。mRNA在翻译期间用于指定新生多肽中的氨基酸的序列或次序。

除了含有内含子之外，基因组形式的基因还可包括位于存在于RNA转录物上的序列的5′和3′端上的序列。这些序列被称为“侧翼”序列或区域(这些侧翼序列位于存在于mRNA转录物上的非翻译序列的5′或3′端)。5′侧翼区域可含有控制或影响基因的转录的调节序列如启动子和增强子。3′侧翼区域可含有引导转录的终止、转录后裂解和多聚腺苷酸化的序列。

术语“异源”当关于基因使用时是指编码并非在其天然环境中(即，已经手动改变)的因素的基因。例如，异源基因包括从一个物种引入另一个物种的基因。异源基因还包括已经以一些方式改变(例如，突变、以多个拷贝添加、连接至非天然启动子或增强子序列等)的有机体的天然基因。异源基因可包含包括cDNA形式的基因的基因序列；所述cDNA序列可以正义(以产生mRNA)或反义定向(以产生与mRNA转录物互补的反义RNA转录物)形式表达。异源基因与内源基因的区别在于异源基因序列典型地接合至包含调节元件如启动子的核苷酸序列，所述调节元件未发现与由异源基因编码的蛋白质的基因或与染色体中的基因序列天然缔合，或与自然界中不存在的染色体(例如，在未正常表达的基因的基因座中表达的基因)的部分缔合。

如本文所用，短语“dNTP”意指去氧核苷酸三磷酸酯，其中所述核苷酸为任何核苷酸，例如A、T、C、G或U。

如本文所用，“核酸”应意指任何核酸分子，包括(但不限于)DNA、RNA和其杂交物。形成核酸分子的核酸碱基可为碱基A、C、G、T和U，以及其衍生物。本领域中众所周知这些碱基的衍生物。所述术语应理解为包括由核苷酸类似物构成的DNA或RNA的类似物作为等效物。如本文所用的术语还涵盖cDNA，其为例如通过逆转录酶的作用由RNA模板产生的互补性或拷贝DNA。

术语“所感兴趣的核苷酸序列”或“所感兴趣的核酸序列”是指任何核苷酸序列(例如，RNA或DNA)，其操纵可被认为是出于任何原因(例如，用于分析、用于定量、用于治疗疾病、赋予改进的质量等)为本领域的普通技术人员所需。这些核苷酸序列包括(但不限于)结构基因(例如，报道基因、选择标记基因、致癌基因、耐药性基因、生长因子等)的编码序列，和不编码mRNA或蛋白产物的非编码调节序列(例如，启动子序列、多聚腺苷酸化序列、终止序列、增强子序列等)。

术语“寡核苷酸”或“多核苷酸”或“核苷酸”或“核酸”是指由两个或更多个、优选三个以上并且通常十个以上脱氧核糖核苷酸或核糖核苷酸构成的分子。确切尺寸将取决于许多因素，其转而又取决于寡核苷酸的最终功能或用途。寡核苷酸可以任何方式生成，包括化学合成、DNA复制、逆转录或其组合。当以DNA形式存在时，寡核苷酸可为单链(即正义链)或双链。

术语“互补的”和“互补性”是指与碱基配对规则有关的多核苷酸(例如，核苷酸的序列)。例如，序列5′-A-G-T-3′与序列3′-T-C-A-5′互补。互补性可为“部分的”，其中仅一些核酸碱基是根据碱基配对规则匹配的。或者，在核酸之间可能存在“完全”或“总体”互补性。核酸链之间的互补性程度对于核酸链之间的杂交的效率和强度具有显著影响。这在扩增反应以及取决于核酸之间的结合的检测方法中特别重要。

术语“野生型”当关于基因作出时是指具有从天然存在的来源分离出的基因的特征的基因。术语“野生型”当关于基因产物作出时是指具有从天然存在的来源分离出的基因产物的特征的基因产物。如应用于物体的术语“天然存在”是指物体可以天然存在的事实。例如，在可以从天然来源分离并且尚未在实验室中被人工有意修饰的有机体(包括病毒)中存在的多肽或多核苷酸序列是天然存在的。野生型基因常常为在群体中更频繁观察到并且因此被任意指定为基因的“正常”或“野生型”形式的所述基因。相比之下，术语“修饰的”或“突变的”当关于基因或基因产物作出时分别是指当与野生型基因或基因产物相比时显示序列和/或功能性质的修饰(即，改变的特征)的基因或基因产物。应注意到，天然存在的突变体可以被分离；这些是通过其相比于野生型基因或基因产物具有改变的特征而鉴定。

如本文所用，“等位基因”是指在特定基因座的可选序列；等位基因的长度可能小至1个核苷酸碱基，但典型地更大。等位基因序列可以是氨基酸序列或核酸序列。

如本文所用，“基因座”是一种短序列，其通常是唯一的并且通常通过参考点发现于基因组中的一个特定位置；例如，作为基因或基因的一部分或基因间区域的短DNA序列。在一些实施方案中，基因座是在基因组中特定位置处的唯一PCR产物。基因座可包含一种或多种多态性；即，一些个体中存在可选的等位基因。

因此，术语“变体”和“突变体”当关于核苷酸序列使用时是指与另一种通常相关的核苷酸序列相差一个或多个核苷酸的核酸序列。“变异”是两个不同的核苷酸序列之间的差异；典型地，一个序列为参考序列。

如本文所用，“标记”意指多态性核酸序列或核酸特征。在更宽泛的方面中，“标记”可为可以用于区分有机体之间的遗传差异的可检测特征。此类特征的实例可包括遗传标记、蛋白质组成、蛋白质水平、油组成、油水平、碳水化合物组成、碳水化合物水平、脂肪酸组成、脂肪酸水平、氨基酸组成、氨基酸水平、生物聚合物、药物、淀粉组成、淀粉水平、可发酵淀粉、发酵产率、发酵效率、能量产率、次级化合物、代谢物、形态特征和农艺特征。

如本文所用，“多态性”意指在一名或多名个体的群体中的一个或多个基因座处存在核酸序列的一种或多种变异。所述变异可包含(但不限于)一个或多个碱基变化、一个或多个核苷酸的插入或一个或多个核苷酸的缺失。多态性包括单核苷酸多态性(SNP)、简单序列重复(SSR)和indel(其为插入和缺失)。多态性可能由以下产生：核酸复制中的随机过程；通过诱变；由于移动基因组元件；拷贝数变异；以及在减数分裂过程中，例如不等交换、基因组重复和染色体断裂和融合。变异可能通常存在或可能以低频率存在于群体内，前者更多用于一般植物育种中，而后者可能与罕见但重要的表型变异相关。在一些实施方案中，“多态性”是个体之间在序列、特别是DNA序列或特征如转录分布谱或甲基化模式方面的变异。有用的多态性包括单核苷酸多态性(SNP)、DNA序列中的插入或缺失(indel)、DNA序列的简单序列重复(SSR)、限制片段长度多态性、单倍型以及标签SNP。遗传标记、基因、DNA衍生序列、RNA衍生序列、启动子、基因的5′非翻译区域、基因的3′非翻译区域、微RNA、siRNA、QTL、卫星标记、转基因、mRNA、ds mRNA、转录分布谱以及甲基化模式可包含多态性。

术语“多态性基因座”是指在群体成员之间显示变异的群体中存在的遗传基因座。

术语“检测测定法”是指用于检测特定基因的给定等位基因中野生型或变体核酸序列(例如，突变或多态性)的存在或不存在、或用于检测特定蛋白质的存在或不存在或者特定蛋白质的活性或作用、或用于检测特定蛋白质的变体的存在或不存在的测定法。

如本文所用，“分型”是指用以测定给定玉米基因组多态性的特定等位基因形式的任何方法。例如，通过测定存在何种核苷酸(例如，A、G、T或C)对单核苷酸多态性(SNP)进行分型。通过测定是否存在indel来确定插入/缺失(indel)。可以通过包括(但不限于)标记测定法的多种测定法来对indel进行分型。

如本文所用，术语“单核苷酸多态性”(也由缩写“SNP”提及)意指在单个位点处的多态性，其中所述多态性构成单个碱基对变化、一个或多个碱基对的插入、或一个或多个碱基对的缺失。

如本文所用，“基因型”意指表型的遗传组成部分并且其可以使用标记间接表征或通过核酸测序直接表征。合适的标记包括表型性状、代谢分布谱、遗传标记或一些其他类型的标记。基因型可构成至少一个遗传标记基因座的等位基因或至少一个单倍型窗口的单倍型。在一些实施方案中，基因型可表示单一基因座，而在其他实施方案中，其可表示基因座的全基因组集合。在另一个实施方案中，基因型可以反映染色体的一部分、整个染色体、基因组的一部分和整个基因组的序列。

如本文所用，“表型”意指作为基因表达的表现的细胞或有机体的可检测特征。

如本文所用，“条形码”一般应意指被用作用于标记DNA片段和/或文库的标签和用于构建多重化文库的虚拟或已知的核苷酸序列。文库包括(但不限于)基因组DNA文库、cDNA文库和ChIP文库。可将多个DNA(其中每一者用不同的条形码单独标记)汇集在一起以形成多重化条形码标记文库以用于同时进行测序，其中每个条形码是与位于同一构建体中的其侧翼标签一起测序并且从而用作由其标记的DNA片段和/或文库的标签。在一些实施方案中，条形码是由具有1、2、3、4、5、6或更多个核苷酸的长度的特定核苷酸序列构成。条形码的长度可随着测序仪的最大测序长度而增加。术语“条形码标记衔接子”和“条形码标记衔接子序列”可互换。术语“条形码”和“条形码序列”可互换。

如本文所用，“虚拟”一般应意指并非实际形式但存在或产生影响。

如本文所用，“标签”一般应意指独特的或鉴定性标记或特征。

如本文所用，“限制性内切酶识别位点”和“限制性内切酶结合位点”可互换。

“扩增”是涉及模板特异性的核酸复制的特殊情况。它与非特异性模板复制(即，与模板有关但不依赖于特定模板的复制)形成对比。这里的模板特异性区别于复制(即，适当的多核苷酸序列的合成)的保真度和核苷酸(核糖核苷酸或脱氧核糖核苷酸)特异性。常常在“靶标”特异性方面描述模板特异性。靶标序列是在寻求从其他核酸中分类出来的意义上的“靶标”。已经主要针对这种分类设计了扩增技术。

术语“引物”是指在纯化的限制性消化中天然存在或者合成产生的寡核苷酸，其当置于诱导与核酸链互补的引物延伸产物的合成的条件下(即，在核苷酸和诱导剂如DNA聚合酶存在下并且在合适的温度和pH下)时能够充当合成起始点。对于最大扩增效率，引物优选为单链的，但可选地可为双链的。如果是双链的，则引物在被用于制备延伸产物之前首先被处理以分离其链。引物优选为寡聚脱氧核糖核苷酸。引物必须足够长以在诱导剂的存在下引起延伸产物的合成。引物的确切长度将取决于许多因素，包括温度、引物来源和方法的使用。

引物设计领域的普通技术人员应认识到，给定引物无需以100％互补性杂交以引起互补性核酸链的合成。引物对序列可为若干比对序列间的“最适合者”，因此它们无需与比对中的任一个序列的杂交区域完全互补。此外，引物可与一个或多个区段杂交以使得中间或相邻区段不牵涉于杂交事件中(例如，环结构或发夹结构)。引物可包含与所感兴趣的靶标核酸的至少70％、至少75％、至少80％、至少85％、至少90％、至少95％或至少99％序列同一性。因此，在一些实施方案中，相对于本文公开的特定引物序列，变化范围为70％至100％或在其中的任何范围的序列同一性是可能的。为进行说明，序列同一性的测定描述于以下实例中：与具有两个不相同残基的另一种20个核碱基引物相同的长度为20个核碱基的引物具有18/20个相同的残基(18/20＝0.9或90％序列同一性)。在另一个实例中，具有与长度为20个核碱基的引物的15个核碱基区段相同的所有残基的长度为15个核碱基的引物将与20个核碱基的引物具有15/20＝0.75或75％序列同一性。同一性百分比无需为整数，例如当28个连续核碱基的引物与31个连续核碱基的引物完全相同时(28/31＝0.9032或90.3％同一性)。

可以例如通过使用默认设置的Gap程序(Wisconsin SequenceAnalysis Package，第8版，Unix，Genetics Computer Group，UniversityResearch Park，Madison WI)来测定同源性百分比、序列同一性或互补性，所述程序使用Smith和Waterman的算法(Adv.Appl.Math.，1981，2，482-489)。在一些实施方案中，引物关于病毒核酸的保守引发区域的互补性介于约70％与约80％之间。在其他实施方案中，同源性、序列同一性或互补性介于约80％与约90％之间。在其他实施方案中，同源性、序列同一性或互补性为至少90％、至少92％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％。

在一些实施方案中，本文所述的引物包含与本文具体公开的引物序列的至少70％、至少75％、至少80％、至少85％、至少90％、至少92％、至少94％、至少95％、至少96％、至少98％或至少99％或100％(或落在其中的任何范围)的序列同一性。

在一些实施方案中，任何给定引物包含包括向引物的5′端添加非模板化T残基的修饰(即，所添加的T残基未必与所扩增的核酸杂交)。由于例如Taq DNA聚合酶的非特异性酶活性(Magnuson等，Biotechniques，1996：21，700-709)，非模板化T残基的添加具有使非模板化A残基的添加降至最少的作用，所述聚合酶的存在可能导致由分子质量分析产生的模糊的结果。

引物可能含有一个或多个通用碱基。因为物种间保守区域中的任何变异(由于第三位置中的密码子摆动)可能出现在DNA(或RNA)三联体的第三个位置，所以可以设计寡核苷酸引物以使得对应于这个位置的核苷酸为可以结合于一个以上核苷酸的碱基，本文称为“通用核碱基”。例如，在这种“摆动”碱基配对下，肌苷(I)结合于U、C或A；鸟嘌呤(G)结合于U或C，并且尿嘧啶(U)结合于U或C。通用核碱基的其他实例包括硝基吲哚如5-硝基吲哚或3-硝基吡咯(Loakes等，Nucleosides and Nucleotides，1995，14，1001-1003)、简并核苷酸dP或dK、含有5-硝基吲唑的非环状核苷类似物(Van Aerschot等，Nucleosides and Nucleotides.，1995，14，1053-1056)或嘌呤类似物1-(2-脱氧-β-D-呋喃核糖基)-咪唑-4-甲酰胺(Sala等，Nucl.Acids Res.，1996，24，3302-3306)。

在一些实施方案中，为了补偿摆动碱基的较弱结合，将寡核苷酸引物配置以使得每个三联体的第一和第二位置被以相比于未修饰核苷酸更大的亲和力结合的核苷酸类似物占据。这些类似物的实例包括(但不限于)结合于胸腺嘧啶的2，6-二氨基嘌呤、结合于腺嘌呤的5-丙炔基尿嘧啶以及结合于G的5-丙炔基胞嘧啶和吩噁嗪(包括G形夹(G-clamp))。丙炔基化嘧啶描述于美国专利No.5,645,985、5,830,653和5,484,908中，其以全文引用的方式并入本文中。丙炔基化引物描述于美国专利申请公开No.2003-0170682中，其以全文引用的方式并入本文中。吩噁嗪描述于美国专利No.5,502,177、5,763,588和6,005,096中，其各自以全文引用的方式并入本文中。G形夹描述于美国专利No.6,007,992和6,028,183中，其各自以全文引用的方式并入本文中。

术语“分离的”当如在“分离的寡核苷酸”中关于核酸使用时是指从在天然来源中通常相缔合的至少一种污染核酸中鉴定并分离的核酸序列。分离的核酸以不同于其在自然界中所存在的形式或设置存在。相比之下，发现非分离的核酸如DNA和RNA呈其在自然界中存在的状态。非分离的核酸的实例包括：存在于宿主细胞染色体上接近于邻接基因的给定DNA序列(例如，基因)；RNA序列，例如编码特定蛋白质的特定mRNA序列，其以与众多其他编码大量蛋白质的mRNA的混合物形式存在于细胞中。然而，编码特定蛋白质的分离核酸包括例如通常表达蛋白质的细胞中的此类核酸，其中所述核酸处于与天然细胞不同的染色体位置，或者以其他方式侧接不同于自然界中所存在核酸序列的核酸序列。分离核酸或寡核苷酸可以单链或双链形式存在。当利用分离核酸或寡核苷酸来表达蛋白质时，寡核苷酸将至少包含正义链或编码链(即，寡核苷酸可为单链的)，但可能包含正义链与反义链(即，寡核苷酸可为双链的)。

术语“纯化”是指从其天然环境中移出、分离或分开的核酸或氨基酸序列分子。“分离的核酸序列”因此可为纯化的核酸序列。“基本上纯化的”分子是至少60％、优选至少75％以及更优选至少90％不含与其天然缔合的其他成分。如本文所用，术语“纯化的”或“以纯化”还指从样本中除去污染物。污染蛋白质的除去导致样本中所感兴趣的多肽的百分比增加。在另一个实例中，重组多肽表达于植物、细菌、酵母或哺乳动物宿主细胞中并且通过除去宿主细胞蛋白质来纯化多肽；从而增加了样本中重组多肽的百分比。

术语“组合物包含”给定多核苷酸序列广义地是指任何含有给定多核苷酸序列的组合物。所述组合物可包含例如含有盐(例如，NaCl)、清洁剂(例如，SDS)和其他成分的水溶液。

术语“样本”以其最宽泛意义使用。在某种意义上，它可能指动物细胞或组织。在另一种意义上，其欲包括从任何来源获得的标本或培养物，以及生物和环境样本。生物样本可获自植物或动物(包括人类)并涵盖流体、固体、组织和气体。环境样本包括环境材料如表面物质、土壤、水和工业样本。这些实例不应理解为限制可应用于本发明的样本类型。

本技术的实施方案

在一个方面，本技术提供通过测序进行基因分型的方法。例如，在一些实施方案中，在一个或多个基因座、标记、SNP或所感兴趣的其他位点对多个DNA进行测序。所述方法提供：在适当的消化条件下，在适当的缓冲液(例如，市售缓冲液(例如，如由NEB供应))中，用限制性内切酶消化DNA，例如用一种或多种限制性内切酶(例如，NspI和/或BfuCI)消化包含10ng、100ng、1000ng等的基因组DNA(在一些实施方案中，被RNA酶处理的DNA)的样本。在消化之后，将所消化片段连接至单链条形码标记(标签标记)寡核苷酸，例如如表1中所提供。在一些实施方案中，将例如如表2中所提供的第二寡核苷酸连接至所消化片段的另一端。

表1：条形码寡核苷酸序列

条形码寡核苷酸包含每一个条形码寡核苷酸的共同序列、每一个条形码寡核苷酸独有的条形码序列，以及与由限制性内切酶产生的单链端互补的序列。在一些实施方案中，第二寡核苷酸包含与由第二限制性内切酶产生的单链端互补的序列，或者在一些实施方案中与接近或邻接所感兴趣的靶标位点(例如，标记、SNP、等位基因、基因座、多态位点等)的序列互补的序列。在一些实施方案中，条形码寡核苷酸包含硫代磷酸酯键，例如，在表1中所提供的序列中的5′A之后。

表2：第二(非条形码)寡核苷酸序列

星号(*)表示硫代磷酸酯键并且P-表示5′-磷酸化

在一些实施方案中，将多个连接样本(例如，来自多个受试者、样本、来源、BAC等)混合以提供汇集样本。在一些实施方案中，将样本纯化以从可能抑制方法的后续步骤的先前反应中除去污染物或成分(例如，盐、酶)。在一些实施方案中，使用商业试剂盒例如QiaquickPCR纯化试剂盒(Qiagen，目录#28106或目录#28104)进行纯化。在一些实施方案中，例如使用AMPure珠粒(Agencourt，Beckman Coulter)对样本进行尺寸选择，例如以使样本富集尺寸大于250bp的片段。

在一些实施方案中，汇集样本中的DNA包含多个标记、SNP、基因座、靶标位点、BAC等。因此，在一些实施方案中，使用一个或多个靶标选择引物与共同引物的组合的扩增(例如，PCR)选择一个或多个靶标位点用于进一步分析(例如，通过使靶标位点特定富集在样本DNA中)。在一些实施方案中扩增引物包含硫代磷酸酯键。

在一些实施方案中，通过多种方法中的任一种来分析和表征核酸分子，所述方法包括(但不限于)测序、杂交分析、扩增(例如，通过聚合酶链反应(PCR)、逆转录聚合酶链反应(RT-PCR)、转录介导的扩增(TMA)、连接酶链反应(LCR)、链置换扩增(SDA)和基于核酸序列的扩增(NASBA))。

最后，在一些实施方案中，例如通过使用如表3中所示的引物1.1和final3，对样本进行另一次扩增以产生适于测序的样本。在一些实施方案中扩增引物包含硫代磷酸酯键。

表3：扩增寡核苷酸

星号(*)表示硫代磷酸酯键

在一些实施方案中，本技术使用测序技术。在一些方面，与本技术相关的DNA测序方法包含第二代(也称为新一代或Next-Gen)、第三代(也称为Next-Next-Gen)或第四代(也称为N3-Gen)测序技术，其包括(但不限于)焦磷酸测序、通过连接测序、单分子测序、通过合成测序(SBS)、大规模并行克隆、大规模并行单分子SBS、大规模并行单分子实时、大规模并行单分子实时纳米孔技术等。Morozova和Marra在Genomics，92：255(2008)中提供了一些此类技术的评述，其以全文引用的方式并入本文中。本领域的普通技术人员应认识到，因为RNA在细胞中不够稳定并且更易于在实验上受核酸酶攻击，所以通常在测序之前将RNA逆转录为DNA。

多种DNA测序技术是本领域中已知的，包括基于荧光的测序方法(参见例如Birren等，Genome Analysis：Analyzing DNA，1，ColdSpring Harbor，N.Y.；以全文引用的方式并入本文中)。在一些实施方案中，利用本领域中所了解的自动化测序技术。在一些实施方案中，本技术提供分区扩增子的并行测序(Kevin McKernan等的PCT公开No：WO2006084132，以全文引用的方式并入本文中)。在一些实施方案中，通过并行寡核苷酸延伸实现DNA测序(参见例如Macevicz等的美国专利No.5,750,341和Macevicz等的美国专利No.6,306,597，其都以全文引用的方式并入本文中)。测序技术的其他实例包括Church聚合酶克隆(polony)技术(Mitra等，2003，AnalyticalBiochemistry 320，55-65；Shendure等，2005 Science 309，1728-1732；美国专利No.6,432,360、美国专利No.6,485,944、美国专利No.6,511,803；以全文引用的方式并入本文中)、454picotiter焦磷酸测序技术(Margulies等，2005 Nature 437，376-380；US 20050130173；以全文引用的方式并入本文中)、Solexa单碱基添加技术(Bennett等，2005，Pharmacogenomics，6，373-382；美国专利No.6,787,308；美国专利No.6,833,246；以全文引用的方式并入本文中)、Lynx大规模并行信号测序技术(Brenner等，(2000).Nat.Biotechnol.18：630-634；美国专利No.5,695,934；美国专利No.5,714,330；以全文引用的方式并入本文中)，以及Adessi PCR群落技术(Adessi等，(2000).Nucleic Acid Res.28，E87；WO 00018957；以全文引用的方式并入本文中)。

新一代测序(NGS)方法共有大规模并行高通量策略的共同特征，其目标是相比于较老的测序方法降低成本(参见例如Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol，7：287-296；其各自以全文引用的方式并入本文中)。NGS方法可以大致分为典型地使用模板扩增者和不使用模板扩增者。需要扩增的方法包括由Roche以454技术平台(例如，GS 20和GS FLX)商业化的焦磷酸测序、由Illumina商业化的Solexa平台，以及由AppliedBiosystems商业化的负载寡核苷酸连接和检测(SOLiD)平台。非扩增方法(也称为单分子测序)由以下示例：由Helicos Biosciences商业化的HeliScope平台，以及分别由VisiGen、Oxford Nanopore TechnologiesLtd.、Life Technologies/Ion Torrent和Pacific Biosciences商业化的新兴平台。

在焦磷酸测序中(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol.，7：287-296；美国专利No.6,210,891；美国专利No.6,258,568；各自以全文引用的方式并入本文中)，将模板DNA片段化，末端配对，连接至衔接子，并且通过用带有与衔接子互补的寡核苷酸的珠粒捕捉单模板分子而原位克隆扩增。将每个带有单一模板类型的珠粒划分成油包水微泡，并且使用被称为乳液PCR的技术克隆扩增模板。在扩增后乳液被破坏并且在测序反应期间珠粒沉积在充当流动池的picotitre板的单独的孔中。在测序酶和发光报道体如荧光素酶的存在下在流动池中出现四种dNTP试剂各自的有序迭代引入。在将适当的dNTP添加至测序引物的3′端的情况下，所得ATP的产生造成孔内发光的爆发，这使用CCD相机进行记录。有可能实现大于或等于400个碱基的读段长度，并且可以实现10⁶个序列读段，产生高达5亿个序列碱基配对(Mb)。

在Solexa/Illumina平台中(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol.，7：287-296；美国专利No.6,833,246；美国专利No.7,115,400；美国专利No.6,969,488；各自以全文引用的方式并入本文中)，以较短长度读段形式产生测序数据。在这种方法中，将单链片段化DNA末端配对以生成5′-磷酸化钝端，接着向所述片段的3′端进行单一A碱基的Klenow介导性添加。A添加促进了T突出端衔接子寡核苷酸的添加，随后其被用于捕捉布满了寡核苷酸锚的流动池的表面上的模板-衔接子分子。锚被用作PCR引物，但由于模板的长度和其接近于其他邻近的锚寡核苷酸，利用PCR的延伸导致分子的“拱起物(arching over)”与相邻的锚寡核苷酸杂交以在流动池的表面上形成桥结构。DNA的这些环变性并裂解。然后用可逆的染料终止子对正向链进行测序。通过检测并入后荧光来测定所并入的核苷酸的序列，其中在dNTP添加的下次循环之前除去各荧光剂和封阻剂。序列读段长度范围为36个核苷酸至50个以上的核苷酸，其中每次分析操作的总输出超过10亿个核苷酸对。

使用SOLiD技术(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，Nature Rev.Microbiol.，7：287-296；美国专利No.5,912,148；美国专利No.6,130,073；各自以全文引用的方式并入本文中)对核酸分子进行测序还涉及模板的片段化、连接至寡核苷酸衔接子、附着至珠粒，以及通过乳液PCR进行克隆扩增。此后，将带有模板的珠粒固定在玻璃流动池的衍生表面上，并且将与衔接子寡核苷酸互补的引物退火。然而，并非利用这种引物用于3′延伸，而是将其用于提供5′磷酸酯基以供连接至探询探针(interrogation probe)，所述探询探针含有两个探针特异性碱基，接着是6个简并碱基和四种荧光标记之一。在SOLiD系统中，探询探针具有在每个探针的3′端的两个碱基与5′端的四种荧光剂之一的16种可能的组合。荧光颜色以及因此每个探针的身份对应于指定的颜色空间编码方案。多轮(通常是7轮)的探针退火、连接和荧光检测之后接着是变性，然后使用相对于初始引物偏差一个碱基的引物进行第二轮测序。以这种方式，可以在计算上重新构建模板序列，并且将模板碱基探询两次，从而导致准确度增加。序列读段长度平均为35个核苷酸，并且每次测序操作总输出超过40亿个碱基。

在某些实施方案中，使用纳米孔测序(参见例如Astier等，J.Am.Chem.Soc.2006年2月8日；128(5)：1705-10，以引用的方式并入本文中)。纳米孔测序所基于的理论与当纳米孔被浸在导电流体中并且在其上施加电位(电压)时发生的事件有关。在这些条件下，可以观察到由于离子传导通过纳米孔而产生的微小电流，并且电流量对于纳米孔的尺寸极其敏感。作为通过纳米孔的核酸的每个碱基，这造成通过纳米孔的电流量值改变，这对于四种碱基中的每一种是不同的，从而允许测定DNA分子的序列。

在某些实施方案中，使用Helicos Biosciences的HeliScope(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，NatureRev.Microbiol，7：287-296；美国专利No.7,169,560；美国专利No.7,282,337；美国专利No.7,482,120；美国专利No.7,501,245；美国专利No.6,818,395；美国专利No.6,911,345；美国专利No.7,501,245；各自以全文引用的方式并入本文中)。将模板DNA片段化并且在3′端多聚腺苷酸化，其中最后的腺苷带有荧光标记。将变性的多聚腺苷酸化模板片段连接至流动池表面上的聚(dT)寡核苷酸。通过CCD相机记录所捕获模板分子的初始物理位置，然后使标记裂解并洗去。通过添加聚合酶和连续添加荧光标记的dNTP试剂来实现测序。并入事件产生对应于dNTP的荧光信号，并且在每一轮的dNTP添加之前通过CCD相机捕获信号。序列读段长度范围为25-50个核苷酸，其中每次分析操作总输出超过10亿个核苷酸对。

Ion Torrent技术是基于检测在DNA聚合期间释放的氢离子的DNA测序方法(参见例如Science 327(5970)：1190(2010)；美国专利申请公开No.20090026082、20090127589、20100301398、20100197507、20100188073和20100137143，其出于所有目的以全文引用的方式并入)。微孔含有待测序的模板DNA链。微孔层下是超灵敏性ISFET离子传感器。所有的层都包含在CMOS半导体芯片内，与电子工业中所用类似。当将dNTP并入生长的互补链中时，释放出氢离子，其触发超灵敏性离子传感器。如果在模板序列中存在均聚物重复序列，则单个周期中将并入多个dNTP分子。这导致相应数目的释放氢和比例较高的电子信号。这种技术与其他测序技术的不同之处在于不使用修饰的核苷酸或光学元件。对于50个碱基读段，Ion Torrent测序仪的每个碱基准确度为约99.6％，其中每次操作产生约100Mb。读段长度为100个碱基对。长度为5个重复序列的均聚物重复序列的准确度为约98％。离子半导体测序的益处是快速测序速度和低的前期成本和运营成本。然而，获取pH介导性测序仪的成本为约$50,000，不包括样本制备设备和用于数据分析的服务器。

可适于本发明使用的另一种示例性核酸测序方法是由StratosGenomics，Inc.开发的并且涉及使用Xpandomer。这种测序方法典型地包括提供由模板引导合成产生的子链。所述子链一般包括在对应于靶标核酸的全部或一部分的连续核苷酸序列的序列中耦合的多个亚单元，其中单独的亚单元包含连接臂、至少一个探针或核碱基残基，和至少一个可选择性裂解的键。所述可选择性裂解的键裂解得到长度长于子链的多个亚单元的Xpandomer。所述Xpandomer典型地包括连接臂和用于解析对应于靶标核酸的全部或一部分的连续核苷酸序列的序列中的遗传信息的报道元件。然后检测Xpandomer的报道元件。关于基于Xpandomer的方法的其他细节描述于例如2008年6月19日提交的名称为“HIGH THROUGHPUT NUCLEIC ACIDSEQUENCING BY EXPANSION”的美国专利公开No.20090035777中，所述专利公开以全文并入本文中。

其他新兴的单分子测序方法包括通过使用VisiGen平台进行合成的实时测序(Voelkerding等，Clinical Chem.，55：641-58，2009；美国专利No.7,329,492；美国专利申请Ser.No.11/671956；美国专利申请Ser.No.11/781166；各自以全文引用的方式并入本文中)，其中使用荧光修饰的聚合酶和荧光受体分子对固定的引发性DNA模板进行链延伸，从而在核苷酸添加时产生可检测的荧光共振能量转移(FRET)。

由Pacific Biosciences开发的另一种实时单分子测序系统(Voelkerding等，Clinical Chem.，55：641-658，2009；MacLean等，NatureRev.Microbiol，7：287-296；美国专利No.7,170,050；美国专利No.7,302,146；美国专利No.7,313,308；美国专利No.7,476,503；其全部以引用的方式并入本文中)利用直径为50-100nm并涵盖反应体积为约20仄升(10^-21L)的反应孔。使用固定化模板、被修饰的phi29 DNA聚合酶和高局部浓度的荧光标记的dNTP进行测序反应。高局部浓度和连续反应条件允许通过使用激光激发、光波导和CCD相机的荧光信号检测来实时捕获并入事件。

在某些实施方案中，使用由Pacific Biosciences开发的使用零模式波导(ZMW)的单分子实时(SMRT)DNA测序方法或类似的方法。利用这种技术，在SMRT芯片上进行DNA测序，每个芯片含有数千个零模式波导(ZMW)。ZMW是直径为数十纳米的孔，其在沉积于二氧化硅衬底上的100nm金属膜中制造。每个ZMW变成纳米光子可视化腔室，其提供仅20仄升(10^-21L)的检测体积。在这个体积下，可以在数千个标记核苷酸的背景中检测单分子的活性。ZMW提供用于观察DNA聚合酶在其通过合成进行测序时的窗口。在每个腔室内，将单个DNA聚合酶分子附着至底部表面以使得其永久驻留在检测体积内。然后将磷酸连接的核苷酸(每种类型标记有不同颜色的荧光团)以促进酶速度、准确度和持续合成能力的高浓度引入反应溶液中。由于ZMW的小尺寸，即使在这些高的生物学相关浓度下，检测体积也仅在一小部分时间内被核苷酸占据。另外，由于必须携带核苷酸扩散的距离非常小，因此对于检测体积的访问很快，仅持续几微秒。结果是非常低的背景。

可适于本发明使用的此种实时测序的方法和系统描述于例如2008年7月29日颁予Xu等的名称为“Fluorescent nucleotide analogsand uses therefor”的美国专利No.7,405,281；2008年1月1日颁予Turner等的名称为“Arrays of optical confinements and uses thereof”的美国专利No.7,315,019；2007年12月25日颁予Turner等的名称为“Optical analysis of molecules”的美国专利No.7,313,308；2007年11月27日颁予Turner等的名称为“Apparatus and method foranalysis of molecules”的美国专利No.7,302,146；和2007年1月30日颁予Turner等的名称为“Apparatus and methods for optical analysisof molecules”的美国专利No.7,170,050；以及2007年10月26日由Lundquist等提交的名称为“Methods and systems for simultaneousreal-time monitoring of optical signals from multiple sources”的美国专利公开No.20080212960；2007年10月26日由Williams等提交的名称为“Flowcell system for single molecule detection”的美国专利公开No.20080206764；2007年10月26日由Hanzel等提交的名称为“Active surface coupled polymerases”的美国专利公开No.20080199932；2008年2月11日由Otto等提交的名称为“CONTROLLABLE STRAND SCIS SION OF MINI CIRCLE DNA”的美国专利公开No.20080199874；2007年10月26日由Rank等提交的名称为“Articles having localized molecules disposed thereon andmethods of producing same”的美国专利公开No.20080176769；2007年10月31日由Eid等提交的名称为“Mitigation of photodamage inanalytical reactions”的美国专利公开No.20080176316；2007年10月31日由Eid等提交的名称为“Mitigation of photodamage in analyticalreactions”的美国专利公开No.20080176241；2007年10月26日由Lundquist等提交的名称为“Methods and systems for simultaneousreal-time monitoring of optical signals from multiple sources”的美国专利公开No.20080165346；2007年10月31日由Korlach等提交的名称为“Uniform surfaces for hybrid material substrates and methods formaking and using same”的美国专利公开No.20080160531；2007年10月26日由Lundquist等提交的名称为“Methods and systems forsimultaneous real-time monitoring of optical signals from multiplesources”的美国专利公开No.20080157005；2007年10月31日由Rank等提交的名称为“Articles having localized molecules disposedthereon and methods of producing same”的美国专利公开No.20080153100；2007年10月26日由Williams等提交的名称为“CHARGE SWITCH NUCLEOTIDES”的美国专利公开No.20080153095；2007年10月31日由Lundquist等提交的名称为“Substrates，systems and methods for analyzing materials”的美国专利公开No.20080152281；2007年10月31日由Lundquist等提交的名称为“Substrates，systems and methods for analyzing materials”的美国专利公开No.20080152280；2007年10月31日由Korlach提交的名称为“Uniform surfaces for hybrid material substrates and methods formaking and using same”的美国专利公开No.20080145278；2007年8月31日由Lundquist等提交的名称为“SUBSTRATES，SYSTEMSAND METHODS FOR ANALYZING MATERIALS”的美国专利公开No.20080128627；2007年10月22日由Rank等提交的名称为“Polymerase enzymes and reagents for enhanced nucleic acid sequencing”的美国专利公开No.20080108082；2007年6月11日由Foquet等提交的名称为“SUBSTRATES FOR PERFORMING ANALYTICALREACTIONS”的美国专利公开No.20080095488；2007年9月27日由Dixon等提交的名称为“MODULAR OPTICAL COMPONENTSAND SYSTEMS INCORPORATING SAME”的美国专利公开No.20080080059；2007年8月14日由Korlach等提交的名称为“Articleshaving localized molecules disposed thereon and methods of producingand using same”的美国专利公开No.20080050747；2007年3月29日由Rank等提交的名称为“Articles having localized moleculesdisposed thereon and methods of producing same”的美国专利公开No.20080032301；2007年2月9日由Lundquist等提交的名称为“Methods and systems for simultaneous real-time monitoring of opticalsignals from multiple sources”的美国专利公开No.20080030628；2007年6月15日由Lyle等提交的名称为“CONTROLLEDINITIATION OF PRIMER EXTENSION”的美国专利公开No.20080009007；2006年3月30日由Rank等提交的名称为“Articleshaving localized molecules disposed thereon and methods of producingsame”的美国专利公开No.20070238679；2006年3月31日由Korlach等提交的名称为“Methods，systems and compositions formonitoring enzyme activity and applications thereof”的美国专利公开No.20070231804；2007年2月9日由Lundquist等提交的名称为“Methods and systems for simultaneous real-time monitoring of opticalsignals from multiple sources”的美国专利公开No.20070206187；2006年12月21日由Hanzel等提交的名称为“Polymerases fornucleotide analogue incorporation”的美国专利公开No.20070196846；2006年7月7日由Lundquist等提交的名称为“Methods and systemsfor simultaneous real-time monitoring of optical signals from multiplesources”的美国专利公开No.20070188750；2006年12月1日由Eid等提交的名称为“MITIGATION OF PHOTODAMAGE INANALYTICAL REACTIONS”的美国专利公开No.20070161017；2006年11月3日由Turner等提交的名称为“Nucleotide Compositionsand Uses Thereof”的美国专利公开No.20070141598；2006年11月27日由Korlach等提交的名称为“Uniform surfaces for hybrid materialsubstrate and methods for making and using same”的美国专利公开No.20070134128；2005年12月2日由Eid等提交的名称为“Mitigation ofphotodamage in analytical reactions”的美国专利公开No.20070128133；2005年9月30日由Roitman等提交的名称为“Reactive surfaces，substrates and methods of producing same”的美国专利公开No.20070077564；2005年9月29日由Xu等提交的名称为“Fluorescent nucleotide analogs and uses therefore”的美国专利公开No.20070072196；和2005年8月11日由Lundquist等提交的名称为“Methods and systems for monitoring multiple optical signals from asingle source”的美国专利公开No.20070036511；以及Korlach等，(2008)“Selective aluminum passivation for targeted immobilization ofsingle DNA polymerase molecules in zero-mode waveguidenanostructures”PNAS 105(4)：1176-81，其全部以全文引用的方式并入本文中。

随后，在一些实施方案中，所产生的数据包含来自多个条形码标记DNA的序列数据。使用条形码与DNA来源之间的已知关联，可以将数据解卷积以向源受试者、样本、有机体等指定序列。在一些实施方案中，将序列定位至参考DNA序列(例如，染色体)并且例如通过例如用Hidden Markov模型进行模拟而对源受试者、样本、有机体等指定基因型。

一些实施方案提供处理器、数据存储、数据传输和包含指令的软件来指定基因型。本文提供的技术的一些实施方案进一步包含用于收集、存储和/或分析数据的功能。例如，一些实施方案包含使用处理器、内存和/或用于例如存储和执行指令、分析数据、使用数据进行计算、转换数据和存储数据的数据库。在一些实施方案中，将所述处理器配置以计算从所确定的序列和/或基因型得到的数据的功能。在一些实施方案中，处理器执行被配置用于医学或临床结果报告的软件中的指令并且在一些实施方案中处理器执行软件中的指令以支持非临床结果报告。

许多基因分型测试涉及测定多种基因型的存在或不存在，或测量多种基因型的量，以及包含表示多种基因型的性质的变量的方程式产生可用于进行诊断或评估基因型的存在或量的值。因此，在一些实施方案中，所述软件计算这个值，并且在一些实施方案中向使用者呈现所述值，使用所述值来产生与结果有关的指标(例如，LED、LCD上的图标、声音等)，存储所述值，传输所述值，或使用所述值用于其他计算。

在一些实施方案中，使用处理器来起始和/或终止测序和数据收集。在一些实施方案中，提供包含用户界面(例如，键盘、按钮、拨号盘、开关等)用于接收由处理器用于确定一种或多种基因型的用户输入的装置或系统。在一些实施方案中，所述装置进一步包含用于向外部目标例如计算机、显示器、网络和/或外部存储介质传送(例如，通过有线或无线连接)数据的数据输出。

不同的应用需要不同数目的标记。因此，所述技术例如可用于大群体的基因分型中，其中一种可提供“可调节”数目的遗传标记，例如在育种应用中(回交、QTL的鉴定、关联定位)，以及用于IP(优良品种)的保护和亲子鉴定和取证。另外，所述方法的实施方案可用于向多种样本中的每一种有效添加单独的DNA条形码(标签)以提供高程度的多重化。所述技术可用于涉及多种汇集的环境样本的实验中，例如以鉴定多种环境中存在的有机体(例如，来自多个人类的内脏、不同的水样本等)。在对此类样本进行昂贵的实验之前，所述技术可用于生物样本(例如，细胞系)的质量控制。

另外，所提供的条形码标记涉及基因组测序。传统上使用Sanger技术对基因组进行BAC-by-BAC测序。这种方法可以为复杂的基因组提供高质量的装配。最近，已经使用由新一代测序(NGS)技术实现的“全基因组鸟枪法”(WGS)对基因组进行测序。这种方法基本上比传统的基于BAC的有序方法更廉价，但以装配质量为代价。本文提供的技术可用于组合BAC-by-BAC测序的解析与NGS的效率。例如，消化单独的BAC并使用技术(例如，如由下文示例性方法所实施)进行条形码标记，然后汇集用于测序。在测序后，将各BAC单独装配。通过序列比较鉴定BAC之间的重叠，因此消除了生成BAC的“最低矩形路径”的需求。使用WGS数据填充BAC内的序列间隔。

虽然本文的公开内容是指某些说明性实施方案，但应了解这些实施方案是通过举例的方式而非限制的方式呈现的。

实施例

方法1-可调节GBS

新一代测序使得研究人员能够以较低成本获得大量的数据并因此对于深入地对个体进行基因分型提供巨大的机会。本文提供一种进行限制性内切酶消化、接着单链寡核苷酸连接以对DNA来源进行条形码标记(例如，标签标记)的方法。使用在每个消化片段的每个末端产生具有不同突出端的两个位点的两种限制性内切酶。一个位点与“条形码”寡核苷酸连接以允许样本在测序期间的多重化。另一个位点与不具有“条形码”的寡核苷酸连接。通过在扩增程序期间在非条形码位点上进行引物选择来进一步减少靶向位点数目。参见图1和图3。

1.消化

100-200ng基因组DNA(RNA酶处理)

3μl 10×NEB缓冲液4

3μl 10×BSA

0.8μl NspI

1μl BfuCI

无菌H₂O至30μl

在37℃下温育1.5小时

2.连接

在温育1.5小时后，向基因组DNA消化反应物中添加30μl连接溶液：

1.5-2.0μl条形码寡核苷酸(例如，来自nspIxx或Nxx系列)(50-100μM)

1.5-2.0μl非条形码寡核苷酸(例如，bfuci12mm、s-SEO15等)(50-100μM)

3μl 10×连接酶缓冲液

1-1.5μl T4 DNA连接酶

无菌水至30μl

现在每个反应物的总体积为60μl。在20℃下温育1.5小时，然后在80℃下温育20分钟以使酶失活。

3.纯化

1)汇集所有连接的样品(各60μl)并将其完全均匀混合

2)例如在两个Qiagen柱中等分1.5ml以用于纯化

3)遵循制造商的说明以纯化连接产物(例如，如由Qiagen所提供，目录号28106或28104)

4)在100μl EB缓冲液中洗脱DNA

4.尺寸选择

1)根据制造商的说明向经过洗脱的DNA中添加AMPure珠粒并涡旋以混合

2)在环境温度下温育5-20分钟

3)使用磁性粒子浓缩器(MPC)，使珠粒针对管壁形成团块

4)除去上清液并用100-500μl的70％乙醇洗涤珠粒两次，每次温育30秒

5)除去所有上清液并允许AMPure珠粒完全风干

6)从MPC中移出管，添加24-50μl EB，并涡旋以使珠粒再次悬浮

7)使用MPC，再次使珠粒针对管壁形成团块并将含有纯化的雾化DNA的上清液转移至新的微量离心管

5.选择性PCR扩增

1)PCR混合物：

2-15μl纯化的连接DNA(约100-200ng DNA)

25μl 2×Phusion高保真PCR母混合液

1μl选择性引物(例如，bfuci3ACAA、s-SEO16CTA、s-SEO16ACA)(100μM)

1μl共同引物(例如，common1、s-common1)(100μM)

无菌水至50μl

2)例如使用PCR程序操作PCR：98℃持续30分钟；15次循环的98℃持续10秒、62℃持续30秒、72℃持续30秒；以及在72℃下最终延伸5分钟。

3)根据QIAquick PCR纯化试剂盒中的方案进行PCR纯化；用50μl EB洗脱。

6.最终PCR扩增

1)PCR混合物；

5-10μl纯化的所选PCR产物

25μl 2×Phusion高保真PCR母混合液

lμl第一引物(例如，引物1.1、s-SE-P1等)(100μM)

1μl第二引物(例如，final3、s-SE-P2AG、s-SE-P2GT)(100μM)

无菌水至50μl

设计最终PCR的引物以匹配由选择性PCR中使用的引物所确定的结合位点序列，例如，如果在选择性PCR中使用s-SEO16CTA，则在最终PCR中使用s-SE-P2AG；而如果在选择性PCR中使用s-SEO16ACA，则在最终PCR中使用s-SE-P2GT。

2)例如使用PCR程序操作PCR：98℃持续30分钟；15次循环的98℃持续10秒、65℃持续30秒、72℃持续30秒；以及在72℃下最终延伸5分钟。

3)例如根据QIAquick PCR纯化试剂盒中的方案进行PCR纯化；用30μl EB洗脱。

4)例如通过nanodrop测量纯化产物的浓度。PCR产量应为≥1.0μg

5)操作Bioanalyzer DNA 1000以用于确认尺寸和浓度。

样本现在已准备好用于测序、数据收集和基因分型。

方法2-单引物基因分型

本文提供作为方法的技术的实施方案，其中进行限制性内切酶消化，接着单链寡核苷酸连接以对DNA来源进行条形码标记(例如，标签标记)。限制性内切酶在每个消化片段的一端生成突出端。将包含共同序列的“条形码标记”寡核苷酸连接至消化的DNA。在连接后，将许多来源的具有不同条形码标记寡核苷酸的DNA汇集。在多态性靶标上设计单一引物。与匹配条形码标记寡核苷酸中的共同序列的引物组合，使用这种单一引物来扩增靶标位点。可以将多种靶标位点的引物重复以用于扩增。参见图2和图4。

最好在无菌微量离心管中进行下文大多数步骤：

1.消化

100-200ng基因组DNA(RNA酶处理)

3μl 10×NEB缓冲液4

3μl 10×BSA

0.8-1.2μl限制性内切酶，例如，NspI或BanII

无菌的不含核酸酶的H₂O至30μl

在37℃下温育1.5小时

2.连接

在温育1.5^-小时后，向基因组DNA消化反应物中添加20μl连接溶液：

1.5-2μl条形码寡核苷酸(100μM)

2-3μl10×连接酶缓冲液

1-1.5μlT4DNA连接酶

无菌水至20-22μl

现在每个反应物的总体积为50μl。在20℃下温育1.5小时，然后在65℃下温育20分钟以使酶失活。同样汇集所有连接的样本并将它们完全均匀混合。

条形码寡核苷酸可为单一寡核苷酸或两种(或更多种)寡核苷酸(例如，nspIxx、Nxx系列的寡核苷酸)的混合物。

3.靶标PCR扩增

1)PCR混合物：

2-12μl纯化的连接DNA(约100-200ng DNA)

25μl 2×Phusion高保真PCR母混合液

2μl共同引物(5μM)

1.5μl多种靶标特异性引物(各5μM)

无菌水至50μl

2)使用程序操作PCR：98℃持续30分钟；12次循环的98℃持续10秒、62℃持续30秒、72℃持续30秒；以及在72℃下最终延伸5分钟。

4.最终PCR扩增

1)PCR混合物：

2μl 10×稀释的靶标PCR产物

25μl 2×Phusion高保真PCR母混合液

1μl Illumina PCR引物1

1μl Illumina PCR引物2

无菌水至50μl

2)使用由以下组成的PCR程序操作PCR：98℃持续30分钟；20次循环的98℃持续10秒、65℃持续30秒、72℃持续30秒；以及在72℃下最终延伸5分钟。

3)根据QIAquick PCR纯化试剂盒中的方案进行PCR纯化；用30μl EB洗脱。

4)通过nanodrop测量纯化产物的浓度。PCR的产量应为≥1.0μg

5)操作Bioanalyzer DNA 1000以用于确认尺寸和浓度。

样本现在已准备好用于测序、数据收集和基因分型。

在单引物基因分型的一些实施方案中，提供方法如下：

1.消化

不含核酸酶的水至30μl

DNA(RNA酶处理)100-200ng

10×NEB缓冲液43μl

10×BSA 3μl

限制性内切酶，例如，NspI或BanII 1μl

总计30μl

在37℃下温育1.5小时

2.连接

不含核酸酶的水22μl

左寡核苷酸(50μM)2μl

右寡核苷酸(50μM)2μl

10×连接酶缓冲液3μl

T4连接酶1μl

总计30μl

现在每个反应物的总体积为60μl。在16℃下温育1.5小时以及在80℃下温育20分钟以使酶失活。

3.纯化

汇集所有连接样本(各60μl)并将它们完全混合

等分1ml以用于进一步纯化(例如，在Qiagen柱中)；剩余混合物可得到保留(例如，储存在-20℃下)

通过合适的方式、例如通过Qiaquick PCR纯化试剂盒纯化连接产物

在每个管中洗脱DNA(例如，在100μl EB缓冲液中)

例如通过Nanodrop测量浓度

4.PCR扩增

1)PCR混合物

分子级水13μl

纯化的连接DNA 10μl(约200ng)

2×Phusion母混合液25μl

第一引物(例如，s-SE-P1)20μM 1μl

第二引物(例如，TruSeq-final-primer)20μM 1μl

总计50μl

2)热循环

5.AMpure尺寸选择(＞100bp DNA富集，1.2∶1比率)

添加120μl AMPure珠粒至100μl洗脱的DNA。简单涡旋以混合

在环境温度下温育15分钟

使用磁性粒子浓缩器(MPC)，使珠粒针对管壁形成团块。

除去上清液并用200μl的70％乙醇洗涤珠粒两次，每次温育30秒

除去上清液并允许AMPure珠粒风干(约5-10分钟)

从MPC中移出管，添加50μl EB，并涡旋以使珠粒再次悬浮

使用MPC，再次使珠粒针对管壁形成团块并将含有纯化的雾化DNA的上清液转移至新的微量离心管

6.通过nanodrop测量纯化产物的浓度。

7.操作Bioanalyzer DNA芯片以用于确认尺寸和浓度。

8.对最终DNA文库进行任选的克隆以进行确认

实施例1

在本文所述技术的实施方案的开发期间，进行实验以验证所提供的方法。制备样本以针对956(先前称为B73)对Mo17 SNP评估可调节的GBS方法。根据所提供的方法制备样本，花费约一天的总时间。所述方法产生19个样本用于分析并且测序得到3700万100-bp读段，或者可选地每个样本约200万个读段。每个样本要求平均5000个SNP并且对于19个样本中的至少12个产生具有基因分型要求的820个SNP。这导致基因分型准确度为约99％。

上文说明书中提及的所有公开和专利出于所有目的以全文引用的方式并入本文中。在不偏离如所述技术的范围和精神的情况下，所述组合物、方法和技术用途的各种修改和变化对于本领域技术人员来说将是显而易见的。虽然已结合特定示例性实施方案描述了本技术，但应了解如所要求的本发明不应不当地局限于此类特定实施方案。实际上，相关领域的技术人员所显而易见的用于实施本发明的所述模式的各种修改欲在以下权利要求的范围内。

Claims

1.一种通过测序进行基因分型的方法，所述方法包括：

1)用限制性内切酶消化核酸以产生片段；

2)将单链条形码寡核苷酸连接至所述片段以产生模板；

3)将所述模板扩增以产生扩增子；以及

4)对所述扩增子测序以产生序列读段。

2.如权利要求1所述的方法，其中通过混合多个模板来产生模板池。

3.如权利要求1所述的方法，其中通过混合来自多名个体的多个模板来产生模板池。

4.如权利要求1所述的方法，其进一步包括解析所述序列读段，定位所述序列读段，以及指定基因型。

5.如权利要求1所述的方法，其中用两种不同的限制性内切酶消化所述核酸。

6.如权利要求1所述的方法，其中用NspI和BfuCI消化所述核酸。

7.如权利要求1所述的方法，其中所述单链条形码寡核苷酸鉴定作为所述核酸的来源的受试者。

8.如权利要求1所述的方法，其中所述扩增包括使用靶标特异性引物。

9.如权利要求1所述的方法，其中所述扩增选择扩增子用于测序。

10.一种通过测序进行基因分型的方法，所述方法包括：

1)提供来自第一受试者的第一组多个核酸；

2)提供来自第二受试者的第二组多个核酸；

3)用限制性内切酶消化所述第一组多个核酸以产生第一组多个片段；

4)用所述限制性内切酶消化所述第二组多个核酸以产生第二组多个片段；

5)将第一单链条形码寡核苷酸连接至所述第一组多个片段的每个片段以产生第一组多个模板；

6)将第二单链条形码寡核苷酸连接至所述第二组多个片段的每个片段以产生第二组多个模板；

7)将所述第一组多个模板与所述第二组多个模板混合以产生模板池；

8)使用靶标特异性引物扩增所述模板池的子集以产生多个扩增子；以及

9)对所述多个扩增子测序以产生多个序列读段；

10)使用所述第一条形码寡核苷酸的第一序列和所述第二条形码寡核苷酸的第二序列对所述序列读段进行解卷积。

11.一种组合物，其包含单链条形码寡核苷酸，其中所述单链条形码寡核苷酸包含选自由SEQ ID NO：1-23组成的群组的序列。

12.如权利要求11所述的组合物，其进一步包含第二单链寡核苷酸。

13.一种组合物，其包含核酸，其中所述核酸序列包含单链条形码寡核苷酸的序列、靶标位点的序列，和第二单链寡核苷酸的序列。

14.如权利要求13所述的组合物，其进一步包含与所述单链条形码寡核苷酸互补的第一扩增引物和与所述第二单链寡核苷酸互补的靶标特异性扩增引物。

15.根据权利要求11-14所述的组合物的用途，其用于对一种或多种受试者进行基因分型。

16.一种试剂盒，其包含根据权利要求11-14所述的组合物。