CN106164298A

CN106164298A - 用于dna谱系分析的方法及组合物

Info

Publication number: CN106164298A
Application number: CN201580018499.1A
Authority: CN
Inventors: 凯瑟琳·M·斯蒂芬斯; 赛德尼·霍尔特; 凯里·戴维斯; 安妮·雅格; 宝琳娜·瓦利切威茨; 韩永梅; 大卫·席尔瓦; 敏-瑞·理查德·沈; 萨桑·阿米尼; 弗兰克·斯蒂莫斯
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2014-02-18
Filing date: 2015-02-13
Publication date: 2016-11-23
Anticipated expiration: 2035-02-13
Also published as: CA2940048A1; AU2021203877A1; US11530446B2; CA2940048C; AU2015219289B2; WO2015126766A8; LT3108009T; RS61976B1; EP3108009B1; AU2015219289A1; US20200224268A1; AU2021203877B2; JP2021177777A; BR112016019267B1; RU2019138698A3; RU2019138698A; JP2024059651A; HUE055256T2; CN106164298B; SA516371691B1

Abstract

本文公开的实施方案提供了用于构建DNA谱的方法，所述方法包括：提供核酸样品，用多种引物扩增该核酸样品，所述多种引物与包含SNP的至少一种靶序列和包含串联重复的至少一种靶序列特异性杂交，并且确定在扩增产物中的至少一种SNP和至少一种串联重复的基因型，从而构建该核酸样品的DNA谱。本文公开的实施方案还提供了多种引物，该多种引物与核酸样品中的至少一种短靶序列和至少一种长靶序列特异性杂交，其中在单个反应中使用该多种引物扩增核酸样品产生短扩增产物和长扩增产物，其中该多种引物的每种包含一种或更多种标签序列。

Description

用于DNA谱系分析的方法及组合物

相关申请

本申请要求2015年1月14日提交的美国临时申请号62/103,524、2014年8月28日提交的美国临时申请号62/043,060和2014年2月18日提交的美国临时申请号61/940,942的优先权，这些申请的内容通过引用以其整体并入本文。

序列表、表格或计算机程序列表的引用

本申请与电子格式的序列表一起提交。序列表作为命名为ILLINC276WO_Sequence_Listing.TXT的文件提供，创建日期为2015年2月13日，该序列表大小为55Kb。该电子格式的序列表中的信息通过引用以其整体并入本文。

公开内容的领域

本文提供的实施方案涉及用于DNA谱系分析(DNA profiling)的方法及组合物。一些实施方案涉及在单个反应中扩增不同尺寸的靶序列，随后进行文库的后续测序的方法。

公开内容的背景

在历史上，在人类基因组中的标志物的子集的使用已被用来确定个体的个人身份或DNA指纹或谱。这些标志物包括短串联重复序列(STR)和中度串联重复序列(ITR)的位置或基因座，它们组合起来在从基因水平上鉴定一个个体与另一个个体中是有用的。这些标志物的分析已在犯罪现场发现的DNA的分析中变得标准化。例如，在美国，这些重复序列中的许多已被组合，以创建联合DNA索引系统(Combined DNA Index System,CODIS)，联合DNA索引系统(CODIS)在刑事案件中用作用于DNA谱系分析的实验室标准。其他国家同样也采用了用于DNA谱系分析的标准系统。这些系统也被用来确定亲子鉴定和家庭关系。然而，目前的系统都基于这些重复的基因座在电泳系统上的尺寸分离，并因此受到可在此类系统中区分的基因座数目的限制。例如，由于电泳检测方法的限制，用于法医学目的的DNA谱系分析的一些目前的商业系统仅区分16个标志物。

公开内容的概述

实施方案涉及不受含量限制，并且使有关个体的遗传信息的不同碎片(pieces)汇集在一起，以提供个体的全面的、更完整的DNA谱的系统和方法。本公开内容描述了使个体的该谱成为可能，从而推进个人和法医基因组学领域的方法及组合物。

DNA谱系分析目前使用选择的生物标志物以用于确定DNA样品身份。例如，用于确定DNA谱的最常用的分析是确定在生物体的基因组中发现的许多短串联重复(STR)序列的谱。分析由以下组成：扩增定义的STR序列，该定义的STR序列可多达400bp长，可通过在电泳凝胶上的尺寸或通过使用毛细管电泳(CE)来区分。电泳用来检测由于在给定基因座处的重复的STR的数目差异以及因此的PCR扩增子的长度差异带来的尺寸变化，这对于CE系统在50-500bp之间。为了帮助克服由尺寸区分方法产生的限制(即，具有重叠扩增子尺寸的STR不能被区分)，DNA谱系分析的目前的方法利用标记的引物的不同集合，使得尺寸重叠的扩增子可用不同的荧光染料标记，在激发后，所述不同的荧光染料上的发射光谱不同，从而允许使用染料激发和发射光谱的差异来区分重叠的扩增子。使用差异化标记，目前的方法允许在一个DNA谱系分析运行中使用6种不同的可检测的染料使得24个不同的STR基因座多重复用(multiplexing)。

目前的DNA谱系分析方法存在许多限制。如先前提及的，尺寸区分系统限制可在给定时间离散地确定的基因座的数目。用于DNA谱系分析的已建立方法的另一个限制是，待分析的DNA常常降解，且一些标志物的尺寸范围不容纳降解的DNA，例如，扩增子可大于降解的DNA的片段的尺寸。对于降解的DNA，400bp的扩增子被认为是非常长的，并且可导致那些更长基因座的扩增的损失。当DNA分析者扩增降解的DNA样品以鉴定它们的STR谱，例如，在犯罪现场发现的样品时，通常他们不能检测到所有的基因座，导致部分谱，这可使犯罪现场中的犯罪嫌疑人与犯罪样品难以或不可能匹配。默认对于此类样品(As a default withsuch samples)，DNA分析者几乎没有选择，且如果任何样品有剩余(left over)，需要进行另外的测定，以鉴定可能给出关于个体身份的线索的其他标志物，诸如单核苷酸多态性(SNP)、微-STR或线粒体DNA(mtDNA)分析。然而，珍贵的样品必须被耗费在每一次测定上，而并不具有最终鉴定个体的成功的确定性。图1A示出了DNA鉴定的潜在的不同路径，它们全部是单独的工作流程并要求珍贵样品的等分试样。当一个或更多个简单的工作流程需要被组合并可能重复多次时，则所得的过程不再简单或有效使用珍贵的样品。

在本申请中描述的实施方案提供了用于通过下一代测序(NGS)确定个体或有机体的DNA谱的方法、组合物及系统，从而提供对DNA谱系分析的目前方法的问题和限制的解决方案。图1B示出了在一个实施方案中，公开的方法的示例性工作流程。本文公开了用于将大量法医相关的标志物组合进一个测定的方法及组合物，所述法医相关的标志物包括，但不限于，短串联重复(STR)、中度串联重复(ITR)、身份信息单核苷酸多态性(iSNP)、祖先信息单核苷酸多态性(aSNP)以及表型信息单核苷酸多态性(pSNP)。

本公开内容描述了克服DNA谱系分析的目前方法的限制的测定。公开的实施方案提供了用于在单个多重反应中从一个核酸样品多重扩增、文库制备及测序组合的STR、ITR、iSNP、aSNP和pSNP的方法及组合物。公开的方法在具有最小样品处理的一个实验测定中使用低量的包含降解的DNA的样品DNA分析多个标志物。一些描述的实施方案可被用于数据库分析(databanking)DNA谱和/或可用于刑事案件的DNA谱。一些实施方案提供了被开发为足够灵敏的以检测亚纳克量的DNA的PCR方法及组合物。此外，非常规的引物设计参数允许高度多重复用的PCR以用于在一个多重反应中鉴定STR、ITR和SNP。对于刑事案件，本发明的方法及组合物掺入独特分子标识符(UMI)，该独特分子标识符(UMI)有助于从测序结果去除，例如，PCR和测序误差、扫描残迹(stutter)等。参见Kivioja等，Nat.Meth.9,72–74(2012)。同样，来自本文公开的方法及组合物的结果与现有的数据库兼容。

因此，本文公开的实施方案提供了用于构建DNA谱的方法，所述方法包括：提供核酸样品，在多重反应中用多种引物扩增该核酸样品以生成扩增产物，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复的至少一种靶序列特异性杂交，并且确定在该扩增产物中的至少一种SNP和至少一种串联重复的基因型，从而构建该核酸样品的DNA谱。

在一些实施方案中，该方法包括从扩增产物生成核酸文库。在一些实施方案中，该方法包括确定核酸文库的序列。在一些实施方案中，核酸样品来自人类。在一些实施方案中，核酸样品来自环境样品、植物、非人类动物、细菌、古细菌(archaea)、真菌或病毒。在一些实施方案中，DNA谱被用于疾病诊断或预后、癌症生物标志物鉴定、遗传异常鉴定或遗传多样性分析的一种或更多种。在一些实施方案中，DNA谱被用于数据库分析、法医、刑事案件工作、亲子鉴定或个人鉴定的一种或更多种。在一些实施方案中，至少一种SNP指示核酸样品的来源的祖先或表型特征。在一些实施方案中，多种引物的每种具有低的解链温度和/或具有至少24个核苷酸的长度。在一些实施方案中，多种引物的每种具有小于60℃的解链温度。在一些实施方案中，多种引物的每种具有为约50℃至约60℃的解链温度。在一些实施方案中，多种引物的每种具有至少24个核苷酸的长度。在一些实施方案中，多种引物的每种具有约24个核苷酸至约38个核苷酸的长度。在一些实施方案中，多种引物的每种包含同聚物核苷酸序列。在一些实施方案中，核酸样品通过聚合酶链式反应(PCR)扩增。在一些实施方案中，在具有相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度的扩增缓冲液中扩增核酸样品。在一些实施方案中，盐包括KCl、LiCl、NaCl或其组合。在一些实施方案中，盐包括KCl。在一些实施方案中，扩增缓冲液中的KCl的浓度为约100mM至约200mM。在一些实施方案中，扩增缓冲液中的KCl的浓度小于约150mM。在一些实施方案中，扩增缓冲液中的KCl的浓度为约145mM。在一些实施方案中，SNP是祖先SNP、表型SNP、身份SNP或其组合。在一些实施方案中，多种引物与至少30种SNP特异性杂交。在一些实施方案中，多种引物与至少50种SNP特异性杂交。在一些实施方案中，串联重复是短串联重复(STR)、中度串联重复(ITR)或其变体。在一些实施方案中，多种引物与至少24种串联重复序列特异性杂交。在一些实施方案中，多种引物与至少60种串联重复序列特异性杂交。在一些实施方案中，核酸样品包含约100pg至约100ng DNA。在一些实施方案中，核酸样品包含约10pg至约100pg DNA。在一些实施方案中，核酸样品包含约5pg至约10pg DNA。在一些实施方案中，核酸样品包括基因组DNA。在一些实施方案中，基因组DNA来自法医样品。在一些实施方案中，基因组DNA包含降解的DNA。在一些实施方案中，至少一种SNP和至少一种串联重复的基因型的至少50％被确定。在一些实施方案中，至少一种SNP和至少一种串联重复的基因型的至少80％被确定。在一些实施方案中，至少一种SNP和至少一种串联重复的基因型的至少90％被确定。在一些实施方案中，至少一种SNP和至少一种串联重复的基因型的至少95％被确定。在一些实施方案中，多种引物的每种包含一种或更多种标签序列。在一些实施方案中，一种或更多种标签序列包括引物标签、捕获标签、测序标签、独特分子标识符标签或其组合。在一些实施方案中，一种或更多种标签序列包括引物标签。在一些实施方案中，一种或更多种标签序列包括独特分子标识符标签。

本文公开的实施方案提供了构建核酸文库的方法，所述方法包括：提供核酸样品，以及在多重反应中用多种引物扩增核酸样品以生成扩增产物，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复序列的至少一种靶序列特异性杂交。

在一些实施方案中，在扩增之前，核酸样品不被片段化。在一些实施方案中，在扩增之前，靶序列不被富集。在一些实施方案中，至少一种SNP指示核酸样品的来源的祖先或表型特征。在一些实施方案中，多种引物的每种包含一种或更多种标签序列。在一些实施方案中，一种或更多种标签序列包括引物标签、捕获标签、测序标签、或独特分子标识符标签或其组合。在一些实施方案中，该方法包括用第二多种引物扩增所述扩增产物。在一些实施方案中，第二多种引物的每种包含对应于多种引物的引物标签的部分和一种或更多种标签序列。在一些实施方案中，第二多种引物的一种或更多种标签序列包括捕获标签或测序标签或其组合。在一些实施方案中，该方法包括将单链结合蛋白(SSB)添加至扩增产物。在一些实施方案中，核酸样品和/或扩增产物通过聚合酶链式反应(PCR)扩增。在一些实施方案中，在具有相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度的扩增缓冲液中扩增核酸样品和/或扩增产物。在一些实施方案中，盐包括KCl、LiCl、NaCl或其组合。在一些实施方案中，盐包括KCl。在一些实施方案中，扩增缓冲液中的KCl的浓度为约100mM至约200mM。在一些实施方案中，扩增缓冲液中的KCl的浓度小于约150mM。在一些实施方案中，扩增缓冲液中的KCl的浓度为约145mM。

本文公开的实施方案提供了一种核酸文库，所述核酸文库包含多种核酸分子，其中该多种核酸分子包括侧翼为第一对标签序列的至少一种串联重复序列和侧翼为第二对标签序列的至少一种单核苷酸多态性(SNP)序列。还提供了使用本文公开的方法及组合物构建的核酸文库。在一些实施方案中，至少一种SNP指示多个核酸分子的来源的祖先或表型特征。

本文公开的实施方案提供了多种引物，该多种引物与核酸样品中的至少一种短靶序列和至少一种长靶序列特异性杂交，其中在单个多重反应中使用多种引物扩增核酸样品产生至少一种短扩增产物和至少一种长扩增产物，其中多种引物的每种包含一种或更多种标签序列。

在一些实施方案中，短靶序列包含单核苷酸多态性(SNP)且长靶序列包含串联重复。在一些实施方案中，一种或更多种标签序列包括引物标签、捕获标签、测序标签、独特分子标识符标签或其组合。在一些实施方案中，多种引物的每种具有低的解链温度和/或具有至少24个核苷酸的长度。在一些实施方案中，多种引物的每种具有小于60℃的解链温度。在一些实施方案中，多种引物的每种具有为约50℃至约60℃的解链温度。在一些实施方案中，多种引物的每种具有至少24个核苷酸的长度。在一些实施方案中，多种引物的每种具有约24个核苷酸至约38个核苷酸的长度。在一些实施方案中，多种引物的每种包含同聚物核苷酸序列。在一些实施方案中，核酸样品通过聚合酶链式反应(PCR)扩增。在一些实施方案中，SNP是祖先SNP、表型SNP、身份SNP或其组合。在一些实施方案中，多种引物与至少30种SNP特异性杂交。在一些实施方案中，多种引物与至少50种SNP特异性杂交。在一些实施方案中，串联重复是短串联重复(STR)、中度串联重复(ITR)或其变体。在一些实施方案中，多种引物与至少24种串联重复序列特异性杂交。在一些实施方案中，多种引物与至少60种串联重复序列特异性杂交。

本文公开的实施方案提供了试剂盒，所述试剂盒包含至少一种容器装置(means)，其中该至少一种容器装置包含本文公开的多种引物。

在一些实施方案中，试剂盒包含用于扩增反应的试剂。在一些实施方案中，试剂是用于聚合酶链式反应(PCR)的扩增缓冲液。在一些实施方案中，扩增缓冲液包括相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度。在一些实施方案中，盐包括KCl、LiCl、NaCl或其组合。在一些实施方案中，盐包括KCl。在一些实施方案中，扩增缓冲液中的KCl的浓度为约100mM至约200mM。在一些实施方案中，扩增缓冲液中的KCl的浓度小于约150mM。在一些实施方案中，扩增缓冲液中的KCl的浓度为约145mM。

附图简述

图1A和图1B示出了A)用于DNA谱系分析的目前的工作流程对B)本公开内容的一个示例性实施方案的工作流程的差异。

图2示出了用于创建对DNA谱系分析有用的文库的方法的一个示例性实施方案。

图3示出了用于创建对DNA谱系分析有用的文库的方法的另一个示例性实施方案。

图4A、图4B、图4C和图4D是显示如下的电泳图结果的线形图：通过传统方法和遵循已建立的PCR引物设计方案及限制设计的引物对当与遵循本发明公开内容的方法设计的引物组合时可如何引起基因组靶的非特异性扩增、以及期望的扩增子检测的遮蔽(obscuration)；A)针对SNP基因座通过本公开内容的方法设计的10对引物对，B)和D)所述10对引物加上通过传统方法设计的另外的引物对，显示在扩增期间所述另外的引物对干扰所述10对引物对，和C)所述10对引物对加上另外的引物对，其中所述另外的引物对也通过遵循本公开内容的方法设计，导致所有靶向的SNP的成功扩增。X-轴是文库片段的尺寸(bp)，且Y轴是扩增的片段的扩增峰的荧光单位(FU)。

图5A、图5B、图5C、图5D和图5E是箱形图，显示遵循图2中概述的工作流程的实验的示例性结果，该实验被用来在多重扩增和测序反应中从样品鉴定56个STR的组和75个身份信息SNP(iSNP)、祖先信息SNP(aSNP)和表型信息SNP(pSNP)的混合物。报道了显示来自组的STR基因座的成功扩增和测序的重复的结果；A)显示来自组的25个杂合STR的基因座内平衡的箱形图，B)显示对于56个STR基因座的大多数的低扫描残迹的箱形图，C)显示STR基因座的测序覆盖(sequencing coverage)的箱形图，D)显示SNP的序列覆盖的箱形图，且E)显示对于来自组的22个杂合SNP的平衡的箱形图。下部误差棒指示最小值，上部误差棒指示最大值，下部箱报道第25个百分位，且上部箱报道第75个百分位，而平均值是在下部箱和上部箱之间的交叉处。

图6示出了显示来自图5的实验的示例性STR基因座绘图(plot)的一系列柱状图。该绘图显示图5的组中的STR的不同等位基因调用。

图7A、图7B、图7C、图7D和图7E是箱形图，显示遵循图3中概述的工作流程的实验的示例性结果，该实验被用来在多重扩增和测序反应中从样品鉴定26个STR的组和94个iSNP、aSNP和pSNP的混合物。报道了显示来自组的STR的成功扩增和测序的重复的结果；A)显示来自组的21个杂合STR基因座的基因座内平衡的箱形图，B)显示对于26个STR基因座的低扫描残迹的箱形图(26个基因座的47个等位基因中的39个未显示扫描残迹)，C)显示STR基因座的测序覆盖的箱形图(使用UMI归一化读段数(read numbers))，D)显示SNP的序列覆盖的箱形图，且E)显示对于来自组的21个杂合iSNP的平衡的箱形图。下部误差棒指示最小值，上部误差棒指示最大值，下部箱报道第25个百分位，且上部箱报道第75个百分位，其中平均值是在下部箱和上部箱之间的交叉处。

图8示出了显示来自图7的实验的示例性STR基因座绘图(plot)的一系列柱状图。该绘图显示图7的组中的STR的不同等位基因调用。

图9示出了未用UMI和用UMI分析的样品的柱状图。各组的左图代表未用UMI分析的样品，且各组的右图代表用UMI分析的样品。X轴标出STR的重复数，且Y轴标出特定等位基因的计数数值。柱内的误差线分离STR序列内的测序误差(棒的上部)与正确序列(棒的下部)。

图10A和图10B示出了来自实验的示例性结果，其中DNA比率为90:10的雌性：雄性。A)当使用目前的毛细管电泳DNA谱系分析方法时，STR基因座的STR基因座调用结果的子集，以及B)当使用本申请的方法时，数个STR基因座的数个STR基因座调用结果。CE方法和本申请的方法两者确实检测到低水平的雄性DNA污染。

图11示出了显示在图9的实验中检测到对Y染色体特异的STR基因座的柱状图，还示出了本申请能够检测到污染性的雄性DNA和来自该雄性DNA的特定STR基因座，而用目前的CE方法将需要运行两个实验来做到这些

图12是示出来自使用12个样品个体和1个参考个体的实验的示例性高水平测序结果，显示在两个重复之间的STR和SNP调用的一致性的表。

图13是示出来自图12中显示的实验的示例性群体统计信息的表。

图14是示出基于来自图12中显示的实验的pSNP的基因型的示例性表型预测的表。

图15是显示基于来自图12中显示的实验的aSNP的基因型的示例性祖先映射的图。

图16A、图16B、图16C、图16D和图16E是显示来自图12的实验的示例性STR基因座绘图的柱状图。

图17A和图17B是显示来自图12的实验的示例性SNP绘图的柱状图。

图18A和图18B示出了显示来自图12的实验的示例性STR和SNP基因座的基因座内平衡的箱形图。

图19A和图19B是显示来自图12的实验的示例性STR基因座的扫描残迹分析的图。

图20是示出来自图12的实验的STR基因座中的示例性等距杂合子(isometricheterozygotes)的表。

图21是显示基于来自图12的实验的STR D8S1179内的变体的示例性遗传绘图的框图。

图22是显示基于来自图12的实验的STR D13S317内的变体的示例性遗传绘图的框图。

图23是示出使用降解的DNA的示例性基因分型结果的表。

图24A和图24B示出了在不同DNA输入下的示例性STR基因分型结果和基因座内平衡。

图25A和图25B示出了在不同DNA输入下的示例性SNP基因分型结果和基因座内平衡。

详述

定义

本文提及的所有专利、申请、公布的申请及其他出版物通过对所引用的材料的引用并以其整体并入。如果术语或措辞以与通过引用并入本文的专利、申请、公布的申请及其他出版物中陈述的定义相反或以其他方式不一致的方式在本文使用，则本文的使用优先于通过引用并入本文的定义。

如本文使用的，单数形式“一个(a)”、“一个(an)”和“该(the)”包括复数指代物，除非清楚或上下文另外指示。例如，“一个”二聚体包括一个或更多个二聚体，除非另外明示或根据上下文指示。

如本文使用的，术语“DNA谱”、“遗传指纹”和“基因型谱”在本文可互换使用，以指多态基因座的集合中的等位基因变异，诸如串联重复、单核苷酸多态性(SNP)，等等。DNA谱在用于基于核酸样品鉴定个体的法医学中是有用的。如本文使用的DNA谱还可被用于其他应用，诸如，包括癌症的疾病的诊断和预后、癌症生物标志物鉴定、遗传分析、遗传多样性分析、遗传异常鉴定、数据库分析、法医、刑事案件工作、亲子鉴定、个人鉴定等等。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文可互换使用，以指任何长度的核苷酸的聚合形式，并且可包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅指分子的一级结构。因此，该术语包括三链、双链和单链的脱氧核糖核酸(“DNA”)，以及三链、双链和单链的核糖核酸(“RNA”)。

如本文使用的，在两个核苷酸序列的上下文中的“序列同一性”或“同一性”或“同源性”包括提及两个序列中当在指定的比较窗上为了最大对应性比对时相同的残基。核苷酸序列在比较窗中的部分与参考序列相比可包括添加或缺失(即，缺口)，以用于两条序列的最佳比对。百分比通过如下计算：确定两个序列中出现相同的核酸碱基残基的位置的数目，以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目，并将结果乘以100以得到序列同一性的百分比。

如本文使用的，“基本上互补或基本上匹配”意指，两个核酸序列具有至少90％序列同一性。优选地，两个核酸序列具有至少95％、96％、97％、98％、99％或100％的序列同一性。可选地，“基本上互补或基本上匹配”意指，两个核酸序列可在高严格条件下杂交。

可以理解的是，本文描述的发明的各方面和实施方案包括由各方面和实施方案“组成”和/或“主要组成”。

本发明的其他目的、优势和特征从结合附图考虑的以下描述将变得明显。

用于构建DNA谱的方法

用于确定DNA谱的已建立方法在许多方面受到限制。例如，目前的方法检测由于在DNA样品中发现的串联重复序列的长度改变而不同的扩增的基因座的尺寸改变。为了多重STR扩增可视化，扩增必须被设计成在电泳系统的尺寸分离限值内隔开(space)不同的扩增子尺寸，电泳系统的尺寸分离限值对于CE为从约50-500bp。因此，仅有限数目的重复序列可在一个测定中被可视化。例如，GLOBALFILER PCR扩增试剂盒(APPLIED BIOSYSTEMS)据报道能够通过使用6种不同的染料区分24个STR基因座。此外，当样品DNA被降解时(如来自犯罪现场的DNA样品常见的)，此类方法就有问题，使得较长的扩增产物是不可能的，产生不完整的DNA谱。对于检测微量的污染性DNA，目前的方法还常常不是足够灵敏的，所以可使混合的样品未被检测到且未被报告，这可能对刑事案件是关键的。因此，目前的方法可导致不完整的结果，这导致不确定的结果，这可能对DNA谱系分析是有害的。

另外，目前的靶不包括关于样品祖先、表型性状诸如可能的眼睛颜色的信息以及其他个性化样品信息。一些测序方法已尝试包括STR和SNP检测两者。例如，已尝试文库制备随后是对于STR和SNP的定制富集，然而不是所有的STR完全被覆盖，由于文库制备方法通常包括可能消除靶向的序列的样品剪切。此外，已建立的引物设计方法和方案可提供用于扩增长序列(例如，STR)或短序列(例如，SNP)的引物组，但两者在一个反应中的组合还未成功。

本公开内容描述了对目前的DNA谱系分析系统的问题和限制的解决方案。本文描述的方法及组合物允许使用PCR将STR和SNP组合进一个测定，以扩增靶并产生用于测序的文库。当开发本发明的测定时，意外地发现，例如，当利用非常规和违反直觉的引物设计时，STR和SNP两者可在一个反应中被扩增，这允许确定所有靶向基因座的序列。出人意料地，当使用与目前的有关引物设计的教义相反的参数设计扩增引物时，创建了以几乎平衡的方式允许更长的STR区域被扩增和短SNP区域被扩增，从而允许STR和SNP两者被一起多重扩增的引物。

在DNA谱系分析之外，每当扩增子的不同大小的集合被期望来自一个扩增反应时，可使用本文公开的用于确定生物体的DNA谱的方法及组合物。例如，如果对于PCR感兴趣的靶包括大基因区域和短SNP区域两者，这可分别导致尺寸从数百个至数千个碱基对变化的扩增子和(versus)小于100个碱基对的扩增子，则本文描述的方法及组合物可允许成功同时扩增基因和SNP靶，不实践本文公开的方法这将是不可能的。此外，本文公开的方法及组合物可应用于任何生物体，例如人类，非人类灵长类、动物、植物、病毒、细菌、真菌等。因此，本发明的方法及组合物不仅对DNA谱系分析(例如，法医、亲子鉴定、个体鉴定等等)以及人类作为靶基因组是有用的，而且还可用于其他靶诸如癌症和疾病标志物、遗传异常标志物和/或当靶基因组不是基于人类时。

因此，本文公开的实施方案提供了用于构建DNA谱的方法，所述方法包括：提供核酸样品，用多种引物扩增该核酸样品，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复的至少一种靶序列特异性杂交，并且确定在扩增产物中的至少一种SNP和至少一种串联重复的基因型，从而构建该核酸样品的DNA谱。

本领域技术人员将理解，任何适合的技术可在确定靶序列的基因型中被使用，任何适合的技术包括，但不限于，基于阵列的杂交、测序等。因此，在一些实施方案中，本文公开的方法可包括从扩增产物生成核酸文库，诸如测序文库，以及确定核酸文库的序列。

在一些实施方案中，本公开内容提供了用于DNA谱系分析的方法及组合物，所述方法及组合物包括，例如用于在群体或个人数据库分析中同时鉴定STR和iSNP。在此类数据库中，由于个体通常是已知的，不一定需要个人数据。然而，如果期望另外的信息，则另外的信息目标可被添加用于同时鉴定。短串联重复在本领域是熟知的，并且由重复的二或三核苷酸序列组成。中度串联重复通常被认为是在4个至7个核苷酸序列之间的重复序列。本文采用的SNP可呈可能提供对个人的身体特征的深刻理解的任何形式。本文例示的那些是提供用于祖先或遗传性的线索的SNP(aSNP)、以及提供用于表型特征(表型信息SNP)的线索的那些。在本文描述的方法中，DNA谱测定可能包括与STR和ITR基因座确定组合的任何数目的这些SNP。

例如，本公开内容提供了另外的方法及组合物，其中连同STR和iSNP一起的另外的靶被包括。如果期望有关个体的更多信息，例如，当样品属于未知个体或个体的群体(如对于刑事案件可能的情形)时，其他信息标志物可被添加至STR和iSNP，诸如涉及祖先的SNP(aSNP)以及涉及表型变体的SNP(表型信息SNP)。然后，可使用另外的信息以例如，通过提供对未知个体的遗传性、眼睛颜色、发色等的深刻理解帮助调查员。如此，所有组合的信息的添加可提供先前使用DNA谱系分析的目前方法未知的个体的更完整的DNA谱。

本文公开的方法及组合物被设计成是足够灵敏的以检测亚纳克量的核酸分子。此外，本文公开的方法及组合物可对扩增核酸样品是有用的，该核酸样品由具有低质量的核酸分子，诸如来自法医样品的降解的和/或片段化的基因组DNA构成。核酸样品可以是纯化的样品或含粗制DNA的裂解物，例如来源于口腔拭子、纸、纤维或可被唾液、血液或其他体液浸渍的其他物质。如此，在一些实施方案中，核酸样品可包含低量的或片段化部分的DNA，诸如基因组DNA。例如，核酸样品可包含如下的量的核酸(例如，基因组DNA)，该量为、为约或小于1pg、2pg、3pg、4pg、5pg、6pg、7pg、8pg、9pg、10pg、11pg、12pg、13pg、14pg、15pg、16pg、17pg、18pg、19pg、20pg、30pg、40pg、50pg、60pg、70pg、80pg、90pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、10ng、100ng，或者在这些值的任何两个限定的范围内，例如，10pg至100pg、10pg至1ng、100pg至1ng、1ng至10ng、10ng至100ng，等等。在一些实施方案中，核酸样品可包含为约100pg至约1ng的量的核酸(例如，基因组DNA)。在一些实施方案中，核酸样品可包含多于约62.5pg的量的核酸(例如，基因组DNA)。在一些实施方案中，另外的片段化步骤，诸如超声处理或内切核酸酶消化，不被包括在片段化程序中。

在一些实施方案中，本文公开的方法及组合物能够甚至用亚纳克量的和/或降解的核酸样品成功地确定一个或更多个的靶序列的基因型，例如，SNP、STR等等。例如，本文公开的方法及组合物能够成功地确定为、为约或多于以下的靶序列的基因型：10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、100％、或在以上值的任何两个之间的范围。在一些实施方案中，本文公开的方法及组合物能够成功地确定多于约50％、80％、90％、95％、98％或更多的靶序列的基因型。在一些实施方案中，本文公开的方法及组合物能够实现多于以下的靶序列的基因座内平衡：约10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、100％，或在以上值的任何两个之间的范围。

对于法医调查，多种引物可掺入独特分子标识符(UMI)，该独特分子标识符(UMI)有助于从测序结果去除，例如，PCR和测序误差、扫描残迹等。参见Kivioja等，同上。如在本公开内容别处进一步详细讨论的，引物中UMI的包含还允许鉴定在串联重复基因座内的变体，进一步增强本发明方法及组合物用于DNA谱系分析及其他目的诸如遗传分析的有用性。

因此，在一些实施方案中，如本文中公开的串联重复序列的基因型可包括在串联重复基因座内的序列变体。因此，使用传统方法时的串联重复的纯合子(例如，对于D9S1122的13，13)可基于在串联重复内的序列变体被鉴定为等距杂合子。如将被本领域技术人员所理解的，考虑到基因座内序列变体将大大增强本文公开的方法，例如，对于遗传分析的有用性。

用于构建核酸文库的方法

本文公开的实施方案提供了构建核酸文库的方法，所述方法包括：提供核酸样品，以及用多种引物扩增核酸样品，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复序列的至少一种靶序列特异性杂交。

本文公开的方法及组合物被设计成是足够灵敏的以检测亚纳克量的核酸分子。此外，本文公开的方法及组合物可对扩增核酸样品是有用的，该核酸样品由低质量的核酸分子，诸如来自法医样品的降解的和/或片段化的基因组DNA组成。核酸样品可以是纯化的或含粗制DNA的裂解物，例如来源于口腔拭子、纸、纤维或可被唾液、血液或其他体液浸渍的其他物质。因此，在一些实施方案中，核酸样品可包含低量的或片段化的DNA，诸如基因组DNA。例如，核酸样品可包含如下的量的核酸(例如，基因组DNA)，该量为、为约或小于1pg、2pg、3pg、4pg、5pg、6pg、7pg、8pg、9pg、10pg、11pg、12pg、13pg、14pg、15pg、16pg、17pg、18pg、19pg、20pg、30pg、40pg、50pg、60pg、70pg、80pg、90pg、100pg、200pg、300pg、400pg、500pg、600pg、700pg、800pg、900pg、1ng、10ng、100ng，或者在这些值的任何两个限定的范围内，例如，10pg至100pg、10pg至1ng、100pg至1ng、1ng至10ng、10ng至100ng，等等。在一些实施方案中，核酸样品可包含为约100pg至约1ng的量的核酸(例如，基因组DNA)。在一些实施方案中，核酸样品可包含多于约62.5pg的量的核酸(例如，基因组DNA)。在一些实施方案中，另外的片段化步骤，诸如超声处理或内切核酸酶消化不被包括。

在一些实施方案中，预期到下游并行测序，本文公开的方法包括扩增和文库制备。测定可包括两种PCR主混合物(mastermix)、两种热稳定聚合酶、两种引物混合物及文库衔接子。在一些实施方案中，DNA样品可通过使用包含靶特异性区域和非靶特异性标签区域的第一组扩增引物和第一PCR主混合物被扩增许多个循环。标签区域可以是任何序列，诸如通用标签区域、捕获标签区域、扩增标签区域、测序标签区域、UMI标签区域等。例如，标签区域可以是用于在第二或随后轮的扩增，例如，用于文库制备中采用的扩增引物的模板。在一些实施方案中，该方法包括将单链结合蛋白(SSB)添加至第一扩增产物。第一扩增样品的等分试样可被取出并使用第二组扩增引物和第一PCR主混合物或第二PCR主混合物进行第二次扩增，该第二组扩增引物特异于第一扩增引物的标签区域，例如，通用标签区域或扩增标签区域，该第二组扩增引物可包含一个或更多个另外的标签序列，诸如对一个或更多个下游测序工作流程特异的序列标签。如此，原始DNA样品的文库准备用于测序。

可选的方法可包括，在小体积(例如，15ul)中进行第一扩增，且代替将等分试样转移至用于第二轮扩增的新位置，可将另外的试剂添加至该管以进行第二轮扩增。

在文库被创建之后，该文库可被纯化和定量。在一些实例中，纯化可通过经由用来纯化DNA片段以与反应组分分开的基底诸如AMPURE XP珠(Beckman Coulter)处理样品来进行。另一种方法可以是将纯化部分，诸如半抗原部分掺入进第二组扩增引物中。例如，如果生物素被掺入进第二扩增引物组的一个引物中，则文库片段可使用例如在珠上的链霉亲和素部分来捕获。采用捕获策略，文库还可使用基于珠的归一化(Bead BasedNormalization，BBN)被归一化并定量。然而，如果多个反应被进行，文库可被纯化并定量，或汇集并定量，而不使用BBN。例如，文库还可通过如本领域已知的凝胶电泳方法、BioAnalyzer、qPCR、分光光度法、定量试剂盒(例如，PicoGreen等等)等来定量。在定量后，文库然后可通过并行测序来测序。

在一些实施方案中，提供了第一组扩增引物，该第一组扩增引物用来以如此有限的浓度扩增靶DNA，使得当第一扩增反应的等分试样被添加至新管且来自第二扩增反应的试剂被添加时，存在由第一组扩增引物产生的极小的到检测不到的(minimal toundetectable)遗留扩增，并且不需要在第一扩增反应和第二扩增反应之间的清理步骤。在一些实例中，用于第一PCR的扩增引物的浓度为、为约或小于0.5nM、0.6nM、0.7nM、0.8nM、0.9nM、1.0nM、1.5nM、2.0nM、3.0nM、4.0nM、5.0nM、6.0nM、7.0nM、8.0nM、9.0nm 10.0nM、11.0nM、12.0nM或者在任何这些值之间的范围，例如，0.5nM至1.0nM、1.0nM至12nM、0.8nM至1.5nM等等。在一些实施方案中，用于第一PCR的扩增引物的浓度为约0.9nM至约10nM。

图2示出了在一个实施方案中，本发明公开的方法的示例性工作流程。靶基因组DNA序列使用第一组引物来扩增，该第一组引物包含在靶序列侧翼的区域和扩增标签区域(其可以是相同的或不同的)，导致包含靶序列和在两个末端上的标签的扩增子。来自第一PCR的扩增子的等分试样使用第二组引物来进一步扩增，该第二组引物特异于还包含测序引物序列(i5和i7衔接子序列)的第一标签序列，从而生成包含侧翼为并行测序中使用的序列的靶DNA序列的文库，在该情况下，通过Illumina,Inc.推广的合成方法在序列中采用i5和i7序列。

用于确定来自样品的DNA谱的可选的工作流程的实例被描述于图3中。在该实例中，DNA靶用第一引物对来扩增，该第一引物对包含在靶序列侧翼的序列、非靶标签序列(相同或不同的)以及包括随机碱基的另外的独特分子标识符序列或UMI。可使用UMI，例如，以在生物信息学上减少或消除在文库制备过程期间发生的误差(例如，PCR假象(artifact)或错误掺入，等等)。UMI的使用对DNA谱系分析可以是重要的，但对用于辅助消除当样品用于刑事案件测序时的误差是特别重要的。在该实例中，第一轮扩增进行2个循环，随后添加单链结合蛋白(SSB)并在37℃孵育15分，随后是95℃/5分灭活，这有效猝灭第一组扩增引物在第二轮扩增期间的另外的扩增。尽管机制是未知的，预期添加SSB不可逆地结合单链第一扩增引物，并阻止它们参与随后的扩增反应。在SSB孵育后，包含序列标签的第二组引物和第二PCR混合物被添加，产生测序文库。

核酸文库

本文公开的实施方案提供了核酸文库，该核酸文库可被用于测序。在一些实施方案中，本文公开的核酸文库可包含多个核酸分子，其中该多个核酸分子包含侧翼为第一对标签序列的至少一种串联重复序列和侧翼为第二对标签序列的至少一种单核苷酸多态性(SNP)序列。

如本文概述的，使用本文公开的方法及组合物，核酸分子的尺寸可有很大变化。本领域技术人员将理解，从包含串联重复(例如，STR)的靶序列扩增的核酸分子可具有大尺寸，而从包含SNP的靶序列扩增的核酸分子可具有小尺寸。例如，核酸分子可包括从少于一百个核苷酸至数百个或甚至数千个核苷酸。因此，核酸分子的尺寸可具有在以下的任何两个值之间的范围：约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约300bp、约400bp、约500bp、约600bp、约700bp、约800bp、约900bp、约1kb或更多。在一些实施方案中，核酸分子的最小尺寸可以是为、为约或少于50bp、60bp、70bp、80bp、90bp或100bp的长度。在一些实施方案中，核酸分子的最大尺寸可以是为、为约或多于100bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp、500bp或1kb的长度。

对于簇生成，文库片段被固定化在基底，例如，载玻片上，其包含用于捕获和固定DNA文库片段的同源寡核苷酸序列。固定化的DNA文库片段使用簇扩增方法来扩增，如由美国专利号7,985,565和7,115,400的公开内容所例示的，其每个的内容通过引用以全文并入本文。美国专利号7,985,565和7,115,400的并入的材料描述了固相核酸扩增的方法，其允许扩增产物被固定在固体支持物上，以形成包括固定的核酸分子的簇或“集群”的阵列。在如此阵列上的每个簇或集群从多个相同的固定的多核苷酸链和多个相同的固定的互补多核苷酸链形成。如此形成的阵列通常被称为“成簇的阵列”。固相扩增反应的产物诸如在美国专利号7,985,565和7,115,400中描述的那些是通过固定化的多核苷酸链和固定化的互补的链的对的退火形成的所谓的“桥接的”结构，两种链在5'末端被固定在固体支持物上，优选地经由共价附接。簇扩增方法是其中固定化的核酸模板被用来产生固定化的扩增子的方法的实例。其他适合的方法也可被用来从根据本文提供的方法产生的固定化的DNA片段产生固定化的扩增子。例如一个或更多个簇或集群可经由固相PCR来形成，每对扩增引物中的一个或两个引物是被固定化的。然而，本文描述的方法不限于任何特定的测序制备方法或测序平台，并且可服从于其他并行测序平台制备方法及相关的测序平台。

引物

本文公开的实施方案提供了多种引物，该多种引物与核酸样品中的至少一种短靶序列和至少一种长靶序列特异性杂交，其中在单个多重反应中使用多种引物扩增核酸样品产生至少一种短扩增产物和至少一种长扩增产物，其中多种引物的每种包含一种或更多种标签序列。本文还公开了多种引物，该多种引物具有表1-2中列出的序列。

对于大的靶序列(例如，STR、ITR)和小的靶序列(例如，SNP)的多重扩增，引物被设计为将允许跨越所有的靶类型的平衡扩增。本文公开的方法及组合物可被用来在单个多重反应中扩增多种串联重复靶序列。例如，多种引物可与为、为约或多于以下的许多串联重复序列特异性杂交：4、6、8、10、12、14、16、18、24、30、40、50、60、70、80、90、100、或者在任何两个值之间的范围，诸如4至12、10至24、30至100等等。在一些实施方案中，多种引物可与至少24种串联重复序列特异性杂交。在一些实施方案中，多种引物可与至少60种串联重复序列特异性杂交。本文公开的方法及组合物可被用来在单个反应中扩增多种SNP靶序列。例如，多种引物可与为、为约或多于以下的许多SNP序列特异性杂交：4、6、8、10、12、14、16、18、24、30、40、50、60、70、80、90、100或者在任何两个值之间的范围，诸如4至12、10至24、30至100等等。在一些实施方案中，多种引物可与至少30种SNP序列特异性杂交。在一些实施方案中，多种引物可与至少50种SNP序列特异性杂交。

在实验期间发现，当使用遵循用于成功的引物设计的已建立的标准和智慧设计的引物时，相比于较长的STR靶序列，短SNP靶序列被优先扩增。此外，至少在合成测序(sequence by synthesis)工作流程中，其中簇被生成且簇被自身测序(例如，当按照合成测序(本文别处公开的SBS)与Illumina,Inc.测序仪联合时)，还发生较短文库SNP片段的优先簇扩增。为了克服这两个偏差，需要引物设计的新策略，其将允许短SNP靶序列和长STR靶序列之间的平衡扩增。

策略之一包括设计用于STR扩增的引物。对于STR，重复序列常常被嵌入在较大的重复区域；因此设计用于STR扩增的特异性引物可能是有问题的。此外，STR及它们的侧翼区域往往是AT丰富的。在一种情况下，使用不同于常规和已良好建立的PCR设计标准的设计策略针对有问题的区域设计引物。用于PCR引物设计的已建立标准以及其他标准规定，1)对于引物的最佳长度为18-22个核苷酸，2)Tm应该在55℃-58℃的范围内，3)GC含量应该在约40％-60％，4)且应该避免重复的AT二核苷酸区域，其中<4的二核苷酸AT重复是最大的。设计以下引物：该引物长于典型的PCR引物，例如23-35个核苷酸长而不是18-22个核苷酸，它们具有低的解链温度(Tm)，例如约54℃而不是约58℃，且该引物是AT丰富的，这三个参数是常规已建立的PCR标准教导对于最佳的引物设计应该避免的。事实上，非最佳的引物被设计。出人意料地，发现，这些长的、AT丰富的、低Tm的引物事实上比短的、高Tm的、含低AT的引物更好地使STR多重复用。不束缚于任何理论，预期了，遵循已建立的PCR设计标准设计的较短的引物可能形成具有高解链温度的二聚体以及因此在标准PCR条件下有效形成二聚体，而较长的、低Tm引物可能在实际上低的Tm下形成二聚体并因此将对于二聚体形成是不稳定的，从而与短的、高Tm引物(例如，18-22个核苷酸、60℃的Tm、50％GC含量)相比，允许较长的、低Tm引物在正常扩增条件下的增加的参与。

用于STR扩增的较长的、低Tm的、AT丰富的引物然后用靶向SNP的常规设计的、高Tm的较短的引物来多重扩增。然而，在一个多重反应中提供STR和SNP两者的平衡扩增的方面，多重扩增反应再次不成功。预期了，也许将非常规引物设计应用于扩增没有问题的靶，例如，扩增SNP靶，可能产生成功的多重扩增。如此，设计用于STR的非最佳引物使用的同一标准被应用于SNP的引物设计(长的、低Tm、AT丰富的)。出人意料地，新设计的引物导致在多重反应中的STR和SNP的扩增之间的更好的平衡。

图4示出了多重反应中的常规和非常规设计的引物之间的相互影响的实例。在图4A中，10种SNP靶的多重反应显示在用于文库的约200-350bp的期望范围内的预期扩增。用来多重地扩增10种SNP的引物被设计成是更长的，具有更低的Tm且是更AT丰富的，这是被已建立的PCR引物设计标准建议的。当第11种引物对使用已建立的PCR设计标准(即，引物是短的，具有高的Tm且不是AT丰富的)来设计并被添加至10对时，所得的多重复用显示靶DNA的非特异性扩增。如在图4B和4D中所见，第11种常规设计的引物对的添加干扰10种非常规引物对并导致靶向的SNP的不成功的多重扩增。然而，也是遵循与10种引物对相同标准非常规设计的第11种引物对的添加导致SNP靶的成功扩增(图4C)。

因此，在一些实施方案中，多种引物的每种具有低的解链温度，例如，小于60℃或约50℃至约60℃，和/或具有至少24个核苷酸的长度，例如，约24个核苷酸至约38个核苷酸。在一些实施方案中，多种引物的每种包含同聚物核苷酸序列。

在一些实例中，非常规设计的引物包含在靶向的STR和SNP侧翼的序列以及另外的非模板序列。另外的序列可以是，例如，在文库制备或测序方法期间服务一定目的的标签序列。例如，标签序列可以是捕获序列，诸如可通过用于纯化文库片段的固定化伴侣部分捕获的半抗原部分。半抗原部分的实例是可通过用于从反应组分等分离文库片段的链霉亲和素捕获的生物素。标签序列还可以是扩增序列，例如，该扩增序列与扩增引物互补并被用于一个或更多个扩增反应。图2和3示出了在第一轮扩增后的第二轮扩增中使用的标签序列的实例。标签序列也可以是序列标签。图2和3还示出了序列标签的实例，在测序中，i5衔接子和i7衔接子被用作如本文描述的合成测序反应期间的杂交、簇生成和测序引物。标签序列的另一个实例是独特分子标识符或UMI，如图3中所示。

UMI包含可在测序期间被使用以校正PCR和测序误差的随机核苷酸段，从而将另外层次的误差校正添加至测序结果。UMI可为从，例如，3-10个核苷酸长，然而数目将取决于输入DNA的量。例如，如果使用1ng DNA以靶向约250个位点，则预期将需要约350个拷贝x 250个靶，所以约90,000个不同的UMI。如果采用更多的DNA，例如，10ng，则可能需要约1百万个不同的UMI。来自同一PCR反应的所有PCR重复将具有相同的UMI序列，因此，可将重复进行比较，且序列中的任何误差，诸如单个碱基取代、缺失、插入(即，PCR中的扫描残迹)可经生物信息学从测序结果中排除。独特分子标识符也可被用于混合的样品的分析中。混合的样品，例如，被雄性DNA污染的雌性DNA样品，可使用UMI序列被解卷积以报告雌性DNA和雄性DNA贡献两者。例如，对于两种混合的DNA，可存在总计四种不同的重复数目；然而，如果两种样品的混合物共享在特定基因座处的等位基因，则可存在少于四种。可使用用于确定DNA分子的初始群体中的不同等位基因的数目的UMI区分这些共享的等位基因并确定近似百分比。例如，初始分子可被计数，并且如果较少贡献者以，例如，5％存在，则5％的UMI将鉴定一种基因型，且95％将鉴定第二基因型。在PCR之后，如果在扩增后等位基因中的一个(或也许更多个)是偏倚的，则将观察不到5:95的比率。然而，在使用UMI检测和校正精简PCR重复之后，可使用UMI校正偏比。当试图区分来自PCR的扫描残迹假象和真正的较小贡献者时，这是重要的。

本发明方法的引物可包含一种或更多种标签序列。标签序列可以是与靶序列不同源的一个或更多个引物序列，但例如可被用作用于一个或更多个扩增反应的模板。标签序列可以是捕获序列，例如半抗原序列诸如可被用来纯化扩增子以与反应组分分开的生物素。标签序列可以是诸如衔接子序列的序列，该衔接子序列有利于捕获在基底上的文库扩增子，例如，用于如本文描述的合成测序技术的预期中的桥式扩增。此外，标签序列可以是通常在，例如3-10个核苷酸之间的，构成可在文库制备和/或测序方法期间被用于误差校正的随机核苷酸段的独特分子标识符标签。

另外，对于多重PCR反应，包含寡核苷酸引物以将基本上所有的靶一起汇集成一种混合物是有利的。然而，如本文公开的，寡核苷酸一反常态地长于使用传统参数设计的引物。标签序列至引物的进一步添加，诸如附加基因靶特异性序列的UMI的添加创建仍更长的引物序列。在一些实施方案中，可将甘氨酸甜菜碱(约1.5M)添加至多种引物。例如，在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含如下的甜菜碱浓度，该甜菜碱浓度为、为约或多于100mM、200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1M、1.2M、1.3M、1.4M、1.5M、1.6M、1.7M、1.8M、1.9M、2M、3M、4M、5M、6M、7M、8M、9M、10M、或在这些值的任何两个之间的范围，例如，从500mM至2M、从1M至1.5M等等。因此，当实践本公开内容的方法时，如本文描述的用例如，以约1.5M甜菜碱补充的引物混合物将是有利的。在一些实施方案中，可将甜菜碱添加至多种引物。例如，在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含如下的甘油浓度，该甘油浓度为、为约或多于100mM、200mM、300mM、400mM、500mM、600mM、700mM、800mM、900mM、1M、1.2M、1.3M、1.4M、1.5M、1.6M、1.7M、1.8M、1.9M、2M、3M、4M、5M、6M、7M、8M、9M、10M，或在这些值的任何两个之间的范围，例如，从500mM至2M、从1M至1.5M等等。因此，当实践本公开内容的方法时，如本文描述的用例如，以约1.5M甘油补充的引物混合物将是有利的。

在一些实施方案中，还可修改与在本公开内容的扩增方法中使用的非常规引物设计相关的缓冲液。例如，在一些实施方案中，与连同常规设计的引物一起使用的扩增缓冲液的盐浓度相比，扩增缓冲液的盐浓度，诸如KCl、LiCl、NaCl或其组合增加。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含以下KCl浓度，该KCl浓度为、为约或多于60mM、70mM、80mM、90mM、100mM、110mM、120mM、130mM、140mM、150mM、160mM、170mM、180mM、190mM、200mM、250mM、300mM、400mM、500mM、或在这些值的任何两个之间的范围，例如，从60mM至200mM、从100mM至250mM，等等。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含为约145mM的KCl浓度。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含以下LiCl浓度，该LiCl浓度为、为约或多于60mM、70mM、80mM、90mM、100mM、110mM、120mM、130mM、140mM、150mM、160mM、170mM、180mM、190mM、200mM、250mM、300mM、400mM、500mM、或在这些值的任何两个之间的范围，例如，从60mM至200mM、从100mM至250mM，等等。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含为约145mM的LiCl浓度。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含以下NaCl浓度，该NaCl浓度为、为约或多于60mM、70mM、80mM、90mM、100mM、110mM、120mM、130mM、140mM、150mM、160mM、170mM、180mM、190mM、200mM、250mM、300mM、400mM、500mM，或在这些值的任何两个之间的范围，例如，从60mM至200mM、从100mM至250mM，等等。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含为约145mM的NaCl浓度。

在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液可包含MgSO₄、MgCl₂或其组合。

试剂盒

本文公开的实施方案提供了试剂盒，所述试剂盒包含至少一种容器装置，其中该至少一种容器装置包含如本文公开的多种引物。在一些实施方案中，容器装置可以是管、孔、微量滴定板等等。在一些实施方案中，多种引物可与为、为约或多于以下的许多串联重复序列特异性杂交：4、6、8、10、12、14、16、18、24、30、40、50、60、70、80、90、100，或者在任何两个值之间的范围，诸如4至12、10至24、30至100，等等。在一些实施方案中，多种引物可与至少24种串联重复序列特异性杂交。在一些实施方案中，多种引物可与至少60种串联重复序列特异性杂交。本文公开的方法及组合物可被用来在单个反应中扩增多种SNP靶序列。例如，多种引物可与为、为约或多于以下的许多SNP序列特异性杂交：4、6、8、10、12、14、16、18、24、30、40、50、60、70、80、90、100或者在任何两个值之间的范围，诸如4至12、10至24、30至100，等等。在一些实施方案中，多种引物可与至少30种SNP序列特异性杂交。在一些实施方案中，多种引物可与至少50种SNP序列特异性杂交。

在一些实施方案中，至少一个容器装置包含扩增缓冲液。在一些实施方案中，还可修改与在本公开内容的扩增方法中使用的非常规引物设计相关的缓冲液。例如，在一些实施方案中，与连同常规设计的引物一起使用的扩增缓冲液的盐浓度相比，扩增缓冲液的盐浓度，诸如KCl、LiCl、NaCl或其组合增加。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含以下KCl、NaCl或LiCl浓度，该KCl、NaCl或LiCl浓度为、为约或多于60mM、70mM、80mM、90mM、100mM、110mM、120mM、130mM、140mM、150mM、160mM、170mM、180mM、190mM、200mM、250mM、300mM、400mM、500mM，或在这些值的任何两个之间的范围，例如，从60mM至200mM、从100mM至250mM，等等。在一些实施方案中，在用如本文公开的非常规引物的扩增反应中使用的扩增缓冲液包含为约145mM的KCl、NaCl或LiCl浓度。

测序方法

本发明方法不限于任何特定的测序平台，然而，本文关于SBS或合成测序例示了并行测序的类型。特别可适用的技术是以下的那些：其中核酸被附加在阵列中的固定位置处，使得它们的相对位置不改变且其中阵列被反复成像。其中以不同颜色通道获得图像的实例是特别可适用的，所述不同颜色通道例如，与用于区分一种核苷酸碱基类型与另一种的不同标记物相符。

SBS技术通常包括通过迭代添加针对模板链的核苷酸来酶促延伸新生核酸链。在传统的SBS方法中，在每个递送中在聚合酶的存在下，可提供针对靶核苷酸的单个核苷酸单体。然而，在本文描述的方法中，在每个递送中在聚合酶的存在下，可提供针对靶核酸的多于一种类型的核苷酸单体。

SBS技术可采用具有标记物部分的核苷酸单体或缺失标记物部分的那些。因此，掺入事件可基于以下来检测：标记物的特性，诸如标记物的荧光；核苷酸单体的特性，诸如分子量或电荷；掺入核苷酸的副产物，诸如释放的焦磷酸盐；等。在其中两个或更多个不同的核苷酸存在于测序试剂中的一些实例中，不同的核苷酸可以是彼此可区分的，或可选地，两个或更多个不同的标记物可在使用的检测技术下是难区分的。例如，存在于测序试剂中的不同的核苷酸可具有不同的标记物，并且它们可使用适当的光学器件来区分，如通过由Solexa(现为Illumina,Inc.)开发的测序方法例示的。

一些实例包括焦磷酸测序技术。焦磷酸测序检测随特定核苷酸被掺入到新生链释放的无机焦磷酸(PPi)(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)"Real-time DNA sequencing using detection of pyrophosphate release."Analytical Biochemistry 242(1),84-9；Ronaghi,M.(2001)"Pyrosequencing shedslight on DNA sequencing."Genome Res.11(1),3-11；Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)"A sequencing method based on real-time pyrophosphate."Science 281(5375),363；美国专利号6,210,891；美国专利号6,258,568以及美国专利号6,274,320，其公开内容通过引用以其整体并入本文)。在焦磷酸测序中，释放的PPi可通过立即被ATP硫酸化酶转化成腺苷三磷酸(ATP)来检测，并且产生的ATP的水平经由萤光素酶产生的质子来检测。待测序的核酸可被附连至在阵列中的特征，并且可将阵列成像以捕获由于核苷酸在阵列的特征处的掺入产生的化学发光信号。在阵列用特定核苷酸类型(例如，A、T、C或G)处理之后，可获得图像。在添加每个核苷酸类型之后获得的图像将在阵列中哪个特征被检测到的方面不同。图像中的这些差异反映阵列上的特征的不同序列内容。然而，每个特征的相对位置将在图像中保持不变。图像可使用本文陈述的方法来储存、处理并分析。例如，在用每种不同核苷酸类型处理阵列之后获得的图像可以以与本文例示的用于从基于可逆终止子的测序方法的不同检测通道获得的图像相同的方式来处理。

在SBS的另一个实例中，循环测序通过逐步添加包含以下的可逆终止子核苷酸来完成：例如，如，例如，在WO 04/018497和美国专利号7,057,026中描述的可切割或可光漂白的染料标记物，其公开内容通过引用并入本文。该方法被Solexa(现为Illumina Inc.)商业化，并且被描述于WO 91/06678和WO 07/123,744中，其中的每个通过引用并入本文。其中终止可被翻转且荧光标记物被切割的荧光标记的终止子的可用性促进高效循环可逆终止(cyclic reversible termination,CRT)测序。聚合酶还可被共工程化，以高效掺入并延伸这些修饰的核苷酸。可与本文描述的方法和系统一起使用的另外的示例性SBS系统和方法被描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO 05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO 07/010,251、美国专利申请公布号2012/0270305以及美国专利申请公布号2013/0260372中，其公开内容通过引用以其整体并入本文。

一些实例可采用使用少于四种不同标记物检测四种不同的核苷酸。例如，SBS可采用在美国专利申请公布号2013/0079232的并入的材料中描述的方法和系统来进行。作为第一实例，一对核苷酸类型可在相同波长进行检测，但基于对该对的一个成员相比于另一个的强度差异，或基于该对的一个成员的变化(例如，经由化学修饰、光化学修饰或物理修饰)进行区分，该变化引起相比于该对的另一个成员检测的信号的明显信号出现或消失。作为第二实例，可在特定条件下检测四种不同核苷酸类型中的三种，同时第四种核苷酸类型缺乏在那些条件下可被检测到的标记物，或在那些条件下被最低限度检测到(例如，由于背景荧光的最低限度检测(minimal detection)等等)。前三种核苷酸类型向核酸的掺入可基于它们各自信号的存在来确定，且第四核苷酸类型向核酸的掺入可基于任何信号的不存在或最低限度检测来确定。作为第三实例，一种核苷酸类型可包括在两个不同通道中被检测到的标记物，而其他核苷酸类型在这些通道的不超过一个通道中被检测到。前述提及的三种示例性构型不被视为是相互排斥的，且可以以多种组合一起使用。将所有三个实例组合的示例性实施方案是基于荧光的SBS方法，该基于荧光的SBS方法使用在第一通道被检测到的第一核苷酸类型(例如dATP具有当被第一激发波长激发时在第一通道被检测到的标记物)、在第二通道被检测到的第二核苷酸类型(例如dCTP具有当被第二激发波长激发时在第二通道被检测到的标记物)、在第一通道和第二通道两者中被检测到的第三核苷酸类型(例如dTTP具有当被第一和/或第二激发波长激发时在两个通道中被检测到的至少一个标记物)、以及在任一通道未被检测到或最低限度被检测到的缺乏标记物的第四核苷酸类型(例如dGTP不具有标记物)。

此外，如在美国专利申请公布号2013/0079232的并入的材料中描述的，测序数据可使用单个通道来获得。在此类所谓的单染料(one-dye)测序方法中，第一核苷酸类型被标记但标记物在第一图像生成之后被去除，且第二核苷酸类型仅在第一图像生成之后被标记。第三核苷酸类型在第一和第二图像两者中均保留其标记物，且第四核苷酸类型在两个图像中保持未被标记。

一些实例可采用连接测序技术。此类技术采用DNA连接酶以掺入寡核苷酸并鉴定此类寡核苷酸的掺入。寡核苷酸通常具有与该寡核苷酸杂交的序列中的特定核苷酸的身份相关的不同的标记物。如同其他SBS方法，可在用标记的测序试剂处理核酸特征的阵列之后获得图像。每个图像将显示具有掺入的特定类型的标记物的核酸特征。由于每个特征的不同的序列内容，不同的特征将存在于或不存在于不同的图像中，但特征的相对位置将在图像中保持不变。由基于连接的测序方法获得的图像可如本文陈述来储存、处理和分析。可与本文描述的方法和系统一起采用的示例性SBS系统和方法被描述于美国专利号6,969,488、美国专利号6,172,218以及美国专利号6,306,597，其公开内容通过引用以其整体并入本文。

一些实例可采用纳米孔测序(Deamer,D.W.&Akeson,M."Nanopores and nucleicacids:prospects for ultrarapid sequencing."Trends Biotechnol.18,147-151(2000)；Deamer,D.和D.Branton,"Characterization of nucleic acids by nanoporeanalysis".Acc.Chem.Res.35:817-825(2002)；Li,J.,M.Gershow,D.Stein,E.Brandin,和J.A.Golovchenko,"DNA molecules and configurations in a solid-state nanoporemicroscope"Nat.Mater.2:611-615(2003)，其公开内容通过引用以其整体并入本文)。在此类实施方案中，靶核酸通过纳米孔。纳米孔可以是合成的孔或生物膜蛋白，诸如α-溶血素。当靶核酸通过纳米孔时，每个碱基对可通过测量孔的电导率的波动来鉴定。(美国专利号7,001,792；Soni,G.V.&Meller,"A.Progress toward ultrafast DNA sequencing usingsolid-state nanopores."Clin.Chem.53,1996-2001(2007)；Healy,K."Nanopore-basedsingle-molecule DNA analysis."Nanomed.2,459-481(2007)；Cockroft,S.L.,Chu,J.,Amorin,M.&Ghadiri,M.R."A single-molecule nanopore device detects DNApolymerase activity with single-nucleotide resolution."J.Am.Chem.Soc.130,818-820(2008)，其公开内容通过引用以其整体并入本文)。从纳米孔测序获得的数据可如本文陈述来储存、处理和分析。特别地，可根据本文陈述的光学图像和其他图像的示例性处理，将数据处理为图像。

一些实例可采用包括DNA聚合酶活性的实时监测的方法。核苷酸掺入可通过如被描述于，例如，美国专利号7,329,492和美国专利号7,211,414(其中的每一个通过引用并入本文)中的载有荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测，或者核苷酸掺入可用如被描述于，例如，美国专利号7,315,019(其通过引用并入本文)中的零模波导以及使用如被描述于，例如，美国专利号7,405,281及美国专利申请公布号2008/0108082(其中的每一个通过引用并入本文)的荧光核苷酸类似物和工程化聚合酶来检测。光照可被限制于在表面栓系的(surface-tethered)聚合酶周围的仄升(zeptoliter)-规模体积，使得荧光标记的核苷酸的掺入可以以低背景来观察(Levene,M.J.等"Zero-mode waveguides for single-molecule analysis at highconcentrations."Science 299,682-686(2003)；Lundquist,P.M.等"Parallel confocaldetection of single molecules in real time."Opt.Lett.33,1026-1028(2008)；Korlach,J.等"Selective aluminum passivation for targeted immobilization ofsingle DNA polymerase molecules in zero-mode waveguide nano structures."Proc.Natl.Acad.Sci.USA 105,1176–1181(2008)，其公开内容通过引用以其整体并入本文)。由此类方法获得的图像可如本文陈述来储存、处理和分析。

一些SBS实施方案包括检测将核苷酸掺入延伸产物后释放的质子。例如，基于检测释放的质子的测序可使用电子检测器和从Ion Torrent(Guilford,CT,a LifeTechnologies subsidiary)商业可得的相关技术，或在US 2009/0026082 A1；US 2009/0127589 A1；US 2010/0137143 A1；或US 2010/0282617 A1中描述的测序方法和系统，其中的每一个通过引用并入本文。本文陈述的用于使用动力学排除扩增靶核酸的方法可容易地应用于被用来检测质子的基底。更具体地，本文陈述的方法可被用来产生用来检测质子的扩增子的克隆群体。

以上的SBS方法可以以使多种不同的靶核酸同时操作的多重格式有利地进行。在特定的实施方案中，不同的靶核酸可以在共同反应容器中或在特定基底的表面上被处理。这允许以多重方式便利递送测序试剂、去除未反应的试剂以及检测掺入事件。在使用表面结合的靶核酸的实施方案中，靶核酸可呈阵列格式。在阵列格式中，靶核酸可通常以空间上可区分的方式与表面结合。靶核酸可通过直接共价附连、与珠或其他颗粒附连或者与被附连至表面的聚合酶或其他分子结合来结合。阵列可包括在每个位点(还称为特征)处的单拷贝的靶核酸或者具有相同序列的多个拷贝可存在于每个位点或特征处。多个拷贝可通过扩增方法，诸如，如在下文进一步详细描述的桥式扩增或乳液PCR来产生。

本公开内容的方法采用Illumina,Inc.技术，以用于测序通过实践本文描述的方法创建的DNA谱文库。MiSeq测序仪被用于本文描述的实例的成簇和测序。然而，如先前陈述的和如本领域技术人员理解的，本发明方法不受使用的测序平台的类型限制。

实施例

以下实施例公开了用于DNA谱系分析的数种方法及材料。可对这些方法及材料进行修改，同时保持本发明的精神和范围。依据本公开内容的考虑或本文公开的方法的实践，此类修改对本领域技术人员将变得明显。因此，不意图这些方法或材料被限制于本文公开的具体实施例，但它覆盖落入本公开内容的范围和精神内的所有修改和可选方案。

实施例1-非常规引物设计

来自Illumina,Inc.(San Diego,CA)的计算机设计程序DesignStudio被修改并用于引物设计。当然，本领域技术人员将理解，还可使用可选的引物设计程序诸如Primer3，并且将缺省参数重置以模仿修改参数用于引物设计的意图。设置通常在软件自带的config.xml文件中被重置，然而，当使用不同的软件时这可不同，且典型的做法是咨询具体材料以访问每个软件的缺省参数。以下参数可在引物设计软件中被重置：

1)期望的最小长度的扩增子重置为>60<

2)期望的最大长度的扩增子重置为>120<

3)紧密的候选间距重置为>3<(缺省为30bp)

4)％GC最大探针重置为>60<，以允许增加AT丰富的重复段的数目

5)平均Tm重置为>57<(缺省为59C)，以降低平均Tm

6)最大的Tm重置为>60<(缺省为71)

7)最小的Tm重置为>51<(缺省为55)

8)平均探针长度重置为>28<(缺省为27)

9)最大的探针长度重置为>38<(缺省为30)

10)最小的探针长度重置为>25<(缺省为22)

对于设计SNP引物，用于引物的3’末端的靶的范围设置为“小的”，以保持引物距离靶向的SNP约1bp。在所有的参数重置后，可对序列运行引物设计程序，以确定落入新参数下的引物对候选者。例如，软件的使用者可生成靶列表，其告诉软件访问基因组哪里，以用于设计引物。在本实施例中，靶向的区域被拷贝并粘贴到DesignStudio软件用来定位和靶向引物设计的图形用户界面应用程序。在将靶向的区域输入进程序后，程序指导创建Design文件以启动工具并创建引物设计。在本实施例中，主要的输出是.txt文件，该.txt文件包括引物序列和/或一些包含失败且是“不可设计(undesignable)”的区域，在该点靶向的序列需要被重新定义并重新运行。在本实验中使用的软件提供映射到被指定为靶向的区域的序列上的设计的引物。遵循重置的参数，设计用于扩增的不遵循常规引物设计标准的引物；然而，这允许长STR和短SNP的多重扩增。

在本文公开的方法中有利的设计的STR靶向的引物的实例包括在表1中列出的那些。在本文公开的方法中有利的SNP靶向的引物的实例包括在表2中列出的那些。

表1-无标签的STR靶向的引物及扩增子尺寸

表2-SNP靶向的引物

实施例2-用于数据库分析的DNA谱系分析

本实施例描述遵循图2的工作流程的实验。由于可假定，获得的样品来自其身份已知的个体，本实施例不采用UMI。

对于该实验，STR用如在表3中发现的iSNP多重复用。

表3-身份信息SNP和STR

常染色体STR

当然，另外的SNP和STR可被添加至以上的列表。其他潜在靶的实例包括，但不限于，在表4中发现的那些标志物。

表4-用于多重复用的另外的STR和SNP的实例

引物被设计成包含在3’末端处的基因特异的PCR引物序列和在5’末端处的衔接子标签序列。在该实验中，正向引物包含用于TruSeq Custom扩增子i5衔接子的标签序列，且反向引物包含用于TruSeq小RNA试剂盒i7衔接子的标签序列。标签可被用作扩增引物位点，以及测序引物位点。

连接物i5标签序列5’TACACGACGCTCTTCCGATCT3’(SEQ ID NO：403)

连接物i7标签序列5’CTTGGCACCCGAGAATTCCA3’(SEQ ID NO：404)

为平衡在多重中的STR和SNP之间的扩增，如在实施例1中描述的修改SNP的引物设计参数。使用Illumina的Design Studio设计的原始集合的SNP引物是典型的PCR引物-具有高解链温度且几乎没有二级结构的短序列。Design Studio被用来设计TruSeq Custom扩增子探针并创建下游探针的反向互补物，以制备反向PCR引物。然而，这些引物不能良好地多重复用，且一个劣质引物可能将测定从好的转为劣质的(例如，全部为引物二聚体及无产物)(图4)。在创建用于多重复用的更好引物的尝试中，使用包含错误引发文库特征的Primer3(共享软件)。发现Primer3设计的引物比Design Studio引物在多重测定中表现得甚至更差。出人意料地，生成的数据显示，STR引物是多重复用良好的。观察到，针对STR靶不良设计的引物对没有像SNP引物那样引起多重复用失败。与被称为“良好”的引物不同，STR引物是长的、AT丰富的，并具有低的解链温度。

SNP引物遵循实施例1的参数被重新设计。将用于所有靶的引物混合在一起。对于本实施例，将用于56种STR的引物对与用于75种iSNP、aSNP及表型信息SNP的引物对混合。将聚合酶(在本实施例中为热启动Phusion II)添加至PCR所需的所有组分的主混合物，并添加引物。将混合物用移液器吸取进PCR板的孔中，但，扩增还可在管等中进行。将DNA以在15微升体积中的纯化的DNA添加至板，然而，还可使用来自拭子或未处理的滤纸的血液或口腔样品或者直接来自FTA卡上的血液或口腔样品等的裂解提取物。对于该实验，纯化的对照2800M DNA以1ng和100pg来使用。使反应物经历按照以下方案的确定数目循环(在本实施例的情况下，25个循环)的PCR：

在循环之后，将板从热循环仪中取出。用以下使反应物至50微升：聚合酶(KapaHiFi，Kapa Biosystems)、包含PCR所需的所有组分的PCR主混合物以及一对衔接子(一个为i7衔接子且一个为i5衔接子)。将第二轮PCR进行按照以下方案的确定数目的循环(在本实施例的情况下为10个循环)，以生成测序文库：

在循环之后，将包含完成的文库的板从热循环仪中取出。这时，可将样品以体积汇集并使用例如磁珠(SPRI)进行纯化为单一样品。样品还可被单独地纯化。池(pool)或单独的文库可通过使用基于qPCR的方法、通过使用片段分析仪(Fragment Analyzer)或BioAnalyzer或通过使用PicoGreen和板阅读器(如在本实施例的情况一样)进行定量。熟练的技术人员将知道许多用于文库定量的选项。如果文库被单独地纯化，它们可被归一化至每个浓度2nM，并以体积汇集。

将纯化的文库的池变性、稀释、成簇并以350个循环测序运行及两个索引读段(index read)在MiSeq测序仪上测序。在测序之后，使样品根据衔接子序列解多重复用，并通过取证基因组管道(Forensics Genomics pipeline)(Illumina,Inc.)进行分析。将STR读段与SNP读段分离，并独立地进行分析。STR使用在先专利申请(PCT/US2013/30867，通过引用以其整体并入本文)中描述的算法进行分析。重复数目和任何序列变异连同读段数目一起被报告。SNP使用清单(manifest)进行分析，且调用连同读段数目一起被报告。计算STR基因座的等位基因之间的相对平衡(最小/最大％)、基因座之间的平衡(％CV)、误差率以及扫描残迹率。初始数据库分析多重中的STR的结果示于图5A-C中。平衡(平均平衡80％)、扫描残迹(～3％)及误差率(小于5％)满足针对被包括在本实施例中的基因座的设计输入要求。％CV(～142％)使用所有56个基因座来计算。尽管所用的引物显示基因座间平衡，预期了另外的引物优化以改进基因座间平衡。对于已知基因座的调用匹配对于2800M的发表结果。对于SNP的结果示于图5D-E中。对于在大的多重中的56个STR基因座的覆盖、等位基因调用及其他假象示于图6中。这些图模拟由CE技术产生的电泳图。柱类似于对于指定的等位基因的峰(X轴)，且读段计数(Y轴)类似于RFU。取决于SNP，对于SNP的覆盖是从10-2500X的任何处，然而，被多重复用的每个SNP被计数并提供准确调用。

实施例3-用于刑事案件的DNA谱系分析

本实施例描述遵循图3的工作流程的实验。由于可假定获得的样品来自其身份尚未知晓的个体，本实施例将UMI掺入引物。

对于该实验，STR用如见于表5中的iSNP、aSNP及表型信息SNP多重复用。

表5-案件工作STR和SNP

本实施例将UMI掺入STR引物。对于这些实例，仅STR引物包含UMI，然而，如果需要，STR引物和SNP引物两者可包括UMI，且实践中不排除该选项。然而，对于本实施例，出于证实的目的，仅STR引物掺入UMI。在两个循环的PCR期间，引入独特分子标识符(图3)。首先，如同对于实施例2，PCR引物包含在3’末端处的基因特异性PCR引物序列和在5’末端处的衔接子标签序列，与在实施例2中对于i5和i7序列使用的标签序列相同。在该实验中，UMI被放置在基因特异性引物序列和标签序列之间。在本实施例的情况下，存在用于针对正向引物和反向引物两者上的UMI的五种随机碱基。将对于所有靶的引物混合在一起。引物混合物包括26种常染色体STR引物对和86种SNP引物对(覆盖92种SNP)。将聚合酶(在本实施例中为热启动Phusion II)添加至PCR所需的所有组分的主混合物，并添加引物。将混合物用移液器吸取进PCR板的孔。DNA以纯化的DNA，最佳地1ng被添加至板。如在实施例2中一样，来自2800M对照的纯化的DNA以1ng来测试。使多重反应混合物经历按照以下方案的两个循环的PCR：

在循环之后，将样品从热循环仪中取出，并将大肠杆菌(E.coli)单链DNA结合蛋白(SSB)添加至反应。预期，SSB通过未使用的加标签的基因特异性引物减少引物二聚体，并阻止来自这些引物的任何更多的扩增。将SSB与样品在冰上孵育，可选地还可使用RT或37C孵育。在该孵育之后，将聚合酶(在本实施例中为热启动Phusion II)添加至PCR所需的所有组分的主混合物，且将主混合物与一对衔接子(i7和i5衔接子)添加至样品，并按照以下方案循环确定数目的循环(在该实验中为34个循环)：

95C	3分
		95C	30秒
66C	30秒
		72C	1分
72C	5分
		10C	保持

样品用SPRI珠纯化，且单独的文库可通过使用基于qPCR的方法、通过使用片段分析仪(如在本实施例的情况一样)或BioAnalyzer或通过使用PicoGreen和板阅读器进行定量。文库被归一化至每个浓度2nM，并以体积汇集。

将纯化的文库的池变性、稀释、成簇并以350x100个循环测序运行及两个索引读段使用MiSeq测序仪测序。在测序之后，数据如在实施例2中报告的来确定。然而，由于引物包含UMI，使用UMI以通过使用PCR重复瓦解(collapse)数据，以去除测序和PCR误差及假象。SNP使用清单(manifest)进行分析，且调用连同读段数目一起被报告。计算等位基因之间的相对平衡(最小/最大％)、基因座之间的平衡(％CV)、误差率以及扫描残迹率(仅对于STR)。对于初始案件工作多重复用的结果示于图7A-E中。对于在大的多重中的26个STR基因座的覆盖、等位基因调用及其他假象示于图8中。这些图模拟由CE产生的电泳图。柱类似于峰，且读段计数类似于RFU。取决于SNP，对于SNP的覆盖是从10-5500X的任何处，然而，被多重复用的每个SNP被计数并提供有用的结果。

由这些研究产生的一个结果是，扫描残迹被显示为PCR假象。这已被许多研究者假设(且聚合酶滑移已在人结肠癌中被指示)，但这尚未对取证测定证实。UMI可被用来显示扫描残迹确实是PCR假象。具有n+1或n-1个重复的产物具有与具有正确数目重复的产物相同的UMI(图9)。与进行UMI校正的图9B相比，在图9A中，每个基因座显示没有UMI校正的结果。如显示的，没有UMI校正，在等位基因之间的平衡没有进行UMI校正时那么好。此外，没有UMI校正时，存在明显的相当多的扫描残迹。柱间线以上的柱的部分代表测序误差，而在线的下部代表在STR序列内的正确序列。使用UMI校正，误差被大大减少。例如，SE33基因座具有用UMI校正去除的误差。误差校正可对于为刑事案件提供可能的最准确的DNA谱系分析是非常重要的。

实施例4-使用12个样品个体的DNA谱系分析

方法和材料

遵循图3的工作流程，测试来自12个样品个体的DNA(样品编号：1、3、4、5、6、7、10、13、14、15、16、17)和一个参考基因组(2800M)。该实验将UMI掺入进STR引物中，如在实施例3中描述的。每个样品的两个重复用ForenSeq DNA签名文库制备试剂盒在MiSeq测序仪上进行分析。1ng DNA被用于每个重复，使用DNA引物混合物B：收集的样品混合物，其包含用于61种STR加上牙釉蛋白、95种身份信息SNP、56种祖先信息SNP、22种表型信息SNP(2种祖先SNP还被用于表型预测)的引物。

缺省设置

STR：分析阈值＝6.5％；解释阈值＝15％。SNP：分析阈值＝3％；解释阈值＝15％。

12个样品个体的DNA谱系分析的高水平测序调用，诸如覆盖和调用的基因座示于图12中。如可观察到的，在两个重复中，每个基因座被至少100,000个读段覆盖。仅两个样品产生失败的STR调用(61个中的一个)。在两个重复中，在所有个体中，所有173种SNP被成功调用。两个样品个体的样品STR调用示于图16中。两个样品个体的样品SNP调用示于图17中。图13示出了群体统计，诸如美国国家标准与技术研究所(National Institute ofStandards and Technology)(NIST)常染色体STR(auto-STR)的随机匹配概率(RMP)、NISTY-STR的95％置信单倍型频率、dbSNP iSNP的RMP、以及来自美国Y-STR数据库的STR的RMP。

12个样品个体和参考个体的表型，诸如眼睛颜色和头发颜色基于实验中pSNP的基因型进行预测，并与自报告的表型进行比较(图14)。观察到在预测的和报告的表型之间的高度相关性。

12个样品个体的祖先使用实验中的56种aSNP的基因型进行预测。对每个样品个体的PCA1和PCA3评分进行计算，并针对参考样品绘制在祖先图上。如图15中示出的，样品个体的祖先可基于祖先图上的位置进行预测。十四个质心点(centroid point)被包括在祖先图(圆圈)中。基于最近的质心点预测每个样品个体的祖先。

DNA谱系分析实验还显示在STR基因座和SNP基因座两者内的高水平的基因座内平衡(如可在图18中所见的)，及低水平的扫描残迹(如可在图19中所见的)。

12个个体中的六个加上2800M具有至少一个等距杂合子基因座，这示于图20中。等距杂合子基因座被定义为具有相同重复数、是同样平衡的两个不同序列的STR。使用关于STR D8S1179中的变体的信息，样品15的13个等位基因被追溯至祖母样品17(图21)。STRD13S317中的类似变体信息被用来追溯样品15的等位基因。然而，在该情况下，不能确定任一等位基因的起源(图22)。

实施例5-用于研究、法医或亲子鉴定用途的DNA谱系分析

本实施例是基于在ForenSeq^TMDNA签名制备指南(Illumina,San Diego,CA)中描述的工作流程，其内容在此通过引用以其整体并入。

纯化的DNA或粗制裂解物可被用于本实施例。对于纯化的DNA，各自1ng样品用不含核酸酶的水稀释至0.2ng/μl。对于粗制裂解物，将各自2μl样品用3μl不含核酸酶的水稀释。主混合物被设置为用于八个或更多个反应。对于每个反应，将5.4μl ForenSeq PCR1反应混合物、0.4μl ForenSeq酶混合物和5.8μl DNA引物混合物(A或B)添加进1.5ml微量离心管中。将10μl主混合物转移至PCR板的每个孔中，并添加DNA或裂解物。使多重反应混合物经历按照以下方案的PCR：

98℃持续3分。

以下的8个循环：

96℃持续45秒

80℃持续30秒

以指定的斜坡模式(ramping mode)，54℃持续2分

以指定的斜坡模式，68℃持续2分

以下的10个循环：

96℃持续30秒

以指定的斜坡模式68℃持续3分

68℃持续10分。

在10℃保持。

在循环之后，将样品从热循环仪中取出。将ForenSeq PCR2反应混合物与一对衔接子(i7和i5衔接子)添加至样品，并按照以下方案循环15个循环：

98℃持续30秒。

以下的15个循环：

98℃持续20秒

66℃持续30秒

68℃持续90秒

68℃持续10分

在10℃保持。

样品用样品纯化珠来纯化，且文库以体积归一化和汇集。汇集的文库在杂交缓冲液(HT1)中稀释，添加人类测序对照(HSC)，并且热变性以准备用于测序。

实施例6-对降解的DNA的基因分型

图23示出了使用代表降解的DNA的剪切和/或DNA酶处理的DNA的基因分型结果。如图显示的，对于剪切的DNA，多于50％STR和SNP基因座被正确调用。对于少于100bp的DNA，实现了10^-19的随机匹配概率(RMP)。还使用降解的DNA预测了正确的祖先。

实施例7-基因分型灵敏度

图24和25示出了在从7.82pg至1ng的亚纳克DNA输入水平的基因分型灵敏度结果。如显示的，对于STR和SNP两者，在125ng输入DNA下，100％等位基因成功调用。在低至7.82pg输入DNA下，多于50％的等位基因成功调用。对于大部分基因座，在1ng输入DNA下，基因座内平衡大于70％。

在说明书中使用的表示成分、反应条件等的数量的所有数字在所有情况下被理解为由术语“约”修饰。因此，除非相反指示，否则在其中陈述的数值参数是近似值，该近似值可取决于试图获得的期望性能而变化。至少且不是为了试图限制将等同原则应用于在要求本申请的优先权的任何申请的任何权利要求的范围，每个数值参数应根据有效数字的数目和普通的修约方法来解释。

本文引用的所有参考文献，包括但不限于公布和未公布的申请、专利及著作参考文献通过引用以其整体并入本文，且在此构成本说明书的一部分。在某种程度上，通过引用并入的出版物及专利或专利申请与被包含在本说明书中的公开内容抵触时，本说明书旨在取代和/或优先于任何此类矛盾的材料。

以上出版物或文件的引用不被理解为任何前述是相关现有技术的承认，其也不构成作为这些出版物或文件的内容或日期的任何承认。

尽管本发明已结合其实施方案参考附图被充分地描述，应该注意，多种变化和修改将对本领域技术人员变得明显。此类变化和修改被理解为被包括在本发明的范围内。本发明的多种实施方案应该被理解为，它们仅通过示例的方式而非通过限制的方式来呈现。同样地，多种图表可描绘用于本发明的示例性结构或其他配置，这样做是为了有助于理解可被包括在本发明中的特征和功能。本发明不限于说明的示例性结构或配置，而是可使用多种可选的结构及配置来实施。另外，尽管以上根据多种示例性实施方案和实施来描述本发明，应该理解，在一个或更多个单独的实施方案中描述的多种特征及功能在它们的适用性方面不限于用它们来描述的特定实施方案。反而，它们可单独地或以一些组合被应用于本发明的一个或更多个其他实施方案，不管此类实施方案是否被描述，且不管此类特征是否被呈现为是描述的实施方案的一部分。因此，本发明的宽度和范围不应该受到任何以上描述的示例性实施方案的限制。

除非另外明确指明，在该文件中使用的术语和措辞以及其实施方案应被理解为是开放式的，而非限制性的。作为前述的实例：术语“包括(including)”应该被读为意指“包括，但不限于”等；术语“实例(example)”被用来提供讨论的项目的示例性实例，而非其穷举或有限的列表；且形容词诸如“常规的(conventional)”、“传统的(traditional)”、“正常的(normal)”、“标准的(standard)”、“已知的(known)”以及类似含义的术语不应该被解释为将所描述的项目限制于给定的时间段或在给定的时间时可用的项目。而且相反地，这些术语应该被读为包括可以是现在或在将来的任何时候可用、知晓的常规的、传统的、正常的或标准的技术。同样地，与连词“和(and)”连接的一组项目不应该被读为要求那些项目的每个及每一个存在于该组内，而(but rather)应该被读为“和/或”，除非从上下文明显或另外明确指明。类似地，与连词“或(or)”连接的一组项目不应该被读为要求该组之中相互排他性，而应该被读为“和/或”，除非它从上下文明显或另外明确指明。此外，尽管本发明的项目、要素或组分可以以单数来描述或要求保护，复数也被预期在其范围内，除非明确指明限制为单数。例如，“至少一种”可指单数或复数，并且不限于任一种。扩展词和措辞诸如“一种或更多种”、“至少”、“但不限于”或其他类似的措辞在一些情况的存在不应被读为意指，在此类扩展措辞可以不存在的情况下意图或要求较窄的情况。

Claims

1.一种用于构建DNA谱的方法，所述方法包括：

提供核酸样品，

在多重反应中用多种引物扩增所述核酸样品以生成扩增产物，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复的至少一种靶序列特异性杂交，以及

确定在所述扩增产物中的所述至少一种SNP和所述至少一种串联重复的基因型，从而构建所述核酸样品的DNA谱。

2.如权利要求1所述的方法，所述方法包括从所述扩增产物生成核酸文库。

3.如权利要求2所述的方法，所述方法包括确定所述核酸文库的序列。

4.如权利要求1-3中任一项所述的方法，其中所述核酸样品来自人类。

5.如权利要求1-3中任一项所述的方法，其中所述核酸样品来自环境样品、植物、非人类动物、细菌、古细菌、真菌或病毒。

6.如权利要求1-5中任一项所述的方法，其中所述至少一种SNP指示所述核酸样品的来源的祖先或表型特征。

7.如权利要求1-6中任一项所述的方法，其中所述DNA谱被用于疾病诊断或预后、癌症生物标志物鉴定、遗传异常鉴定或遗传多样性分析的一种或更多种。

8.如权利要求1-6中任一项所述的方法，其中所述DNA谱被用于数据库分析、法医、刑事案件工作、亲子鉴定或个人鉴定的一种或更多种。

9.如权利要求1-8中任一项所述的方法，其中所述多种引物的每种具有低的解链温度和/或具有至少24个核苷酸的长度。

10.如权利要求9所述的方法，其中所述多种引物的每种具有小于60℃的解链温度。

11.如权利要求9所述的方法，其中所述多种引物的每种具有为约50℃至约60℃的解链温度。

12.如权利要求9-11中任一项所述的方法，其中所述多种引物的每种具有至少24个核苷酸的长度。

13.如权利要求9-11中任一项所述的方法，其中所述多种引物的每种具有约24个核苷酸至约38个核苷酸的长度。

14.如权利要求9-13中任一项所述的方法，其中所述多种引物的每种包含同聚物核苷酸序列。

15.如权利要求1-14中任一项所述的方法，其中所述核酸样品通过聚合酶链式反应(PCR)来扩增。

16.如权利要求15所述的方法，其中在具有相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度的扩增缓冲液中扩增所述核酸样品。

17.如权利要求16所述的方法，其中所述盐包括KCl、LiCl、NaCl或其组合。

18.如权利要求16所述的方法，其中所述盐包括KCl。

19.如权利要求18所述的方法，其中所述扩增缓冲液中的KCl的浓度为约100mM至约200mM。

20.如权利要求18所述的方法，其中所述扩增缓冲液中的KCl的浓度小于约150mM。

21.如权利要求18所述的方法，其中所述扩增缓冲液中的KCl的浓度为约145mM。

22.如权利要求1-21中任一项所述的方法，其中所述SNP是祖先SNP、表型SNP、身份SNP或其组合。

23.如权利要求1-22中任一项所述的方法，其中所述多种引物与至少30种SNP特异性杂交。

24.如权利要求1-22中任一项所述的方法，其中所述多种引物与至少50种SNP特异性杂交。

25.如权利要求1-24中任一项所述的方法，其中所述串联重复是短串联重复(STR)、中度串联重复(ITR)或其变体。

26.如权利要求1-25中任一项所述的方法，其中所述多种引物与至少24种串联重复序列特异性杂交。

27.如权利要求1-25中任一项所述的方法，其中所述多种引物与至少60种串联重复序列特异性杂交。

28.如权利要求1-27中任一项所述的方法，其中所述核酸样品包含约100pg至约100ngDNA。

29.如权利要求1-27中任一项所述的方法，其中所述核酸样品包含约10pg至约100pgDNA。

30.如权利要求1-27中任一项所述的方法，其中所述核酸样品包含约5pg至约10pgDNA。

31.如权利要求1-30中任一项所述的方法，其中所述核酸样品包括基因组DNA。

32.如权利要求31所述的方法，其中所述基因组DNA来自法医样品。

33.如权利要求31或32所述的方法，其中所述基因组DNA包含降解的DNA。

34.如权利要求1-33中任一项所述的方法，其中所述至少一种SNP和所述至少一种串联重复的基因型的至少50％被确定。

35.如权利要求1-33中任一项所述的方法，其中所述至少一种SNP和所述至少一种串联重复的基因型的至少80％被确定。

36.如权利要求1-33中任一项所述的方法，其中所述至少一种SNP和所述至少一种串联重复的基因型的至少90％被确定。

37.如权利要求1-33中任一项所述的方法，其中所述至少一种SNP和所述至少一种串联重复的基因型的至少95％被确定。

38.如权利要求1-37中任一项所述的方法，其中所述多种引物的每种包含一种或更多种标签序列。

39.如权利要求38所述的方法，其中所述一种或更多种标签序列包括引物标签、捕获标签、测序标签、独特分子标识符标签或其组合。

40.如权利要求38所述的方法，其中所述一种或更多种标签序列包括引物标签。

41.如权利要求38所述的方法，其中所述一种或更多种标签序列包括独特分子标识符标签。

42.一种构建核酸文库的方法，所述方法包括：

提供核酸样品，以及

在多重反应中用多种引物扩增所述核酸样品以生成扩增产物，所述多种引物与包含单核苷酸多态性(SNP)的至少一种靶序列和包含串联重复序列的至少一种靶序列特异性杂交。

43.如权利要求42所述的方法，其中在所述扩增之前，所述核酸样品不被片段化。

44.如权利要求42或43所述的方法，其中在所述扩增之前，所述靶序列不被富集。

45.如权利要求42-44中任一项所述的方法，其中所述至少一种SNP指示所述核酸样品的来源的祖先或表型特征。

46.如权利要求42-45中任一项所述的方法，其中所述多种引物的每种包含一种或更多种标签序列。

47.如权利要求46所述的方法，其中所述一种或更多种标签序列包括引物标签、捕获标签、测序标签、或独特分子标识符标签或其组合。

48.如权利要求42-47中任一项所述的方法，所述方法包括用第二多种引物扩增所述扩增产物。

49.如权利要求48所述的方法，其中所述第二多种引物的每种包含对应于所述多种引物的引物标签的部分和一种或更多种标签序列。

50.如权利要求49所述的方法，其中所述第二多种引物的一种或更多种标签序列包括捕获标签或测序标签或其组合。

51.如权利要求48-50中任一项所述的方法，所述方法包括将单链结合蛋白(SSB)添加至所述扩增产物。

52.如权利要求42-51中任一项所述的方法，其中所述核酸样品和/或所述扩增产物通过聚合酶链式反应(PCR)来扩增。

53.如权利要求52所述的方法，其中在具有相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度的扩增缓冲液中扩增所述核酸样品和/或所述扩增产物。

54.如权利要求53所述的方法，其中所述盐包括KCl、LiCl、NaCl或其组合。

55.如权利要求53所述的方法，其中所述盐包括KCl。

56.如权利要求55所述的方法，其中所述扩增缓冲液中的KCl的浓度为约100mM至约200mM。

57.如权利要求55所述的方法，其中所述扩增缓冲液中的KCl的浓度小于约150mM。

58.如权利要求55所述的方法，其中所述扩增缓冲液中的KCl的浓度为约145mM。

59.一种核酸文库，所述核酸文库使用权利要求42-58中任一项所述的方法构建。

60.一种核酸文库，所述核酸文库包含多种核酸分子，其中所述多种核酸分子包括侧翼为第一对标签序列的至少一种串联重复序列和侧翼为第二对标签序列的至少一种单核苷酸多态性(SNP)序列。

61.如权利要求60所述的方法，其中所述至少一种SNP指示所述多种核酸分子的来源的祖先或表型特征。

62.多种引物，所述多种引物与核酸样品中的至少一种短靶序列和至少一种长靶序列特异性杂交，其中在单个多重反应中使用所述多种引物扩增所述核酸样品产生至少一种短扩增产物和至少一种长扩增产物，其中所述多种引物的每种包含一种或更多种标签序列。

63.如权利要求62所述的多种引物，其中所述短靶序列包含单核苷酸多态性(SNP)且所述长靶序列包含串联重复。

64.如权利要求62或63所述的多种引物，其中所述一种或更多种标签序列包括引物标签、捕获标签、测序标签、独特分子标识符标签或其组合。

65.如权利要求62-64中任一项所述的多种引物，其中所述多种引物的每种具有低的解链温度和/或具有至少24个核苷酸的长度。

66.如权利要求65所述的多种引物，其中所述多种引物的每种具有小于60℃的解链温度。

67.如权利要求65所述的多种引物，其中所述多种引物的每种具有为约50℃至约60℃的解链温度。

68.如权利要求65-67中任一项所述的多种引物，其中所述多种引物的每种具有至少24个核苷酸的长度。

69.如权利要求65-67中任一项所述的多种引物，其中所述多种引物的每种具有约24个核苷酸至约38个核苷酸的长度。

70.如权利要求65-69中任一项所述的多种引物，其中所述多种引物的每种包含同聚物核苷酸序列。

71.如权利要求62-70中任一项所述的多种引物，其中所述核酸样品通过聚合酶链式反应(PCR)来扩增。

72.如权利要求63-71中任一项所述的多种引物，其中所述SNP是祖先SNP、表型SNP、身份SNP或其组合。

73.如权利要求62-72中任一项所述的多种引物，其中所述多种引物与至少30种SNP特异性杂交。

74.如权利要求62-72中任一项所述的多种引物，其中所述多种引物与至少50种SNP特异性杂交。

75.如权利要求63-74中任一项所述的多种引物，其中所述串联重复是短串联重复(STR)、中度串联重复(ITR)或其变体。

76.如权利要求62-75中任一项所述的多种引物，其中所述多种引物与至少24种串联重复序列特异性杂交。

77.如权利要求62-75中任一项所述的多种引物，其中所述多种引物与至少60种串联重复序列特异性杂交。

78.一种试剂盒，所述试剂盒包含至少一种容器装置，其中所述至少一种容器装置包含权利要求62-77中任一项所述的多种引物。

79.如权利要求78所述的试剂盒，所述试剂盒还包含用于扩增反应的试剂。

80.如权利要求79所述的试剂盒，其中所述试剂是用于聚合酶链式反应(PCR)的扩增缓冲液。

81.如权利要求80所述的试剂盒，其中所述扩增缓冲液包括相比于连同常规设计的引物一起使用的扩增缓冲液的盐浓度增加的盐浓度。

82.如权利要求81所述的试剂盒，其中所述盐包括KCl、LiCl、NaCl或其组合。

83.如权利要求81所述的试剂盒，其中所述盐包括KCl。

84.如权利要求83所述的试剂盒，其中所述扩增缓冲液中的KCl的浓度为约100mM至约200mM。

85.如权利要求83所述的试剂盒，其中所述扩增缓冲液中的KCl的浓度小于约150mM。

86.如权利要求83所述的试剂盒，其中所述扩增缓冲液中的KCl的浓度为约145mM。