CN116134526A

CN116134526A - 具有合成等位基因阶梯库的dna分析仪

Info

Publication number: CN116134526A
Application number: CN202180062813.1A
Authority: CN
Inventors: M·万格伯
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2020-08-15
Filing date: 2021-08-13
Publication date: 2023-05-16
Also published as: KR20230053647A; US20220051754A1; BR112023002772A2; CA3191872A1; WO2022040053A1; EP4196986A1; JP2023538043A

Abstract

本发明描述了一种测试包含脱氧核糖核酸(DNA)分子的生物样本是否存在多个等位基因的方法，其中使用该生物样本获得的并且对应于不同等位基因的DNA片段具有不同的片段大小。使用毛细管电泳(CE)仪器来获得该生物样本的测试片段大小测定数据。使用预计算模型来动态地确定一个或多个合成的等位基因阶梯，其中该预计算模型是通过对从使用CE仪器进行的多个先前等位基因阶梯样本运行获得的多个片段大小测定数据集的分析而导出的。使用该一个或多个合成的或实验得到的等位基因阶梯来找到与该测试片段大小测定数据的充分匹配，以鉴定该多个等位基因中的哪些存在于该生物样本中。统计分析可以包括包含两个主分量的主分量分析。

Description

具有合成等位基因阶梯库的DNA分析仪

背景技术

本公开总体上涉及用于脱氧核糖核酸(DNA)分析的系统、装置和方法，并且更具体地涉及用于使用毛细管电泳对短串联重复(STR)序列进行DNA片段分析以用于法医或亲子鉴定目的的系统、装置和方法。

由于据估计超过99.7％的人类基因组在个体与个体之间是相同的，因此需要在剩余的0.3％中找到不同的区域以便在基因水平上区分人。在整个人类基因组中有许多重复的DNA序列。

真核基因组充满了重复的DNA序列(Ellegren 2004)。这些重复的DNA序列有各种大小，并且通常由核心重复单元的长度和连续重复单元的数目或重复区域的总长度来指定。在核心重复中长重复单元可能含有数百至数千个碱基。

具有长度为2个碱基对(bp)至7个bp的重复单元的DNA区域被称为微卫星、简单序列重复(SSR)或最常见的短串联重复(STR)。STR已成为流行的DNA重复标记，因为它们很容易通过聚合酶链式反应(PCR)进行扩增，而没有差异扩增的问题。这是因为来自杂合个体的两个等位基因大小相似，因为重复大小很小。STR标记物中的重复数目在个体之间可能存在很大差异，这使得这些STR可有效用于人员鉴定目的。

历史上，DNA测序产物是使用手动倒入两块玻璃板之间的聚丙烯酰胺凝胶分离的。由于在工作流程、通量和易用性方面有了显著提高，使用变性可流动筛分聚合物(在本文中也称为″凝胶″)的毛细管电泳已在很大程度上取代了较老的凝胶分离技术的使用。根据分子量分离荧光标记的DNA片段。由于无需使用毛细管电泳注入凝胶，因此使用CE的DNA序列分析更容易自动化，并且可以一次加工更多的样本。

STR分型试剂盒由五部分组成：含有设计用于扩增一组STR基因座的寡核苷酸的PCR引物混合物；含有三磷酸脱氧核苷酸、MgCl₂和进行PCR所必需的其他试剂的PCR缓冲液；有时与PCR缓冲液预混合的DNA聚合酶；被扩增以能够校准等位基因重复大小的具有STR基因座的共同等位基因的等位基因阶梯样本；以及用于证实试剂盒试剂正常工作的阳性对照DNA样本。(参见John M.Butler，Advanced Topics in Forensic DNA Typing：Methodology，2012，第5章，第99-139页)。为了能够在样本之间进行比较，还将内部大小标准(也称为内部泳道标准(ILS))添加到每个测试样本和等位基因阶梯样本中。

在毛细管电泳期间，循环测序反应的延伸产物作为电动注射的结果进入毛细管。施加到缓冲测序反应的电压迫使带负电荷的片段进入毛细管，其中电压施加到凝胶上，因此一部分电压施加到片段上。延伸产物根据它们的构象和总电荷按大小分离。样本的电泳迁移率可能受到以下运行条件的影响：缓冲液类型、浓度和pH；运行温度；施加的电压的量；以及使用的聚合物的类型。

在到达正电极之前不久，按大小分离的荧光标记的DNA片段移动穿过激光束的路径。激光束使片段上的染料发出荧光，并通过光学检测器检测荧光。数据收集软件将检测到的荧光信号转换为数字数据，然后将数据记录在例如以逗号分隔的文本文件中。由于每种染料在被激光激发时都会发出不同波长的光，因此可以在一次毛细管注射中检测和区分几组大小相似的片段。

在毛细管电泳(CE)中，将生物样本(诸如核酸样本)在毛细管的入口端注射到毛细管中的变性分离介质(有时被本领域技术人员称为″凝胶″)中，并向毛细管端施加电场。样本例如聚合酶链式反应(PCR)混合物或其他样本中的不同核酸组分由于其电泳特性的差异而以不同的速度迁移到检测点。因此，它们在不同的时间到达光检测器(通常是在可见光范围内操作的荧光检测器或紫外(UV)吸收检测器)。结果呈现为一系列检测的峰，其中每个峰理想地代表样本的一种核酸组分或种类。

任何给定峰(包含伪影峰)的量值最通常是基于核酸(例如DNA)的UV吸收或来自与核酸相关联的一个或多个标记的荧光发射而光学地确定。适用于核酸CE检测的UV和荧光检测器是本领域公知的。

CE毛细管本身通常是石英，尽管可以使用本领域技术人员已知的其他材料。商业上有许多CE系统，具有单毛细管和多毛细管能力。本文描述的方法适用于核酸样本的CE的任何装置或系统。

发明内容

在DNA片段分析中，将未知身份的STR片段与已知大小的一组片段(也称为内部泳道标准(ILS))进行比较。通过插值法，可以确定未知片段的表观大小，并且可以推断片段的身份。然而，本领域技术人员熟知的一个难题是，由于温度效应、凝胶的类型和条件以及其他因素，所述表观大小将随时间变化。在DNA片段分析中测量的给定STR片段的大小不是其″真实″大小，这仅意味着在那个特定时间，在那些特定条件下，STR片段以与相同大小的假定ILS片段相同的速度迁移。

作为一个简单的示例，通过实验发现温度会强烈地影响迁移，因此影响测量的分子大小。总体上，更高的温度将意味着更快的迁移，但是只要样本和ILS迁移速率一致地变化，这就不会影响尺寸。然而，不同片段的速率变化通常存在微小差异，并且通常样本片段将滞后于ILS片段的增加的迁移速率，因此在较高温度下尺寸会变得更大。另一方面，一些样本片段反而可以相对于ILS更快地迁移，因此尺寸变小。这将取决于特定片段和ILS片段的选择。等位基因与ILS之间的迁移速率变化的任何差异都将导致峰的大小测定发生变化。例如，在60摄氏度的对照温度处，相对于50摄氏度的对照温度，给定的DNA片段可以指定为大1个碱基对或更大的大小。

在可以并行运行一组样本的CE仪器上，这些变化大多可以通过在每组中包括一个参比样本来适应。用于STR分析目的的参比样本也称为等位基因阶梯，是这样的样本，其中待研究的每个等位基因的大多数或所有可能的片段已经组装到单个样本中。由于该组是已知的，在给定条件下，可以确定每个片段的身份并将其与表观大小(当其与ILS比较时)相关联。

对于单个毛细管仪器，诸如由Applied Biosystems，Inc.制造的RapidHIT^TMID系统，参比样本不能与样本同时进行，而是通常在与样本运行尽可能相似的条件下并在短时间内执行参比运行。这在法医分析中可能是不利的，其中犯罪现场调查和事故现场调查通常需要快速的周转时间来进行人员鉴定和大量DNA样本的DNA测试。

许多时候，作为备份，系统将具有要比较的较老的等位基因阶梯库，并且该系统具有算法来进行选择以找到可用于鉴定测试样本中的等位基因的充分匹配或最佳匹配的已知等位基因阶梯。如上文所讨论的，温度、凝胶降解、缓冲液、电压变化和凝胶批次的系统变化可能在每次运行中发生，并影响片段大小测定数据测量。电流、光学噪声、凝胶不均匀性、杂质和二级结构的噪声效应也可能发生。

此外，这些较老的等位基因阶梯库可能无法完全代表CE仪器的典型或有效操作范围，并且对这些库的依赖可能潜在地影响DNA鉴定过程的准确性。较老的等位基因阶梯库中的一个问题在于它们的组装方式(例如，手动选择)以及库覆盖变化的程度。库的覆盖范围的密度和维度以及所包括的阶梯的代表性程度也可能具有影响。即使所有外部参数在理论上都可以保持恒定，组成、注入和测量中的噪声的差异也会影响它代表或适合典型或特定样本的程度。使用较老的等位基因库的另一个问题是如何从等位基因阶梯库中选择最佳匹配或充分匹配的等位基因阶梯。如果阶梯库中的阶梯具有明显的噪声或偏离典型或特定样本运行的其他效应，则会增加不明确选择的风险。例如，如果阶梯库中的两个阶梯非常相似，则阶梯选择可能会出现歧义。在一些情况下，无论选择两个阶梯中的哪一个用于鉴定，都可以相同地鉴定测试样本中的峰，并且不担心出现歧义。在另一种情况下，两个非常不同的阶梯可以为测试样本提供充分匹配，并且只有微小的差异(诸如噪声)可以确定最终选择哪个阶梯作为样本的参考。如果测试样本不包括或包括极少量的峰，例如少于五个或十个，则发生这种情况的风险更高。

法医分析中DNA片段的错误鉴定可能会产生非常严重的影响，例如在执法部门的刑事调查中，以及在决定个人生命命运的司法刑事和民事审判中。因此，需要提高使用DNA片段分析的样本鉴定的准确性和加快样本鉴定分析时间的方法。

本发明的实施方案描述了一种测试包含脱氧核糖核酸(DNA)分子的生物样本是否存在多个等位基因的方法，其中使用生物样本获得的并且对应于不同等位基因的DNA片段具有不同的片段大小。使用毛细管电泳(CE)仪器来获得该生物样本的测试片段大小测定数据。使用预计算模型来生成一个或多个合成的或实验得出的等位基因阶梯，其中预计算模型是通过对从使用CE仪器进行的多个先前等位基因阶梯样本运行获得的多个片段大小测定数据集的统计分析而得出的。一个或多个合成等位基因阶梯用于找到与测试片段大小测定数据的充分匹配，以鉴定多个等位基因中的哪些存在于生物样本中。统计分析可以包括包含两个主分量的主分量分析(PCA)。

结合PCA和结合两个主分量的统计模型利用了这样的观点，即对于以其他方式固定和稳定的DNA片段分析系统，特别是那些结合CE仪器的系统，影响DNA片段的表观大小的两个最显著的影响是温度和凝胶降解的程度。

在-个实施方案中，可以通过实验测量每个DNA片段对这些效应(温度和凝胶降解)中的每一个的响应来开发预计算模型，具体地，可以从实验确定被分析的每个DNA片段的响应，其中温度和凝胶降解被严格控制以得出经验迁移模型。通过使用线性回归分析线性组合这些响应，可以估计片段在任何条件下的表观大小。经验表明，这样的估计对于有限范围的条件是准确的。

一种确定DNA片段对凝胶降解和温度效应的这些响应的不同方法是从其中温度(例如，室温和/或分离加热器温度)和凝胶降解随机变化和/或未知的许多样本运行中组装表观大小，并通过执行主分量分析(PCA)开发预计算模型。这种方法具有降低噪声的额外益处，因为这种分析通常会考虑更多的运行。然而，PCA分析不能单独提供温度和凝胶降解的响应；相反，它将提供两组响应，这两组响应可以被线性组合以进行与如上所述的各种受控隔离温度和劣化响应的测量相同的一组估计。具体地，分别来自温度和凝胶降解的主要或很大程度上隔离的效应的响应可以被重建为PCA输出的线性组合。PCA分析还将指示是否存在需要考虑的其他参数。

无论采用何种方法来构建预计算模型，这样的模型都能够在模型有效的任何条件下预测任何片段的表观大小。因此，可以预测任何一组条件下参比运行的结果，并通过反向比较，可以推断在什么条件下进行任何参比运行或任何样本运行。

附图说明

本专利或申请文件含有至少一幅彩色附图。具有彩色附图的此专利或专利申请公开的复本将在请求和支付必需费用之后由专利局提供。

图1示出了根据本发明的实施方案的基于毛细管电泳的DNA分析系统；

图2A示出了根据本发明的实施方案的示例性DNA分析仪器；

图2B示出了可根据本发明的实施方案使用的用于图2A的系统的示例性样本盒的两个透视图；

图2C示出了可根据本发明的实施方案使用的用于图2A的系统的示例性主盒的透视图；

图3示出了根据本发明的实施方案的基于CE的DNA分析系统的工作流程；

图4示出了根据本发明的实施方案可以显示的来自STR分析样本运行的一组示例性扫描；

图5示出了可根据本发明的实施方案使用的现有技术STR分析工作流程过程；

图6示出了根据本发明的实施方案的STR分析工作流程；

图7示出了根据本发明的实施方案的建立经验迁移模型的过程；

图8A示出了根据本发明的实施方案的经验迁移模型的凝胶降解变量的实验结果；

图8B示出了根据本发明的实施方案的经验迁移模型的温度变量的实验结果；

图9示出了根据本发明的实施方案的基于主分量分析(PCA)建立迁移模型的过程；

图10示出了根据本发明的实施方案的在基于PCA的迁移模型中生成的主分量的图形表示；

图11示出了根据本发明的实施方案的基于PCA的STR分析工作流程；

图12示出了根据本发明的另一个实施方案的基于PCA的STR分析工作流程；

图13A示出了手动聚集的阶梯库的PCA分析的图形表示；

图13B示出了根据本发明的实施方案的合成阶梯库的PCA分析的图形表示；

图14示出了根据本发明的实施方案的用于生成合成等位基因阶梯的基于PCA的过程；

图15示出了根据本发明的实施方案的示例性基于PCA的迁移模型；

图16示出了根据本发明的实施方案的使用合成等位基因阶梯的基于PCA的CE仪器验证过程；

图17示出了可以并入本发明的实施方案的示例性计算装置的框图。

虽然参考以上图式描述本发明，但所述图式旨在为说明性的，并且其他实施方案与本发明的精神一致，且在本发明的范围内。

具体实施方式

现将参看附图在下文更充分描述各种实施方案，所述附图形成本发明的一部分且作为说明展示实践实施方案的具体示例。然而，本说明书可以以许多不同的形式来体现，并且不应被解释为限于在本文中阐述的实施方案；相反，提供这些实施方案使得本说明书更加透彻和完整，并将本发明的范围充分地传达给本领域的技术人员。此外，本说明书可以体现为方法或装置。因此，本文中的各种实施方案中的任一个可采取完全硬件实施方案、完全软件实施方案或组合软件和硬件方面的实施方案的形式。因此，以下说明书不应被视为具有限制意义。

图1示出了根据本发明的示例性实施方案的系统100。系统100包括毛细管电泳(″CE″)DNA分析仪器101、一个或多个计算机103和用户装置107。

在本发明的一个实施方案中，系统100包括如本说明书中所定义的示例性商业CE装置，其可以包括Applied Biosystems，Inc.RapidHIT^TMID系统和/或RapidHIT^TM200系统。然而，可以在本发明的实施方案中使用的其他示例性商业CE装置包括但不限于以下：Applied Biosystems，Inc.(ABI)基因分析仪型号310(单毛细管)、3130(4毛细管)、3130xL(16毛细管)、3500(8毛细管)、3500xL(24毛细管)和SeqStudio基因分析仪型号；DNA分析仪3730型号(48毛细管)和3730xL型号(96毛细管)；以及Agilent 7100装置、PrinceTechnologies，Inc.的PrinCE^TM毛细管电泳系统、Lumex，Inc.的Capel-105^TMCE系统和Beckman Coulter的P/ACE^TMMDQ系统等。本发明的实施方案也可考虑用于产生DNA片段大小测定数据的其他电泳系统，诸如凝胶电泳。

参考图1中的系统100，一个实施方案中的CE DNA分析仪器101包括含有缓冲液并接收荧光标记的样本120的源缓冲器118、凝胶毛细管122、目的缓冲器126、电源128和控制器112。源缓冲器118通过毛细管122与目的缓冲器126流体连通。电源128向源缓冲器118和目的缓冲器126施加电压，通过源缓冲器118中的阴极130和目的缓冲器126中的阳极132生成偏压。由电源128施加的电压由通过计算装置103操作的控制器112配置。源缓冲器118处的荧光标记的样本120被电压梯度拉过毛细管122，并且当样本内的DNA片段的光学标记的核苷酸在通过光学检测器124达到目的缓冲器126时，它们被检测。荧光标记的样本120内的不同大小的DNA片段由于其大小而在不同时间被拉过毛细管。

光学传感器124检测核苷酸上的荧光标记作为图像信号，并将图像信号传送到计算装置103。计算装置103将图像信号聚集为样本数据，并利用计算机程序产品104来操作统计模型102，以将样本数据转换为经处理的数据，包括一个或多个碱基调用序列和/或片段大小，并生成DNA谱，包括例如可以显示在用户装置107的显示器108上的一个或多个电泳图。在本发明的一个实施方案中，DNA分析仪器101可以包括AppliedBiosystemsRapidHIT^TMID系统或RapidHIT^TM200系统的一个或多个版本。

用于实现预计算的统计模型102的指令驻留在计算装置103上的存储于存储设备105中的计算机程序产品104中，并且这些指令可由处理器106执行。在本发明的一个实施方案中，计算机程序产品104可以包括Applied Biosystems RapidLINK^TM软件产品的一个或多个版本，其可以由计算装置103通过网络接口从远程位置全部或部分地访问。当处理器106正在执行计算机程序产品104的指令时，所述指令或其一部分通常被加载到工作存储器109中，处理器106可以容易地从所述工作存储器访问所述指令。在实施方案中，计算机程序产品104被存储在存储设备105或其他非暂态性计算机可读介质中(其可以包含跨不同装置和不同位置上的介质分布)。在另选的实施方案中，存储介质是暂时性的。

在一个实施方案中，处理器106可以包括多个处理器，所述多个处理器可以包括另外的工作存储器(另外的处理器和存储器未单独展示)，包含图形处理单元(GPU)，所述GPU包括支持大规模并行计算的至少数千个算术逻辑单元。GPU通常用于机器学习应用程序，因为GPU可以比典型的通用处理器(CPU)更有效地执行相关处理任务。其他实施方案包括一个或多个专用处理单元，所述专用处理单元包含脉动阵列和/或支持高效并行处理的其他硬件布置。在一些实施方案中，此类专用硬件与CPU和/或GPU一起工作以执行本文所描述的各种处理。在一些实施方案中，此类专用硬件包括专用集成电路等(其可以指特定于应用程序的集成电路的一部分)、现场可编程门阵列等和其组合。然而，在一些实施方案中，如处理器106等处理器可以实施为一个或多个通用处理器(优选地具有多个核)，而不必背离本发明的精神和范围。

用户装置107包含用于显示由统计模型102执行的处理的结果的显示器108。在可替代的实施方案中，统计模型102或其一部分可以存储在存储装置中并由驻留在CE仪器101和/或用户装置107上的一个或多个处理器执行。此类替代方案不脱离本发明的范围。

如上所述，对从犯罪现场回收的样本进行DNA分析已成为法医检测的″黄金标准″。处理来自犯罪现场的法医证据涉及许多劳动密集型步骤：样本选择、DNA提取和定量、短串联重复(STR)的PCR扩增和通过毛细管电泳(CE)产生DNA谱。对于紧急样本，获得结果的时间通常比当今执法要求所需的时间要长得多。

快速DNA系统是用于生成DNA谱的高度自动化的样本-应答平台。在本发明的实施方案中使用的示例性Rapid DNA系统是Applied Biosystems RapidHIT^TMID系统，其针对分散式操作进行了优化，供犯罪实验室和执法部门或其他非实验室环境中的不熟练用户使用。关于RapidHIT^TMID系统的更多信息可在Applied Biosystems RapidHIT^TMID系统v1.0用户指南(出版号MAN0018039)中获得，其据此全文以引用方式并入。在本发明的一些实施方案中使用的另一个示例性Rapid DNA系统是Applied Biosystems RapidHIT^TM200系统。

在本发明的一些实施方案中使用的示例性DNA分析仪器200A示出在图2A中。系统200A的示例性实施方案包括Applied Biosystems RapidHIT^TMID系统，但是系统200A的其他实施方案可以包括Applied Biosystems RapidHIT^TM200系统。在该实施方案中，仪器200A包括用于基于STR的人员鉴定(HID)的全自动样本到CODIS(组合DNA索引系统)系统，其可以在少于90分钟内以少于一分钟的手动操作时间处理假定的单一来源样本。仪器200A可以使用仪器200A上提供的一个或多个等位基因阶梯的库来执行一些分析。在执行毛细管电泳并生成STR谱后，系统200A将所生成的片段大小测定数据集传输到RapidLINK^TM软件进行处理，并且如果需要，进行手动谱查看。RapidLINK^TM还通过DNA设备网络管理试剂供应和操作员访问。在本发明的一个实施方案中，RapidLINK^TM软件可以作为计算机程序产品104驻留在计算机103上，并包含用于执行进一步分析的指令。关于RapidLINK^TM软件的更多信息可在Applied Biosystems RapidLINK^TM软件v1.0用户指南(出版号MAN0018038)中获得，其据此全文以引用方式并入。

在本发明的一个实施方案中，系统200A被设计成使用一个或多个样本盒来处理DNA样本。这样的样本盒可以处理来自犯罪现场的DNA样本，或口腔拭子上的DNA样本(其中，例如，在人的脸颊内侧擦拭DNA)。在本发明的实施方案中使用的一个示例性盒是用于处理口腔拭子的RapidHIT^TMACE样本盒200B，如图2B所示。在一个实施方案中，盒200B使用

Express或

NGM SElect^TMExpress(Thermo FisherScientific，Inc.)多路复用。PCR扩增、电泳和扩增产物的分析都在系统200A内进行。

除了样本盒(诸如示例性样本盒200B)之外，用于仪器200A的其他耗材(包括毛细管210C和凝胶盒220C)被提供在图2C中示出的主盒200C上，该主盒安装在仪器200A上并且可以作为仪器200A的定期维护的一部分而被周期性地更换。仪器200A还包括监测温度和湿度的内部环境传感器。

图3包括在本发明的实施方案中使用的STR分析工作流程300。在本发明的一个实施方案中，系统100使用若干部件，包括仪器200A、样本盒200B和计算机程序产品104。在步骤310中，获得样本(例如，从口腔拭子)并制备含有STR化学物质的样本盒200B。接下来，仪器200A上的用户界面将在激活/调用时引导用户通过常规使用，包括在步骤320中将样本ID输入到仪器200A中以及在步骤330将样本盒插入到仪器200A中以开始样本运行。在步骤340中，仪器200A将在大约90-110分钟内生成DNA谱。当在步骤350中完成样本运行时，样本盒应从仪器200A中取出，并且仪器200A将显示结果屏幕。仪器200A的示例性状态指示器包括：绿色，表示已生成DNA谱并且不包含得分标记，黄色，表示已生成具有一个或多个质量得分标记的DNA谱，或红色，表示没有生成DNA谱。在步骤360中，生成的DNA谱可以被导出到计算机103以在计算机程序产品104中进一步分析。

图4示出了根据本发明的实施方案的来自STR分析样本运行的一组示例性扫描。这组扫描包括由仪器200A生成的DNA谱。对于每次扫描，沿着每次扫描顶部运行的水平x轴显示碱基对的数目，并且沿着y轴上升的峰显示检测到荧光标记片段时的荧光值。

扫描410表示内部泳道标准(ILS)，它包含一组已知大小的DNA片段。沿着扫描410底部的x轴，每个峰下方的框显示在该峰检测到的片段的碱基对数目。扫描420-460表示以不同颜色显示的5种不同荧光染料标记(例如，FAM、VIC、NED、TAZ、SID)，用于标记不同DNA基因座处的等位基因。沿着扫描420-460中的每一个的顶部延伸的矩形框用DNA基因座的名称标记并显示该基因座的等位基因的大小范围，并且沿着扫描420-460中的每一个的底部x轴延伸的编号框显示检测到等位基因的峰并用等位基因大小标记。对于表示来自母亲和父亲的染色体DNA的每个DNA基因座，每个样本通常显示2个峰(表示不同的等位基因)，但一些基因座可能仅具有一个峰。因此，等位基因阶梯表示多个DNA基因座中的每一个的一组已知等位基因。然而，如本说明书中其他地方所讨论的，测试样本和等位基因阶梯的STR分析样本运行片段大小测定结果可以每天或不时变化，但不一定是随机的。温度变化、凝胶老化、凝胶类型和凝胶条件以及其他因素都会导致表观片段大小发生变化。适应这些变化的一种方法是在运行的每组测试样本中包含一个参比样本，诸如等位基因阶梯样本。

图5示出了也可以在本发明的实施方案中使用的现有技术STR分析工作流程过程。在步骤510中，进行等位基因阶梯参比样本运行。在可以并行运行一组样本的仪器上，可以通过在每组样本中包含一个参比样本来适应上述变化。在单个毛细管仪器(诸如RapidHIT^TMID仪器)上，通常优选在与测试样本尽可能相似的条件下并在同一仪器上在短时间内执行参比样本运行。在步骤520中，用户确认预期的峰是从等位基因阶梯参比样本获得的。在步骤530中，记录并存储等位基因阶梯参比样本运行结果以用于进一步分析。在步骤540中，在仪器上运行来自受试者的一个或多个测试样本(例如，从嫌疑人、感兴趣的人或犯罪现场获得的法医样本)。在步骤550中，通过将来自等位基因参比样本运行结果的峰与测试样本运行结果进行比较来鉴定测试样本中的等位基因。在步骤560中，然后确定受试者的测试样本是否与参比样本匹配(例如，与包含在犯罪数据库中的个体的身份匹配，或者与嫌疑人或受害者的身份匹配)。

图6示出了根据本发明的实施方案的STR分析工作流程过程600，其可以消除对如在已知方法(诸如上文在图5中描述的那些)中使用的参比样本运行的需要，并且由此使得DNA分析和鉴定过程更快和/或更准确。图6的方法利用了观察结果，即对于一个以其他方式固定和稳定的系统，影响在CE仪器上运行的样本中的片段的表观大小的两个最显著的效果是温度和凝胶降解的程度。温度和凝胶降解对给定等位基因的表观片段大小的扰动具有显著影响的一个原因是这两个变量实际上不可能保持恒定。

在步骤610中，该过程开始于组装来自许多样本运行的表观大小，其中温度和凝胶降解(以及可能的附加参数，诸如仪器或样本盒类型/型号)已经变化。在步骤620的一种方法中，可以构建经验模型以通过执行一系列实验来确定每个片段对这些效应(例如，温度和凝胶降解)中的每一个的响应，其中对等位基因阶梯样本进行一系列校准运行，并且其中严格控制温度和凝胶降解。通过线性组合这些响应，可以估计片段在任何条件下的表观大小。通过实验和经验观察还可以表明，这种估计在每个上述条件的有限范围内是准确的。

另选地，在步骤620中，考虑这些对片段大小测定数据的影响的不同方法是从其中温度和凝胶降解在一组不同的用例集中随机变化(和/或未知)的许多先前样本运行的训练集中组装每个等位基因的表观片段大小，并执行主分量分析(PCA)以生成基于PCA的迁移模型。这种基于PCA的方法具有减少噪声的额外益处，因为这种类型的统计分析可以和/或将通常比上述经验方法考虑更多的运行。如本领域技术人员可以理解的，基于PCA的分析不会分别提供温度和凝胶降解的响应；相反，它将提供两组响应，这两组响应可以线性组合以产生与通过如上所述的经验迁移模型中的受控实验得出的隔离的温度和凝胶降解响应相同的一组估计。具体地，预期分别来自温度和凝胶降解的隔离效应的响应可以重建为PCA输出的线性组合。如本文其他地方所述，PCA应被视为本领域已知的多种″相关性发现″或降维分析方法的代表。还应当注意，这样的分析方法可以利用两个或更多个参数来充分捕获由于迁移行为的变化而导致的等位基因阶梯的变化。

无论采用何种方法来构建模型，这样的模型都能够在模型有效的任何条件下预测任何片段的表观大小。因此，可以预测任何一组条件下参比运行的结果，并通过反向比较，可以推断在什么条件下进行参比运行。

因此，无论选择基于PCA的迁移模型还是经验迁移模型，可以完成准确的分析，而无需并行地或在短时间内并且在与测试样本运行相同或相似的条件下完成单独的参比样本运行。在步骤630中，运行测试生物样本(例如，来自客户、受试者、嫌疑人、受害人或犯罪现场)用于DNA法医或父本分析。在步骤640中，使用生成的经验迁移模型或基于PCA的迁移模型来确定与测试样本充分匹配的一个或多个等位基因阶梯。在步骤650中，将法医分析测试样本结果与迁移模型中确定的等位基因阶梯进行比较以鉴定测试样本中的等位基因。在所有测试样本运行完成之后，该过程在步骤660中结束，并且可以确定嫌疑人、受害人和/或犯罪现场测试样本运行结果是否生成匹配。

图7示出了根据本发明的实施方案的建立经验迁移模型的过程。在步骤710中，凝胶降解和温度被定义为经验模型的两个变量。在本发明的其他实施方案中，其他CE系统可以利用两个或更多个变量或参数来覆盖等位基因阶梯中的所有变化。在步骤720中确定每个变量的实验范围并且为每个变量选择实验范围内的参考条件。

在步骤730中，进行实验，其中对于每个变量，进行这样的实验，其中在该变量的相关范围内对等位基因阶梯样本进行一系列校准运行，同时将另一个变量保持在参考条件下恒定。

在本发明的一个实施方案中，参考条件可以用作每个实验中的数据点之一，其中实验条件在两个实验中是共同的，并且一个变量可以保持固定在参考条件下而另一个变量是变化的。不管参考条件是否明确地包括在实验中，在本发明的一个实施方案中，参考条件被策略性地选择，例如，在组合范围的中心。

在步骤740中，对于每个变量，定义一个参数，使得它在参考条件下为零，并且任何非零值表示该条件下变量的偏差。参数不必是变量的线性函数。例如，选择log(T)-log(T₀)作为参数，其中T是温度，并且T₀是参考条件下的温度，如果发现它可以提高最终模型的精度，那么它是有效的。在本发明的一个实施方案中，凝胶电导率或在固定温度处的降解时间用作凝胶降解的参数(或代理)。

在步骤750中，对于每个变量，汇总在实验运行中测量的每个等位基因的表观大小，并且将每个等位基因分别相对于所研究的参数作图。接下来，确定每个图(每个等位基因)的回归参数(线性匹配参数)。在步骤760中，对于每个变量，汇总每个等位基因的斜率。该集合构成该变量的″特征分量″。

在步骤770中，对于每个变量，汇总每个等位基因的截距。该集合构成该变量的″参考阶梯″。如果以所讨论的受控和严格的方式保真地执行经验模型实验，则两个变量的参考阶梯应该非常相似，并且与参考条件下的实验阶梯的结果非常相似。在本发明的一个实施方案中，可以通过取每个等位基因的参考阶梯的平均值或参考条件下几个实验阶梯的平均值来酌情选择一个共同的参考阶梯，以证明产生经验模型的更好准确性为准(当与实验的组合数据集或验证数据集相比时)。

使用图7的经验线性回归方法生成的模型可以具有与下面在图15的上下文中进一步说明和讨论的PCA生成的模型类似的形式。换句话说，该模型将包括对应于例如温度和凝胶年龄的分量，但是那些分量可以在不参考任何特定物理参数的情况下表达，其中每个分量具有针对每个等位基因的给定归一化值。每个分量的附加″权重″值被添加到模型，以允许从模型生成不同的阶梯，直到找到充分好的匹配阶梯。这在图15的上下文中进一步示出和讨论。为了方便起见，在本发明的一个实施方案中，每个分量的值可以被归一化，使得其最大绝对值等于一，使得对应权重的单位为碱基对。为了便于讨论，这样的归一化值被包括在本说明书中，但不是必需的。

图8A示出了根据本发明的实施方案的经验迁移模型的凝胶降解变量的示例性实验结果。在图810A中，示出了GFE(Global Filer Express)等位基因阶梯对凝胶降解的总体响应。沿着x轴绘制的分离电流被用作凝胶降解的代表，并且更高的电流意味着凝胶被更多地降解。在本发明的一个实施方案中，将凝胶留在仪器中一段时间，并使用相同的凝胶以规则的间隔运行等位基因阶梯。例如，在一个实施方案中，为了提高凝胶降解速度，在室温处(例如，关闭仪器冷却器)每天一次进行等位基因阶梯样本运行数周。

该实验中的温度保持固定。在实验上，在本发明的一个实施方案中可以示出凝胶降解与每个等位基因的片段大小(也称为碱基对数目或bp的模式权重)之间的关系在一定范围内是线性的。凝胶降解越多，片段大小测定的偏移越大，并且分子的大小看起来越大。例如，查看图810A中所示的总体响应行为，可以看出，当凝胶已经降解使得分离电流为26微安时，具有最强相对活性的等位基因的表观片段大小已经偏移了大约一个碱基对，假设以18.2微安运行作为参考运行，其中模式权重为0个bp。

在图820A中，示出了等位基因阶梯中每个等位基因对凝胶降解的相对响应。考虑到阶梯中的每个峰，所有其他等位基因将比在归一化相对活性值的y轴上具有测量为1的峰的等位基因少偏移一定百分比。

图8B示出了根据本发明的实施方案的经验迁移模型的温度变量的实验结果。在图810B中，GFE(Global Filer Express)等位基因阶梯对温度的总体响应显示为具有线性关系，如当温度在图810B中表示的三个不同仪器加热器中偏移时所示，其中毛细管中的温度偏移具有最高响应。该实验中的凝胶降解(例如，分离电流)保持固定。在实验上，在本发明的一个实施方案中可以示出温度与每个等位基因的片段大小(也称为碱基对数目或bp的模式权重)之间的关系在一定范围内是线性的。通常，(对于与特定选择的ILS组合的GFE)，温度越冷，分子的尺寸越大。类似地，在图820B中，示出了等位基因阶梯中每个等位基因对温度的相对响应。如上所述，考虑到阶梯中的每个峰，所有其他等位基因将比在相对活性的y轴上具有测量为1的峰的等位基因少偏移一定百分比。

主分量分析

当评估片段分析电泳图时，通过将峰的相对位置内插到已知大小的一组参考峰(内部泳道标准(ILS))来确定由峰表示的片段的表观大小。然后，所确定的大小又推断出相应片段中碱基对的数目，并且所有片段共同限定样本的唯一身份；在HID领域中，将其来源表示为一个或几个个体。不幸的是，ILS与片段峰之间的相对迁移速率会发生变化，因此即使对于在不同时间运行的单个样本，在运行之间的插值大小也会有所不同。因此，用于推断碱基对计数的″查找″表或阶梯不能总是相同的。现有技术方法提供了一组有限的阶梯，一个阶梯库，可在系统上进行匹配，即选择与任何给定样本最佳匹配的阶梯。

对于以其他方式固定的系统，两个参数可以确定相对迁移速率：凝胶如何降解或″老化″以及凝胶温度；组装和控制的毛细管加热器的温度与环境温度(例如在阳光充足的窗户中)的组合。应当注意，其他潜在的物理因素可能会导致这些迁移的差异，诸如凝胶孔径和扩增片段的变性程度，它们中的每一个都受到至少上述参数的影响。

降解和温度的影响是不相同的。例如，在一个示例中(利用GFE化学和在AppliedBiosystems RapidHIT^TMID仪器上使用的ILS)，降解程度更高的凝胶将使得源于基因座D19S433的峰迁移相对较慢，使得它们看起来更大。另-方面，温度实际上根本不影响那些特定片段相对于ILS的迁移。

一般来讲，凝胶降解越多，或温度越低，表观大小相对于在参考条件下或在其他理想条件下的假想运行的大小越大。然而，每个片段对每个参数具有不同的响应。对于以上示例，如图810B中所示，或例如下文讨论的图10中的图1000的分量C2，如果温度变化，则基因座D18S51的长片段仅偏移FGA的长片段峰的70％，并且在SE33的短片段与长片段之间存在50％的响应差异。一些片段峰甚至在另一个方向上偏移并且看起来更短。所有这些相对响应的列表描述了迁移受参数影响的″模式″或特征分量。

因此，对于任何给定的运行，假设确切的条件是已知的，可以通过组合这两种效应来计算每个峰的偏移。相反，根据样本运行的峰大小，可以对该运行相对于假想的参考理想运行，以及经由该代表性等位基因阶梯，也相对于任何其他运行，对凝胶变热或变冷或降解的程度进行最佳估计(因为通常总是存在噪声)。为了通过该代表性等位基因阶梯进行比较，不需要具有相同组的峰，即，在我们比较的运行中可以使用具有不同组片段的不同样本。假想参考运行在本文中被讨论为″代表性等位基因阶梯″，并且可以被认为包括每个可想象的片段的理想峰大小。

随着时间的推移，执行许多样本运行，所有这些都受到这两个参数的影响。即使事先不知道每个参数对每次运行的影响有多大，也可以使用这些数据来找到最佳地描述群体中的所有偏移的响应集合(或″模式″)。执行此操作的一种机器学习技术被称为主分量分析(PCA)。

预期稳定的CE系统应产生两种显著的PCA分量，代表上述变化。本发明实施方案的迁移模型基于以下分解：将每个阶梯

(每个等位基因的bp列表)分解为

其中

是″代表性阶梯″，

是n个不同模式(分量；扰动)，并且w_ij是每个模式(j)对每个阶梯(i)的贡献程度，即权重一注意

(或

)的权重被约束为始终为一。最后，

是无法由模型描述的任何残余量(噪声或未描述的模式)。在本发明的一些实施方案中，n是较小的数，诸如2或3。注意，可以定义这样的模型，其中

但这通常需要n递增。有多种方法确定

和

一个示例是使用实验方法。另一个示例是使用历史参考数据来确定

并结合PCA使用这样的历史参考数据来确定

另一个示例是使用本领域技术人员已知的其他机器学习算法。

应当指出的是，其他降维(或相关性发现)算法可能能够将样本视为不完整阶梯，使得可以从测试样本数据生成有效模型，而不必将训练数据限于来自完整阶梯样本的运行的数据。这样做的一种方法是强制缺失峰的残值始终为零，然后找到使总误差最小化的

以及

该方法的一个益处是，当在运行新测试样本的常规过程中使用仪器时，其允许随时间在更大的数据集上训练模型。

图9示出了根据本发明的实施方案的基于PCA建立迁移模型的过程。PCA是一种用于强调变化并在数据集中产生强模式的技术。在本发明的一个实施方案中，PCA利用相关矩阵的特性来找到主分量。主分量不同于特征分量，诸如上文提到的凝胶降解和温度，因为主分量描述的是数据集中的最强依赖性，而不是随任何所选物理参数的变化。例如，对于五个数字序列的数据集，PCA算法将返回五个特征向量以及伴随的特征值，它们可以线性地重新组合以重建完整的数据集。然而，更重要的是，如果数字序列彼此相关，则仅需要使用特征向量的子集(与最高特征值相关的那些特征向量)，如果可以接受重建具有小误差的数据集。如上文在本发明的一个实施方案中所讨论的，发现表观片段大小的变化最显著地受到温度变化和凝胶降解的影响。因此，在本发明的一个实施方案中，可以使用具有两个主分量的基于PCA的模型。

建立基于PCA的迁移模型的过程从步骤910开始，其中实验阶梯的训练集表示仪器的操作范围内的各种条件(例如，温度和凝胶降解)。在基于PCA的迁移模型中，不需要知道每个阶梯运行的条件。此外，并非所有条件都需要在训练集中(或甚至接近所有条件)，因为基于PCA的迁移模型允许在这些条件不在训练数据中时对这些条件进行建模。在本发明的一个实施方案中，表示所有(或尽可能多的)实际用例并因此表示所有(或尽可能多的)各种条件的一组实验阶梯被用作训练集。

在步骤920中，策略性地确定参考条件，例如，在仪器的操作范围的中心处或附近。接下来，在步骤930中，如果在该参考条件下运行许多阶梯，则确定代表性等位基因阶梯表示平均(或中值)实验结果。在本发明的一个实施方案中，将代表性等位基因阶梯确定为每个等位基因的训练集的平均或中值实验结果。在一些实施方案中，在计算平均值或中值之前，可以丢弃训练集中具有每个等位基因的最高和最低片段大小值的一个或多个等位基因阶梯。

本发明的其他实施方案利用不同的方法来确定代表性等位基因阶梯。在一个实施方案中，进行了这样的实验，其中在参考条件下运行许多阶梯，并且取在该实验中确定的每个等位基因的平均大小作为代表性等位基因阶梯。在另一个实施方案中，选择以参考条件为中心的训练集的子集，并且取该子集的平均值或中值作为代表性等位基因阶梯。在另一个实施方案中，将训练集中与平均阶梯最相似的单个实验阶梯确定为代表性等位基因阶梯，或者选择与平均阶梯相似的几个实验阶梯，并取这些实验阶梯的平均值作为代表性等位基因阶梯。

在步骤940中，对于训练集中的每个阶梯，通过为每个等位基因减去代表性等位基因阶梯的等位基因大小来测量每个等位基因的偏差。然后，在步骤950中，创建矩阵，其中每个训练集阶梯被表示为列出每个等位基因的偏差的行。在步骤960中，执行主分量分析(PCA)工具的矩阵运算以生成基于PCA的迁移模型。在本发明的一个实施方案中，可以使用MATLAB和本领域技术人员已知的其他类似数值计算工具和编程语言来执行PCA的矩阵运算和本文所述的其他统计分析。

在本发明的另一个实施方案中，可以使用PCA导出代表性等位基因阶梯。可以开发初步的基于PCA的迁移模型，而无需如步骤940中所述计算每个等位基因的偏差。在该实施方案中，应用PCA来确定描述数据的初步分量，而无需减去任何代表性阶梯。然后确定需要使用多少最强的初步分量来将每个阶梯重建为最佳平方匹配近似值。接下来，找到这些值的中值，并将所述最强分量中的每个值与该中值相乘。然后将该系列数字用作代表性等位基因阶梯。在另一个实施方案中，可以根本不具体定义″代表性阶梯″，而是使用所述初步的基于PCA的模型作为最终模型。在该实施方案中，″代表性阶梯″的功能将由PCA分析的第一分量提供，并且因此建议扩展模型以使用三个主分量而不是两个主分量。

图10示出了根据本发明的实施方案的在基于PCA的迁移模型中生成的两个最重要的主分量的两个线性组合的图形表示1000。注意，可以由从PCA输出返回的最重要的两个主分量构建的任何线性组合也可以由这两个线性组合的分量构建。分量C1显示出紧密跟踪与凝胶降解相关的凭经验确定的扰动的扰动，而C2显示出紧密跟踪与温度变化相关的凭经验确定的扰动的扰动。通过将图10中的两个主分量的图与图8A中的图820A(针对凝胶降解)和图8B中的图820B(针对温度变化)中所示的实验结果进行比较，可以看出这种相似性。如前所述，预期片段大小测定数据变化的两个最强影响因素是温度变化和凝胶降解。

图11示出了根据本发明的实施方案的基于PCA的STR分析工作流程过程，其中不需要参比样本运行。在步骤1110中，访问使用在仪器的操作范围内的实验等位基因阶梯的训练集生成的预计算的基于PCA的迁移模型。在步骤1120中，通过迁移和扫描测试生物样本的PCR扩增片段来获得测试生物样本(例如，嫌疑人或受害人的口腔拭子、犯罪现场样本)的片段大小测定数据。在步骤1130中，使用基于PCA的迁移模型生成与测试样本的片段大小测定数据匹配的合成等位基因阶梯。在一个实施方案中，通过从一组阶梯中选择一个阶梯来生成合成等位基因阶梯，该组阶梯对应于在有效操作范围内以规则间隔的多组主分量值。在另一个实施方案中，所生成的合成等位基因阶梯在主分量值的有效操作范围内随机生成。

在步骤1140中，确定所鉴定的合成等位基因阶梯是否充分匹配测试样本片段大小测定数据。在本发明的一个实施方案中，如果所鉴定的合成等位基因阶梯不包含测试样本片段大小测定数据中每个等位基因在0.10个bp内的测量值，则所鉴定的阶梯不充分匹配。在另一个实施方案中，如果所鉴定的合成等位基因阶梯不包含测试样本片段大小测定数据中每个等位基因在0.35个bp内的测量值，则所鉴定的阶梯不充分匹配。如果步骤1140的回答为″是″，则在步骤1160中，使用合成等位基因阶梯来确定测试样本中存在哪些等位基因。如果步骤1140中的答案为″否″，则在步骤1150中，使用预计算的基于PCA的迁移模型来调整合成等位基因阶梯与测试样本片段大小测定数据的匹配(通过调整模型中的权重)。在本发明的一个实施方案中，对于无法构建具有充分匹配的合成梯的测试样本，可以实施一种机制来中止找到充分匹配的合成阶梯的过程(例如，在达到预定的调整迭代次数之后中止该过程)。

在本发明的一个实施方案中，有两个部分来实现充分的匹配。在第一部分中，定义了匹配的分数，并使用算法来优化该匹配。在本发明的一个实施方案中使用的用于调整和/或优化模型的权重以生成合成梯来匹配测试样本或阶梯的算法的示例是在Math.NET工具包中可获得的Broyden-Fletcher-Goldfarb-Shanno Bounded(BFGS-B)算法。该算法是可以用于该目的的许多可能的优化算法之一。在这种情况下，该算法将找到函数F(w₁，w₂)的最小值，其中w₁和w₂是模型中用于重建合成阶梯的权重。函数F被定义为使得良好匹配返回较小数目。该算法将测试该函数并找到w₁和w₂的值，这些值返回优化函数F的优化最小数目。优化算法通常使用附加参数进行优化。此类参数的示例是w₁和w₂的允许范围。另一个示例是确定w₁和w₂值时的准确性(例如，参数公差)。F的一个示例是，对于样本中的每个峰，找到给定w₁和w₂的最接近的合成峰；计算所述样本峰与所述合成峰之间碱基对的绝对差值，并返回所有峰的算术平均值。允许罕见基因型和存在未预料到的伪影的另一个示例是在计算所述算术平均值之前排除两个最大差值。另一个示例是使用绝对差值的和来代替所述算术平均值。

在第二部分中，确定在认为匹配充分之前需要多少优化。在本发明的一些实施方案中，对于已经被归一化使得它们的绝对最大值为一的分量，w₁和w₂可以被优化为具有0.35个bp或0.1个bp或0.01个bp的″参数公差″。(＝确定w₁和w₂值的准确性一参见上文)。这意味着该算法将迭代，直到它″得出结论″，它已经确定了将F最小化到该公差的w₁和w₂；即，如果无限优化，则理论上的最小值在返回值的0.35个bp或0.1个bp或0.01个bp内。对于分量的其他绝对最大值，参数公差可以除以该数以实现相同的效果。如果权重在0.35个bp内，这意味着如果分量被归一化为一，则最具活性的等位基因的公差为0.35个bp，所有其他的更好。

图12示出了根据本发明的另一个实施方案的基于PCA的STR分析工作流程过程，其中同样不需要参比样本运行。图12的过程与图11的过程的不同之处在于，预先生成并存储仪器所需操作范围内的多个合成等位基因阶梯。具有代表主分量范围的一组预先生成的等位基因阶梯可以降低使用基于PCA的迁移模型的STR分析中的计算要求。此外，尽管图11和图12参考了从PCA创建的模型生成阶梯，但是图11和图12的步骤适用于经由其他公开的方法生成的迁移模型。

在步骤1220中，通过迁移和扫描测试生物样本的PCR扩增片段来获得测试生物样本(例如，受试者、客户、嫌疑人或受害人的口腔拭子；或犯罪现场样本)的片段大小测定数据。在步骤1230中，鉴定与测试样本的片段大小测定数据最密切匹配的预生成和存储的合成等位基因阶梯。在一个实施方案中，一组存储的实验得出的等位基因阶梯与该组合成等位基因阶梯包括在一起，并且可以鉴定存储的实验得出的等位基因阶梯代替合成等位基因阶梯。在步骤1240中，确定所鉴定的合成等位基因阶梯是否充分匹配测试样本片段大小测定数据。如果步骤1240的回答为″是″，则在步骤1260中，使用鉴定的合成(或存储的天然)等位基因阶梯来确定测试样本中存在哪些等位基因。如果步骤1240中的答案为″否″，则在步骤1250中，使用预计算的基于PCA的迁移模型来调整合成等位基因阶梯与测试样本片段大小测定数据的匹配，直到如上文所论述确定该匹配充分(或终止该过程)。在另一个实施方案中，预存储的阶梯的密度使得第一个鉴定的合成(或天然)等位基因阶梯与测试样本充分匹配，并且不执行优化步骤1240和1250。

图13A示出了阶梯库的PCA分析的图形表示。图1300A示出了″原始″(例如，在没有特别关注密度或覆盖区域的情况下手动地策划的)阶梯库的PCA分析，其示出了对应于每个阶梯的相应分量C1和C2的权重w₁和w₂。在图13A中，分量C1和C2是从PCA分析得到的主要组分的线性组合，其中C1是与凝胶降解更相关的分量。C2是与温度变化更相关的分量。黑点表示等位基因阶梯库。彩色点表示测试样本运行。如图1300A所示，PCA分析表明，原始阶梯库中的等位基因阶梯主要聚集在1310A所示的小范围的分量值附近。权重w₁和w₂充分匹配远离集群1310A的合成阶梯的测试样本更可能无法生成与阶梯库中的任何阶梯的有效匹配，如红点所示，而绿点示出有效匹配。可以用这两个参数很好地描述库中的所有阶梯。

在图13A中，颜色可用于指示特定测试样本的最大偏差(模型误差+噪声)，例如：红色＝匹配失败；黄色＝0.35-0.5个bp；而所有的绿色阴影＝较少的模型误差+噪声和有效匹配。

图13B示出了根据本发明的实施方案的合成阶梯库的PCA分析的图形表示。图1300B示出了合成生成的阶梯库的PCA分析，其示出了对应于每个阶梯的相应分量C1及C2的权重w₁和w₂。C1是与凝胶降解更相关的分量。C2是与温度变化更相关的分量。图1300B中的黑点表示合成的等位基因阶梯库。彩色点表示测试样本运行。如图1300B所示，PCA分析表明，合成阶梯库包括沿着主分量值范围以规则间隔排列的阶梯，因此表明合成生成的阶梯库比″原始″阶梯库在整个操作条件范围内提供更多的覆盖。图1300B示出合成阶梯库不仅确认了″原始″阶梯库的有效测试样本运行，而且还可以提高的仪器的准确性，因为更多样本在由″原始″阶梯库覆盖的主分量范围之外运行生成了有效匹配。

图14示出了根据本发明的一个实施方案的从迁移模型(PCA或实验或以其他方式构建)生成合成等位基因阶梯并将所述合成阶梯与测试样本进行比较的过程。在步骤1410中，访问包括代表性阶梯G和扰动向量(或″分量″)Pj的预存储迁移模型。在本发明的一些实施方案中，分量的数目n较小，诸如2或3。在步骤1420中，测试样本在分析仪器中运行以确定测试样本中存在的每个等位基因的实验片段大小结果。

在步骤1430中，归因于每个分量的权重w_j用作输入参数，并且使用以下公式来计算合成阶梯

在步骤1440中，插入可能出现在测试样本中但未在迁移模型中找到的任何虚拟等位基因(也称为虚拟箱)。这些虚拟等位基因的预期位置可以从迁移模型的等位基因阶梯中存在的等位基因的预期大小进行内插或外推。在步骤1450中，将每个样本峰的大小与具有插入的虚拟箱的合成阶梯中的峰进行比较。选择与样本峰在尺寸上具有最小差异的阶梯峰，然而仅考虑与样本峰相同染料颜色相关的峰。从最小差异的集合中，计算匹配误差。匹配误差是反映合成阶梯和样本匹配程度的标量。如何计算匹配误差的一个示例是取所述所有最小差异的算术平均值。另一个示例是在计算所述算术平均值之前排除所述最小差异中的两个最大值。这可以适应不包括在虚拟箱中的稀有基因型，以及测试样本中存在未预料到的伪影峰。另一个示例是使用绝对差值的和来代替所述算术平均值。

重建阶梯可以被认为是找到w_ij的想法，使得所得数字序列与实验阶梯(或测试样本)的等位基因大小之间的总差异尽可能小，其中所述总差异是每个等位基因的差异的平方和。当重建阶梯并且总差异很小时，可以说该模型很好地描述了阶梯。如果一个大的数据集可以重建而仅有很小的误差，如由统计手段诸如中值、标准偏差和最大误差所定义的，则该模型可以说是准确的。

可以想到鉴定另外的变量并利用它们的特征分量来扩展模型，或者将从PCA算法返回的更多主分量合并到模型中。该模型将更准确，其中每个分量被适当地实施。然而，在这里讨论的本发明的一些实施方案中，两个主分量足以以相关精度提供稳定系统的建模，尽管其他实施方案可以使用三个或更多个主分量。

图15示出了根据本发明的一个实施方案的示例性基于PCA的迁移模型1500，在此用于重建给定的等位基因阶梯。从一组等位基因阶梯样本运行1510中，确定样本运行1510中每个等位基因的代表性阶梯1520。这里示出了前七个等位基因中每一个的代表性阶梯1520，这些等位基因被标记为等位基因1-7。接下来，对该组等位基因阶梯样本运行执行PCA分析1510以生成每个等位基因的主分量(模式)P₁和P₂，如1531和1532所示。该组权重w_ij例如，每种模式(j)对进行重建的阶梯的贡献程度(i)使用上述方法计算，并在列1540的白色背景上以粗体文本示出。使用这些值，可以计算重建的等位基因阶梯，如1550所示。通过改变列1540中的权重值，可以从同一模型生成其他阶梯。如前所述，可以等效地使用构成为P₁和P₂的线性组合的分量C₁和C₂。

在一个实施方案中，由仪器存储或访问的迁移模型(诸如基于PCA的迁移模型)可以基于样本运行数据的机器学习随时间系统地改进。在一个实施方案中，可以使用本领域已知的其他″相关性发现″(也称为″降维″)算法来以类似于上文讨论的基于PCA的迁移模型的方式来构建迁移模型。除了PCA之外，这样的方法可以包括非负矩阵分解(NMF)、核PCA、基于图的核PCA、线性判别分析(LDA)、广义判别分析(GDA)和自动编码器等。这种″相关性发现″算法可能能够利用不完整的阶梯(诸如由测试样本运行产生的那些阶梯)来开发迁移模型。在一个实施方案中，可以使用外部调整来调整迁移模型，例如，通过向代表性阶梯添加偏移，使得模型比完整阶梯更好地匹配测试样本。这可能是因为测试样本可能具有系统偏移，这意味着测试样本的迁移与等位基因阶梯样本的迁移不同。可以进行偏移以补偿迁移行为的这种差异，使得样本等位基因可以以零偏差平均迁移，而等位基因阶梯可以具有非零偏差。这种偏移可以通过例如分析使用迁移模型的测试样本运行的大数据集并找到统计偏差来确定。在另一实施方案中，可以使用内部调整来调整迁移模型，例如，通过使迁移模型分量和参考(或代表性阶梯)的线性组合更好地与物理实体(例如，实际操作条件下的凝胶降解(例如，凝胶老化)和温度的组合)对齐。

如根据本发明的实施方案所讨论的基于PCA的迁移模型和合成等位基因阶梯库可以具有几种用途，包括：

·确认任何特定运行可以通过模型以高质量描述，使得它增加运行不被损害的置信度。

·监测仪器的操作条件以确认其在批准的范围内操作。

·确认除温度和凝胶降解之外的影响迁移的其他系统参数保持恒定。具体地，当系统的部件被改变时，诸如凝胶和毛细管更换，以及在凝胶、盒、毛细管更换和其他耗材的制造过程中用于质量控制。

·合成生成无噪声参比运行(用于阶梯库)

·进行无等位基因阶梯分析

图16示出了根据本发明的实施方案的使用合成等位基因阶梯的基于PCA的CE仪器验证过程。在步骤1610中，访问基于PCA的统计模型和代表性阶梯G。在步骤1620中，在待验证的CE仪器上执行已知等位基因阶梯样本的样本运行。在步骤1630中，使用基于PCA的统计模型来验证可以生成与已知等位基因阶梯样本运行结果充分匹配的合成等位基因阶梯。在步骤1640中，使用所生成的合成等位基因阶梯的主分量权重来验证所生成的合成等位基因阶梯的主分量权重在可接受的范围内(例如，对应于有效的操作条件)。这可以通过限制可以使用每种模式来匹配样本数据的程度来验证。在本发明的一些实施方案中，在凝胶、毛细管和盒的制造期间，类似的过程也可用于验证仪器性能以用于质量控制。在本发明的一些实施方案中，偏离模型小于例如0.1个bp、0.15个bp或0.35个bp的已知等位基因阶梯样本运行结果可以指示仪器操作是有效的。阶梯之间的差异的其他聚集可以用作验证度量。在本发明的一个实施方案中，使用样本代替已知的等位基因阶梯样本，并且通过找到具有优化或充分匹配的合成等位基因阶梯来确定其权重。如果没有峰偏离所述合成阶梯超过例如0.1个bp、0.15个bp或0.35个bp，则可以认为该仪器的操作是有效的。

上述本发明的实施方案中的迁移模型可以用于分析实际梯子与由该模型生成的阶梯的匹配程度。例如，可能期望等位基因阶梯库包含代表在所有各种情况下可能执行运行的正常行为的阶梯。通过使用根据本发明的模型分析历史数据，可以做出将哪些阶梯包括在等位基因阶梯库中的明智决定。模型，优选能很好地捕捉仪器行为的模型，可以鉴定与模型不太一致的样本和阶梯运行。不一致的示例可以是已经被光学噪声扭曲的峰，使得其峰已经偏移并且因此被分配了不准确的大小。优选地不在阶梯库中表示这样的非系统事件。在本发明的一些实施方案中，良好符合的阶梯不具有偏离模型超过例如0.1个bp、0.15个bp或0.35个bp的峰。该偏差可以被称为最大(max)偏差。通过该模型生成的合成等位基因阶梯预期最大偏差为零，或至少偏差不大于分析期间四舍五入的数字0.05个bp或0.1个bp。

如果使用该模型分析大量样本和阶梯数据，则可以从理论模型确定每个等位基因如何分布(即，对于每个样本，使用理论模型找到最佳阶梯，确定每个等位基因与其不同的程度(样本峰与模型峰的偏差)，然后从每个等位基因的所有样本收集统计数据)。在本发明的一个实施方案中，峰与模型的偏差的每个分布应当集中在接近于零的位置，例如优于0.1个bp；并且相应的3σ(3个标准偏差)应该很低，例如0.15个bp。使用高斯分布近似分布，这意味着在具有上述分布的等位基因处被调用的峰的超过99％将在0.25个bp内。

在如上所述的本发明的一个实施方案中，具有指定密度水平的静态(预选择和/或预计算)阶梯库被构建并存储在分析仪器或系统上。该静态库可以在生成合成阶梯图之前被搜索，并且在计算资源受限的情况下可能更有效，诸如″在运行中″动态生成一个或多个合成阶梯图不高效或不可行。在本发明的一个实施方案中，阶梯库包括多个具有w₁和w₂值的阶梯，其在系统的有效操作值的范围内间隔大约0.2个bp。对于具有一组离散阶梯的静态(预选择和/或预计算)阶梯库，当确定匹配测试样本的最佳阶梯时，模型可以重建的理论上理想的最佳阶梯可能不存在。但是如果已经选择了库中的阶梯，使得对于w₁和w₂的每个0.2个bp间隔分别存在至少一个阶梯，则将始终存在至少一个阶梯可用，其″远离″所述理想阶梯的每个权重不超过约0.1个bp。如果库中的阶梯具有不大于0.1个bp的不一致，则偏离0.25个bp的样本对于最具活性的等位基因而言总共偏差不超过约0.45个bp(最大偏差)。该最大偏差如下确定：可以通过实验找到，由于噪声和系统变化，最具活性的等位基因(可能最坏的情况)可能偏离理论理想梯0.25个bp，由于上述静态阶梯库的0.2个bp的间隔密度而增加0.1个bp的偏差，并且由于阶库梯中的噪声而增加0.1个bp的偏差，得到0.45个bp的总最大偏差。虽然这些数字旨在作为说明性示例，但是可以构建更高密度或更低密度的库。更高密度的库将减少匹配失败的可能性，但是计算和存储限制(例如，对于分析软件)可能是约束。相反，在较低计算能力的系统中可以使用较低密度库，但失败或不正确匹配的可能性较高。如果w₁或w₂值中的一个以上出现偏差，则精确的计算将取决于分量之间的关系。在如上所述的本发明的一个实施方案中，实验数据表明当偏差大于例如0.45个bp或0.5个bp时，峰可能被错误地调用。

通过最小化匹配误差，可以为历史阶梯分配w₁和w₂值。可以使用这些w₁和w₂值创建合成阶梯，并且所述历史阶梯与所述合成阶梯之间的任何等位基因的最大偏差是所述历史阶梯不一致的程度的度量。通过鉴定良好符合的历史阶梯的w₁和w₂(例如，具有不超过0.1个bp、0.15个bp或0.35个bb的最大偏差)，和/或从选择的w₁和w₂值创建合成阶梯，可以以公知的方式收集被设计成在w₁和w₂的范围内具有充分密度d的阶梯库，其中密度d被定义为使得在所述范围内没有w₁’和w₂’的组合，其中在阶梯库中没有|w₁-w₁’|＜d且|w₂-w₂’|＜d的阶梯(如果有更多维度，依此类推)。注意，可以为不同的维度定义不同的密度。对于在前面的说明性示例中讨论的具体情况和统计数据，建议0.2个bp或更低的阶梯密度将足以以高概率覆盖(无缺陷)仪器上的整个操作范围的所有运行条件。请参考图13B对这种设计的库的说明。

为了验证设计的阶梯库，可以使用设计的阶梯库分析大量样本和阶梯数据，并且可以确定对于每个等位基因，所述数据如何从阶梯库分布。在本发明的一个实施方案中，对于阶梯库，每个等位基因的偏差分布应该集中在接近于零的位置，例如在0.1个bp内；并且相应的3σ(3个标准偏差)应该很低，例如0.35个bp或更低。

示例性的计算装置实施方案

图17是可以并有本发明的实施方案的计算装置1700的示例性框图。图17仅示出了执行本文描述的技术过程的方面的机器系统，并且不限制权利要求的范围。本领域的技术人员将认识到其他变化、修改和替代方案。在一个实施方案中，计算装置1700通常包含监测器或图形用户接口1702、数据处理系统1720、通信网络接口1712、一个或多个输入装置1708、一个或多个输出装置1706等。

如图17所示，数据处理系统1720可以包含经由总线子系统1718与多个外围装置通信的一个或多个处理器1704。这些外围装置可以包含一个或多个输入装置1708、一个或多个输出装置1706、通信网络接口1712以及存储子系统如易失性存储器1710和非易失性存储器1714。易失性存储器1710和/或非易失性存储器1714可以存储计算机可执行指令，并且因此形成逻辑1722，该逻辑在应用于处理器1704并由该处理器执行时实现本文所公开的过程的各实施方案。

一个或多个输入装置1708包含用于将信息输入到数据处理系统1720的装置和机构。这些可以包含键盘、小键盘、并入监测器或图形用户接口1702中的触摸屏、音频输入装置如语音鉴定系统、麦克风和其他类型的输入装置。在各种实施方案中，一个或多个输入装置1708可以被实现为计算机鼠标、轨迹球、轨迹板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛跟踪系统等。一个或多个输入装置1708通常允许用户经由命令如单击按钮等来选择出现在监测器或图形用户接口1702上的对象、图标、控制区域、文本等。

一个或多个输出装置1706包含用于从数据处理系统1720输出信息的装置和机构。这些可以包含在所属领域中是众所周知的监测器或图形用户接口1702、扬声器、打印机、红外LED等。

通信网络接口1712提供到数据处理系统1720外部的通信网络(例如，通信网络1716)和装置的接口。通信网络接口1712可充当用于从其他系统接收数据且将数据传输到其他系统的接口。通信网络接口1712的实施方案可以包含以太网接口、调制解调器(电话、卫星、电缆、ISDN)、(异步)数字用户线(DSL)、FireWire、USB、如蓝牙或WiFi的无线通信接口、近场通信无线接口、蜂窝接口等。通信网络接口1712可经由天线、电缆等耦合到通信网络1716。在一些实施方案中，通信网络接口1712可以物理地集成在数据处理系统1720的电路板上，或在一些情况下可在软件或固件如″软调制解调器″等中实施。计算装置1700可以包含允许使用方案如HTTP、TCP/IP、RTP/RTSP、IPX、UDP等通过网络通信的逻辑。

易失性存储器1710和非易失性存储器1714是被配置为存储计算机可读数据和指令的有形介质的示例，所述计算机可读数据和指令形成实现本文描述的过程的各方面的逻辑。其他类型的有形介质包含可移除存储器(例如，可插拔USB存储器装置、移动装置SIM卡)、光学存储介质如CD-ROMS、DVD、半导体存储器如闪速存储器、非暂态性只读存储器(ROMS)、电池支持的易失性存储器、联网存储装置等。易失性存储器1710和非易失性存储器1714可以被配置成存储基本编程和数据构造，其提供所公开的过程及其在本发明范围内的其他实施方案的功能。实现本发明的实施方案的逻辑1722可以由存储计算机可读指令的易失性存储器1710和/或非易失性存储器1714形成。所述指令可以从易失性存储器1710和/或非易失性存储器1714读取并由处理器1704执行。易失性存储器1710和非易失性存储器1714还可提供用于存储由逻辑1722所使用的数据的存储库。易失性存储器1710和非易失性存储器1714可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)以及其中存储只读非暂态性指令的只读存储器(ROM)。易失性存储器1710和非易失性存储器1714可以包含文件存储子系统，其为程序和数据文件提供永久性(非易失性)存储。易失性存储器1710和非易失性存储器1714可以包含可移动存储系统，如可移动闪速存储器。

总线子系统1718提供用于允许数据处理系统1720的各种组件和子系统根据需要彼此通信的机构。虽然将通信网络接口1712示意性地描绘为单个总线，但总线子系统1718的一些实施方案可以利用多个相异的总线。

本领域的技术人员将容易地显而易见，计算装置1700可以是装置，如智能电话、台式计算机、膝上型计算机、机架安装式计算机系统、计算机服务器或平板计算机装置。如本领域中通常已知的，计算装置1700可以被实施为一系列多个联网计算装置。另外，计算装置1700将通常包含操作系统逻辑(未示出)，其类型和性质在所属领域中是众所周知的。

本发明的一个实施方案包含系统、方法和非暂态性计算机可读存储介质或有形地存储能够由计算机处理器执行的计算机程序逻辑的介质。

本领域技术人员将理解，计算机系统1700仅示出了其中可以实施根据本发明的实施方案的计算机程序产品的系统的一个示例。为了引用替代性实施方案的仅一个示例，包含在根据本发明的实施方案的计算机程序产品中的指令的执行可以分布在多个计算机上，如例如分布式计算机网络的计算机上。

虽然本发明已特别地关于所说明实施方案进行描述，但应了解，各种更改、修改和调适可基于本公开作出并且意图在本发明的范围内。虽然已经结合目前被认为是最实用和优选的实施方案描述了本发明，但是应当理解，本发明不限于所公开的实施方案，相反，本发明旨在覆盖包括在如上文和下文参考的各种实施方案所描述的本发明的基本原理的范围内的各种修改和等效布置。

术语

根据本领域普通技术人员的理解，参考本文件中公开的本发明的实施方案而在本文中使用的术语应当符合其普通含义，除非另有明确指示或上下文另有说明。

″等位基因阶梯″或″等位基因阶梯数据″在本文中是指在CE仪器上运行的等位基因阶梯样本的片段大小测定数据集。

″等位基因阶梯样本″是指校准样本，其包括CE仪器正在测试的已知STR等位基因的集合，并且通常包含大量(例如，数百个)已知STR等位基因。

″合成等位基因阶梯″或″合成等位基因阶梯数据″是指从模型中生成的等位基因阶梯数据，而不是从等位基因阶梯样本的实际运行中生成的数据。

在本上下文中的″毛细管电泳遗传分析仪″或″毛细管电泳DNA分析仪″是指将电场施加到装有生物样本的毛细管上，使得带负电荷的DNA片段朝向正电极移动的仪器。DNA片段移动通过培养基的速度大致与其分子量成反比。这种电泳过程可以按大小分离延伸产物，优选以一个碱基或更少的分辨率分离。

在本上下文中的″示例性商业CE装置″可以指代并包含但不限于以下：AppliedBiosystems，Inc.RapidHIT^TMID系统(单毛细管)和RapidHIT^TM200系统(8毛细管)；AppliedBiosystems，Inc.(ABI)基因分析仪型号310(单毛细管)、3130(4毛细管)、3130xL(16毛细管)、3500(8毛细管)、3500xL(24毛细管)；ABI SeqStudio基因分析仪型号；ABI DNA分析仪3730型号(48毛细管)和3730xL型号(96毛细管)；以及Agilent 7100装置、PrinceTechnologies，Inc.的PrinCE^TM毛细管电泳系统、Lumex，Inc.的Capel-105^TMCE系统和Beckman Coulter的P/ACE^TMMDQ系统等。

在本上下文中的″碱基对″是指DNA序列中的互补核苷酸。胸腺嘧啶(T)与腺嘌呤(A)互补，鸟嘌呤(G)与胞嘧啶(C)互补。

Claims

1.一种测试包含脱氧核糖核酸(DNA)分子的生物样本是否存在多个等位基因的方法，其中使用所述生物样本获得的并且对应于所述多个等位基因中的不同等位基因的DNA片段具有不同的片段大小，所述方法包括：

通过使用分析仪器迁移和扫描对应于所述生物样本的多个标记的DNA片段来获得测试片段大小测定数据；

使用预计算模型来动态地生成一个或多个第一合成等位基因阶梯，所述预计算模型基于对从使用同一分析仪器或使用另一个测量片段大小的类似分析仪器的多个先前进行的样本运行获得的多个片段大小测定数据集的分析；

确定所述一个或多个第一合成等位基因阶梯是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中；

如果确定所述一个或多个第一合成等位基因阶梯不充分匹配所述测试片段大小测定数据，则基于改变所述预计算模型的一个或多个参数生成一个或多个额外的合成等位基因阶梯，并确定所述一个或多个额外的合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中；以及

在鉴定出充分匹配的合成等位基因阶梯后，使用所述充分匹配的合成等位基因阶梯来确定所述多个等位基因中的哪些存在于所述生物样本中。

2.根据权利要求1所述的方法，其中所述分析仪器包括毛细管电泳(CE)仪器。

3.根据权利要求1所述的方法，其中所述多个先前进行的样本运行包括一个或多个等位基因阶梯样本运行。

4.根据权利要求1所述的方法，其中所述多个先前进行的样本运行包括来自其他生物样本的一个或多个测试样本运行。

5.根据权利要求1所述的方法，其中所述一个或多个额外的合成等位基因阶梯是在鉴定出充分匹配的等位基因阶梯后生成的，以便满足一个或多个优化标准。

6.根据权利要求1所述的方法，其中所述预计算模型基于主分量分析(PCA)。

7.根据权利要求6所述的方法，其中所述主分量分析包括确定具有第一主分量范围的第一主分量和具有第二主分量范围的第二主分量。

8.根据权利要求7所述的方法，其中所述主分量分析还包括确定包含多个等位基因的代表性等位基因阶梯，每个等位基因与代表性片段大小相关联，其中所述代表性等位基因阶梯与一组参考条件相关联。

9.根据权利要求8所述的方法，其中确定所述代表性等位基因阶梯还包括：

在所述一组参考条件下对等位基因阶梯样本运行多个实验样本运行；以及

计算所述实验样本运行中所述多个等位基因中每一个的平均片段大小。

10.根据权利要求8所述的方法，其中确定所述代表性等位基因阶梯还包括：

选择在所述一组参考条件的指定范围内的所述多个片段大小测定数据集的子集；以及

计算所述多个等位基因中每一个的所述平均片段大小。

11.根据权利要求8所述的方法，其中确定所述代表性等位基因阶梯还包括：在没有确定代表性等位基因阶梯的情况下生成初步迁移模型，其中所述初步迁移模型生成对应于所述一组参考条件的代表性合成等位基因阶梯。

12.根据权利要求8-10中任一项所述的方法，还包括找到所述多个片段大小测定数据集中充分匹配所述代表性合成等位基因阶梯的片段大小测定数据集。

13.根据权利要求8-10中任一项所述的方法，还包括；

找到所述多个片段大小测定数据集的子集，其中所述子集中的每个片段大小测定数据集包含对所述代表性等位基因阶梯的充分匹配；以及

计算所述子集中的所述等位基因中每一个的平均片段大小。

14.根据权利要求8所述的方法，还包括线性组合所述第一主分量和所述第二主分量以与温度分量和凝胶降解分量对齐，以及将第一参考条件设定为所述温度分量的中心值，并将第二参考条件设定为所述凝胶降解分量的上限值。

15.根据权利要求8所述的方法，还包括：

对于所述多个片段大小测定数据集中的每一个，通过从数据集片段大小值减去参考片段大小值来计算所述片段大小测定数据集中的每个等位基因的偏差值；

存储包括所述多个片段大小测定数据集的所述偏差值的矩阵；以及

执行一个或多个主分量分析矩阵运算以确定主分量。

16.根据权利要求1所述的方法，其中所述预计算模型包括通过以下步骤生成的经验模型：

定义第一变量和第二变量，其中所述第一变量和所述第二变量影响所述预计算模型中的迁移；

确定所述第一变量的第一实验范围和所述第二变量的第二实验范围；

在所述第一实验范围和所述第二实验范围内选择参考条件；

在所述第一变量的所述第一实验范围内进行第一系列的校准样本运行同时保持所述第二变量在所述参考条件下恒定，并且在所述第二变量的所述第二实验范围内进行第二系列的校准样本运行同时保持所述第二变量在所述参考条件下恒定；

定义所述第一变量的第一参数和所述第二变量的第二参数，使得所述第一参数和所述第二参数在所述参考条件下为零；并且所述第一参数包括在所述第一变量偏离所述参考条件时的非零值，并且所述第二参数包括在所述第二变量偏离所述参考条件时的非零值；

对于所述第一变量和所述第二变量，确定回归参数并聚集第一图和第二图中每个等位基因的斜率以生成第一特征分量和第二特征分量；以及

通过聚集所述校准样本中每个所述等位基因的所述斜率的截距来生成参考阶梯。

17.根据权利要求1所述的方法，还包括：

在使用所述预计算模型来动态地生成一个或多个第一合成等位基因阶梯之前，首先确定预存储的等位基因阶梯是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中，所述预存储的等位基因阶梯包括片段大小测定数据集，所述片段大小测定数据集是从先前使用同一CE仪器或使用另一个测量片段大小的类似CE仪器对等位基因阶梯样本进行的一个或多个样本运行获得的，以及

如果所述预存储的等位基因阶梯充分匹配，则使用充分匹配的预存储的等位基因阶梯来确定所述多个等位基因中的哪些存在于所述生物样本中而不生成任何第一或另外的合成等位基因阶梯。

18.一种脱氧核糖核酸(DNA)分析仪器，包括：

毛细管电泳(CE)基因分析仪，所述毛细管电泳基因分析仪包括：

样本端口，所述样本端口可操作以接收包含一种或多种DNA分子的测试生物样本，其中所述DNA分子包含一个或多个DNA基因座，并且每个DNA基因座与多个等位基因相关联；

热循环仪，所述热循环仪与所述样本端口连接并且包括可操作以执行所述测试生物样本的DNA片段的DNA扩增的聚合酶链式反应(PCR)室；

至少一个CE毛细管，所述至少一个CE毛细管与所述热循环仪连接并且可操作以接收和分离所述测试生物样本的扩增的DNA片段；以及

光学检测器，所述光学检测器可操作以扫描所述CE毛细管以检测所述测试生物样本的所述扩增的DNA片段的荧光值；以及

信号处理器，所述信号处理器与所述光学检测器连接并且可操作以生成对应于所述测试生物样本的所述扩增的DNA片段的荧光值的测试片段大小测定数据；以及

DNA谱生成器，所述DNA谱生成器与所述CE基因分析仪连接并且包括：

预计算模型，所述预计算模型用于动态地生成第一合成等位基因阶梯，所述预计算模型已基于对多个片段大小测定数据集的统计分析而导出，所述多个片段大小测定数据集是从先前使用同一CE仪器或使用另一个测量片段大小的类似CE仪器对等位基因阶梯样本进行的多个样本运行获得的；

匹配器，所述匹配器用于确定所述第一合成等位基因阶梯是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中，并且如果所述匹配不充分，则基于改变所述预计算模型的一个或多个参数来向所述预计算模型发信号以生成一个或多个额外的合成等位基因阶梯，并确定所述一个或多个额外的合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中；以及

等位基因调用器，所述等位基因调用器用于在鉴定出充分匹配的合成等位基因阶梯后，确定所述多个等位基因中的哪些存在于所述生物样本中。

19.根据权利要求18所述的DNA分析仪器，其中所述DNA谱生成器还包括存储所述多个片段大小测定数据集的数据库，所述多个片段大小测定数据集是从先前使用同一CE仪器或使用另一个测量片段大小的类似CE仪器对等位基因阶梯样本进行的多个样本运行获得的。

20.根据权利要求18所述的DNA分析仪器，其中所述DNA谱生成器远程访问所述多个片段大小测定数据集，所述多个片段大小测定数据集是从先前使用同一CE仪器或使用另一个测量片段大小的类似CE仪器对等位基因阶梯样本进行的多个样本运行获得的。

21.根据权利要求18所述的DNA分析仪器，其中所述DNA分析仪器远程访问所述预计算模型。

22.根据权利要求18所述的DNA分析仪器，还包括存储多个合成等位基因阶梯的合成等位基因阶梯数据库，所述合成等位基因阶梯数据库在使用所述预计算模型来动态地生成所述第一合成等位基因阶梯之前由所述匹配器访问，以确定任何存储的合成等位基因阶梯是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中。

23.根据权利要求22所述的DNA分析仪器，其中所述DNA谱生成器远程访问所述合成等位基因阶梯数据库。

24.一种测试包含脱氧核糖核酸(DNA)分子的生物样本是否存在多个等位基因的方法，其中使用所述生物样本获得的并且对应于所述多个等位基因中的不同等位基因的DNA片段具有不同的片段大小，所述方法包括：

通过使用毛细管电泳(CE)仪器迁移和扫描对应于所述生物样本的多个荧光标记的DNA片段来获得测试片段大小测定数据；

使用所述测试片段大小测定数据来搜索存储的等位基因阶梯库，其中所述存储的等位基因阶梯库包含已使用预计算模型而合成生成的一个或多个存储的合成等位基因阶梯，所述预计算模型已基于对多个片段大小测定数据集的统计分析而导出，所述多个片段大小测定数据集是从先前使用同一CE仪器或使用另一个测量片段大小的类似CE仪器对等位基因阶梯样本进行的多个样本运行获得的；

确定所述一个或多个存储的等位基因阶梯是否充分匹配所述测试片段大小测定数据以包含充分匹配的等位基因阶梯，用于鉴定所述多个等位基因中的哪些存在于所述生物样本中；

如果所述一个或多个存储的等位基因阶梯不充分匹配所述测试片段大小测定数据，则基于改变所述预计算模型的一个或多个参数，使用所述预计算模型来动态地生成一个或多个额外的合成等位基因阶梯，并确定所述一个或多个额外的合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以包含充分匹配的等位基因阶梯，用于鉴定所述多个等位基因中的哪些存在于所述生物样本中；以及

在鉴定出充分匹配的等位基因阶梯后，使用所述充分匹配的等位基因阶梯来确定所述多个等位基因中的哪些存在于所述生物样本中。

25.根据权利要求24所述的方法，其中所述预计算模型基于主分量分析(PCA)。

26.根据权利要求25所述的方法，其中所述主分量分析包括确定具有第一主分量范围的第一主分量和具有第二主分量范围的第二主分量。

27.根据权利要求26所述的方法，其中所述存储的等位基因阶梯库包括多个合成等位基因阶梯，所述多个合成等位基因阶梯与在所述第一主分量范围内的不同的第一主分量值和在所述第二主分量范围内的不同的第二主分量值相关联。

28.根据权利要求26所述的方法，其中所述主分量分析还包括确定包含多个等位基因的代表性等位基因阶梯，每个等位基因与代表性片段大小相关联，其中所述代表性等位基因阶梯与一组参考条件相关联。

29.根据权利要求28所述的方法，其中确定所述代表性等位基因阶梯还包括：

30.根据权利要求28所述的方法，其中确定所述代表性等位基因阶梯还包括：

计算所述多个等位基因中每一个的所述平均片段大小。

31.根据权利要求28所述的方法，其中确定所述代表性等位基因阶梯还包括：在没有确定代表性等位基因阶梯的情况下生成初步迁移模型，其中所述初步迁移模型生成对应于所述一组参考条件的代表性合成等位基因阶梯。

32.根据权利要求28-31中任一项所述的方法，还包括将所述多个片段大小测定数据集中充分匹配所述代表性合成等位基因阶梯的片段大小测定数据集指定为所述代表性等位基因阶梯。

33.根据权利要求28-31中任一项所述的方法，还包括：

计算所述子集中的所述等位基因中每一个的平均片段大小。

34.根据权利要求28所述的方法，还包括线性组合所述第一主分量和所述第二主分量以与温度分量和凝胶降解分量对齐，以及将第一参考条件设定为所述温度分量的中心值，并将第二参考条件设定为所述凝胶降解分量的上限值。

35.根据权利要求28所述的方法，还包括：

执行一个或多个主分量分析矩阵运算以确定主分量。

36.根据权利要求24所述的方法，其中所述预计算模型包括通过以下步骤生成的经验模型：

在所述第一实验范围和所述第二实验范围内选择参考条件；

37.根据权利要求24所述的方法，其中所述储存的等位基因阶梯库还包括一个或多个存储的天然等位基因阶梯。

38.一种非暂态性计算机可读介质，包括存储一个或多个指令的存储器，所述一个或多个指令在由至少一个计算装置的一个或多个处理器执行时，通过以下步骤执行用于测试包含一个或多个脱氧核糖核酸(DNA)分子的生物样本的DNA分析仪器的验证，其中所述DNA分子包含一个或多个DNA基因座并且每个DNA基因座与多个等位基因相关联：

获得对应于片段大小测定值的测试片段大小测定数据，所述片段大小测定值对应于对照生物样本的多个片段，所述多个片段通过所述DNA分析仪器的电泳基因分析仪检测；以及

使用预计算模型来动态地生成一个或多个第一合成等位基因阶梯，所述预计算模型已基于对多个片段大小测定数据集的统计分析而导出，所述多个片段大小测定数据集是从先前使用同一电泳仪器或使用另一个测量片段大小的类似电泳仪器对等位基因阶梯生物样本进行的多个样本运行获得的；

确定所述第一合成等位基因阶梯是否充分匹配所述对照样本片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述对照生物样本中并且满足预指定的一组验证标准；

如果所述第一合成等位基因阶梯不充分匹配所述对照样本片段大小测定数据，则基于改变所述预计算模型的一个或多个参数生成一个或多个额外的合成等位基因阶梯，并确定所述一个或多个额外的合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述对照生物样本中并且满足预指定的一组验证标准；以及

在鉴定出充分匹配的合成等位基因阶梯后，确定所述对照生物样本的所述多个等位基因是否与所述充分匹配的合成等位基因阶梯的相应多个等位基因匹配。

39.一种非暂态性计算机可读介质，包括存储一个或多个指令的存储器，所述一个或多个指令在由至少一个计算装置的一个或多个处理器执行时，通过以下步骤执行对包含一个或多个脱氧核糖核酸(DNA)分子的生物样本的测试，其中所述DNA分子包含一个或多个DNA基因座并且每个DNA基因座与多个等位基因相关联：

使用预计算模型来动态地生成至少一个第一合成等位基因阶梯，所述预计算模型基于对从使用同一分析仪器或使用另一个测量片段大小的类似分析仪器的多个先前进行的样本运行获得的多个片段大小测定数据集的分析；

确定所述第一合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中；

如果第一合成等位基因阶梯不充分匹配所述测试片段大小测定数据，则基于改变所述预计算模型的一个或多个参数生成一个或多个额外的合成等位基因阶梯，并确定所述一个或多个额外的合成等位基因阶梯中的任一个是否充分匹配所述测试片段大小测定数据以鉴定所述多个等位基因中的哪些存在于所述生物样本中；以及

40.根据权利要求39所述的非暂态性计算机可读介质，其中所述分析仪器包括毛细管电泳(CE)仪器。

41.根据权利要求39所述的非暂态性计算机可读介质，其中所述多个先前进行的样本运行包括一个或多个等位基因阶梯样本运行。

42.根据权利要求39所述的非暂态性计算机可读介质，其中所述多个先前进行的样本运行包括来自其他生物样本的一个或多个测试样本运行。

43.根据权利要求39所述的非暂态性计算机可读介质，其中所述一个或多个额外的合成等位基因阶梯是在鉴定出充分匹配的等位基因阶梯后生成的，以便满足一个或多个优化标准。