CN102365147A

CN102365147A - 通过解链曲线分簇的snp检测

Info

Publication number: CN102365147A
Application number: CN2010800157262A
Authority: CN
Inventors: T·豪瑟
Original assignee: Bio Rad Laboratories Inc
Current assignee: Bio Rad Laboratories Inc
Priority date: 2009-02-27
Filing date: 2010-02-26
Publication date: 2012-02-29
Anticipated expiration: 2030-02-26
Also published as: CN102365147B; JP2012519002A; US9864832B2; US20140067277A1; US8606527B2; WO2010099461A1; CA2753710A1; US20100250145A1; EP2695951A1; EP2401112A4; EP2401112A1; EP2401112B1; JP5814129B2

Abstract

提供了用于对解链曲线集合进行自动分析的系统、方法和装置。该分析可标识解链的双链核苷酸序列(例如，DNA或其他核苷酸序列)的某些特性。例如，可从该分析确定序列(也称为扩增子)中的变异(例如，突变)。扩增子可经由任何扩增机制来扩增，诸如PCR或连接酶链式反应(LCR)。该自动分析可包括标识解链区，规范化解链曲线、以及将解链曲线分簇。

Description

通过解链曲线分簇的SNP检测

相关申请的交叉引用

该非临时专利申请要求于2009年2月27日提交的题为“通过解链曲线分簇的SNP检测”的美国临时专利申请No.61/156,034的优先权。该临时申请的全部内容通用地通过援引纳入于此。

背景

本发明一般涉及标识基因序列变异，诸如单核苷酸多态性(SNP)，且尤其涉及使用来自聚合酶链式反应(PCR)装置的解链曲线来标识序列变异。

使用实时PCR来检测和量化目标核苷酸序列。在PCR中，一个或更多个反应孔包含DNA模板，该DNA模板包含要扩增的DNA区(目标)。反应孔的温度上升，从而DNA解离成两个单链。温度随后下降，与目标序列侧面的区域互补的引物随后结合。温度随后稍微上升以解离该单链与引物联结。DNA聚合酶随后可合成新的DNA以提供DNA扩增。

例如通过荧光来实时地监视序列的指数式扩增。通常使用荧光染料，其仅报告双链DNA的存在。通常，染料不区分各序列，因此可能报告非期望目标的扩增。这些非期望序列可在解离步骤期间检测。在解离期间，双链PCR产物解链成单链，因此荧光减少。解链过程往往在扩增已完全实现之后执行。

通过对照温度的逐渐上升来标绘荧光损失可产生解链曲线。检测到不同解链曲线意味着存在不同序列。该技术已被用于单核苷酸多态性检测、等位基因鉴别、以及微生物的菌株分型。

然而，确定不同解链曲线之间的差异是困难的且可能不可重复。因此，期望有使用解链曲线来检测序列变异的改进方法和系统以提供更高的结果准确性、可靠性以及一致性。

概述

本发明的实施例可提供用于对解链曲线集合进行自动分析的系统、方法和装置。该分析可标识解链的双链核苷酸序列(例如，DNA或其他核苷酸序列)的某些特性。例如，可从该分析确定序列(也称为扩增子)中的变异(例如，突变)。扩增子可经由任何扩增机制来扩增，诸如PCR或连接酶链式反应(LCR)。各种实施例可提供用于标识解链区、用于规范化解链曲线、以及用于将解链曲线分簇的方法，将解链曲线分簇可在规范化之后进行。

根据一些实施例，提供了标识核苷酸序列之间的序列变异的方法。接收多个数据点集合，每个集合对应于包含两个核苷酸序列的双链分子的副本的不同样本。集合的每个数据点包括该样本的信号值和温度值，其中温度对于每个相继数据点上升。每个集合定义一解链曲线。

在一个实施例中，处理器确定各解链曲线的解链区。对于每条解链曲线，取二阶导数，并且标识该二阶导数的函数与边界阈值交叉处的开始和结束温度。基于各解链曲线的相应开始温度，标识解链区开始。基于各解链曲线的相应结束温度，标识解链区结束。每条解链曲线被指派给相应簇。指派给相同簇的解链曲线相对于其他簇中的解链曲线在解链区中具有一种或多种相似性质。与至少一簇相对应的核苷酸序列的至少一部分被标识为相对于另一簇的核苷酸序列具有序列变异。

在另一实施例中，确定具有解链区开始和解链区结束的解链区。处理器通过以下步骤执行对每条解链曲线的第一规范化：修改该解链曲线的数据点从而结束区域内的数据点的平均值为第一值，以及修改该解链曲线的数据点以使得开始区域中的数据点的平均值为第二值。结束区域是始于解链区结束处的温度范围，而开始区域是结束于解链区开始处的温度范围。对于每条解链曲线，标识该解链曲线与阈值交叉处的阈值温度。从各个阈值温度计算平均阈值温度。平移每条解链曲线从而该解链曲线在平均阈值温度处与该阈值交叉。对每条解链曲线的第二规范化包括修改该解链曲线上具有比平均阈值温度低的温度的数据点以使得开始区域中的数据点的平均值为第三数字。每条解链曲线被指派给相应簇。指派给相同簇的解链曲线相对于其他簇中的解链曲线在解链区中具有一种或多种相似性质。与至少一簇相对应的核苷酸序列的至少一部分被标识为相对于另一簇的核苷酸序列具有序列变异。

在另一实施例中，确定具有解链区开始和解链区结束的解链区。每条解链曲线被指派给相应簇。指派给相同簇的解链曲线相对于其他簇中的解链曲线在解链区中具有一种或多种相似形状性质。处理器选择解链曲线簇并确定所选簇的每条解链曲线的解链温度。处理器基于相应的解链温度将所选簇的解链曲线编组成多个子簇。与至少一个子簇相对应的核苷酸序列的至少一部分被标识为相对于另一子簇的核苷酸序列具有序列变异。

在另一实施例中，确定具有解链区开始和解链区结束的解链区。至少一个处理器通过分析解链曲线的形状来将每条解链曲线指派给相应簇。指派给相同簇的解链曲线相对于其他簇中的解链曲线在解链区中具有一种或多种相似形状性质。分析形状包括：对于每条解链曲线，计算N个平均值，每个值是该解链曲线的多个连续分段之一的平均；将该N个平均值的集合定义为N维空间中的点；将各N维点拟合成K个N维函数；用这K个N维函数之一来标识每个N维点；以及将与相同的N维函数相关联的解链曲线编组到相同的簇中。与至少一簇相对应的核苷酸序列的至少一部分被标识为相对于另一簇的核苷酸序列具有序列变异。

在另一实施例中，确定具有解链区开始和解链区结束的解链区。至少一个处理器取每条解链曲线的负一阶导数来确定相应的解链峰值曲线。该至少一个处理器将每条解链曲线指派给相应簇。指派给相同簇的解链曲线相对于其他簇中的解链曲线在解链区中对于解链峰值曲线具有一种或多种相似性质。与至少一簇相对应的核苷酸序列的至少一部分被标识为相对于另一簇的核苷酸序列具有序列变异。

各实施例还针对实现本文中描述的方法的计算机可读介质和系统。

参考以下详细描述以及附图可获得对本发明的本质和优点的更好理解。

附图简述

图1示出根据本发明一实施例的一组解链曲线100，每条解链曲线对应于不同的双链核苷酸序列。

图2是解说根据本发明一实施例的用于分析扩增子的解链曲线以确定扩增子的序列变异的方法的流程图。

图3是解说根据本发明一实施例的用于分析一组解链曲线以确定全局解链区的方法的流程图。

图4示出根据本发明一实施例的解说一组解链曲线的解链区410的标绘400。

图5A示出根据本发明一实施例的未规范化的一组解链曲线500。

图5B示出根据本发明一实施例的经规范化的一组解链曲线550。

图6是解说根据本发明一实施例的在解链区内规范化解链曲线的方法600的流程图。

图7A示出根据本发明一实施例的已经历仅第一规范化的一组解链曲线。

图7B示出根据本发明一实施例的已经历第二规范化的一组解链曲线。

图8是解说根据本发明一实施例的用于标识子簇内的序列变异的方法800的流程图。

图9是解说根据本发明一实施例的用于分析解链曲线的形状的方法900的流程图。

图10是根据本发明一实施例的用于确定用于分簇的高斯或其他函数的数目的方法1000的流程图。

图11是解说根据本发明实施例的预处理用于分簇的解链曲线数据的方法1100的流程图。

图12A示出根据本发明一实施例的解链峰值曲线。图12B示出图12A中的解链峰值曲线的基线的标绘。图12C示出减去图12B中所示的基线所得的数据。

图13示出可用于根据本发明实施例的系统和方法的示例性计算机装置的框图。

详细描述

图1示出根据本发明一实施例的一组解链曲线100，每条解链曲线对应于不同的双链核苷酸序列。这些解链曲线可按本领域技术人员已知的任何方式来生成。X轴110是以摄氏度计的温度。温度随时间下降，因此温度也与时间相关。在一个实施例中，该相关可以是线性的，尽管在其他实施例中可发生其他关系。Y轴120提供从扩增子获得的信号(例如，荧光信号)的值。所示的单位是相对荧光单位(RFU)。

RFU越高，双链DNA(dsDNA)的量越大。RFU的值越小，双链扩增子的量越低。dsDNA样本解链的温度(解链温度)可被确定为RFU已下降至某个水平以下的点。在该点，dsDNA可被认为已解链。

每条解链曲线具有一定形状和/或解链温度，这取决于其扩增子的特定特性。引起解链曲线形状和解链温度差异的特性包括扩增子的序列。在一个方面，该序列可对解链温度造成最大影响。

扩增子是否包含杂合突变也可能影响解链曲线形状和解链温度。在一个方面，存在杂合突变可对解链曲线的形状具有最大影响。包含杂合单核苷酸多态性(SNP)的扩增子在扩增之后引起dsDNA的混合。所得dsDNA的大约一半在SNP位置处具有错配碱基对，其一条链来自具有SNP的亲本，而另一条链无SNP。包含碱基对错配的dsDNA较不稳定，且将在稍低的温度解链。这种不稳定性导致解链曲线的独特的提早下降。扩增子内的甲基化程度也可能影响该形状和解链温度。

I.一般方法

图2是解说根据本发明一实施例的用于分析扩增子的解链曲线以确定扩增子的序列变异的方法200的流程图。方法200可由计算机系统实现，该计算机系统具有至少一个处理器以及用于存储数据和/或用于控制该至少一个处理器的程序代码的任意数目个存储单元。

在步骤210，例如在作为扩增装置(例如，PCR机器)的一部分或与扩增装置联网的计算机系统的输入处接收原始解链曲线数据。在一个实施例中，原始解链曲线是多个数据点集合。在一个方面，每个集合可定义一解链曲线且可对应于一不同的解链曲线。在另一个方面，每条解链曲线可来自包含两个核苷酸序列的双链分子(例如，基因)的副本的不同样本(例如，反应孔)。集合的每个数据点可包括该样本的信号值和温度值，其中温度对于每个相继数据点上升。

在步骤220，再采样该原始解链曲线数据。再采样涉及任何类型的曲线拟合、内插或回归。例如，使用三次样条来内插该数据。所得内插可按任何频率来采样以给出新数据点，例如使得每10摄氏度有一个数据点。在一个方面，使用样条(或其他方法)允许由PCR机器测量较少的数据点。在其他实施例中，可使用原始解链曲线数据而无需再采样。

在步骤230，确定解链区。解链区可被认为是刚好在dsDNA解离开始之前开始且刚好在dsDNA完全解离之后结束的区域。以下描述的方法300提供了寻找解链区的方式的一个示例。

在步骤240，每条解链曲线在解链区中被规范化。在一个实施例中，执行规范化以设置解链区开始和结束附近的值。该规范化可被视为以下描述的单个规范化过程。在另一实施例中，规范化固定规范化区域内的第三点。在另一实施例中，规范化可将解链曲线转换成新函数并随后规范化该新函数。例如，解链曲线可被转换成解链曲线的负一阶导数，且随后该负一阶导数被规范化。

在步骤250，将解链曲线划分分簇。在一个方面，每条解链曲线被指派给一簇。指派的确定可按各种方式进行，例如，如以下描述的。分簇时将使用多少簇的确定将如图10中所描述地执行。

在步骤260，与至少一簇相对应的核苷酸序列的至少一部分为具有序列变异(例如，基因突变)。在一个实施例中，每条解链曲线来自PCR板的不同孔。另外，每个孔可以是相同基因，但来自不同人。显示序列变异的孔可被确定为展现基因突变。

变异确定可相对于另一簇(例如，包含大多数解链曲线的簇)的核苷酸序列作出。例如，野生型(最常见)基因的解链曲线随后可与基因有突变的解链曲线区别开。若没有野生型，则这些序列可与参考解链曲线作比较以确定序列变异是否为突变。

一旦基因被标识为有突变，则可执行进一步分析(诸如更昂贵的排序)以确定突变类型。注意，并非被确定为有变异的簇的所有序列都必然有变异。例如，在杂合SNP中，dsDNA的序列中仅一个序列有突变。在一个方面，所使用的引物将围绕突变位点。

II.解链区的标识

图3是解说根据本发明一实施例的用于分析一组解链曲线以确定全局解链区的方法300的流程图。方法300可用于实现方法200的步骤230。对于每条解链曲线，确定该解链曲线的解链区，且随后从各个解链区确定全局解链区。

在步骤310，选择尚未被分析的新解链曲线。在一个实施例中，分析所有接收到的解链曲线。在另一实施例中，选择所有接收到的解链曲线中的仅某些解链曲线进行分析。

在步骤320，取所选解链曲线的二阶导数。在一个实施例中，在分析中使用该二阶导数的绝对值。在一个方面，除了在感兴趣的区域中(例如刚好在解链区之前和之后)，该二阶导数的值通常接近零。在另一个方面，该二阶导数可具有两个峰值，一个峰值在解链区开始处而一个峰值在解链区结束处。

在步骤330，(例如，用2摄氏度的平滑宽度来)平滑该二阶导数曲线，这将该两个峰值合并为一个峰值。结果可以是跨解链区的一个宽峰值，而剩下该数据的其余部分接近零。在一个实施例中，平滑函数取特定数据点周围的窗口(例如，2°)内的数据点的平均，并随后将该平均用作该数据点的新值。平滑可减少噪声的影响。

在步骤340，确定这一个合并峰值的左右界限。在一些实施例中，左右界限是峰值与阈值交叉的点。该阈值可以是固定数字或相对于该峰值的特性(诸如峰值的最大值)的值。因此，在一个实施例中，峰值的左右界限被标识为该峰值在其左侧和右侧与峰值最大值×.35的边界阈值交叉之处。那些边界阈值交叉可被用作解链曲线的解链区界限。

此类方法的优点在于找到解链曲线的边缘而不仅仅是解链曲线的中心点，该中心点可用一阶导数来寻找。通过所定义的解链区，可以更准确和一致地比较解链曲线的形状。另外，二阶导数可较不易受期望解链区外部的区域中的差异的影响，因为二阶导数在这些外部区域中往往较小。

在步骤350，确定是否有任何更多解链曲线需要分析。若有更多曲线要分析，则该过程返回步骤310以选择新解链曲线。

在步骤360，从来自步骤340的左界限确定每条解链曲线的开始温度的集合、以及从来自步骤340的右界限确定每条解链曲线的结束温度的集合。在一个实施例中，这两个集合按升序或降序来排序。

在步骤370，从这些曲线的相应开始和结束温度确定全局解链区开始和全局解链区结束。在一些实施例中，大于预定数目个其他开始温度的相应开始温度被标识为全局解链区开始，而小于预定数目个其他结束温度的相应结束温度被标识为解链区结束。

在一个实施例中，从排序的开始温度起15-35％(例如，25％)百分比值(即，大于25％的其他开始)被取为全局解链区开始，而从排序的结束温度起65-85％(例如，75％)百分比值(即，小于75％的其他结束)被取为全局解链区结束。以此方式，偏远数据点不具有不相称的效应，同时仍分析相当大部分的解链曲线被认为有意义(即，高于边界阈值)的数据点。在另一实施例中，可使用这些曲线的相应开始和结束温度的平均、中值、或其他函数。

图4示出根据本发明一实施例的解说一组解链曲线的解链区410的标绘400。如从该实施例可以看出的，解链曲线可在解链区的开始之前开始下降。解链区有利地允许对这些曲线的形状和解链温度的分析在对解链曲线有特定和一致意义的可再生区域上执行。在分析被限制在解链区时，对簇的确定可以更准确。

III.两步骤规范化

解链区随后可被用于规范化解链曲线，例如以在对形状和温度的分析中提供更大的一致性和准确性。在一个实施例中，每条解链曲线被规范化，以使得该解链曲线在解链区结束处具有第一值(例如，0)以及在解链区开始处具有第二值(例如，1)。

图5A示出根据本发明一实施例的未规范化的一组解链曲线500。图5B示出根据本发明一实施例的经规范化的一组解链曲线550。如图所示，经规范化的解链曲线在左竖条560中具有值“1”以及在右竖条570中具有值“0”。

左竖条560是开始区域。该开始区域在解链区开始处结束564且在该开始前的指定(例如，预定)温度范围处开始562。右竖条570是结束区域。该结束区域在解链区结束处开始572且在从解链区结束起的指定(例如，预定)温度范围处结束574。例如，该范围可以是0.5℃-1.0℃。

图6是解说根据本发明一实施例的在解链区内规范化解链曲线的方法600的流程图。出于完整性，方法600始于接收解链曲线数据。

在步骤610，接收解链曲线。所接收的解链曲线可以是原始解链数据或再采样的数据。在步骤620，确定具有解链区开始和解链区结束的解链区。解链区可通过方法300或任何其他方法来确定。例如，可使用大约以一条或多条解链曲线的一阶导数的峰值为中心的温度窗口。

在步骤630，确定解链区的结束区域。在一个方面，该结束区域是始于解链区结束处的一温度范围(其可以是预定的，例如0.5℃)。还可确定解链区的开始区域。在另一个方面，该开始区域是结束于解链区开始处的一温度范围(其可以是预定的)。

在步骤640，执行对每条曲线的第一规范化。在一个实施例中，对于每条曲线，通过偏移该曲线的数据点从而落在结束区域内的数据点具有第一值(例如，0)的平均值来执行该规范化。随后，将该曲线乘以一数字使得开始区域中的数据点具有第二值(例如，1)的平均值。

在步骤650，对于一旦已规范化的每条曲线，标识该曲线与解链阈值交叉的阈值温度。在一个实施例中，解链阈值是经验地导出的。常见值在0.5与0.2之间。该值可取决于解链曲线的质量。在各种实施例中，具有低噪声的数据可具有较低解链阈值，而具有较高噪声的数据可具有较高解链阈值。

在步骤660，从相应的阈值温度计算平均阈值温度。在一个实施例中，该平均是相应阈值温度之和除以相应阈值温度的数目的简单平均。在另一实施例中，该平均可被加权，或在执行该平均之前可取相应阈值温度的函数。

在步骤670，沿温度轴平移解链曲线，从而每条解链曲线在该平均阈值温度处与该阈值交叉。但在平移之后，结束和开始区域中的值不再为期望的第一和第二值。

在步骤680，执行第二规范化。曲线上具有比平均阈值温度高的温度的数据点可被修改以使得该曲线的数据点在平均阈值温度处的值为该阈值且在结束区域中的平均值为第三数字(例如，0)。曲线上具有比平均阈值温度低的温度的数据点可被修改以使得开始区域中的数据点的平均值为第四数字(例如，1)。

该规范化有利地允许对这些曲线的形状和解链温度的分析以具有更大一致性的统一方式来执行，而不管信号中的噪声如何。在对在此类规范化之后被比较的解链曲线执行分析时，对簇的确定可以更准确。

图7A示出根据本发明一实施例的已经历仅第一规范化的一组解链曲线。如可以看出的，解链曲线贯穿解链区横跨一值范围。此类离散性可导致形状分析困难和不规则。

图7B示出根据本发明一实施例的已经历第二规范化的一组解链曲线。如可以看出的，解链曲线在解链区中的不同值之间的离散性已降低。每条解链曲线在相同温度即平均阈值温度(约为81°)处与阈值710交叉，如步骤660中确定的。对平均阈值温度之上和之下的点分开执行第二规范化使得每条解链曲线仍在平均阈值温度处与该阈值交叉。

IV.两层分簇

不同类型的序列变异可导致不同的行为。各实施例可使用两步骤过程来更高效和准确地标识不同类型的序列变异。

图8是解说根据本发明一实施例的用于标识子簇内的序列变异的方法800的流程图。该组解链曲线可被划分为簇且随后被划分成子簇。在一个实施例中，首先找到形状簇，随后在每个形状簇内找到解链温度子簇。在一个方面，形状分簇可将对应于杂合突变的解链曲线与不对应于杂合突变的那些解链曲线区别开，而解链温度分簇可将具有纯合突变的解链曲线与无纯合突变的那些解链曲线区别开。

在步骤810，例如，如本文中所描述地接收解链曲线。在步骤820，例如，如本文中所描述地确定具有解链区开始和解链区结束的解链区。

在步骤830，通过分析曲线在解链区中的形状来标识具有不同解链概况的不同曲线簇。例如，杂合SNP将具有与野生型不同的形状。通常，杂合SNP起先将比野生型下降更快，且随后具有解链曲线的下降略微变平坦的弯曲。这是孔中有两个不同序列的结果，因为仅染色体之一有序列变异。在一个方面，在该情形中孔中将有4种不同的dsDNA扩增子：同质双链野生型(来自亲本1)、同质双链SNP(来自亲本2)、以及两个异源双链产物(一个由来自亲本1的链1和来自亲本2的链2构成，一个由来自亲本1的链2和来自亲本2的链1构成)。

在步骤840，选择簇。在一个实施例中，所选簇是对应于野生型所在簇的簇。因此，在一个实施例中，所选簇是具有最大数目的解链曲线的簇。在另一实施例中，选择每个形状簇以按以下步骤进行进一步的相应分析。不在野生型簇中的序列可被标识为具有杂合SNP。

在步骤850，确定所选簇的每条曲线的解链温度。解链温度可通过发现负一阶导数内的峰值位置的标准手段导出。在一个实施例中，用于此举的解链曲线数据是未经温度平移的经RFU规范化的数据。在另一实施例中，解链温度是解链曲线与阈值交叉处的值。

在步骤860，所选簇的曲线基于相应的解链温度被编组成多个子簇。在一个实施例中，用于按形状编组曲线的相同计算方法被用于执行按解链温度的编组。在另一实施例中，通过任何方法(诸如一阶导数的峰值)或按解链曲线与阈值交叉处的温度从未经规范化的解链曲线确定解链温度。

在步骤870，子簇的序列的至少一部分被标识为具有序列变异。例如，子簇的基因可被标识为具有突变，诸如纯合SNP。以此方式，可通过分析形状首先确定杂合SNP。随后，通过仅在具有相同形状的簇内进行分析可更容易地标识纯合SNP。

V.通过拟合成K个N维函数来分簇形状

图9是解说根据本发明一实施例的用于分析解链曲线的形状的方法900的流程图。在各种实施例中，解链曲线可以是接收到的原始数据、经再采样的、或以本文中提及的任何方法规范化的。在一个实施例中，方法900可被用于方法800的形状分簇。

在步骤910，每条曲线被映射到一N维点，其中N是大于1的整数。例如，对于每条曲线，计算N个值。在一个方面，这N个值中的每一个是解链曲线的多个分段之一的报告器信号值的平均。这N个平均值的集合随后被定义为N维空间中的点。

在一些实施例中，曲线的分段是连续的，并且始于解链区的开始处且结束于平均阈值温度处。在其他实施例中，曲线的分段是连续的，并且始于解链区的开始处且结束于解链区的结束处。

在一个实施例中，每条解链曲线在被映射到N维点(例如，N＝7)之前首先被RFU规范化和温度平移。这N维的值可以是始于解链区开始处且结束于平均阈值温度(如步骤660中描述的)处的N个连续且等宽窗口中的每一个窗口的平均RFU值。

在步骤920，这些N维点的集合被拟合成K个N维函数。在一个实施例中，这些函数具有中心，该中心在拟合过程期间可移动。这些中心可最初被放置成使得这些中心彼此远离。确切的点可被选取成例如在数据点之上。这些函数随后被移动和扩展以提供对N维数据点的分布的更好表示。

该拟合可作为称为高斯混合的分簇算法的定制版本的迭代应用的一部分来完成。在此种实施例中，给定数目(K)的N维高斯概率分布被拟合成给定的N维点集合。拟合算法通过修改每个概率分布的形状和位置直至进一步的修改不会充分改进该拟合来使给定的点集合来自这K个概率分布的概率最大化。

每个函数可具有函数形式

其中X是N维点，而X₀是高斯的中心。C是指数式系数。在一个实施例中，C是针对该系数中的多项式的一系列不同值。由于X是N维点，C可被认为是N×N的值矩阵。在一个方面，C是对称矩阵。

对于每个高斯函数，靠近该函数的点向该函数的拟合提供更大的贡献。因此，高斯与数据点的交迭被最大化。理想地，各高斯保持分开以便在另一高斯支配性地与数据点交迭时不与相同数据点显著交迭。

在一个实施例中，高斯的系数C可受约束。例如，沿每一维的K个高斯标准偏差(即，宽度)——其为C的对角元素——被迫落在某些界限内。界限的一些示例性值为：对于7维形状簇，每一维的最大标准偏差为.0065且最小标准偏差为.00075；以及对于1维解链温度簇，最大标准偏差为.7且最小标准偏差为.09。

在一个方面，这些界限大致界定了解链曲线中的预期随机变异量。馈送到此算法的数据集可以较小(即，有少数点)，且可能难以导出合理的概率分布。这些界限可使得结果更稳定和准确，对于小数据集尤其如此。

在另一实施例中，高斯可被迫轴对准。在一个方面，轴对准是变稳定并且对于小数据集可能是有用的。在高斯被轴对准时，C_ij的值在i不等于j时等于0，其有时被称为协方差。i等于j时的值(高斯宽度的标准偏差)可能是非零的。

在另一实施例中，使用K均值算法而非高斯混合。在该实施例中，相应函数是指派给特定簇的各点的均值。在每次迭代时，数据点被指派给最接近的均值，且随后计算新均值，并且该过程重复。在其他实施例中，可以使用其他分簇算法。

回到方法900，在步骤930，用这K个N维函数之一来标识每个N维点。在一个实施例中，数据点用最接近该点的函数来标识。在另一实施例中，使用函数的值，其中具有最高值的函数被指派了该数据点。

在步骤940，与相同的N维函数相关联的曲线被编组到相同的簇中。如以上提及的，簇的各序列的至少一部分可被标识为具有序列变异。

方法900可取决于使用了多少N维函数。换言之，其可取决于如上所用的K的值。各实施例可提供确定K的方法。

图10是根据本发明一实施例的用于确定用于分簇的高斯或其他函数的数目的方法1000的流程图。在一个方面，通过对多个K应用分簇方法(例如，以上描述的高斯混合)来找出用于将曲线指派给簇的合适K。

在步骤1005，K的值被初始化为一整数(例如，2)。在步骤1010，从每条曲线的N维点集合导出K个簇。例如，具有给定K的上述方法(例如，使用高斯混合算法)可被用于将每个数据点指派给由K个概率分布中的哪个在该点具有最高概率所标识出的簇。

在步骤1020，找到这K个簇中任一对之间的最小距离。在一个实施例中，该距离是经修改距离。一对簇之间的经修改距离可以是这对簇的质心之间的欧几里得距离D乘以定标因子M。定标因子M可以基于这两个簇的标准偏差交迭的程度，即其基于这些簇相差多大。相差较大的簇提供大于1的M，而相差较小的簇产生小于1的M。使用经修改距离的效果可以是：若这些点是紧凑的且有低噪声(例如，小量交迭)，则允许簇彼此接近。

在一个实施例中，高斯的标准偏差系数C(或描述函数宽度的任何系数)可被用于确定交迭。在另一实施例中，特定簇的各点的跨度的标准偏差的值可如下确定。

在推导M时，可首先计算成对簇评分CS：

stdDev1＝簇1内的各点的标准偏差。

stdDev2＝簇2内的各点的标准偏差。

avgStdDev＝(stdDev1+stdDev2)/2

CS＝D/avgStdDev

CS是经规范化的量，其不取决于数据的标量。在一个实施例中，约3.5以上的值指示充分区别开的簇，而较低的值指示逐渐未区别开的簇。在一些实施例中，M是CS的非线性函数，其中M对于充分区别开的簇大于1而对于未区别开的簇小于1。

在一个实施例中，CS的该非线性函数是从线性地内插出或外推出的硬编码控制点集合导出的。以下为(CS，M)格式的控制点：(-1，0.1)、(2.5，0.1)、(3.3，1)、(3.7，1)、(6.5，2)和(100，2)。

在步骤1030，若经修改距离M*D大于特定阈值CD，则这K簇的集合被标记为“良好”。在一个实施例中，CD是基于由杂合SNP造成的预期解链曲线形状差异经验地导出的。

在步骤1040，确定是否使用新的K。在一个实施例中，这是基于上个K是否被标记为良好来确定的。例如，若K为良好，则始于步骤1010的该过程随后以K+1迭代。若K为不良，则不分析更高的K值。在另一实施例中，扫描预定数目的K。因此，一些K可被标记为不良，但若尚未达到该预定数目，则该方法可仍分析更高数目K的结果。在一些实例中，一些较低K将被标记为不良，而较高K被标记为良好。

在步骤1050，具有最高值的被标记为良好的K被取为用于确定解链曲线将被指派给的簇的K。这些簇随后可被用于确定是否存在序列变异，如本文中描述的。

在一个实施例中，步骤1010中对K个N维函数的确定可对给定K执行若干次。每次用不同的起始点。在一个方面，若任何迭代产生良好结果，则该数目K可被标记为良好。在另一个方面，无论哪个结果落在大多数里，则提供该结果。对半分可被取为不良或良好。

可具有改进的稳健性的其他实施例将分层分簇概念与所述方法结合。在如上所述地找到某K个簇之后，通过合并这K个簇中最接近的两个簇可找到K-1个簇。“最接近的”可以是在绝对距离或经修改距离意义上的，如本文中描述的。将该K-1个分簇与如在该循环的先前迭代(例如，在先前迭代的步骤1010处)中找到的现有K-1个分簇作比较。若其“最接近的簇距离”(以上描述的)大于现有K-1个分簇的“最接近的簇距离”，则其取代现有K-1个簇。因此，可确定K-1个簇的新集合，且该新集合可为“良好”而旧集合可为“不良”。

该“分层分簇追溯”可被用于找到K-1、K-2个等簇。为了找到K-2个簇，K-1的分层分簇以相同的方式被分层地分簇。在一个实施例中，追溯可在某一级停止(例如，在K-2处完结)，而其他实施例可执行更多追溯。

此类追溯可通过使算法较不易受给予分簇算法(例如，K均值或高斯混合算法)的起始点的影响来增加稳健性。例如，若将被分簇的点包括一大组有非零标准偏差的点连同单个离群点，则该算法应当有希望找到那两个簇。若令K均值或高斯混合找到两个簇且假定两个最远点作为开始点，则往往将找到局部最大值，其中一簇包含离群值和来自该大组中接近该离群值的少数边缘值，而另一簇包含该大组的其余部分。然而，若令K均值或高斯混合找到3或4个簇，则有大得多的机会是那些簇之一将为单个离群值，而其他簇将“彼此最接近”，尤其是在经修改距离的意义上，且因此将在分层追溯中被合并。

如针对方法900所描述的，每个形状簇内的解链曲线可被划分成解链温度簇，例如来自步骤860的子簇。在一个实施例中，解链温度分簇如形状分簇那样以以下修改进行。

每条解链曲线被映射到一维点。在一个实施例中，该点是该解链曲线的解链温度，解链温度是通过发现负一阶导数内的峰值位置的标准手段导出的。在一个方面，用于此举的解链曲线数据是未经温度平移的经RFU规范化的数据。在另一实施例中，经RFU规范化的数据内的阈值交叉(例如，来自步骤650)被用作该一维点。

在一个实施例中，特定的经修改距离阈值CD被用于解链温度分簇。距离阈值CD可以是取决于可由用户改变的“分簇灵敏度设置”的值。较高灵敏度产生较低距离阈值。在一些实施例中，形状分簇距离阈值的范围可在.01与.0565256之间。解链温度分簇距离阈值的范围可在.05与1之间。注意，这些值是以不同单位计的(对于形状分簇距离阈值为RFU值(y轴)，而对于解链温度分簇差异阈值为温度值(x轴))。

VI.STR分析

除了SNP检测，各实施例针对短串联重复序列(STR)分析。短串联重复序列是包含某一短序列的数次重复的DNA段。在人类DNA中，每个人在任何给定STR位点可能有不同数目的重复。另外，每个人可能具有源于此人母亲的DNA中的一个数目的重复，以及来自此人父亲的潜在可能不同数目的重复。因此，给定个体的每个位点可用两个数字来编码，诸如若母亲给了3个重复且父亲给了5个重复则为3、5。

STR位点可被隔离、扩增、以及解链。给定个人的DNA的解链曲线中可具有一个或两个峰值，对应于其两个数字(若这些数字不同则为两个峰值)。那些峰值可位于不同温度处，因为较长的DNA链比较短DNA链在更高的温度处解链。STR中的重复次数越高，链就越长。

STR分析的一个应用是在DNA指纹识别中。存在关于可用于标识个体的STR位点的国际标准。这些位点因其对于重复次数的不同可能性的随机分布而被选取。有10或15个此类良好地选取的位点，个人的“指纹”，即这10或15对数字，很有可能在较大人口内是唯一性的或至少非常罕见的。

STR分析可按不同于SNP检测的方式执行。一个差异在于如何计算馈送给分簇算法的数据。例如，使用解链曲线数据的哪方面以及如何规范化数据。规范化方法600对于SNP检测可能工作良好，因为在SNP检测中，开始和结束区域之间的x轴距离较小(通常小于5度)。此较小的x轴距离值可能是由于所有感兴趣孔中的产物在几乎相同的温度解链。在开始和结束区域之间通常存在非常少的噪声，仅有解链转换，这是感兴趣数据。这对于STR分析通常不成立。对于一些样本，在开始区域与产物开始解链的点之间将有较大温度跨度(例如，35度)。

图11是解说根据本发明实施例的预处理用于分簇的解链曲线数据的方法1100的流程图。并非如SNP检测中那样以原始解链曲线开始，STR检测可以“解链峰值”开始，解链峰值是解链曲线的负一阶导数。在一个实施例中，方法1200可被用于方法200中的步骤240。

在步骤1110，接收解链曲线数据。在步骤1120，确定解链区。在一个实施例中，开始和结束区域可位于大约25度和60度以涵盖针对特定样本集的所有解链转换。在STR分析中，大量噪声可存在于开始区域和解链转换之间，且还存在于解链转换与结束区域之间。若方法600被用于规范化该数据，则各样本间可能存在较大差异，因为其解链区外部的相对小的差异可能被规范化定标有效地放大。

在步骤1130，取解链曲线的负导数数据。可使用该负导数数据(解链峰值数据)而非原始解链曲线。图12A示出根据本发明一实施例的解链峰值曲线。在一个实施例中，解链温度被认为是解链峰值尖端的温度(x轴位置)，即解链曲线的转折点、DNA产物解链最快的点。解链峰值数据通常开始较低且结束较低，中间有一个或更多个峰值(取决于孔中有多少不同产物)。

在步骤1140，创建基线，其将开始区域处的解链峰值数据与结束区域处的解链峰值数据连接。图12B示出图12A中的解链峰值曲线的基线的标绘。在一个实施例中，基线将解链区的开始连接到解链区的结束。在另一实施例中，开始区域中的其他点(例如，除开始区域结束外)被连接到结束区域中的其他点(例如，除结束区域的开始外)。

在步骤1150，从解链峰值减去基线。在一个实施例中，负值被归0。图12C示出减去图12B中所示的基线所得的数据。

在步骤1160，经基线化的解链峰值被规范化以使得其在开始和结束区域之间的最大值为1，且最小值为0。经规范化的经基线化峰值随后可被分簇。在一个实施例中，经基线化的解链峰值可各自被转换成多个N维点，例如解链峰值曲线的每个分段有一个点。在一个方面，这些分段可始于解链峰值曲线变为非零的点且结束于解链区的结束处。

在执行针对STR分析的形状分簇中，这些N维点可不同于用于SNP分析的N维点。作为参考，在SNP检测中，N维“形状点”可以是始于解链区开始处且结束于平均阈值温度(如步骤660中描述的)处的N个连续且等宽窗口中的每一个窗口的平均RFU值。对于STR分析，并非结束于平均阈值温度处，N维“形状点”可结束于解链区结束窗口处。如上所述，在一个实施例中，在STR检测处理中不进行温度平移，因此不存在平均阈值温度。另外，并非如可用于SNP检测的N＝7，STR检测可使用N＝30以获取足够的分辨率来捕捉贯穿开始和结束窗口之间的范围中任一处发生的峰值。在另一实施例中，对于STR分析不执行解链温度分簇。

任何PLC或计算机终端可利用任意合适数目的子系统。此类子系统或组件的示例在图13中示出。图13中所示的子系统经由系统总线1375互连。示出诸如打印机1374、键盘1378、固定盘1379、耦合到显示适配器1382的监视器1376等附加子系统。耦合至I/O控制器1371的外围设备和输入/输出(I/O)设备可藉由本领域中已知的任何数目的装置(诸如串行端口1377)连接到该计算机系统。例如，串行端口1377或外部接口1381可用于将该计算机装置连接到诸如因特网之类的广域网、鼠标输入设备、或扫描仪。经由系统总线的互连允许中央处理器1373与每个子系统通信并控制来自系统存储器1372或固定盘1379的指令的执行，以及子系统之间信息的交换。系统存储器1372和/或固定盘1379可以具体化计算机可读介质。

本发明这些具体方面的具体细节可按照任意合适方式来组合，而不背离本发明实施例的精神和范围。然而，本发明的其他实施例可针对关于个别方面的具体实施例，或者这些个别方面的具体组合。

应理解，以上描述的本发明可以按模块化或集成方式使用硬件和/或使用计算机软件以控制逻辑的形式实现。基于本文中提供的公开和教示，本领域普通技术人员将知晓并领会使用硬件以及硬件与软件的组合来实现本发明的其它途径和/或方法。

本申请中所描述的任何软件组件或功能可以通过使用例如常规的或面向对象技术的诸如举例而言Java、C++或Perl之类的任意合适计算机语言而实现成可由处理器执行的软件代码。软件代码可以作为一系列指令或命令存储在计算机可读介质上以进行储存和/或传输，合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、诸如硬盘驱动或软盘之类的磁性介质、或诸如压缩盘(CD)或DVD(数字多用盘)、闪存以及类似的光学介质。计算机可读介质可以是此类储存或传输设备的任何组合。

此类程序也可使用适于经由遵循各种协议的有线、光学、和/或无线网络(包括因特网)传输的载波信号来编码和传送。因此，可使用编码有此类程序的数据信号来创建根据本发明实施例的计算机可读介质。编码有程序代码的计算机可读介质可与兼容设备一起封装或者可与其他设备分开提供(例如，经由因特网下载)。任何这种计算机可读介质可以驻留在单个计算机程序产品(例如，硬驱动或整个计算机系统)上或其内，并且可以存在于系统或网络中的不同计算机程序产品上或其内。计算机系统可包括用于将本文中提及的任何结果提供给用户的监视器、打印机、或其他合适的显示器。

以上对本发明的示例性实施例的描述是出于解说和描述的目的而给出的。这无意于穷举本发明或将本发明限于所描述的精确形式，并且鉴于以上教导，许多修改和变形是可能的。选取和描述各实施例是为了最好地解释本发明的原理及其实践应用，从而允许本领域技术人员能够在各种实施例中并随各种适于所构想的特定用途的修改一起最好地利用本发明。

Claims

1.一种标识核苷酸序列之间的序列变异的方法，所述方法包括：

接收多个数据点集合，每个集合对应于包含两个核苷酸序列的双链分子的副本的不同样本，集合的每个数据点包括所述样本的信号值和温度值，其中所述温度对于每个相继数据点上升，其中每个集合定义一条解链曲线；

至少一个处理器通过以下步骤确定各解链曲线的解链区：

对于每条解链曲线：

取二阶导数；

标识所述二阶导数的函数与边界阈值交叉处的开始和结束温度；

基于所述各解链曲线的相应开始温度，标识解链区开始；

基于所述各解链曲线的相应结束温度，标识解链区结束；

将每条解链曲线指派给相应的簇，其中指派给相同簇的解链曲线相对于其他簇中的解链曲线在所述解链区中具有一种或多种相似性质；以及

将与至少一簇相对应的所述核苷酸序列的至少一部分标识为相对于另一簇的所述核苷酸序列具有序列变异。

2.如权利要求1所述的方法，其特征在于，标识所述解链区开始包括将大于预定量的其他开始温度的相应开始温度标识为所述解链区开始，且其中标识所述解链区结束包括将小于预定量的其他结束温度的相应结束温度标识为所述解链区结束。

3.如权利要求2所述的方法，其特征在于，所述预定量的其他开始温度是百分比。

4.如权利要求1所述的方法，其特征在于，所述双链分子是基因。

5.如权利要求4所述的方法，其特征在于，每个样本包含来自不同生物体的相同基因。

6.如权利要求4所述的方法，其特征在于，所述序列变异是突变。

7.如权利要求1所述的方法，其特征在于，所述二阶导数的所述函数是所述二阶导数的移动平均。

8.如权利要求1所述的方法，其特征在于，进一步包括：

在将所述解链曲线指派给簇之前，通过以下步骤来规范化每条解链曲线：

偏移每条解链曲线的所述数据点从而结束区域内的点的平均值为第一值，其中所述结束区域是始于所述解链区结束处的预定温度范围；以及

将该解链曲线乘以一数字以使得开始区域中的所述数据点的平均值为第二值，其中所述开始区域是结束于所述解链区开始处的预定温度范围。

9.如权利要求8所述的方法，其特征在于，所述第一值是0且所述第二值是1。

10.一种标识核苷酸序列之间的序列变异的方法，所述方法包括：

确定具有解链区开始和解链区结束的解链区；

至少一个处理器通过以下步骤执行每条解链曲线的第一规范化：

修改该解链曲线的所述数据点从而结束区域内的数据点的平均值为第一数字，其中所述结束区域是始于所述解链区结束处的预定温度范围；以及

修改该解链曲线的所述数据点以使得开始区域中的所述数据点的平均值为第二数字，其中所述开始区域是结束于所述解链区开始处的预定温度范围；

对于每条解链曲线，标识该解链曲线与阈值交叉处的阈值温度；

从各个阈值温度计算平均阈值温度；

平移每条解链曲线从而该解链曲线在所述平均阈值温度处与所述阈值交叉；

执行对每条解链曲线的第二规范化，包括：

修改该解链曲线上具有比所述平均阈值温度低的温度的所述数据点以使得所述开始区域中的所述数据点的平均值为第三数字；

11.如权利要求10所述的方法，其特征在于，执行对每条解链曲线的第二规范化进一步包括：

修改该解链曲线上具有比所述平均阈值温度高的温度的所述数据点以使得该解链曲线的所述数据点在所述平均阈值温度处的值为所述阈值且在所述结束区域中的平均值为第四数字。

12.如权利要求10所述的方法，其特征在于，执行所述第一规范化包括：

偏移该解链曲线的所述数据点从而所述结束区域内的数据点的平均值为所述第一数字；以及

将该解链曲线的所述数据点乘以一数字从而开始区域中的所述数据点的平均值为所述第二数字。

13.如权利要求10所述的方法，其特征在于，所述第一值为0。

14.如权利要求10所述的方法，其特征在于，执行所述第二规范化包括：

将该解链曲线上从所述开始区域至所述平均阈值温度的所述数据点乘以一数字从而所述开始区域中的所述数据点的平均值为所述第三数字。

15.如权利要求10所述的方法，其特征在于，所述第二数字与所述第三数字相同。

16.一种标识核苷酸序列之间的序列变异的方法，所述方法包括：

确定具有解链区开始和解链区结束的解链区；

将每条解链曲线指派给相应的簇，其中指派给相同簇的解链曲线相对于其他簇中的解链曲线在所述解链区中具有一种或多种相似形状性质；

至少一个处理器选择解链曲线的簇；

所述至少一个处理器确定所选簇的每条解链曲线的解链温度；

所述至少一个处理器基于相应的解链温度将所选簇的所述解链曲线编组成多个子簇；以及

将与至少一个子簇相对应的所述核苷酸序列的至少一部分标识为相对于另一子簇的所述核苷酸序列具有序列变异。

17.如权利要求16所述的方法，其特征在于，进一步包括：

将与至少一簇相对应的所述核苷酸序列的至少一部分标识为具有序列变异。

18.如权利要求16所述的方法，其特征在于，所述至少一个子簇的所述核苷酸序列被标识为具有纯合突变。

19.一种标识核苷酸序列之间的序列变异的方法，所述方法包括：

确定具有解链区开始和解链区结束的解链区；

至少一个处理器通过分析各解链曲线的形状将每条解链曲线指派给相应的簇，其中指派给相同簇的解链曲线相对于其他簇中的解链曲线在所述解链区中具有一种或多种相似形状性质，其中分析形状包括：

对于每条解链曲线：

计算N个平均值，每个值是该解链曲线的多个连续分段之一的平均；

将该N个平均值的集合定义为N维空间中的点；

将各N维点拟合成K个N维函数；

用所述K个N维函数之一来标识每个N维点；

将与相同的N维函数相关联的所述解链曲线编组到相同的簇中；以及

20.如权利要求19所述的方法，其特征在于，进一步包括通过以下步骤来标识K的值：

针对多个K值将所述解链曲线分簇；

对于K个簇的每个集合：

确定该集合的每个簇之间的距离；

若每个距离皆大于阈值CD，则这K个簇的集合被标记为良好；

确定其簇被标记为良好的K的最高值；以及

使用从针对K的所述最高值分簇得到的簇来标识所述序列变异。

21.如权利要求19所述的方法，其特征在于，所述N维函数是高斯函数。

22.如权利要求21所述的方法，其特征在于，所述高斯的宽度被约束在预定范围内。

23.如权利要求19所述的方法，其特征在于，所述N维函数各自为计算指派给相应函数的数据点的平均的函数。

24.一种标识核苷酸序列之间的序列变异的方法，所述方法包括：

确定具有解链区开始和解链区结束的解链区；

至少一个处理器取每条解链曲线的负一阶导数以确定相应的解链峰值曲线；

所述至少一个处理器将每条解链曲线指派给相应的簇，其中指派给相同簇的解链曲线相对于其他簇中的解链曲线在所述解链区中对于所述解链峰值曲线具有一种或多种相似性质；以及

25.如权利要求24所述的方法，其特征在于，进一步包括：

确定每个负一阶导数的基线，其中基线将所述解链区开始连接至所述解链区结束；以及

从相应解链峰值曲线减去所述基线以提供相应经基线化的解链峰值曲线，其中指派给相同簇的解链曲线相对于其他簇中的解链曲线在所述解链区中对于所述相应经基线化的解链峰值曲线具有一种或多种相似性质。

26.如权利要求25所述的方法，其特征在于，经基线化的解链峰值曲线的负数据点被设为0。

27.如权利要求26所述的方法，其特征在于，所述相应经基线化的解链峰值曲线在分簇之前被规范化，其中所述规范化包括修改所述经基线化的解链峰值曲线的数据点以使得其在所述开始区域和结束区域之间的最大值为1且最小值为0。