CN107077535B

CN107077535B - 用于在基因材料样本中检测微小变异体的方法和系统

Info

Publication number: CN107077535B
Application number: CN201580052677.2A
Authority: CN
Inventors: H·梁; E·施赖伯
Original assignee: Life Technologies Corp
Current assignee: Life Technologies Corp
Priority date: 2014-08-15
Filing date: 2015-08-14
Publication date: 2021-06-22
Anticipated expiration: 2035-08-14
Also published as: EP3180724A1; CN107077535A; WO2016025892A1; US10910086B2; US20170235874A1; EP3180724B1

Abstract

一种用于确定微小变异体的计算机实施的方法。所述方法包含接收来自测试样本的电泳图序列数据，识别所述电泳图中的任何非主要峰，以及使用至少一个信号特征表征所识别的非主要峰。所述方法可进一步包含在所识别的非主要峰之间分析所述至少一个信号特征以识别候选变异体，评估所述所识别的候选变异体中的每个候选变异体的至少一个峰特性，以及基于峰特性的评估将候选变异体分类为真正变异体。

Description

用于在基因材料样本中检测微小变异体的方法和系统

背景技术

生物分析装置，包含诸如平板凝胶和毛细电泳法测序仪之类的DNA测序系统，通常利用一种经由分离介质中的迁移来分离DNA片段的方法。通常在分离的片段穿过检测区域时读取与每个片段相关的标签((例如)荧光染料)。结果是一系列迹线，有时被称作电泳图，其中每根迹线与标签随时间而变的丰度有关。对每根迹线中的峰的解释会得到对于样本的基因序列的确定。这些解释，有时被称作碱基判定，可以手动地或以自动方式(例如使用经过编程的计算机)执行。信号的解释方法是碱基判定处理的重要因素，并且可能很大地影响结果的质量。

基因材料(DNA或RNA)的样本可能含有基因材料的多于一个变异。一个例子是大多数病毒的基因档案相同但是有些病毒有轻微变异的病毒群体中提取的样本。另一个是例子是大多数基因材料是正常的但是有几个基因材料是从癌组织中提取的血液样本。在这些情形下，大多数基因材料是相同的，而对应于最常见的基因材料的DNA或RNA的碱基被称作主要碱基。较不常见的基因材料的碱基序列大部分与常见材料是相同的，但是在几个碱基位置是不同的。这些差别可被称为微小变异体。本文中论述的方法涉及精确地检测和识别基因材料样本中的微小变异体。

发明内容

本公开在一些实施例中涉及一种计算机实施的用于确定微小变异体的方法。所述方法包含接收来自测试样本的电泳图序列数据，识别所述电泳图中的任何非主要峰，以及使用至少一个信号特征表征所识别的非主要峰。所述方法可进一步包含在所识别的非主要峰之间分析所述至少一个信号特征以识别候选变异体，评估所述所识别的候选变异体中的每个候选变异体的至少一个峰特性，以及基于峰特性的评估将候选变异体分类为真正变异体。

在一个实施例中，可以提供一种非暂时性计算机可读存储媒体，其编码有处理器可执行的指令。所述指令可以包括用于以下操作的指令：接收来自测试样本的电泳图序列数据，识别电泳图中的任何非主要峰，以及使用至少一个信号特征表征所识别的非主要峰。所述非暂时性计算机可读存储媒体可进一步包含用于以下操作的指令：在所识别的非主要峰之间分析所述至少一个信号特征以识别候选变异体，评估所述所识别的候选变异体中的每个候选变异体的至少一个峰特性，以及基于峰特性的评估将候选变异体分类为真正变异体。

在又一实施例中，提供一种用于确定微小变异体的系统。所述系统可以包括处理器和编码有所述处理器可执行的指令的存储器。所述指令可以包括用于以下操作的指令：接收来自测试样本的电泳图序列数据，识别电泳图中的任何非主要峰，以及使用至少一个信号特征表征所识别的非主要峰。所述指令可以进一步包含用于以下操作的指令：在所识别的非主要峰之间分析所述至少一个信号特征以识别候选变异体，评估所述所识别的候选变异体中的每个候选变异体的至少一个峰特性，以及基于峰特性的评估将候选变异体分类为真正变异体。

附图说明

图1示出根据本传授内容的实施例的用于执行检测微小变异体的方法的计算系统。

图2示出根据本传授内容的实施例的用于执行检测微小变异体的方法的分布式系统。

图3示出根据本传授内容的实施例的通过分离片段可能得到的电泳迹线。

图4A-图4B示出根据本传授内容的实施例的用于确定微小变异体的工作流。

图5A-图5C示出根据本传授内容的实施例的用于确定微小变异体的另一工作流。

图6示出根据本传授内容的实施例的用于确定微小变异体的另一工作流。

图7A示出根据本传授内容的实施例的用于噪声控制和抑制的工作流。图7B和图7C示出在应用噪声控制和抑制之后测试样本、参考样本和测试样本的电泳图数据。

图8示出根据本传授内容的实施例的用于生成数字参考样本的工作流。

图9A和图9C示出根据本传授内容的实施例的用于生成数字参考样本的另一工作流。图9B示出支持性测序数据。

具体实施方式

为了提供对本发明的更透彻理解，以下描述阐述许多特定细节，例如特定配置、参数、实例等。然而，应认识到，此类描述不意图作为对本发明的范围的限制，而是意图提供对实施例的更好描述。

所属领域的技术人员将认识到，各种实施例的操作可以按需要使用硬件、软件、固件或使用其组合来实施。举例来说，可以在软件、固件或硬连线逻辑的控制下使用处理器或其它数字电路执行一些处理。(本文中的术语“逻辑”是指如所属领域的技术人员所熟知的用以执行所阐述功能的固定硬件、可编程逻辑和/或其适当组合。)软件和固件可以存储在非暂时性计算机可读媒体上。如所属领域的技术人员所熟知，可以使用模拟电路来实施一些其它处理。另外，在本发明的实施例中可以采用存储器或其它存储装置以及通信组件。

图1是示出根据各种实施例的可用于执行处理功能的计算机系统1300的框图。执行实验的仪器可以连接到计算系统1300。计算系统1300可以包括一或多个处理器，如处理器1304。处理器1304可以使用通用或专用处理引擎(如微处理器、控制器或其它控制逻辑)实施。在此实例中，处理器1304连接到总线1302或其它通信媒体上。

此外，应了解，图1的计算系统1300可以用多种形式中的任何形式具体实施，例如机架安装式计算机、大型主机、超级计算机、服务器、客户端、台式计算机、手提电脑、平板电脑、手持式计算装置(例如PDA、蜂窝电话、智能手机、掌上电脑等)、群集网格(clustergrid)、上网本、嵌入系统或任何其它类型的可能适合于或适用于给定应用或环境的专用或通用计算装置。另外，计算系统1300可包括常规网络系统，包括客户端/服务器环境和一或多个数据库服务器，或与LIS/LIMS基础设施整合。包括局域网(LAN)或广域网(WAN)且包括无线和/或有线组件的多种常规网络系统是所属领域中已知的。另外，客户端/服务器环境、数据库服务器和网络在本领域中是有据可查的。根据本文中描述的各种实施例，计算系统1300可经配置以连接到分布式网络中的一或多个服务器。计算系统1300可以从分布式网络接收信息或更新。计算系统1300还可以传输有待存储在分布式网络内的信息，这些信息可以被连接到分布式网络的其它客户端访问。

计算系统1300可以包含总线1302或用于传送信息的其它通信机构、以及与总线1302耦接用于处理信息的处理器1304。

计算系统1300还包括存储器1306，它可以是随机存取存储器(RAM)或其它动态存储器，所述存储器与总线1302耦接以便存储有待通过处理器1304执行的指令。存储器1306还可以用于在执行有待由处理器1304执行的指令期间存储临时变量或其它中间信息。计算系统1300进一步包括耦接到总线1302以用于存储用于处理器1304的静态信息和指令的只读存储器(ROM)1308或其它静态存储装置。

计算系统1300还可包括存储装置1310，如磁盘、光盘，或者固态驱动器(SSD)被提供且耦接到总线1302以便存储信息和指令。存储装置1310可以包括媒体驱动器和可移除的存储接口。媒体驱动器可以包括用以支持固定的或可移除的存储媒体的驱动器或其它机构，如硬盘驱动器、软盘驱动器、磁带驱动器、光盘驱动器、CD或DVD驱动器(R或RW)、闪存驱动器或其它可移除的或固定的媒体驱动器。如这些实例所示出，存储媒体可以包含计算机可读存储媒体，其中存储了特定计算机软件、指令或数据。

在替代实施例中，存储装置1310可以包含用于允许计算机程序或其它指令或数据加载到计算系统1300上的其它类似工具。此类工具可以包含例如可移动存储单元和接口(例如，程序盒带和盒带接口)、可移除存储器(例如，闪存存储器或其它可移除存储器模块)和存储器槽、以及允许软件和数据从存储装置1310传递至计算系统1300的其它可移除存储单元和接口。

计算系统1300还可以包含通信接口1318。通信接口1318可用于允许在计算系统1300与外部装置之间传递软件和数据。通信接口1318的实例可以包括调制解调器、网络接口(如以太网(Ethernet)或其它NIC卡)、通信端口(如例如USB端口、RS-232C串行端口)、PCMCIA插槽和卡、蓝牙等。经由通信接口1318传递的软件和数据采用信号的形式，这些信号可以是能够通过通信接口1318接收的电子、电磁、光学或其它信号。这些信号可以经由信道通过通信接口1318传输和接收，所述信道如无线媒体、电线或电缆、光纤、或其它通信媒体。信道的一些实例包含电话线、蜂窝电话链路、RF链路、网络接口、局域网或广域网以及其它通信信道。

计算系统1300可以经由总线1302耦接到显示器1312，如阴极射线管(CRT)或液晶显示器(LCD)，以用于向计算机用户显示信息。包括字母数字和其它按键的输入装置1314耦接到总线1302以用于例如将信息和命令选择传送到处理器1304。输入装置还可以是配置有触摸屏输入功能的显示器，例如LCD显示器。另一类型的用户输入装置是用于将方向信息和命令选择传送到处理器1304且用于控制显示器1312上的光标移动的光标控制件1316，如，鼠标、轨迹球或光标方向键。这个输入装置通常具有在两个轴线(第一轴线(例如，x)和第二轴线(例如，y))上的两个自由度，其允许所述装置指定在平面中的位置。计算系统1300提供数据处理并且提供此类数据的置信级。根据本传授内容的实施例的某些实施方案，计算系统1300响应于处理器1304执行存储器1306中包含的一或多个指令的一或多个序列而提供数据处理和置信度值。此类指令可以从另一计算机可读媒体(例如存储装置1310)读取到存储器1306中。存储器1306中包含的指令序列的执行使得处理器1304执行本文所描述的处理状态。或者，可以使用硬连线电路代替或结合软件指令来实施本传授内容的实施例。因此，本传授内容的实施例的实施方案不限于硬件电路和软件的任何特定组合。

如本文所使用的术语“计算机可读媒体”和“计算机程序产品”一般是指与向处理器1304提供用于执行的一或多个序列或一或多个指令有关的任何媒体。这些指令，一般称为“计算机程序代码”(其可以用计算机程序或其它分组的形式来分组)，在被执行时，使得计算系统1300能够执行本发明的实施例的特征或功能。这些和其它形式的非暂时性计算机可读媒体可以采用许多形式，包括但不限于非易失性媒体、易失性媒体以及传输媒体。非易失性媒体包括例如固态盘、光盘或磁盘，如存储装置1310。易失性媒体包括动态存储器，如存储器1306。传输媒体包括同轴电缆、铜线和光纤，包括包含总线1302的电线。

计算机可读媒体的常见形式包括(例如)软盘、软磁盘、硬盘、磁带、或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM和EPROM、闪存EEPROM、任何其它存储器芯片或盒带、如下文所描述的载波、或计算机可以从中进行读取的任何其它媒体。

各种形式的计算机可读媒体可以参与将一或多个指令的一或多个序列载送到处理器1304以便执行。举例来说，指令可以首先承载在远程计算机的磁盘上。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器经由电话线发送指令。计算系统1300本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换成红外信号。耦接到总线1302的红外检测器可接收红外信号中所载送的数据且将数据置放于总线1302上。总线1302将数据载送到存储器1306，处理器1304从所述存储器检索并执行指令。由存储器1306接收的指令可任选地在通过处理器1304执行之前或之后存储在存储装置1310上。

图2中示出了典型因特网配置1400的一些元件，其中示出可能在远程本地办事处的多个客户端机器1402连接到网关/集线器/隧道服务器/等1410，网关/集线器/隧道服务器/等1410本身经由某个因特网服务提供方(ISP)连接1410而连接到因特网1408。此外还示出经由ISP连接1414类似地连接到因特网1408的其它可能的客户端1412，这些单元例如经由连接到网关/隧道服务器1418的ISP连接1416传达到可能的办事处或重要实验室，所述网关/隧道服务器连接1420到各个企业应用服务器1422，所述应用服务器可经由另一集线器/路由器1426连接到各个本地客户端1430。这些服务器1422中的任何服务器可充当分析潜在内容管理并传输如本发明中所述的设计方案的开发服务器，如下文更全面地描述。

如上所述，不同类型生物学数据可以在图形表示显示中呈现，从而使得用户可能能够以有用的方式形象地看到数据。

尽管已经根据某些实施例、实例和应用描述了本发明，但所属领域的技术人员将显而易见在不脱离本发明的情况下可以对其进行各种修改和改变。

应了解，为清楚起见，以上描述参考不同功能单元以及处理器描述了本发明的实施例。然而，将显而易见的是，在不偏离本发明的情况下可以使用在不同功能单元、处理器或域之间的任何适合的功能分布。举例来说，将通过独立的处理器或控制器执行的图示功能可以通过同一处理器或控制器执行。因此，对特定功能单元的提及仅被视为提及用于提供所描述功能的适合装置，而非指示严格的逻辑或物理结构或组织。

本文中的传授至少部分涉及生物分析装置和系统，包含例如用于确定DNA序列的碱基判定系统。可以使用不同类型的生物分析装置和系统来收集原始测序数据。这些生物分析装置和系统可以包含例如测序仪。许多这些生物分析装置和系统利用附接到DNA片段的标签。虽然下面可能提及测序系统，但是这些系统是用于实例目的，因为本文所述的实施例总体上可以应用于生物分析装置和系统。

这些DNA片段由样本形成并且根据迁移率分离。在各种生物分析装置和系统中，使用平板凝胶和聚合物灌注毛细管执行分离，并且使用电场来影响片段在这些介质中的迁移。随时间读取标签会产生信号，该信号由每个通道的迹线组成，其中通道对应于相应的标签(例如染料)。在一些系统中，除了对应于核苷酸的通道之外，还包含额外通道，额外通道可以产生信息。这个信息可以用于更好地估计间距或其它参数，这些可以让样本分析更容易。美国专利申请10/193,776号(公开案03-0032042号)中设想了此系统，该申请转让给本受让人，并以全文引用的方式并入本文中。

毛细电泳法(CE)例如产生(通常4条)电泳图测序信号迹线。信号迹线是表示不同长度的DNA扩增子片段(以DNA“字母”G、A、T和C结尾)到达沿着仪表中的毛细管的测量位置的时间的代理。对于给定“到达时间”，对应于以G、A、T和/或C结尾的扩增子片段(G、A、T和/或C扩增子片段)的信号迹线的振幅的形状非常紧密地逼近高斯分布。这些信号可以例如用如下所述的四条不同迹线提供。

一个迹线实例是原始电泳图测序信号迹线(原始CE信号或原始信号)，该信号迹线可以由CE仪器生成，并且最紧密地对应于仪表直接测量到的内容。更长片段(即碱基数量更多)在原始CE信号中的到达时间总体上更晚。对应于长度相同(即容纳的碱基数量相同)但是结尾字母不同的扩增子片段的信号总体上将具有不同迁移率并且在不同时间到达。

另一迹线类型是经过频谱校正的原始电泳图测序信号迹线(经过频谱校正的原始信号)，其包含针对频谱馈通校正过的原始信号。这个电频谱馈通之所以发生，是因为用于导出对应于DNA“字母”G、A、T和C的信号的滤波器总体上具有不同的峰频段，但是具有彼此重叠的频段。因此，一个原始信号迹线中的电信号可以被馈通成其它原始信号迹线中的信号，并且变成与其它原始信号迹线中的信号卷积。然而，对于每个滤波器的频谱形状的了解连同其它观察结果，可以用于将原始迹线中的信号去卷积(频谱校正)以产生经过频谱校正的原始信号。

另一迹线类型是经过迁移率校正的电泳图测序信号迹线(经过迁移率校正的信号)，该信号迹线包含针对长度相同的DNA扩增子片段(即容纳的碱基数量相同)的迁移率差异而校正的经过频谱校正的原始信号。因此，经过迁移率校正的信号迹线具有基于预期的迁移率差异经过校正的对应于长度相同的扩增子片段的到达时间，从而使得这些信号迹线在大约相同的时间到达。

又一迹线实例是经过分析的电泳图测序信号迹线(经过分析的信号)，该信号迹线包含已经重新取样并且按需要经过移位的经过迁移率校正的信号，从而使得长度相差1个碱基数量的片段的到达之间的扫描点数量大概是恒定的。长度相差1个碱基数量的片段的到达之间的这个扫描点数量通常是约12-16。

图3示出了典型测序仪的数据。这里存在四条迹线。每条迹线表示一个通道。每个通道表示不同的标签并且每个标签对应于不同的核苷酸。这个数据是从取样回合中间获得的，且将被所属领域的技术人员视为质量是良好的。通过间距的规则性和峰的特异性来评定良好的质量。碱基判定在每个峰下表现为字母A、C、G和T。质量值出现在峰上方，条越长，表示质量值越高。x轴上的下面一组数字表示扫描数目，上面一组表示碱基数目。x轴还可以被视为表示时间。

在一些实施例中，系统的基于模型的峰检测模块可以使用来自校准模块的信息检测峰。在这样做时，峰检测模块可以识别峰群集，其中群集可以具有一或多个峰。峰可能是相异的，或者在分辨率不佳的情况下，峰可能涂抹在一起。通过使用对信号的参数的估计，可以将峰群集解析成其组成峰。

在各种实施例中，系统的峰分类模块可以对检测到属于样本信号或噪声空间的峰进行分类。系统的一些实施例利用图论法执行分类。在形成曲线图时，可使用例如峰特性、局部序列特性和/或全局信号特性来定义峰之间的转移权重。

因为噪声空间的变化或强度，在样本信号空间中的主峰下出现的样本信号空间中的小峰(与微小变异体相关联的小峰)可能会被误认为是属于噪声空间。通过应用下面传授内容的技术可以解决这个局限性。可使用诸如例如下面提供的序列数据的不同组合：

1)在或正向朝向或反向朝向上排序的测试样本；这将被称作测试样本，单一朝向组合；

2)在正向朝向和反向朝向上排序的测试样本；这将被称作测试样本，正向和反向组合；

3)正向或反向朝向上排序的测试样本与跟测试样本在相同朝向上排序的参考样本组合；这将被称作测试和参考样本，单一朝向组合；

4)正向和反向朝向上排序的测试和参考样本；这将被称作测试和参考样本，正向和反向组合。

在发现微小变异体时，各种组合可以提供不同水平的灵敏度和特异性。通过例如组合噪声控制和抑制法(NSS)与数据源组合(3)或(4)可以进一步改进灵敏度和特异性。如果使用数字参考样本(DRS)或合成数字参考样本(SDRS)作为参考样本的替代物，则这也可以用数据组合(1)和(2)实现。

因此，下面这些传授内容将描述用于使用上述数据组合检测微小变异体的实施例，其中一些具有DRS或SDRS取代，一些与NSS组合。本文所述的实施例只是用于说明性目的，不应当解释为对适用的数据组合的类型、参考样本的取代方法、适用的噪声控制和抑制法的类型或以上任何项的组合造成任何限制。

图4A至图4B示出了描绘根据本文所述的实施例的方法400的流程图，方法400使用在单一朝向上排序的测试样本(测试样本，单一朝向组合)确定微小变异体。可以通过如图1中所示的处理器1304实施方法400的步骤。此外，用于由处理器1304执行方法的指令可以存储于存储器1306中。

参看图4A，在步骤401中，收集来自测试样本的电泳图测序数据并且从测序仪向处理器1304提供电泳图测序数据以用于根据其中描述的实施例确定微小变异体。在步骤402中，处理器1304例如使用存储于存储器1306中的指令确定主要序列。可以使用已知的软件应用程序确定主要序列，诸如例如应用生物系统公司(Applied Biosystems)提供的KB^TM碱基判定器测序分析软件，这是一种能针对每个碱基和样本文件提供精确的碱基判定和质量值(QV)的信号处理技术。诸如AppliedBiosystems^TM的KB^TM碱基判定器软件之类的测序分析软件也可以解析混合碱基(混合碱基是样本信号空间中存在两个或更多个峰的碱基位置；碱基位置的微小变异体与样本信号空间中的小于主要峰的峰相关联)，其解析方法是通过检测混合碱基位置并且使用与用于纯碱基的方法相似的方法向那些位置指派IUB(国际生物化学联盟)代码和QV。(然而，当微小变异体的非主要峰太小时，KB^TM碱基判定器检测不到它；因此需要本文中的传授内容。)

返回到图4A，在步骤403中，可以执行质量修整(基于QV的修整)以修整序列的低质量数据输出。这些修正总体上在序列的右端和左端执行。从左起的质量修整的一个实例是寻找QV小于10并且在这个位置往右15个碱基位置以内所有QV大于10的碱基位置。

在图4A的步骤404中，扫描四种染料中的每种染料(对应于基因序列的四个可能的碱基中的每个碱基)的数据以寻找这样的峰：在这些峰上存在例如一系列点，对于这系列点存在充分高的最大值，两边是低于该最大值的点。替代方案是将寻峰限于所识别的目标间隔，该目标间隔对于给定的主要碱基可以在由主要碱基的宽度限定的点的基因座内。

在图4A的步骤405中，使用一或多种方法识别和表征每个非主要峰。对于每个峰，例如确定峰的最大值的位置和峰两边的最小值的位置。侧边最小值之间的数据可以拟合到单模态函数，例如高斯函数，其接着部分地用于表征峰，具体地说是表征峰的位置、高度和宽度。进一步处理与峰相关联的数据以计算多个信号特征。信号特征可以涉及例如使用峰特性，例如(但不限于)峰振幅、峰宽、峰位置、峰下面积、峰清晰度、峰对称性/不对称性、相对于单模态模型(例如，高斯函数)的拟合良好度、相对于峰幅度在峰旁边的最小值的高度、峰位置和其任何组合。可以相对于在下面找到所讨论的非主要峰的主要峰、相对于所有主要峰(例如，整个序列的平均主要峰振幅)和相对于所有其它非主要峰(例如，峰高度相对于整个序列上的非主要峰的中间峰高度；实例变化使用跨染料中值或者使用染料特有的中值)应用以上峰特性的任何和所有组合。此外，可以对以上内容应用任何设想的简单函数变换，包括例如指数、对数、幂、和、乘积、三角函数或任何其它可以用于修改变化速度或强调信号特征的范围的某些区域和/或使信号特征的统计分布标准化的函数。

图4A的步骤406示出了上文所论述的函数变换可能涉及非线性参数，这些非线性参数可以经过优化以使区分样本信号空间非主要峰(微小变异体峰)与噪声空间非主要峰的能力最大化。优化可以通过使用例如全局优化、局部优化和分类驱动特征选择技术中的一或多种技术来执行。这些技术中的任何技术可以存储于存储器1306中并且经由处理器1304实施。一些全局优化实例包含(但不限于)基于群理论的算法、遗传算法、模拟黏接和任何其它这样的实例：其具有已获确认的有效的方式来搜索在给定类别成员资格已知的一组数据的情况下能使分类精确度最大化的参数值。对于局部优化，对于全局优化算法对非线性参数值的每个选择，可以使用诸如例如线性判别函数之类的快速线性法来确定线性参数值。在分类驱动特征选择中，对于每个判别函数，例如，可以探索特征集的所有可能的组合，以找到能在高分类精确度与必需的输入特征数量之间实现最佳平衡的组合。最佳参数值可以包含于存储器1306中。

现在参看图4B，图4B继续图4A中介绍的工作流，在步骤410中，测序仪经由处理器1304使用可能存储于存储器1306中的指令，在统计上分析非主要峰的一或多个信号特征以识别离群值。这些离群值变成候选微小变异体峰。

在图4B的步骤412中，测序仪经由处理器1304使用可能存储于存储器1306中的指令，通过分类程序评估每个候选微小变异体峰，以决定候选峰是否为真正(bona fide)微小变异体峰；步骤413表示这个最后决策。步骤411表示创建在步骤412中用于评估每个候选微小变异体峰的分类程序的过程。分类程序可以对一或多个信号特征执行操作。可以应用任何合适的可以执行二元决策的分类程序。二元分类器的几个实例包含(但不限于)判别函数、人工神经网络和对数决策树，以及任何其它具有已获确认的方法以使用类别成员资格已知的数据生成分类函数的实例。在步骤412中应用分类器程序之前，可以设置每个个别的信号特征以对如下情况进行分类：在该情况下，仅仅基于信号特征可以将候选微小变异体峰判定为真正微小变异体峰或非变异体峰。额外分类步骤的此实例可以被称作单变量明确分类程序(Single-Variate Clear Cut Classification procedure，SVCCC)。所述分类程序的参数值可以包含于存储器1306中并且通过处理器1304执行。

在图4A-图4B中描述的实施例的替代实施例中，图5A-图5C示出了修改图4A-图4B中描述的方法400的流程图。图5A-图5C描绘了方法500，用于使用在两个朝向即正向朝向和反向朝向上排序的测试样本(测试样本，正向与反向组合)确定微小变异体。经过这些修改，可以通过如图1中所示的处理器1304实施方法500的步骤。此外，用于由处理器1304执行方法的指令可以存储于存储器1306中。

在这个实施例中，通过如上所述并且如图4A和图4B中示出的步骤处理每个序列朝向。

如下所述并且如图5A所示修改图4A的步骤405。除了上文在方法400中的步骤405(对于测试样本，单一朝向组合)中说明的信号特征之外，在如图5A的步骤504中所示在两个朝向之间对准主要碱基序列(见步骤501、502和503)之后可以使用跨朝向特征。例如，在如图5A的步骤503中所示在反向补充反向序列之后，可以将正向样本的每个主要碱基与反向样本中的同一个主要碱基匹配。为了执行反向补充，必须颠倒序列顺序并且用每个碱基的互补物更换该碱基，互补对是A/T和G/C。可以在正向朝向与反向朝向之间比较上文在方法400的步骤405下说明的任何信号特征，诸如例如通过获取特征值之间的比率或者最大值或最小值除以跨越这两个朝向的最大值。这些跨朝向信号特征可以通过任何简单的函数变换来变换，诸如例如(但不限于)指数、对数、幂、和、乘积、三角函数以及任何其它设想的可以用于修改变化速度或强调信号特征范围的某些区域和/或使信号特征的统计分布标准化的函数。

如下所述并且如图5B所示修改图4B的步骤410。除了使用统计分析寻找在方法400下说明的离群值之外，步骤511和512还示出了决策点，在决策点，当一个非主要峰通过相反朝向上的互补非主要峰得到确认时，测序仪使用处理器1304将该非主要峰评估和考虑为候选微小变异体峰。例如，与正向朝向上的G碱基相关联的非主要峰将具有与反向朝向上的对应碱基位置处的C碱基相关联的非主要峰，其将被视为候选微小变异体峰。

如下所述并且如图5C所示修改图4B的步骤411。不使用步骤412的单分类函数或者在方法400的步骤412下说明的先SVCCC程序然后单分类函数，图5C中示出了图4B的步骤412中说明的方法的替代方案。在这个实施例中，修改步骤411的分类程序，使其包括SVCCC程序(图5C的步骤520)，然后是初始分类器，即步骤521的分类器XO，它可以是基于跨朝向信号特征，其做出峰是否为真正微小变异体峰的初始决策，然后是两个分类器，即作为步骤523和524示出的XVAR和XNVAR，它们可以超控XO分类器的决策。除了步骤520和521中示出的单一朝向信号特征和跨朝向信号特征之外，分类器XVAR和XNVAR还可以接受一些信号特征，即SO输出信号特征，该信号特征可以从分类器基于单一朝向信号特征导出(见步骤522的SO分类器)。SO输出信号特征可包含(但不限于)：基于SO分类器的输出的经验统计分布模型或者诸如对于两个类别中的每个类别假设SO输出是正态分布的参数化模型的微小变异体峰与非变异体峰之间的概率密度比率；正向朝向SO输出和反向朝向SO输出的总和；以及正向朝向SO输出和反向朝向SO输出的最大值或最小值。此外，可以通过任何的简单函数变换对SO输出信号特征进行变换，例如指数、对数、幂、和、乘积、三角函数，和任何其它可以用于修改变化速度或强调信号特征的范围的某些区域和/或使信号特征的统计分布标准化的函数。定义图5C的替代分类程序的参数值可以包含于存储器1306中并且通过处理器1304执行。

在图4A-图4B中说明的实施例的另一个替代性实施例中，图6示出了修改图4A-图4B中说明的方法400的流程图。图6示出方法600，用于使用相同朝向上排序的测试样本和参考样本(测试和参考样本，单一朝向组合)确定微小变异体。经过这些修改，可以通过如图1所示的处理器1304实施方法600的步骤。此外，用于由处理器1304执行方法的指令可以存储于存储器1306中。

在这个实施例中，通过上文说明并且在图4A和图4B中示出的步骤处理两个样本(测试和参考)中的每个样本。

对于下文说明并且在图6中示出的方法600修改图4A的步骤405。除了上文在方法400中的步骤405中说明的信号特征(对于测试样本，单一朝向组合)之外，在如图6的步骤603中所示在样本之间对准主要碱基序列(见步骤601及602)之后，还可以如步骤604中所示使用跨样本特征。例如，尽可能将测试样本的每个主要碱基与参考样本中的相同主要碱基匹配。可以在测试样本与参考样本之间比较任何上述信号特征，诸如例如(但不限于)获取特征值之间的比率或特征值之间的差值。这些跨样本信号特征可以通过任何简单的函数变换来变换，诸如例如(但不限于)指数、对数、幂、和、乘积、三角函数以及任何其它设想的可以用于修改变化速度或强调信号特征范围的某些区域和/或使信号特征的统计分布标准化的函数。

如上文所述，图4B的步骤410提出可以在统计上分析非主要峰的信号特征中的一或多信号特征以识别离群值。这些离群值接着变成候选微小变异体峰。对于示例性方法600，这些信号特征包含仅仅从测试样本导出的信号特征以及将测试样本与参考样本比较的那些信号特征。不使用仅仅从参考样本导出的信号特征来识别离群值。

在图4A-图4B中所述的实施例的另一个替代性实施例中，可以修改方法400以提供一种用于在两个朝向(正向朝向和反向朝向)上排序的测试样本和参考样本(测试与参考样本，正向与反向组合)确定微小变异体的方法。可以通过如图1中所示的处理器1304实施对于方法400的修改以提供本文所述的测试与参考样本、正向与反向组合方法。此外，用于由处理器1304执行方法的指令可以存储于存储器1306中。

对于正向和反向序列经过分析的测试和参考样本，通过将方法400与上文所述并且在图4A到图4B、图5A到图5C和图6中示出的方法500和600中说明的修改合并，借此实施测试与参考样本、正向与反向组合方法。用这些顺序应用以上步骤，结果是检查数据以仅仅在所有四个数据源(即，测试正向、测试反向、参考正向、参考反向)之间的共同交叉点内寻找微小变异体。

图7A是描绘用于改善微小变异体确定的灵敏度和特异性的方法700的流程图。可以通过如图1中所示的处理器1304实施方法700的步骤。此外，用于由处理器1304执行方法的指令可以存储于存储器1306中。虽然改善灵敏度和特异性是任何微小变异体确定方法需要的一个特征，但是向上文所论述的微小变异体确定方法应用方法700，其中或者在相同的方向上、或者在正向方向和反向方向上将测试样本和参考样本排序。

在分析非主要峰以检测和报告微小变异体之前，可使用参考样本使测试样本中的噪声最小化。例如已经通过CE测序仪的主要数据分析软件(诸如例如KB^TM碱基判定器)分析的毛细电泳法桑格测序信号的潜在噪声的主要分量表现为是通过主要碱基序列和用于将基因材料排序的系统的配置确定的。例如，如果两个独立样本共用相同的主要序列，则观察到这两个样本之间的潜在噪声是非常相似的。图7B示出了这样的情形。图7B中所示的面板示出了参考样本和测试样本的电泳图的底部200基础相对荧光单位(RFU)数据。通过比较上部面板与下部面板，显然这些信号看起来是相似的(注意这些样本在1000RFU附近的主要峰)。此外，噪声控制和抑制法(NSS)，即下文论述的方法700，不需要理解主要序列、测序系统配置和工作噪声之间的关系的细节。

在一个实施例中，测序仪经由处理器1304使用可以存储于存储器1306中的指令处理测试样本的电泳图，通过构建来自参考样本的电泳图的噪声模型并从测试样本的电泳图中减去该模型，借此使电泳图中的噪声最小化。测序仪可以接着如图4到图6中所示并且如上所述，检查降噪后的电泳图的非主要峰以寻找与微小变异体相关联的峰。

在图7A的步骤701及702中，测序仪经由处理器1304使用可以存储于存储器1306中的指令来获取经过图4A的步骤404处理的测试和参考样本序列数据，以进一步执行处理。

在步骤703中，测序仪经由处理器1304使用可以存储于存储器1306中的指令，通过下面的方式从测试和参考电泳图中移除主要序列信号：在每个主要碱基位置，在主要峰旁边的最小值之间将对应于主要序列碱基的染料的值设置成零。这个操作使得两个电泳图，即测试和参考样本电泳图，只包括非主要数据。

在步骤704和705中，测序仪经由处理器1304使用可以存储于存储器1306中的指令采取步骤使测试非主要数据与参考非主要数据之间的匹配最大化，这例如是使用每个主要碱基的基因座内的内插以匹配宽度和比例以及偏移优化，以便使测试非主要数据与参考非主要数据之间的相关度最大化(使这两个数据之间的差异最小化)。比例和偏移因素可以受到限制，以防对测试非主要数据与参考非主要数据之间的真正差异造成破坏。这个操作可以被称为限界相关度最大化变换，其施加染料特有的范围受到限制的比例和偏移调节，以在中心位于所关注的主要碱基位置上的多个主要基因座之间匹配参考非主要信号与测试非主要信号。结果是参考电泳图的潜在非主要信号的噪声模型，其已经经过调整与测试电泳图的潜在非主要信号的噪声模型匹配。

在步骤706中，测序仪经由处理器1304使用可以存储于存储器1306中的指令从测试电泳图中减去噪声模型。这个过程可能在数据中留下信号假影；例如，以极端的锐度或针头样外观为特征的峰。非主要染料数据可以不是零，但是可以不包括主要碱基的轨迹内的任何峰。在步骤707中，测序仪可以通过抑制非主要染料，例如通过在适当范围内将染料值设置成零，借此解决这两种情形。图7C示出了方法700应用于图7B中的实例的结果。具体来说，图7C示出了对于10％微小变异体测试样本上的正向迹线在施加NSS之前和之后的噪声电平。对照中的噪声与罕见变异体样本非常相似，通过使噪声最小化，可以例如将整体噪声电平减少三倍到四倍。

在图7A的步骤708中，现在经过NSS修改的测试数据被重新评定以检测和表征非主要峰。此时，不再需要参考数据，并且向经过NSS修改的测试数据应用后续处理。对于方法600(测试和参考样本，单一朝向组合)，方法700进行的修改此时完成，并且将方法600的其余步骤应用于经过修改的测试数据。对于上文所论述的测试和参考样本、正向和反向组合方法，向正向和反向朝向数据应用方法700进行的修改，使正向和反向朝向的经过修改的测试数据移动通过测试和参考样本、正向和反向组合方法的其余步骤。

在上文说明并且上文通过图7A-图7C示出的实施例中，示出了将NSS应用于分析测试和参考样本的实施例。在图8所示的又一实施例中，可以修改方法700使其适用于上文说明并且通过图4A-图4B和图5A-图5C所示的方法400和500，这些方法中未考虑参考样本。首先，图7A的步骤702没有参考样本就不能应用。接下来，如图8的方法800提出的，并且如下所述，可以使用数字参考样本代替参考样本，其中数字参考样本例如是由先前经过处理的与测试样本具有相同的主要序列的样本建构的，或者是由来自相同序列处理回合的一系列测试样本建构的(此时所述回合的所有测试样本查询基因体的相同区域(并且因此共用相同的主要序列))。用于由处理器1304执行方法800的指令可以存储于存储器1306中。

图8示出了数字参考构造过程，该过程按照步骤801中提出的方案，使用与有待分析的测试样本具有相同主要序列的经过排序的数据的数据库，或者由来自共用相同主要序列的相同序列处理回合的测试样本序列数据组成的数据库。

在图8的步骤802中，测序仪经由处理器1304使用可以存储于存储器1306中的指令确保每个主要碱基所跨越的宽度在数据库中的所有样本之间匹配。可以通过使用例如内插函数(诸如例如三次样条)来执行这个过程。

在图8的步骤803中，测序仪经由处理器1304使用可以存储于存储器1306中的指令生成平均电泳图，其中不在数据库中的样本之间统计上相关的噪声可以减少N平方根倍，其中N是数据库中的样本的数量。在数据库中使用测试样本的情况下，基本假设是微小变异体的位置在测试样本之间是不同的；在这种情况下，求平均值过程可能严重减弱它们对于最终信号平均的贡献。求平均值过程能得到与主要序列相关的电泳图中的噪声的更干净的估计。存储在步骤803中产生的平均电泳图以用于步骤806中，用作图7A的步骤中702的参考样本的替代物。

步骤804和805提供一些统计数据，这些统计数据可以帮助后续处理区分与微小变异体相关联的非主要峰和不与微小变异体相关联的非主要峰。例如,在使用数字参考的NSS之后，如果其余非主要峰上升到零基线值以上，高出例如不超过在步骤805中测量的两个标准差，则该非主要峰可以被视为是噪声。任何其余的大于例如两个标准差的非主要峰可以被视为是候选微小变异体峰。因而，作为方法400的步骤410的补充或替代，可以使用步骤804和805以及步骤806中的所存储的平均信号和统计结果，以定位候选微小变异体。

作为上文的方法800(它需要主要序列与有待使用数字参考分析的测试样本匹配的测序结果数据库)的替代方案，图9A-图9C描述了方法900，方法900可以使用不需要匹配测试样本的主要序列的样本数据库生成数字参考。方法900合成来自许多短数据子序列的数字参考，该短数据子序列跨越例如7个碱基，并且与测试样本的主要序列内的长度相同的子序列匹配(见图9A中的步骤901)。用于由处理器1304执行图9A和图9C中描述的过程的指令可以存储于存储器1306中。

图9A示出了方法900的与生成可以用于合成任何测试样本的数字参考的一系列结果有关的部分。在图9A的步骤902中，测序仪经由处理器1304使用可以存储于存储器1306中的指令，来定位与主要碱基的邻域匹配的长度为M个碱基的子序列(M子序列)的所有存在；在数据库内定位4M个唯一子序列，因为所有长度为M个碱基的可能的子序列必须被覆盖，以使得能够合成数字参考以与任何测试样本匹配。使用该实例，必须在数据库中找到M＝6,4096个唯一子序列，并且理想地找到这些子序列的许多复本(见步骤901)。这些碱基中的一个碱基，即关键主要碱基，是每个子序列内的这样一个位置(例如从最左边的碱基起的第四碱基)，从该位置应用结果以合成数字参考。因此，数字参考中的有待合成的每个主要位置总体上具有稍微不同的子序列。

图9B示出了支持方法900的测序数据。示出了用于两个唯一6碱基子序列中的每个子序列的三个独立样本。在覆盖大概325个碱基的单一测序回合内找到了每个子序列的三个存在。可以观察到，从左起的第四个碱基(关键主要碱基)的信号在三个独立样本之间是非常相似的。在这些结果中，看起来关键主要碱基可以被认为是6碱基子序列内的第4碱基或第5碱基。

用于合成数字参考的最终结果是在数据库中找到的在关键主要碱基位置上具有相同碱基值的M子序列的所有复本的平均值。步骤903到906的操作类似于上述图8的步骤802到805，区别是在方法900中，步骤903到906被应用于许多短数据子序列，并且每个子序列总体上对合成处理贡献了结果的单一主要碱基。因此，步骤907是由大量子序列结果组成的数据库，其中每个子序列结果用于子序列中的单一碱基，即关键主要碱基。

图9C示出了方法900的与合成特定测试样本的数字参考有关的部分。在步骤911中，测序仪经由处理器1304使用存储于存储器1306中的指令，来搜索M子序列的数据库以便为测试样本的每个主要碱基寻找匹配的M子序列。在步骤912中，测序仪提取关键主要碱基的结果，并且在步骤913中将测试样本的每个碱基位置的关键主要碱基信号片段合并在一起，以形成完整的数字参考电泳图，该数字参考电泳图与测试样本的主要序列匹配。这个数字参考可以在图7A的步骤702中用作参考样本的替代物。可以如针对方法800(步骤804和805)所述使用概况统计数据。

上文已描述本发明的各种实施例。应了解，这些实施例仅借助于实例呈现，且不加限制。相关领域的技术人员应了解，可在不脱离如权利要求书中所定义的本发明的精神和范围的情况下在上述实施例的形式和细节方面作出各种变化。因此，本发明的广度和范围不应受到上述示例性实施例中任一实施例限制，而应仅根据所附权利要求书及其等效物界定。

Claims

1.一种计算机实施的用于确定微小变异体的方法，所述方法包括：

接收来自测试样本的电泳图序列数据，

接收来自对照样本的电泳图序列数据，

使用所述对照样本使所述测试样本中的噪声最小化，所述最小化包括：

从所述电泳图中移除主要序列数据以生成所述测试样本和所述对照样本的非主要电泳图，

通过修改所述对照样本的非主要电泳图，使所述测试样本和所述对照样本的非主要电泳图之间的差异最小化，和

从所述测试样本的所述电泳图中减去所述对照样本的经过修改的非主要电泳图，

识别来自所述测试样本的所述电泳图序列数据的电泳图中的任何非主要峰，

使用至少一个信号特征表征所识别的非主要峰，其中所述表征包括对非线性参数进行优化以将表征精确度最大化，其中所述至少一个信号特征涉及峰特性，所述峰特性包括峰振幅、峰宽、峰位置、峰下面积、峰清晰度、峰对称性、峰不对称性、相对于单模态模型的拟合良好度、相对于峰幅度在峰旁边的最小值的高度、峰位置或其任何组合；

在所识别的非主要峰之间分析所述至少一个信号特征以识别离群值，其中所述离群值包括候选变异体，

评估所述候选变异体中的每个候选变异体的至少一个峰特性，以及

基于对所述候选变异体的峰特性的评估，将所述候选变异体分类成真正变异体。

2.根据权利要求1所述的方法，其中所述信号特征包含将所述非主要峰的特性与主要峰的特性比较的特征。

3.根据权利要求2所述的方法，其中所述信号特征包含将所述非主要峰的特性与所述非主要峰的主要峰的特性比较的特征。

4.根据权利要求1所述的方法，其进一步包括：

识别所述对照样本的所述电泳图中的任何非主要峰，

使用至少一个信号特征表征所述对照样本的所识别的非主要峰，以及

在所述测试样本和对照样本的所识别的非主要峰之间分析所述至少一个信号特征以识别所述测试样本中的所述候选变异体。

5.根据权利要求1所述的方法，其进一步包括：

接收正向和反向朝向的电泳图序列数据，

识别正向朝向和反向朝向上的任何非主要峰，

使用至少一个信号特征来表征在所述正向朝向和所述反向朝向上所识别的非主要峰，以及

在所述正向朝向和所述反向朝向上所识别的非主要峰之间分析所述至少一个信号特征以识别所述候选变异体，其中在一个朝向上找到的每个候选变异体在相反朝向的所述电泳图中得到确认。

6.根据权利要求1所述的方法，其中来自所述对照样本的所述电泳图序列数据是对照电泳图的数字版本，所述数字版本由与所述测试样本具有相同主要序列的第一电泳图数据库建构而成。

7.根据权利要求6所述的方法，其中所述对照电泳图的所述数字版本由不与所述测试样本具有相同主要序列的第二电泳图数据库数字合成，其中从所述第二电泳图数据库将序列片段编织在一起以建构与所述测试样本的主要序列匹配的主要序列。

8.一种编码有处理器可执行的用于确定微小变异体的指令的非暂时性计算机可读存储介质，所述指令包括用于以下操作的指令：

接收来自测试样本的电泳图序列数据，

接收来自对照样本的电泳图序列数据，

使用至少一个信号特征表征所识别的非主要峰，其中所述表征包括对非线性参数进行优化以将表征精确度最大化，其中所述至少一个信号特征涉及峰特性，所述峰特性包括峰振幅、峰宽、峰位置、峰下面积、峰清晰度、峰对称性、峰不对称性、相对于单模态模型的拟合良好度、相对于峰幅度在峰旁边的最小值的高度、峰位置或其任何组合，

9.根据权利要求8所述的非暂时性计算机可读存储介质，其中所述信号特征包含将所述非主要峰的特性与主要峰的特性比较的特征。

10.根据权利要求9所述的非暂时性计算机可读存储介质，其中所述信号特征包含将所述非主要峰的特性与所述非主要峰的主要峰的特性比较的特征。

11.根据权利要求8所述的非暂时性计算机可读存储介质，其进一步包括用于以下操作的指令：

识别所述对照样本的所述电泳图中的任何非主要峰，

使用至少一个信号特征来表征所述对照样本的所识别的非主要峰，以及

12.根据权利要求8所述的非暂时性计算机可读存储介质，其进一步包括用于以下操作的指令：

接收正向和反向朝向的电泳图序列数据，

识别正向朝向和反向朝向上的任何非主要峰，

13.根据权利要求8所述的非暂时性计算机可读存储介质，其中来自所述对照样本的所述电泳图序列数据是对照电泳图的数字版本，所述数字版本由与所述测试样本具有相同主要序列的第一电泳图数据库建构而成。

14.根据权利要求13所述的非暂时性计算机可读存储介质，其中所述对照电泳图的所述数字版本由不与所述测试样本具有相同主要序列的第二电泳图数据库数字合成，其中从所述第二电泳图数据库将序列片段编织在一起以建构与所述测试样本的主要序列匹配的主要序列。

15.一种用于确定微小变异体的系统，所述系统包括：

处理器；以及

存储器，其编码有所述处理器可执行的指令，所述指令用于以下操作：

接收来自测试样本的电泳图序列数据，

接收来自对照样本的电泳图序列数据，

16.根据权利要求15所述的系统，其中所述信号特征包含将所述非主要峰的特性与主要峰的特性比较的特征。

17.根据权利要求16所述的系统，其中所述信号特征包含将所述非主要峰的特性与所述非主要峰的主要峰的特性比较的特征。

18.根据权利要求15所述的系统，其中编码有所述处理器可执行的指令的所述存储器进一步包括用于以下操作的指令：

识别所述对照样本的所述电泳图中的任何非主要峰，

19.根据权利要求15所述的系统，其中编码有所述处理器可执行的指令的所述存储器进一步包括用于以下操作的指令：

接收正向和反向朝向的电泳图序列数据，

识别正向朝向和反向朝向上的任何非主要峰，

20.根据权利要求15所述的系统，其中来自所述对照样本的所述电泳图序列数据是对照电泳图的数字版本，所述数字版本由与所述测试样本具有相同主要序列的第一电泳图数据库建构而成。

21.根据权利要求20所述的系统，其中所述对照电泳图的所述数字版本由不与所述测试样本具有相同主要序列的第二电泳图数据库数字合成，其中从所述第二电泳图数据库将序列片段编织在一起以建构与所述测试样本的主要序列匹配的主要序列。