CN105874460B

CN105874460B - 识别靶序列的至少一个碱基的方法、可读介质及设备

Info

Publication number: CN105874460B
Application number: CN201480072012.3A
Authority: CN
Inventors: 李彤彬; 龚午鸣; 饶江
Original assignee: ACCURASCIENCE LLC
Current assignee: ACCURASCIENCE LLC
Priority date: 2013-11-01
Filing date: 2014-02-13
Publication date: 2018-10-02
Anticipated expiration: 2034-02-13
Also published as: US10089436B2; US20180232485A1; CN105874460A; US20160026757A1; WO2015062184A1; US10600501B2

Abstract

可以相对于参考序列通过使用测序段在满足高置信度条件的位置的值来识别靶序列的碱基，以识别不满足所述高置信度条件的给定位置的碱基。所述高置信度条件可以涉及参考序列某位置上测序读段的覆盖水平。所述测序读段的测量质量可以结合为碱基过程的一部分。

Description

识别靶序列的至少一个碱基的方法、可读介质及设备

相关申请的交叉引用

本申请要求2013年11月1日提交的美国临时申请No.61/898,680 的权益，该申请的全部内容通过引用并入本文。

技术领域

本公开内容总的来说涉及核苷酸数据，更具体地涉及核苷酸数据的数据处理。

背景技术

有关核苷酸数据的靶序列与核苷酸数据的参考序列对比的应用通常在解释数据范围及数据质量的影响方面具有有限的能力。因此，需要对靶序列与参考序列进行对比的改良方法及相关系统。

发明内容

本公开实施例提供一种识别靶序列的至少一个碱基的技术方案。

根据本公开的一个方面，提供一种识别靶序列的至少一个碱基的方法，所述方法包括：获取参考序列，所述参考序列包括限定所述参考序列的多个碱基值；获取多个测序读段，每个测序读段包括靶序列相应部分的多个碱基值；识别所述测序读段中的多个高置信度位置，所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件，所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基；以及识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基，以识别所述靶序列在所述给定位置的一个或更多个碱基，其中，使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列在给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。

根据本公开的另一方面，提供一种非临时性计算机可读介质，该介质存储有用于识别靶序列的至少一个碱基的计算机程序，所述计算机程序包括指令，当至少一台计算机执行所述指令时，使所述至少一台计算机执行前述方法的操作。

根据本公开的又一方面，提供一种用于识别靶序列的至少一个碱基的设备，所述设备包括至少一个计算机，所述计算机被配置为执行计算机实现的模块操作，所述计算机实现的模块包括：

第一存取模块，用于获取参考序列，所述参考序列包括限定所述参考序列的多个碱基值；第二存取模块，用于获取多个测序读段，每个测序读段包括靶序列相应部分的多个碱基值；第一识别模块，用于识别所述测序读段中的多个高置信度位置，所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件，所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基；以及，第二识别模块，用于识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基，以识别所述靶序列在所述给定位置的一个或更多个碱基，其中，使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。

附图说明

一些实施方式被以实例的方式说明，但是其不限于附图中的图。

图1是示出了根据一个示例性实施方式识别靶序列的至少一个碱基的方法的流程图。

图2是示出了与图1实施方式有关的序列元素的图。

图3A、3B及3C是示出了与图1实施方式有关的表格的图。

图4是示出了与图1实施方式有关的抽样方法的流程图。

图5是示出了与图1实施方式有关的另一种抽样方法的流程图。

图6是示出了用于一个示例性实施方式的设备的示意图的框图。

图7是示出了计算机处理系统的框图，所述系统内部可以执行一组指令，这些指令可以使计算机执行此处所述的任何一种方法。

具体实施方式

1、背景

随着下一代测序技术的实质性进步，研究者们已经发现了多种利用这些技术的方法，并开发了多种应用。下一代测序技术/数据的一种重要用途或应用就是所谓的重测序应用，也就是说，进行所述测序实验旨在生成可以被映射到参考序列上的数据，进行所述实验旨在发现新生成的序列(如某人自己的基因组序列)与所述参考序列(如大约十年前完成的人类基因组计划中得到的人类参考基因组)之间的区别。可以将重测序应用进一步分为全基因组测序和有针对性重测序，将后者进一步分为外显子组测序(也就是说，个体总共20000个蛋白编码基因的测序)及其它更专业的有针对性测序(如蛋白编码基因的选定子集或“面板”测序，所述基因呈现出例如前列腺癌的风险)。

典型的重测序应用分析流程中，单核苷酸变异(SNV)识别是一个关键步骤。它指新生成的序列与参考序列之间的单碱基差异识别(或确定)。除SNVs之外，个体样本序列与参考序列之间还有两种其它常见的变异类型：(1)插入缺失(如插入或删除，可能包括长达50个核苷酸的一段变化)及(2)结构变异(SVs)或拷贝数变异(CNVs)，可能包括非常长片段的变化-数千甚至数百万个核苷酸。通常将插入缺失(或插入删除)理解为在给定位置通过多个插入缺失(或插入删除)执行的插入或删除。尽管后两种变异类型通常较SNVs更难识别，但是可以将本申请内容用于这些变异，这对于相关领域的技术人员也将是显而易见的。

变体识别包括SNV识别、插入缺失识别及SV或CNV识别，在分析流程中位于映射或比对步骤的后面。映射或比对是指将原始测序读段映射到参考序列上的操作。因为测序读段较短，且在很长的参考序列上有许多重复区(如人类参考基因组为30-40亿个核苷酸长)，所以在读段映射到的参考序列上找到精确的位置也是具有挑战性的。本领域的技术人员都熟知映射方法，所以就不在这里进行讨论了。

对于下一代测序(NGS)而言，较难进行SNV识别的一个原因是通常认为常规NGS技术(如ILLUMINA公司技术)造成的错误率在1％的水平，这比SNV率高出一个数量级(也就是说，任何两个体之间，或某个体的基因组与参考基因组之间的核苷酸比例是不同的)。SNVs及测序错误都表现为测序数据与参考序列之间的差异。换句话说，“噪声”(如测序错误)比“信号”(如真实SNVs)高一个数量级。

在某种程度上，可以通过深度测序方法解决这种困难，通过该方法，各区或各位置都被许多读段覆盖，所以可以应用某些统计方法(如贝叶斯建模)来更可靠地确定个体序列与参考序列之间的差异是不是由测序错误造成的，这些错误是系统性错误，可以通过求平均值或利用真实SNVs 来解决。然而，包括贝叶斯建模等传统统计方法将个体序列数据合并到相关统计特征中的能力有限(如先验和条件概率)。相反，这些统计特征通常是基于一些假定的SNVs个体序列数据的“一般行为”。

2、方法实施方式

示例的方法和系统涉及核苷酸数据的数据处理。披露的例子仅仅代表可能的变异。除非另有明确说明，组件和功能是可选的，并可以组合或再分，而操作可以有不同的顺序或可以组合或再分。以下描述中，为了说明，给出了许多具体细节以提供对解示例实施例的全面理解。然而，即使没有这些具体细节也可以实施本主题，这对于本领域的技术人员而言将是显而易见的。

为了讨论SNV识别的目的，我们使用两个可以互换的术语“SNV 识别”与“基因分型”。我们还假定被采样的个体是二倍体(也就是说，具有映射到参考序列的每个区域的两个稍微不同的DNA拷贝，一个是从个体的父亲继承来的，而另一个是从他/她的母新继承来的)，但是本文所述的方法也同样适用于不同倍性的样本。我们要识别参考序列中各个位置的二倍体基因型，所述基因型由新生成的测序数据所覆盖。因为两个 DNA拷贝中的每个的各个位置都有四种可能的核苷酸，所以总共有10 种可能的二倍体基因型：AA、CC、GG、TT——这4种被称为纯合子基因型，而AC、AG、AT、CG、CT、GT-这6种被称为杂合体基因型-这些都是不言而喻的。

因为被抽样个体与参考序列是相同的物种，因此它们非常相似。事实上，对于人类种族，各个位置上平均只有0.1％的不同。(因此，如上所述，这种差异率较测序错误率低一个数量级(-1％)。)考虑到参考序列的尺寸较大(数十亿个碱基)，我们在考虑全基因组重测序时新序列和参考序列之间有几百万个位置有差异。还应注意的是，由于参考序列是单倍体(即每个位置一个拷贝)，故需要确定二倍体个体序列和单倍体参考序列之间的差异。因此，可以将已确定的差异进一步分类为纯合子SNVs(如参考是A，个体基因型是CC)及杂合子SNVs(如参考是A，个体基因型是AC)。极少在一个位置出现3个碱基的情况(如参考是A，而个体基因型是CG)。然而，一般不考虑这些罕见的情况。对于非人类物种(如猪)，其个体变异水平可能更高或其参考基因组可能有质量问题，这种情况(如某位置为杂合型，但两个核苷酸都与参考碱基不同)可能更频繁地出现。本申请内容中所述的实施方式同样适用于这些情况。

如下所述，SNV识别过程的统计特性受到测定质量和范围二者的影响。

由下一代测序设备生成的测序读段数据包括由4字字母表{A、C、 G、T}中的字母组成的n个碱基的字符串(n是读取长度,通常为50到 150之间的一个整数)。此字符串中的各个字符被称为“碱基”，等同于读段中的一个位置。此外，各个读段中的各个碱基(或位置)与被称为Phred 分数的质量分数有关，所述Phred分数由测序仪产生，代表关于“碱基识别”准确性的置信度。Phred分数计算方法为-10·log₁₀(错误率)。因此， Phred分数为20表示估计错误率为0.01，而Phred分数为30表示估计错误率为0.001。

如上所述，下一代测序通常产生较短读段，但是却有非常高的通量，所以应用“深度测序”方式。也就是说，各区被重复多次测序，因此各个位置都被多个读段覆盖。我们用L表示关注位置的“深度范围”。我们的做法是，我们将尝试识别具有深度L的各个位置的SNV(或基因分型)，在该深度处，至少1个L读段表现出与参考序列的碱基不同的碱基。我们的讨论中，这些被称为“可疑位置”。因为我们不考虑位置涉及3个碱基的情况(如上所述)，假定我们辨认出参考序列中特定“可疑位置”的核苷酸身份——我们将参考序列中的这个核苷酸称为R，则这个位置的测序数据中最多有一个其它核苷酸——我们称之为N。虽然理论上各个位置有10种可能的二倍体基因型，一旦确定了R和N，则只可能有 3个二倍体基因型：RR、NN(这两个为纯合子基因型)、RN(这个为杂合子基因型)。

某些实施方式结合基于质量分数的统计特征，而质量分数与测序机和测序方式的深度水平有关。通过结合这些统计效应，这些实施方式使得能够表征测序读段中的高置信度位置，这些测序读段中的碱基值可用于识别其它位置的碱基。

图1示出用于实施例的用于识别如图2所示的靶序列208的至少一个碱基的方法100。第一操作102包括获取参考序列202，所述参考序列 202包括限定所述参考序列的多个碱基值。例如，参考可以是表征为碱基值序列的已知基因组的一部分(如“ACACTG…”)，其长度可以为任意长(如人类基因组的30-40亿个碱基值)。图2中，参考序列202的第一元素204包括如方块206所示的碱基值A，靶序列208的第一元素210 包括二倍体中如方块212所示的碱基值AA。

第二操作104包括获取多个测序读段214，各测序读段214包括靶序列208相应部分的多个碱基值。测序读段214可表征为一系列碱基值 (如“ACACTG…”)，其长度可以为50-150个碱基值或任意范围。这些序列读段214可以与基因组测试系统产生的基因组数据相一致。图2中，测序读段214之一的第一元素216包括如方块218所示的碱基值。本领域的技术人员易于理解，靶序列208与测序读段214的相对比对如图2 中的水平轴所示，所以靶序列208的各个进入位点或一个测序读段214 对应参考序列202的一个位置。

第三操作106包括确定测序读段中的多个高置信度位置，确定与参考序列中的相应位置的高置信度位置，满足适用所述高置信度位置测序读段碱基值的高置信度条件，从而识别靶序列在高置信度位置的一个或多个碱基。例如，如果至少阈值数目的测序读段包含所述高置信度位置，且所述高置信度位置的测序读段碱基值分布满足统计置信标准，则所述高置信度位置可以满足所述高置信度条件。

高置信度条件可能与参考序列某位置的测序读段覆盖的深度水平有关。例如，测序读段中的各碱基值可能与参考序列中的相应位置有关(通过映射)。可以将所述相应位置的总范围描述为所述位置的深度水平，所述位置的深度水平可以在一个相对较低的深度水平L(如L≤50)到一个相对较高的深度水平H(如H>50)之间变化。

根据如下所述的某些实施方式(如图3A-3C)，可以从测序读段值中位于较高的深度水平H位置提取出位于较低深度水平L位置的测序读段值。众所周知，测序数据集的深度范围因区域而异。对于较高深度区域(如H> 50)，不管采用什么SNV识别方法，都可以实现高置信度SNV识别。面临的挑战是在较低深度区域。对于较高深度水平(如H>50)，用一组过滤器保留以最高置信度确定的基因型所在的位置(例如，如果不到5％的 H读段支持N，则确定基因型为RR；如果高于95％的H读段支持N，则确定基因型为NN，如果45-55％的H读段支持N，则确定基因型为RN)。

然后对于较低深度水平L位置，可以从较高深度H的若干数值中采样。总的来说，抽样顺序M不需要与深度水平L相一致，但是深度水平可以用作抽样顺序M，这样M＝L个数值被抽作样本。为了获取与测试系统相关的测定质量的影响，可以基于质量分数将数值进一步区分。

图3A-3C为实施例表格，表明利用深度水平和质量分数可表征测序读段中的数据，并将数据从测序读段中提取出来。图3A中，SNV表302 中包括行指标304与列指标306，所述行指标对应四个个体碱基值(A、C、 G、T)，这些个体碱基值可能出现在参考序列中的某位置，而所述列指标对应十个二倍体组合(AA、CC、GG、TT、AC、AG、AT、CG、CT、GT)，这些二倍体组合可能出现在一个测序读段中的所述位置。SNV表302的各个单元307使得与行指标304对应的特定参考序列碱基值有可能导致与行指标304对应的二倍体组合，所述行指标304位于测序读段214对应的靶序列208中。也就是说，源自测序读段值与参考序列值的SNV表 302可用于根据某位置的参考序列值预测相应位置的靶序列二倍体值。因此，可以将SNV表302描述为一个靶序列预测表。

最初，可以根据参考序列中的高置信度位置构建SNV表302，这些位置具有足够高的深度水平(如H>50)，并被测序读段覆盖。然后，为了解释参考序列中某位置较低深度水平L的有限数据(如被测序读段数值覆盖的数据)，可以通过从较高深度水平(如H>50)对应的高置信度数值中采样构建以深度水平L索引的对应SNV表302。图4展示了相关抽样方法400。第一操作402包括，从测序读段采样M个高置信度的碱基值(M 为正整数)，其中，M个高置信度的碱基值对应至少一个高置信度位置，在所述高置信度位置，参考序列的碱基值等同于参考序列在给定位置的碱基值。例如，在对深度水平L采样时，可以取M＝L。第二操作402包括利用M个高置信度碱基值估计在靶序列的给定位置存在一个或多个碱基值的可能性。

图3B-3C为相关错误表308、310，其中表征了测试预测及相关错误，其中第一错误表308对应测试系统中的高质量读段(如基于Phred分数阈值)，而第二错误表310对应低质量读段。也就是说，如果数据由传统平台(如1LLUM1NA平台)生成，为了评估高置信度条件，测序读段可以将测序数据分为两个子群——第一表308中的高质量读段及第二表310中的低质量读段。应注意的是，本发明披露的实施方式也适用于其它平台 (如ION TORRENT)产生的下一代测序数据，这些平台没有明显的子群质量划分，在此情况下，可以省略这一步。如果某读段中各个位置的Phred 分数都高于一定水平(默认是15级，但也可以采用其它值，比如20、25 等)，则可以将该读段划分为高质量读段。将所有其它读段划分为低质量读段。应注意的是，虽然本实施方式采用Phred分数，但也可以基于操作设置采用其它质量特征。

第一错误表308具有列指标312与行指标314，所述列指标对应十个二倍体组合(AA、CC、GG、TT、AC、AG、AT、CG、CT、GT)，这些组合可能出现在靶序列的位置，而所述行指标对应四个个体碱基值(A、 C、G、T)，可以由所述位置的测试系统识别这些碱基值。同理，第二错误表310具有列指标316与列指标318，所述列指标对应十个二倍体组合(AA、CC、GG、TT、AC、AG、AT、CG、CT、GT)，这些组合可能出现在靶序列的位置，而所述列指标对应四个个体碱基值(A、C、G、T)，可以由所述位置的测试系统识别这些碱基值。错误表308、310的每个单元格315、319使得与列指标312、316对应的特定二倍体组合有可能导致与行指标314、318相对应的测定。

就SNV表302而言，首先可以在高深度水平(如H>50)表征错误表 308、310，然后在较低深度水平采样。也就是说，基于最高置信度确定的基因型所在的位置类似地计算各水平L的错误率——然后在H读段之外的L随机抽样。假定任何与基因型一致的碱基都正确(例如，如果确定A位置的基因型为AA或AC或AG或AT，则认为碱基A正确)，任何与基因型不一致的碱基都指示测序错误。对于多质量水平的测序数据 (如ILLUMINA公司数据)，分别计算高、低质量读段的错误率，并生成两个错误表。对于其它测序平台，只形成一个错误表。

也就是说，为了解释参考序列中某位置的较低深度水平L的有限数据(如测序读段数值所覆盖的数据)，可以通过从较高深度水平(如H>50) 对应的高置信度数值采样构建以深度水平L索引的相应SNV表302。图 5展示了相关抽样方法500。第一操作502包括对靶序列在给定位置的一个或多个碱基值进行M次(M为正整数)高置信度测试结果的采样，M 次高置信度测试结果包括至少一个高置信度位置的碱基值，在所述高置信度位置，相应的测序读段识别碱基值组合，而所述碱基值组合等同于靶序列在给定位置的一个或多个碱基值。例如，在对深度水平L采样时，可以取M＝L。第二操作502包括利用对靶序列在给定位置的一个或多个碱基值进行M次高置信度测定来估计测序读段在给定位置存在前述碱基值的可能性。

应强调的是，在专注描述的实施方式中，我们假定是二倍体样品，但是这个步骤可以轻而易举地扩展到其它倍性情况(单倍体、四倍体)。对于给定深度水平L，图3A-3C中的各个表302、308、310包含从测序数据的较高深度区域(H)提取的40个参数，该较高深度区域(H)用于计算较低深度(L)区域。碱基SNV表展示SNVs的发生率——也就是说，个体基因型和参考序列的真实差异。SNV表302中的数值(或参数)将用于计算如下所述二倍体基因型的先验概率。错误表308、310是由测序机造成的测序错误的发生率。两个错误表(一个用于高质量读段，另一个用于低质量读段)中的数值或参数。应注意的是，对于不生成两个质量水平读段的平台(如非ILLUMINA平台)，将只有一个错误表308用于如下所述的后续计算。

简言之，为各L水平定义图3A-3C的各个表302、308、310。SNV 表302中的每一列304都表示参考序列202中的四个碱基之一，而每一行306都表示测序个体的靶序列208中十个可能的真实二倍体基因型之一。SNV表302中的每个单元格都代表相应的二倍体基因型出现在指定的参考碱基的某位置的可能性。错误表308中的每列312表示十个二倍体基因型之一，而每行表示测序机生成的碱基。传统的具有两个质量水平的仪器(如ILLUMINA公司仪器)有两个错误表308、310——一个用于高质量读段，而另一个用于低质量读段。对于其他测序平台，只有一个如上所述的错误表308。

图1中的第四操作108包括识别靶序列在给定位置的一个或多个碱基，根据高置信度位置测序读段的碱基值、测序读段给定位置的碱基值及所述参考序列给定位置的碱基值来识别所述靶序列在给定位置的一个或多个碱基，所述靶序列在给定位置的一个或多个碱基不满足高置信度条件，从而识别所述给定位置的靶序列的一个或多个碱基。例如，靶序列可以与N倍体基因型对应，可以在所述给定位置识别N个碱基(N为正整数)。

可以通过确定至少一个包括测序读段的给定位置来选择给定位置，该给定位置表示相对于参考序列的SNV(如一个相对于参考序列的可疑位置)。此外或可替换地，可以通过识别给定位置的插入或删除、给定位置的拷贝数变异或给定位置的结构变异来选择给定位置。

可以利用贝叶斯预测模型来识别靶序列在给定位置的一个或多个碱基。所述贝叶斯预测模型提供测序读段在高置信度位置的碱基值和参考序列在多个位置的碱基值与靶序列在所述给定位置的一个或多个碱基有关的概率值。例如，识别靶序列在所述给定位置的一个或多个碱基可能包括利用测序读段在高置信度位置的碱基值来评估参考序列在所述给定位置的碱基值与靶序列在所述给定位置的一个或多个碱基值组合的可能性。而且，识别靶序列在所述给定位置的一个或多个碱基可包括利用测序读段高置信度位置的碱基值来评估所述给定位置的靶序列的一个或多个碱基值与所述给定位置的一个靶序列碱基组合的概率。

如果我们忽略出现杂合子基因型，且两个碱基都与参考碱基不同的罕见情况(如参考碱基是'A'，但基因型是“GC”)，那么我们可以基于R:N 组合将每个L水平的所有位置分割成12个分区，然后基于有关SNV表 302将先验概率分配给各个二倍体基因型。更一般情况下，我们考虑各个位置的10个二倍体基因型时，可以基于参考碱基将各个位置分成四类，然后将先验概率分配给这四类中各类的10个二倍体基因型中的每一个。

因此，可以用SNV表302(或其它表格)来表征对于给定参考碱基值 R(如行指标304)，任何基因型GT(如列指标306)的先验概率P(R|GT)或可能性。然后，可以通过多项分布使用错误表308、310来表征对于给定基因型GT(如列指标312、316)，实测测序数据D(如行指标308、310) 的条件概率P(D|GT)或可能性。

上述公式1中，GT是特定的二倍体基因型，D是测序数据，L是特定位置的测序深度或覆盖此位置的读段总数(包括高、低质量读段)。l_R是覆盖此位置的低质量读段数，所述读段支持参考核苷酸R。l_N是覆盖此位置的低质量读段数，所述读段支持非参考碱基N。m是支持参考碱基R的读段总数。p^low _GT->R表示基因型GT低质量读段数的错误率，此基因型GT用于生成参考碱基R，所述错误率通过查询错误表310获取。假定只有二倍体基因型GT中的两个核苷酸都不是R时，才会出现错误。例如，如果GT是“AC”，则当R是“A”或“C”时，假定不会出现错误。只有当R是“G”或“T”时，假定会出现错误。类似地，p^low _GT->N、 p^high _GT->R及p^high _GT->N分别表示用于生成N的基因型GT的低质量读段的错误率、用于生成R的基因型GT的高质量读段的错误率、用于生成N 的基因型GT的高质量读段的错误率，这些值分别从相应的碱基错误表 308、310中查出。

在参考序列202的给定位置，借助于碱基值R和测序数据D，可以通过最大化(例如在某近似意义上)似然函数L(R,D|GT)将似然函数L(R, D|GT)＝P(R|GT)*P(D|GT)用于识别基因型GT。这样识别基因型GT可以提供所期望的碱基。

根据操作设置的细节，根据图1的方法100的实施方式可以实现某些独有特征。首先，对于多个质量水平的数据(例如ILLUMINA公司数据)，方法100可以利用与划分高、低质量读段有关的可用知识，分别处理它们。应注意的是，按照惯例，人们并不理解现有序列数据中存在多个质量水平。可以基于如下两个申请中所述的质量水平利用相关实施方式来划分序列数据：相关美国临时专利申请号：61/898，650，名称：“划分序列数据的质量水平和测序较长读段的方法及设备”，申请日：2013 年11月1日，在此以引用的方式整体并入本文中；相关PCT申请名称：“划分序列数据的质量水平和测序较长读段的方法及设备”，申请日与本申请日相同，通过交叉发明实体的方式提出申请，在此以引用的方式整体并入本文中。

其次，在常规方法中，分配先验概率时，不考虑新生成的测序数据(如根据关于特定类型SNVs出现频率的常识)。相比常规方法，方法100可以使用从较高深度区域估计的SNV率和错误率，采用改进的概率计算方法(例如先验概率和条件概率)。相比之下，方法100可以将相同测序数据集的较高深度区域用作先验知识的一部分，并产生更精确的SNV率参数，而该SNV率参数可以用于更精确的先验概率计算。同样，方法100 可以利用相同数据集的较高深度范围区域提取碱基出错率参数，从而得到更精确的似然函数。

再次，方法100可以更准确地计算二倍体基因型的概率，从而导致 SNV识别性能的改进。在使用多个数据集(如全基因组测序数据集和外显子组数据集)进行测试的某些实施方式中，当测序深度(L)在10-25之间时，与图1的方法100相关的实施方式产生的错误较其它方法少30-100倍，这是典型的常见重测序研究。

3、其它实施方式

其它实施方式与执行上述方法的系统及相关计算机程序相应。

图6为一个实施例中的用于识别靶序列208的至少一个碱基的设备 600的示意图。这种情况下，设备600包括至少一个用于执行软件和硬件模块操作的计算机系统(如图中RR所示)，所述模块执行图1中方法 100的各个方面。

根据示例性实施方式，设备600包括第一存取模块602、第二存取模块604、第一识别模块606及第二识别模块608。第一存取模块602运行以获取参考序列，所述参考序列包括限定所述参考序列的多个碱基值。第二存取模块604运行以获取多个测序读段，各测序读段包括靶序列相应部分的多个碱基值。

第一识别模块606运行以识别测序读段中的多个高置信度位置，高置信度位置通过参考序列中的相应位置被识别并满足高置信度条件，从而利用测序读段该高置信度位置的碱基值来识别靶序列在该高置信度位置的一个或多个碱基。第二识别模块608运行，识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基，以识别所述靶序列在所述给定位置的一个或更多个碱基，其中，使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列在给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。

可以通过其它相应模块或通过修改上述模块执行与方法100有关的其它操作。

图7示出以计算机系统700为实例形式的机器的示例，所述系统内部可以执行指令，这些指令可以使机器执行此处所述的任何一种或多种方法。在可选实施方式中，该机器作为独立设备运行，或者也可与其它机器相连接(如联网)。在联网部署中，该机器可以在服务器-客户端网络环境中以服务器或客户机的容量运行，或在对等(或分布式)网络环境中以对等机运行。该机器可以是个人电脑(PC)、平板电脑、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络设备、网络路由器、交换机或桥接器或任何能执行指令(连续或其它)的机器，所述指令指定该机器需要采取的动作。此外，虽然只详述了单机，但是采用的术语“机器”一词还应包括任何机器集合，所述集合单独或共同执行一组(或多组)指令，以执行此处提到的任何一种或多种方法。

所述示例计算机系统700包括处理器702(如中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器704及静态存储器706，这些组成部分通过总线708相互通信。所述计算机系统700还可以包括视频显示器710(如液晶显示器(LCD)或阴极射线管(CRT))。计算机系统700还包括字母数字输入设备712(如键盘)、用户界面(UI)光标控制器714(如鼠标)、磁盘驱动单元716、信号生成设备718(如扬声器)及网络接口设备 720。

某些情况下，可以将计算机可读介质描述为机器可读介质。磁盘驱动器716包括机器可读介质722，其上存储一组或多组数据结构及指令 724(如软件)，所述结构及指令可以实施或利用此处所述的任何一种或多种方法或功能。所述计算机系统700执行指令期间，所述指令724也可以完全或至少部分存储在静态存储器706、主存储器704或者处理器702 中。静态存储器706、主存储器704及处理器704也构成机器可读介质。

虽然实施例中所示的机器可读介质722为单一介质，但是术语“机器可读介质”和“计算机可读介质”都可以指单一介质或多重介质(如集中式或分布式数据库和/或相关的缓存及服务器)，所述介质存储一组或多组数据结构及指令724。采用的这些术语还应包括任何有形或非临时性介质，所述介质能够存储、编码或携带由机器执行的指令，使机器执行此处披露的任何一种或多种方法，或能够存储、编码或携带这些指令采用的或与这些指令相关的数据结构。因此，采用的这些术语应包括但不限于固态存储器、光学介质及磁性介质。机器可读或计算机可读介质的具体实例包括非易失性存储器，例如包括半导体存储器设备，例如可删除可编程只读存储器(EPROM)、电子可删除可编程只读存储器(EEPROM) 及闪存设备；内置硬盘及可移动磁盘等磁盘；磁光盘；只读光盘存储器 (CD-ROM)及数字多功能光盘只读存储器(DVD-ROM)。

还可以利用传输介质在通信网络726上传输或接收指令724。可以利用网络接口设备720及许多众所周知的传输协议中的任何一种(如超文本传输协议(HTTP))传输指令724。通信网络的实例包括局域网(LAN)、广域网(WAN)、互联网、移动电话网络、简易老式电话(POTS)网络及无线数据网络(如WiFi和WiMax网络)。采用的术语“传输介质”应包括任何无形介质，所述无形介质能够存储、编码或携带由机器执行的指令，并包含数字或模拟通信信号或其它无形介质，以方便此类软件通信。

此处所述的某些实施方式包括逻辑或许多部件、模块或机制。模块可以构成软件模块或硬件模块。硬件模块是能够执行某些操作的实体设备，可以配置或设置成一定形式。实施例中，可以由软件(如应用程序或应用程序部分)配置一个或多个计算机系统(如单机、客户端或服务器计算机系统)或一个或多个处理器作为硬件模块，所述硬件模块运行时可以执行此处所述的某些操作。

不同实施方式中，可以以机械方式或电子方式执行硬件模块(如电脑模块)。例如，硬件模块可以包括永久配置的专用电路或逻辑(如用作专用处理器，如现场可编程门阵列(FPGA)或特定用途集成电路(ASIC))，以执行某些操作。硬件模块也可以包括可编程逻辑或电路(如包含在通用处理器或其它可编程处理器中)，所述逻辑或电路由软件临时性配置以执行某些操作。为了节约成本和时间，可以决定以机械方式通过永久配置专用电路或临时性配置电路(如由软件配置)执行硬件模块。

因此，应将术语“硬件模块”(如“电脑模块”)理解为包括有形的实体，所述模块应为一种具有物理构造、永久配置(如硬连接)或临时性配置(如程序化)的实体，旨在以特定方式运行和/或执行此处所述的某些操作。考虑到临时性配置(如程序化)的硬件模块的实施方式，任何一种情况下都无需及时配置或者实例化每个硬件模块。例如，如果硬件模块包含利用软件配置的通用处理器，则可以在不同的时间将通用处理器分别配置为不同的硬件模块。因此，软件可以配置处理器等，以在一种情况下构成一种特定的硬件模块，而在另一种情况下构成另一种硬件模块。

硬件模块可以向其它硬件模块提供信息并接收其它硬件模块的信息。因此，可以将所述硬件模块看作通信耦合模块。同时存在多个这样的硬件模块时，可以通过信号传输(如通过适当的电路及总线)实现通信，所述电路及总线连接硬件模块。在不同的时间配置或实例化多个硬件模块的实施方式中，可以通过存储并检索存储器结构中的信息等方式实现这些硬件模块之间的通信，多个硬件模块可以存取这些信息。例如，一个硬件模块可以执行一个操作，并在通信耦合存储器设备中存储该操作的输出。然后，在稍后的时间，其它硬件模块可以访问该存储器设备，以检索并处理存储的输出。硬件模块也可以发起与输入或输出设备的通信，并可以在资源(如许多信息)上运行。

至少部分通过一个或多个处理器可以执行此处所述示例方法的各种操作，所述处理器为临时性配置(如通过软件)或永久配置，以执行相关操作。无论临时性或永久配置，所述处理器都可以构成处理器模块，所述模块运行时可以执行一个或多个操作或功能。一些实施例中，此处所提到的模块可以包括处理器模块。

同理，此处所述的方法可能至少部分由处理器执行。例如，可以由一个或多个处理器或处理器模块执行某方法的至少部分操作。可以将一定操作性能分配给一个或多个处理器，不只是分配给单机，而是要分配给多个机器。一些实施例中，所述一个处理器或多个处理器可以位于一个位置(如家庭环境、办公环境或服务器场)，但是其它实施方式中，所述多个处理器可以分布在多个位置。

所述一个或多个处理器运行时，也可以支持“云计算”环境中的相关操作性能或作为一个“软件即服务”(SaaS)。例如，可以由一组电脑(例如包括处理器的机器)执行至少部分操作，可以通过网络(如互联网)或通过一个或多个适当的接口(如应用程序接口(APIs))获取这些操作。

4、结论

尽管上文已经详细描述了某些实施方式，然而本领域的技术人员很容易理解，在没有实质性偏离本发明披露的新启示的情况下，可以做出多种修改。例如，可以将以上披露的实施方式的各方面与其它实施方式组合以形成更多的实施方式。因此，所有这些修改都意图落入本发明的保护范围内。

Claims

1.一种识别靶序列的至少一个碱基的方法，所述方法包括：

获取参考序列，所述参考序列包括限定所述参考序列的多个碱基值；

获取多个测序读段，每个测序读段包括靶序列相应部分的多个碱基值；

识别所述测序读段中的多个高置信度位置，所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件，所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基；以及

识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基，以识别所述靶序列在所述给定位置的一个或更多个碱基，其中，使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列在给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。

2.根据权利要求1所述的方法，其中，在以下情况下所述高置信度位置满足所述高置信度条件：

如果至少阈值数目的测序读段包括所述高置信度位置，以及

如果所述高置信度位置的测序读段碱基值分布满足统计置信标准。

3.根据权利要求1所述的方法，其中，所述识别靶序列在给定位置的一个或多个碱基包括：

利用测序读段在高置信度位置的碱基值评估参考序列在所述给定位置的碱基值与靶序列在所述给定位置的一个或多个碱基值组合的可能性。

4.根据权利要求1所述的方法，其中，所述识别靶序列在所述给定位置的一个或多个碱基包括：

利用测序读段在高置信度位置的碱基值评估所述靶序列在所述给定位置的一个或多个碱基值与所述靶序列在所述给定位置的一个碱基组合的可能性。

5.根据权利要求1所述的方法，其中，所述靶序列对应N倍体基因型，并且在所述给定位置的N个碱基被识别，N为正整数。

6.根据权利要求1所述的方法，其中，所述测序读段对应基因组数据。

7.根据权利要求1所述的方法，其中，所述方法还包括：

通过确定至少一个包括所述给定位置的测序读段来选择所述给定位置，所述给定位置表示相对于参考序列的单核苷酸变异(SNV)。

8.根据权利要求1所述的方法，其中，所述方法还包括：

通过识别在给定位置的插入或删除、给定位置的拷贝数变异或给定位置的结构变异选择所述给定位置。

9.根据权利要求1所述的方法，其中，利用贝叶斯预测模型来识别靶序列在所述给定位置的一个或多个碱基，所述贝叶斯预测模型提供所述测序读段在高置信度位置的碱基值和参考序列在多个位置的碱基值与靶序列在给定位置的一个或多个碱基有关的概率值。

10.根据权利要求1所述的方法，其中，所述识别靶序列在给定位置的一个或多个碱基包括：

从测序读段采样M个高置信度的碱基值，M个高置信度的碱基值对应至少一个高置信度位置，在所述高置信度位置，参考序列的碱基值等同于所述参考序列在所述给定位置的碱基值，M为正整数；及

利用M个高置信度碱基值估计靶序列在给定位置存在一个或多个碱基值的可能性。

11.根据权利要求1所述的方法，其中，所述识别靶序列在给定位置的一个或多个碱基包括：

对于某正整数M，对所述靶序列在所述给定位置的所述一个或多个碱基值进行M次高置信度测试结果的采样，所述M次高置信度测试结果包括至少一个高置信度位置的碱基值，在所述高置信度位置，相应的测序读段识别碱基值组合，而所述碱基值等同于所述靶序列在所述给定位置的一个或多个碱基值；及

利用对靶序列在给定位置的一个或多个碱基值进行M次高置信度测定结果来估计测序读段在所述给定位置存在所述碱基值的可能性。

12.一种非临时性计算机可读介质，该介质存储有用于识别靶序列的至少一个碱基的计算机程序，所述计算机程序包括指令，当至少一台计算机执行所述指令时，使所述至少一台计算机执行以下操作：

获取参考序列，所述参考序列包括限定所述参考序列的多个碱基；

获取多个测序读段，各测序读段包括靶序列相应部分的多个碱基值；

识别所述测序读段中的多个高置信度位置，所述高置信度位置通过参考序列中的相应位置被识别，并且满足高置信度条件，所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基；以及

13.根据权利要求12所述的非临时性计算机可读介质，其中，在以下情况下所述高置信度位置满足所述高置信度条件：

如果至少阈值数目的测序读段包括所述高置信度位置，以及

14.根据权利要求12所述的非临时性计算机可读介质，其中，所述识别靶序列在给定位置的一个或多个碱基包括：

利用所述测序读段在所述高置信度位置的碱基值评估参考序列在所述给定位置的碱基值与所述靶序列在所述给定位置的一个或多个碱基值组合的可能性。

15.根据权利要求12所述的非临时性计算机可读介质，其中，所述识别靶序列在给定位置的一个或多个碱基包括：

利用所述测序读段在所述高置信度位置的碱基值评估所述靶序列在所述给定位置的一个或多个碱基值与靶序列在给定位置的碱基组合的可能性。

16.根据权利要求12所述的非临时性计算机可读介质，其中，所述靶序列对应N倍体基因型，并且在所述给定位置的N个碱基被识别，N为正整数。

17.根据权利要求12所述的非临时性计算机可读介质，其中，所述计算机程序还包括指令，当至少一台计算机执行所述指令时，使所述至少一台计算机执行以下操作：

通过确定至少一个包括所述给定位置的测序读段来选择所述给定位置所述给定位置表示相对于参考序列的单核苷酸变异(SNV)。

18.根据权利要求12所述的非临时性计算机可读介质，其中，所述计算机程序还包括指令，当至少一台计算机执行所述指令时，使所述至少一台计算机执行以下操作：

通过识别在所述给定位置的插入或删除、给定位置的拷贝数变异或给定位置的结构变异选择所述给定位置。

19.根据权利要求12所述的非临时性计算机可读介质，其中，利用贝叶斯预测模型来识别靶序列在所述给定位置的一个或多个碱基，所述贝叶斯预测模型提供所述测序读段在所述高置信度位置的碱基值和参考序列在多个位置的碱基值与靶序列在给定位置的一个或多个碱基有关的概率值。

20.一种用于识别靶序列的至少一个碱基的设备，所述设备包括至少一个计算机，所述计算机被配置为执行计算机实现的模块操作，所述计算机实现的模块包括：

第一存取模块，用于获取参考序列，所述参考序列包括限定所述参考序列的多个碱基值；

第二存取模块，用于获取多个测序读段，每个测序读段包括靶序列相应部分的多个碱基值；

第一识别模块，用于识别所述测序读段中的多个高置信度位置，所述高置信度位置通过参考序列中的相应位置被识别并且满足高置信度条件，所述高置信度条件用于使用所述测序读段在所述高置信度位置的碱基值来鉴定所述靶序列在所述高置信度位置的一个或更多个碱基；以及

第二识别模块，用于识别所述靶序列在不满足所述高置信度条件的给定位置的一个或更多个碱基，以识别所述靶序列在所述给定位置的一个或更多个碱基，其中，使用所述测序读段在所述高置信度位置的碱基值以及所述测序读段在给定位置的碱基值和所述参考序列给定位置的碱基值来识别所述靶序列所述给定位置的一个或更多个碱基。