CN110168648A

CN110168648A - 序列变异识别的验证方法和系统

Info

Publication number: CN110168648A
Application number: CN201780083202.9A
Authority: CN
Inventors: 陈晓; 赵晨; 杰西卡·戈登; 张诗乐; 姜婷婷; 格温·贝里; 叶莎·沙阿; 庄韩宇
Original assignee: Irumina Co Ltd
Current assignee: Irumina Co Ltd; Illumina Inc
Priority date: 2016-11-16
Filing date: 2017-11-14
Publication date: 2019-08-23
Also published as: US20190348149A1; SG10201912285UA; KR20190077097A; KR102638152B1; AU2023251452A1; WO2018093780A1; JP7113838B2; JP2020506489A; EP3542291A1; BR112019009949A2; AU2017360993A1; CA3044231A1

Abstract

提供了用于验证变异识别的方法和系统。接收沿目标基因组序列的样本读长的序列数据。接收沿所述目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示。所述方法和系统获得在一个或多个基线基因组序列内的指定位置的基线变异频率，确定所述目标基因组序列在所述指定位置的样本变异频率，分析在所述指定位置的基线和样本变异频率以获得质量得分，以及基于所述质量得分验证所述目标基因组序列的潜在变异识别。

Description

序列变异识别的验证方法和系统

相关申请

本申请涉及并要求2017年1月17日提交的标题为“序列变异识别的验证方法和系统”的美国临时专利申请第62/447,076号，以及2016年11月16日提交的标题为“提高变异识别准确性的方法和系统”的美国临时专利申请第62/422,841号优先权，其全部内容中的完整主题通过引用并入本文。

技术领域

本文主题一般涉及用于分析测序操作的系统和方法，以及更特别地涉及验证与测序操作相关的变异识别。

背景技术

现今癌症治疗技术正在从包治百病的方法转变。综合诊断方法对检测DNA变异的方法提出了挑战。DNA检测方法的非限制实施例包括Sanger测序、免疫组化(IHC)、荧光原位杂交(FISH)以及定量PCR(qPCR)。一些检测方法每次分析一个或几个基因变化的DNA。然而，随着已知的推动癌症进展的DNA改变的数量继续增长，提出了一种在一次测序操作中分析越来越多的基因变化的DNA的新方法。

下一代测序技术(NGS)提供了使用一个样本评估多个基因中变异的能力。为此，已经提出了一种提供基于NGS检验(测定)的杂交捕获的系统，其靶向多个癌症基因(例如，超过100个癌症基因)，用于在NextSeq^TM和HiSeq^TM平台测序。NGS检验包括用于识别单核苷酸变异(SNVs)、小插入和缺失(indels)、多核苷酸变异(MNVs)、基因扩增(CNVs)的DNA工作流程。NGS检验还包括用于识别剪接变异和基因融合的RNA工作流程。当确定样本核酸序列沿序列上的一个或多个碱基对位置与参考序列不同时，识别变异。在对单个样本测序的时，可以在同一时间评估来自不同基因的DNA和RNA改变。

正在发展的生物信息学分析技术在快速周转时间内实现变异识别。除了其它方面，该技术包括对准器和变异识别器。比对过程能够对齐长的插入和缺失以克服具有短的读长长度的鸟枪法测序挑战。此外，NGS检验利用多种样本制备技术，其中一个例子是福尔马林固定、石蜡包埋(FFPE)。当目标DNA具有低丰度和/或可能已经降解时，FFPE样本为检测DNA变异带来了另一个困难。

然而，当前提出的测序技术在与变异识别方面存在假阳性。例如，该技术可能错误地确定在样本序列的特定位置(碱基对)存在变异和/或错误地识别变异类型(通常称为假阳性)。系统错误可能导致假阳性，诸如由于FFPE伪影、测序错误或PCR错误。

仍然需要能够在单个样本中以简单且经济的方式同时检查多种类型的DNA变异，而不会声明过多的假阳性的测序方法和系统。

定义

本申请中引用的所有文献及类似材料，包括但不限于专利、专利申请、文章、书籍、论文和网页，无论这些文献及类似材料的格式如何，其全部内容通过引用明确地并入。如果一个或多个并入的文献及类似材料与本申请不同或矛盾，包括但不限于定义的术语，术语用法，所描述的技术等，以本申请为准。

本文所使用的，以下术语具有所显示的含义。

术语“染色体”是指活细胞的携带遗传的基因载体，其由包含DNA和蛋白质组分(尤其是组蛋白)的染色质链衍生得到。本文采用传统的国际公认的个体人类基因组染色体编号系统。

术语“位点”是指参考基因组上的独特位置(例如，染色体ID、染色体位置和方向)。在一些实施方式中，位点可以是序列上的残基、序列标签或片段的位置。术语“基因座”可用于指参考染色体上核酸序列或多态性的特定位置。

本文的术语“样本”是指通常来自包括核苷酸或包含至少一个核苷酸序列的核苷酸混合物的生物体液、细胞、组织、器官或生物体的，用于测序或定相的样本。这样的样本包括但不限于痰/口腔液、羊水、血液、血液部分、细针活检样本(例如，外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养和任意其他组织或细胞制剂，或其部分或衍生物或从中分离的。虽然所述样本通常取自人类受试者(例如，患者)，但所述样本可以从任意具有染色体的生物体中采集，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。从生物来源或预处理后改变样本特征获得的样本可以直接使用。例如，这样的预处理可以包括从血液制备血浆，稀释粘稠液体等。预处理方法还可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。

术语“序列”包括或代表彼此连接的核苷酸链。所述核苷酸可以基于DNA或RNA。应该理解，一个序列可以包括多个子序列。例如，单个序列(例如，PCR扩增子)可以具有350个核苷酸。样本读长可以包括这350个核苷酸内的多个子序列。例如，所述样本读长可以包括具有例如20-50个核苷酸的第一和第二侧翼子序列。所述第一和第二侧翼子序列可以位于具有相应子序列(例如，40-100个核苷酸)的重复区段的任意一侧。每个所述侧翼子序列可以包括(或包括部分)引物子序列(例如，10-30个核苷酸)。为了便于阅读，术语“子序列”将被称为“序列”，但应理解，两个序列在共同链上不一定彼此分开。为了区分本文所述的多个序列，可以给序列赋予不同的标签(例如，靶序列、引物序列、侧翼序列、参考序列等)。其他术语，诸如“等位基因”，可以给予不同的标记以区分相似的对象。

术语“双末端测序”是指对靶片段的两个末端进行测序的测序方法。双末端测序可以促进基因组重排和重复片段，以及基因融合新的转录本的检测。PCT公开号WO07010252、PCT申请序列号PCT GB2007/003798和美国专利申请公开US2009/0088327中所描述的双末端测序的方法，其每一个通过引用并入本文。在一实施例中，可以执行如下一系列操作；(a)生成核酸簇；(b)核酸线性化；(c)杂交第一测序引物并进行延伸、扫描和去封闭的重复循环，如上所述；(d)通过合成互补拷贝“转化”流动单元表面的靶核酸；(e)重新合成的链线性化；和(f)杂交第二测序引物并进行延伸、扫描和去封闭的重复循环，如上所述。如上所述，可以通过提供试剂进行转化操作，用于桥式扩增的单个循环。

术语“参考基因组”或“参考序列”是指任意生物的任意特定已知基因组序列，其来自受试者的可以用于参考识别的序列，无论是部分的还是完整的。例如，在ncbi.nlm.nih.gov的国家生物技术信息中心发现了用于人受试者以及许多其他生物的参考基因组。“基因组”是指以核酸序列表达的生物或病毒的完整遗传信息。基因组包括基因和DNA的非编码序列。参考序列可以大于与其对齐的读长。例如，它可以是至少大约100倍、或者至少大约1000倍、或者至少大约10,000倍、或者至少大约10⁵倍、或者至少大约10⁶倍、或者至少大约10⁷倍。在一实施例中，参考基因组序列是全长人类基因组的序列。在另一实施例中，参考基因组序列限于特定的人染色体，例如染色体13。在一些实施方式中，参考染色体是来自人类基因组版本hg19的染色体序列。这些序列可以称为染色体参考序列，但术语参考基因组旨在涵盖这些序列。参考序列的其他实施例包括其他物种的基因组，以及任意物种的染色体、亚染色体区域(例如链)等。在多个实施方式中，参考基因组是来源于多个个体的共有序列或其他组合。然而，在某些应用中，参考序列可以取自特定个体。

术语“读长”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读长”可以指样本读长和/或参考读长。通常，虽然不是必需的，但读长表示样本或参考中的连续碱基对的短序列。读长可以通过样本或参照片段的碱基对序列(在ATCG中)象征性地表示。它可以存储在存储器设备中并经适当地处理后确定读长是否与参考序列匹配或满足其他标准。读长可以从测序装置直接获得，或者间接地从关于样本的存储的序列信息获得。在一些情况下，读长是足够长度(例如，至少约25bp)的DNA序列，其可用于鉴定更大的序列或区域，例如，可以比对并特异性地分配到染色体或基因组区域或基因。

下一代测序方法包括，例如，通过合成技术(Illumina)测序、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和连接法测序(SOLiD测序)。根据测序方法，每次读长的长度可以从约30bp到超过10,000bp变化。例如，使用SOLiD测序仪的Illumina测序方法生成约50bp的核酸读长。再例如，Ion Torrent测序生成高达400bp的核酸读长，454焦磷酸测序生成约700bp的核酸读长。再例如，单分子实时测序方法可生成10,000bp至15,000bp的读长。因此，在某些实施方式中，核酸序列读长具有30-100bp、50-200bp或50-400bp的长度。

术语“样本读长”、“样本序列”或“样本片段”是指来自样本的目标基因组序列的序列数据。例如，样本读长包括来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可以从任意选择的序列方法中获得。样本读长可以是，例如来自合成测序(SBS)反应、连接测序反应，或任意其他合适的测序方法，以确定重复元素长度和/或标识。样本读长可以是来源于多个样本读长的共有序列(例如，平均或加权)。在某些实施方式中，提供参考序列包括基于PCR扩增子的引物序列识别目标基因座。

术语“原始片段”是指目标基因组序列的一部分的序列数据，其至少部分重叠样本读长或样本片段内的指定位置或目标次要位置。原始片段的非限制性实施例包括双链体拼接片段、单链体拼接片段，双链体未拼接片段和单链体未拼接片段。术语“原始”用于说明原始片段包括与样本读长中的序列数据有某种关系的序列数据，无论原始片段是否显示对应于并鉴定或确认样本读长中的潜在变异的支持变异。术语“原始片段”不表示片段必须包括验证样本读长中的变异识别的支持变异。例如，通过变异识别应用确定样本读长以显示第一变异时，变异识别应用可以确定一个或多个原始片段缺失相应类型的“支持”变异，否则在给定样本读长中的变异的情况下，预期会出现相应类型的“支持”变异。

术语“对齐”，“比对”或“校准”是指将读长或标记与参考序列进行比较并由此确定参考序列是否包含读长序列的过程。如果参考序列包含读长，则读长可以映射到参考序列，或者在某些实施方式中，映射到参考序列中的特定位置。在一些情况下，比对仅仅告知读长是否是特定参考序列的成员(即，参考序列中是否存在读长)。例如，读长与人染色体13的参考序列的比对将告知读长是否存在于染色体13的参考序列中。提供该信息的工具可以称为集合成员检验器。在一些情况下，比对另外指示参考序列中读长或标记映射到的位置。例如，如果参考序列是整个人类基因组序列，则比对可以指示读长存在于染色体13上，并且可以进一步指示读长在染色体13的特定链和/或位点。

术语“插入缺失”是指生物体DNA碱基的插入和/或缺失。微插入缺失代表导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中，除非插入缺失的长度是3的倍数，否则它将产生移码突变。插入缺失可以与点突变相比较。一个插入缺失从序列中插入和删除核苷酸，而点突变是取代其中一个核苷酸而不改变DNA中总数的取代形式。插入缺失还可以与串联碱基突变(TBM)相比较，其可以定义为相邻核苷酸处的取代(主要是两个相邻核苷酸处的取代，但是已经观察到三个相邻核苷酸的取代)。

术语“变异”是指与核酸参考不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)，微卫星标记或短串联重复序列以及结构变异。体细胞变异识别是鉴定DNA样本中低频率存在的变异。在癌症治疗的背景下，体细胞变异识别是令人感兴趣的。癌症是由DNA中突变的积累引起的。来自肿瘤的DNA样本通常是异质性，包括一些正常细胞、一些处于癌症进展早期的细胞(具有较少突变)和一些晚期细胞(具有更多突变)。由于这种异质性，当对肿瘤(例如，来自FFPE样本)进行测序时，体细胞突变通常以低频率出现。例如，SNV可能仅在覆盖给定碱基的读长的10％。

术语“变异频率”表示群体中特定基因座的等位基因(基因变异)的相对频率，表示为分数或百分比。例如，分数或百分比可以是携带该等位基因的群体中所有染色体的分数。举例来说，样本变异频率表示在“群体”上沿目标基因组序列在特定基因座/位置上的等位基因/变异对应于从个体目标基因组序列获得的读长和/或样本的数量的相对频率。作为另一实施例，基线变异频率表示沿一个或多个基线基因组序列在特定基因座/位置处的等位基因/变异的相对频率，其中“群体”对应于从正常个体群体中获得的一个或多个基线基因组序列的读长和/或样本的数量。

术语“位置”、“指定位置”和“基因座”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因座”还指核苷酸序列中一个或多个碱基对的位置或坐标。

术语“单倍型”是指染色体上相邻位点的等位基因组合在一起遗传。单倍型可以是一个基因座、几个基因座或整个染色体，这取决于在给定的一组基因座之间发生重组事件的数量，如果有的话。

本文中的术语“阈值”是指数字或非数字值，其用作表征样本、核酸或其部分(例如读长)的截止值。阈值可以基于经验分析改变。阈值可以与测量值或计算值进行比较，以确定是否应该以特定方式对产生这种值的来源进行分类。阈值可以凭经验或分析确定。阈值的选择取决于用户希望进行分类的置信水平。阈值可以被选择用于特定目的(例如，平衡灵敏度和选择性)。如本文所使用的，术语“阈值”表示分析过程可能改变的点和/或可能触发动作的点。阈值不需要是预定数值。相反，阈值可以是，例如基于多个因素的函数。阈值可以适应环境。此外，阈值可以指示上限、下限或限制之间的范围。

在一些实施例中，基于测序数据的度量或得分可以与阈值进行比较。如本文所使用的，术语“度量”或“得分”可包括从测序数据确定的值或结果，或者可以包括基于从测序数据确定的值或结果的功能。与阈值一样，度量或得分可以适应环境。例如，度量或得分可以是标准化值。作为得分或度量的一个实施例，一个或多个实施方式在分析数据时可以使用计算得分。计算得分可以基于样本读长的数量。样本读长可以经历一个或多个过滤阶段，以使样本读长具有至少一种共同特征或质量。例如，用于确定计算得分的每个样本读长可以已经与参考序列对齐，或者可以被指定为潜在等位基因。具有共同特征的样本读长的数量可以被计算以确定读长计数。计算得分可以基于读长计数。在一些实施方式中，计算得分可以是等于读长计数的值。在其他实施方式中，计算得分可以基于读长计数和其他信息。例如，计算得分可以基于遗传基因座的特定等位基因的读长和遗传基因座的读长总数。在一些实施方式中，计算得分可以基于读长计数和先前获得的遗传基因座数据。在一些实施方式中，计算得分可以是预定值之间的归一化得分。计算得分还可以是来自样本的其他基因座的读长计数函数或来自与目标样本同时运行的其他样本的读长计数函数。例如，计算得分可以是特定等位基因的读长计数函数和样本中其他基因座的读长计数函数和/或来自其他样本的读长计数函数。作为一个实施例，来自其他基因座的读长计数和/或来自其他样本的读长计数可以用于标准化特定等位基因的计算得分。

术语“覆盖范围”或“片段覆盖范围”是指序列的相同片段的多个样本读长的计数或其他量度。读长计数可以表示覆盖相应片段的读长数量的计数。或者，覆盖范围可以通过读长计数乘以基于历史知识、样本知识、基因座知识等的指定因子确定。

发明内容

根据本文的实施方式，提供了一种用于验证变异识别的计算机实现的方法。所述方法在执行程序指令的一个或多个处理器的控制下运行，用于接收包括测序数据，所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长，接收沿所述基因组序列的核苷酸序列内指定位置的潜在变异识别的指示，并在一个或多个基线基因组序列内的指定位置获得基线变异频率。所述方法在所述目标基因组序列的所述指定位置获得样本变异频率。所述方法分析所述指定位置的基线和样本变异频率以获得质量得分；并基于所述质量得分验证所述目标基因组序列的所述潜在变异识别。

可选地，分析操作包括获得所述样本变异频率与所述基线变异频率的分布之间的关系，基于所述关系的质量得分。可选地，所述分析操作包括根据所述基线变异频率的分布索引所述样本变异频率。所述关系可以基于非参数威尔科克森(Wilcoxon)秩和检验。所述基线变异频率指示沿所述基线基因组序列的相应位置处的背景噪声程度。

可选地，所述验证还包括将所述质量得分与阈值进行比较；并且当所述质量得分超过所述阈值时，所述潜在变异识别声明为有效变异识别。所述基线变异频率可以来源于与一种以上类型的等位基因相关的多个基线基因组序列。可选地，所述方法还包括接收沿所述基线基因组序列的核苷酸序列的多个参考读长的测序数据，以及确定在所述指定位置的所述参考读长的所述基线变异频率。确定所述基线变异频率还可以包括从当前碱基对窗口内的一组位置的所述参考读长接收测序数据；识别当前所述碱基对窗口内的所述一组位置中的一个或多个位置的候选变异频率；选择所述候选变异频率中的一个作为所述参考读长内指定位置的所述基线变异频率；以及沿所述基线基因组序列移动所述碱基对窗口并重复操作。

根据一实施方式，提供了一种用于验证变异识别的计算机实现的方法。所述方法在执行程序指令的一个或多个处理器的控制下运行，用于接收目标基因组序列的潜在变异识别的指示；以及接收包括沿所述目标基因组序列的样本和核苷酸原始片段的读长测序数据，所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长。所述方法相对于基线基因组序列的所述指定位置的基线变异频率，分析所述目标基因组序列的所述指定位置的样本变异频率，以获得质量得分；并确定以下至少一项：A)所述原始片段是否确认所述潜在变异识别；B)所述样本读长是否为所述样本片段提供预定量的覆盖范围；以及C)所述潜在变异识别是否与预定义群体中显示的先前变异识别相匹配。所述方法基于所述质量得分和所述确定操作验证所述潜在变异识别。

可选地，所述确定可以包括操作A)，并且操作A)包括：识别指示支持变异识别的所述原始片段；获得指示所述支持变异识别的所述原始片段的加权片段得分；以及将所述加权片段得分与所述原始片段阈值进行比较，以确定是否确认所述潜在变异识别。

可选地，所述确定可以包括操作A)，其中所述原始片段对应于双链体拼接片段、单链体拼接片段，双链体未拼接片段或单链体未拼接片段中的至少一个。可选地，所述确定可以包括操作A)，并且操作A)可以包括：将双链体拼接片段识别为所述原始片段；确定所述双链体拼接片段是否指示所述支持变异识别，以确定是否确认所述潜在变异识别。可选地，所述确定操作可以包括操作B)，其中当所述样本读长低于所述预定量的覆盖范围时，所述潜在变异识别声明为无识别。可选地，所述确定操作可以包括操作C)。当在所述潜在和所述先前变异识别之间确定匹配时，所述确定操作利用第一阈值执行所述操作A)或所述操作B)中的至少一个。当所述潜在变异识别和所述先前变异识别之间不存在匹配时，所述确定操作利用第二阈值执行所述操作A)或所述操作B)中的至少一个。

可选地，所述方法可以执行所述分析操作并在层级中确定操作A)，B)和C)。

根据本文的实施方式，提供了一种用于验证变异识别的系统。所述系统包括存储程序指令和测序数据的存储器和执行所述程序指令的一个或多个处理器，所述测序数据包括沿目标基因组序列具有相应核苷酸序列的样本读长。所述处理器接收沿所述目标基因组序列的所述核苷酸序列内的指定位置的潜在变异识别的指示；并获得在一个或多个基线基因组序列内所述指定位置的基线变异频率。所述处理器确定所述目标基因组序列的所述指定位置的所述样本变异频率；并分析所述指定位置的所述基线和所述样本变异频率，以获得质量得分。所述处理器基于所述质量得分验证所述目标基因组序列的所述潜在变异识别。

可选地，所述处理器可以获得所述样本变异频率与所述基线变异频率的分布之间的关系，所述质量得分基于所述关系。可选地，所述处理器相对于所述基线变异频率的分布索引所述样本变异频率。可选地，所述基线变异频率指示沿所述基线基因组序列的相应基因座的背景噪声程度。可选地，所述处理器将所述质量得分与阈值进行比较；并基于所述比较输出声明所述潜在变异识别无效的指示。可选地，所述系统还包括存储测序数据的存储器，所述测序数据包括沿所述基线基因组序列的多个核苷酸的参考读长，所述一个或多个处理器确定所述指定位置的所述参考读长的所述基线变异频率。

根据本文的实施方式，提供了一种用于验证变异识别的系统。所述系统包括存储程序指令和测序数据的存储器和执行所述程序指令的一个或多个处理器，所述测序数据包括沿所述目标基因组序列的样本和核苷酸原始片段的读长，所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长。所述处理器接收所述目标基因组序列的潜在变异识别的指示；并且相对于基线基因组序列的所述指定位置的基线变异频率，分析所述目标基因组序列在所述指定位置样本变异频率，以获得质量得分。所述处理器确定以下至少一项：A)所述原始片段是否确认所述潜在变异识别；B)所述样本读长是否为所述样本片段提供预定量的覆盖范围；C)所述潜在变异识别是否与预定义群体中显示的先前变异识别相匹配。所述处理器基于所述质量得分和所述确定操作来验证所述潜在变异识别。

可选地，所述处理器可以通过识别指示支持变异识别的所述原始片段来确定所述原始片段是否确认所述潜在变异识别；获得指示所述支持变异识别的所述原始片段的加权片段得分；并将所述加权片段得分与所述原始片段阈值进行比较，以确定是否确认所述潜在变异识别。所述原始片段可以对应于双链体拼接片段、单链体拼接片段，双链体未拼接片段或单链体未拼接片段中的至少一个。

根据本文的实施方式，所述用于减少系统误差的假阳性变异识别的系统和方法。系统误差可能由于各种因素而产生，诸如FFPE伪像、测序误差、文库制备误差、PCR误差等。变异识别静态地经受基因座特异性背景误差分布，其可以从具有来自基于NGS试验测序的多个组织的不同DNA质量的一组FFPE正常样本汇编而成。所述FFPE正常样本的相同测序数据也可用于标准化由PCR、DNA质量、探针下拉效率或序列GC含量引起的读长覆盖范围的系统偏差，以揭示测试样本中的真实拷贝数改变。为了进一步扩大CNV识别中的信噪比，可以在杂交捕获中添加额外的增强子探针以提供基因扩增的鲁棒估计。根据本文的实施方式，所述的解决噪声问题并防止系统误差导致假阳性变异识别的方法和系统。与此相关，使用一组正常样本来识别系统偏差，以便系统在高背景噪声区域的肿瘤样本中增加识别严格性。对于FFPE样本，正常FFPE样本可以用于构建基线。对于ctDNA样本，正常基因组DNA数据可以用于构建基线。本文所描述的常规方法的问题在显示低频率差异的样本中尤其成问题，诸如试图对肿瘤样本进行变异识别时。

根据本文的实施方式，提供了一种用于体细胞变异后处理的方法和系统，其解决了减少假阳性体细胞变异识别的问题。所述方法和系统从正常样本构建变异频率基线，以调整具有不同背景噪声水平的基因组区域中的变异识别置信度。将信号与噪声分离对于检测噪声FFPE数据中的体细胞变异和无细胞DNA数据中的超低频肿瘤变异发现都是一个挑战。系统性假阳性常见于小变异识别中(图1)。系统性假阳性可能在实验步骤期间被引入，包括文库制备和测序。此外，人类基因组中存在比对错误敏感的区域，例如重复区域或具有低序列复杂性的区域。

附图说明

本申请描述了用于实施所述方法的各种方法和系统。至少一些方法在附图中作为多个操作示出。然而，应该理解，实施方式不限于所述附图中所示的操作。所述操作可以省略、所述操作可以修改、和/或可以添加其他操作。此外，本文所描述的操作可以组合，操作可以同时执行，操作可以并发执行，操作可以分成多个子操作，操作可以以不同顺序执行，或者操作(或一系列操作)可以以迭代的方式重新执行。另外，尽管本文阐述了不同的方法，但是应该理解，在其他实施方式中可以组合不同的方法(或不同方法的操作)。

图1A示出了根据本文实施方式的分析样本的方法。

图1B示出了根据本文实施方式的分析测序数据以识别潜在变异识别的方法的流程图。

图1C示出了根据本文实施方式的验证变异识别的计算机实现的方法。

图1D示出了根据本文实施方式的获得基线变异频率的过程。

图2A示出了根据本文实施方式的使用基线群体内的不同个体的示例性组。

图2B示出了表示图2A中的一组的一小部分的放大图的碱基对组。

图3示出了与根据本文实施方式的利用正常基线基因组序列的背景修正原理相关的图示。

图4示出了根据本文实施方式的过滤实现的变异识别的基于层级的决策树。

图5A示出了根据本文替代实施方式的过滤实现的变异识别的基于层级的决策树。

图5B示出了根据本文实施方式的结合利用加权得分执行的过程。

图6示出了根据本文实施方式的形成的计算系统环境的框图。

图7示出了根据本文实施方式的形成的替代系统的框图。

具体实施方式

当结合附图阅读时，将更好地理解多个实施方式的详细描述。在某种程度上，附图说明了多个实施方式的功能块的关系图，所述功能块不一定表示硬件电路之间的划分。因此，例如，一个或多个功能块(例如，模块、处理器或存储器)可以在单个硬件(例如，通用信号处理器或随机存取存储器块、硬盘，等等)或多个硬件应用。类似地，程序可以是独立程序，可以作为子程序包含在操作系统中，可以是已安装的软件包中的功能等。应该理解，多个实施方式不限于附图中所示的安排和工具。

本文所述的实施方式可以适用于分析核酸序列以识别序列变异。实施方式可用于分析遗传位置/基因座的潜在变异/等位基因并确定所述遗传基因座的基因型，或换句话说，提供所述基因座的基因型识别。举例来说，可以根据美国专利申请公开2016/0085910和美国专利申请公开2013/0296175中所述的方法和系统分析核酸序列，其全部内容的完整主题通过引用明确地并入本文。

本文所述的方法可以由执行如本文所述的存储在存储器中的程序指令的多个系统和设备的一个或多个处理器来实现。除非另有说明，否则本文方法中的操作顺序可以变化。另外，本文所述的方法中的一个或多个操作可以完全省略，补充附加操作。

测序过程

图1A示出了根据一实施方式的方法100。方法100包括在102接收包括或怀疑包括核酸(诸如DNA)的样本。该样本可以来自已知或未知的来源，例如动物(例如人)、植物、细菌或真菌。该样本可以直接从来源中取出。例如，血液或唾液可以直接取自个体。或者，该样本可以不直接从来源中获得。在104，一个或多个处理器指示系统准备样本进行测序。该准备104可以包括去除异物和/或分离某些物质(例如DNA)。生物样本可以制备为包括用于特定试验的特征。例如，可以制备该生物样本用于合成测序(SBS)。在某些实施方式中，该制备可包括扩增基因组的某些区域。例如，在104的该准备可以包括扩增已知包括STR和/或SNP的预定遗传基因座。可以使用预定的引物序列扩增该遗传基因座。

在106，一个或多个处理器指示系统对样本进行测序。该测序可以通过多种已知的测序方案进行。在特定的实施方式中，该测序包括SBS。在SBS中，多个荧光标记的核苷酸用于对存在于光学基底表面(例如，至少部分规定流动单元中的通道的表面)上的多个扩增DNA簇(可能是数百万个簇)进行测序。该流动单元可以含有用于测序的核酸样本，其中该流动单元置于合适的流动单元保持器内。

可以制备核酸以使它们包含与未知靶序列相邻的已知引物序列。为了启动第一SBS测序循环，可以通过流体流动子系统(未示出)将一种或多种不同标记的核苷酸和DNA聚合酶等流入/流过流动单元。可以一次添加单一类型的核苷酸，或者测序过程中使用的核苷酸可以特别设计成具有可逆的终止特性，从而允许测序反应的每个循环在几种类型标记的核苷酸(例如，A，C，T，G)存在下同时发生。该核苷酸可以包括可检测的标记部分，诸如荧光团。当四个核苷酸混合在一起时，该聚合酶能够选择正确的碱基进行合并并且每个序列通过单个碱基延伸。未合并的核苷酸可以通过将洗涤液流过流动单元洗掉。一个或多个激光可以激发核酸并诱导荧光。从该核酸发射的荧光基于并入的碱基的荧光团，并且不同的荧光团可以发射不同波长的发射光。去封闭试剂可以添加到该流动单元中以从延伸和检测的DNA链中除去可逆终止子基团。然后该去封闭试剂可以通过将洗涤液流过流动单元来洗掉。然后该流动单元准备好进一步测序循环，首先引入如上所述的标记核苷酸。流体和检测操作可以重复几次以完成测序运行。示例性测序方法描述在，例如Bentley等人，Nature 456：53-59(2008)，国际公开号WO 04/018497；美国专利第7,057,026号；国际公开号WO 91/06678；国际公开号WO 07/123744；美国专利第7,329,492号；美国专利第7,211,414号；美国专利第7,315,019号；美国专利第7,405,281号和美国公开号2008/0108082，其各自通过引用并入本文。

在一些实施方式中，核酸可以附着于表面并在测序之前或期间扩增。例如，可以使用桥式扩增进行扩增以在表面上形成核酸簇。有用的桥式扩增方法描述在，例如美国专利第5,641,658号；美国专利公开号2002/0055100号；美国专利第7,115,400号；美国专利公开号2004/0096853；美国专利公开号2004/0002090；美国专利公开号2007/0128624；和美国专利公开号2008/0009420，其各自全部内容通过引用并入本文。用于在表面扩增核酸的另一种有用的方法是滚环扩增(RCA)，例如，如Lizardi等人，Nat.Genet.19:225-232(1998)和美国专利公开号2007/0099208 A1，其各自通过引用并入本文。

一个示例性SBS方案利用具有可去除的3’嵌段的修饰核苷酸，例如，如国际公开号WO 04/018497，美国专利公开号2007/0166705 A1和美国专利号7,057,026中所述，其各自通过引用并入本文。例如，重复循环的SBS试剂可以递送至附着有靶核酸的流动单元，例如，作为桥式扩增方案的结果。该核酸簇可以使用线性化溶液转化为单链形式。该线性化溶液可以含有，例如，能够切割每个簇的一条链的限制性核酸内切酶。其他切割方法可用作限制酶或切口酶的替代方法，尤其包括化学切割(例如，用高碘酸盐切割二醇键)，通过内切核酸酶的裂解切割无碱基位点(例如‘USER’，由美国，马萨诸塞州，伊普斯威奇，NEB提供，货号M5505S)，通过暴露于高温或碱性中，核糖核苷酸的裂解并入扩增产物，另外包含脱氧核苷酸，光化学裂解或肽接头裂解。在线性化操作之后，在测序引物与待测序的靶核酸杂交的条件下可以将测序引物递送至流动单元。

然后可以使流动单元与具有用可去除的3’嵌段和荧光标记修饰的核苷酸的SBS延伸试剂接触，在一定条件下通过单核苷酸的添加延伸与每种靶核酸杂交的引物。每个引物中仅添加单个核苷酸，因为一旦修饰的核苷酸并入与待测序模板区域互补的递增的多核苷酸链中，就没有游离的3’-OH基团可用于指导进一步序列延伸，因此聚合酶不能添加更多的核苷酸。SBS延伸试剂可以去除并用含有在辐射激发下保护样本的组分的扫描试剂代替。用于扫描试剂的示例性组分描述在美国公开US 2008/0280773 A1和美国专利申请序列号13/018,255，其各自通过引用并入本文。然后可以在扫描试剂存在下荧光检测延伸的核酸。一旦检测到荧光，可以使用适合于所使用的阻断基团的去封闭试剂来除去3’嵌段。可用于各个封闭基团的示例性去封闭试剂描述在WO004018497、US 2007/0166705A1和美国专利号7,057,026，其各自通过引用并入本文。去封闭剂可以洗掉，使靶核酸与具有3’OH基团的延伸引物杂交，该延伸引物现在能够添加附加的核苷酸。因此，添加延伸试剂、扫描试剂和去封闭剂的循环，以及在一个或多个操作之间的可选择的洗涤可以重复直到获得所需的序列。当每个修饰的核苷酸具有与其连接的、已知对应于特定碱基的不同标记时，上述循环可以在每个循环使用单个延伸试剂递送操作进行。不同的标记有助于区分每次并入操作期间添加的核苷酸。或者，每个循环可以包括延伸试剂递送的单独操作，然后是扫描试剂递送和检测的单独操作，在这种情况下两个或更多个核苷酸可以具有相同的标记并且可以基于已知的递送顺序进行区分。

尽管在106的测序操作已经在上文关于特定SBS方案举例说明，但是应当理解，任意的各种其他分子分析的测序的其他方案可以根据需要执行。

在108，系统的一个或多个处理器在110接收测序数据用于后续分析。测序数据可以以多种方式格式化，诸如在.BAMS文件中。测序数据可以包括，例如许多样本读长。测序数据可以包括具有相应核苷酸样本序列的多个样本读长。尽管仅讨论了一个样本读长，但应理解，测序数据可包括，例如数百、数千、数十万或数百万个样本读长。不同的样本读长可具有不同数量的核苷酸。例如，样本读长可以在10个核苷酸至约500个核苷酸或更多之间变动。样本读长可以跨越来源的整个基因组。作为一实施例，样本读长指向预定的遗传基因座，诸如具有疑似STR或疑似SNP的那些遗传基因座。

每个样本读长可以包括核苷酸序列，其可以称为样本序列、样本片段或靶序列。样本序列可包括，例如引物序列、旁侧序列和靶序列。样本序列内的核苷酸数目可以包括30、40、50、60、70、80、90、100或更多。在一些实施方式中，一个或多个样本读长(或样本序列)包括至少150个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸或更多。在一些实施方式中，样本读长可包括超过1000个核苷酸、2000个核苷酸或更多。样本读长(或样本序列)可包括一端或两端的引物序列。

在110，一个或多个处理器分析测序数据以获得样本变异识别的潜在变异识别和样本变异频率。在110的操作还可以称为变异识别应用或变异识别器。可选的，可以根据本文实施方式使用变异识别器，其中，可以基于正在执行的测序操作的类型、基于目标样本特征等，使用不同的变异识别器。变异识别应用的一个非限制性实施例是Illumina有限公司(圣地亚哥，加利福尼亚)的Pisces^TM应用。此外或另外，在110的操作可以利用由Sanders等人的在Bioformatics,2012,July 15,Volume 28,No.14,pages 1811-1817的“Strelka:accurate somatic small-variant calling from sequenced tumor-normal samplepairs”文章中描述的变异识别应用，其全部内容的完整主题通过引用明确地并入本文。

根据至少一些实施方式，在110的变异识别应用程序提供对低频变异、种系识别等。作为非限制性实施例，在110的变异识别应用可以在仅肿瘤样本和/或正常肿瘤配对样本上运行。在110的变异识别应用可以搜索单核苷酸变异(SNV)、多核苷酸变异(MNV)、插入缺失等。变异识别应用程序识别变异，同时过滤由于测序或样本制备误差导致的错配。对于每个变异，变异识别器识别参考序列、变异位置和潜在变异序列(例如，A变为C的SNV，或AG到A的缺失)。变异识别应用识别样本序列(或样本片段)、参考序列/片段和变异识别作为变异存在的指示。如下结合图1B所说明的，在110的变异识别应用可以识别原始片段，并输出原始片段的指示、验证潜在变异识别的原始片段的数量、支持变异发生的原始片段内的位置和其他相关信息。原始片段的非限制性实施例包括双链体拼接片段、单链体拼接片段，双链体未拼接片段或单链体未拼接片段。

变异识别应用可以以多种格式输出识别，例如在.VCF或.GVCF文件中。仅作为示例，变异识别应用程序可以包括在MiSeqReporter管道中(例如，当在测序仪仪器上实施时)。可选地，应用程序可以通过多种工作流程实现。在110，分析可以包括单个协议或协议的组合，以指定的方式分析样本读长以获得所需信息。

在111，一个或多个处理器结合潜在变异识别执行验证操作。如下结合图1C-5B更详细地描述验证操作。验证操作可以基于质量得分和/或分层检验的层级，如下所解释的。当验证操作证实或核实潜在变异识别时，验证操作该变异识别信息(从110处的变异识别应用程序)传递到112的样本报告生成器。或者，当验证操作使潜在变异识别无效或取消时，验证操作将相应指示(例如，否定指示符、无识别指示符、无效识别指示符)传递给112的样本报告生成器。在111的验证操作还可以传递与变异识别正确或无效识别指示正确的置信程度相关的置信度得分。

在112，一个或多个处理器生成并存储样本报告。样本报告可以包括，例如关于与样本有关的多个遗传基因座信息。例如，对于预定的遗传基因座组的每个遗传基因座，样本报告可以提供基因型识别中的至少一个；表明不能进行基因型识别；提供确定的基因型识别的置信度得分；或表明关于一个或多个遗传基因座的试验中潜在问题。样本报告还可以表明提供样本的个体性别和/或表明样本包括多个来源。如本文所用的，“样本报告”可包括遗传基因座或预定的遗传基因座组的数字数据(例如，数据文件)和/或遗传基因座或遗传基因座组的印刷报告。因此，在112的生成或提供可以包括创建数据文件和/或打印样本报告，或显示样本报告。

样本报告可以表明变异识别的确定，但未被验证。当确定变异识别无效时，样本报告可以表明关于确定不验证变异识别的碱基的附加信息。例如，报告中的附加信息可以包括原始片段的描述和原始片段支持或矛盾的变异识别的程度(例如，计数)。此外或另外，报告中的附加信息可以包括根据本文所述实施方式获得的质量得分。

变异识别应用

图1B示出了根据本文的实施方式的用于分析测序数据以识别潜在变异识别的方法114的流程图。举例来说，图1B的操作可以在图1A中110期间执行。应当理解，图1B的操作可以对存储的数据进行操作，用于先前执行的测序操作。此外或另外，可以在执行测序操作的同时实时执行图1B的操作。在118，将每个样本读长分配到相应的遗传基因座。可以基于样本读长的核苷酸序列将样本读长分配到相应的遗传基因座，或者换句话说，样本读长中核苷酸的顺序(例如，A、C、G、T)。基于该分析，可以将样本读长指定为包括特定遗传基因座的可能变异/等位基因。可以与已经指定为包括遗传基因座的可能变异/等位基因的其他样本读长一起收集(或聚合或组合)样本读长。在118的分配操作也可以称为识别操作，其中样本读长识别为可能与特定的遗传位置/基因座相关联。可以分析样本读长以定位核苷酸的一个或多个识别序列(例如，引物序列)，其区分样本读长与其他样本读长。更具体地，识别序列可以将从其他样本读长中的样本读长识别为与特定遗传基因座相关联。

在118，分配操作可以包括分析识别序列的n个核苷酸序列以确定该识别序列的n个核苷酸序列是否与一个或多个选择序列有效匹配。在特定实施方式中，在118，该分配操作可以包括分析样本序列的前n个核苷酸以该确定样本序列的前n个核苷酸是否与一个或多个选择序列有效匹配。数字n可以有多种值，其可以被编程到协议中或由用户输入。例如，数字n可以定义为数据库内最短选择序列的核苷酸数。数字n可以是预定的数量。该预定数量可以是，例如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。然而，在其他实施方式中可以使用更少或更多的核苷酸。数字n也可以由个人选择，例如系统的用户。数字n可以基于一个或多个条件。例如，无论哪一个更小，都可以将数字n定义为数字n可以定义为数据库中最短引物序列的核苷酸数或指定数。在一些实施方式中，可以使用n的最小值，诸如15，使得任何小于15个核苷酸的引物序列可以被指定为例外。

在一些情况下，鉴定序列的n个核苷酸序列可能不精确匹配选择序列的核苷酸。尽管如此，如果该识别序列与选择序列几乎相同，则识别序列可以有效地匹配选择序列。例如，如果识别序列的n个核苷酸序列(例如，前n个核苷酸)与选择序列匹配，且不超过指定数目的错配(例如，3)和/或指定数目的转变(例如，2)，则可以识别样本读长用于遗传基因座。可以建立规则使得每个错配或转变可以计为样本读长和引物序列之间的差异。如果差异的数量小于指定数量，则可以识别样本读长用于相应的遗传基因座(即，分配给相应的遗传基因座)。在一些实施方式中，基于样本读长的识别序列和与遗传基因座相关的选择序列之间的差异的数量，可以确定匹配得分。如果匹配得分通过指定的匹配阈值，则可以将对应于选择序列的遗传基因座指定为样本读长的潜在基因座。在一些实施方式中，可以进行后续分析以确定样本读长识别是否用于遗传基因座。

如果样本读长有效匹配数据库中选择序列中的一个(即，如上所述的精确匹配或几乎匹配)，则将样本读长分配或指定给与选择序列相关的遗传基因座。这可以称为基因座识别或临时基因座识别，其中样本读长识别用于与选择序列相关的遗传基因座。然而，如上所述，样本读长可以识别用于不止一个的遗传基因座。在这样的实施方式中，可以进行进一步分析，以识别或分配样本读长仅用于潜在遗传基因座之一。在一些实施方式中，与参考序列数据库比较的样本读长是来自双末端测序的第一读长。当进行双末端测序时，获得与样本读长相关的第二次读长(代表原始片段)。在118，在分配后，用指定的读长进行的后续分析可以基于已经为分配的读长识别的遗传基因座的类型。

在120，分析样本读长以识别潜在变异识别。除了其他方面，分析结果识别潜在变异识别、样本变异频率、参考序列和变异发生的目标基因组序列内的位置。例如，如果已知遗传基因座包括SNPs，那么在120已经识别的用于遗传基因座的指定的读长可以进行分析，以识别指定的读长的SNPs。如果已知遗传基因座包括多态性重复DNA元素，则在120可以分析指定的读长，以鉴定或表征样本读长内的多态性重复DNA元素。在一些实施方式中，如果指定的读长与STR基因座和SNP基因座有效匹配，可以将警告或标示指定给样本读长。样本读长可以指定为STR基因座和SNP基因座。在1202，分析可以包括按照比对方案对齐指定的读长以确定指定的读长的序列和/或长度。比对方案可以包括在2013年3月15日提交的国际申请号PCT/US2013/030867(公开号WO2014/142831)中描述的方法，其全部内容通过引用并入本文。

在122，一个或多个处理器分析原始片段以确定支持变异是否存在于原始片段内的相应位置。可以识别多种类型的原始片段。例如，变异识别器可以识别表现出验证原始变异识别的变异的原始片段的类型。例如，原始片段的类型可以表示双链体拼接片段、单链体拼接片段，双链体未拼接片段和单链体未拼接片段。可选地，代替或除了前述实施例，还可以识别其他原始片段。关于识别每种类型的原始片段，变异识别器还识别原始片段内发生支持变异的位置，以及展示支持变异的原始片段的数量的计数。例如，变异识别器可以输出指示原始片段的10个读长识别为表示在特定位置X处具有支持变异的双链体拼接片段。变异识别器还可以输出指示原始片段的5个读长识别为表示在特定位置Y具有支持变异的单链体未拼接片段。变异识别器还可以输出与参考序列相对应的许多原始片段，因此不包括支持变异，否则将提供证据验证在目标基因组序列的变异识别。

在122，维持包括支持变异的原始片段的计数，和支持变异发生的位置。此外或另外，可以维持不包括在目标位置(相对于样本读长或样本片段中潜在变异识别的位置)的支持变异的原始片段的计数。此外或另外，可以维持对应于参考序列的原始片段的计数，并且不验证或确认潜在变异识别。在122的确定的信息输出到变异识别验证应用，包括支持潜在变异识别的原始片段的计数和类型、原始片段中支持变异的位置、不支持潜在变异识别的原始片段的计数等。

当识别出潜在变异识别时，图1B的过程输出潜在变异识别、变异序列、变异位置和与其相关的参考序列的指示。变异识别指定为表示“潜在”变异，因为误差可能导致识别过程识别错误变异。根据本文实施方式，分析潜在变异识别以减少和消除错误变异或假阳性。此外或另外，图1B的过程分析与样本读长相关的一个或多个原始片段，并输出与原始片段相关的相应的变异识别。

变异识别验证应用

图1C示出了根据本文实施方式的用于验证变异识别的计算机实现方法。在130，一个或多个处理器接收来自变异识别应用的数据(图1B)，其包括在指定位置的潜在变异识别的指示、在目标基因组序列内潜在变异识别的位置。在130，一个或多个处理器还接收支持潜在变异识别的原始片段的计数和类型原始片段中支持变异的位置、不支持潜在变异识别的原始片段的计数以及其他相关信息。应当理解，在130的操作可以对应于一个或多个操作以访问先前执行序列的存储数据。此外或另外，在130处的操作可以在执行测序操作的同时实时执行。

可选地，在130，一个或多个处理器可以接收到参考序列的指示，潜在变异识别是针对其进行的。参考序列对应于一个或多个基线基因组序列内的核苷酸序列。

在132，一个或多个处理器在一个或多个基线基因组序列内的指定位置处获得一个或多个基线变异频率(例如，根据图1D的过程)。作为一个实施例，基线变异频率来源于与一种以上类型的等位基因相关的多个基线基因组序列。可选地，基线变异频率可以与一种类型的等位基因相关，但是来源于多个个体样本。基线变异频率可以与图1C的其他操作同时确定。或者，基线变异频率可以在目标样本进行测序操作或图1C的验证过程之前预先确定。基线变异频率可以与沿多种参考基线基因组序列的多个位置相关联存储(例如，在文库或数据库中)。例如，可以为多个基线基因组序列维护文库或数据库。文库或数据库(例如，图7中的784)还可以保留与沿基线基因组序列的与每个位置有关的基线变异频率。认识到基线基因组序列可以表现出不同类型的基线变异频率，诸如与不同类型的测序方法、制备方法、测序设备等有关。因此，文库或数据库可以维持沿基线基因组序列的任意给定位置的一组基线变异频率。在132的操作可以包括向管理库或数据库的网络服务器或远程计算机(例如，780)发送请求。该请求可以指定目标基线基因组序列、那里的指定位置，以及附加信息(例如，测序操作类型、所使用的设备类型，或文库制备方案)。

基线变异频率可以以不同方式确定，以识别沿基线基因组序列的一个或多个位置处描述变异的目标的不同特征。举例来说，基线变异频率表明沿基线基因组序列的相应位置处的背景噪声等级(或程度)。背景噪声的等级/程度可以变化，例如取决于测序操作的类型、设备类型、文库制备过程等。

在134，一个或多个处理器获得在目标基因组序列的指定位置处样本变异频率。例如，处理器从变异识别应用获得样本变异频率，其中样本变异频率表示在样本群体里的目标基因组序列中的特定位置/基因座的等位基因(基因变异)的相对频率。例如，样本变异频率可以表示为来自分析的个体的所有目标样本(例如，染色体)的得分或百分比。

在136，一个或多个处理器分析在指定位置的基线和样本变异频率以获得质量得分。举例来说，该分析可以包括获得样本变异频率与基线变异频率分布之间的关系，以及基于该关系确定质量得分。例如，多个基线变异频率可以存储用于基线基因组序列组合。多个基线变异频率被组织成分布。处理器可以相对于基线变异频率的分布索引样本变异频率。作为一实施例，该关系可以基于非参数检验，例如Wilcoxon秩和检验。Wilcoxon秩和检验产生p值，其表示样本变异频率与基线变异频率分布之间的关系。该p值代表样本变异识别由于噪声或不是由于背景噪声引起的置信度的数值表示。

处理器将数值p值转换为质量得分(例如，称为Q得分)。例如，该质量得分可以简单地等于p值。或者，可以通过将预定的数学运算符应用于p值来形成该质量得分(例如，p值归一化、p值转换为整数)。可选地，p值可以与其他信息/因子组合以形成质量得分。例如，可以基于获得的若干样本和/或样本读长修改p值。可选地，可以应用替代检验以确定基线变异频率和样本变异频率之间的关系，其中这样的替代检验提供样本变异识别中的置信度的指示。例如，置信度可以指示样本变异频率是由于背景噪声或不是由于背景噪声引起的。或者，置信度可以指示样本变异识别包括导致错误变异的多种类型的系统错误，例如由于FFPE伪像、测序错误或PCR错误。

在138，一个或多个处理器基于质量得分验证目标基因组序列的潜在变异识别。举例来说，验证操作可以进一步包括将质量得分与阈值进行比较，并且当质量得分超过阈值时将潜在变异识别声明为有效变异识别。该阈值表示Q得分截止值以滤除潜在的错误变异。有效的变量识别可以表示存在“高”置信度的变量识别，即识别是准确的。表示高可信度、与之相对的低可信度的程度认为表示了一个相对的术语，其可能会根据实施的具体事实和情况而变化。作为一实施例，可以基于经验分析改变阈值。

图1D示出了根据本文实施方式的获得基线变异频率的过程。图1D的过程可以通过多个系统和设备的一个或多个处理器执行。应当理解，图1D的操作表示一示例的顺序，而该操作可以以不同的顺序执行。此外，可以完全省略图1D的一个或多个操作。将结合图2描述图1D的操作。

图1D的方法可以周期性地重复，以从多组编辑基因座特异性背景误差分布，用于来自通过基于NGS试验测序的多个组织的不同DNA质量的FFPE正常样本。图1D的方法可利用来自多组FFPE正常样本的相同测序数据来标准化由PCR、DNA质量、探针下拉效率或序列GC含量引起的读长覆盖范围的系统偏差，以揭示测试样本中准确的变异数。

图2A示出了基线群体内不同个体的示例组202-206。在本实施例中，基线群体代表正常/健康个体，但是，应当认识到基线群体可以代表表现特定目标突变的个体，诸如特定癌症类型等。组202-206的纵轴表示分析的每1000个碱基发现的假阳性或错误变异识别的数量。应当理解，每个组202-206对应于大量参考读长的累积，例如1000、5000、10,000等。横轴指示基线基因组序列内的全部或部分染色体。在图2的实施例中，沿基线基因组序列示出了19条染色体，但是应当理解，基因组序列可以维持在更多或更少的染色体基线。沿横轴指定的一系列垂直条，每条向上延伸的量对应于沿相应染色体的相应位置或位点的错误变异的数量。垂直条沿横轴定位在相关染色体内相应位置或坐标的近似位置。例如，垂直条221与第10染色体结合出现，以指示第10染色体每1000个碱基经历约25个错误变异，其中染色体内的位置或坐标略低于染色体的中心。作为另一实施例，垂直条223与第一染色体结合出现，以指示第一染色体在略微高于第一染色体中心的位置或坐标处每1000个碱基经历约7个错误变异。

图2B示出了表示图2A的组202-206中的一组的一小部分的放大图的碱基对组。举例来说，图2B可以对应于组202的染色体16中碱基对1-9(图2A)的参考读长。碱基对组208包括纵轴，其表示分析的每1000个碱基中发现错误变异识别的数量。如上结合图2A所解释的，碱基对组208对应于大量参考读长的累积，例如1000、5000、10,000等。横轴指示与基线基因组序列内的单个染色体相关的短碱基对序列。在图2B的实施例中，沿基线基因组序列示出了9个碱基对，但是应当理解，维持基线基因组序列用于本发明和其他染色体的更多的碱基对。沿横轴指定的一系列垂直条，每个条向上延伸的量对应于沿相应染色体的相应碱基对位置或位点处的错误变异的数量。垂直条沿横轴定位在相关染色体内相应碱基对的位置。例如，在碱基对#2处出现垂直条以指示碱基对#1每1000个碱基经历约10个错误变异。作为另一实施例，垂直条与碱基对#5结合出现，以指示碱基对#5每1000个碱基经历约25个错误变异。

返回至图1D，在150，一个或多个处理器接收一个或多个基线基因组序列的多个参考读长的序列数据。对于图2A，如果假设每个组202-206表示1000个参考读长的累积，则系统将获得约3000个参考读长。在151，一个或多个处理器选择多个参考读长的参考读长组。对于图2A，可以选择对应于染色体16中碱基对1-9的参考读长组，指定为WGDNA04的个体(组202)。图2B示出了染色体16中碱基对1-9的实施例。在152，系统的一个或多个处理器在当前参考读长组中选择当前位置。例如，当前位置可以沿组208在位置#2居中。在154，系统的一个或多个处理器用碱基对窗口覆盖参考读长组的当前位置。

在图2B中，出现括号210以说明碱基对窗口的实施例。碱基对窗口的长度可以变化，例如从一个碱基对到任意所需数量的多个碱基对。在图2B的实施例中，碱基对窗口已经指定为对应于三个碱基对，但是可以使用其他长度。因此，在通过图1D的操作的当前重复，碱基对窗口210包含位置#1-#3。利用覆盖多个碱基对的碱基对窗口可以解决噪声位置可能同时发生的情况。例如，当文库制备或其他因素导致在核苷酸序列的一个位置发生噪声时，相同的因素可能导致与该一个位置相邻的一个或多个位置发生噪声。碱基对窗口的长度可以部分地基于预期噪声跨越多个碱基对位置的程度来定义。

在156，一个或多个处理器识别碱基对窗口内的参考读长的每个位置的候选变异频率。继续前述实施例，将为碱基对窗口210内的每个位置#1-#3识别候选变异频率(例如，在#1约2个错误变异，在位置#2约10个错误变异，以及在位置#3约0个错误变异)。

在158，一个或多个处理器选择候选变异频率其中一个以代表基线基因组序列内的当前位置的基线变异频率(也称为合成变异频率)。例如，当前位置可以对应于碱基对窗口210的中心。或者，当前位置可以对应于碱基对窗口210的前沿或后沿。基线/合成变异频率的选择可以基于根据多种标准。例如，处理器可以在碱基对窗口内选择最高候选变异频率。或者，处理器可以形成候选变异频率的数学组合，诸如通过平均、加权和等，以形成基线/合成变异频率。基线/结果变异频率存储在与当前碱基对位置相关的位置。例如，基线/合成变异频率可以存储在基线基因组序列数据库中(图7中784)。参考图2B，碱基对窗口210的基线变异频率可以指定为10(对应于窗口内最高变异频率)。

在162，系统的一个或多个处理器存储与当前位置相关的基线变异频率。相对于当前位置，可以以不同的方式记录基线变异频率。碱基对#1和碱基对#3(均在窗口210内)的变异频率可以保持不变。关于图2B，可以结合位于#2的碱基对记录基线变异频率值10。或者，基线变异频率可以分配给碱基对窗口内的领先位置#1或后续位置#3，而相邻位置被分配空值或保持不变。可选地，基线变异频率可以分配给碱基对窗口内的每个位置。

可选地，基线变异频率可以设置为预定水平，其中结合不同的候选变异频率使用不同的预定水平。例如，当候选变异频率相对高(例如，高于约30％)时，基线变异频率可以被设置为零或另一个预定的较低水平。举例来说，当候选变异频率超过阈值时，基线变异频率可以设置为零或预定水平，以避免计算细菌样变异作为背景噪声。

在164，一个或多个处理器确定是否沿当前参考读长组将碱基对窗口移动到另一位置。移位碱基对窗口的确定可以基于是否仍然要分析参考读长的附加部分。当在164处决定是移位碱基对窗口时，流程移动到166。否则，流程继续到168。

在166，系统的一个或多个处理器沿参考读长组将参考读长窗口移动到下一个位置，并且流程返回到154。此后，重复154和156处的操作。举例来说，在166的移位可以通过单个碱基对或通过多个碱基对移动单个碱基对窗口。例如，参考图2B，移动可以对应于单个碱基对。因此，碱基对窗口从括号210的指定位置移位到括号212的指定位置(覆盖碱基对位置#2-#4)。在164-166操作的后续迭代中，碱基对窗口可以从212的指定位置移位到214的指定位置(覆盖基对位置#3-#5)。

在本实施例中，碱基对窗口被移位至连续的重叠位置。当碱基对窗口包括多于3个碱基对时，在166的移位可以同样大于1个碱基对。例如，如果碱基对窗口为5个碱基对长且当前位置对应于窗口(位置#1-#5)，则在166，碱基对窗口可以向前移位2个位置以重叠位置#3-#7，以使碱基对窗口的连续位置重叠，但是在连续的碱基对窗口之间由多个碱基对向前推进。

或者，沿参考读长可以将碱基对窗口移动至连续的非重叠位置。例如，如果碱基对窗口是3个碱基对长且当前位置对应于参考读长组的位置#1、#2和#3，则在166，碱基对窗口可以向前移位3个位置以重叠位置#4、#5和#6，以使碱基对窗口的连续位置不重叠。

接下来，到下一个位置重复在154-162的操作。当流程从164进行到168时，系统的一个或多个处理器确定是否要从多个参考读长中分析另外的参考读长组。当要分析另外的参考读数时，流程返回至170。否则，图1D的过程结束并且流程返回至图1C。在170，一个或多个处理器选择要分析的下一个参考读长组。此后，流程返回至152。然后重复152-166的操作。

图3示出了与利用正常基线基因组序列的背景校正原理相关图。横轴表示变异等位基因频率(VAF)，其对应于沿核苷酸序列的一些指定位置处的样本中的变异频率。每个圆圈302表示与样本相关的变异，而变异302的群集304对应于沿样本群集的基因组序列的位置。群集304在基线群体中表现出相对大量的噪声(也称为噪声基因座)。圆圈306还表示与不同样本相关的变异，而群集308对应于沿样本群集的基因组序列位置。群集308在基线群体中表现出相对少量的噪声(也称为干净基因座)。

图1D的方法通过沿着目标基因组序列收集目标位置的变异频率，为正常样本群体产生背景噪声轮廓。背景群体表现出“干净基因座”，其中等位基因频率相对紧紧地/紧密地分布在接近零的区域中，诸如在群体308中。因此，即使当目标样本基因组序列的等位基因频率低时，肿瘤变异识别(具有被检验的个体)可以容易地与噪声区分(例如，在肿瘤样本编号1)。或者，背景群体可以表现出“噪声基因座”，其中等位基因频率沿目标基因组序列在各个目标位置处更广泛地分布/展开，诸如在群集304。因此，将表现出低变异频率(例如，诸如肿瘤样本1)的肿瘤变异识别(对于目标样本)与背景噪声区分开可能更加困难。尽管如此，无论目标位置是否表现出干净或噪声背景特征，高频变异识别(例如，诸如肿瘤样本2)仍然可以确信地识别。本文的实施方式利用正常样本的背景噪声水平来调整与肿瘤样本相关的识别严格性。

接下来，结合利用来自上述过程的信息和来自原始片段的信息改进变异识别灵敏度和特异性来描述本文实施方式的各方面。

图4示出了根据本文的实施方式实现的基于层级的决策树，以过滤变异识别。在402，一个或多个处理器确定收到的识别是否指示已观察到变异(等位基因)。当没有观察到变异时，这可能表示已经确定识别对应于参考序列没有任何变异。当指示收到的识别对应于参考序列时，流程分支至404。否则，当指示收到的识别包括变异/等位基因时，流程分支至406。

在404，一个或多个处理器确定是否已经为当前变异/等位基因获得了预定量的覆盖范围。覆盖范围可以基于已经收集的多个读长的指示确定，所述读长覆盖包括当前位置/基因座的目标基因组序列的片段。可以以各种方式定义覆盖范围。例如，可以基于已经分析以获得当前位置/基因座的读长的多个分子来定义覆盖范围。此外或另外，可以基于多个样本来定义覆盖范围，从这些样本中获得当前位置/基因座的读长。在404，定义覆盖范围阈值(例如，10X、100X等)。当包括当前基因座的读长数超过覆盖范围阈值时，流程前进至声明“无效通过”的408。“无效通过”表示该过程以原始形式验证收到的识别(例如，验证否定识别)。例如，在408，当收到的识别确定对应于特定参考序列的样本序列时，该过程不经修改即可通过识别。

否则，当处理器确定覆盖范围不等于或超过覆盖阈值时，流程前进至410，其中指定“无识别”条件。当当前基因座的覆盖范围太低而不能表现出“无变异识别”准确的足够置信时，指定无识别条件。因此，收到的识别被改变为“无识别”，诸如不提供样本序列与任何参考序列的任意相关的指示。低于特定覆盖范围截止值的参考识别被过滤以避免由于在低深度的携带变异读长而声明没有变异。

在406处，一个或多个处理器确定当前变异是否对应于先前变异。例如，可以将当前变异与变异集合(在图7的先前数据库782中)进行比较，该变异集合存储关于群体中显示的常见变异的信息。例如，来自已知数据库(例如，1000G phase3和Cosmic数据库)的信息可用于增加已知在群体中发生变异识别的置信。当当前变异类似于先前变异数据库中的先前变异时，流程沿分支412移动，其中基于层级执行一系列的分层检验。在406，当从数据库中没有确定出先前变异时，流程沿分支414移动，其中基于分层执行不同系列的分层检验。可以沿分支412和414中的每一个执行一个或多个分层检验。此外，多种测试可以以除图4中所示的特定安排之外的替代顺序和替代组合来执行。图4中的每个检验提供了变异有/没有发生的次要支持证据的相应程度/水平，该测试表现的不同的置信度作为次要支持证据。

在分支414之后，在416，一个或多个处理器确定当前变异的变异质量得分是否超过质量得分阈值。根据本文的实施方式确定变异质量得分，诸如结合图1C和1D所描述的。如本文所解释的，变异质量得分表示样本变异频率与多个基线变异频率之间的关系。当变异质量得分小于质量得分阈值时，流程移动至418，其中当前变异被无效，诸如被指定为错误变异(例如，由于低质量得分，将该识别声明为“无效”)。当变异质量得分等于或大于质量得分阈值时，流程移动至420。

在420，一个或多个处理器获得并核验支持变异识别的双链体片段(例如，双链体拼接或未拼接)的计数。该计数表示通过变异识别应用确定的多个双链体原始片段，以获得对应于样本读数中的潜在变异的支持变异。在测序期间，分析DNA两条链并获得来自每条链的片段读长。举例来说，可以获得第一链的重叠片段的至少第一和第二读长，而获得第二链的片段的第三和第四读长。核验1-4读长组以确定有多少读长指示在当前位置/基因座的变异。

当样本读长中存在变异时，可以预期第一和第二链的每一个中的当前基因座的所有读长将表现出相关或“支持”变异。例如，当样本读长对应于第一链并且被称为潜在变异(例如，基因座表现出“A”)时，可以预期第二链中相应的基因座(对应于原始片段)是“T”。当第二链中相应的基因座(原始片段)包括变异“T”时，原始片段的当前读长将被计数为具有支持变异。如果在双链DNA内的每条链中发生匹配的支持变异(样本片段读长和原始片段读长)，这可以被认为是在样本读长的指定位置处发生变异的良好指示。

当测序分析(通过变异识别应用)产生高计数的原始片段读长，其显示支持变异(在420的块中由“DS>＝阈值”表示)，流程移动至422。在422，验证收到的识别，即作为变异传递或被指定为阳性变异识别。当测序分析产生低计数的原始片段读长，其显示支持变异，这种情况被解释为潜在变异识别中发生错误的指示，以及变异识别验证应用指示收到的识别代表变异识别的低水平置信度。因此，流程移动至424，其中收到的变异识别无效，即被指定为“无效通过”。

在416和420的变异检验表示在其结果中表现出高水平置信度(相对于其他类型检验的置信度)的检验。可以认识到可以应用附加或替代的检验，以及在416和420颠倒检验的顺序。

返回至406，接下来结合分支412描述基于层级的决策树。当流程沿分支412移动时，在426，一个或多个处理器核验分配给收到的变异识别的变异质量得分。当变异质量得分小于预定质量得分阈值时，流程移动至428，其中收到的变异识别被声明为错误变异。例如，收到的变异识别被拒绝通过或被指定为“无效”(由于低质量)。当变异质量得分大于或等于预定质量得分阈值时，流程移动至430。在426使用的质量得分阈值可以与在416使用的质量得分阈值相同或不同。

在430，一个或多个处理器确定与一种或多种类型的原始片段计数相关的加权得分(WS)。例如，变异识别应用可以输出多个不同原始片段类型的计数，例如双链体拼接片段、单链体拼接片段，双链体未拼接片段或单链体未拼接片段。该计数表示来自相应类型的原始片段的读长数，其包括支持变异。在430，处理器将加权应用于计数并对结果求和以获得组合不同类型的原始片段的加权得分。将加权总和与加权得分(WS)阈值进行比较。当加权得分的总和超过WS阈值时，流程前进至432。否则，流程移动至434，其中收到的变异识别未确认且声明无效，表示为“无效通过”。

在432，一个或多个处理器执行验证收到的变异识别的原始片段总数。例如，处理器可以将指示相应类型的包括支持变异的原始片段的读长数的计数相加。将总和计数与总和计数(SC)阈值进行比较。当总和计数低于SC阈值时，流程移至436。否则，流程移至438，其中验证收到的变异识别，即声明为“有效通过”。

在436，一个或多个处理器核验包括支持变异的双链体拼接片段的计数(类似于在420的过程)以确定该双链体拼接片段是否鉴定/确认收到的变异识别。将与双链体拼接片段相关联的确定的变异与双链体拼接(DS)阈值进行比较。当DS支持变异的计数低于阈值时，流程移动至440，其中收到的变异识别无效，即声明为“无效通过”。在436，当双链体拼接原始片段的计数等于或超过DS阈值时，流程移动至442，其中验证收到的变异识别，即声明为表示“有效通过”。

应当认识到，上述基于层次的决策树代表可以分析变异相关因子的方式的一个实施例。例如，在某些情况下，可以重新排列变异相关因子以在决策树内用不同顺序考虑。结合图4，基于关于原始片段的信息(例如，双链体拼接的原始片段、原始片段的加权得分、变异原始片段计数等)做出各种决定。此外，变异质量得分用作另一个过滤条件。基于层级的决策树使用上述信息来提高变异识别的灵敏度和特异性，诸如使用ctDNA数据。基于层级的决策树用于过滤变异识别器首先识别的变异。在图4的实施方式中，加权片段支持用于帮助获得变异识别中的置信度，条件是收到的变异识别与先前变异匹配且质量得分超过质量得分阈值。该得分为每个变异的不同原始片段类型提供不同的加权，包括双链体/单链体和拼接/未拼接的片段。可以从具有已知结果的数据练就加权。通过变异识别具有从与正常基线(参见上一部分)的比较计算的足够高的变异Q得分以及足够的加权得分。然而，可以认识到加权片段支持可以在决策树中的不同点处执行，或者完全省略。

在图4的实施方式中，基于层级的决策树包括在验证收到的变异识别之前应用的至少三层支持片段检验。例如，在422验证收到的变异识别之前，原始片段检验在三层提供阳性结果，即406、416和420。在438验证收到的变异识别之前，原始片段检验在四层提供阳性结果，即406、426、430和432。在442验证输入的变异识别之前，原始片段检验在五层提供阳性结果，即406、426、430、432和436。应用于原始片段的检验层的数量可以根据任意特定检验提供的置信度变化。

图5A示出了根据本文的替代实施方式实现的基于层级的决策树以过滤变异识别。图5A是概括过程，其中一个实现方式在图4中示出。在550，一个或多个处理器接收目标基因组序列的潜在变异识别的指示。在552，一个或多个处理器接收沿目标基因组序列的样本和核苷酸原始片段的读长的测序数据。该读长包括对应于沿目标基因组序列的指定位置处的核苷酸序列的样本片段的样本读长。

在554，一个或多个处理器分析目标基因组序列的指定位置的样本变异频率，其相对于基线基因组序列的指定位置的基线变异频率，以获得质量得分。接下来，一个或多个处理器执行关于原始片段的多个检验中的一个或多个。在图5A的实施例中，在556、558和560示出了三个确定。可选地，在556、558和560的确定可以重复(如在分支564所示)。此外或另外，在556、558和560的确定可以结合不同的信息重复不止一次，可以以任意顺序执行，并且可以提供与验证潜在变异识别相关的不同的加权。可选地，可以完全省略在556、558和560的一个或多个确定。

在556，一个或多个处理器确定原始片段是否确认潜在变异识别。例如，原始片段可以对应于双链体拼接片段、单链体拼接片段，双链体未拼接片段或单链体未拼接片段中的至少一个。作为一实施例，该确定可以将包括将多个双链体拼接片段的计数识别为包括支持变异的原始片段。处理器将确定包括支持变异的双链体拼接片段的计数是否超过DS阈值，从而确认潜在变异识别。可选地，在556，处理器可以执行双链体、加权得分和总和计数确定，如上结合图4中在420、430、432和436的操作所讨论的。

在558，一个或多个处理器确定样本读长是否为样本片段提供预定量的覆盖范围。当样本读长低于预定量的覆盖范围时，可以将潜在变异识别声明为无识别。

在560，一个或多个处理器确定潜在变异识别是否匹配预定群体显示的先前变异识别。与先前变异的关联可以用作在其他检验中使用的仅一个或多个阈值的信息。例如，当在潜在和先前变异识别之间确定匹配时，确定操作利用第一阈值执行操作556或操作558中的至少一个。另外，当在潜在和先前变异识别之间不存在匹配时，确定操作利用第二阈值执行操作556或操作558中的至少一个。

在562，一个或多个处理器基于质量得分和确定操作来验证潜在变异识别。例如，当质量得分超过质量得分阈值并且在556-560的至少一个确定支持潜在变异识别时，可以验证潜在变异识别。此外或另外，可以组合在556-560的确定，诸如通过加权和，其中每个确定的加权可以相同或不同。可以将在556-560的确定的加权和与阈值进行比较，并且仅当加权和超过阈值时才验证潜在变异识别。可选地，可以基于质量得分的水平改变在556确定560处提供的确定的价值和/或加权。例如，当确定非常高质量得分时，为了验证潜在的变异识别，可以确定在556-560的仅一个确定需要支持潜在变异识别。或者，当确定中等质量得分时，在验证潜在变异识别之前，可能需要在556-560的一个或多个确定以支持潜在变异识别。作为另一实施例，可以基于质量得分的级别改变应用于在556-560的确定的阈值。

图5B示出了根据本文实施方式结合利用加权得分(例如，在图4的430的操作和/或在图5A的556处的操作)执行的过程。在570处，一个或多个处理器识别包括与潜在变异识别相关的支持变异的原始片段的计数。在572，一个或多个处理器获得指示支持变异识别的原始片段的加权片段得分。例如，与双链体拼接的原始片段相关的计数可以乘以第一加权因子，与单链体拼接的原始片段相联的计数可以乘以第二加权因子，与双链体未拼接片段相关的计数可以乘以第三加权因子，并且与单链体未拼接片段相关的计数可以乘以第四加权因子。然后可以以某种其他方式对第一至第四加权因子求和或组合以获得加权片段得分。此外或另外，可以基于不包括支持变异的原始片段的数量来修改加权片段得分。例如，当大量支持片段对应于参考序列时，原始片段的计数(与参考序列匹配)可以用作减少加权片段得分的因子。在574，一个或多个处理器将加权的片段得分与原始片段阈值进行比较，以确定是否确认潜在的变异识别。

计算机实施方面

如本领域普通技术人员所理解的，本文描述的方法和信息可以全部或部分地应用为已知计算机可读介质上的计算机可执行指令。例如，本文描述的方法可以在硬件实现。或者，该方法可以在存储，例如一个或多个存储器或其他计算机可读介质中的软件来实现，以及在一个或多个处理器上实现。众所周知，处理器可以与计算机系统的一个或多个控制器、计算单元和/或其他单元相关联，或者根据需要植入固件中。如果在软件实现，例程可以存储在任意计算机可读存储器中，诸如RAM、ROM、闪存、磁盘、激光磁盘或其他存储介质中，这也是已知的。同样，该软件可以通过任意已知的传送方法传送到计算设备，包括例如通过诸如电话线、因特网、无线连接等的通信信道，或者通过诸如计算机可读磁盘、闪存盘等的可传输介质。

更普遍地，并且如本领域普通技术人员所理解的，上述多个步骤可以应用为多个块、操作、工具，模块和技术，其又可以在硬件、固件、软件、或硬件、固件和/或软件的任何组合中实现。当在硬件实现时，部分或全部块、操作、技术等可以在例如定制集成电路(IC)、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、可编程逻辑阵列(PLA)等中实现。

当在软件实现时，软件可以存储在任意已知的计算机可读介质中，诸如磁盘，光盘或其他存储介质，计算机的RAM或ROM或闪存、处理器、硬盘驱动器、光盘驱动器、磁带驱动器等。同样，软件可以通过任意已知的传送方法传送给用户或计算系统，包括例如在计算机可读磁盘或其它可传输的计算机存储机构上。

图6示出了根据本文实施方式的形成的计算系统环境600的框图。计算系统环境600仅是合适的计算环境的一个示例，并不旨在对本文的使用范围或功能进行任何限制。计算环境600也不应解释为与示例性操作环境600中示出的任意一个或组合组件相关的任意的依赖性或要求。该方法和系统可以与许多其他通用或专用计算系统环境或配置一起运行。可适用于权利要求的方法或系统的计算系统、环境和/或配置的示例，包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机，包括上述任意系统或设备的分布式计算环境等。

方法和系统的操作可以在由计算机执行的计算机可执行指令的一般上下文中描述，诸如程序模块。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。该方法和装置还可以在分布式计算环境中实行，其中任务由通过通信网络连接的远程处理设备执行。在集成和分布式计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。

参考图6，计算机610的组件可以包括但不限于处理单元620、系统存储器630和将包括系统存储器的各种系统组件耦合到处理单元的系统总线621。该系统总线621可以是数个类型的总线结构中的任意一种，包括存储器总线或存储控制器、外围总线和使用各种总线架构中的本地总线。作为示例而非限制，这样的架构包括工业标准架构(USA)总线，微通道架构(MCA)总线，增强型ISA(EISA)总线，视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线也称夹层总线。

计算机610通常包括各种计算机可读介质。计算机可读介质可以是可由计算机610访问的任意可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括用于存储信息的任意方法或技术实现的易失性和非易失性、可移动和不可移动介质，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备，或可用于存储所需信息并且可由计算机610访问的任何其他介质。通信介质通常包括计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波或其他传输机制，以及包括任意信息传递媒体。术语“调制数据信号”表示其一个或多个特征以在信号中的编码信息的方式设置或改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。上述任意组合也应包括在计算机可读介质的范围内。

系统存储器630包括易失性和/或非易失性存储器形式的计算机存储介质，诸如只读存储器(ROM)631和随机存取存储器(RAM)632。基本输入/输出系统633(BIOS)，包含有助于在计算机610内的元件之间传送信息的基本例程，诸如在启动期间，通常存储在ROM631中。RAM632通常包含可立即访问和/或当前由处理单元620正在操作的数据和/或程序模块。作为示例而非限制，图6示出了操作系统634、应用程序635、其他程序模块636和程序数据637。

计算机610还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图6示出了从不可移动的非易失性磁介质读取或写入的硬盘驱动器640、从可移动的非易失性磁盘652读取或写入的磁盘驱动器651以及从可移动非易失性磁盘656，诸如CD ROM或其他光学介质，读取或写入的磁盘驱动器655。在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质可以包括但不限于磁带盒、闪存卡、数字通用光盘、数字录像带，固态RAM、固态ROM等。硬盘驱动器641通常通过诸如接口640的不可移动存储器接口连接到系统总线621，并且磁盘驱动器651和光盘驱动器655通常通过诸如结构650的可移动存储器接口连接到系统总线621。

上述讨论的并在图6中示出的驱动器和相关计算机存储介质为计算机610提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图6中，例如，硬盘驱动器641显示为存储操作系统644、应用程序645、其他程序模块646和程序数据647。注意，这些组件可以与操作系统634、应用程序635、其他程序模块636和程序数据647相同或不同。操作系统644、应用程序645、其他程序模块646和程序数据647在这里给出不同的数字，以说明它们至少是不同的副本。用户可以通过诸如键盘662和定点设备661，通常称为鼠标、轨迹球或触摸板的输入设备将命令和信息输入到计算机中。其他输入设备(未示出)可以包括麦克风、操纵杆、游戏手柄、天线接收器、扫描仪等。这些和其他输入设备通常通过耦合到系统总线的用户输入接口660连接到处理单元620，但是可以通过其他接口和总线结构连接，诸如并行端口、游戏端口或通用串行总线(USB)。监视器691或其他类型的显示设备也通过诸如视频接口690的接口连接到系统总线621。除监视器以外，计算机还可以包括其他外围输出设备，诸如扬声器697和打印机696，其可以通过输出外围接口695连接。

计算机610可以在网络环境中使用到一台或多台远程计算机的逻辑连接进行操作，诸如远程计算机680。尽管图6中仅示出了存储器存储设备681，但是远程计算机680可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，以及通常包括上述与计算机610相关的许多或所有元件。图6中描绘的逻辑连接包括局域网(LAN)671和广域网(WAN)673，但也可以包括其他网络。这种网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。

当在LAN网络环境中使用时，计算机610通过网络接口或适配器670连接到LAN671。当在WAN网络环境中使用时，计算机610通常包括调制解调器672或用于在WAN 673上建立通信的其他装置，诸如因特网。可以是内置的或外置的调制解调器672可以通过用户输入接口660或其他适当的机构连接到系统总线621。在联网环境中，相对于计算机610描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例而非限制，图6示出了属于存储器设备681的远程应用程序685。应当理解，所示的网络连接是示例性的以及可以使用在计算机之间建立通信通道的其他方法。

虽然风险评估系统和方法以及其他元件已经描述为最好在软件中实现，但是它们可以以硬件、固件等实现，并且可以通过任何其他处理器实现。因此，本文所述的元件可以在标准多用途CPU中或在特定设计的硬件或固件，诸如专用集成电路(ASIC)或其他所需的硬连线设备上实现，包括但不限于图6的计算机610，当在软件上实现时，软件例程可以存储在任意计算机可读存储器中，诸如磁盘、激光盘或其他存储介质、计算机或处理器的RAM或ROM、任意数据库等。同样地，该软件可以通过任意已知或期望的传送方法传送给用户或诊断系统，包括例如在计算机可读盘或其他可传输的计算机存储机构或通过诸如电话线、互联网、无线通信等的通信信道(被视为与通过可传输存储介质提供这种软件相同或可互换)。因此，在不脱离本发明的精神和范围的情况下，可以对本文描述和示出的技术和结构进行许多修改和变化。因此，应该理解，本文描述的方法和装置仅是示例性的，并不限制本发明的范围。

图7示出了根据本文实施方式形成的替代系统的框图。以虚线示出的组件在技术上不是计算机710的一部分，而是用于说明图7的示例性实施方式。计算机710的组件可以包括但不限于处理器720、系统存储器730、存储器/图形接口721，也称为北桥芯片，以及I/O接口722，也称为南桥芯片。系统存储器730和图形处理器790可以耦合到存储器/图形接口721。监视器791或其他图形输出设备可以耦合到图形处理器790。

一系列系统总线可以耦合多种系统组件，包括处理器720，存储器/图形接口721和I/O接口722之间的高速系统总线723、存储器/图形接口721和系统存储器730之间的前端总线724，以及存储器/图形接口721和图形处理器790之间的高级图形处理(AGP)总线725。系统总线723可以是若干类型的总线结构中的任意一种，作为示例而非限制，包括包含工业标准架构(USA)总线、微通道架构(MCA)总线和增强型ISA(EISA)总线的这种架构。随着系统架构的发展，可以使用其他总线架构和芯片组，但通常普遍地遵循这种模式。例如，诸如Intel和AMD的公司，其分别支持英特尔集线器架构(IHA)和Hypertransport^TM架构。

计算机710通常包括各种计算机可读介质。计算机可读介质可以是可由计算机710访问的任意可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质。计算机存储介质包括用于存储信息的任意方法或技术实现的易失性和非易失性、可移动和不可移动介质，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备，或可用于存储所需信息并且可由计算机710访问的任何其他物理介质。

系统存储器730包括易失性和/或非易失性存储器形式的计算机存储介质，例如只读存储器(ROM)731和随机存取存储器(RAM)732。系统ROM 731可以包含永久系统数据743，诸如识别和产生信息。在一些实施方式中，基本输入/输出系统(BIOS)也可以存储在系统ROM 731中。RAM 732通常包可立即访问和/或当前由处理单元720正在操作的数据和/或程序模块。作为示例而非限制，图7示出了操作系统734、应用程序735、其他程序模块736和程序数据737。

I/O接口722可以将系统总线723与多个其他总线726、727和728耦合，其将各种内部和外部设备耦合到计算机710。串行外围接口(SPI)总线726可以连接到基本输入/输出系统(BIOS)存储器733，其包含有助于在计算机710内的元件之间传送信息的基本例程，例如在启动期间。

作为示例，超级输入/输出芯片760可用于连接到多个“传统”外围设备，诸如软盘752、键盘/鼠标762和打印机796。在一些实施方式中，超级I/O芯片760可以利用总线727连接到I/O接口722，诸如低引脚数(LPC)总线。超级I/O芯片760的多种实施方式可以在商业市场中广泛使用。在一个实施方式中，总线728可以是外围组件互连(PCI)总线或其变型，可以用于将更高速的外围设备连接到I/O接口722。PCI总线也可以称为夹层总线。PCI总线的变化包括外围组件互连-快速(PCI-E)和外围组件互连-扩展(PCI-X)总线，前者具有串行接口，后者是向后兼容并行接口。在其他实施方式中，总线728可以是串行ATA总线(SATA)或并行ATA(PATA)形式的高级技术附件(ATA)总线。

计算机710还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图7示出了从不可移动的非易失性磁介质读取或写入的硬盘驱动器740。硬盘驱动器740可以是传统的硬盘驱动器。可移动介质，诸如通用串行总线(USB)存储器753、火线(IEEE 7394)或CD/DVD驱动器756可以直接或通过接口750连接到PCI总线728。存储介质754可以通过接口750耦合。可在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM等。

上述讨论的并在图7中示出的驱动器及其相关的计算机存储介质为计算机710提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图7中，例如，硬盘驱动器740显示为存储操作系统744、应用程序745、其他程序模块746和程序数据747。注意，这些组件可以与操作系统734、应用程序735、其他程序模块736和程序数据747相同或不同。操作系统744、应用程序745、其他程序模块746和程序数据747在这里给出不同的数字，以说明它们至少是不同的副本。用户可以通过诸如鼠标/键盘762以及其他输入设备的输入设备将命令和信息输入到计算机中。其他输入设备(未示出)可以包括麦克风、操纵杆、游戏手柄、天线接收器、扫描仪等。这些和其他输入设备通常通过I/O接口总线的其中一个连接到处理器720，诸如SPI 726、LPC 727或PCI 728，但可以使用其他总线。在一些实施例中，其他设备可以经由超级I/O芯片760耦合到并行端口、红外接口、游戏端口等(未示出)。计算机710可以在网络环境中使用到一台或多台远程计算机的逻辑连接进行操作，诸如经由网络接口控制器(NIC)770的远程计算机780。远程计算机780可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，以及通常包括上述与计算机710相关的许多或所有元件。图7中描绘的NIC 770和远程计算机780之间的逻辑连接可以包括局域网(LAN)、广域网(WAN)，或两者，但也可以包括其他网络。这种网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。远程计算机780还可以代表支持与计算机710交互会话的web服务器，或者在基于位置的应用的特定情况下可以是位置服务器或应用服务器。远程计算机780可以代表管理基线基因组序列数据库784、先前数据库782等的服务器。例如，如本文所解释的，基线基因组序列数据库784定期更新新的基线信息。数据库784的访问与结验证对样本的潜在变异识别有关(例如，在指定位置获得基线变异频率)。作为另一实施例，还可以结合验证样本的潜在变异识别来访问先前数据库782(例如，以确定潜在变异识别是否对应于在先变异)。

在一些实施方式中，当宽带连接不可用或不使用时，网络接口可以使用调制解调器(未示出)。应当理解，所示的网络连接是示例性的，并且可以使用在计算机之间建立通信链路的其他方法。示例性处理器(处理单元)包括用于计算设备的各种微处理器和其他处理单元。上述描述了示例性计算机可读介质。当系统的两个或更多组件涉及处理器或计算机可读介质时，系统通常可以创建，其中单个处理器和/或计算机可读介质专用于系统的单个组件；或其中两个或更多功能分担单个处理器和/或分担单个计算机可读介质，以使系统只包含一个处理器和/或一个计算机可读介质。在一些变型中，使用多个处理器或介质是有利的，例如，将系统的组件放置不同的位置的方便的。例如，系统的某些组件可以位于专用于实验室或数据分析的检验实验室，而其他组件，包括用于提供输入信息或获得输出通信的组件(可选)，可以位于医疗或咨询机构(例如，医生办公室、健康诊所、HMO、药剂师、遗传学家、医院)和/或在进行检验服务的人受试者(患者)的家里或企业。

远程计算机780可以代表通信耦合到先前数据库782并包含与人群中变异/等位基因的存在或不存在的相关的群体信息的服务器或其他网络资源。例如，一种或多种变异/等位基因包括引起或指示选择缺陷的突变等位基因。在简单的变型中，先前数据库782包含在人群中观察到的选择等位基因的频率相关的数据，例如患有膀胱癌的人，例如没有膀胱癌的人。此外或另外，先前数据库可以包括关于两个或更多的等位基因的类似数据，因此如果人受试者具有两个或更多等位基因中的任意一个，则提供有用的参考。此外或另外，先前数据库可以包括诊断为患有或没有患有的数据库中个体的附加数量的个人、医学或遗传信息。这类信息包括但不限于有关诸如年龄、性别、种族、家庭、病史、体重、糖尿病状况、血压、膀胱癌家族史、吸烟史和人饮酒以及影响关于先前的至少一个参数。该先前还可以包括等位基因的其他遗传风险因子的信息。

可以提供基线基因组序列数据库或文库784以存储根据本文实施方方式利用的基线基因组序列，以鉴定基线变异频率和其他信息。

Claims

1.一种用于验证变异识别的计算机实现的方法，所述方法包括：

在执行程序指令的一个或多个处理器的控制下，

接收测序数据，所述测序数据包括沿目标基因组序列的具有相应核苷酸序列的样本读长；

接收沿目标基因组序列的核苷酸序列内的指定位置的潜在变异识别的指示；

获得在一个或多个基线基因组序列内的所述指定位置的基线变异频率；

获得在所述目标基因组序列的所述指定位置的样本变异频率；

分析在所述指定位置的所述基线和所述样本变异频率，以获得质量得分；以及

基于所述质量得分验证所述目标基因组序列的潜在变异识别。

2.如权利要求1所述的方法，其中所述分析操作包括获得所述样本变异频率与所述基线变异频率的分布之间的关系，所述质量得分基于所述关系。

3.如权利要求1所述的方法，其中所述分析操作包括相对于所述基线变异频率的分布索引所述样本变异频率。

4.如权利要求3所述的方法，其中关系基于非参数Wilcoxon秩和检验。

5.如权利要求1所述的方法，其中所述基线变异频率指示沿所述基线基因组序列的相应位置的背景噪声程度。

6.如权利要求1所述的方法，其中所述验证还包括将所述质量得分与阈值进行比较；并且当所述质量得分超过所述阈值时，声明所述潜在变异识别为有效变异识别。

7.如权利要求1所述的方法，其中所述基线变异频率来源于与一种以上类型的等位基因相关的多个所述基线基因组序列。

8.如权利要求1所述的方法，还包括接收测序数据，所述测序数据包括沿所述基线基因组序列的核苷酸序列的多个参考读长，以及确定在所述指定位置的所述参考读长的所述基线变异频率。

9.如权利要求8所述的方法，其中确定所述基线变异频率还包括：

a.从当前碱基对窗口内的一组位置的所述参考读长中接收所述测序数据；

b.识别当前所述碱基对窗口内的所述一组位置中的一个或多个位置的候选变异频率；

c.选择所述候选变异频率中的一个作为所述参考读长内所述指定位置的所述基线变异频率；以及

d.沿所述基线基因组序列移动所述碱基对窗口并重复在a、b和c的操作。

10.一种用于验证变异识别的计算机实现的方法，所述方法包括：

在一个或多个处理器的控制下，执行程序指令以

接收目标基因组序列的潜在变异识别的指示；

接收测序数据，所述测序数据包括沿所述目标基因组序列的样本和核苷酸原始片段的读长，所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长；

相对于基线基因组序列的所述指定位置的基线变异频率，分析所述目标基因组序列的所述指定位置的样本变异频率，以获得质量得分；以及

确定以下至少一项：

A)所述原始片段是否确认潜在变异识别；

B)所述样本读长是否为所述样本片段提供预定量的覆盖范围；以及

C)所述潜在变异识别是否与预定义群体中显示的先前变异识别匹配；以及

根据所述质量得分和所述确定操作验证所述潜在变异识别。

11.如权利要求10所述的方法，其中所述确定包括操作A)，并且操作A)包括：

识别指示支持变异识别的所述原始片段；

获得指示所述支持变异识别的所述原始片段的加权片段得分；以及

将所述加权片段得分与所述原始片段阈值进行比较，以确定是否确认所述潜在变异识别。

12.如权利要求10所述的方法，其中所述确定包括操作A)，并且其中所述原始片段对应于双链体拼接片段、单链体拼接片段、双链体未拼接片段或单链体未拼接片段中的至少一个。

13.如权利要求10所述的方法，其中所述确定包括操作A)，并且操作A)包括：将双链体拼接片段识别为所述原始片段；确定所述双链体拼接片段是否指示支持变异识别，以确定是否确认所述潜在变异识别。

14.如权利要求10所述的方法，其中所述确定包括操作B)，并且其中当所述样本读长低于所述预定量的覆盖范围时，所述潜在变异识别声明为无识别。

15.如权利要求10所述的方法，其中所述确定包括操作C)，并且：

i.当在所述潜在和所述先前变异识别之间确定匹配时，所述确定操作利用第一阈值执行操作A)或操作B)中的至少一个；以及

ii.当在所述潜在和所述先前变异识别之间不存在匹配时，所述确定操作利用第二阈值执行所述操作A)或所述操作B)中的至少一个。

16.如权利要求10所述的方法，其中所述分析操作和所述确定操作A)、B)和C)在层级中执行。

17.一种用于验证变异识别的系统，所述系统包括：

存储程序指令和测序数据的存储器，所述测序数据包括沿目标基因组序列具有相应核苷酸序列的样本读长；

一个或多个处理器，当执行所述程序指令时：

接收沿所述目标基因组序列在所述核苷酸序列内的指定位置的潜在变异识别的指示；

获得一个或多个基线基因组序列内所述指定位置的基线变异频率；

获得所述目标基因组序列的所述指定位置的样本变异频率；

分析所述指定位置的所述基线和所述样本变异频率，以获得质量得分；以及

基于所述质量得分验证所述目标基因组序列的所述潜在变异识别。

18.如权利要求17所述的系统，其中所述一个或多个处理器获得所述样本变异频率与所述基线变异频率的分布之间的关系，所述质量得分基于所述关系。

19.如权利要求17所述的系统，其中所述一个或多个处理器相对于所述基线变异频率的分布索引所述样本变异频率。

20.如权利要求17所述的系统，其中所述基线变异频率指示沿所述基线基因组序列的相应基因座的背景噪声程度。

21.如权利要求17所述的系统，其中所述一个或多个处理器将所述质量得分与阈值进行比较，并基于所述比较输出声明所述潜在变异识别无效的指示。

22.如权利要求17所述的系统，还包括存储测序数据的存储器，所述测序数据包括沿所述基线基因组序列的多个核苷酸的参考读长，所述一个或多个处理器确定所述指定位置的所述参考读长的所述基线变异频率。

23.一种用于验证变异识别的系统，所述系统包括：

存储程序指令和测序数据的存储器，所述测序数据包括沿目标基因组序列的样本和核苷酸的原始片段的读长，所述读长包括对应于沿所述目标基因组序列的指定位置的核苷酸序列的样本片段的样本读长；

一个或多个处理器，当执行程序指令时：

接收所述目标基因组序列的潜在变异识别的指示；

相对于基线基因组序列的所述指定位置的基线变异频率，分析目标基因组序列的所述指定位置的样本变异频率，以获得质量得分；以及

确定以下至少一项：

A)所述原始片段是否确认所述潜在变异识别；

基于所述质量得分和所述确定操作验证所述潜在变异识别。

24.如权利要求23所述的系统，其中所述确定包括操作A)，并且操作A)包括：

识别指示支持变异识别的所述原始片段；

25.如权利要求23所述的系统，其中所述确定包括操作A)，并且其中所述原始片段对应于双链体拼接片段、单链体拼接片段、双链体未拼接片段或单链体未拼接片段中的至少一个。