CN111164701A

CN111164701A - 针对靶标定序的定点噪声模型

Info

Publication number: CN111164701A
Application number: CN201880064123.8A
Authority: CN
Inventors: A·W·布洛克尔; E·哈贝尔
Original assignee: Grail Inc
Current assignee: Greer Co ltd
Priority date: 2017-10-06
Filing date: 2018-10-05
Publication date: 2020-05-15
Also published as: TWI781230B; EP3676846A1; US20190108311A1; WO2019071219A1; TW201928797A

Abstract

一种处理系统，其使用基于贝叶斯推论(Bayesian inference)的针对靶标定序或变体辨认的模型。在一个实施例中，该处理系统确定第一序列片段的第一深度和第一交替深度，该第一序列片段来自受试者的无细胞核酸样本。该处理系统确定第二序列片段的第二深度和第二交替深度，该第二序列片段来自该受试者的基因核酸样本。该处理系统确定该无细胞核酸样本和该基因核酸样本的真交替频率的可能性。使用该第一可能性、该第二可能性和一或多个参数，该处理系统确定以下的可能性：该无细胞核酸样本的该真交替频率大于该基因核酸样本的该真交替频率的函数。

Description

针对靶标定序的定点噪声模型

技术领域

本公开总体上涉及基于贝叶斯推论(Bayesian inference)的针对靶标定序的模型，且涉及该模型在变体辨认及品质控制中的使用。

背景技术

计算技术可用于DNA定序数据以标识DNA中可能与各种类型的癌症或其他疾病对应的变异或变体。因此，癌症诊断或预测可能通过分析诸如组织活检或取自受试者的血液的生物样本而进行。难以检测源于血液样本的肿瘤细胞的DNA，这是因为相对于取自血液的无细胞DNA(cfDNA)中的其他分子，循环肿瘤DNA(ctDNA)通常以低含量存在。现有方法无法从信号噪声标识真阳性(例如，指示受试者中的癌症)，削弱已知系统及未来系统区分真阳性与噪声源产生的假阳性的能力，其可导致变体辨认或其他类型的分析的不可靠结果。

发明内容

本文公开了用于训练及应用定点噪声模型(本文也称为“贝叶斯层次模型”、“噪声模型”或“模型”)以确定靶标定序中真阳性的可能性的方法。真阳性可能包括碱对的单核苷酸变体、插入或缺失。特别地，模型可能使用贝叶斯推论以确定噪声比或噪声级，例如，指示核酸序列的每个位置的某些变异的预计可能性。此外，模型可能是造成共变量(例如，三核苷酸背景、作图性或区段式复制)及各种类型的参数(例如，序列片段的混合组分或深度)的层次模型。模型可能通过采样自健康受试者的序列片段的马可夫链蒙特卡罗(Markovchain Monte Carlo)加以训练。因此，并入模型的总管线可以较高敏感度标识真阳性且滤除假阳性。

在各种实施例中，用于处理核酸样本的定序数据的方法包括标识多个序列片段的候选变体。方法进一步包括访问多个参数，该多个参数包括特定于候选变体的分散度参数r及平均率参数m，其中r及m是使用模型导出。方法进一步包括将多个序列片段的片段信息输入至由多个参数进行参数化的函数中。方法进一步包括使用基于输入片段信息的函数的输出来确定候选变体的分数。

在一或多个实施例中，多个参数代表伽马分布的平均及形状参数，并且函数是基于多个序列片段及多个参数的负二项式。

在一或多个实施例中，多个参数代表分布的参数，该分布关于序列片段的给定位置而编码不确定水平的核苷酸变异。

在一或多个实施例中，伽马分布是分布的混合物的一个组分。

在一或多个实施例中，从来自多个健康个体的序列片段的训练样本中导出多个参数。

在一或多个实施例中，训练样本不包括来自多个健康个体的序列片段的、基于筛选标准的子集。

在一或多个实施例中，筛选标准指示不包括具有以下项的序列片段：(i)小于阈值的深度或(ii)大于临界频率的等位基因频率。

在一或多个实施例中，筛选标准基于候选变体在基因组中的位置而改变。

在一或多个实施例中，使用贝叶斯层次模型导出多个参数。

在一或多个实施例中，贝叶斯层次模型包括多项分布，该多项分布将序列片段的位置分组至潜在类别中。

在一或多个实施例中，贝叶斯层次模型包括与来自健康个体的训练样本无关的固定共变量。

在一或多个实施例中，共变量是基于邻近序列片段的给定位置的多个核苷酸。

在一或多个实施例中，共变量是基于与基因组的靶标区相关的给定序列片段的独特性水平。

在一或多个实施例中，共变量是基于给定序列片段是否为区段式复制。

在一或多个实施例中，使用马可夫链蒙特卡罗方法评估贝叶斯层次模型。

在一或多个实施例中，马可夫链蒙特卡罗方法使用梅特罗波利斯-黑斯廷斯算法(Metropolis-Hastings algorithm)。

在一或多个实施例中，马可夫链蒙特卡罗方法使用吉布斯采样算法(Gibbssampling algorithm)。

在一或多个实施例中，马可夫链蒙特卡罗方法使用哈密顿力学(Hamiltonianmechanics)。

在一或多个实施例中，片段信息包括多个序列片段的深度d、由m·d参数化的函数。

在一或多个实施例中，分数是弗雷德定级可能性(Phred-scaled likelihood)。

在一或多个实施例中，多个序列片段是从个体获取的无细胞核苷酸样本。

在一或多个实施例中，方法进一步包括从个体的血液样本收集或已收集无细胞核苷酸样本，以及在无细胞核苷酸样本上执行富集以生成多个序列片段。

在一或多个实施例中，多个序列片段是从个体获取的血液、全血、血浆、血清、尿液、脑脊髓液、粪便、唾液、泪液、组织活检、胸膜液体、心包膜液或腹膜液体的样本。

在一或多个实施例中，从获自肿瘤活检的肿瘤细胞获得多个序列片段。

在一或多个实施例中，多个序列片段是定序自血液的细胞分离物，细胞分离物包括至少肤色血球层白血球或CD4+细胞。

在一或多个实施例中，方法进一步包括响应于将分数与阈值进行比较，确定候选变体是假阳性变异。

在一或多个实施例中，候选变体是单核苷酸变体。

在一或多个实施例中，该模型编码A、T、C及G中的一个碱基向其他三个碱基中的每个碱基的核苷酸变异的噪声等级。

在一或多个实施例中，候选变体是至少一个核苷酸的插入或缺失。

在一或多个实施例中，模型包括插入或缺失的长度分布。

在一或多个实施例中，模型区分用于确定交替等位基因的可能性的推论与用于使用长度分布确定交替等位基因的长度的推论。

在一或多个实施例中，长度分布是具有狄利克雷先验(Dirichlet prior)的多项式。

在一或多个实施例中，长度的多项分布上的狄利克雷先验是通过基因组的锚位的共变量而确定的。

在一或多个实施例中，模型包括基于共变量而确定的分布ω。

在一或多个实施例中，模型包括基于基因组的共变量及锚位而确定的分布φ。

在一或多个实施例中，模型包括多项分布，该多项分布将序列片段的锚位处的插入或缺失的长度分组至潜在类别中。

在一或多个实施例中，给定锚位处的插入或缺失的预计平均总数是通过基于基因组的共变量及锚位的分布而建模。

附图说明

图1是方法的流程图，该方法用于根据一个实施例制备用于定序的核酸样本。

图2是处理系统的框图，该系统用于根据一个实施例处理序列片段。

图3是方法的流程图，该方法用于根据一个实施例确定序列片段的变体。

图4是根据一个实施例应用贝叶斯层次模型的图表。

图5A显示贝叶斯层次模型(Bayesian hierarchical model)的参数与子模型之间的相依性，该模型用于根据一个实施例确定真单一核苷酸变体。

图5B显示贝叶斯层次模型的参数与子模型之间的相依性，该模型用于根据一个实施例确定真插入或缺失。

图6A-B图示根据一个实施例与贝叶斯层次模型相关的图表。

图7A是根据一个实施例通过拟合贝叶斯层次模型而确定参数的图表。

图7B是根据一个实施例使用来自贝叶斯层次模型的参数确定假阳性的可能性的图表。

图8是方法的流程图，该方法用于根据一个实施例训练贝叶斯层次模型。

图9是方法的流程图，该方法用于根据一个实施例确定假阳性的可能性。

图10是根据一个实施例的针对变异的噪声率的图表。

图11是根据一个实施例基于参考等位基因及三核苷酸背景的噪声率的图表。

图12是根据一个实施例依照参考等位基因的品质分数偏差的分布图表。

图13A-B显示的图表图示根据一个实施例依照参考等位基因自中值品质分数的偏差。

图14是根据一个实施例于低交替深度处依照参考等位基因的品质分数的图表。

图15是根据一个实施例在样本靶标定序分析中使用模型的每个样本的平均辨认数的图表。

图16是根据一个实施例针对来自cfDNA样本及来自匹配肿瘤活检样本的序列数据的阳性百分比一致性(PPA)结果的图表。

图17是根据一个实施例针对使用模型的序列数据的阳性百分比一致性结果的另一图表。

图18的图表描绘许多变异，其根据一个实施例检测于来自患有肺癌的受试者的靶标定序数据的特定基因中。

图19的图表描绘许多变异，其根据一个实施例检测于来自患有前列腺癌的受试者的靶标定序数据的特定基因中。

图20的图表描绘许多变异，其根据一个实施例检测于来自患有乳癌的受试者的靶标定序数据的特定基因中。

图21是根据一个实施例使用模型自健康样本筛选频发变异的图表。

图22是根据一个实施例使用模型自癌症样本筛选频发变异的图表。

图23是根据一个实施例针对使用模型确定的插入或缺失的噪声率的图表。

图24是根据一个实施例针对使用模型确定的插入或缺失的噪声率的另一图表。

图表仅出于阐释目的描绘本发明的实施例。本领域技术人员将容易自以下论述明白，可在不背离本文所述的发明的原则的情况下使用本文阐释的结构及方法的替代性实施例。

具体实施方式

I.定义

术语“个体”指代人类个体。术语“健康个体”指代预计不患有癌症或疾病的个体。术语“受试者”指代已知患有或潜在患有癌症或疾病的个体。

术语“序列片段”指代获自个体的样本的核苷酸序列片段。序列片段可通过本领域中已知的各种方法获得。

术语“区段”或“片段”指代任何包括以下的核苷酸序列：获自个体的序列片段及/或衍生自获自个体的样本的初始序列片段的核苷酸序列。例如，片段可指代对齐的序列片段、分裂的序列片段或缝合的片段。此外，片段可指代单独核苷酸碱基，诸如单一核苷酸变体。

术语“单一核苷酸变体”或“SNV”指代在核苷酸序列(例如，来自个体的序列片段)的位置(例如，位点)处将一个核苷酸取代为不同核苷酸。自第一核碱基X向第二核碱基Y的取代可能称为“X>Y”。例如，胞嘧啶向胸腺嘧啶SNV可能称为“C>T”。

术语“插入或缺失”指代序列片段中具有长度及位置(其也可称为锚位)的一或多个碱基对的任何插入或缺失。插入相对于正长度，而缺失相对于负长度。

术语“变异”指代一或多个SNV或插入或缺失。

术语“候选变体”、“辨认的变体”或“推定变体”指代一或多个例如在绝对变异的基因组(即，候选SNV)中的位置处检测的核苷酸序列的核苷酸变体，或一或多个碱基处的插入或缺失(即，候选插入或缺失)。大体而言，核苷酸碱基视为辨认的变体，其基于序列片段或分裂的片段上替代等位基因的存在，其中核苷酸碱基位于不同于参考基因组中的核苷酸碱基的位置处。此外，候选变体可称为真阳性或假阳性。

术语“真阳性”指代表示真实生物学的变异，例如个体中存在潜在癌症、疾病或生殖系列变异。真阳性并非可能模仿真实生物学的人为现象。例如，健康个体中的频发明显变体可能是技术人为现象而非生物学现象，且各种处理错误可导致虚假变体。

术语“假阳性”指代未正确确定为真阳性的变异。大体而言，假阳性可能更倾向于在处理与更高平均噪声率或噪声率中更高不确定性相关的序列片段时出现。

术语“无细胞核酸”或“cfNA”指代可发现于细胞外部的核酸分子，其发现于诸如血液、汗液、尿液或唾液的体液中。无细胞核酸可与循环核酸互换使用。

术语“无细胞DNA”或“cfDNA”指代循环于诸如血液、汗液、尿液或唾液的体液中且源自一或多个健康细胞及/或源自一或多个癌症细胞的核酸片段。

术语“循环肿瘤DNA”或“ctDNA”指代源自肿瘤细胞或其他类型的癌症细胞的去氧核糖核酸片段，其可能释放至诸如血液、汗液、尿液或唾液的个体体液中，所述片段源自诸如死亡细胞的细胞凋亡或坏死的生物过程或由可存活的肿瘤细胞主动释放。

术语“循环肿瘤RNA”或“ctRNA”指代源自肿瘤细胞或其他类型的癌症细胞的核糖核酸，其可能释放至诸如血液、汗液、尿液或唾液的个体体液中，所述片段源自诸如死亡细胞的细胞凋亡或坏死的生物过程或由可存活的肿瘤细胞主动释放。

术语“替代等位基因”或“ALT”指代相对于参考等位基因、例如对应于已知基因，具有一或多个变异的等位基因。

术语“定序深度”或“深度”指代在给定位置、区域或位点处，获自个体的样本的片段总数。在一些实施例中，深度指代基因组中或靶标定序板中的平均定序深度。

术语“交替深度”或“AD”指代支持ALT的样本(例如，包括ALT的变异)中的许多片段。

术语“交替频率”或“AF”指代给定ALT的频率。AF可能通过使样本的相应AD除以给定ALT的样本的深度而确定。

II.例示性分析协议

图1是方法100的流程图，该方法用于根据一个实施例制备用于定序的核酸样本。方法100包括(但不限于)以下步骤。例如，方法100的任何步骤可能包含用于品质控制或本领域技术人员已知的其他实验室分析程序的定量子步骤。

在步骤110中，自受试者获得包含多个核酸分子(DNA或RNA)的测试样本，且自测试样本提取及/或纯化核酸。在本公开中，除非另外指示，否则DNA与RNA可能互换使用。即，针对在变体辨认及品质控制中使用错误源信息的以下实施例可能同时适用于核酸序列的DNA及RNA类型。然而，出于清晰及解释目的，本文所述的实例可能集中于DNA。提取的样本中的核酸可能包含完整人类基因组，或人类基因组的任何子集，包括全外显子。或者，样本可能是人类转录组的任何子集，包括全转录组。可能自已知患有或疑似患有癌症的受试者获得测试样本。在一些实施例中，测试样本可能包括血液、血浆、血清、尿液、粪便、唾液、其他类型的体液或其任何组合。或者，测试样本可能包含选自由以下组成的组的样本：全血、血液部分、组织活检、胸膜液体、心包膜液、脑脊髓液体及腹膜液体。在一些实施例中，用于提取血液样本的方法(例如，注射器或手指刺破)的侵入性可能比用于获得组织活检的程序更小，所述程序可能需要手术。提取的样本可能包含cfDNA及/或ctDNA。对于健康个体，人体可能自然清除cfDNA及其他细胞残渣。大体而言，本领域中的任何已知方法可用于自测试样本提取且纯化无细胞核酸。例如，可使用一或多种已知的市售协议或套组、诸如QIAamp循环核酸套组(Qiagen)提取且纯化无细胞核酸。若受试者患有癌症或疾病，提取的样本中的ctDNA可能以诊断可检测的量存在。

在步骤120中，制备定序库。在库制备期间，例如通过转接体连接(使用T4或T7 DNA连接酶)或本领域中已知的其他方式将包含独特分子标识物(UMI)的定序转接体添加至核酸分子(例如，DNA分子)。UMI是短核酸序列(例如，4-10个碱基对)，其添加至DNA片段的端部且用作独特标记，所述标记可用于标识源自特定DNA片段的核酸(或序列片段)。在添加转接体后，例如使用聚合酶链反应(PCR)扩增转接体-核酸建构。在PCR扩增期间，UMI与相连DNA片段一同复制，其在下游分析中提供标识来自相同原始片段的序列片段的方式。可选择地，如本领域中所熟知，定序转接体可能进一步包含通用引物、样本特异性条码(用于多工)及/或一或多个用于后续成簇及/或定序(例如，已知P5及P7序列，用于通过合成的定序(SBS)(Illumina,San Diego,CA))的定序寡核苷酸。

在步骤130中，自该库使靶标DNA序列富集。根据一个实施例，在靶标富集期间，杂交探针(本文也称为“探针”)用于靶标且拉下已知或可能指示癌症(或疾病)的存在或不存在、癌症状态或癌症类别(例如，癌症类型或原始组织)的核酸片段。对于给定工作流，可能设计探针用以退火(或杂交)为靶标(互补)DNA或RNA股。靶标股可能是“阳性”股(例如，转录为mRNA且随后转译为蛋白质的股)或互补“阴性”股。探针范围可能是10个、100个或1000个碱基对的长度。在一个实施例中，基于基因板设计探针以分析(例如，人类或其他有机体的)基因组的特定变异或靶标区，所述变异或靶标区疑似对应于特定癌症或其他类型的疾病。此外，探针可能覆盖靶标区的重叠部分。如本领域中的技术人员的一将易于理解，本领域中的任何已知方式均可用于靶标富集。例如，在一个实施例中，探针可能是生物素化且包覆有链亲和素的磁性小珠，其用于富集探针捕获的靶标核酸。参见例如Duncavage等人,J MolDiagn.13(3):325-333(2011)；及Newman等人,Nat Med.20(5):548-554(2014)。通过使用靶标基因板而非定序全基因组(“全基因组定序”)、基因组的所有表现基因(“全外显子定序”或“全转录组定序”)，方法100可能用于增加靶标区的定序深度，其中深度指代已定序的样本内给定靶标序列的次数的计数。定序深度增加允许检测样本中的罕见序列变体，且/或增加定序过程的通量。在杂交步骤后，捕获杂交的核酸片段，且也可使用PCR使其扩增。

在步骤140中，序列片段产生自富集核酸分子(例如，DNA分子)。定序数据或序列片段可能通过本领域中已知的方式获自富集核酸分子。例如，方法100可能包括次世代定序(NGS)技术，其包括合成技术(Illumina)、焦磷酸根定序法(454Life Sciences)、离子半导体技术(Ion Torrent sequencing)、单分子实时定序(Pacific Biosciences)、接合性定序(SOLiD sequencing)、奈米孔定序(Oxford Nanopore Technologies)或双端定序。在一些实施例中，使用具有可逆染料终止物的合成定序进行大规模并行定序。

在各种实施例中，向定序器145提供富集核酸样本115用以定序。如图1中所示，定序器145可包括：图形用户界面150，其使用户能够与特定任务互动(例如，开始定序或终止定序)；以及再一个装载盘155，其用于提供富集片段样本及/或必要缓冲剂以进行定序分析。因此，一旦用户已向定序器145的装载盘155提供必要试剂及富集片段样本，用户可通过与定序器145的图形用户界面150互动而开始定序。在步骤140中，定序器145进行定序且输出来自核酸样本115的富集片段的序列片段。

在一些实施例中，定序器145与一或多个计算装置160通信耦合。各计算装置160可处理序列片段用以各种应用，诸如变体辨认或品质控制。定序器145可能向计算装置160提供呈BAM档案格式的序列片段。各计算装置160可为以下中的一者：个人计算机(PC)、桌上型计算机、膝上型计算机、笔记型计算机、平板PC或移动装置。计算装置160可通过无线、有线或无线与有线通信技术的结合而与定序器145通信耦合。大体而言，计算装置160配置有处理器及存储器，该存储器存储计算机指令，当处理器执行所述指令时，导致处理器处理序列片段或进行本文公开的方法或过程的任一者的一或多个步骤。

在一些实施例中，序列片段可能使用本领域中的已知方法与参考基因组比对以确定比对位置信息。例如，在一个实施例中，序列片段与人类参考基因组hg19比对。人类参考基因组hg19的序列可以参考数GRCh37/hg19获自Genome Reference Consortium，且也可获自由Santa Cruz Genomics Institute提供的Genome Browser。比对位置信息可能表示参考基因组中的区域的开始位置及结束位置，所述位置对应于给定序列片段的开始核苷酸碱基及结束核苷酸碱基。比对位置信息也可包括序列片段长度，其可由开始位置及结束位置确定。参考基因组中的区域可能与基因或基因的片段相关。

在各种实施例中，例如在使用末端配对定序过程时，序列片段是由指示为R₁及R₂的片段对构成。例如，第一片段R₁可能定序自双股DNA(dsDNA)分子的第一末端，而第二片段R₂可能定序自双股DNA(dsDNA)的第二末端。因此，第一片段R₁及第二片段R₂的核苷酸碱基对可能与参考基因组的核苷酸碱基比对一致(例如，反向)。衍生自片段对R₁及R₂的比对位置信息可能包括：参考基因组中的开始位置，其对应于第一片段(例如，R₁)的末端；及参考基因组中的结束位置，其对应于第二片段(例如，R₂)的末端。换言之，参考基因组中的开始位置及结束位置表示核酸片段所对应的参考基因组中的可能位置。可能产生具有SAM(序列比对图)格式或BAM(二进制)格式的输出文档，且输出用于诸如变体辨认的进一步分析，如下文关于图2所描述。

III.例示性处理系统

图2是处理系统200的框图，该系统用于根据一个实施例处理序列片段。处理系统200包括序列处理器205、序列数据库210、模型数据库215、机器学习引擎220、模型225(例如，“贝叶斯层次模型”)、参数数据库230、评分引擎235及变体辨认器240。图3是方法300的流程图，该方法用于根据一个实施例确定序列片段的变体。在一些实施例中，处理系统200执行方法300以基于输入定序数据而进行变体辨认(例如，针对SNV及/或插入或缺失)。此外，处理系统300可能自与使用上述方法100制备的核酸样本相关的输出文档获得输入定序数据。方法300包括(但不限于)以下步骤，其关于处理系统200的组分进行描述。在其他实施例中，方法300的一或多个步骤可能由用于产生变体辨认的不同过程的步骤替换，例如，使用变体辨认格式(VCF)，诸如HaplotypeCaller、VarScan、Strelka或SomaticSniper。

在步骤300中，序列处理器205视情况破坏输入定序数据的比对序列片段。在一个实施例中，分裂序列片段包括使用UMI及视情况来自输出文档(例如，来自图1中所示方法100)的定序数据的比对位置信息以标识多个序列片段(即，衍生自相同初始核酸分子)且将其分裂成一致序列。根据此步骤，一致序列是确定自衍生自相同初始核酸分子或其部分的多个序列片段，该初始核酸分子代表初始分子的最相似的核酸序列。因为UMI序列通过定序库的PCR扩增得以复制，因此序列处理器205可确定特定序列片段源自核酸样本中的相同分子。在一些实施例中，分裂具有相同或相似比对位置信息(例如，阈值偏移内的开始及结束位置)且包括共有UMI的序列片段，且序列处理器205产生分裂序列(本文中也称为一致片段)以表示核酸片段。在一些实施例中，若序列片段(即，R₁及R₂)或分裂的序列片段的相应对具有共有UMI，则序列处理器205将一致片段指定为“双螺旋”，其表示已捕获初始核酸分子的正链及负链；否则，分裂的片段指定为“非双螺旋”。在一些实施例中，作为分裂的序列片段的替代性做法或除此以外，序列处理器205可能在序列片段上进行其他类型的错误更正。

在步骤305中，基于相应比对位置信息将两个序列片段合并为单个片段，序列处理器205可能视情况缝合序列片段或分裂的序列片段。在一些实施例中，序列处理器205比较第一序列片段与第二序列片段(或分裂的序列片段)之间的比对位置信息，从而确定第一与第二片段的核苷酸碱基对是否在参考基因组中部分重叠。在一个使用情况中，作为确定第一与第二片段之间的重叠(例如，给定数目的核苷酸碱基)大于临界长度(例如，核苷酸碱基的临界数目)的回应，序列处理器205将第一及第二片段指定为“缝合的”；否则，分裂的片段指定为“未缝合的”。在一些实施例中，若重叠大于临界长度且若重叠并非是移动重叠，则第一及第二片段是缝合的。例如，移动重叠可能包括均聚物段(例如，单个重复核苷酸碱基)、二核苷酸段(例如，双核苷酸重复碱基序列)或三核苷酸段(例如，三核苷酸重复碱基序列)，其中均聚物段、二核苷酸段或三核苷酸段具有至少临界长度的碱基对。

在步骤310中，序列处理器205可能视情况将两个或更多个片段组装为合并序列片段(或覆盖靶标区的路径)。在一些实施例中，序列处理器205组装片段以生成靶标区(例如，基因)的有向图，例如德布鲁因图(de Bruijn graph)。有向图的单向边缘代表靶标区中的k核苷酸碱基的序列(本文中也称为“k-mer”)，且通过顶点(或节点)连接边缘。序列处理器205比对分裂的片段与有向图，从而任何分裂的片段可能通过边缘及对应顶点的子集按顺序表示。

在一些实施例中，序列处理器205确定多组描述有向图及过程有向图的参数。此外，该组参数可能包括自分裂的片段至有向图中由节点或边缘表示的k-mer的成功比对的k-mer的计数。序列处理器205将有向图及对应组的参数存储于例如序列数据库210中，可能重新获取有向图及对应组的参数以更新图或产生新图。例如，序列处理器205可能基于改组参数产生压缩版本的有向图(例如，或修改现有图)。在一个使用情况中，为了滤除具有较低等级的重要性的有向图数据，序列处理器205移除(例如，“剪除”或“修剪”)计数小于阈值的节点或边缘，且保留计数大于或等于阈值的节点或边缘。

在步骤315中，变体辨认器240自序列片段、分裂的序列片段或由序列处理器205组装的合并序列片段产生候选变体。在一个实施例中，变体辨认器240通过比较序列片段、分裂的序列片段或合并的序列片段(其可能已通过在步骤310中修剪边缘或节点而压缩)与参考基因组(例如，人类参考基因组hg19)的靶标区的参考序列而产生候选变体。变体辨认器240可能使序列片段、分裂的序列片段或合并的序列片段的边缘与参考序列对齐，且将不匹配边缘及与边缘相邻的不匹配核苷酸碱基的基因位置记录为候选变体的位置。此外，变体辨认器240可能基于靶标区的定序深度而产生候选变体。特别地，变体辨认器240可能更有置信度在具有更大定序深度的靶标区中标识变体，例如因为更多数目的序列片段帮助解决(例如，使用冗余)序列之间的不匹配或其他碱基对变异。

在一个实施例中，变体辨认器240使用模型225产生候选变体以确定针对来自受试者(例如，来自健康受试者)的序列片段的预计噪声率。模型225可能是贝叶斯层次模型，但在一些实施例中，处理系统100使用一或多个不同类型的模型。此外，贝叶斯层次模型可能是许多可能模型架构的一者，所述模型架构可能用于产生候选变体且互相关联，因此其均使针对位置的噪声信息建模，从而改善变体辨认的敏感度或特异性。更特别地，机器学习引擎220使用来自健康个体的样本训练模型225，从而使序列片段的每个位置的预计噪声率建模。

此外，多个不同模型可能存储于模型数据库215中或重新获取以用于训练后应用。例如，训练第一模型以使SNV噪声率建模，且训练第二模型以使插入或缺失噪声率建模。此外，评分引擎235可能使用模型225的参数以确定序列片段中一或多个真阳性的可能性。评分引擎235可能基于可能性确定品质分数(例如，以对数标度)。例如，品质分数是弗雷德品质分数Q＝-10·log₁₀ P，其中P是错误候选变体辨认(例如，假阳性)的可能性。

在步骤320中，评分引擎235基于模型225或对应真阳性的可能性或品质分数而对候选变体进行评分。模型225的训练及应用更详细地描述于下文中。

在步骤325中，处理系统200输出候选变体。在一些实施例中，处理系统200输出一些或全部确定的候选变体以及对应分数。例如处理系统200外部或处理系统200的其他组分的下游系统可能使用候选变体，且针对各种应用进行评分，应用包括(但不限于)预测存在癌症、疾病或生殖系列变异。

图1-3例示针对产生定序片段数据及标识候选变体或罕见变异辨认的可能实施例。然而，如本领域技术人员将容易理解的，可在本发明的实践中使用本领域中用于获得诸如序列片段或一致序列片段的定序数据且由此标识候选变体或罕见变异辨认的其他已知方式(参见例如，美国专利公开案第2012/0065081号、美国专利公开案第2014/0227705号、美国专利公开案第2015/0044687号及美国专利公开案第2017/0058332号)。

IV.实例模型

图4是根据一个实施例应用贝叶斯层次模型225的图表。出于解释的目的，变异A及变异B显示为实例。在图4的实施例中，变异A及变异B表示为SNV，但在其他实施例中，以下描述也适用于插入或缺失或其他类型的变异。变异A是来自第一样本的第一参考等位基因的位置4处的C>T变异。第一样本的第一AD是10，且第一总深度是1000。变异B是来自第二样本的第二参考等位基因的位置3处的T>G变异。第二样本的第二AD是1，且第二总深度是1200。仅基于AD(或AF)，变异A似乎是真阳性，而变异B似乎是假阳性，这是因为前者的AD(或AF)大于后者的AD(或AF)。然而，变异A及变异B可能每等位基因及/或每等位基因位置具有不同相对水平的噪声率。实际上，一旦这些不同位置的相对噪声水平得到证明，则变异A可能是假阳性且变异B可能是真阳性。本文所述的模型225使此噪声建模用以相应地恰当标识真阳性。

图4中阐释的概率质量函数(PMF)表示来自受试者的样本在一位置处具有给定AD计数的概率(或可能性)。使用来自健康个体的样本的定序数据(例如，存储于序列数据库210中)，处理系统100训练模型225，针对健康样本的PMF可能衍生自该模型。特别地，PMF是基于m_p，其使(例如，健康个体的)正常组织中每位置每等位基因的预计平均AD计数建模，及r_p，其使此AD计数中的预计变异(例如，分散度)建模。换言之，m_p及/r_p或表示基于每等位基因的每个位置，正常组织的定序数据中的噪声的基线水平。

使用图4的实例进一步阐释，来自健康个体的样本表示由建模的人类群体的子集，其中i是训练组中健康个体的指数。假设出于例示考虑，模型225已受到训练，由模型225产生的PMF直观阐释各变异的所量测AD的可能性，且因此指示何为真阳性且何为假阳性。图4左侧关于变异A的例示性PMF表示针对位置4处的变异AD计数是10的第一样本的可能性大约是20％。此外，右侧关于变异B的例示性PMF表示针对位置3处的变异AD计数是1的第二样本的可能性大约是1％(注：图4的PMF并非完全按比例绘制)。因此，对应于这些PMF概率的噪声率表示，尽管变异B具有较低AD及AF，但变异A较之变异B更容易发生。因此，在此实施例中，变异B可能是真阳性，且变异A可能是假阳性。相应地，处理系统100可能通过使用模型225进行改进的变体辨认，从而以更精确的比率区分真阳性与假阳性，且进一步关于这些可能性提供数值置信度。

图5A显示贝叶斯层次模型225的参数与子模型之间的相依性，该模型用于根据一个实施例确定真单一核苷酸变体。模型的参数可能存储于参数数据库230中。在图5A所示的实例中，

表示指定给各混合组分的加权向量。向量

呈现K维度中的单纯形内的值，且可能在训练期间经由后验采样学习或更新。其可能获得该单纯形上的一致先验用于该训练。位置p所属的混合组分可能通过潜在变量使用一或多个不同多项分布而建模：

潜在变量z_p、混合组分

α及β的向量共同允许μ的模型，其是贝叶斯层次模型225的子模型，从而具有“集中”关于噪声的知识的参数，也即其表示多个位置中噪声特征中的相似性。因此，序列片段的位置可能通过模型集中或分组至潜在类别中。也有利地，任何这些“集中的”位置的样本可帮助训练这些共有参数。此现象的优点在于，即使几乎没有或没有直接证据表明先前已针对给定位置观测到交替等位基因(例如，在用于训练模型的健康组织样本中)，但处理系统100仍可能确定健康样本中的噪声模型。

共变量x_p(例如，预测因子)编码关于位置p的已知的上下文信息，其可能包括(但不限于)诸如以下的信息：三核苷酸背景、区段式复制、与重复段最近的距离、作图性、独特性、k-mer独特性、针对序列的表现不佳区域的警示或与序列片段相关的其他信息。三核苷酸背景可能是基于参考等位基因且可能指定为数值(例如，整数)表示。例如，“AAA”指定为1，“ACA”指定为2，“AGA”指定为3等。作图性表示一个片段与基因组的特定靶标区的比对的独特性水平。例如，作图性计算为序列片段将独特作图的位置数目的倒数。区段式复制对应于长核酸序列(例如，具有大于约1000个碱基对的长度)，其几乎相同(例如，大于90％匹配度)且因天然复制行为(例如，与癌症或疾病无关)而出现于基因组中的多个位置中。

位置p处的SNV的预计平均AD计数是通过参数μ_p而建模。出于此描述的清晰性考虑，术语μ_p及y_p指代贝叶斯层次模型225的位置特异性子模型。在一个实施例中，μ_p建模为γ分布的随机变量，其具有形状参数

及平均参数

：

在其他实施例中，其他函数可用于表示μ_p，其实例包括(但不限于)：具有log-平均

及log-标准偏差

的log-正常分布、威布尔分布(Weibull distribution)、幂定律、按指数调试的幂定律或前述内容的混合。

在图5A中所示的实例中，形状参数及平均参数各自依赖于共变量x_p及潜在变量z_p，但在其他实施例中，相依性可能基于训练期间各种程度的信息集中而有所不同。例如，可能交替建构模型，因而

依赖于潜在变量而非共变量。(健康个体的)人类群体样本i中位置p处的SNV的AD计数分布是通过随机变量

而建模。在一个实施例中，该分布是帕松分布(Poisson distribution)，其在以下位置处获得样本的深度

：

在其他实施例中，其他函数可能用于表示

，其实例包括(但不限于)：负二项式、康氏-马克士威-帕松分布(Conway-Maxwell-Poisson distribution)、ζ分布(zetadistribution)及零膨胀帕松(zero-inflated Poisson)。

图5B显示贝叶斯层次模型的参数与子模型之间的相依性，该模型用于根据一个实施例确定真插入或缺失。与图5A中所示的SNV模型相反，针对图5B中所示插入或缺失的模型包括不同水平的层级。共变量x_p编码位置p处的已知特征，且可能包括例如与均聚物的距离、与RepeatMasker重复段的距离或与先前观测的序列片段相关的其他信息。潜在变量

可能通过狄利克雷分布(Dirichlet distribution)基于向量

的参数而建模，这些参数表示一个位置处的插入或缺失长度分布且可能基于共变量。在一些实施例中，

也在分享相同共变量值的位置(

)中共享。因此例如，潜在变量可能表示诸如以下的信息：均聚物插入或缺失出现于自锚位的位置1、2、3等碱基对处，而三核苷酸插入或缺失出现于自锚位的位置3、6、9等处。

位置p处的预计平均总插入或缺失计数是通过分布μ_p建模。在一些实施例中，分布是基于共变量且具有γ分布，其具有形状参数

及平均参数

：

在其他实施例中，其他函数可能用于表示μ_p，其实例包括(但不限于)：负二项式、康氏-马克士威-帕松分布、ζ分布及零膨胀帕松。

(健康个体的)人类群体样本i中位置p处的观测到的插入或缺失是通过分布

而建模。与图5A中的实例类似，在一些实施例中，插入或缺失密度的分布是帕松分布，其在以下位置处获得样本的深度

：

在其他实施例中，其他函数可用于表示

，其实例包括(但不限于)：负二项式、康氏-马克士威-帕松分布、ζ分布及零膨胀帕松。

因为插入或缺失可能具有不同长度的事实，其他长度参数存在于插入或缺失模型中，其并非存在于针对SNV的模型中。因此，图5B中所示例示性模型具有其他层级(例如，另一子模型)，其同样不存在于上文论述的SNV模型中。样本i中位置p处所观测的长度l(例如，多达100或更多碱基对的插入或缺失)的插入或缺失计数是通过随机变量

而建模，其表示噪声下以参数为条件的插入或缺失分布。该分布可能是多项式，其具有样本的插入或缺失密度

及以下位置处插入或缺失长度

的分布：

在其他实施例中，狄利克雷多项式函数或其他类型的模型可能用于表示

。

通过以此方式建构模型，机器学习引擎220可能使学习插入或缺失密度(也即，噪声率)与学习插入或缺失长度分布分离。独立确定针对预计插入或缺失是否将出现于健康样本中及预计一个位置处的插入或缺失长度的推论可能改善模型的敏感度。例如，相对于基因组中许多位置或区域处的插入或缺失密度，长度分布可能更稳定，或反之亦然。

图6A-B图示根据一个实施例与贝叶斯层次模型225相关的图表。图6A中所示图表描绘噪声率的分布μ_p，也即如通过模型而表征，针对给定位置的SNV或插入或缺失的可能性(或密度)。连续分布表示预计的非癌症或非疾病变异(例如，天然出现于健康组织中的变异)的AFμ_p，其是基于来自健康个体的所观测健康样本(例如，重新获取自序列数据库210)的训练数据。尽管未显示于图6A中，但在一些实施例中，μ_p的形状及平均参数可能基于诸如共变量x_p或潜在变量z_p的其他变量。图6B中所示图表描绘针对受试者的样本给定位置处的AD分布，其具有样本的参数，诸如给定位置处的定序深度d_p。基于预测的人类群体真平均AD计数，确定μ_p图像的离散概率，该计数是基于预计平均分布μ_p。

图7A是根据一个实施例通过拟合贝叶斯层次模型225而确定参数的例示性过程的图表。为了训练模型，机器学习引擎220迭代采样自针对一组位置的各位置的预计噪声率的后验分布(例如，图6B中所示的图表)。在其他采样算法中，机器学习引擎220可能使用马可夫链蒙特卡罗(MCMC)方法采样，例如梅特罗波利斯-黑斯廷斯(MH)算法(Metropolis-Hastings algorithm)、定制MH算法、吉布斯采样算法(Gibbs sampling algorithm)、基于哈密顿力学的采样(Hamiltonian mechanics-based sampling)、随机采样。在贝叶斯推论训练期间，自共同后验分布获取参数以迭代更新所有(或一些)参数及模型的潜在变量(例如，

、z_p、

、

、μ_p等)。

在一个实施例中，机器学习引擎220通过将μ_p图像、每个位置及每个样本的预计平均AF计数存储于参数数据库230中而进行模型拟合。如先前描述，模型是通过后验采样而训练或拟合。在一实施例中，μ_p图像存储于矩阵数据结构中，该结构在一组采样的位置的每个位置处具有一列，且在来自共同后验数据(例如，以观测的数据为条件的所有参数)的每个图像具有一行。列R的数目可能大于6百万，且样本的N迭代的行数目可能是数千。在其他实施例中，列及行称号与图7A中所示的实施例不同，例如，各列表示来自后验样本的图像，且各行表示采样的位置(例如，图7A中所示矩阵实例的移位)。

图7B是根据一个实施例使用来自贝叶斯层次模型225的参数确定假阳性的可能性的图表。机器学习引擎220可能将图7A中所示的R列:N行矩阵减小为图7B中图示的R列:2行矩阵。在一个实施例中，机器学习引擎220确定后验样本μ_p中每个位置的分散度参数r_p(例如，形状参数)及平均参数m_p(其也可称为平均比率参数m_p)。分散度参数r_p可能确定为

其中m_p及v_p分别是位置p处μ_p采样值的平均值及变化幅度。本领域中技术人员应理解，也可使用用于确定r_p的其他函数，诸如最大可能性评估。

考虑到平均参数，机器学习引擎220也可在减小的矩阵中进行分散度参数的分散度重新评估。在一个实施例中，在贝叶斯训练及后验估算之后，机器学习引擎220基于每个位置的负二项式最大可能性评估器通过针对分散度参数

再训练而进行分散度再评估。平均参数在再训练期间可能保持不变。在一个实施例中，机器学习引擎220针对训练数据的原始AD计数(例如，基于健康样本的

及

)而在各位置处确定分散度参数r′_p。机器学习引擎220确定

且将

存储于减小的矩阵中。本领域中技术人员应理解，也可使用用于确定

的其他函数，诸如矩估计方法、后验方式或后验模式。

在训练的模型应用期间，处理系统100可能访问分散度(例如，形状)参数

及平均参数m_p以确定由

及m_p参数化的函数。函数可能用于确定用于受试者的新样本的后验预测性概率质量函数(或概率密度函数)。基于给定位置处特定AD计数的预测概率，在检测来自样本的真阳性时，处理系统100可能解释序列片段的每个位置的位点特异性噪声率。返回提及使用关于图4描述的情况的实例，针对变异A及变异B显示的PMF可能使用来自图7B的减小矩阵的参数而确定。后验预测性概率质量函数可能用于确定在特定位置处具有AD计数的变异A或变异B的概率。

V.例示性过程流程

图8是方法800的流程图，该方法用于根据一个实施例训练贝叶斯层次模型225。在步骤810中，机器学习引擎220自序列片段的数据库(例如，序列数据库210)中收集样本，例如训练数据。在步骤820中，机器学习引擎220使用马可夫链蒙特卡罗方法使用样本训练贝叶斯层次模型225。在训练期间，模型225可能以训练数据为条件保留或拒绝序列片段。机器学习引擎220可能不包括健康个体的序列片段，其深度小于临界深度值或AF大于临界频率，从而移除不表示序列片段中的靶标序列的可能生殖系列变异。在其他实施例中，机器学习引擎220可能确定可能含有生殖系列变体的位置且使用如上文的阈值选择性地排除这些位置。在一个实施例中，机器学习引擎220可能将这些位置标识为自生殖系列频率具有较小平均AF绝对差值(例如，0、1/2及1)。

贝叶斯层次模型225可能同时针对模型中所包括的多个(或全部)位置更新参数。此外，可能训练模型225以针对各ALT对预计噪声进行建模。例如，针对A、T、C及G碱基中的每个碱基向其他三个碱基中的每个碱基的变异，用于SNV的模型可能进行训练过程四次或更多次以更新参数(例如，一对一取代)。在步骤830中，机器学习引擎220存储贝叶斯层次模型225的参数(例如，通过马可夫链蒙特卡罗的全体参数输出)。在步骤840中，机器学习引擎220基于参数估算每个位置的噪声分布(例如，由分散度参数及平均参数表示)。在步骤850中，机器学习引擎220使用来自用于训练贝叶斯层次模型225的样本(例如，训练数据)的原始AD计数进行分散度再评估(例如，最大可能性评估)。

图9是方法900的流程图，该方法用于根据一个实施例确定假阳性的可能性。在步骤910中，处理系统100例如在来自一组序列片段的序列片段的位置p处标识候选变体，这些片段可能定序自获自个体的cfDNA样本。在步骤920中，处理系统100分别访问例如分散度及平均率参数

及m_p的针对候选变体的参数，其可能基于候选变体的位置p。可能使用模型导出参数，例如贝叶斯层次模型225，其表示具有给定序列片段的观测深度及位置p处的平均参数μ_p作为输入的后验预测性分布。在一实施例中，平均参数μ_p是关于训练样本的位置p编码核苷酸变异的噪声等级的γ分布。

在步骤930中，处理系统100将一组序列片段的片段信息(例如，AD或AF)输入至由例如

及m_p的参数参数化的函数中(例如，基于负二项式)。在步骤940中，处理系统100(例如，评分引擎235)使用基于输入片段信息的函数的输出确定候选变体的分数(例如，在位置p处)。分数可能表示见到给定样本(例如，来自受试者)的等位基因计数的可能性，其大于或等于候选变体的确定的等位基因计数(例如，由模型及函数的输出确定)。处理系统100可能将可能性转化为弗雷德定级的分数。在一些实施例中，处理系统100使用可能性确定假阳性变异，其对确定可能性小于阈值作出响应。在一些实施例中，处理系统100使用函数确定，对应于来自个体的肿瘤活检的序列片段中所发现的基因，序列片段的样本至少包括等位基因的临界计数。响应于此确定结果，处理系统100可能基于变体辨认而预测个体中的癌细胞的存在。在一些实施例中，处理系统100可能基于品质分数进行加权、将候选变体及品质分数用于发现错误的方法、使用品质分数标注公认辨认数或供给后续系统。在各种实施例中，上文关于图8及图9描述的方法是在计算机上进行，诸如图1中所示的计算装置160。

VI.实例

下图中所示的例示性结果是使用一或多个训练的贝叶斯层次模型225通过处理系统100所确定。SNV及插入或缺失的贝叶斯层次(BH)模型225可能分别称为“SNV BH模型”及“插入或缺失BH模型”。出于比较目的，在不使用模型225的情况下确定一些例示性结果且称为“无模型”实例。在各种实施例中，如图中所指示，使用靶标定序分析生成结果，该分析使用GRAIL(GRAIL,Inc.,Menlo Park,CA)的专属508癌症基因板评估变体且自获自研究“A”及研究“B”两个研究之一中的受试者的循环无细胞DNA(cfDNA)样本的靶标定序数据辨认变体。研究A包括来自血浆样本的定序数据，该样本获自50名健康受试者(未诊断出癌症)及50名各来自患有转移前乳癌及转移前非小细胞肺癌的受试者的样本。研究B包括来自血浆样本的可评估定序数据，该样本获自124名癌症患者(39名受试者患有转移性乳癌(MBC)，41名受试者患有非小细胞肺癌(NSCLC)，且44名受试者患有抗阉割前列腺癌(CRCP))。

将来自健康个体及癌症患者的全血引入STRECK血液收集管

中，将其分成血浆及肤色血球层，且存储于-80℃下。使用修改的QIAmp循环核酸套组(Qiagen,Germantown,MD)自血浆提取无细胞DNA(cfDNA)，且使用片段分析器高敏感度NGS套组(Advanced Analytical Technologies,Akneny IA)进行量化。使用修改的IlluminaTruSeq DNA奈米协议(

San Diego,CA)自提取的cfDNA制备定序库。库制备协议包括定序转接体的转接体连接，该转接体包含用于如上述的错误更正的独特分子标识物(UMI)。使用片段分析器标准敏感度NGS套组对定序库进行PCR扩增及量化。

使用GRAIL的专属研究板靶标508癌症相关基因(GRAIL,Inc.,Menlo Park,CA)对量化的DNA库进行基于杂交的捕获。首先使用生物素化单股DNA杂交探针捕获靶标DNA分子，且随后使用链亲和素磁珠富集。使用序列清洗步骤移除非靶标分子。在HiSex X上使用HiSeq X试剂套组v2.5(

San Diego,CA)以60,000X的较小原始靶标覆盖度对富集的库进行定序。每流动细胞收集四个库，且包括双检索引物混合物以获得双样本检索片段。分别针对片段1、片段2、检索片段1及检索片段2分别设定150、150、8及8的片段长度。片段1及片段2中的起始6个碱基片段是UMI序列。

VI.A.例示性变异率

图10是根据一个实施例的针对变异的噪声率的图表。图10中所示的例示性结果是获自来自研究B的使用靶标定序数据的健康样本。训练的SNV BH模型可能学习到，特定类型的SNV在健康样本中具有更高基线噪声等级。在图10中所示的例示性图示中，相较于图示中所包括的其他类型的取代，C>T及G>A取代变异的可能性更高。

VI.B.基于三核苷酸背景的例示性变异率

图11是根据一个实施例基于参考等位基因及三核苷酸背景的噪声率的图表。图11中所示的例示性结果是使用来自研究B的靶标定序数据获自一组基线个体中的健康个体。训练的SNV BH模型可能学习到，SNV的基线噪声等级的平均值及变化幅度可能基于三核苷酸背景而变化。针对AD是3且深度是3000的健康样本获得图11中所示的例示性结果。此外，噪声等级(例如，基于三核苷酸背景的给定SNV的可能性)是转化为弗雷德定级的品质分数，其中Q＝-10·log₁₀ P。例如，20的弗雷德品质分数表示P＝1/100概率的错误变体辨认，且60的弗雷德品质分数表示P＝1/1,000,000概率的错误变体辨认。因此，更高弗雷德品质分数对应于检测变异的更高置信度，例如自序列片段的噪声区分真阳性与假阳性。

VI.C.例示性品质分数

图12是根据一个实施例依照参考等位基因的品质分数偏差的分布图表。使用获自AD是3且深度是3000的健康样本的来自研究B的靶标定序数据获得图12中所示的例示性结果。此外，结果显示，SNV BH模型可能使用混合组分通过噪声行为标识独特子集的位置，其对应于图中所见的各种模式。长尾可能表示，模型学习抑制频发变异(例如，非真阳性)。x轴包括负值，这是因为图中偏差表示一个位置处的弗雷德品质分数与类似位置的中值弗雷德品质分数之间的差值。模型学习到，相对于其他位置，特定位置可能具有更高或更低中值弗雷德品质分数。

VI.D.例示性品质分数

图13A-B显示的图表图示根据一个实施例依照参考等位基因自中值品质分数的偏差。图13A-B中所示例示性结果是获自从来自研究B的健康样本获得的靶标定序数据。图13A的例示性结果表示，SNV BH模型可能学习到，健康样本中多数位置处的噪声等级是典型的。例如，位置可能普遍至少呈现一些低等级的连续噪声，但子集位置呈现极高等级的噪声。例如，在对应于参考等位基因A、C、G及T的四个图的每个图中，仅针对1个位置(于x轴上)，μ_p比类似位置的中值噪声等级高10⁵倍(于y轴上)。此外，对于一些变异类型，超过100个位置(于x轴上)具有比类似位置的中值噪声等级高100倍的μ_p(于y轴上)，其可能有助于检测假阳性。

图13B的例示性结果表示，SNV BH模型确定对应于健康样本中病理性位置的位置的低弗雷德品质分数。因此，模型可能使用品质分数自具有更高平均品质分数的真阳性滤除人为现象。此外，即使当一些共变量或预测因子未知时，仍可能通过模型移除频发变异。

VI.E.例示性品质分数

图14是根据一个实施例于低交替深度处依照参考等位基因的品质分数的图表。使用来自AD是2且深度是3000的健康样本的来自研究B的靶标定序数据获得图14中所示的例示性结果。此外，结果的曲线1400显示，诸如C>G变异的一些SNV具有高弗雷德品质分数(例如，基因组的特定部分敏感度提高)，因此允许包括位置特异性噪声建模的SNV BH模型更好地辨认特定位置处的变异类型的变体。

VI.F.例示性平均辨认

图15是根据一个实施例在样本靶标定序分析中使用SNV BH模型、插入或缺失BH模型或不使用模型的每个样本的平均辨认数的图表。图15中所示SNV及插入或缺失型变异的例示性结果均获自来自健康受试者及癌症患者(患有乳癌、肺癌或前列腺癌)的靶标定序数据。此外，如指示，使用来自研究A及研究B的靶标定序数据获得例示性结果。在一些实施例中，“无模型”方法使用手动调试的过滤器设置阈值，例如用于筛选AD大于或等于3且AF大于或等于0.1的变体。相对于不使用模型的基线结果，使用BH模型确定的结果显示改进的敏感度。例如，在针对SNV模型的研究A中的乳癌样本中，“无模型1”及“无模型2”的每个样本的平均辨认基线数目分别是179及16。然而，“BH_gDNA”及“BH_nonsyn”的每个样本的平均辨认数目更低，分别是9.5及5.1。因此，该模型提供针对假阳性的更佳控制力。

VI.G.例示性阳性百分比一致性

图16是根据一个实施例针对来自cfDNA样本(“cfDNA”)及来自匹配肿瘤活检样本(“肿瘤”)的序列数据、使用SNV BH模型、插入或缺失BH模型或不使用模型的阳性百分比一致性(PPA)结果的图表。使用一种基于杂交捕获的次世代定序分析MSK-IMPACT获得来自匹配的肿瘤活检样本的定序数据，如先前描述，其分析癌症相关的基因的所有蛋白质编码外显子410(Cheng等人,J.Molecular Diagnostics,第17卷,第3号,第251-264页(2015))。

图16中所示针对SNV及插入或缺失类型变异(不包括超变体)的例示性结果是获自患有乳癌、肺癌或前列腺癌的受试者的cfDNA及匹配肿瘤活检样本。使用以下方程计算cfDNA及匹配肿瘤活检样本的PPA值，其中“肿瘤”表示来自肿瘤样本的变体辨认的数目，且“cfDNA”表示来自相应cfDNA样本的变体辨认的数目：

如通过例示性结果所示，BH模型保留对应变异，且在若干情况中，其改进对应变异的敏感度(例如，更大PPA)。例如，在针对插入或缺失的乳癌cfNDA样本中，基线PPA是0.1，且“无模型1”及“无模型2”分别是0.1及0.26。然而，针对“BH_gDNA”及“BH_nonsyn”，PPA分别提高至0.37及0.42。

VI.H.例示性阳性百分比一致性

图17是根据一个实施例针对序列数据、使用SNV BH模型、插入或缺失BH模型或不使用模型的阳性百分比一致性结果的另一图表。图17中所示针对SNV及插入或缺失型变异的例示性结果是获自患有乳癌、肺癌或前列腺癌的受试者样本且使用肿瘤(组织)及cfDNA(血浆)作为参考。与图16中所示的PPA例示性结果类似，图17的例示性结果也表示，BH模型保留对应变异，且在若干情况中，其改进对应变异的敏感度(例如，更大PPA)。图17中所示的阳性百分比一致性结果包括超变异，其可能包括单一活检中未发现的其他变体。

VI.I.所检测的例示性基因

图18的图表描绘许多变异，其根据一个实施例检测于来自患有肺癌的受试者的靶标定序数据的特定基因中。图19的图表描绘许多变异，其根据一个实施例检测于来自患有前列腺癌的受试者的靶标定序数据的特定基因中。图20的图表描绘许多变异，其根据一个实施例检测于来自患有乳癌的受试者的靶标定序数据的特定基因中。使用来自研究B的靶标定序数据且使用患有指示的各别类型的癌症的受试者样本获得图18-20中所示的例示性结果。使用SNV BH模型获得图18中所示的例示性结果，且使用SNV插入或缺失模型获得图19-20中所示的例示性结果。

“肿瘤定序”结果表示，由基于肿瘤的“GRAIL”及基于cfDNA的“肿瘤”分析所检测的靶标癌症基因大致匹配。不使用BH模型获得的基线“GRAIL定序PASS”结果表示，“GRAIL”分析检测基因中与靶标癌症基因或由“肿瘤”分析检测的基因均不匹配的变异。然而，使用BH模型获得的“GRAIL定序BH”结果表示，“GRAIL”分析检测与一些靶标癌症基因或一些由“肿瘤”分析检测的基因匹配的基因。例如，在图18中，基因EGFR及STK11均出现于“肿瘤定序”及“GRAIL定序BH”结果的顶部。在图19中，基因TP53及ZFHX3均出现于“肿瘤定序”及“GRAIL定序BH”结果的顶部。在图20中，基因TP53、TBX3、CDH1、MAP3K1及ERBB2各自出现于“肿瘤定序”及“GRAIL定序BH”结果的顶部。

VI.J.筛选的例示性变异

图21是根据一个实施例使用插入或缺失BH模型自健康样本筛选频发变异的图表。如指示，自患有乳癌、肺癌或前列腺癌的受试者样本且使用来自研究A及研究B的靶标定序数据获得图21中所示的例示性结果。结果显示，使用该模型的“BH_gDNA”分析滤除健康样本中发现的频发变异，而基线“无模型1”及“无模型2”分析的结果保留那些许多频发变异。

VI.K.保留的例示性变异

图22是根据一个实施例使用插入或缺失BH模型自癌症样本筛选频发变异的图表。自患有乳癌、肺癌或前列腺癌的受试者样本且使用来自研究B的靶标定序数据获得图22中所示的例示性结果。结果显示，使用该模型的“BH_gDNA”保留癌症样本中发现的频发变异，基线“无模型1”及“无模型2”分析的结果相同。

VI.L.例示性插入或缺失噪声

图23是根据一个实施例针对使用插入或缺失BH模型确定的插入或缺失的噪声率的图表。使用来自针对深度是3000的健康样本的研究B的靶标定序数据获得图23中所示的例示性结果。此外，结果显示，短插入或缺失(例如，长度-2、-1或1)支配平均预计AD，而较长插入或缺失的典型噪声率较低。

VI.M.例示性插入或缺失噪声

图24是根据一个实施例针对使用插入或缺失BH模型确定的插入或缺失的噪声率的另一图表。使用来自针对深度是3000的均聚物(顶部)、五核苷酸(中部)及三核苷酸(底部)健康样本的研究B的靶标定序数据获得图24中所示的例示性结果。结果显示，噪声区可能具有预计AD分布的复杂结构。例如，相对于更长插入或缺失，长度-1及1的插入或缺失在均聚物样本中是噪声。相对于更长插入或缺失，长度-5、-10及-15的插入或缺失在五核苷酸样本中是噪声。相对于更长插入或缺失，长度9、6、3、-3、-6、-9、-12、-15及-18的插入或缺失在三核苷酸样本中是噪声。

VII.其他考虑

本发明的实施例的先前描述已出于阐释目的而呈现；其不旨在具有全面性或将本发明限制为所公开的精确形式。相关领域中的技术人员可理解，鉴于上述公开，许多修改及变体是可能的。

此描述的一些部分就算法及信息上操作的符号表示而描述本发明的实施例。这些算法描述及表示是由数据处理领域中的技术人员所广泛使用，以将其工作的内容有效传达至本领域中的其他技术人员。当这些操作以功能方式、计算方式或逻辑方式描述时，其理解为通过计算机程序或等效电路、微码或类似方式实施。此外，也已时常证明方便的是，在不损失一般性的情况下，将这些操作的布局称为模块。所述操作及其相关模块可能体现于软件、固件、硬件或其任何组合中。

本文所述的任何步骤、操作或过程可能使用一或多种硬件或软件模块单独或与其他装置组合进行或实施。在一个实施例中，软件模块使用计算机程序产品实施，该产品包括计算机可读非瞬态介质，该介质含有计算机程序代码，该程序代码可由计算机处理器执行用以进行任何或全部所述步骤、操作或过程。

本发明的实施例也可关于一种产品，其由本文所述的计算过程产生。该产品可能包括产生自计算过程的信息，其中信息存储于非瞬态、有形计算机可读存储介质上，且可能包括计算机程序产品的任何实施例或其他本文所述的数据组合。

最终，本说明书中所用的语言已主要针对可读性及指示性目的而选择，且其可能不会经选择以描述或限制本发明的标的物。因此，希望本发明的范围不会受限于此详细描述，而是受限于基于此的申请上所发布的任何权利要求。相应地，本发明的实施例的公开旨在具有阐释性，但不限制本发明的范围，该范围列举于以下申请专利范围中。

Claims

1.一种用于处理核酸样本的定序数据的方法，所述方法包括：

标识多个序列片段的候选变体；

访问多个参数，所述多个参数包括特定于所述候选变体的分散度参数r和平均率参数m，已使用模型导出所述r和所述m；

将所述多个序列片段的片段信息输入至由所述多个参数进行参数化的函数中；以及

使用基于所述输入片段信息的所述函数的输出来确定所述候选变体的分数。

2.根据权利要求1所述的方法，其中所述多个参数表示伽马分布的平均及形状参数，并且其中所述函数是基于所述多个序列片段及所述多个参数的负二项式。

3.根据权利要求1或权利要求2所述的方法，其中所述多个参数表示分布的参数，所述分布关于序列片段的给定位置而编码不确定水平的核苷酸变异。

4.根据权利要求3所述的方法，其中伽马分布是所述分布的混合物的一个组分。

5.根据权利要求1至4中任一项所述的方法，其中从来自多个健康个体的序列片段的训练样本中导出所述多个参数。

6.根据权利要求5所述的方法，其中所述训练样本不包括来自所述多个健康个体的所述序列片段的、基于筛选标准的子集。

7.根据权利要求6所述的方法，其中所述筛选标准指示不包括具有以下项的序列片段：(i)小于阈值的深度、或(ii)大于临界频率的等位基因频率。

8.根据权利要求6所述的方法，其中所述筛选标准基于候选变体在基因组中的位置而改变。

9.根据权利要求1至8中任一项所述的方法，其中使用贝叶斯层次模型导出所述多个参数。

10.根据权利要求9所述的方法，其中所述贝叶斯层次模型包括多项分布，所述多项分布将序列片段的位置分组至潜在类别中。

11.根据权利要求9所述的方法，其中所述贝叶斯层次模型包括与来自健康个体的训练样本无关的固定共变量。

12.根据权利要求11所述的方法，其中所述共变量是基于邻近序列片段的给定位置的多个核苷酸。

13.根据权利要求11所述的方法，其中所述共变量是基于与基因组的靶标区相关的给定序列片段的独特性水平。

14.根据权利要求11所述的方法，其中所述共变量是基于给定序列片段是否为区段式复制。

15.根据权利要求9所述的方法，其中使用马可夫链蒙特卡罗方法来评估所述贝叶斯层次模型。

16.根据权利要求15所述的方法，其中所述马可夫链蒙特卡罗方法使用梅特罗波利斯-黑斯廷斯算法。

17.根据权利要求15所述的方法，其中所述马可夫链蒙特卡罗方法使用吉布斯采样算法。

18.根据权利要求15所述的方法，其中所述马可夫链蒙特卡罗方法使用哈密顿力学。

19.根据权利要求1至18中任一项所述的方法，其中所述片段信息包括所述多个序列片段的深度d、由m·d参数化的函数。

20.根据权利要求1至19中任一项所述的方法，其中所述分数是弗雷德定级可能性。

21.根据权利要求1至20中任一项所述的方法，其中所述多个序列片段是定序自从个体获取的无细胞核苷酸样本。

22.根据权利要求21所述的方法，还包括：

从所述个体的血液样本收集或已收集所述无细胞核苷酸样本；以及

在所述无细胞核苷酸样本上执行富集以生成所述多个序列片段。

23.根据权利要求1至20中任一项所述的方法，其中所述多个序列片段是定序自个体的血液、全血、血浆、血清、尿液、脑脊髓液、粪便、唾液、泪液、组织活检、胸膜液体、心包膜液或腹膜液体的样本。

24.根据权利要求1至20中任一项所述的方法，其中所述多个序列片段是定序自肿瘤活检。

25.根据权利要求1至20中任一项所述的方法，其中所述多个序列片段是定序自血液的细胞分离物，所述细胞分离物包括至少肤色血球层白血球或CD4+细胞。

26.根据权利要求1至25中任一项所述的方法，还包括：

响应于将所述分数与阈值进行比较，确定所述候选变体是假阳性变异。

27.根据权利要求1至26中任一项所述的方法，其中所述候选变体是单核苷酸变体。

28.根据权利要求27所述的方法，其中所述模型编码A、T、C及G中的一个碱基向其他三个碱基中的每个碱基的核苷酸变异的噪声等级。

29.根据权利要求1至26中任一项所述的方法，其中所述候选变体是至少一个核苷酸的插入或缺失。

30.根据权利要求29所述的方法，其中所述模型包括插入或缺失的长度分布。

31.根据权利要求29所述的方法，其中所述模型区分用于确定交替等位基因的可能性的推论与用于使用所述长度分布确定所述交替等位基因的长度的推论。

32.根据权利要求29所述的方法，其中所述长度分布是具有狄利克雷先验的多项式。

33.根据权利要求32所述的方法，其中长度的所述多项分布上的所述狄利克雷先验是通过基因组的锚位的共变量而确定的。

34.根据权利要求29所述的方法，其中所述模型包括基于共变量而确定的分布ω。

35.根据权利要求29所述的方法，其中所述模型包括基于基因组的共变量及锚位而确定的分布φ。

36.根据权利要求29所述的方法，其中所述模型包括多项分布，所述多项分布将序列片段的锚位处的插入或缺失的长度分组至潜在类别中。

37.根据权利要求29所述的方法，其中给定锚位处的插入或缺失的预计平均总数是通过基于基因组的共变量及锚位的分布而建模。

38.一种系统，包括计算机处理器和存储器，所述存储器存储计算机程序指令，当所述计算机程序指令由所述计算机处理器执行时，使所述处理器执行包括以下步骤的步骤：

标识多个序列片段的候选变体；

访问多个参数，所述多个参数包括特定于所述候选变体的分散度参数r和平均率参数m，已使用模型导出所述r和m；

39.根据权利要求38所述的系统，其中所述多个参数表示伽马分布的平均及形状参数，并且其中所述函数是基于所述多个序列片段及所述多个参数的负二项式。

40.根据权利要求38或权利要求39所述的系统，其中所述多个参数表示分布的参数，所述分布关于序列片段的给定位置而编码不确定水平的核苷酸变异。

41.根据权利要求40所述的系统，其中伽马分布是所述分布的混合物的一个组分。

42.根据权利要求38至41中任一项所述的系统，其中从来自多个健康个体的序列片段的训练样本中导出所述多个参数。

43.根据权利要求42所述的系统，其中所述训练样本不包括来自所述多个健康个体的所述序列片段的、基于筛选标准的子集。

44.根据权利要求43所述的系统，其中所述筛选标准指示不包括具有以下项的序列片段：(i)小于阈值的深度或、(ii)大于临界频率的等位基因频率。

45.根据权利要求43所述的系统，其中所述筛选标准基于候选变体在基因组中的位置而改变。

46.根据权利要求38至45中任一项所述的系统，其中使用贝叶斯层次模型导出所述多个参数。

47.根据权利要求46所述的系统，其中所述贝叶斯层次模型包括多项分布，所述多项分布将序列片段的位置分组至潜在类别中。

48.根据权利要求46所述的系统，其中所述贝叶斯层次模型包括与来自健康个体的训练样本无关的固定共变量。

49.根据权利要求48所述的系统，其中所述共变量是基于邻近序列片段的给定位置的多个核苷酸。

50.根据权利要求48所述的系统，其中所述共变量是基于与基因组的靶标区相关的给定序列片段的独特性水平。

51.根据权利要求48所述的系统，其中所述共变量是基于给定序列片段是否为区段式复制。

52.根据权利要求46所述的系统，其中使用马可夫链蒙特卡罗方法评估所述贝叶斯层次模型。

53.根据权利要求52所述的系统，其中所述马可夫链蒙特卡罗方法使用梅特罗波利斯-黑斯廷斯算法。

54.根据权利要求52所述的系统，其中所述马可夫链蒙特卡罗方法使用吉布斯采样算法。

55.根据权利要求52所述的系统，其中所述马可夫链蒙特卡罗方法使用哈密顿力学。

56.根据权利要求38至55中任一项所述的系统，其中所述片段信息包括所述多个序列片段的深度d、由m·d参数化的函数。

57.根据权利要求38至56中任一项所述的系统，其中所述分数是弗雷德定级可能性。

58.根据权利要求38至57中任一项所述的系统，其中所述多个序列片段是定序自从个体获取的无细胞核苷酸样本。

59.根据权利要求58所述的系统，其中所述无细胞核苷酸样本是收集自所述个体的血液样本，所述无细胞核苷酸样本经富集以用于生成所述多个序列片段。

60.根据权利要求38至57中任一项所述的系统，其中所述多个序列片段是定序自个体的血液、全血、血浆、血清、尿液、脑脊髓液、粪便、唾液、泪液、组织活检、胸膜液体、心包膜液或腹膜液体的样本。

61.根据权利要求38至57中任一项所述的系统，其中所述多个序列片段是定序自肿瘤活检。

62.根据权利要求38至57中任一项所述的系统，其中所述多个序列片段是定序自血液的细胞分离物，所述细胞分离物包括至少肤色血球层白血球或CD4+细胞。

63.根据权利要求38至62中任一项所述的系统，所述存储器存储另外的计算机程序指令，当所述另外的计算机程序指令由所述计算机处理器执行时，使所述处理器执行步骤，所述步骤包括：

64.根据权利要求38至63中任一项所述的系统，其中所述候选变体是单核苷酸变体。

65.根据权利要求64所述的系统，其中所述模型编码A、T、C及G中的一个碱基向其他三个碱基中的每个碱基的核苷酸变异的噪声等级。

66.根据权利要求38至63中任一项所述的系统，其中所述候选变体是至少一个核苷酸的插入或缺失。

67.根据权利要求66所述的系统，其中所述模型包括插入或缺失的长度分布。

68.根据权利要求66所述的系统，其中所述模型区分用于确定交替等位基因的可能性的推论与用于使用所述长度分布确定所述交替等位基因的长度的推论。

69.根据权利要求66所述的系统，其中所述长度分布是具有狄利克雷先验的多项式。

70.根据权利要求69所述的系统，其中长度的所述多项分布上的所述狄利克雷先验是通过基因组的锚位的共变量而确定的。

71.根据权利要求66所述的系统，其中所述模型包括基于共变量而确定的分布ω。

72.根据权利要求66所述的系统，其中所述模型包括基于基因组的共变量及锚位而确定的分布φ。

73.根据权利要求66所述的系统，其中所述模型包括多项分布，所述多项分布将序列片段的锚位处的插入或缺失的长度分组至潜在类别中。

74.根据权利要求66所述的系统，其中给定锚位处的插入或缺失的预计平均总数是通过基于基因组的共变量及锚位的分布而建模。

75.一种计算机产品，包括存储多个指令的计算机可读介质，所述指令用于控制计算机系统以执行根据权利要求1至37所述的方法中任一项的操作。