CN111357054A

CN111357054A - 用于区分体细胞变异和种系变异的方法和系统

Info

Publication number: CN111357054A
Application number: CN201880074640.3A
Authority: CN
Inventors: 特蕾西·南斯; 埃琳娜·赫尔曼; 达里娅·丘多瓦
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2017-09-20
Filing date: 2018-09-20
Publication date: 2020-06-30
Anticipated expiration: 2038-09-20
Also published as: KR20200057024A; SG11202002381TA; CN111357054B; JP2020536509A; AU2018335405A1; EP3685386A1; JP2023052512A; CA3075932A1; JP7242644B2; WO2019060640A1; US20200327954A1

Abstract

在一方面中，鉴定来自核酸分子样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：确定针对核酸变异的定量测量，所述定量测量包括核酸变异的总等位基因计数和次要等位基因计数；鉴定核酸变异的相关变量；确定相关变量的定量值；生成针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；至少部分地基于所述统计模型、定量值和至少一个定量测量来生成核酸变异的概率值(p值)；以及将核酸变异(i)当p值低于预定阈值时分类为体细胞来源的，或(ii)当p值处于预定阈值或高于预定阈值时分类为种系来源的。

Description

用于区分体细胞变异和种系变异的方法和系统

交叉引用

本申请要求于2017年9月20日提交的美国临时申请第62/561,048号的权益，该申请通过引用以其整体并入本文。

背景

癌症基因组学的一个重要方面是精确鉴定基因改变的来源，以便对患者进行适当的治疗。最近的一项研究发现，超过2％的晚期癌症患者可能具有在针对可靶向的体细胞改变的下一代测序(NGS)期间偶然发现的未鉴定出的种系改变。然而，在不与正常组织比较的情况下，基于组织的NGS可能无法准确区分种系突变与体细胞突变。在血浆中，体细胞变异(variant)通常以可能比种系变异的突变等位基因分数(mutant allele fraction；MAF)低1-2个数量级的突变等位基因分数出现，并且因此液体活组织检查可以准确分配种系/体细胞来源。然而，某些因素诸如来自拷贝数变异(CNV)或杂合性丧失(loss ofheterozygosity；LOH)的等位基因不平衡可以使种系MAF偏离种系MAF的预期范围。因此，存在对在确定变异来源时能够考虑到这些因素的方法的需求。

概述

本公开内容提供了用于区分核酸分子诸如无细胞脱氧核糖核酸(cfDNA)样品中的体细胞变异与种系变异的方法和系统。这样的方法可以使用常见单核苷酸多态性(SNP)对局部种系等位基因计数行为建模，并且可以基于MAF与观察到的种系MAF的偏差来区分体细胞变异。

在一方面，本公开内容提供了鉴定来自核酸分子样品(例如，组织样品、无细胞DNA样品和/或类似样品)的核酸变异的体细胞来源或种系来源的方法。所述方法包括(a)确定针对来自核酸样品的核酸变异的一种或更多种定量测量。定量测量包括核酸变异的总等位基因计数和次要等位基因计数。所述方法还包括(b)鉴定来自核酸样品的核酸变异的至少一个相关变量，和(c)确定核酸变异的相关变量的定量值。所述方法还包括(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；和(e)基于针对预期种系等位基因计数的统计模型和核酸变异的相关变量的定量值以及针对核酸变异的至少一个定量测量，产生核酸变异的概率值(p值)。另外，所述方法还包括(f)将核酸变异(i)当核酸变异的p值低于阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于阈值或高于阈值时分类为种系来源的。

在一方面，本公开内容提供了鉴定来自无细胞核酸分子(例如，无细胞脱氧核糖核酸(cfDNA)分子)样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：(a)确定针对来自无细胞核酸分子样品的核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)鉴定来自无细胞核酸分子样品的核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于阈值或高于预定阈值时分类为种系来源的。

在一些实施方案中，所述方法还包括从受试者获得无细胞核酸分子样品。在一些实施方案中，所述方法还包括接收从无细胞核酸分子样品产生的测序信息，其中测序信息包括包含核酸变异的无细胞核酸测序读段和核酸变异的相关变量，所述相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(het SNP)。在一些实施方案中，所述方法还包括对来自无细胞核酸分子样品的核酸进行测序以产生测序信息，其中针对核酸变异的多于一个定量测量和相关变量的定量值从测序信息来确定。

在一些实施方案中，所述方法还包括确定针对核酸变异的多于一个定量测量，鉴定核酸变异的相关变量，以及根据从无细胞核酸分子样品产生的测序信息确定相关变量的定量值。在一些实施方案中，所述方法还包括使用无细胞核酸分子样品的核酸的预期种系突变等位基因计数的β-二项式模型来产生预定阈值。在一些实施方案中，所述方法还包括对来自无细胞核酸分子样品的多于一个基因组基因座的多于一个核酸变异的体细胞来源或种系来源进行分类。

在一些实施方案中，核酸变异的相关变量包括至少一种杂合单核苷酸多态性(hetSNP)。在一些实施方案中，核酸变异的相关变量包括至少两种het SNP。在一些实施方案中，核酸变异的相关变量包括与包含核酸变异的基因组基因座相连的基因组基因座。

在一些实施方案中，所述方法还包括确定核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值。在一些实施方案中，所述方法还包括确定核酸变异的相关变量的平均定量值。在一些实施方案中，核酸变异的相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点(breakpoint)以及受试者的临床数据。在一些实施方案中，所述方法还包括确定核酸变异的相关变量的平均值和/或方差值。

在一些实施方案中，所述方法还包括确定核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱，其中箱是包含核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。在一些实施方案中，指定基因组区域是在核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。在一些实施方案中，核酸变异的相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

在一些实施方案中，相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)，并且其中所述方法包括使用下式估计β二项式分布参数：(x,y)～β二项式(μ_箱,ρ)，其中y＝至少一种种系杂合SNP的总分子计数的向量，对于每一种种系杂合SNP有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于每一种种系杂合SNP有一个条目；μ_箱＝箱中杂合SNP的平均突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；以及ρ＝分散度参数(dispersion parameter)的估计值。在一些实施方案中，所述方法还包括计算p值的上限和下限。在一些实施方案中，所述方法还包括使用下式计算核酸变异的双尾p值：p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Pr_bb(x'<A|μ_箱,ρ,B))，其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布的随机变量；A＝核酸变异的突变等位基因计数；以及B＝核酸变异的总分子计数。在一些实施方案中，ρ包括来自历史样品集的至少一组ρ值的中值。在一些实施方案中，所述方法还包括用核酸变异的GC含量的函数代替中值ρ参数。在一些实施方案中，所述方法还包括确定μ_箱的最大似然估计值。在一些实施方案中，所述方法还包括确定μ_箱的平均估计值。在一些实施方案中，所述方法还包括确定ρ的最大似然估计值。在一些实施方案中，所述方法还包括确定ρ的方差估计值。在一些实施方案中，所述方法还包括产生呈电子形式和/或纸质形式的报告，所述报告提供核酸变异分类为体细胞来源或种系来源的指示。

在另一方面中，本公开内容提供了非瞬时性计算机可读介质，所述非瞬时性计算机可读介质包含计算机可执行指令，所述计算机可执行指令当被至少一个电子处理器执行时执行包括以下步骤的方法：(a)根据从无细胞核酸分子(例如，无细胞脱氧核糖核酸(cfDNA)分子)样品产生的测序信息确定针对核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)从测序信息鉴定核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于预定阈值或高于预定阈值时分类为种系来源的。

在一些实施方案中，使用无细胞核酸分子(例如，cfDNA分子)样品的预期种系突变等位基因计数的β-二项式模型产生预定阈值。在一些实施方案中，核酸变异的相关变量包括至少一种杂合单核苷酸多态性(het SNP)。在一些实施方案中，核酸变异的相关变量包括至少两种het SNP。在一些实施方案中，核酸变异的相关变量包括与包含核酸变异的基因组基因座相连的基因组基因座。在一些实施方案中，核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值被确定。在一些实施方案中，所述多于一个定量测量中的至少一个包括无细胞核酸分子样品的包含核酸变异的核酸分子的数目。在一些实施方案中，核酸变异的相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点(breakpoint)以及受试者的临床数据。

在一些实施方案中，核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱被确定，其中箱是包含核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。在一些实施方案中，指定基因组区域是在核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。在一些实施方案中，相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

在一些实施方案中，相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)，并且其中β二项式分布参数使用下式估计：(x,y)～β二项式(μ_箱,ρ)，其中y＝至少一种种系杂合SNP的总分子计数的向量，对于所述至少一种种系杂合SNP中的每一种有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于所述至少一种种系杂合SNP中的每一种有一个条目；μ_箱＝箱中杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；并且ρ＝分散度参数的估计值。在一些实施方案中，计算p值的上限和下限。在一些实施方案中，使用下式计算核酸变异的双尾p值：

p值＝2*min(Pr_bb(x'>x|μ_箱,ρ,B),Pr_bb(x'<x|μ_箱,ρ,B))，其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布的随机变量；A＝核酸变异的突变等位基因计数；以及B＝核酸变异的总分子计数。

在另一方面，本公开内容提供了包括控制器的系统，所述控制器包含非瞬时性计算机可读介质或能够访问非瞬时性计算机可读介质，所述非瞬时性计算机可读介质包含计算机可执行指令，所述计算机可执行指令当被至少一个电子处理器执行时，执行包括以下步骤的方法：(a)根据从核酸分子样品(例如，无细胞脱氧核糖核酸(cfDNA)分子样品)产生的测序信息确定针对核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)从测序信息鉴定核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于预定阈值或高于预定阈值时分类为种系来源的。

在一些实施方案中，系统包括可操作地连接至控制器的核酸测序仪，所述核酸测序仪被配置成提供来自核酸分子(例如，无细胞核酸分子)样品的核酸的测序信息。在一些实施方案中，系统包括可操作地连接至控制器的样品制备组件，所述样品制备组件被配置成制备待由核酸测序仪测序的样品的核酸。在一些实施方案中，系统包括可操作地连接至控制器的核酸扩增组件，所述核酸扩增组件被配置成扩增样品的核酸。在一些实施方案中，系统包括可操作地连接至控制器的物质转移组件，所述物质转移组件被配置成在核酸测序仪和样品制备组件之间转移一种或更多种物质。

在一些实施方案中，使用样品(例如，cfDNA分子)中的核酸的预期种系突变等位基因计数的β-二项式模型来产生预定阈值。在一些实施方案中，核酸变异的相关变量包括至少一种杂合单核苷酸多态性(het SNP)。在一些实施方案中，核酸变异的相关变量包括至少两种het SNP。在一些实施方案中，核酸变异的相关变量包括与包含核酸变异的基因组基因座相连的基因组基因座。

在一些实施方案中，核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值被确定。在一些实施方案中，使用p值对核酸变异进行分类。在一些实施方案中，所述多于一个定量测量中的至少一个包括无细胞核酸分子样品的包含核酸变异的核酸分子的数目。在一些实施方案中，相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点以及受试者的临床数据。

在一些实施方案中，核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱被确定，其中箱是包含核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。在一些实施方案中，指定基因组区域是在核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。在一些实施方案中，核酸变异的相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

在一些实施方案中，相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合SNP，并且其中β二项式分布参数使用下式估计：(x,y)～β二项式(μ_箱,ρ)，其中y＝至少一种种系杂合SNP的总分子计数的向量，对于每一种种系杂合SNP有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于每一种种系杂合SNP有一个条目；μ_箱＝箱中杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；并且ρ＝分散度参数的估计值。在一些实施方案中，计算p值的上限和下限。在一些实施方案中，使用下式计算核酸变异的双尾p值：p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Pr_bb(x'<A|μ_箱,ρ,B))，其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布的随机变量；A＝核酸变异的突变等位基因计数；以及B＝核酸变异的总分子计数。

在另一方面，本公开内容提供了鉴定来自无细胞脱氧核糖核酸(cfDNA)分子样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：(a)确定来自cfDNA分子样品的核酸变异的突变等位基因计数(A)和总分子计数(B)；(b)鉴定涉及所述核酸变异的指定基因组区域内的至少一种种系杂合单核苷酸多态性(SNP)；(c)确定所述至少一种种系杂合SNP的总分子计数(y)和突变等位基因计数；(d)通过以下步骤计算所述核酸变异的概率值(p值)：(i)确定来自以下β二项式分布的μ_箱和ρ的估计值：(x,y)～β二项式(μ_箱,ρ)，其中y＝至少一种种系杂合SNP的总分子计数的向量，对于每一种种系杂合SNP有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于每一种种系杂合SNP有一个条目；μ_箱＝箱中种系杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；以及ρ＝分散度参数的估计值；(ii)根据以下等式计算双尾p值：

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Prbb(x'<A|μ_箱,ρ,B))，其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布分布的随机变量；A＝核酸变异的突变等位基因计数；并且B＝核酸变异的总分子计数；以及(e)将核酸变异(i)当p值低于预定阈值时分类为体细胞来源的，或(ii)当p值处于预定阈值或高于预定阈值时分类为种系来源的。

在一些实施方案中，ρ包括来自历史样品集的至少一组ρ值的中值。在一些实施方案中，所述方法包括确定μ_箱的最大似然估计值。在一些实施方案中，所述方法包括确定μ_箱的平均估计值。在一些实施方案中，所述方法包括确定ρ的最大似然估计值。在一些实施方案中，所述方法包括确定ρ的方差估计值。在一些实施方案中，所述方法还包括产生呈电子形式和/或纸质形式的报告，所述报告提供核酸变异分类为体细胞来源或种系来源的指示。

在另一方面，本公开内容提供了包括通信接口的系统，所述通信接口通过通信网络获得从核酸分子样品(例如，无细胞脱氧核糖核酸(cfDNA)分子样品)的核酸产生的测序信息；以及与通信接口通信的计算机，其中计算机包括至少一个计算机处理器和包含机器可执行代码的非瞬时性计算机可读介质，所述机器可执行代码在被至少一个计算机处理器执行时执行包括以下步骤的方法：(a)从测序信息确定针对核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)从测序信息鉴定核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于预定阈值或高于所述预定阈值时分类为种系来源的。

在一些实施方案中，测序信息由核酸测序仪提供。在一些实施方案中，核酸测序仪对核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序或杂交测序，以产生测序信息。在一些实施方案中，核酸测序仪使用源自测序文库的克隆单分子阵列来产生测序信息。在一些实施方案中，核酸测序仪包含具有微孔阵列的芯片以便对测序文库进行测序来产生测序信息。在一些实施方案中，非瞬时性计算机可读介质包括存储器、硬盘驱动器或计算机服务器的存储器或硬盘驱动器。在一些实施方案中，通信网络包括一个或更多个能够进行分布式计算的计算机服务器。在一些实施方案中，分布式计算是云计算。在一些实施方案中，计算机是位于远离核酸测序仪的位置的计算机服务器的一部分。在一些实施方案中，系统还包括：通过网络与计算机通信的电子显示器，其中所述电子显示器包括用于在执行(a)-(f)的至少一部分后显示结果的用户界面。在一些实施方案中，用户界面是图形用户界面(GUI)或基于网络的用户界面。在一些实施方案中，电子显示器是个人计算机的一部分。在一些实施方案中，电子显示器是能够连接互联网的计算机的一部分。在一些实施方案中，能够连接互联网的计算机位于远离计算机的位置。在一些实施方案中，非瞬时性计算机可读介质包括存储器、硬盘驱动器或计算机服务器的存储器或硬盘驱动器。在一些实施方案中，通信网络包括电信网络、互联网、外联网或内联网。

在另一方面中，本公开内容提供了治疗受试者的疾病的方法，所述方法包括向受试者施用一种或更多种定制疗法，从而治疗受试者的疾病，其中所述定制疗法已经通过以下步骤被鉴定：(a)确定针对来自核酸分子样品(例如，无细胞DNA样品)的核酸变异的一个或更多个定量测量，其中定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)鉴定来自核酸分子样品的核酸变异的至少一个相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)基于针对预期种系等位基因计数的统计模型和核酸变异的相关变量的定量值以及针对核酸变异的至少一个定量测量，产生核酸变异的概率值(p值)；(f)将核酸变异(i)当核酸变异的p值低于阈值时分类为体细胞来源的，或(ii)当所述核酸变异的p值处于阈值或高于阈值时分类为种系来源的；(g)将经分类的核酸变异与用一种或更多种疗法进行索引的一种或更多种比较用结果(comparator result)进行比较；以及(h)当经分类的核酸变异与比较用结果之间存在基本匹配时，鉴定用于治疗受试者的疾病的一种或更多种定制疗法。

从以下详述描述，本公开内容的另外的方面和优势对本领域技术人员而言将变得明显，在该详细描述中仅示出和描述了本公开内容的说明性实施方案。如将被认识到的，本公开内容能够具有其他且不同的实施方案，并且其若干细节能够在多个明显的方面进行修改，所有这些都不偏离本公开内容。相应地，附图和描述应被认为本质上是说明性的而不是限制性的。

附图简述

被并入并构成本说明书一部分的附图说明了某些实施方案，并且与书面描述一起用于解释本文公开的方法、计算机可读介质和系统的某些原理。当结合附图阅读时，可以更好地理解本文提供的描述，附图通过实例的方式而非限制的方式被包括。应当理解，除非上下文另外指示，否则贯穿附图，相似的附图标记表示相似的组成部分。还应当理解，为了说明的目的，一些或所有附图可以是示意性表示，而不一定描绘所示元件的实际相对尺寸或位置。

图1是根据本公开内容的一种实施方案的用于区分核酸分子样品中的体细胞变异和种系变异的方法的流程图表示。

图2是根据本公开内容的一种实施方案的使用β二项式分布区分核酸分子样品中的体细胞变异和种系变异的方法的流程图表示。

图3是使用β二项式分布区分种系/体细胞变异的判别边界的图示。

图4是适用于本公开内容的一些实施方案的示例性系统的示意图。

图5A是EGFR基因中T790M变异和六种常见种系杂合SNP的突变等位基因分数(MAF)与基因组位置的图示。

图5B是EGFR基因中T790M变异和六种常见种系杂合SNP的min(MAF,1-MAF)与基因组位置的图示。

定义

为了使本公开内容更容易理解，下文首先定义某些术语。以下术语和其他术语的另外的定义可能通过本说明书阐述。如果下文阐述的术语的定义与通过引用并入的申请或专利中的定义不一致，则应当使用本申请中阐述的定义来理解该术语的含义。

除非上下文另外清楚地指明，否则如本说明书和所附的权利要求书中使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指示物。因此，例如，提及“一种方法”包括一种或更多种方法和/或本文描述的该类型的步骤，并且/或者这对于本领域普通技术人员在阅读本公开内容等后将变得明显。

还应理解，本文使用的术语仅为了描述特定实施方案的目的，并不意图是限制性的。此外，除非另外定义，否则本文使用的所有技术和科学术语具有与本公开内容所属领域的普通技术人员通常理解的相同的含义。在描述和要求保护方法、计算机可读介质和系统时，将根据下文阐述的定义使用以下术语及其语法变形。

约：如本文使用的，“约(about)”或“约(approximately)”在被应用于一个或更多个感兴趣的值或要素时，是指与陈述的参考值或要素类似的值或要素。在某些实施方案中，除非被另外指明或者原本根据上下文是明显的(这样的数字将超过可能的值或要素的100％时除外)，否则术语“约(about)”或“约(approximately)”是指值或要素的范围在任一方向(大于或小于)落入所陈述的参考值或要素的25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小百分比。

衔接子：如本文使用的，“衔接子”是指短核酸(例如，长度小于约500个核苷酸、小于约100个核苷酸或小于约50个核苷酸)，其通常至少部分为双链，并且被用于连接特定样品核酸分子的任一端或两端。衔接子可以包括核酸引物结合位点和/或测序引物结合位点，所述核酸引物结合位点允许扩增两端侧接衔接子的核酸分子，所述测序引物结合位点包括用于测序应用诸如多种下一代测序(NGS)应用的引物结合位点。衔接子还可以包括针对捕获探针诸如附接至流动池支持物的寡核苷酸等的结合位点。衔接子还可以包括如本文描述的核酸标签。核酸标签通常相对于扩增引物和测序引物的结合位点放置，使得核酸标签被包含在特定核酸分子的扩增子和测序读段中。相同或不同的衔接子可以被连接至核酸分子的相应端。在一些实施方案中，除了核酸标签不同的相同的衔接子被连接至核酸分子的相应端。在一些实施方案中，衔接子是Y形衔接子，其中一端如本文描述的是平端或加尾的，用于连接核酸分子，所述核酸分子也是平端的或用一个或更多个互补核苷酸加尾的。在仍其他的示例性实施方案中，衔接子是钟形衔接子，其包含用于连接待分析的核酸分子的平端或加尾端。衔接子的其他实例包括T加尾和C加尾的衔接子。

扩增：如本文在核酸的上下文中使用的“扩增(amplify)”或“扩增(amplification)是指通常从少量的多核苷酸(例如，单个多核苷酸分子)开始产生多个拷贝的该多核苷酸或该多核苷酸的一部分，其中扩增产物或扩增子通常是可检测的。多核苷酸的扩增包括多种化学和酶促过程。

相关变量：如本文使用的，术语“相关变量”与核酸变异相关，并且它是指用于估计预期种系突变等位基因计数的变量。这样的变量可以包括但不限于种系杂合SNP、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点、来自受试者的临床数据或其任何组合。

癌症类型：如本文使用的，“癌症类型”是指例如通过组织病理学定义的癌症类型或亚型。癌症类型可以通过任何常规标准来定义，诸如基于在特定组织中的发生(例如，血癌、中枢神经系统(CNS)癌、脑癌、肺癌(小细胞和非小细胞)、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口癌、胃癌、乳腺癌、前列腺癌、卵巢癌、肺癌、小肠癌、软组织癌、神经内分泌癌、胃食管癌、头颈癌、妇科癌症、结肠直肠癌、尿路上皮癌、固态癌(solid state cancer)、异质性癌症(heterogeneous cancer)、同质性癌症(homogeneous cancer))，可以是原发性来源未知的或类似的，和/或可以具有相同细胞谱系(例如，癌、肉瘤、淋巴瘤、胆管癌、白血病、间皮瘤、黑素瘤或成胶质细胞瘤)和/或可以是显示出癌症标志物，诸如Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、激素受体和NMP-22的癌症。癌症也可以通过阶段(例如，阶段1、阶段2、阶段3或阶段4)和是否为原发性或继发性来源来分类。

无细胞核酸：如本文使用的，“无细胞核酸”是指不包含在细胞内或本来不与细胞结合的核酸，或者在一些实施方案中，是指去除完整细胞后保留在样品中的核酸。无细胞核酸可以包括，例如，来源于来自受试者的体液(例如，血液、血浆、血清、尿液、脑脊髓液(CSF)等)的所有未被包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA)及其杂交体，包括基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi相互作用RNA(piRNA)、长非编码RNA(长ncRNA)和/或这些中的任一种的片段。无细胞核酸可以是双链的、单链的、或其杂交体。无细胞核酸可以通过分泌或细胞死亡过程例如细胞坏死、凋亡等被释放到体液中。在efferosome或外来体已经摄取了从其他细胞释放的无细胞核酸的情况下，可以在efferosome或外排体中发现无细胞核酸。一些无细胞核酸是从癌细胞被释放到体液中的，例如，循环肿瘤DNA(ctDNA)。其他的是从健康细胞中释放的。ctDNA可以是未被包封的肿瘤来源的片段化DNA。无细胞核酸的另一个实例是在母体血流中自由循环的胎儿DNA，也称为无细胞胎儿DNA(cffDNA)。无细胞核酸可以具有一种或更多种表观遗传修饰，例如，无细胞核酸可被乙酰化、5-甲基化、泛素化、磷酸化、类泛素化(sumoylated)、核糖化和/或瓜氨酸化(citrullinated)。

细胞核酸：如本文使用的，“细胞核酸”是指至少在从受试者获取或收集样品的点被置于产生核酸的一个或更多个细胞内的核酸，即使作为特定分析过程的一部分，这些核酸随后被去除(例如，经由细胞裂解)。

常见种系杂合SNP：如本文使用的，术语“常见种系杂合SNP”是指从外部群体数据库(例如，ExAC)和/或从任何历史样品集获得的种系杂合单核苷酸多态性(SNP)，使得杂合SNP至少具有特定的群体等位基因频率(AF)，其中该特定的群体AF可以是0和1之间的任何值。

比较用结果：如本文使用的，“比较用结果”是指一个结果或一组结果，可以将特定的测试样品或测试结果与所述一个结果或一组结果进行比较，以鉴定测试样品或结果的一个或更多个可能的特性、和/或一种或更多种可能的预后结果、和/或一种或更多种用于受试者的定制疗法，所述测试样品是从所述受试者采集的或以其他方式获得的。比较用结果通常从一组参考样品(例如，从与测试的受试者具有相同疾病或癌症类型的受试者)获得。

拷贝数断点：如本文使用的，术语“拷贝数断点”是指这样的基因组基因座，两个在该基因组基因座的每一侧的相邻基因组区域(在同一染色体内)的拷贝数(CN)不同。

拷贝数变异：如本文使用的，“拷贝数变异(copy number variant)”、“CNV”或“拷贝数变异(copy number variation)”是指这样的现象，其中基因组的片段被重复，并且基因组中的重复片段数在所考虑的群体中的个体之间变化，并且在个体的两种状况或状态之间变化(例如，在接受疗法之前和之后的个体中CNV可以变化)。

覆盖度：如本文使用的，术语“覆盖度”、“总分子计数”或“总等位基因计数”可互换使用。它们是指特定样品中特定基因组位置处的DNA分子的总数。

定制疗法：如本文使用的，“定制疗法”是指与具有特定分类的核酸变异的受试者或受试者群体的期望治疗结果相关的疗法。

脱氧核糖核酸或核糖核酸：如本文使用的，“脱氧核糖核酸”或“DNA”是指在糖部分的2'-位置处具有氢基团的天然或修饰的核苷酸。DNA通常包括包含以下四种类型的核苷酸的核苷酸链：腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。如本文使用的，“核糖核酸”或“RNA”是指在糖部分的2'-位置处具有羟基基团的天然或修饰的核苷酸。RNA通常包括包含以下四种类型的核苷酸的核苷酸链：A、尿嘧啶(U)、G和C。如本文使用的，术语“核苷酸”是指天然核苷酸或修饰的核苷酸。某些核苷酸对以互补方式彼此特异性结合(被称为互补碱基配对)。在DNA中，腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中，腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一条核酸链与由与第一条链的核苷酸互补的核苷酸构成的第二条核酸链结合时，两条链结合形成双链。如本文使用的，“核酸测序数据”、“核酸测序信息”、“序列信息”、“核酸序列”、“核苷酸序列”、“基因组序列”、“基因序列”、或“片段序列”、或“核酸测序读段”表示指示核酸诸如DNA或RNA的分子(例如，全基因组、全转录组、外显子组、寡核苷酸、多核苷酸、或片段)中核苷酸碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶、和胸腺嘧啶或尿嘧啶)的顺序和身份的任何信息或数据。应当理解，本教导设想了使用所有可用的各种技术(technique)、平台或技术(technology)获得的序列信息，包括但不限于：毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接的核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统以及基于电子信号的系统。

预期种系突变等位基因计数：如本文使用的，术语“预期种系突变等位基因计数”是指核酸变异的基因组基因座处的种系SNP的预期突变等位基因计数。例如，可以通过统计分布来估计预期种系突变等位基因计数。统计分布可以是但不限于β二项式分布。使用该分布来确定我们预期的在该基因座处的种系杂合SNP的突变等位基因计数。例如，如果使用β二项式分布来确定特定基因组基因座处的预期种系突变等位基因计数，则预期突变等位基因计数的分布通过该基因组基因座处的平均估计值(μ)、分散度估计值(ρ)和覆盖度被参数化。

种系突变：如本文使用的，术语“种系突变”或“种系变异”可互换使用，并且是指遗传突变(即，不是受孕后出现的突变)。种系突变可能是仅有的可以传给后代的突变，并且可能存在于后代的每个体细胞和种系细胞中。

历史样品集：如本文使用的，术语“历史样品集”是指从以下受试者获得的一组样品：正常受试者(没有疾病/癌症)、患有任何疾病或癌症的受试者、具有特定癌症类型的受试者和/或正在接受或已经接受特定疗法的受试者。

插入/缺失(indel)：如本文使用的，“插入/缺失”是指涉及受试者基因组中核苷酸的插入或缺失的突变。

突变等位基因计数：如本文使用的，术语“突变等位基因计数”是指在特定基因组基因座处携带突变等位基因的DNA分子的数目。

次要等位基因计数：如本文使用的，“次要等位基因计数”是指在特定核酸群体诸如从受试者获得的样品中出现的次要等位基因(例如，不是最常见的等位基因)的数目。处于低的次要等位基因计数的遗传变异通常在样品中存在的数目相对低。

突变等位基因分数：如本文使用的，“突变等位基因分数”、“突变剂量”或“MAF”是指在特定样品中特定基因组位置/基因座处存在的等位基因改变或突变的核酸分子的分数。MAF通常被表示为分数或百分比。例如，体细胞变异的MAF值可能小于0.15。

突变：如本文使用的，“突变”是指从已知参考序列的变异，并且包括突变诸如，例如，单核苷酸变异(SNV)和插入或缺失(插入/缺失)。突变可以是种系突变或体细胞突变。在一些实施方案中，用于比较目的的参考序列是提供测试样品的受试者的物种的野生型基因组序列，通常是人类基因组。

突变调用器：如本文使用的，“突变调用器”是指用于鉴定测试样品数据(例如，从受试者获得的序列信息)中的突变的算法(通常体现为软件或被计算机以其他方式实现)。

赘生物：如本文使用的，术语“赘生物”和“肿瘤”可互换使用。它们是指受试者中细胞的异常生长。赘生物或肿瘤可以是良性的、潜在恶性的、或恶性的。恶性肿瘤是指癌症或癌性肿瘤。

下一代测序：如本文使用的，“下一代测序”或“NGS”是指与传统的基于Sanger和毛细管电泳的方法相比具有增加的通量的测序技术，例如，具有一次产生数十万个相对较小的序列读段的能力。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。

核酸标签：如本文使用的，“核酸标签”是指短核酸(例如，长度小于约500个核苷酸、约100个核苷酸、约50个核苷酸、或约10个核苷酸)，用于区分来自不同样品(例如，呈现为样品索引(sample index))的核酸、或同一样品中不同类型的或经历不同处理的不同核酸分子(例如，呈现为分子条形码)。这样的核酸标签可以用于标记不同的核酸分子或不同的核酸样品或子样品。核酸标签可以是单链、双链或至少部分双链的。核酸标签任选地具有相同的长度或不同的长度。核酸标签还可以包括具有一个或更多个平端的双链分子，包括5'或3'单链区域(例如，突出端)，和/或包括在特定分子内的其他位置处的一个或更多个其他单链区域。核酸标签可以被附接至其他核酸(例如，待被扩增和/或测序的样品核酸)的一端或两端。核酸标签可以被解码以揭示诸如特定核酸的样品来源、形式或加工的信息。例如，核酸标签也可以用于使包含带有不同分子条形码和/或样品索引的核酸的多个样品的汇集和/或并行处理成为可能，其中核酸随后通过检测(例如，读取)核酸标签被解卷积。核酸标签也可以被称为标识符或索引。这样的核酸标签、标识符或索引可以包含一个或更多个条形码。另外或可选地，核酸标签可以被用作分子标识符或索引(例如，用于区分同一样品或子样品中的不同分子或不同亲本分子的扩增子)。这包括，例如，对给定样品中的每一个不同的核酸分子独特地加标签，或对这样的分子非独特地加标签。在非独特加标签应用的情况下，可以使用有限数目的标签(例如，条形码)对每个核酸分子加标签，使得不同分子可以基于其内源序列信息(例如，其映射至所选择的参考基因组的起始和/或终止位置、序列的一端或两端的子序列和/或序列的长度)与至少一个条形码的组合而被区分。通常，使用足够数目的不同核酸标签，使得任何两个分子可能具有相同的内源序列信息(例如，起始和/或终止位置、序列的一端或两端的子序列、和/或长度)并且还具有相同的核酸标签(例如，条形码)的概率较低(例如，小于约10％、小于约5％、小于约1％、或小于约0.1％的概率)。可选地，核酸标签可以仅包含内源序列信息(例如，起始和/或终止位置、序列一端或两端的子序列、和/或长度)。一些核酸标签包含多个分子标识符以对样品、样品中核酸分子的形式、以及具有相同内源序列信息(例如，起始和/或终止位置、序列一端或两端的子序列、和/或长度)的形式中的核酸分子进行标记。这样的核酸标签可以使用示例形式“A1i”来提及，其中大写字母指示样品类型，阿拉伯数字指示样品中分子的形式，而小写罗马数字指示一种形式内的分子。

多核苷酸：如本文使用的，“多核苷酸”、“核酸”、“核酸分子”、或“寡核苷酸”是指通过核苷间键连接的核苷(包括脱氧核糖核苷、核糖核苷、或其类似物)的线性聚合物。通常，多核苷酸包含至少三个核苷。寡核酸的尺寸范围通常从几个单体单元例如3-4个到几百个单体单元。每当多核苷酸以一串字母诸如“ATGCCTG”表示时，应当理解，这些核苷酸从左到右是5'→3'的顺序，并且在DNA的情况下，“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，并且“T”表示脱氧胸苷，除非另外说明。如本领域标准的，字母A、C、G和T可以用于指碱基本身、核苷或包含这些碱基的核苷酸。

参考序列：如本文使用的，“参考序列”是指用于与实验确定的序列进行比较的目的的已知序列。例如，已知序列可以是整个基因组、染色体、或其任何区段。参考序列通常包括至少约20个、至少约50个、至少约100个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个、至少约1000个、或多于1000个核苷酸。参考序列可以与基因组或染色体的单个连续序列对齐，或者可以包括与基因组或染色体的不同区域对齐的非连续区段。参考序列的实例包括，例如，人类基因组，诸如，hG19和hG38。

样品：如本文使用的，“样品”意指能够通过本文公开的方法和/或系统分析的任何东西。

测序：如本文使用的，“测序”是指用于确定生物分子例如核酸诸如DNA或RNA的序列(例如，单体单元的身份和顺序)的若干种技术中的任一种。测序方法的实例包括但不限于靶向测序、单分子实时测序、外显子或外显子组测序、内含子测序、基于电子显微术的测序、panel测序、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模并行信号测序(massively parallel signaturesequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对末端测序、near-term测序、外切核酸酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiD^TM测序、MS-PET测序及其组合。在一些实施方案中，测序可以通过诸如，例如可从Illumina,Inc.、Pacific Biosciences,Inc.或Applied Biosystems/Thermo Fisher Scientific等许多其他的商业可获得的基因分析仪进行。

序列信息：如本文在核酸聚合物的上下文中使用的“序列信息”意指该聚合物中单体单元(例如，核苷酸等)的顺序和身份。

单核苷酸多态性：如本文使用的，术语“单核苷酸多态性”或“SNP”可互换使用。它们是指在基因组中特定位置处发生的单个核苷酸的变异，其中每一种变异在群体中的存在都在一定的可觉察的程度(例如，大于约1％)。

单核苷酸变异：如本文使用的，“单核苷酸变异”或“SNV”意指在基因组中特定位置处发生的单个核苷酸的突变或变异。

体细胞突变：如本文使用的，术语“体细胞突变”或“体细胞变异”可互换使用。它们是指受孕后发生的基因组中的突变。体细胞突变可以发生在除生殖细胞外的任何身体细胞中，并且因此不会传给后代。

受试者：如本文使用的，“受试者”是指动物，诸如哺乳动物物种(例如，人类)，或禽类(例如，鸟类)物种，或其他生物体，诸如植物。更具体地，受试者可以是脊椎动物，例如，哺乳动物，诸如小鼠、灵长类动物、猿或人类。动物包括农场动物(例如，生产用牛(productioncattle)、奶牛、家禽、马、猪等)、运动动物和伴侣动物(例如，宠物或辅助动物)。受试者可以是健康的个体，患有或被怀疑患有一种疾病或有患该疾病倾向的个体，或需要治疗或被怀疑需要治疗的个体。意图术语“个体”或“患者”与“受试者”是可互换的。

例如，受试者可以是已经被诊断患有癌症、将要接受癌症治疗和/或已经接受至少一种癌症治疗的个体。受试者可以处于癌症缓解中。作为另一个实例，受试者可以是被诊断患有自身免疫疾病的个体。作为另一个实例，受试者可以是妊娠或计划妊娠的女性个体，其可能已经被诊断患有或被怀疑患有一种疾病，例如癌症、自身免疫疾病。

基本匹配：如本文使用的，“基本匹配”意指至少一个第一值或要素至少约等于至少一个第二值或要素。例如，在某些实施方案中，当被分类的核酸变异与比较用结果之间至少存在基本匹配或近似匹配时，定制疗法被被鉴定。

阈值：如本文使用的，“阈值”是指预定值，所述预定值用于根据经实验确定的不同样品的相同参数的值与阈值的关系来表征这些经实验确定的值。例如，p值的阈值可以指0和1之间的任何预定值，并被用于鉴定核酸变异的来源。

变异(variant)：如本文使用的，“变异”可以涉及等位基因。取决于等位基因是杂合的还是纯合的，变异通常以50％(0.5)或100％(1)的频率存在。例如，种系变异是遗传的，并且通常具有为0.5或1的频率。然而，体细胞变异是获得性变异，并且通常具有小于约0.5的频率。遗传基因座的主要等位基因和次要等位基因是指含有该基因座的核酸，其中该基因座分别被参考序列的核苷酸和不同于参考序列的变异核苷酸占据。在基因座处的测量可以采取等位基因分数(AF)的形式，AF测量在样品中观察到等位基因的频率。

详细描述

I.综述

本公开内容提供了使用统计模型诸如β二项式模型以将核酸分子样品中的核酸变异分类或鉴定为体细胞来源或种系来源的方法和系统。在一些实施方案中，本公开内容的方法和系统适用于分析无细胞核酸，诸如无细胞DNA(cfDNA)。使用来自肿瘤组织的测序数据来区分体细胞变异和种系变异的许多解决方案可能依赖于肿瘤和正常组织的匹配对的可用性，并且因此可能不适用于从无细胞核酸获得的数据。用于分析cfDNA样品的解决方案可以包括对突变等位基因分数(MAF)进行阈值处理，或应用泊松统计模型来确定种系或体细胞状态。然而，这种方法可能不能准确地对cfDNA分子计数中观察到的方差建模，并且因此基于这些方法的体细胞/种系区分可能不是最佳地准确的。本文公开的方法和系统可以对核酸分子计数中观察到的方差准确建模(诸如在cfDNA中)，并且可以以高准确度区分体细胞变异和种系变异。本文公开的方法和系统可以使用参数，诸如常见种系单核苷酸多态性(SNP)，对局部种系突变等位基因计数表现(例如，涉及核酸变异的基因组区域中的种系突变等位基因计数表现)进行统计建模，并且基于MAF与观察到的种系MAF的偏差来区分体细胞变异。

在一方面，本公开内容提供了用于鉴定来自无细胞脱氧核糖核酸(cfDNA)样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：(a)确定针对来自cfDNA样品的核酸变异的多于一个定量测量，其中所述多于一个定量测量值包括核酸变异的总等位基因计数和次要等位基因计数；(b)鉴定来自cfDNA样品的核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于所述预定阈值或高于所述预定阈值时分类为种系来源的。

图1说明了用于区分核酸分子样品中的体细胞变异和种系变异的方法100的示例性实施方案。在从样品中的核酸分子鉴定到核酸变异后，可以建立与核酸变异和相关变量相关的定量值，以提供用于实施统计模型的输入值。核酸变异可以通过任何已知的方法来鉴定或检测，包括但不限于美国专利第9,598,731号、第9,834,822号、第9,840,743号、和第9,902,992号中描述的方法，在此将这些中的每一项通过引用以其整体并入。

在操作102中，可以测量并确定核酸变异的定量值。这些值可以包括但不限于核酸变异的突变等位基因计数和/或总分子计数。

模型所需的另一个输入值可以是相关变量的定量值。在操作104中，可以鉴定至少一个相关变量。相关变量可以用于估计核酸变异的基因组基因座处的预期种系突变等位基因计数。这样的相关变量可以包括但不限于种系杂合SNP、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点、来自受试者的临床数据或其任何组合。

在一些实施方案中，相关变量可以在涉及核酸变异的指定基因组区域(也被称为“箱”)内。在一些实施方案中，箱可以是包含核酸变异的基因。在一些实施方案中，箱可以是涉及核酸变异的指定基因组区域。在一些实施方案中，箱(指定基因组区域)位于核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基内。在一些实施方案中，箱位于核酸变异的“N”个碱基内，其中N是约1、约5、约10、约25、约50、约100、约250、约500、约1千、约5千、约1万、约5万、约10万、约50万、约100万或多于约100万个碱基。在一些实施方案中，N可以高达3亿个碱基。例如，箱可以位于核酸变异的10⁵个碱基内。在一些实施方案中，核酸变异的相关变量包括与包含核酸变异的基因组基因座相连的基因组基因座。在一些实施方案中，相关变量可以包括至少一种、至少两种、至少五种、至少十种或多于十种杂合SNP。在一些实施方案中，核酸变异的相关变量包括至少一种SNP，所述SNP包含至少0.00001、至少0.0001、至少0.001、至少0.002、至少0.005、至少0.01、至少0.02、至少0.05、至少0.1、至少0.2、至少0.5、至少0.75或至少0.99的群体等位基因频率(AF)。在一些实施方案中，核酸变异的相关变量包括至少一种SNP，所述SNP包含0和1之间的群体等位基因频率(AF)值。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于0.9的突变等位基因分数(MAF)。在一些实施方案中，核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含0和约1之间的突变等位基因分数(MAF)。在一些实施方案中，核酸变异的相关变量包括至少一种杂合SNP，其中杂合SNP可以是常见种系杂合SNP。

在一些实施方案中，相关变量在拷贝数断点内。不是具有固定宽度的箱或通过基因注释定义的箱，而是可以在通过拷贝数断点描绘的箱中鉴定相关变量，使得每个核酸变异的箱尽可能宽，而不与任何拷贝数断点重叠。在一些实施方案中，相关变量包括拷贝数断点内的杂合SNP。

在操作106中，可以确定核酸变异的相关变量的定量值。相关变量的定量值可以被用作应用统计模型的输入，以估计核酸变异的基因组基因座处的预期种系突变等位基因计数。在一些实施方案中，相关变量的定量值包括相关变量的突变等位基因计数和/或总分子计数。在一些实施方案中，所述方法还包括确定MAF。在一些实施方案中，MAF被调整到减小的尺度，在本文中被称为相关变量的“折叠MAF(folded MAF)”，其中折叠MAF＝min(MAF,1-MAF)。在一些实施方案中，所述方法包括确定相关变量的折叠突变等位基因计数，其中折叠突变等位基因计数＝min(突变等位基因计数，总分子计数-突变等位基因计数)。在一些实施方案中，定量值可以包括对核酸变异的相关变量鉴定的一个或更多个等位基因计数。在一些实施方案中，所述方法包括确定在核酸变异的相关变量处鉴定的一个或更多个等位基因计数的平均值和/或方差值。在一些实施方案中，所述方法包括确定核酸变异的相关变量的平均定量值。在一些实施方案中，所述方法包括确定核酸变异的相关变量的平均值和/或方差值。在一些实施方案中，核酸变异的相关变量包括至少一种非致癌性SNP。

在操作108中，可以使用统计模型，诸如β二项式模型，来处理所确定的定量值。从统计模型产生的分布可以用于确定在该基因座处的种系杂合SNP的可能预期的突变等位基因计数。例如，如果使用β二项式分布来确定特定基因组基因座处的预期种系突变等位基因计数，则预期种系突变等位基因计数的分布可以通过对应于β二项式分布的一组统计参数被参数化，所述计参数例如，该基因组基因座处的平均估计值(μ)、分散度估计值(ρ)和覆盖度。在一些实施方案中，所述方法包括确定核酸变异的μ_箱，其中μ_箱是箱中杂合SNP的突变等位基因计数的估计值。

在一些实施方案中，相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)，并且所述方法包括使用下式估计β二项式分布参数：

(x,y)～β二项式(μ_箱,ρ)，

其中y＝种系杂合SNP的总分子计数的向量，对于每一种被考虑的种系杂合SNP有一个条目；x＝min(种系杂合SNP的突变等位基因计数，y-种系杂合SNP的突变等位基因计数)的向量，对于每一种被考虑的种系杂合SNP有一个条目；μ_箱＝箱中杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；以及ρ＝分散度参数的估计值。

在某些实施方案中，x和y可以被表示为向量，对于每一种种系杂合SNP有一个条目。这可以是如果在模型中考虑两种或更多种种系杂合SNP的情况。例如，如果考虑两种种系杂合SNP，则y将被表示为y₁(het SNP₁的总分子计数)和y₂(het SNP₂的总分子计数)的向量。同样，x将被表示为x₁(对于het SNP₁)和x₂(对于het SNP₂)的向量。在一些实施方案中，可以仅考虑一种种系杂合SNP。在这些情况下，x和y的值可以被表示为只有一个条目的向量，可选地为y＝杂合SNP的总分子计数，而x＝min(杂合SNP的突变等位基因计数，y-杂合SNP的突变等位基因计数)。

在一些实施方案中，ρ包括来自历史样品集的至少一组ρ值的中值。在一些实施方案中，所述方法包括用核酸变异的GC含量的函数代替中值ρ参数。在一些实施方案中，所述方法包括确定μ_箱的最大似然估计值。在一些实施方案中，所述方法确定μ_箱的平均估计值。在一些实施方案中，所述方法包括确定ρ的最大似然估计值。在一些实施方案中，所述方法包括确定ρ的方差估计值。

在一些实施方案中，分散度参数(ρ)不是被建模为固定的数，而是可以被建模为局部基因组背景(例如，箱的基因组背景)的GC含量的函数。该函数可以根据历史样品集来估计，并且上文等式中ρ的中值可以由该函数在变异的GC含量水平的值代替。

在操作110中，可以至少部分地基于针对预期种系突变等位基因计数的统计模型、核酸变异的相关变量的定量值、以及针对核酸变异的至少一个定量测量，确定核酸变异的概率值(p值)。在一些实施方案中，所述方法包括使用下式计算核酸变异的双尾p值：

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Pr_bb(x'<A|μ_箱,ρ,B))，

其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布的随机变量；A＝核酸变异的突变等位基因计数；以及B＝核酸变异的总分子计数。

在操作112中，核酸变异可以(i)当核酸变异的p值低于阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于阈值或高于阈值时分类为种系来源的。阈值可以是能够区分种系变异和体细胞变异的任何值。阈值可以根据经验数据确定。例如，阈值可以是0和1之间的任何值。在一些实施方案中，阈值可以是至少10^-50、至少10^-30、至少10^-20、至少10^-10、至少10^-5、至少0.001、至少0.01、至少0.1、至少0.2、至少0.5、至少0.75、或至少0.99。在一些实施方案中，所述方法包括使用样品中核酸的预期种系突变等位基因计数的β-二项式模型来产生阈值。

在一些实施方案中，所述方法包括对来自核酸样品的多于一个基因组基因座的多个核酸变异的体细胞来源或种系来源进行分类。

本文公开的方法和系统通常包括从取自受试者的样品中的核酸获得序列信息。在一些实施方案中，所述方法还包括接收从核酸样品产生的测序信息，其中测序信息包括来自核酸变异和包含核酸变异的相关变量的核酸的测序读段，所述相关变量包括在涉及核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)。在一些实施方案中，所述方法还包括对来自样品的核酸进行测序以产生测序信息，其中定量测量从测序信息来确定。在一些实施方案中，所述方法包括确定针对核酸变异的定量测量，鉴定核酸变异的相关变量，以及根据从样品产生的测序信息确定定量值。

在另一方面中，本公开内容提供了鉴定来自无细胞核酸诸如cfDNA的样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：(a)确定来自cfDNA样品的核酸变异的突变等位基因计数(A)和总分子计数(B)；(b)在涉及核酸变异的指定基因组区域内鉴定至少一种种系杂合单核苷酸多态性(SNP)；(c)确定种系杂合SNP的总分子计数(y)和突变等位基因计数；(d)计算概率值(p值)，包括：(i)确定来自以下给出的β二项式分布的μ_箱和ρ的估计值：

(x,y)～β二项式(μ_箱,ρ)，

其中y＝至少一种种系杂合SNP的总分子计数的向量，对于每一种被考虑的种系杂合SNP有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于每一种被考虑的种系杂合SNP有一个条目；μ_箱＝箱中种系杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；(ii)使用下式计算双尾p值：

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Prbb(x'<A|μ_箱,ρ,B))

其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布分布的随机变量；B＝核酸变异的总分子计数；以及A＝核酸变异的突变等位基因计数；(e)将核酸变异(i)当p值低于预定阈值时分类为体细胞来源的，或(ii)当p值处于预定阈值或高于预定阈值时分类为种系来源的。

在一些实施方案中，ρ包括来自历史样品集的至少一组ρ值的中值。在一些实施方案中，所述方法包括确定μ_箱的最大似然估计值。在一些实施方案中，所述方法包括确定μ_箱的平均估计值。在一些实施方案中，所述方法包括确定ρ的最大似然估计值。在一些实施方案中，所述方法包括确定ρ的方差估计值。

图2说明了使用β二项式模型区分cfDNA样品中的体细胞变异和种系变异的方法的实施方案。在操作202中，确定来自cfDNA样品的核酸变异的突变等位基因计数(A)和总分子计数(B)。在操作204中，可以鉴定涉及核酸变异的指定基因组区域内的至少一种种系杂合单核苷酸多态性(SNP)。在操作206中，可以确定种系杂合SNP的总分子计数(y)和突变等位基因计数。在操作208中，可以使用下式估计β二项式分布的μ_箱和ρ：

(x,y)～β二项式(μ_箱,ρ)，

其中y＝至少一种种系杂合SNP的总分子计数的向量，每一种被考虑的种系杂合SNP有一个条目；x＝min(至少一种种系杂合SNP的突变等位基因计数，y-至少一种种系杂合SNP的突变等位基因计数)的向量，对于每一种被考虑的种系杂合SNP有一个条目；μ_箱＝箱中种系杂合SNP的突变等位基因计数的估计值，其中箱是涉及核酸变异的指定基因组区域；在操作210中，可以使用下式计算双尾p值：

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Prbb(x'<A|μ_箱,ρ,B))

其中Pr_bb＝β二项式的概率；x'＝以所述β二项式分布分布的随机变量；B＝核酸变异的总分子计数；以及A＝核酸变异的突变等位基因计数。

目前用于鉴定cfDNA中变异的体细胞来源或种系来源的解决方案可以包括对突变等位基因分数(MAF)进行阈值处理，或应用泊松统计模型来确定种系或体细胞状态。然而，这样的方法在对cfDNA测序分子计数中观察到的方差准确建模时可能会经历挑战，从而导致种系/体细胞区分不准确。此外，这些方法可能无法响应于来自附近变异或涉及核酸变异的其他协变量(covariate)的证据来调整其体细胞调用阈值。β二项式模型可以通过使用平均值和分散度估计值以及在核酸变异的基因组基因座处的覆盖度对预期种系突变等位基因计数的分布建模，从而克服这些问题。预期种系杂合SNP的平均估计值和分散度估计值可以用于计算核酸变异的p值，核酸变异的p值继而可以用于将变异分类为体细胞来源或种系来源的。

在操作212中，核酸变异可以(i)当p值低于预定阈值时分类为体细胞来源的，或(ii)当p值处于预定阈值或高于预定阈值时分类为种系来源的。

图3示出了使用β二项式分布区分种系/体细胞变异的判别边界的实例。核酸变异MAF的β二项式判别边界可以是以下的函数：种系杂合SNP的MAF、在变异位置处观察到的分子的总计数、和可调整的p值阈值。例如，由于拷贝数变异(CNV)或杂合性丧失(LOH)而导致等位基因不平衡的基因可能具有10-30％和70-90％范围内的种系MAF。返回参考图3，302(外侧实线)、304(中间实线)和306(内侧实线)表示使用β二项式模型的种系/体细胞区别的判别边界，p值的阈值为10^-16，并且变异总分子计数(B)分别为700、1500和3000。此外，308(外侧虚线)、310(中间虚线)和312(内侧虚线)表示使用β二项式模型的种系/体细胞区别的判别边界，p值的阈值为0.01，并且变异总分子计数(B)分别为700、1500和3000。

在一些实施方案中，序列信息是从核酸的靶区段获得的。基本上任何数目的基因组区域都可以被任选地靶向。被靶向的区段可以包括至少10个、至少50个、至少100个、至少500个、至少1000个、至少2000个、至少5000个、至少10,000个、至少20,000个、至少50,000个、或至少100,000个(例如，25个、50个、75个、100个、200个、300个、400个、500个、600个、700个、800个、900个、1,000个、2,000个、3,000个、4,000个、5,000个、6,000个、7,000个、8,000个、9,000个、10,000个、15,000个、25,000个、30,000个、35,000个、40,000个、45,000个、50,000个、或100,000个)不同的和/或重叠的基因组区域。

在一些实施方案中，所鉴定的种系变异和/或体细胞变异被用作输入，以产生呈电子形式和/或纸质形式的报告，所述报告提供多核苷酸中的这些遗传变异分类为体细胞来源或种系来源的指示。

所述方法的不同步骤可以在相同或不同的时间、在相同或不同的地理位置例如国家、并且由相同或不同的人或实体来执行。

II.方法的一般特征

A.样品

样品可以是从受试者分离的任何生物样品。样品可以包括身体组织、全血、血小板、血清、血浆、粪便、红细胞、白细胞(white blood cell)或白细胞(leucocyte)、内皮细胞、组织活组织检查(例如，来自已知或疑似的实体瘤的活组织检查)、脑脊液、滑液、淋巴液、腹水、间质液或细胞外液(例如，来自细胞间空间的流体)、齿龈液、龈沟液、骨髓、胸腔积液、脑脊液、唾液、粘液、痰、精液、汗液和尿液。样品可以是体液，诸如血液及其部分，以及尿液。这样的样品可以包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA，并且可以呈双链形式和单链形式。样品可以呈最初从受试者分离的形式，或者可以经过进一步处理以去除或添加组分，诸如细胞，相对于另一种组分富集一种组分，或者将一种形式的核酸转化为另一种，诸如将RNA转化为DNA或将单链核酸转化为双链的。因此，例如，用于分析的体液可以是含有无细胞核酸例如无细胞DNA(cfDNA)的血浆或血清。

在一些实施方案中，取自受试者的体液的样品体积取决于期望的测序区域的读段深度。体积的实例为约0.4-40毫升(mL)、约5-20mL、约10-20mL。例如，体积可以为约0.5mL、约1mL、约5mL、约10mL、约20mL、约30mL、约40mL、或更多毫升。取样血浆的体积通常在约5mL至约20mL之间。

样品可以包含不同量的核酸。通常，特定样品中核酸的量等同于多个基因组当量。例如，约30纳克(ng)DNA的样品可以包含约10,000(10⁴)个单倍体人类基因组当量，而在cfDNA的情况下，可以包含约2000亿(2x 10¹¹)个单独的多核苷酸分子。类似地，约100ng DNA的样品可以包含约30,000个单倍体人类基因组当量，而在cfDNA的情况下，可以包含约6000亿个单独的分子。

在一些实施方案中，样品包含来自不同来源，例如，来自细胞来源和来自无细胞来源(例如，血液样品等)的核酸。通常，样品包括携带突变的核酸。例如，样品任选地包含携带种系突变和/或体细胞突变的DNA。通常，样品包含携带癌症相关突变(例如，癌症相关的体细胞突变)的DNA。

扩增前样品中无细胞核酸的示例性量的范围通常为从约1飞克(fg)至约1微克(μg)，例如，约1皮克(pg)至约200纳克(ng)、约1ng至约100ng、约10ng至约1000ng。在一些实施方案中，样品包括高达约600ng、高达约500ng、高达约400ng、高达约300ng、高达约200ng、高达约100ng、高达约50ng、或高达约20ng的无细胞核酸分子。任选地，该量为至少约1fg、至少约10fg、至少约100fg、至少约1pg、至少约10pg、至少约100pg、至少约1ng、至少约10ng、至少约100ng、至少约150ng、或至少约200ng的无细胞核酸分子。在一些实施方案中，该量高达约1fg、约10fg、约100fg、约1pg、约10pg、约100pg、约1ng、约10ng、约100ng、约150ng、或约200ng的无细胞核酸分子。在一些实施方案中，方法包括从样品获得约1fg至约200ng之间的无细胞核酸分子。

无细胞核酸通常具有长度约100个核苷酸长和长度约500个核苷酸之间的尺寸分布，长度约110个核苷酸至长度约230个核苷酸之间的分子代表样品中约90％的分子，模式为长度约168个核苷酸(在来自人类受试者的样品中)，并且第二次要峰的长度在约240个核苷酸至约440个核苷酸之间的范围内。在一些实施方案中，无细胞核酸的长度为从约160个核苷酸至约180个核苷酸，或长度为从约320个核苷酸至约360个核苷酸，或长度为从约440个核苷酸至约480个核苷酸。

在一些实施方案中，通过分区步骤(partitioning step)从体液分离无细胞核酸，在该分区步骤中，在溶液中存在的无细胞核酸与体液中的完整细胞和其他不可溶性组分被分开。在一些实施方案中，分区包括诸如离心或过滤的技术。可选地，体液中的细胞可以被裂解，并且无细胞核酸和细胞核酸可以一起处理。通常，在添加缓冲液和洗涤步骤后，可以用例如醇来沉淀无细胞核酸。在一些实施方案中，使用另外的清洁(clean up)步骤诸如基于二氧化硅的柱来去除污染物或盐。例如，任选地在整个反应中添加非特异性批量(bulk)载体核酸以对示例性程序的诸如收率的多个方面进行优化。在这样的处理后，样品通常包含各种形式的核酸，包括双链DNA、单链DNA和/或单链RNA。任选地，单链DNA和/或单链RNA被转化成双链形式，使得它们被包括在随后的处理和分析步骤中。

B.加标签

在一些实施方案中，可以用样品索引和/或分子条形码(通常被称为“标签”)对核酸分子加标签。可以将标签通过化学合成、连接(例如，平端连接或粘端连接)、或重叠延伸聚合酶链反应(PCR)以及其他方法掺入到衔接子中或以其他方式连接至衔接子。这样的衔接子最终可以被连接至靶核酸分子。在其它实施方案中，通常应用一轮或更多轮的扩增循环(例如，PCR扩增)来使用常规核酸扩增方法将分子条形码和/或样品索引引入核酸分子。扩增可以在一种或更多种反应混合物中进行(例如，阵列中的多于一个微孔)。分子条形码和/或样品索引可以被同时引入或以任何顺序引入。在一些实施方案中，在执行序列捕获步骤之前和/或之后引入分子条形码和/或样品索引。在一些实施方案中，在探针捕获之前仅引入分子条形码，而在执行序列捕获步骤之后引入样品索引。在一些实施方案中，分子条形码和样品索引都在执行基于探针的捕获步骤之前引入。在一些实施方案中，在执行序列捕获步骤之后引入样品索引。通常，序列捕获方案包括引入与被靶向的核酸序列互补的单链核酸分子，所述被靶向的核酸序列例如基因组区域的编码序列，并且该区域的突变与癌症类型相关。

在一些实施方案中，标签可以位于样品核酸分子的一端或两端。在一些实施方案中，标签是预定的或随机的或半随机的序列寡核苷酸。在一些实施方案中，标签的长度可以小于约500个、200个、100个、50个、20个、10个、9个、8个、7个、6个、5个、4个、3个、2个或1个核苷酸。标签可以被随机或非随机地连接至样品核酸。

在一些实施方案中，样品或子样品的每个核酸分子都被分子条形码或分子条形码的组合独特地加标签。在其他实施方案中，可以使用多于一个条形码，使得条形码在所述多于一个条形码中相对于彼此不一定是独特的(例如，非独特分子条形码)。在这些实施方案中，条形码通常被附接(例如，通过连接或PCR扩增)至个体分子，使得条形码和其可被可附接的序列的组合产生可以被单独地追溯的独特序列。检测非独特地加标签的条形码与内源序列信息(例如，对应于样品中原始核酸分子序列的开始(起始)和/或结束(终止)部分，在一端或两端处的序列读段的子序列，序列读段的长度和/或样品中原始核酸分子的长度)的组合，通常允许给特定分子分配独特身份。个体序列读段的长度或碱基对数目也任选地被用于为特定分子分配独特的身份。如本文描述的，来自已经被分配了独特身份的核酸单链的片段从而可以允许对来自亲本链和/或互补链的片段的随后鉴定。

在一些实施方案中，分子条形码以预期的标识符(例如，独特或非独特条形码的组合)与样品中的分子的比率被引入。一种示例形式使用被连接至靶分子两端的从约2个至约1,000,000个不同的分子条形码、或从约5个至约150个不同的分子条形码、或从约20个至约50个不同的分子条形码。可选地，可以使用从约25个至约1,000,000个不同的条形码。例如，对于20-50个x 20-50个标签，创建了总计400-2500个标识符。这种数目的标识符通常足以使具有相同起点和终点的不同分子具有接收不同标识符组合的高概率(例如，至少94％、99.5％、99.99％或99.999％)。在一些实施方案中，约80％、约90％、约95％或约99％的分子具有相同的分子条形码组合。

在一些实施方案中，反应中独特或非独特的分子条形码的分配使用例如美国专利申请第20010053519、第20030152490号和第20110160078号、以及美国专利第6,582,908号、第7,537,898号、第9,598,731号和第9,902,992号中描述的方法和系统来进行，在此将它们中的每一个通过引用以其整体并入。

C.扩增

样品核酸可以侧接衔接子，并且使用与待扩增的DNA分子侧翼的衔接子中的引物结合位点结合的核酸引物通过PCR和其它扩增方法来扩增。在一些实施方案中，扩增方法包括由热循环产生的延伸、变性和退火的循环，或者可以是等温的，例如，在转录介导的扩增中。可以任选地利用的扩增方法的其他实例包括连接酶链式反应、链置换扩增、基于核酸序列的扩增、和基于自身持续序列的复制。

通常，扩增反应产生多于一个非独特或独特地加标签的核酸扩增子，其具有的分子条形码和样品索引的尺寸范围为从约150个核苷酸(nt)至约700nt、从250nt至约350nt、或从约320nt至约550nt。在一些实施方案中，扩增子具有约180nt的尺寸。在一些实施方案中，扩增子具有约200nt的尺寸。

D.富集

在一些实施方案中，序列在核酸测序之前被富集。任选地对特定靶区域进行富集或对(“靶序列”)进行非特异性地富集。在一些实施方案中，感兴趣的靶区域可以用针对一种或更多种诱饵集组选择的核酸捕获探针(“诱饵”)使用差异性平铺和捕获方案来富集。差异性平铺和捕获方案通常使用不同相对浓度的诱饵集以在遍及与诱饵相关的基因组区域中差异性平铺(例如，以不同的“分辨率”)，经受一组限制(例如，测序仪限制，诸如测序载量、每种诱饵的效用等)，并以下游测序所需的水平捕获靶核酸。这些感兴趣的靶基因组区域任选地包括天然核苷酸序列或核酸构建体的合成核苷酸序列。在一些实施方案中，具有针对一个或更多个感兴趣区域的探针的生物素标记的珠可以用于捕获靶序列，并且任选地随后扩增这些区域，以富集感兴趣区域。

序列捕获通常包括使用与靶核酸序列杂交的寡核苷酸探针。在一些实施方案中，探针设定策略包括将探针平铺在感兴趣的区域内。这样的探针的长度可以为，例如，从约60个至约120个核苷酸。该集可以具有约2X、3X、4X、5X、6X、7X、8X、9X、10X、15X、20X、50X、或多于50X的深度(例如，覆盖深度)。序列捕获的有效性通常部分地取决于靶分子中与探针序列互补(或几乎互补)的序列的长度。

E.测序

通常对任选地侧翼有衔接子、有或没有预先扩增的样品核酸进行测序。测序方法或任选地被利用的商业上可得的形式包括，例如，Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、基于纳米孔的测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、Oxford纳米孔、Roche Genia、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent、或纳米孔平台测序。测序反应可以在多种样品处理单元中进行，所述单元可以包括多行道(multiple lane)、多通道、多孔、或基本上同时处理多个样品集的其他装置。样品处理单元还可以包括多个样品室，以便能够同时处理多个运行。

可以对一种或更多种已知包含癌症或其他疾病的标志物的核酸片段类型或区域进行测序反应。也可以对样品中存在的任何核酸片段进行测序反应。可以对基因组的至少约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、或100％进行测序反应。在其他情况下，可以对基因组的少于约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％、或100％进行测序反应。

可以使用多重测序技术进行同时测序反应。在一些实施方案中，用至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸进行测序。在其他实施方案中，用少于约1000个个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸进行测序。测序反应通常顺序性地进行或同时进行。随后的数据分析通常对全部或部分的测序反应进行。在一些实施方案中，对至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、或100,000个测序反应进行数据分析。在其他实施方案中，对少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个、或100,000个测序反应进行数据分析。读段深度的一个实例是每个基因座(例如，碱基位置)从约1000个至约50000个读段。

F.分析

测序可以产生多于一个测序读取或读段。测序读取或读段可以包括长度小于约150个碱基或长度小于约90个碱基的核苷酸序列的数据。在一些实施方案中，读段的长度在约80个碱基和约90个碱基之间，例如，约85个碱基。在一些实施方案中，本公开内容的方法被应用于非常短的读段，例如，长度小于约50个碱基或约30个碱基。测序读段数据可以包括序列数据以及元信息。序列读段数据可以以任何合适的文件格式存储，包括例如，VCF文件、FASTA文件、或FASTQ文件。

FASTA可以指用于检索序列数据库的计算机程序，并且名称FASTA也可以指标准文件格式。例如，FASTA由例如Pearson&Lipman,1988,Improved tools for biologicalsequence comparison,PNAS 85:2444-2448描述，在此将其通过引用以其整体并入。FASTA格式的序列以单行描述开始，随后为序列数据行。描述行通过第一列中的大于(“>”)符号与序列数据区分开。“>”符号后面的词是序列的标识符，并且该行的其余部分是描述(都是任选的)。在“>”和标识符的第一个字母之间不应当有空格。建议文本的所有行少于80个字符。如果出现以“>”开头的另一行，则序列结束；这指示另一个序列的开始。

FASTQ格式是基于文本的格式，用于存储生物序列(通常是核苷酸序列)及其对应的质量评分。它与FASTA格式相似，但是在序列数据之后具有质量评分。为简洁起见，序列字母和质量评分都使用单个ASCII字符编码。FASTQ格式是用于存储高通量测序仪器诸如Illumina Genome Analyzer的输出结果的约定俗成的标准，例如Cock等人(“The SangerFASTQ file format for sequences with quality scores,and the Solexa/IlluminaFASTQ variants,”Nucleic Acids Res 38(6):1767-1771,2009)所描述的，在此将其通过引用以其整体并入。

对于FASTA和FASTQ文件，元信息包括描述行但不包括序列数据行。在一些实施方案中，对于FASTQ文件，元信息包括质量评分。对于FASTA和FASTQ文件，序列数据在描述行之后开始，并且通常使用一些任选地带有“-”的IUPAC模糊代码的子集呈现。在一种实施方案中，序列数据可以使用A、T、C、G和N字符，任选地根据需要包括“-”或者包括U(例如，以表示空位或尿嘧啶)。

在一些实施方案中，至少一个主序列读段文件和输出文件被存储为纯文本文件(例如，使用诸如ASCII、ISO/IEC 646、EBCDIC、UTF-8或UTF-16的编码)。本公开内容提供的计算机系统可以包括能够打开纯文本文件的文本编辑器程序。文本编辑器程序可以指能够在计算机屏幕上呈现文本文件(诸如纯文本文件)的内容、允许人员编辑文本(例如使用显示器、键盘和鼠标)的计算机程序。文本编辑器的实例包括但不限于Microsoft Word、emacs、pico、vi、BBEdit和TextWrangler。文本编辑器程序可以能够以人类可读格式在计算机屏幕上显示纯文本文件，显示元信息和序列读段(例如，不是二进制编码而是使用字母数字字符，因为它们可以用于打印或人类书写)。

虽然已经参照FASTA或FASTQ文件讨论了方法，但是本公开内容的方法和系统可以用于压缩任何合适的序列文件格式，包括例如Variant Call Format(VCF)格式的文件。典型的VCF文件可以包括标题部分和数据部分。标题包含任何数目的元信息行，每行都以字符‘##’开始，以及以单个‘#’字符开始的TAB分隔字段定义行。字段定义行命名了八个必填列，而主体部分包含填充了这些字段定义行定义的列的数据行。VCF格式由例如Danecek等人(“The variant call format and VCFtools,”Bioinformatics 27(15):2156-2158,2011)描述，在此将其通过引用以其整体并入。标题部分可以被视为要写入压缩文件的元信息，并且数据部分可以被视为行，其中每一行只有在为独特的情况下才会被存储在主文件中。

一些实施方案提供了测序读段的装配。例如，在通过比对的装配中，将测序读段彼此比对或与参考序列比对。通过比对每个读段，继而与参考基因组比对，所有读段被按照关于彼此的关系定位以创建装配体。另外，将测序读段与参考序列比对或映射至参考序列也可以用于鉴定测序读段中的变异序列。鉴定变异序列可以与本文描述的方法和系统组合使用，以进一步帮助疾病或状况的诊断或预后或用于指导治疗决定。

在一些实施方案中，任何或全部步骤是自动化的。可选地，本公开内容的方法可以全部或部分地在一个或更多个专用程序中实现，例如每一个任选地以编译语言诸如C++写入，然后以二进制编译和分发。本公开内容的方法可以全部或部分地作为现有序列分析平台内的模块或通过调用现有序列分析平台内的功能而实现。在一些实施方案中，本公开内容的方法包括响应于单个启动队列(例如，源自人类活动、另一个计算机程序或机器的触发事件中的一个事件或事件组合)而都被自动调用的多个步骤。因此，本公开内容提供了其中任何步骤或步骤的任何组合可以响应于队列而自动发生的方法。“自动地”通常意指不介入人类输入、影响或交互(例如，仅响应于原来的或预先排队的人类活动)。

本公开内容的方法还可以包括多种形式的输出，所述多种形式的输出包括对受试者的核酸样品的准确和灵敏的解释。检索的输出可以以计算机文件的格式提供。在一些实施方案中，输出是FASTA文件、FASTQ文件、或VCF文件。输出可以被处理以产生含有序列数据诸如与参考基因组的序列比对的核酸序列的文本文件或XML文件。在其他实施方案中，处理产生包含坐标或描述受试者核酸中相对于参考基因组的一个或更多个突变的字串的输出。比对字串可以包括Simple UnGapped Alignment Report(SUGAR)、Verbose UsefulLabeled Gapped Alignment Report(VALGAR)和Compact Idiosyncratic GappedAlignment Report(CIGAR)(例如，Ning等人,Genome Research 11(10):1725-9,2001描述的，在此将其通过引用以其整体并入)。这些字串可以例如在来自EuropeanBioinformatics Institute(Hinxton，UK)的Exonerate序列比对软件中实现。

在一些实施方案中，产生包含CIGAR字串的序列比对——诸如，例如序列比对图(SAM)或二元比对图(BAM)文件(SAM格式在例如Li等人,“The Sequence Alignment/Mapformat and SAMtools,”Bioinformatics,25(16):2078-9,2009中描述，在此将其通过引用以其整体并入)。在一些实施方案中，CIGAR显示或包括每行一个空位的比对。CIGAR是一种报告为CIGAR字串的压缩的成对比对格式。CIGAR字串可以用于呈现长的(例如，基因组)成对比对。CIGAR字串可以在SAM格式中使用以表示读段与参考基因组序列的比对。

CIGAR字串可以遵循建立的基序。每个字符前面是数字，给出事件的碱基计数。使用的字符可以包括M、I、D、N和S(M＝匹配；I＝插入；D＝缺失；N＝空位；S＝取代)。CIGAR字串定义匹配/不匹配和缺失(或空位)的序列。例如，CIGAR字串2MD3M2D2M可以指示，比对包含2个匹配、1个缺失(为了节省一些空间省略数字1)、3个匹配、2个缺失和2个匹配。

在一些实施方案中，通过在一端或两端具有单链突出端的双链核酸上酶促形成平端来制备用于测序的核酸群体。在这些实施方案中，在核苷酸(例如，A、C、G和T或U)存在的情况下，通常用具有5'-3'DNA聚合酶活性和3'-5'核酸外切酶活性的酶处理该群体。可以任选地使用的酶或其催化片段的实例包括Klenow大片段和T4聚合酶。在5'突出端处，酶通常延伸相对链上凹陷的3'端，直到它与5'端齐平以产生平端。在3'突出端处，酶通常从3'端消化，达到相对链的5'端并且有时超过相对链的5'端。如果该消化行进超过了相对链的5'端，则缺口可以通过具有与对5'突出端使用的具有相同的聚合酶活性的酶填补。双链核酸上平端的形成有利于例如衔接子的附接和随后的扩增。

在一些实施方案中，核酸群体经受另外的处理，诸如将单链核酸转化为双链核酸和/或将RNA转化为DNA(例如，互补DNA或cDNA)。这些形式的核酸还任选地与衔接子连接并扩增。

在有或没有预先扩增的情况下，经受上文描述的形成平端的处理的核酸以及任选地样品中的其它核酸，可以被测序以产生测序的核酸。测序的核酸可以指核酸的序列(例如，序列信息)或其序列已被确定的核酸。可以进行测序，以便从样品中个体核酸分子的扩增产物的共有序列直接或间接地提供样品中个体核酸分子的序列数据。

在一些实施方案中，样品中具有单链突出端的双链核酸在平端形成后，在两端处被与包含条形码的衔接子连接，并且测序确定了核酸序列以及通过衔接子引入的直线连接的(in-line)条形码。平端DNA分子任选地与至少部分双链的衔接子(例如，Y形或钟形衔接子)的平端连接。可选地，样品核酸和衔接子的平端可以用互补核苷酸加尾以促进连接(例如，粘端连接)。

通常使核酸样品与足够数目的衔接子接触，使得相同核酸的任何两个拷贝从连接在两端的衔接子接收相同衔接子条形码组合的概率较低(例如，小于约1％或0.1％)。以这种方式使用衔接子可以允许对在参考核酸上具有相同的起点和终点并且被连接至相同条形码组合的核酸序列家族的鉴定。这样的家族可以代表扩增前的样品中的核酸的扩增产物序列。可以对家族成员的序列进行汇编，以获得原始样品中的核酸分子的共有核苷酸或完整的共有序列，所述核酸分子通过平端形成和衔接子附接被修饰。换言之，占据样品中核酸的特定位置的核苷酸可以被确定为占据家族成员序列中对应位置的核苷酸的共有核苷酸。家族可以包括双链核酸的一条链或两条链的序列。如果家族的成员包括来自双链核酸的两条链的序列，为了对序列汇编以获得共有核苷酸或序列的目的，一条链的序列可以被转化为它们的互补序列。一些家族仅包含单个成员序列。在该情况下，该序列可以被视为扩增前样品中的核酸的序列。可选地，仅有单个成员序列的家族可以从随后的分析中排除。

通过将测序的核酸与参考序列进行比较，可以确定测序的核酸中的核苷酸变异(例如，SNV或插入/缺失)。参考序列通常是已知序列，例如，来自受试者的已知的全部或部分的基因组序列(例如，人类受试者的全基因组序列)。参考序列可以是，例如，hG19或hG38。如上文描述的，测序的核酸可以代表直接确定的样品中的核酸的序列或这种核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定位置处进行比较。当相应的序列被最大程度地比对时，可以鉴定测序的核酸的子集，该子集包括与参考序列的指定位置对应的位置。在这样的子集中，可以确定哪些(如果有的话)测序的核酸在指定位置处包含核苷酸变异，以及任选地哪些(如果有的话)包含参考核苷酸(例如，与参考序列中的相同)。如果包含核苷酸变异的子集中的测序的核酸的数目超过选定的阈值，则变异核苷酸可以在指定位置被调用。阈值可以是简单的数字，诸如包含核苷酸变异的子集中的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个测序的核酸，或者阈值可以是包含核苷酸变异的子集中的测序的核酸的比率，诸如至少0.5、1、2、3、4、5、10、15或20，以及其他可能性。可以对参考序列中感兴趣的任何指定位置重复比较。有时可以对占据参考序列上至少约20个、100个、200个或300个连续位置，例如，约20-500个或约50-300个连续位置的指定位置进行比较。

关于核酸测序的另外的细节，包括本文描述的形式和应用，还提供在以下文献中：例如，Levy等人，Annual Review of Genomics and Human Genetics,17:95-115(2016)；Liu等人，J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012)；Voelkerding等人，Clinical Chem.,55:641-658(2009)；MacLean等人，NatureRev.Microbiol.,7:287-296(2009),Astier等人，J Am Chem Soc.,128(5):1705-10(2006)；美国专利第6,210,891号、美国专利第6,258,568号、美国专利第6,833,246号、美国专利第7,115,400号、美国专利第6,969,488号、美国专利第5,912,148号、美国专利第6,130,073号、美国专利第7,169,560号、美国专利第7,282,337号、美国专利第7,482,120号、美国专利第7,501,245号、美国专利第6,818,395号、美国专利第6,911,345号、美国专利第7,501,245号、美国专利第7,329,492号、美国专利第7,170,050号、美国专利第7,302,146号、美国专利第7,313,308号和美国专利第7,476,503号，在此将这些中的每一个通过引用以其整体并入。

III.计算机系统

本公开内容的方法可以使用或借助于计算机系统来实现。例如，这样的方法可以包括：(a)确定针对来自核酸分子样品(例如，cfDNA样品)的核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)鉴定来自样品的核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于所述预定阈值或高于所述预定阈值时分类为种系来源的。

图4示出了被编程或以其他方式被配置以实现本公开内容的方法的计算机系统401。计算机系统401可以控制样品制备、测序和/或分析的多个方面。在一些实例中，计算机系统401被配置成执行样品制备和样品分析，包括核酸测序。

计算机系统401包括中央处理单元(CPU，本文中也被称为“处理器”和“计算机处理器”)405，其可以是单核或多核处理器或用于并行处理的多于一个处理器。计算机系统401还包括存储器或存储器位置410(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元415(例如，硬盘)、用于与一个或更多个其他系统进行通信的通信界面420(例如，网络适配器)和外围设备425，诸如高速缓冲存储器(cache)、其他存储器、数据存储和/或电子显示适配器。存储器410、储存单元415、界面420和外围设备425与CPU 405通过通信网络或总线(实线路)诸如主板(motherboard)通信。存储单元415可以是用于存储数据的数据存储单元(或数据储存库)。计算机系统401可以借助于通信界面420被可操作地耦合至计算机网络430。计算机网络430可以是互联网(Internet)、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下，计算机网络430为电信和/或数据网络。计算机网络430可以包括一个或更多个计算机服务器，这可以启动分布式计算，诸如云计算。在一些情况下，借助于计算机系统401，计算机网络430可以实现对等网络(peer-to-peer network)，其可以启动耦合至计算机系统401的设备作为客户端或服务器运行。

CPU 405可以执行一系列的机器可读指令，该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置，诸如存储器410中。由CPU 405进行的操作的实例可以包括读取、解码、执行和写回。

存储单元415可以存储文件，诸如驱动程序、库和保存的程序。存储单元415可以存储用户生成的程序和记录的会话以及与程序相关的输出。存储单元415可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统401可以包括一个或更多个另外的数据存储单元，该另外的数据存储单元在计算机系统401的外部，诸如位于通过内联网或互联网与计算机系统401通信的远程服务器上。可以使用例如通信网络或物理数据传输器(例如，使用硬盘驱动器、拇指驱动器、或其他数据存储机制)将数据从一个位置传输到另一个位置。

计算机系统401可以与一个或更多个远程计算机系统通过网络430进行通信。例如，计算机系统401可以与用户(例如，操作者)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如，便携式PC)、板式(slate)或平板PC(例如，

iPad、

Galaxy Tab)、电话、智能电话(例如，

iPhone、Android支持的设备、

)或个人数字助手。用户可以经由网络430访问计算机系统401。

如本文描述的方法可以通过机器(例如，计算机处理器)可执行代码的方式实现，该机器可执行代码被存储在计算机系统401的电子存储位置，诸如，例如存储器410或电子存储单元415上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器405执行。在一些情况下，代码可以从存储单元415检索并存储在存储器410上，以便于处理器405即时访问。在一些情况下，可以排除电子存储单元415，而将机器可执行指令存储于存储器410上。

在一方面，本公开内容提供了非瞬时性计算机可读介质，所述非瞬时性计算机可读介质包含计算机可执行指令，当所述计算机可执行指令被至少一个电子处理器执行时，执行包括以下步骤的方法：(a)确定针对来自cfDNA样品的核酸变异的多于一个定量测量，其中所述多于一个定量测量包括核酸变异的总等位基因计数和次要等位基因计数；(b)鉴定来自cfDNA样品的核酸变异的相关变量；(c)确定核酸变异的相关变量的定量值；(d)产生针对核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；(e)至少部分地基于针对核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的统计模型以及核酸变异的相关变量的定量值，产生核酸变异的概率值(p值)；以及(f)将核酸变异(i)当核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当核酸变异的p值处于所述预定阈值或高于所述预定阈值时分类为种系来源的。

代码可以被预编译并配置成用于与具有适于执行该代码的处理器的机器一起使用或可以在运行时间期间被编译。代码可以以编程语言的形式提供，该编程语言可以被选择使得代码能够以预编译的或按原来编译(as-compiled)的方式被执行。

本文所提供的系统和方法的各方面，诸如计算机系统401，可以体现在编程中。技术的多个方面可以被认为是通常被携带在一种类型的机器可读介质或以一种类型的机器可读介质体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品(articles of manufacture)”。机器可执行代码可以被存储于电子存储单元诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等或其相关模块，诸如多种半导体存储器、磁带驱动器、磁盘驱动器等的任一种或全部有形存储器，其可以在任何时间为软件编程提供非暂时性存储。

软件的全部或一部分有时可以通过互联网或多种其他通信网络进行通信。例如，此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器中，例如，从管理服务器或主机加载到应用服务器的计算机平台中。因此，可以携带软件元件的另一类型的介质包括诸如那些在本地设备之间跨物理界面、通过有线和光纤陆线网络以及在多种空中链路(air-link)上使用的光波、电波和电磁波。携带此类波的物理元件，诸如有线或无线链路、光链路等，也可被认为是携带软件的介质。如本文使用的，除非被限制为非暂时性的、有形的“存储”介质，否则术语诸如计算机或机器“可读介质”是指参与将指令提供至处理器以便执行的任何介质。

因此，机器可读介质，诸如计算机可执行代码，可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如光盘或磁盘，诸如附图中示出的在任何计算机等中的任何存储设备，诸如可以用于实现数据库等。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内的总线的导线。载波传输介质可采取电信号或电磁信号或者声波或光波的形式，诸如在射频(RF)和红外(IR)数据通信期间生成的那些。因此，计算机可读介质的常见形式包括例如：软盘(floppydisk)、软磁盘(flexible disk)、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路，或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以参与将一串或更多串的一个或更多个指令运送至处理器以便执行。

计算机系统401可以包括电子显示器或与之通信，该电子显示器包括用户界面(UI)，以便提供例如样品分析的一个或更多个结果。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

关于计算机系统和网络、数据库以及计算机程序产品的另外的细节还提供于以下文献中：例如，Peterson,Computer Networks:A Systems Approach,Morgan Kaufmann，第5版(2011)；Kurose,Computer Networking:A Top-Down Approach,Pearson，第7版(2016),Elmasri,Fundamentals of Database Systems,Addison Wesley，第6版(2010),Coronel,Database Systems:Design,Implementation,&Management,Cengage Learning，第11版(2014),Tucker,Programming Languages,McGraw-Hill Science/Engineering/Math，第2版(2006)；和Rhoton,Cloud Computing Architected:Solution Design Handbook,Recursive Press(2011)，将这些中的每一项在此通过引用以其整体并入。

IV.应用

A.癌症和其他疾病

在一些实施方案中，本文公开的方法和系统可以基于将核酸变异分类为体细胞来源或种系来源而用于鉴定定制或靶向的疗法以治疗患者的特定疾病或状况。通常，被考虑的疾病是一种类型的癌症。这样的癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑素瘤、葡萄膜黑素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌(clear cell renal cellcarcinoma)、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓性白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓性白血病(CML)、慢性粒单核细胞白血病(CMML)、肝癌(liver cancer)、肝癌(liver carcinoma)、肝细胞瘤、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞淋巴瘤/白血病、外周T细胞淋巴瘤、多发骨髓瘤、鼻咽癌(NPC)、神经母细胞瘤、口咽癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、泡细胞癌。前列腺癌、前列腺腺癌、皮肤癌、黑素瘤、恶性黑素瘤、皮肤黑素瘤、小肠癌、胃癌(stomach cancer)、胃癌(gastric carcinoma)、胃肠间质瘤(GIST)、子宫癌、或子宫肉瘤。

使用本文公开的方法和系统任选地评估的其它基于遗传的疾病、紊乱或状况的非限制性实例包括软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、夏科-马里-图思病(CMT)、猫叫综合征、克罗恩病、囊性纤维化、Dercum病、唐氏综合征、Duane综合征、杜兴氏肌营养不良症、因子V Leiden易栓症、家族性高胆固醇血症、家族性地中海热、脆性X综合征、戈谢病、血色素沉着病、血友病、全前脑畸形、亨廷顿病、克兰费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、Poland异常、卟啉症、早老症、视网膜色素变性、重症联合免疫缺陷病(scid)、镰状细胞病、脊髓性肌萎缩症、泰-萨克斯病、地中海贫血、三甲基胺尿症、特纳综合征、颚心脸综合征(velocardiofacial syndrome)、WAGR综合征、威尔逊病等。

B.治疗和相关管理

在某些实施方案中，本文公开的方法涉及鉴于核酸变异为体细胞来源或种系来源的状态，鉴定定制疗法并向患者施用定制疗法。在一些实施方案中，基本上任何癌症疗法(例如，手术疗法、放射疗法、化疗疗法和/或类似疗法)都可以被包括为这些方法的一部分。通常，定制疗法包括至少一种免疫疗法(或免疫治疗剂)。免疫疗法通常是指增强针对特定癌症类型的免疫应答的方法。在某些实施方案中，免疫疗法是指增强针对肿瘤或癌症的T细胞应答的方法。

在某些实施方案中，来自受试者的样品的核酸变异为体细胞来源或种系来源的状态可以与来自参考群体的比较用结果的数据库进行比较，以鉴定用于该受试者的定制或靶向疗法。通常，参考群体包括与测试的受试者具有相同癌症或疾病类型的患者和/或正在接受或已经接受与测试的受试者相同的疗法的患者。当核酸变异和比较用结果满足某些分类标准(例如，基本或近似匹配)时，可以鉴定定制或靶向疗法(或多种疗法)。

在某些实施方案中，本文描述的定制疗法通常为胃肠外(例如，静脉内或皮下)施用。包含免疫治疗剂的药物组合物通常被静脉内施用。某些治疗剂被口服施用。然而，定制疗法(例如，免疫治疗剂等)也可以通过本领域已知的任何方法被施用，包括例如，含服、舌下、直肠、阴道、尿道内、局部、眼内、鼻内和/或耳内，所述施用以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、油膏、软膏等。

实施例

实施例1：使用β二项式模型对比阈值方法来确定EGFRT790M突变是种系来源还是体细胞来源的

使用由Guardant Health,Inc.(Redwood City,CA)开发的基于血液的DNA测定来处理和分析一组样品。被分析的样品中的一个具有在7号染色体上的基因组位置55249071处的EGFR基因中的T790M突变(单核苷酸变异)。使用生物信息学分析估计该变异的突变等位基因计数(A)和总等位基因计数(B)分别为1,855和10,806。该变异的突变等位基因分数(MAF)被估计为0.177(MAF＝A/B)。

为了确定变异的来源，EGFR基因被用作β二项式模型中的箱。在EGFR基因中发现了六种常见的种系杂合SNP，它们(i)在ExAC数据库中被列出，具有大于0.001的群体等位基因频率，或者(ii)在历史样品集的数据库中被作为已知种系杂合SNP列出，具有小于0.9的MAF。在β二项式模型中使用了这六种常见种系杂合SNP的突变等位基因计数和总等位基因计数，并且使用β二项式模型估计μ_EGFR参数的最大似然估计值(MLE)为0.3971。图5A示出了T790M(●)变异和六种常见种系杂合SNP(▲)的MAF与基因组位置的图。图5B示出了T790M(●)变异和六种常见种系杂合SNP(▲)的min(MAF,1-MAF)与基因组位置的图。通过β二项式模型估计的0.3971的μ_EGFR在图5A和图5B两者中都以实线示出。ρ参数按照历史样品集的种系SNP的ρ值的中值来估计，并且被计算为9.2x 10^-5。使用这些μ_EGFR值和ρ值，T790M变异的双尾p值被计算为2.8x 10^-302。使用p值的预定阈值10^-16来鉴定变异的来源(例如，种系或体细胞的)。由于T790M变异的p值小于预定阈值，因此T790M变异被确定为体细胞来源的。

作为与使用β二项式模型的比较，可以基于MAF阈值方法来确定任何变异的来源，诸如通过使用0.15的MAF作为阈值(例如，将具有小于0.15的MAF的变异分类为体细胞变异，或者将具有大于或等于0.15的MAF的变异分类为种系变异)。在此描述的T790M变异具有0.177的测量的MAF，其大于MAF阈值0.15。因此，使用MAF阈值法，T790M变异将被错误地鉴定为种系来源的。相比之下，β二项式模型通过考虑在EGFR基因中观察到的任何等位基因不平衡对EGFR基因的局部基因组背景准确地建模，并且因此正确地将变异鉴定为体细胞来源的。

虽然本文已经示出并描述了本发明的优选实施方案，但是对于本领域技术人员将明显的是，这些实施方案仅被作为实例提供。并不意图本发明受限于本说明书中提供的具体实例。虽然已经参考以上提及的说明书描述了本发明，但本文实施方案的描述和说明并不意图以限制性的意义来解释。本领域技术人员现将想到不偏离本发明的许多变化、改变和替换。此外，应当理解，本发明的所有方面并不限于本文取决于多种条件和变量阐述的具体描述、配置或相对比例。应当理解，本文描述的本发明的实施方案的各种替代方案均可以用于实践本发明。因此设想了，本发明还应当涵盖任何这样的替代选择、修改、变化或等同物。意图以下的权利要求书限定本发明的范围，并且从而涵盖在这些权利要求的范围内的方法和结构及其等同物。

虽然为了清楚与理解的目的，已经通过图示和实例的方式对前述公开内容进行了一些详细描述，但是本领域普通技术人员通过阅读本公开内容将会清楚，在不偏离本公开内容的真实范围的情况下，可以进行形式和细节上的多种改变，并且可以在所附权利要求书的范围内实施。例如，所有方法、系统、计算机可读介质和/或组件特征、步骤、元件或其他方面都可以以多种组合来使用。

本文引用的所有专利、专利申请、网站、其他出版物或文件、登录号等都为了所有目的被通过引用以其整体并入，其程度如同每个单独的项目都被具体且单独地指示通过引用如此并入一样。如果一个序列的不同版本在不同时间与一个登记号相关联，则意指在本申请的实际提交日期与该登记号相关联的版本。如果适用的话，有效提交日期意指真实提交日期或提及该登记号的优先权申请的提交日期中较早的一个。同样，如果出版物、网站等的不同版本在不同时间发布，则意指在本申请的实际提交日期最近发布的版本，除非另有指示。

Claims

1.一种鉴定来自无细胞脱氧核糖核酸(cfDNA)分子样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：

(a)确定针对来自所述cfDNA样品的所述核酸变异的多于一个定量测量，其中所述多于一个定量测量包括所述核酸变异的总等位基因计数和次要等位基因计数；

(b)鉴定来自所述cfDNA分子样品的所述核酸变异的相关变量；

(c)确定所述核酸变异的相关变量的定量值；

(d)产生针对所述核酸变异的基因组基因座处的预期种系突变等位基因计数的统计模型；

(e)至少部分地基于针对所述核酸变异的多于一个定量测量中的至少一个、针对预期种系突变等位基因计数的所述统计模型以及所述核酸变异的相关变量的定量值，产生所述核酸变异的概率值(p值)；以及

(f)将所述核酸变异(i)当所述核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当所述核酸变异的p值处于所述预定阈值或高于所述预定阈值时分类为种系来源的。

2.如权利要求1所述的方法，所述方法还包括从受试者获得所述cfDNA分子样品。

3.如权利要求1或2所述的方法，所述方法还包括接收从所述cfDNA样品产生的测序信息，其中所述测序信息包括包含所述核酸变异的cfDNA测序读段和所述核酸变异的相关变量，所述相关变量包括在涉及所述核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(het SNP)。

4.如前述权利要求中任一项所述的方法，所述方法还包括对来自所述cfDNA样品的核酸进行测序以产生测序信息，其中针对所述核酸变异的多于一个定量测量和相关变量的定量值从所述测序信息来确定。

5.如前述权利要求中任一项所述的方法，所述方法还包括确定针对所述核酸变异的多于一个定量测量，鉴定所述核酸变异的相关变量，以及根据从所述cfDNA分子样品产生的测序信息确定所述相关变量的定量值。

6.如前述权利要求中任一项所述的方法，所述方法还包括使用所述cfDNA分子样品的核酸的预期种系突变等位基因计数的β-二项式模型来产生所述预定阈值。

7.如前述权利要求中任一项所述的方法，所述方法还包括对来自所述cfDNA分子样品的多于一个基因组基因座的多于一个核酸变异的体细胞来源或种系来源进行分类。

8.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括至少一种杂合单核苷酸多态性(het SNP)。

9.如权利要求8所述的方法，其中所述核酸变异的相关变量包括至少两种het SNP。

10.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括与包含所述核酸变异的基因组基因座相连的基因组基因座。

11.如前述权利要求中任一项所述的方法，所述方法还包括确定所述核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值。

12.如前述权利要求中任一项所述的方法，所述方法还包括确定所述核酸变异的相关变量的平均定量值。

13.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点以及受试者的临床数据。

14.如前述权利要求中任一项所述的方法，所述方法还包括确定所述核酸变异的相关变量的平均值和/或方差值。

15.如前述权利要求中任一项所述的方法，所述方法还包括确定所述核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱，其中箱是包含所述核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。

16.如权利要求15所述的方法，其中所述指定基因组区域是在所述核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。

17.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。

18.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。

19.如前述权利要求中任一项所述的方法，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

20.如前述权利要求中任一项所述的方法，其中所述相关变量包括在涉及所述核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)，并且其中所述方法还包括使用下式估计β二项式分布参数：

(x,y)～β二项式(μ_箱,ρ)，

其中

y＝种系杂合SNP的总分子计数的向量，对于在(b)中鉴定出的每一种种系杂合SNP有一个条目；

x＝min(种系杂合SNP的突变等位基因计数，y-种系杂合SNP的突变等位基因计数)的向量，对于在(b)中鉴定出的每一种种系杂合SNP有一个条目；

μ_箱＝箱中杂合SNP的平均突变等位基因计数的估计值，其中所述箱是涉及所述核酸变异的指定基因组区域；以及

ρ＝分散度参数的估计值。

21.如权利要求20所述的方法，所述方法还包括使用下式计算所述核酸变异的双尾p值：

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Pr_bb(x'<A|μ_箱,ρ,B))，

其中

Pr_bb＝β二项式的概率；

x'＝以所述β二项式分布的随机变量；

A＝所述核酸变异的突变等位基因计数；以及

B＝所述核酸变异的总分子计数。

22.如权利要求20所述的方法，其中ρ包括来自历史样品集的至少一组ρ值的中值。

23.如权利要求22所述的方法，所述方法还包括用核酸变异的GC含量的函数代替中值ρ参数。

24.如权利要求20所述的方法，所述方法还包括确定μ_箱的最大似然估计值。

25.如权利要求20所述的方法，所述方法还包括确定μ_箱的平均估计值。

26.如权利要求20所述的方法，所述方法还包括确定ρ的最大似然估计值。

27.如权利要求20所述的方法，所述方法还包括确定ρ的方差估计值。

28.如前述权利要求中任一项所述的方法，所述方法还包括计算所述p值的上限和下限。

29.一种非瞬时性计算机可读介质，所述非瞬时性计算机可读介质包含计算机可执行指令，所述计算机可执行指令当被至少一个电子处理器执行时执行包括以下步骤的方法：

(a)根据从无细胞脱氧核糖核酸(cfDNA)样品产生的测序信息确定针对核酸变异的多于一个定量测量，其中所述多于一个定量测量包括所述核酸变异的总等位基因计数和次要等位基因计数；

(b)从所述测序信息鉴定所述核酸变异的相关变量；

(c)确定所述核酸变异的相关变量的定量值；

30.如权利要求29所述的非瞬时性计算机可读介质，其中所述预定阈值使用所述cfDNA样品的核酸的预期种系突变等位基因计数的β-二项式模型来产生。

31.如权利要求29至30中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括至少一种杂合单核苷酸多态性(het SNP)。

32.如权利要求31所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括至少两种het SNP。

33.如权利要求29至32中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括与包含所述核酸变异的基因组基因座相连的基因组基因座。

34.如权利要求29至33中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值被确定。

35.如权利要求29至34中任一项所述的非瞬时性计算机可读介质，其中所述多于一个定量测量中的至少一个包括所述cfDNA样品的包含所述核酸变异的核酸分子的数目。

36.如权利要求29至35中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点以及受试者的临床数据。

37.如权利要求29至36中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱被确定，其中箱是包含所述核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。

38.如权利要求37所述的非瞬时性计算机可读介质，其中所述指定基因组区域是在所述核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。

39.如权利要求29至38中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。

40.如权利要求29至39中任一项所述的非瞬时性计算机可读介质，其中所述相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。

41.如权利要求29至40中任一项所述的非瞬时性计算机可读介质，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

42.如权利要求29至41中任一项所述的非瞬时性计算机可读介质，其中所述相关变量包括在涉及所述核酸变异的指定基因组区域内的至少一种杂合单核苷酸多态性(SNP)，并且其中β二项式分布参数使用下式估计：

(x,y)～β二项式(μ_箱,ρ)，

其中

μ_箱＝箱中杂合SNP的突变等位基因计数的估计值，其中所述箱是涉及所述核酸变异的指定基因组区域；以及

ρ＝分散度参数的估计值。

43.如权利要求29至42中任一项所述的非瞬时性计算机可读介质，其中所述p值的上限和下限被计算。

44.如权利要求43所述的非瞬时性计算机可读介质，其中所述核酸变异的双尾p值使用下式计算：

p值＝2*min(Pr_bb(x'>x|μ_箱,ρ,B),Pr_bb(x'<x|μ_箱,ρ,B))，

其中

Pr_bb＝β二项式的概率；

x'＝以所述β二项式分布的随机变量；

A＝所述核酸变异的突变等位基因计数；以及

B＝所述核酸变异的总分子计数。

45.一种系统，所述系统包括控制器，所述控制器包含非瞬时性计算机可读介质或能够访问所述非瞬时性计算机可读介质，所述非瞬时性计算机可读介质包含计算机可执行指令，所述计算机可执行指令当被至少一个电子处理器执行时执行包括以下步骤的方法：

(b)从所述测序信息鉴定所述核酸变异的相关变量；

(c)确定所述核酸变异的相关变量的定量值；

46.如权利要求45所述的系统，所述系统包括可操作地连接至所述控制器的核酸测序仪，所述核酸测序仪被配置成提供来自所述cfDNA样品的核酸的测序信息。

47.如权利要求45或46所述的系统，所述系统包括可操作地连接至所述控制器的样品制备组件，所述样品制备组件被配置成制备待由核酸测序仪测序的所述cfDNA样品的核酸。

48.如权利要求45至47中任一项所述的系统，所述系统包括可操作地连接至所述控制器的核酸扩增组件，所述核酸扩增组件被配置成扩增所述cfDNA样品的核酸。

49.如权利要求45至48中任一项所述的系统，所述系统包括可操作地连接至所述控制器的物质转移组件，所述物质转移组件被配置成在核酸测序仪和样品制备组件之间转移一种或更多种物质。

50.如权利要求45至49中任一项所述的系统，其中所述预定阈值使用针对所述cfDNA样品的核酸的预期种系突变等位基因计数的β-二项式模型来产生。

51.如权利要求45至50中任一项所述的系统，其中所述核酸变异的相关变量包括至少一种杂合单核苷酸多态性(het SNP)。

52.如权利要求51所述的系统，其中所述核酸变异的相关变量包括至少两种het SNP。

53.如权利要求45至52中任一项所述的系统，其中所述核酸变异的相关变量包括与包含所述核酸变异的基因组基因座相连的基因组基因座。

54.如权利要求45至53中任一项所述的系统，其中所述核酸变异的相关变量的一个或更多个突变等位基因计数的平均值和/或方差值被确定。

55.如权利要求45至54中任一项所述的系统，其中所述p值被用于对所述核酸变异进行分类。

56.如权利要求45至55中任一项所述的系统，其中所述多于一个定量测量中的至少一个包括所述cfDNA样品的包含所述核酸变异的核酸分子的数目。

57.如权利要求45至56中任一项所述的系统，其中所述相关变量包括以下中的一项或更多项：杂合单核苷酸多态性(het SNP)、GC含量测量、探针特异性偏倚测量、片段长度值、测序统计测量、拷贝数断点以及受试者的临床数据。

58.如权利要求45至57中任一项所述的系统，其中所述核酸变异的局部种系折叠突变等位基因分数(MAF)，μ_箱被确定，其中箱是包含所述核酸变异的基因或另一指定基因组区域，且折叠MAF是min(MAF,1-MAF)。

59.如权利要求45至58中任一项所述的系统，其中所述指定基因组区域是在所述核酸变异的约10¹个、10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或10¹⁰个碱基对内的区域。

60.如权利要求45至59中任一项所述的系统，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含大于约0.001的群体等位基因频率(AF)。

61.如权利要求45至60中任一项所述的系统，其中所述核酸变异的相关变量包括至少一种非致癌性单核苷酸多态性(SNP)。

62.如权利要求45至61中任一项所述的系统，其中所述核酸变异的相关变量包括至少一种单核苷酸多态性(SNP)，所述单核苷酸多态性(SNP)包含小于约0.9的突变等位基因分数(MAF)。

63.如权利要求45至62中任一项所述的系统，其中所述相关变量包括在涉及所述核酸变异的指定基因组区域内的至少一种杂合SNP，并且其中β二项式分布参数使用下式估计：

(x,y)～β二项式(μ_箱,ρ)，

其中

μ_箱＝箱中杂合SNP的突变等位基因计数的估计值，其中所述箱是涉及所述核酸变异的指定基因组区域；并且

ρ＝分散度参数的估计值。

64.如权利要求63所述的系统，其中所述核酸变异的双尾p值使用下式计算：

其中

Pr_bb＝β二项式的概率；

x'＝以所述β二项式分布的随机变量；

A＝所述核酸变异的突变等位基因计数；以及

B＝所述核酸变异的总分子计数。

65.如权利要求45至64中任一项所述的系统，其中所述p值的上限和下限被计算。

66.一种鉴定来自无细胞脱氧核糖核酸(cfDNA)分子样品的核酸变异的体细胞来源或种系来源的方法，所述方法包括：

(a)确定来自所述cfDNA分子样品的所述核酸变异的突变等位基因计数(A)和总分子计数(B)；

(b)在涉及所述核酸变异的指定基因组区域内鉴定至少一种种系杂合单核苷酸多态性(SNP)；

(c)确定所述至少一种种系杂合SNP的总分子计数(y)和突变等位基因计数；

(d)通过以下步骤计算所述核酸变异的概率值(p值)：

(i)确定来自以下β二项式分布的μ_箱和ρ的估计值

(x,y)～β二项式(μ_箱,ρ)，

其中

y＝所述种系杂合SNP的总分子计数的向量，对于在(b)中鉴定出的每一种种系杂合SNP有一个条目；

x＝min(所述种系杂合SNP的突变等位基因计数，y-所述种系杂合SNP的突变等位基因计数)的向量，对于在(b)中鉴定出的每一种种系杂合SNP有一个条目；

μ_箱＝箱中种系杂合SNP的突变等位基因计数的估计值，其中所述箱是涉及所述核酸变异的指定基因组区域；以及

ρ＝分散度参数的估计值；

(ii)根据以下等式计算双尾p值

p值＝2*min(Pr_bb(x'>A|μ_箱,ρ,B),Prbb(x'<A|μ_箱,ρ,B))

其中

Pr_bb＝β二项式的概率；

x'＝以所述β二项式分布分布的随机变量；

A＝所述核酸变异的突变等位基因计数；

B＝所述核酸变异的总分子计数；以及

(e)将所述核酸变异(i)当所述p值低于预定阈值时分类为体细胞来源的，或(ii)当所述p值处于所述预定阈值或高于所述预定阈值时分类为种系来源的。

67.如权利要求66所述的方法，其中ρ包括来自历史样品集的至少一组ρ值的中值。

68.如权利要求66或67所述的方法，所述方法包括确定μ_箱的最大似然估计值。

69.如权利要求66至68中任一项所述的方法，所述方法包括确定μ_箱的平均估计值。

70.如权利要求66至69中任一项所述的方法，所述方法包括确定ρ的最大似然估计值。

71.如权利要求66至70中任一项所述的方法，所述方法包括确定ρ的方差估计值。

72.一种系统，所述系统包括

通信接口，所述通信接口通过通信网络获得从无细胞脱氧核糖核酸(cfDNA)样品的核酸产生的测序信息；以及

与所述通信接口通信的计算机，其中所述计算机包括至少一个计算机处理器和包含机器可执行代码的非瞬时性计算机可读介质，所述机器可执行代码在被至少一个计算机处理器执行时执行包括以下步骤的方法：

(a)从所述测序信息确定针对核酸变异的多于一个定量测量，其中所述多于一个定量测量包括所述核酸变异的总等位基因计数和次要等位基因计数；

(b)从所述测序信息鉴定所述核酸变异的相关变量；

(c)确定所述核酸变异的相关变量的定量值；

(f)将所述核酸变异(i)当所述核酸变异的p值低于预定阈值时分类为体细胞来源的，或(ii)当所述核酸变异的p值处于所述预定阈值时或高于所述预定阈值时分类为种系来源的。

73.如权利要求72所述的系统，其中所述测序信息通过核酸测序仪来提供。

74.如权利要求73所述的系统，其中所述核酸测序仪对所述核酸进行焦磷酸测序、单分子测序、纳米孔测序、半导体测序、合成测序、连接测序或杂交测序，以产生所述测序信息。

75.如权利要求73所述的系统，其中所述核酸测序仪使用源自测序文库的克隆单分子阵列来产生所述测序信息。

76.如权利要求73所述的系统，其中所述核酸测序仪包含具有微孔阵列的芯片以便对测序文库进行测序以产生所述测序信息。

77.如权利要求72至76中任一项所述的系统，其中所述非瞬时性计算机可读介质包括存储器、硬盘驱动器或计算机服务器的存储器或硬盘驱动器。

78.如权利要求72至76中任一项所述的系统，其中所述通信网络包括一个或更多个能够进行分布式计算的计算机服务器。

79.如权利要求78所述的系统，其中所述分布式计算是云计算。

80.如权利要求72至79中任一项所述的系统，其中所述计算机是位于远离所述核酸测序仪的位置的计算机服务器的一部分。

81.如权利要求72至80中任一项所述的系统，所述系统还包括：

通过网络与所述计算机通信的电子显示器，其中所述电子显示器包括用于在执行(a)-(f)的至少一部分后显示结果的用户界面。

82.如权利要求81所述的系统，其中所述用户界面是图形用户界面(GUI)或基于网络的用户界面。

83.如权利要求81所述的系统，其中所述电子显示器是个人计算机的一部分。

84.如权利要求81所述的系统，其中所述电子显示器是能够连接互联网的计算机的一部分。

85.如权利要求84所述的系统，其中所述能够连接互联网的计算机位于远离所述计算机的位置。

86.如权利要求72至85中任一项所述的系统，其中所述非瞬时性计算机可读介质包括存储器、硬盘驱动器或计算机服务器的存储器或硬盘驱动器。

87.如权利要求72至86中任一项所述的系统，其中所述通信网络包括电信网络、互联网、外联网或内联网。

88.如权利要求1或权利要求66所述的方法，其中所述方法还包括产生呈电子形式和/或纸质形式的报告，所述报告提供所述核酸变异被分类为体细胞来源或种系来源的指示。

89.一种治疗受试者的疾病的方法，所述方法包括向所述受试者施用一种或更多种定制疗法，从而治疗所述受试者的疾病，其中所述定制疗法已经通过以下步骤被鉴定：

(a)确定针对来自无细胞脱氧核糖核酸(cfDNA)分子样品的核酸变异的一个或更多个定量测量，其中所述定量测量包括所述核酸变异的总等位基因计数和次要等位基因计数；

(b)鉴定来自所述cfDNA分子样品的所述核酸变异的至少一个相关变量；

(c)确定所述核酸变异的相关变量的定量值；

(e)基于针对预期种系等位基因计数的所述统计模型和所述核酸变异的相关变量的定量值以及所述核酸变异的至少一个定量测量，产生所述核酸变异的概率值(p值)；

(f)将所述核酸变异(i)当所述核酸变异的p值低于阈值时分类为体细胞来源的，或(ii)当所述核酸变异的p值处于所述阈值或高于所述阈值时分类为种系来源的；

(g)将经分类的核酸变异与用一种或更多种疗法进行索引的一种或更多种比较用结果进行比较；以及

(h)当经分类的核酸变异与所述比较用结果之间存在基本匹配时，将一种或更多种定制疗法鉴定为用于治疗所述受试者的疾病。

90.如权利要求89所述的方法，其中所述疾病是癌症。