CN110770838B

CN110770838B - 用于确定体细胞突变克隆性的方法和系统

Info

Publication number: CN110770838B
Application number: CN201880040456.7A
Authority: CN
Inventors: 维托·费雷拉·奥努奇克; 克里斯蒂娜·M·克鲁格利亚克
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2017-12-01
Filing date: 2018-12-03
Publication date: 2023-12-19
Anticipated expiration: 2038-12-03
Also published as: JP2021505977A; CA3067229A1; CN110770838A; US20190172582A1; KR20200093438A; IL271301A; JP7299169B2; WO2019109086A1; AU2018375008A1; EP3622522A1

Abstract

提供了计算机实施的方法和计算机系统，用于使用来自对象的一个或多个核酸样品，估算指示携带一种或多种目标突变的癌细胞的比例的癌细胞分数。本文中所提供的方法和系统实施过程，所述过程使用变分贝叶斯混合模型来对初始癌细胞分数进行聚类，并获得一个或多个最终癌细胞分数，所述初始癌细胞分数考虑了癌症的纯度和拷贝数。所公开的方法和系统提高了癌症克隆性测试的准确性、有效性和可靠性，并节约了测试所需的时间、物质、成本和计算机资源，这可以帮助设计更有影响的癌症治疗。

Description

用于确定体细胞突变克隆性的方法和系统

相关申请的交叉引用

本申请根据35U.S.C.§119(e)，要求2017年12月1日递交的标题为CLONSCORE：快速和准确推断体细胞突变的克隆性(CLONSCORE:FAST AND ACCURATE INFERENCE OFCLONALITY OF SOMATIC MUTATIONS)的第62/593,810号美国临时专利申请的权益，出于所有目的，其通过引用整体并入本文中。

背景

癌症涉及异常的细胞生长，可能会侵袭或扩散到身体的其他部位。癌症主要是由体细胞突变驱动的。癌细胞通过突变获得以不受控制的方式生长以侵占生物体的能力。许多体细胞突变是克隆突变，并且发生在创始细胞中以引发疾病。通过在克隆扩增过程中将突变传递给细胞的后代，这些克隆突变会均匀地存在于肿瘤中。在本公开中，作为创始细胞的克隆的细胞群也被称为克隆。其他的体细胞突变是亚克隆的，其发生在现有的瘤细胞中，并且仅传递至自其衍生的细胞亚群。在本文中所述细胞亚群也被称为亚克隆。亚克隆中的细胞具有创始突变和亚克隆突变。克隆和亚克隆突变累积的结果是由细胞异质混合物组成的肿瘤。最近对各种实体和血液学癌症进行的研究得出的新图景是，癌症在空间和时间上都是异质的，并且经常由单个创始克隆和几个亚克隆组成。

肿瘤内异质性和克隆结构具有临床意义，并有助于治疗抗性。Ma等人,(2012),Curr Opin Genet Dev 22:3–9。Yap TA,Gerlinger M,Futreal PA,Pusztai L,Swanton C(2012),Sci Transl Med 4:127ps10。亚克隆的存在与慢性淋巴细胞性白血病的不良临床结果，或与如在Barrett食管和多发性骨髓瘤中进展为恶性肿瘤的增加的风险有关。亚克隆突变可以驱动抗性，如是静音型的非小细胞肺癌的EGF中所示的。Merlo LM,Shah NA,Li X,Blount PL,Vaughan TL，(2010),Cancer Prev Res(Phila)3:1388–97。

开发有效的癌症疗法需要理解癌症的潜在突变及其克隆结构。在这种情况下，肿瘤的克隆结构的多个特征具有临床意义。例如，癌细胞中亚克隆的数量可能与抗药性有关或是恶性的。此外，测量携带目标突变的癌细胞的分数的癌细胞分数(CCF)可能会影响靶向突变或其相关因素的疗法的攻效。例如，体细胞突变可以导致新抗原的产生。新抗原是由肿瘤细胞中蛋白质变化的DNA突变产生的抗原。免疫系统可能潜在地会将新抗原识别为非自身抗原。新抗原负荷是对免疫检查点抑制剂应答的标志物。已表明在非小细胞肺癌中，新抗原水平与抗PD1疗法的功效呈正相关。Rizvi等人(2015),Science,348(6230):124–128。因此，免疫疗法所靶向的突变的CCF可能会影响疗法功效。

因此，用于测量癌症克隆结构和性质的方法和系统对开发有效的癌症治疗具有重要意义。

概述

本文中所呈现的一些实施方案提供了用于估算来自对象的一个或多个样品中的一个或多个变体的CCF的计算机实施的方法和系统。在一些实施方案中，如下文所述的，核酸癌症样品包括生物组织、细胞、外周血、唾液、尿液和其他的生物流体。

由于本文中所提供的各种方法和系统实施使用变分贝叶斯混合模型的策略和过程来估算CCF，并考虑了可能与简单核苷酸变异(SNV)重叠的拷贝数变异(CNV)，因此这些实施方案在估算癌症样品的CCF方面提供了相比常规方法的各种技术改进。一些实施方案提供了改进的分析灵敏度和特异性，实现了更准确的估算和更快的结果，同时使用更少的计算机存储器和资源。

本公开的一个方面提供了用于估算对象的一个或多个癌症样品中的CCF的计算机实施的方法。该方法包括：(a)通过一个或多个处理器接收通过对来自对象的至少一个测试样品中的核酸测序获得的基因组序列数据，其中所述核酸来自癌细胞的一个或多个亚克隆；(b)确定基因组序列数据中的多个体细胞突变变体；(c)针对每各体细胞突变变体并通过一个或多个处理器，使用VAF计算初始癌细胞分数(iCCF)，从而获得所述多个体细胞突变变体的多个iCCF，其中癌细胞分数是具有体细胞突变变体的癌细胞在所有癌细胞中所占的分数，并且其中所述VAF是体细胞突变变体的等位基因频率；(d)通过一个或多个处理器对多个基因座的多个iCCF聚类，从而获得iCCF的一个或多个簇，每个簇对应于一个或多个肿瘤亚克隆中的同一亚克隆中存在的变异；以及(e)通过一个或多个处理器，使用所述一个或多个簇的iCCF确定所述多个体细胞突变中的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)。

在一些实施方案中，该方法还包括：将基因组序列数据的序列读取与参照基因组进行比对以提供序列标签，其中所述参照基因组包括多个基因座，所述多个基因座中的每个基因座含有多个体细胞突变中的一个体细胞突变；以及针对所述多个基因座中的每个基因座，确定所述基因座的覆盖率和所述基因座的变异等位基因频率(VAF)。

在一些实施方案中，该方法还包括使用所述基因组序列数据估算肿瘤纯度值(p)，所述肿瘤纯度值(p)为所述测试样品中的肿瘤细胞在所有细胞中所占的分数。

在一些实施方案中，该方法还包括针对多个基因座中的每个基因座，使用所述基因组序列数据，估算测试样品中的所有细胞在所述基因座处的所有等位基因的平均拷贝数(N)。在一些实施方案中，使用VAF、p和N计算初始癌细胞分数(iCCF)。

在一些实施方案中，该方法还包括从个体获得至少一个测试样品；从所述至少一个测试样品获得细胞DNA或无细胞DNA (cfDNA)；以及对所述细胞DNA或cfDNA测序以产生序列读取。

在一些实施方案中，该方法还包括至少部分基于一个或多个fCCF应用治疗方案。

在一些实施方案中，应用治疗方案包括：将所述一个或多个体细胞突变的一个或多个fCCF与一个或多个标准值或阈值进行比较；以及基于所述比较制定、启动和/或更改治疗方案。在一些实施方案中，所述治疗方案影响与一个或多个体细胞突变相关的生物通路。在一些实施方案中，所述治疗方案包括免疫疗法。在一些实施方案中，所述至少一个测试样品中的核酸包括cfDNA。

在一些实施方案中，所述至少一个测试样品包括来自个体的两个或更多个测试样品。

在一些实施方案中，基于(VAF*N)/p计算所述iCCF。

在一些实施方案中，使用所述体细胞突变的变异等位基因的拷贝数(n)，以及VAF、p和N计算所述iCCF。在一些实施方案中，基于(VAF*N)/(p*n)计算所述iCCF。在一些实施方案中，在假设n为1的情况下来计算所述iCCF。在一些实施方案中，基于以下计算iCCF：(i)当(VAF*N)/p不大于1时，为(VAF*N)/p，以及(ii)当(VAF*N)/p大于1时，为1。

在一些实施方案中，所述聚类包括确定属于一个或多个簇的突变的一个或多个后验概率。在一些实施方案中，使用一个或多个后验概率和多个iCCF计算所述一个或多个fCCF。在一些实施方案中，将突变的fCCF计算为每个簇中的体细胞突变的平均iCCF与属于每个簇的所述突变的后验概率的线性组合。在一些实施方案中，使用下式计算突变m的fCCF_m：

其中是簇k的平均iCCF；并且pr_m,k是突变m的属于簇k的概率。

在一些实施方案中，簇k包括所述突变的最高概率的簇。

在一些实施方案中，所述聚类包括使用混合模型来确定所述一个或多个簇。在一些实施方案中，所述混合模型包括变分贝叶斯混合模型。在一些实施方案中，所述聚类包括确定产生所述iCCF的一个或多个簇的多个亚克隆。在一些实施方案中，确定所述多个亚克隆中的亚克隆包括鉴定多个体细胞序列变体的子集，所述子集是基于均在预定范围内的所述子集的估算分数聚类在一起的子集。在一些实施方案中，所述混合模型包括两个或更多个簇的变异等位基因计数的两种或更多种概率分布的混合。在一些实施方案中，变异等位基因计数的每种概率分布选自：二项分布、β分布、高斯分布，和以上的任意组合。在一些实施方案中，变异等位基因计数的每种概率分布是二项分布。在一些实施方案中，基于测序深度和iCCF计算所述变异等位基因计数。在一些实施方案中，将所述变异等位基因计数计算为：变异等位基因计数＝深度×iCCF。

在一些实施方案中，突变的iCCF被建模为簇的具有β分布的β随机变量。在一些实施方案中，所述至少一个测试样品包括一个样品，并且属于簇的突变的概率被建模为：

其中pr_m,k是突变m的属于簇k的概率；

β(；)是簇k的β分布的概率密度函数；f是突变m的iCCF；Γ()是γ函数；并且u_k和v_k是簇k的β分布的形状参数。

在一些实施方案中，所述至少一个测试样品包括两个或更多个测试样品，并且属于簇的突变的概率被建模为：

其中u_k和u_v是S向量，其s^th分量分别是u_ks和v_ks。

在一些实施方案中，所述多个基因座包括一个或多个双等位基因基因座。

在一些实施方案中，所述多个体细胞突变的一个或多个突变与一个或多个拷贝数变异(CNV)重叠。

在一些实施方案中，该方法不假定所有癌细胞都CNV影响，或都不受CNV影响。在一些实施方案中，该方法不假定携带体细胞突变的所有癌细胞都受CNV影响，或都不受CNV影响。

在一些实施方案中，所述聚类不使用马尔科夫链蒙特卡洛(MCMC)方法。

在一些实施方案中，所述多个体细胞突变包括选自以下的突变：单核苷酸变异(SNV)、插入缺失，或以上的组合。

本公开的另外的方面提供了用于估算来自对象的一个或多个测试样品中的一种个或多个突变变体的一个或多个CCF的系统。该系统包括用于从测试样品接收核酸并提供来自所述样品的核酸序列信息的测序仪、处理器；以及一种或多种计算机可读的存储介质，在其上已存储有用于在所述处理器上执行的指令以使用本文中所描述的方法估算一个或多个突变变体的一个或多个CCF。

在一些实施方案中，该系统包括用于从核酸样品提取核酸分子的工具。

本公开的另外的方面提供了计算机程序产品，其包括存储程序代码的非暂时性的机器可读的介质，当通过计算机系统的一个或多个处理器执行所述程序代码时，使得计算机系统使用本文中所描述的方法估算一个或多个突变变体的一个或多个CCF。

尽管本文中的实例涉及人类，并且语言主要针对人类担忧，但是本文所述的概念适用于来自任何植物或动物的基因组。根据以下描述和所附权利要求书，本公开的这些和其他目的和特征将变得更加完全明显，或者可以通过下文中所述的本公开的实践来获知。

通过引用并入

本文中提及的所有专利、专利申请和其他的出版物，包括在这些参考文献中所公开的所有序列，均通过引用明确地并入本文中，其程度就像每个单独的出版物、专利或专利申请被明确地和单独地指出通过引用并入本文中一样。引用的所有文件在相关部分中均通过引用以其整体并入本文中，用于其在本文中的引用的上下文所指示的目的。然而，任何文件的引用均不应被解释为承认其是关于本公开的现有技术。

附图的简要说明

图1是由在癌症进展中可能发生的体细胞突变造成的示例性突变肽的示意图。

图2是如应用于具有亚克隆新抗原表达的肿瘤的检查点抑制剂疗法的示意图。

图3是包括正常细胞以及具有特定体细胞突变的肿瘤细胞和无特定体细胞突变的肿瘤细胞的异质性混合物的肿瘤的示意图。

图4显示了其中所有正常细胞和肿瘤细胞均包括一个拷贝的体细胞突变的示意性实例。

图5显示了其中肿瘤样品不是仅由肿瘤细胞组成，而是还由正常细胞组成的示意性实例。

图6显示了具有5个非肿瘤细胞和10个肿瘤细胞的肿瘤的示意性实例。

图7显示了其中仅一些肿瘤细胞中包括体细胞突变的基因座在非变异等位基因中的的拷贝数相对于正常细胞增加的示意性实例。

图8显示了其中CNV为亚克隆，并且它们影响与体细胞突变相同或不同的肿瘤亚克隆集合的说明性实例。

图9显示了示出了根据相同的实施方案确定癌细胞分数的过程的流程图。

图10示出了使用序列读取估算肿瘤纯度和拷贝数的过程。

图11显示了对iCCF值聚类的过程。

图12显示了可用作根据某些实施方案的计算机设备的典型的计算机系统的框图。

图13显示了用于从测试样品产生调用(call)或诊断的分散系统的一种实施方案。

图14显示了用于在不同的位置进行一些实施方案的各种操作的选项。

图15示出了产生具有与正常细胞不同的组成和两种肿瘤亚克隆的20个肿瘤样品的模拟数据的方法。

图16显示了PyClone的估算的CCF与真实的CCF的偏差。

图17显示了ClonScore的估算的CCF与真实的CCF的偏差。

图18显示用于多样品分析的ClonScore与Hao等人之间的CCF差异。

图19显示了用于多样品分析的PyClone与Hao等人之间的CCF的差异。

图20-图22显示了相对于通过Hao(图20)、PyClone(图21)和ClonScore(图22)的方法的多样品分析的估算值的ClonScore的单样品分析的估算值。

图23-图25显示了相对于通过Hao(图23)、PyClone(图24)和ClonScore(图25)的方法的多样品分析的估算值的PyClone的单样品分析的估算值。

详述

定义

数值范围包括限定范围的数值。在整个本说明书中给出的每个最大数值限制旨在包括每个更低的数值限制，就像这些更低的数值限制在本文中被明确写出一样。在整个本说明书中给出的每个最小数值限制将包括每个更高的数值限制，就像这些更高的数值限制在本文中被明确写出一样。在整个本说明书中给出的每个数值范围将包括落入这样的更宽的数值范围内的每个更窄的数值范围，就好像这些更窄的数值范围在本文中均被明确写出一样。

当使用术语“约”修饰数量时，它是指从数量减去10％到数量加上10％的范围。

本文中所提供的标题不旨在限制本公开。

除非在本文中另有定义，否则本文中所使用的所有技术和科学术语具有与本领域普通技术人员通常所理解的相同的含义。包括本文中所包括的术语的各种科学词典是本领域技术人员熟知的并且是可得到的。尽管与本文中所描述的那些类似或等同的任何方法和物质均可在本文中所公开的实施方案的实践或测试中使用，但仍描述了一些方法和物质。

通过总体参考本说明书更完整地描述了紧接着在下文中所定义的术语。应当理解，本公开不限于所描述的特定方法、方案和试剂，因为这些可以根据本领域技术人员所使用的环境而变化。如本文中所用的，除非上下文另外明确指出，否则单数术语“一个/种(a/an)”和“所述(the)”包括复数参照。

术语“突变”是指基因结构的变化，其导致由DNA中的碱基单元的改变或者基因或染色体的缺失、插入或较大部分的重排造成的可被传递至后代的变体形式。

突变包括但不限于：单核苷酸多态性(SNP)，其突变变体被称为单核苷酸变异(SNV)；插入缺失；和拷贝数变异(CNV)。然而，在一些情况下，术语“突变”也以其较窄的含义使用，包括SNV和插入缺失，但排除CNV，从上下文将前者与后者区分开来是显而易见的。已知一些突变与癌症相关。这样的突变被称为癌症突变，且相应的变体被称为癌症变体。

单核苷酸多态性(SNP)是发生在基因组中的特定位置处的单个核苷酸的变异，其中每个变异在种群中以某种可评估的程度(例如，>1％)存在。

多态性和遗传多态性在本文中可互换使用，是指在相同的群体中，在一个基因组基因座处存在两个或更多个等位基因，每个具有可评估的频率。

多态性位点和多态位点在本文中可互换使用，是指两个或更多个等位基因所在的基因组上的基因座。在一些实施方案中，它被用于指两个不同碱基的等位基因的单个核苷酸变异。

术语“等位基因”是指基因的两种或更多种可选形式中的一种且在基因组上的相同基因座处被发现。

术语“等位基因计数”是指包括特定等位基因的序列读取的数量。在一些实施方案中，它可以通过将读取映射为参照基因组中的一个位置，并对包括等位基因序列且被映射至参照基因组的读取计数来确定。

等位基因频率是基因(或基因的变体)的等位基因相对于基因的所有等位基因的频率，其可被表示为分数或百分比。等位基因频率常常与特定基因组基因座相关，因为基因通常位于一个或多个基因座处。

术语“变异等位基因”在本文中被用于指目标的变体的等位基因，或更明确地，指癌症相关的变体的等位基因。

术语“变异等位基因频率”是指变异等位基因相对于所有等位基因的频率。

术语“癌细胞分数”(CCF)或“癌细胞突变分数”是指具有体细胞突变的变异等位基因的癌细胞在所有癌细胞中所占的分数。可以计算对象的一个或多个样品的CCF。根据一些实施方案，，当使用多个样品时，CCF可能比使用单个样品更有效和/或更可靠。

癌症纯度是指样品中的癌细胞相对于所有的细胞的比例。

某些体细胞突变发生在创始细胞中，并传递给所有的细胞后代细胞。这些突变被称为克隆突变。后代细胞的生长称为克隆扩增。后代细胞的群体在本文中称为细胞的“克隆”或克隆变种。但是在另外的用途中，术语“克隆”也被用于指后代细胞群中的细胞。

一些体细胞突变是亚克隆的，其发生在癌症克隆中现有的瘤细胞中，并且仅传递给自其衍生的细胞亚群。细胞的亚群被称为细胞的“亚克隆”或亚克隆变种。

“聚类”或聚类分析是指根据某些标准，以使得同一组(被称为“簇”)中的项目彼此之间比与他组(“簇”)中的那些更相似的方式对一组项目进行分组的过程。可以通过各种技术来实现聚类，这些技术在对什么构成簇以及如何有效地找到它们方面的理解上存在显著差异。形成簇的普遍标准包括聚类成员之间具有较小距离的组、数据空间的密集区域、间隔或特定统计学分布。因此，聚类可以被表述为多目标优化问题。适当的聚类算法和参数设置(包括参数，如要使用的距离函数、密度阈值或预期的簇的数量)取决于结果的单个数据集和预期用途。聚类技术包括但不限于：基于连通性的聚类(例如，分层聚类)、基于质心的聚类(例如，k-均值聚类)、基于分布的聚类和基于密度的聚类。

二项实验是具有以下性质的统计实验：该实验由n个重复试验组成；每个试验只能引起两种可能的结果(成功/失败)；在每个试验中，用p表示的成功概率是相同的；并且试验是独立的。二项实验的n个重复试验中的成功次数X是二项随机变量。

二项随机变量可以被表示为X～B(n,p)或X～BN(n,p)。

二项随机变量的概率分布被称为二项分布。对于单个实验，即n＝1，二项分布是伯努利分布。二项分布具有以下性质：分布的均值为μ＝n*p；方差为σ²＝n*p*(1-p)；并且标准偏差为σ＝sqrt[n*P*(1-P)]。

二项概率是指二项实验仅产生x次成功的概率。可按如下计算二项概率。

β分布是一系列连续的概率分布，其被限定在由通过例如α和β(或u和v)表示的两个正的形状参数参数化的间隔[0，1]上，，以随机变量指数形式出现并控制分布的形状。在许多学科中，β分布已被用于对限于有限长度的间隔的随机变量的行为进行建模。在贝叶斯推理中，β分布是伯努利分布、二项分布、负二项分布和几何分布的共轭先验概率分布。例如，可以在贝叶斯分析中使用β分布来描述有关成功概率的初始知识。

如果随机变量X的概率分布是β分布，则随机变量X被称为β随机变量。β随机变量可表示为X～Beta(α,β)或X～β(α,β)。

β概率是指具有x的值的β随机变量的概率。可按如下计算β概率。

其中β(x；α,β)是β分布β(α,β)的概率密度函数，且Γ()是γ函数。

循环无细胞DNA或简单的无细胞DNA(cfDNA)是不限于细胞内的DNA片段，并且是在血流或其他体液中自由循环的。已知cfDNA具有不同的来源，在一些情况下来自肿瘤细胞或受肿瘤影响的细胞，在其他情况下则来自母体血液中循环的胎儿DNA。通常，cfDNA是片段化的，并且仅包括基因组的一小部分，其可能与获得cfDNA的个体的基因组不同。

术语非循环基因组DNA(gDNA)或细胞DNA被用于指限制在细胞中的DNA分子，并且通常包括完整的基因组。

术语“读取”是指从核酸样品的一部分获得的序列。通常，尽管不是必须的，读取代表样品中连续碱基对的短序列。可以通过样品部分的碱基对序列(以A、T、C或G)象征性地表示读取。可以将它存储在存储器装置中，并适当地行处理以确定它是否与参照序列匹配或满足其他的标准。可以直接从测序设备获得读取，或者可以从存储的关于样品的序列信息间接获得读取。在一些情况下，读取是具有足够长度(例如，至少约25bp)的DNA序列，其可被用于识别更大的序列或区域，例如可进行比对并特异性地分配给染色体或基因组区域或基因。

本文中所使用的术语“参数”表示其值或其他特性影响诸如拷贝数变异的相关条件的物理特征。在一些情况下，参照影响数学关系或模型的输出的变量来使用术语参数，所述变量可以是自变量(即至模型的输入)或基于一个或多个自变量的中间变量。取决于模型的范围，一个模型的输出可以变成另一模型的输入，从而变成另一模型的参数。

术语“拷贝数变异”在本文中是指与参照样品中存在的核酸序列的拷贝数相比测试样品中存在的核酸序列的拷贝数的变化。在某些实施方案中，核酸序列为1kb或更大。在一些情况下，核酸序列是整个染色体或其重要部分。“拷贝数变异”是指核酸的序列，其中通过将测试样品中的目标核酸序列与预期水平的目标核酸序列进行比较来发现拷贝数差异。例如，将测试样品中的目标核酸序列的水平与合格样品中存在的水平进行比较。拷贝数变异/变化包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增和易位。CNV涵盖染色体非整倍性和部分非整倍性。

本文中的术语“非整倍性”是指由整个染色体或部分染色体的丢失或获得引起的遗传物质的失衡。

本文中的术语“染色体非整倍性”和“完整的染色体非整倍性”是指由整个染色体的丢失或获得引起的遗传物质的失衡，并且包括生殖系非整倍性和镶嵌非整倍性。

术语“多个”是指多于一个元素。例如，在本文中参照使用本文中所公开的方法足以鉴定测试样品和合格的样品中的拷贝数变异的显著差异的多个核酸分子或序列标签来使用该术语。在一些实施方案中，对于每个测试样品获得了至少约3×10⁶个约20至40bp的序列标签。在一些实施方案中，每个测试样品提供了至少约5×10⁶、8×10⁶、10×10⁶、15×10⁶、20×10⁶、30×10⁶、40×10⁶或50×10⁶个序列标签的数据，每个序列标签包含约20至40bp。

术语“多核苷酸”、“核酸”和“核酸分子”可互换使用，并且指共价连接的核苷酸序列(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)，其中一个核苷酸的戊糖的3’位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5’位置。核苷酸包括任何形式的核酸的序列，包括但不限于RNA和DNA分子，如cfDNA分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。

本文中的术语“测试样品”是指通常来源于生物流体、细胞、组织、器官或生物体的样品，其包含核酸或含有在测试中待分析的至少一条核酸序列的核酸的混合物。在某些实施方案中，样品包含至少一条核酸序列。这样的样品包括但不限于：硬组织和软组织、痰/口腔液、羊水、血液、血液级分或细针穿刺活检样品(例如，外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液等。尽管样品通常采自人类对象(例如患者)，但测定可被用于测试来自任何哺乳动物的样品，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。可以直接使用从生物来源获得的样品，或者可以在进行预处理以修改样品特性后使用。例如，这样的预处理可以包括从血液中制备血浆、稀释粘性流体等。预处理方法还可以包括但不限于：过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰成分灭活、添加试剂、溶解等。如果对样品采用这样的预处理方法，则这样的预处理方法通常使得目标核酸保留在测试样品中，有时以与未处理测试样品(例如，即未进行任何这样的预处理方法的样品)中的浓度成比例的浓度保留在测试样品中。相对于本文所述的方法，这种“处理的”或“加工的”样品仍被认为是生物学的“测试”样品。

本文中的术语“训练集”是指一组训练样品，其可以包括受影响的和/或未受影响的样品，并被用于开发用于分析测试样品的模型。在一些实施方案中，训练集包括未受影响的样品。在这些实施方案中，使用目标拷贝数变异未受影响的样品训练集来确立用于确定CNV的阈值。训练集中未受影响的样品可被用作鉴定标准化序列(例如标准化染色体)的合格样品，并且将未受影响样品的染色体剂量被用于设置每条目标序列(例如染色体)的阈值。在一些实施方案中，训练集包括受影响的样品。训练集中的受影响样品可被用于验证可以容易地从未受影响的样品区分的受影响的样品。

训练集还是目标群体中的统计样品，所述统计样品不应与生物样品混淆。统计样品通常包含多个个体，所述个体的数据被用于确定可推广到群体的一个或多个目标定量值。统计样品是目标群体中的个体的子集。个体可以是人、动物、组织、细胞、其他生物样品(即统计样品可以包括多个生物样品)，以及提供数据点以进行统计分析的其他单个实体。

通常，将训练集与验证集联合使用。术语“验证集”被用于指统计样品中的一组个体；使用所述个体的数据来验证或评估使用训练集确定的目标定量值。例如，在一些实施方案中，训练集提供数据以计算参照序列的掩模(mask)，而验证集提供数据以评估掩模的可信性或有效性。

在本文中参照与序列的拷贝数相关的基因序列的状态的统计评估来使用“拷贝数的评估”。例如，在一些实施方案中，评估包括确定基因序列的存在或不存在。在一些实施方案中，评估包括确定基因序列的部分非整倍性或完全非整倍性。在其他实施方案中，评估包括基于基因序列的拷贝数的两个或更多个样品之间的区别。在一些实施方案中，评估包括基于基因序列的拷贝数的统计分析，例如标准化和比较。

术语“覆盖率”是指映射到所限定的序列的序列标签的丰度。可以通过序列标签密度(或序列标签的计数)、序列标签密度比率、标准化的覆盖率量、调整后的覆盖率值等定量表示覆盖率。

术语“下一代测序(NGS)”在本文中是指允许克隆扩增的分子和单个核酸分子的大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止剂的边合成边测序，以及边连接边测序。

本文中的术语“参数”是指表征系统性能的数值。通常，参数在数值上表征定量数据集和/或定量数据集之间的数值关系。例如，映射到染色体的序列标签的数量与标签所映射到的染色体的长度之间的比率(或比率的函数)是参数。

本文中的术语“阈值”和“合格阈值”是指用作临界值的任何数值，以表征诸如含有来自疑似患有医学病况的生物体的核酸的测试样品的样品。可以将阈值与参数值进行比较，以确定产生这样的参数值的样品是否表明该生物体患有医学病况。在某些实施方案中，使用合格的数据集来计算合格的阈值，并用作生物体中拷贝数变异(例如非整倍性)的诊断极限值。如果从本文中所公开的方法获得的结果超过阈值，则可以将对象诊断为具有拷贝数变异，例如21三体。可以通过分析计算的样品的训练集的标准化的值(例如染色体剂量、NCV或NSV)来鉴定本文中所述方法的适当阈值。可以使用包括合格(即未受影响)的样品和受影响的样品的训练集中的合格(即未受影响)的样品来鉴定阈值。训练集中已知具有染色体非整倍性的样品(即受影响的样品)可被用于确认所选阈值可用于区分测试集中的受影响的的样品和未受影响的样品(参见本文中的实施例)。阈值的选择取决于用户进行分类所希望具有的置信水平。在一些实施方案中，用于鉴定适当的阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少2000个、至少3000个、至少4000个或更多个合格的样品。使用更大的合格样品集以提高阈值的诊断效用可能是有利的。

术语“堆栈段(bin)”是指序列的片段或基因组的片段。在一些实施方案中，基因组或染色体内的堆栈段彼此相邻。每个堆栈段可以限定参照序列(如参照基因组)中的核苷酸序列。堆栈段的大小可以是1kb、100kb、1Mb等，具体取决于特定应用程序所需的分析和序列标签密度。除了它们在参照序列中的位置外，堆栈段还可以具有其他特征(如样品覆盖率)和序列结构特性(如G-C分数)。

术语“读取”是指从核酸样品的一部分获得的序列。通常，尽管不是必须的，但读取代表样品中连续碱基对的短序列。读取可以通过样品部分的碱基对序列(以A、T、C或G)象征性地表示。可以将它存储在存储器装置中，并适当地进行处理以确定它是否与参照序列匹配或满足其他标准。可以直接从测序设备获得读取，或者可以从存储的关于样品的序列信息间接获得读取。在一些情况下，读取是具有足够长度(例如，至少约25bp)的DNA序列，其可被用于鉴定较大的序列或区域，例如可进行比对并特异性地分配给染色体或基因组区域或基因。

术语“序列标签”在本文中与术语“映射的序列标签”可互换使用，是指已经通过比对而被具体分配(即，映射到)较大的序列(例如参照基因组)的序列读取。映射的序列标签被独特地映射到参照基因组，即，它们被分配给参照基因组的单个位置。除非另有说明，否则映射到参照序列上相同序列的标签将被计数一次。标签可以作为数据结构或其他数据集合提供。在某些实施方案中，标签包含读取序列和与该读取相关的信息，如基因组中序列的位置，例如染色体上的位置。在某些实施方案中，该位置被指定为正链方向。可以限定标签以允许与参考基因组比对中有限数量的错配。在一些实施方案中，可以映射到参照基因组上的多于一个位置的标签(即非唯一映射的标签)可能不会包括在分析中。

术语“基因座”或“位点”是指参照基因组上的唯一位置(即染色体ID、染色体位置和方向)。在一些实施方案中，位点可以提供残基、序列标签或序列上片段的位置。

如本文中所用的，术语“比对的(aligned)”、“比对(alignment)”或“比对(aligning)”是指将读取或标签与参照序列进行比较，并由此确定参照序列是否包含读取序列的过程。如果参照序列含有读取，则该读取可以被映射到参照序列，或者在某些实施方案中，被映射到参照序列中的特定位置。在一些情况下，比对简单地告知读取是否是特定参照序列的成员(即，该读取在参照序列中存在与否)。例如，读取与人类13号染色体的参照序列的比对将告知该读取是否存在于13号染色体的参照序列中。提供该信息的工具可以被称为集合成员资格测试器。在一些情况下，比对另外指示在参照序列中读取或标签所映射到的位置。例如，如果参照序列是整个人类基因组序列，则比对可以指示在13号染色体上存在读取，并且可以进一步指示该读取在13号染色体的特定链和/或位点上。

比对的读取或标签是根据它们的核酸分子的顺序被鉴定为与来自参照基因组中的已知序列匹配的一条或多条序列。可以手动进行比对，尽管通常是通过计算机算法来实施的，因为不可能在合理的时间段内比对读取以实施本文中所公开的方法。来自比对序列算法的一个实例是作为Illumina基因组分析管线(the Illumina Genomics Analysispipeline)的一部分发布的核苷酸数据的有效局部比对(the Efficient Local Alignmentof Nucleotide Data,ELAND)计算机程序。可选地，可以采用布隆过滤器或类似的集合成员资格测试器来将读取与参照基因组比对。参见2011年10月27日提交的第61/552,374号美国专利申请，其通过引用整体并入本文中。比对中的序列读取的匹配可以是100％的序列匹配或小于100％的序列匹配(非完美匹配)。

本文中所用的术语“映射”是指通过比对将序列读取特异性地分配给较大的序列(例如参照基因组)。

当在核酸或核酸混合物的上下文中使用时，术语“来源于”在本文中是指借以从它们所起源的来源获得核酸的方式。例如，在一个实施方案中，来源于两个不同基因组的核酸混合物意指细胞通过天然存在的过程(如坏死或细胞凋亡)而天然释放核酸(例如cfDNA)。在另一个实施方案中，来源于两个不同的基因组的核酸混合物意指从来自对象的两种不同类型的细胞中提取核酸。

当在获得特定定量值的上下文中使用时，术语“基于”在本文中是指使用另一量作为输入以计算特定定量值作为输出。

本文中的术语“生物流体”是指获自生物来源的液体，包括例如血液、血清、血浆、痰、灌洗液、脑脊髓液、尿液、精液、汗液、眼泪、唾液等。如本文中所用的，术语“血液”、“血浆”和“血清”明确涵盖其级分或处理的部分。类似地，当样品获自活检、拭子、涂片等时，“样品”明确涵盖来源于活检、拭子、涂片等的处理的级分或部分。

如本文中所用的，术语“染色体”是指活细胞的带有遗传性的基因载体，其来源于包含DNA和蛋白质成分(特别是组蛋白)的染色质链。本文中采用了常规的国际上公认的单个人类基因组染色体编号系统。

如本文中所用的，术语“灵敏度”是指当存在目标病况时，测试结果将为阳性的概率。可将它计算为真阳性数除以真阳性和假阴性之和。

如本文中所用的，术语“特异性”是指当目标病况不存在时，测试结果将为阴性的概率。可将其计算为真阴性数除以真阴性和假阳性之和。

引言与背景

本技术提供了从测序数据推断体细胞突变的克隆性的新的方法。与花费数小时来分析一组数百个体细胞突变的其他技术相反，所公开的技术在一分钟内推断数百至数千个体细胞突变的克隆性，节约了大量的计算机资源。此外，所公开的技术展现与现有的方法类似的准确性。所公开的技术的另外的优势在于当从单个肿瘤样品推断体细胞突变的克隆性时，与从相同肿瘤多位点取样相反，准确性的损失相对于现有的方法减少。

可以将本技术实施为新抗原预测和优先级排序管线的一部分。图1是由在癌症进展期间可能发生的体细胞突变造成的示例突变肽的示意图。突变肽可能会对突变肽新抗原产生免疫反应，其被靶向表达新抗原的细胞的免疫疗法所利用。这样的疗法可以包括检查点抑制剂疗法以及定制针对患者所表达的新抗原集合的基于疫苗的疗法。因为这样的疗法成本高昂，并且可能给药复杂，所以确定哪些患者可能会因接受基于免疫的疗法而有所改善将是有益的。已经证明，依赖靶向新抗原的免疫疗法的成功可能取决于肿瘤细胞群中新抗原的普遍性，并且新抗原的克隆性是区分检查点抑制剂疗法的应答者和非应答者的重要因素。图2是如应用于具有亚克隆新抗原表达的肿瘤的检查点抑制剂疗法的示意图。靶向新抗原12的被抑制的T细胞应答于检查点抑制剂疗法而被激活。然而，因为新抗原12并非在肿瘤中的所有肿瘤细胞中表达，所以该疗法仅靶向肿瘤细胞的子集，这继而引起不完全的肿瘤靶向和不成功的疗法，因为不表达新抗原12的肿瘤细胞不受T细胞的影响。

本技术提供了对展现新抗原表达的肿瘤细胞群的预测以及与给定肿瘤样品相关的特定新抗原的表征的改进，而无需显著增加工作流程的总运行时间。这样的预测可能会阻止不太可能对这样的疗法产生应答的患有肿瘤的患者施用基于免疫的疗法。另外，由于癌症会随着时间发展，因此可以监测单个患者的肿瘤，以确定先前未被认为是基于免疫疗法的候选人的患者的肿瘤状况是否具有变化，从而使该患者更有可能对基于免疫的疗法应答。先前的技术涉及资源密集型计算以推断体细胞突变的克隆性，而所公开的新颖方法允许在几分钟而不是几小时内准确推断出克隆性，从而使这样的确定在临床上更容易获得。

图3是包括正常细胞以及具有特定体细胞突变的肿瘤细胞和无特定体细胞突变的肿瘤细胞的异质性混合物的肿瘤的示意图。应理解，示出的实例适用于单个体细胞突变，并且其他的体细胞突变可能在样品内具有不同的分布。此外，对于采自肿瘤的不同位点的样品，样品中正常细胞和肿瘤细胞的混合物可能不同。示出的实例中的体细胞突变的癌细胞分数为70％，并且是基于肿瘤细胞而非正常细胞(包括体细胞突变)的百分比。

随着体细胞突变所影响的细胞的分数增加，映射到突变的基因座并展现该突变的预期的序列读取的分数(变异等位基因频率(VAF))也将增加。在当样品仅由肿瘤细胞组成，并且体细胞突变仅影响两个等位基因中的一个时的情况下，CCF简单地为预期的变异等位基因频率的两倍，如图4的实例中所示的，其中所有的正常细胞14和肿瘤细胞16均包括一个拷贝的体细胞突变，表示为变异等位基因20。即当变异等位基因频率为0.5(指示50％的序列读取包括序列变体)时，CCF为1(指示变异等位基因存在于样品中100％的细胞中)。

然而，肿瘤样品不是仅由肿瘤细胞组成，而是也由正常细胞22组成，如图5的实例中所示的。此外，肿瘤样品中的肿瘤细胞可能是异质的，包括彼此不同的且具有不同特性的体细胞突变的细胞。因此，肿瘤包括不包含特定体细胞突变的细胞24和不包含特定体细胞突变的细胞26的混合物。此外，当考虑第二(或不同的)体细胞突变时，混合物可能改变，其中细胞24具有第二突变，且细胞26不包括第二突变。对于克隆群，某些体细胞突变将被一起遗传，使得鉴定的在相似的肿瘤细胞级分中发现的体细胞突变可被认为是如本文中提供的相同亚克隆的一部分。在一个实施方案中，具有相对于另一体细胞突变的另一癌细胞分数加或减5％内的癌细胞分数的单个体细胞突变可被认为可能是相同亚克隆的一部分。即如果体细胞突变具有x％的癌细胞分数，则具有x-5％至x+5％范围内的癌细胞分数的其他的体细胞突变可被认为可能是相同亚克隆的一部分。在其他的实施方案中，可以经由如本文中所提供的聚类分析鉴定为相同亚克隆的一部分的体细胞突变。

图5显示了具有70％的CCF的示例性体细胞突变的VAF为20％，其反映了包括非肿瘤细胞以及不具有体细胞突变的肿瘤细胞的样品。在这样的情况下，变异等位基因频率是肿瘤纯度(p)和癌细胞分数的函数。如图6中所示的，对于具有5个非肿瘤细胞28和10个肿瘤细胞的肿瘤，肿瘤细胞包括无体细胞突变30的细胞和具有体细胞突变32的细胞的混合物，体细胞突变表示为变异等位基因34，肿瘤纯度(p)表示为33％。

然而，这并未考虑肿瘤细胞中的也可能影响预期的VAF和癌细胞分数之间的关系的拷贝数变异。图7显示了实例，其中仅一些肿瘤细胞中包括体细胞突变的基因座在非变异等位基因中的拷贝数相对于正常细胞增加。即如肿瘤细胞34中所示的体细胞突变是亚克隆，同时相对于正常细胞38，非变异等位基因中的拷贝数增加贯穿于肿瘤细胞群中，包括不包含体细胞突变的肿瘤细胞36。此外，如图8的实例中所示的，CNV可以是亚克隆，并且它们可能影响与体细胞突变相同的或不同的肿瘤亚克隆集合。某些CNV影响携带突变的等位基因，而其他的CNV影响其他的等位基因。如示出的实例中所示的，肿瘤细胞42的一个群体展现关于CNV和体细胞突变的与正常细胞44相似的表型。肿瘤细胞46的另一群体包含体细胞突变但非CNV，而肿瘤细胞48的又一群体包括CNV和体细胞突变。总之，预期的VAF和CCF之间的通用关系可书写为：

其中p是肿瘤纯度，n是携带突变的细胞中的该基因组基因座的突变拷贝的平均数，并且N是样品中在所有细胞中该基因组基因座的平均拷贝数，并且p、n、N和CCF均是未知的量。

观测的VAF是预期的VAF(其与CCF的关系适用)的估算值。随着测序深度的增加，观测的VAF越来越接近预期的VAF。因此，更高的深度通常会引起更好的CCF估算值。然而，在某些实施方案中，可以使用存在于相同肿瘤亚克隆中的所有体细胞突变的信息来解决观测的VAF的变异性。如果在相同肿瘤亚克隆中存在多个体细胞突变，那么根据定义，它们将具有相同的CCF(并且如果其不与CNV重叠，则将具有相同的预期VAF)。

尚不清楚哪个体细胞突变属于相同的肿瘤亚克隆或在特定肿瘤中可以发现多少个亚克隆。然而，通过基于它们的VAF或CCF对体细胞突变进行聚类，可以估算肿瘤亚克隆的数量，并且可以将每个簇内所有突变的最终CCF估算值指定为该簇的平均(或其他统计量)CCF。

可以基于单个样品对体细胞突变进行聚类。然而，如果来自相同肿瘤的多个样品是可获得的，则聚类更为可靠。当多个样品是可获得的时，预期来自相同亚克隆的突变将在所有样品中一致地具有相同的癌细胞分数(相关变异)。因此，当观察到这样的相关变异模式时，可以更可靠地将变体聚类在一起。

本技术相对于进行某种简化假设以便从VAF估算CCF的现有方法具有优势。。这些方法的缺点包括由于不考虑各种CNV方案的影响和肿瘤纯度变化性而导致的不准确性。此外，某些技术未考虑与CNV重叠的由体细胞突变所引起的不准确估算。因为通常在肿瘤内有很大一部分的体细胞突变与CNV重叠。

另一个常见的假设是CNV是克隆性的。进行该假设的方法还假定通过先前运行的CNV调用工具准确估算了肿瘤细胞中CNV影响的基因座的拷贝数和肿瘤纯度。当满足这样的假设时，N将被估算为：

N＝p*C+(1-p)*2

其中C是所有肿瘤细胞上该基因座的拷贝数。在该情况下，n还只能假设1到C之间的有限数量的整数值，或者当等位基因拷贝数值是可获得的时，甚至更小数量的可能值。这样的方法将尝试确定n和CCF的哪些值最有可能引起观测的VAF。通过某些方法进行的克隆CNV假设的变化是CNV不一定是克隆性的，而是所有携带体细胞突变的细胞都受CNV影响或都不受CNV影响(CNV不能仅影响一部分携带突变的细胞)。即使这可以解决其他方法的缺点，但大多数CNV调用工具在估算CNV区域的拷贝数时也假设CNV是克隆性的，因此，从更复杂的模型中获得的好处可能并不那么显著。使用马尔科夫链蒙特卡洛分析或相关方法推断肿瘤亚克隆的数量以及哪些突变属于相同的亚克隆有时与推断其他参数同时进行，并且能够潜在地帮助确定最可能的CCF，以及在整个体细胞突变集合中的n个值。这样的方法的缺点是完成分析所需的时间。

本技术解决了其他方法的缺陷，即在不同时增加复杂的计算负担的情况下不能准确解决肿瘤样品中CNV复杂性。因此，提供了对体细胞突变的克隆性的有效推断，其可被更快地执行并且使用更低的计算负担，使得使用本技术的装置更有效地运行。

本技术通过假设携带突变的每个细胞中仅存在一个拷贝的突变等位基因(n＝1)来解决CNV复杂性的问题。该假设适用于不与CNV重叠、与拷贝数损失重叠或与拷贝数增加重叠、未特异性影响突变的等位基因的所有体细胞变体。于是，CCF和预期的VAF之间的关系变成：

其中p是肿瘤纯度，且N是样品中所有细胞中该基因组基因座的平均拷贝数。p和N的估算值是由CNV调用器(如Canvas调用器(Illumina,Inc.))以肿瘤正常富集模式进行的。Canvas是一种算法，用于从(a)主要是二倍体生殖系的样品，或(b)来自相同个体的生殖系样品连同肿瘤样品中调用拷贝数变异。正常生殖系样品的绝大部分将是二倍体，即具有两个拷贝。然而，肿瘤样品可能被更广泛地重排。Canvas鉴定样品的基因组区域，其在基因组中存在0次、1次或多于两次。简言之，这是通过扫描基因组以查找具有非预期数量的短读取比对的区域来实现的。具有少于预期的数量的比对的区域被分类为损失。具有多于预期的数量的比对的区域被分类为增益。然后，使用该分析来估算个别基因座处的拷贝数变异。本技术不是使用整数拷贝数估算，而是使用标准化的覆盖率估算，其估算样品中所有细胞中该基因组基因座的平均拷贝数(N)。使用实值标准化的覆盖率的优势在于，这解决了其他技术中假定CNV的克隆性的缺陷。于是，只要初始假设成立，通过本技术产生的CCF估算值将对重叠克隆和亚克隆CNV的变体有效。

当n>1时，通过本技术进行的CCF估算值可能会大于1。为避免这样的无意义的CCF估算值，将CCF估算值的上限设为1。因此，使用下式进行初始CCF估算：

一旦估算初始的CCF值，即使用SciClone R包来基于它们的CCF对体细胞突变聚类。SciClone基于它们的VAF将体细胞变异聚类在CNV区之外。它使用变分贝叶斯混合模型进行聚类可允许同时聚类和推断簇的数量，并且相比其他方法所使用的随机马尔科夫链蒙特卡洛技术明显更有效。然而，本技术基于CCF(针对拷贝数标准化)而非VAF对体细胞变体聚类，这允许对与CNV重叠的体细胞变体聚类。SciClone还允许在相同肿瘤的单个样品内和多个样品中进行聚类。如本文中所提供的，可以使用多种不同的混合模型(包括二项、β或高斯混合模型)来实施聚类。这样的概率性聚类引起产生属于不同簇中的每个的单个序列变体(代表体细胞突变)的概率估算值的输出。在某些实施方案中，本技术将聚类后CCF估算值更新为每个簇中的体细胞突变的平均CCF和属于每个簇的突变的后验概率的线性组合。当使用二项混合模式进行聚类时，其取决于实际测序深度和可选等位基因的计数，以这样的方式调整可选的等位基因计数，使得其与CCF而非VAF一致(可选的计数＝深度×ccf)。

技术问题和技术改进

为了有效治疗癌症，重要的是不仅要了解癌症潜在的突变，而且要了解突变的克隆结构。与癌症的克隆结构相关的多个参数可用于设计疗法。例如，癌细胞分数和亚克隆的数量是癌症克隆性的重要度量。确定这些参数的一种方法是使用单细胞测序方法来确定癌症样品中单个细胞的突变。基于单个细胞的遗传信息，可以确定癌细胞的克隆结构。然而，单细胞测序方法具有多种局限性。目前，单细胞测序的价格昂贵，且不能有效地进行来检查大量的癌细胞。并且当使用单细胞测序方法时，诸如等位基因信号丢失等技术挑战仍然存在。

可以使用多个细胞的测序数据来直接测量癌症变体的变异等位基因频率。然而，直接测量变异等位基因频率并不能提供有关突变的某些克隆结构的信息。癌细胞分数(CCF)不仅与变异等位基因频率有关，而且还考虑了拷贝数变异和肿瘤纯度，提供了有关癌症突变的特性的更多信息。然而，单个突变的癌细胞分数具有有限的测序深度，这使得所观测或所测量的癌细胞分数嘈杂且不可靠。

观测的VAF或CCF是预期VAF或预期CCF的估算值。随着测序深度的增加，观测值变得更接近于预期值。因此，通过增加测序深度，可以增加观测值的可靠性。然而，这样的方法需要更多的时间、物质和成本来实现增加的测序深度。一些现有的方法试图通过汇总亚克隆中存在的突变的测量值来改善结果的可靠性。亚克隆的细胞应该具有相同的突变，并因此具有相同的CCF。然而，这些方法包括各种技术限制。例如，广泛使用的方法PyClone使用马尔科夫链蒙特卡洛(MCMC)模拟技术。然而，MCMC技术对计算的要求很高，并且依赖于关于引入不确定性的链会聚的假设。此外，该方法没有适当地考虑与突变部分重叠的拷贝数变异。

使用拷贝数来推断克隆性的其他方法通过简单假设肿瘤样品不具有亚克隆拷贝数事件而避免了计算开销。这样的假设常常是不真实的。一些方法简单地完全忽略了CNV和肿瘤纯度的影响，或者不处理与CNV重叠的体细胞突变。相反它们集中于确定哪些体细胞突变属于相同的亚克隆的问题，即聚类。这些现有的方法是不可取的，因为肿瘤内很大一部分的体细胞突变与CNV重叠。许多方法假定CNV是克隆性的。然而，如上文中所解释的，CNV并不总是克隆性的。

由广泛使用的工具PyClone进行的克隆性CNV假设的变化是CNV不一定是克隆性的，而是所有携带体细胞突变的细胞都受CNV影响，或都不受CNV影响。Roth等人，(2014),Nat Meth 11:396–398。换言之，它假设CNV不能仅影响一部分携带突变的细胞。该假设仍然不总是正确的，并且可能导致CCF或变异等位基因频率(VAF)估算值的不准确。

一种现有的方法SciClone使用变分混合模型来通过对VAF聚类并确定属于一个或多个簇的变体概率而确定变异等位基因频率。然而，SciClone的聚类不考虑在突变基因座处的平均拷贝数、变异等位基因的拷贝数或肿瘤纯度水平。Miller等人，(2014),PLoSComput Biol 10(8):e1003665。

随着受突变影响的癌细胞分数的增加(CCF)，映射到突变基因座并展现该突变的预期的读取的分数(VAF)也增加。在当样品仅由肿瘤细胞组成，并且体细胞突变仅影响两个等位基因中的一个时的情况下，CCF简单地是预期的变异等位基因频率的两倍。然而，肿瘤样品不仅包括肿瘤细胞，而且也包括正常细胞。同样，拷贝数变异可以影响预期的VAF和CCF之间的关系。此外，CNV可以影响与体细胞突变相同的或不同的肿瘤或克隆的集合。它们有时影响携带突变的等位基因，且有时影响其他的等位基因。总之，预期的VAF和CCF之间的通用关系可书写为：

/>

其中p是肿瘤纯度，n是携带突变的细胞中该基因组基因座的突变拷贝的平均数，且N是样品中在所有细胞中的该基因组基因座的平均拷贝数。测量和聚类VAF的诸如SciClone的方法不充分地考虑肿瘤纯度或拷贝数变异。

本公开的一些实施方案提供了用于估算CCF和评估癌细胞的克隆性，同时解决了现有方法的各种缺点的方法和系统。本公开的实施方案从亚克隆中的多个突变汇总信息以增加估算的CCF的可靠性。本公开的实施方案可以通过从相同亚克隆中的体细胞突变汇总数据而在不增加测序深度的情况下增加测量的准确性。无法预知哪些体细胞突变属于相同的肿瘤亚克隆或者在该肿瘤中可以发现多少亚克隆。本公开的实施方案使用聚类方法来基于它们的CCF对体细胞突变聚类。考虑到肿瘤纯度和突变变体以及突变基因座的拷贝数，所公开的实施方案对CCF而非VAF聚类。然后，所公开的实施方案基于突变所属的簇的CCF值的均值(或其他统计平均值)来确定突变的最终CCF。

与PyClone不同，所公开的实施方案不依赖MCMC，从而减少了不确定性并提高了计算速度。在一些实施方案中，方法在几秒钟内即可实现并获得结果，而使用MCMC技术的现有方法则在7小时内获得结果。

众所周知，MCMC需要大量的计算机存储器才能执行。所公开的不使用MCMC的方法可以大大减少执行任务所需的计算机存储器。

在在线出版物中，Guilhoto举例说明了使用MCMC分析的二维实例，如果将每个维划分为500个细分，则这将导致大小为5002＝250000的状态空间，以及具有总共12500000000个项的跃迁矩阵。假设存储的每个项使用4个字节的存储器(不足的估算)，这将意味着整个矩阵将需要250GB的存储器。对于n个维度(每个维度分为m个划分)，所需的存储器量将为O(m²ⁿ)。这样的计算机存储器需求是资源需求性的。减少所需计算机存储器的一种应变方法是计算每次需要时的任何特定转换概率，而不是在存储器中存储所有值。然而，这进一步降低了程序速度。参见math.uchicago.edu/～may/REU2017/REUPapers/Guilhoto.pdf。

因此，与现有的应用MCMC技术的方法(如PyClone)相比，所公开的不依赖MCMC的方法可以减少计算机存储器使用并提高计算速度。

此外，本公开的各种实施方案可以考虑非克隆的CNV。即，其不会假定所有癌细胞都受CNV的影响，或都不受CNV的影响。同样，它们不假定携带体细胞突变的所有癌细胞都受CNV的影响，或都不受CNV的影响。

由于上述技术性能，所公开的实施方案可以实现对癌症的CCF和克隆性的更准确和更有效的估算。它们为各种样品提供了更一致的结果。在一些实施方案中，当使用多个样品时，CCF和克隆性的估算值将得到进一步提高。因为实施方案不需要MCMC，所以它们可以获得比使用MCMC技术的现有方法快5个数量级的结果。同样，与使用MCMC的现有方法相比，它们需要更少的计算机存储器。

估算癌细胞的CCF和克隆性

工作流程概述

(i)采集样品

工作流程通过采集单个肿瘤样品开始。肿瘤可能包括非癌细胞，其可能包含或不包含体细胞突变。肿瘤样品还包括第一亚克隆变种或简称为亚克隆的癌细胞，其可能包括该亚克隆所特有的一个或多个体细胞突变，以及出现在其他亚克隆或创始克隆中的一个或多个突变。另外，样品可以包括除第一亚克隆外的一个或多个亚克隆的癌细胞。这些另外的亚克隆中的每种都可能具有其自身亚克隆所独有的一个或多个突变，以及它与一个或多个其他cyclones共有的一个或多个突变(例如，创始克隆的克隆突变)。某些突变可以在所有亚克隆中找到。这样的突变是克隆突变或生殖系突变。仅在亚克隆中发现的突变被认为是亚克隆。肿瘤中包括体细胞突变的癌细胞在所有癌细胞(即所有亚克隆)中所占的分数是肿瘤的重要性质。

在一些实施方案中，样品包括从对象的组织获得的细胞DNA。在一些实施方案中，肿瘤样品包括在体液中循环且源自癌细胞的无细胞DNA(cfDNA)。

注意，为了应用所公开的方法，假定在给定肿瘤细胞中存在至少两个体细胞突变。然而，单个样品可能包括一个或多个亚克隆。根据定义的单个变体意味着所述变体是克隆性的，并且样品中所有其他的细胞是非癌性的。

本文中所公开的方法可以分析来自测试个体的一个或多个癌症样品。在一些实施方案中，分析多个样品提高了结果的准确性和有效性。

用于所公开的过程的测试样品包括源自肿瘤细胞的DNA。它们可以是各种肿瘤样品，参见例如组织和流体样品。有关测试样品的进一步描述参见样品章节。

(ii)从样品获得序列读取

工作流程涉及对测试样品测序，以提供含有体细胞突变的多个基因座中的每个基因座的覆盖率(读取计数或读取丰度)。可以使用测序方法章节中描述的各种测序技术。鉴定了癌症相关的等位基因和基因座的野生型等位基因。可以使用已知的变异体调用技术来鉴定这些基因座，以鉴定与癌症相关的变异(如SNP)。例如，可以按Ding等人(2012),Nature481:506–10中所述的使用用于调用变异的方法。Strelka2是报告目标变体的变异调用工具的另一个实例。

在一些实施方案中，鉴定了SNP突变。在其他实施方案中，鉴定了插入缺失突变。使用癌症变异等位基因和参照等位基因的序列读取计数，可以测量癌症变异等位基因中的变异等位基因频率(VAF)。然而，在该阶段无法预知变异是否来源于癌细胞的克隆或亚克隆。

(iii)从序列读取确定初始癌细胞分数(iCCF)

对于测序的和测量了其VAF的多个基因座中的每个基因座，将初始癌细胞分数(iCCF)计算为：

iCCF＝(VAF*N)/(p*n)

其中N是该基因座处的平均拷贝数，p是样品的肿瘤纯度，并且n是突变变异等位基因的拷贝数。

在该阶段，估计了分析中所考虑的体细胞突变的变异等位基因中的每个的iCCF。在一些实施方案中，为了估计癌细胞分数，进行了某些假设。在一些实施方案中，假设突变等位基因的平均拷贝数(n)为1。该假设适用于不与CNV重叠、与参照等位基因(不具有体细胞突变的等位基因)的拷贝数损失重叠，或者与参照等位基因的拷贝数增加重叠的所有体细胞变体。这是合理可接受的假设，因为相对于小变异，预期拷贝数变化很少见。

在一些实施方案中，可以通过直接测量肿瘤纯度的实证方法确定肿瘤纯度值p。在其他的实施方案中，可以使用CNV调用工具(如Canvas)基于序列读取，确定p和/或N。参见Roller等人(2016),Bioinformatics,32(15),pp.2375–2377，其通过引用整体并入本文中以用于所有目的。

实施方案不需要N的整数拷贝数估算值，但需要估算样品中所有细胞中该基因组基因座的平均拷贝数的标准化的覆盖率估算值。使用标准化为覆盖率的实值的优势在于该方法避免了假设CNV的克隆性。于是，对于与克隆和亚克隆的CNV重叠的变异，只要上述初始的假设成立，则CCF估算值将成立。

在一些实施方案中，当N>1时，通过所公开的方法得出的iCCF估算值可能大于一个。为避免这样的结果，将iCCF估算值上限设为1。因此，使用下式进行iCCF估算。

(iv)基于iCCF对体细胞突变聚类

聚类是这样的过程，通过该过程，将多个不同的体细胞突变基于它们的iCCF分组到一个或多个簇中。然后，使用簇中的iCCF确定突变最终的CCF。iCCF的一个问题是由于各种错误来源，它们是真实CCF的嘈杂估算值。如果一组变异的iCCF形成簇，则可以推断出该组变异存在于相同的亚克隆或相同的亚克隆集合中。以此推断，簇中的该组变异的真实CCFs(与iCCF相反)应该是相同的。与变体的iCCF相比，聚类中iCCF的平均值或另一个中心估算值将是对簇中任何变体的真实CCF的更可靠的估算值。因此，使用聚类，可以更好地估算目标变体的癌细胞分数。在一些实施方案中，还可以估算产生iCCF的簇的亚克隆的数量。

所公开的实施方案使用变分贝叶斯混合模型进行聚类。该方法允许同时进行聚类和推断簇的数量。所公开的实施方案比通过诸如PyClone的传统方法所使用的随机MCMC技术更高效。所公开的实施方案基于CCF而非VAF对体细胞变异聚类。这允许实施方案对与CNV重叠的体细胞变异进行聚类。所公开的实施方案还允许在单个样品内以及在多个样品中进行聚类。可以使用各种不同的混合模型(包括二项、β或高斯混合模型)来进行聚类。这样的概率聚类提供了属于不同簇中的每个的一个或多个变异的后验概率估算值。这些概率可被用于计算突变的总体CCF。

在一些模仿中，对iCCF聚类可以确定癌细胞中的多个亚克隆，其为癌症的临床相关特性。例如，一些具有大量亚克隆的癌症更具抗药性或更具恶性。

(v)确定每种突变的最终CCF(fCCF)

fCCF是样品或对象中的突变的总体得分。根据突变属于一个或多个簇的概率以及簇中的平均CCF来计算突变的最终CCF。

确定最终CCF的一个目标是确定在样品或对象中的所有癌细胞中，特定目标体细胞突变的普遍性。例如，已知特定体细胞突变与癌症形成和/或发展的特定机制相关。如果体细胞突变具有高的fCCF，则针对特定机制的癌症疗法可能会影响大部分的癌细胞，从而为癌症提供有效的治疗。由此，应该制定或启动癌症疗法。相反，如果体细胞突变具有低的fCCF，则针对特定机制的癌症疗法本身可能就不那么有效。由此，应该改变、终止癌症疗法，或将癌症疗法与其他疗法组合。

例如，体细胞突变可以导致新抗原的产生。新抗原负荷是应答于对免疫检查点抑制剂的标志物。已表明，在非小细胞肺癌中，新抗原水平与抗P1疗法的功效呈正相关。参见Rizvi等人，Science,2015,348(6230):124–128。还参见McGranahan等人,Science,2016,351(6280):1463–1469。诸如在研究中使用的癌症疗法包括靶向与特定突变相关的新抗原的免疫疗法。如果突变的CCF值低并且新抗原是亚克隆性的，则疗法的针对亚克隆新抗原的免疫反应可能会影响较少部分的癌细胞并导致不良的治疗功效。

(vi)使用CCF或亚克隆等位基因分布来确定癌症治疗

一些实施方案使用变异CCF和/或亚克隆等位基因分布来确定亚克隆群体的抗原互补和/或针对所有亚克隆群体的治疗选择。在一些实施方案中，治疗选择可以基于突变的fCCF、亚克隆的平均CCF或亚克隆的数量。

确定癌细胞分数的示例性过程

图9显示的流程示意图示出了根据一些实施方案的用于确定癌细胞分数的过程100。使用包括一个或多个处理器和系统存储器的计算机系统实施过程100。过程100包括从对象获得至少一个测试样品。所述至少一个测试样品包括来自癌细胞的一个或多个亚克隆的核酸。参见框102。在一些实施方案中，所述至少一个测试样品包括两个或更多个测试样品。可以使用如下文的样品章节中进一步描述的各种样品和样品处理技术。

在一些实施方案中，过程包括从个体获得至少一个测试样品；从所述至少一个测试样品获得细胞DNA或无细胞DNA(cfDNA)；以及对细胞DNA或cfDNA测序以产生序列读取。参见框104。在一些实施方案中，对核酸测序包括分离和/或扩增核酸。在一些实施方案中，对核酸测序包括全基因组测序。在其他实施方案中，对核酸测序包括靶向测序。可以使用如测序方法章节中所描述的各种测序方法。

过程100还包括将序列读取与参照基因组比对以提供序列标签。参照基因组包括含有多种体细胞突变的多个基因座。序列标签是已与参照基因组比对并分配序列位置的序列读取。在一些实施方案中，所述多个体细胞突变包括选自以下的突变：单核苷酸变异(SNV)、插入缺失或以上的组合。参见框106。

过程100还涉及针对所述多个基因座中的每个基因座，确定基因座的覆盖率和基因座的变异等位基因频率(VAF)。基因座的覆盖率是与基因座比对的读取的数量(例如，计数或标准化的计数)。VAF是体细胞突变的变异等位基因的频率。参见框108。

过程100还包括提供肿瘤纯度值(p)，其为测试样品中肿瘤细胞在所有细胞中所占的分数。参见框110。过程100还包括针对所述多个基因座中的每个基因座，提供测试样品中所有细胞在该基因座处的所有等位基因的平均拷贝数(N)。参见框112。不同细胞的拷贝数可能不同。因此，平均拷贝数可能不是整数。在过程中可以确定包括多个基因座的区域的平均拷贝数。在这样的情况下，将该区域的拷贝数用作该基因座在该区域中的拷贝数。在一些实施方案中，使用序列读取估算肿瘤纯度值(p)。在一些实施方案中，使用序列读取估算等位基因的平均拷贝数(N)。可以使用各种技术，使用序列读取来估算肿瘤纯度和拷贝数。

图9示出了使用序列读取估算肿瘤纯度和拷贝数的过程。过程200涉及针对所述多个基因座中的每个基因座，测量测试样品的覆盖率和次等位基因频率(MAF)。参见框202。

过程200还涉及提供具有一组新的参数值的模型：候选二倍体覆盖率、候选肿瘤纯度(p)和候选拷贝数状态。二倍体覆盖率是样品的二倍体细胞的读取计数或丰度度量。候选拷贝数状态描述了等位基因及它们在基因组基因座处的拷贝数。利用这些参数值，可以根据以下关系确定预期的覆盖率和预期的MAF。

·倍性A:MAF 0

·倍性AB(正常):MAF 0.5

·倍性AA(拷贝中性的LOH):MAF 0

·倍性AAB:MAF 0.33333

·倍性AAA:MAF 0

·倍性AABB:MAF 0.5

·倍性AAAB:MAF 0.25

·倍性AAAA:MAF 0

·(等)

过程200包括根据上述关系，基于候选二倍体覆盖率、肿瘤纯度和拷贝数状态计算预期覆盖率和预期MAF。参见框206。

然后，过程200确定(a)和(b)之间的模型偏差：(a)框206中获得的预期覆盖率和预期MAF，以及(b)框202中获得的测量的覆盖率和测量的MAF。参见框208。

过程200还涉及使用训练数据估算惩罚项值。参见框210。Roller等人，(2016),Bioinformatics,32(15),pp.2375–2377中描述了模型惩罚项的更多细节，其通过引用整体并入本文中，以用于所有目的。

过程200还涉及估算多克隆性误差，其涉及数据如何偏离对应于潜在的癌细胞亚克隆的簇。参见框212。在Roller等人中描述了多克隆性误差的更多细节。

然后，过程200评估是否要考虑更多模型。参见判定框214。如果是，则过程循环回到框204以提供具有一组新的参数值的下一模型。然后重复此过程，以确定下一模型的模型偏差、模型惩罚项和多克隆性误差。如果没有更多的模型要考虑，则过程200继续选择具有考虑208的模型偏差、210的模型惩罚项值以及框212的多克隆类比误差的最小总偏差的模型。参见框216。

之后，然后过程200涉及确定测试样品的肿瘤纯度(p)和拷贝数，作为所选择模型的肿瘤纯度和拷贝数。参见框218。

回到图1，利用提供的变异等位基因频率(VAF)、肿瘤纯度值(p)和等位基因的平均拷贝数(N)，过程100使用VAF、p和N为所述多个基因座中的每个基因座计算初始癌细胞分数(iCCF)。参见框114。癌细胞分数是在基因座处具有体细胞突变的癌细胞分数。该操作提供了多个基因座/突变的多个iCCF。在一些实施方案中，基于(VAF*N)/p计算iCCF。

在一些患者中，iCCF的计算包括使用变异等位基因的拷贝数(n)，以及VAF、p和N计算iCCF。在一些实施方案中，基于(VAF*N)/(p*n)计算iCCF。

在一些实施方案中，在假设n为1的情况下来计算计算iCCF。在一些实施方案中，使用下式计算iCCF，其将iCCF值上线设为1。

/>

在一些实施方案中，所述多个体细胞突变中的一个或多个突变与一个或多个拷贝数变异(CNV)重叠。在一些实施方案中，过程不假定所有癌细胞都受CNV影响，或都不受CNV影响。换言之，CNV不一定为克隆性的。在这样的实施方案中，参数N并不总是整数。在一些实施方案中，过程不假定携带体细胞突变的所有癌细胞都受CNV影响，或都不受CNV影响。在这样的实施方案中，不同突变的参数n的值可能不同。

过程100还涉及对多个基因座的多个iCCF聚类，从而获得iCC的一个或多个簇。参见框116。在一些实施方案中，聚类包括确定属于一个或多个簇的每个突变的一个或多个后验概率。在一些实施方案中，聚类涉及使用混合模型来确定一个或多个簇。在一些实施方案中，混合模型包括变分贝叶斯混合模型。在一些实施方案中，聚类包括确定产生iCCF的多个簇的变异的多个亚克隆。

在一些实施方案中，混合模型包括两个或更多个亚克隆的变异等位基因计数的两种或更多种概率分布的混合，所述变异等位基因是突变变异的等位基因。在一些实施方案中，变异等位基因计数的每种概率分布是二项分布、β分布、高斯分布或以上的任意组合。在一些实施方案中，变异等位基因计数的每种概率分布是二项分布。在一些实施方案中，基于测序深度和iCCF计算变异等位基因计数。在一些实施方案中，将变异等位基因计数计算为：变异等位基因计数＝深度×iCCF。

在一些实施方案中，变异的iCCF被建模为来自β分布的随机变量。在一些实施方案中，聚类不使用马尔科夫链蒙特卡洛(MCMC)方法。在一些实施方案中，可以使用图11中所描绘的过程实施框116的聚类。

图11显示了对iCCF值聚类的过程300。过程300以使用聚类技术(如K-均值)聚类形成iCCF的初始聚类开始。参见框302。

然后，过程300涉及提供具有一组新的参数值的混合模型。所述混合模型是变分贝叶斯混合模型。参见框304。混合模型按如下将突变m的等位基因计数建模为来自簇k的二项分布的二项随机变量：

计数_m～BN(x,q_k)

其中BN(,)表示二项分布，x是总等位基因计数，并且q_k是簇k的变异等位基因在所有等位基因中所占的分数。参见框306。

混合模型还按如下将突变m的iCCF建模为来自簇k的β分布的β随机变量：

iCCF_m～β(u_k,v_k)

其中β表示β分布，且u_k和v_k是簇k的β分布的形状参数。参见框308。

过程300涉及按如下计算突变m的属于簇k的iCCF的概率：

其中pr_m,k是突变m的属于簇k的概率；β(；)是簇k的β分布的概率密度函数；f是突变m的iCCF；并且Γ()是γ函数。参见框310。在该实施方案中，所述至少一个测试样品是一个样品。

在其他的实施方案中，所述至少一个测试样品包括两个或更多个测试样品，并且属于簇的突变的概率被建模为：

其中u_k和u_v是S向量，其s^th分量分别是u_ks和v_ks。

考虑到K(多维的)β分量的混合，实施方案使用K维潜在二元随机变量z_n指示iCCFf_n是否属于(z_nk＝1)或不属于(z_nk＝0)分量k，并满足1/K表达式，其中

iCCF属于分量k的边际概率p(z_nk＝1)由其混合系数π_k给出，

p(z_nk＝1)＝π_k

受到以下概率限制：

0≤π_k≤1

考虑到z_n的1/K表达式，这可书写为：

类似地，产生于混合的iCCF f_n的条件分布p(f_n|z_n,U,V)可书写为：

根据k^thβ分量的形状参数向量u_k和v_k，集合参数为U≡{u_k}和V≡{v_k}。

聚类模型的更多细节参见Miller等人(2014),PLoS Comput Biol 10(8):e1003665，其通过引用整体并入本文中以用于所有目的。

过程300还涉及通过比较预期数据和观察数据来确定当前的混合模型是否收敛。参见框312。确定模型收敛的方法在Miller,et al.(2014)中有进一步的描述。参见框312。如果模型不收敛，则过程循环回到框304以提供具有一组新的参数值的下一混合模型，并计算iCCF的一组新的后验概率。如果模型收敛，则过程300继续进行至基于最佳模型而获得聚类和每种突变属于簇的概率。参见框314。

回到图1，在一些实施方案中，框116的聚类允许确定细胞的簇或克隆的平均iCCF。在一些实施方案中，聚类允许确定产生iCCFs的聚类的多个亚克隆。在一些实施方案中，这些值描述了癌细胞的克隆结构，并且其可用于帮助设计如本文中其他地方所述的癌症疗法。

在获得聚类和后验概率后，过程100继续进行至使用一个或多个簇的iCCFs确定一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCFs)。参见框118。在一些实施方案中，使用突变属于多个簇的后验概率和聚类的iCCFs的均值计算每个fCCFs。在一些实施方案中，将突变的fCCF计算为每个簇的体细胞突变的平均iCCF和突变属于每个簇的后验概率的线性组合。在一些实施方案中，将突变m的fCCF计算为：

其中iCCF_k是簇k的平均iCCF；且pr_m,k是突变m属于簇k的概率。

在一些实施方案中，过程可以任选地还包括至少部分基于一个或多个fCCFs应用治疗方案。在一些实施方案中，应用治疗方案包括：将一个或多个体细胞突变的一个或多个fCCFs与一个或多个标准值或阈值比较；以及基于比较开具、启动和/或改变治疗方案。在一些实施方案中，治疗方案影响与一个或多个体细胞突变相关的生物通路。在一些实施方案中，治疗方案包括免疫治疗。

样品

本文中使用的样品含有是细胞结合(例如，细胞DNA)或“无细胞”(例如，cfDNA)的核酸。可以从实体组织(例如骨和骨髓)、软组织(例如器官、肌肉、脂肪和皮肤)或体液(例如血液、血浆、血清、尿液、腹膜液、脑脊液、胸膜液和羊水)获得细胞DNA。可以通过本领域已知的多种方法从包括但不限于血浆、血清和尿液的生物样品中获得无细胞核酸(包括无细胞DNA)无细胞(参见，例如Fan等人，Proc Natl Acad Sci 105:16266-16271[2008]；Koide等人，Prenatal Diagnosis 25:604-607[2005]；Chen等人，Nature Med.2:1033-1035[1996]；Lo等人，Lancet 350:485-487[1997]；Botezatu等人，Clin Chem.46:1078-1084,2000；和Su等人，J Mol.Diagn.6:101-107[2004])。为了从样品中的细胞中分离无细胞DNA，可以使用各种方法，包括但不限于分级分离、离心(例如密度梯度离心)、DNA特异性沉淀或高通量细胞分选和/或其他分离方法。可获得用于cfDNA的手动和自动化分离的可商购获得的试剂盒(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样品已被用于测定中，以通过可检测染色体非整倍性和/或各种多态性的测序测定方法来确定是否存在染色体异常(例如21三体)。

在各种实施方案中，可以在使用之前(例如，在制备测序文库之前)特异性或非特异性地富集样品中存在的DNA。样品DNA的非特异性富集是指样品基因组DNA片段的全基因组扩增，其可被用于在制备DNA测序文库之前增加样品DNA的水平。非特异性富集可以是包含多于一个基因组的样品中存在的两个基因组之一的选择性富集。例如，非特异性富集可以是选择血浆样品中的癌症基因组，其可以通过已知方法获得，以增加样品中癌症DNA与正常DNA的相对比例。可选地，非特异性富集可以是样品中存在的两个基因组的非选择性扩增。例如，非特异性扩增可以是样品中包含来自癌症基因组和正常基因组的DNA的混合物的癌症DNA和正常DNA的扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)和多置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中，包含来自不同基因组的cfDNA的混合物的样品未富集该混合物中存在的基因组的cfDNA。在其他实施方案中，包含来自不同基因组的cfDNA的混合物的样品非特异性地富集了样品中存在的基因组中的任一种。

包含本文中所述方法所应用的核酸的样品通常包含至少一种生物样品(“测试样品”)，例如如上文所述的。在一些实施方案中，通过多种熟知的方法中的任一种纯化或分离待分析的核酸。

因此，在某些实施方案中，样品包含纯化的或分离的多核苷酸，或由纯化的或分离的多核苷酸组成，或者它可以包含样品(如组织样品、生物流体样品、细胞样品等)。合适的生物流体样品包括但不限于：血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳流出物、淋巴液、唾液、脑脊液、ravages、骨髓悬液、阴道流出物、经宫颈灌洗液、脑液、腹水、乳液、呼吸道分泌物、肠道和泌尿生殖道的分泌物、羊水、乳液和白细胞单采术(leukophoresis)样品。在一些实施方案中，样品是易于通过非侵入性程序获得的样品，例如血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳流出物、唾液或粪便。在某些实施方案中，样品是外周血样品，或者是外周血样品的血浆和/或血清级分。在其他实施方案中，生物样品是拭子或涂片、活检标本或细胞培养物。在另一实施方案中，样品是两种或更多种生物样品的混合物，例如，生物样品可包含生物流体样品、组织样品和细胞培养样品中的两种或更多种。如本文中所用的，术语“血液”、“血浆”和“血清”明确涵盖其级分或处理的部分。类似地，在从活检、拭子、涂片等采集样品的情况下，“样品”明确涵盖来源于活检、拭子、涂片等的处理的级分或部分。

在某些实施方案中，可以从以下来源获得样品，包括但不限于：来自不同个体的样品、来自相同或不同个体不同发育阶段的样品、来自不同患病个体(例如，患有癌症或疑似患有遗传病症的个体)的样品、正常个体的样品、在个体疾病的不同阶段获得的样品、从经受不同疾病治疗的个体获得的样品、来自经受不同环境因素的个体的样品、来自具有病理易感体质的个体的样品、来自暴露至传染性病因子(例如，HIV)的个体的样品，等等。

在某些实施方案中，也可以从体外培养的组织、细胞或其他含多核苷酸的来源获得样品。培养的样品可以取自以下来源，包括但不限于：在不同培养基和条件(例如，pH、压力或温度)下维持的培养物(例如，组织或细胞)、维持不同时长的培养物(例如，组织或细胞)、用不同因子或试剂(例如，候选药物或调节剂)处理的培养物(例如，组织或细胞)，或者不同类型的组织和/或细胞的培养物。

从生物来源分离核酸的方法是众所周知的，并且将根据来源的性质而不同。本领域技术人员可以按照本文中所述方法所需要的容易地从来源中分离核酸。在一些情况下，将核酸样品中的核酸分子片段化可能是有利的。片段化可以是随机的，也可以是特异性的，如例如使用限制性核酸内切酶消化所实现的。用于随机片段化的方法是本领域熟知的，并且包括例如限制DNA酶消化、碱处理和物理剪切。在一个实施方案中，样品核酸是作为未被片段化的cfDNA获得的。

测序文库制备

在一个实施方案中，本文中所描述的方法可以利用下一代测序技术(NGS)，其允许在单个测序运行上将多个样品作为基因组分子(即单重测序)或作为包含索引基因组分子的合并样品(例如，多重测序)单独测序。这些方法可以产生多达数亿个DNA序列的读取。在各种实施方案中，可以使用例如本文中所述的下一代测序技术(NGS)来确定基因组核酸的序列和/或索引基因组核酸的序列。在各种实施方案中，可以使用如本文中所述的一个或多个处理器来执行使用NGS获得的大量序列数据的分析。

在各种实施方案中，使用这样的测序技术不涉及制备测序文库。

然而，在某些实施方案中，本文中包括的测序方法涉及制备测序文库。在一种说明性方法中，测序文库制备涉及产生准备好测序的适配子修饰的DNA片段(例如，多核苷酸)的随机集合。可以从DNA或RNA制备多核苷酸的测序文库，包括DNA或cDNA的等同物、类似物，例如与通过逆转录酶的作用从RNA模板产生的是互补DNA或复制DNA的DNA或cDNA。多核苷酸可以来源于双链形式(例如dsDNA，如基因组DNA片段、cDNA、PCR扩增产物等)，或者在某些实施方案中，多核苷酸可以来源于单链形式(例如，ssDNA、RNA等)，并已转换为dsDNA形式。通过举例说明的方式，在某些实施方案中，单链mRNA分子可被复制成适合用于制备测序文库的双链cDNA。原始多核苷酸分子的精确序列通常对文库制备方法无关紧要，并且可能是已知的或未知的。在一个实施方案中，多核苷酸分子是DNA分子。更具体地，在某些实施方案中，多核苷酸分子代表生物体的整个遗传互补物或实质上是生物体的整个遗传互补物，并且是基因组DNA分子(例如，细胞DNA、无细胞DNA(cfDNA)等)，其通常包括内含子序列和外显子序列(编码序列)，以及非编码调控序列(如启动子序列和增强子序列)。在某些实施方案中，原始多核苷酸分子包括人基因组DNA分子，例如存在于怀孕对象的外周血中的cfDNA分子。

通过使用包含特定范围片段大小的多核苷酸，可以为一些NGS测序平台的测序文库的制备提供便利。这样的文库的制备通常涉及将大的多核苷酸(例如，细胞基因组DNA)片段化以获得所需大小范围的多核苷酸。

可以通过本领域技术人员已知的多种方法中的任何一种来实现片段化。例如，可以通过机械方式来实现片段化，包括但不限于：雾化、超声处理和水力剪切。然而，机械片段化通常在C-O、P-O和C-C键处切割DNA骨架，导致产生具有破坏的C-O、P-O和/C-C键的平端和3’突出端和5’突出端的异质混合物(参见，例如Alnemri和Liwack,J Biol.Chem265:17323-17333[1990]；Richards和Boyer,J Mol Biol 11:327-240[1965])，由于它们可能缺少随后的酶促反应(例如制备测序DNA所需的测序适配子的连接)所必需的5’-磷酸，因此其可能需要进行修复。

相反，cfDNA通常作为少于约300个碱基对的片段存在，并因此，使用cfDNA样品生成cDNA文库通常不需要片段化。

通常，无论多核苷酸是被强制片段化(例如，体外片段化)，还是作为片段天然存在，它们都将被转化为具有5’-磷酸和3’-羟基的平末端DNA。标准方案(例如，使用例如如本文中其他地方所述的Illumina平台的测序方案)指导用户对样品DNA进行末端修复、在dA加尾之前纯化末端修复的产物，以及在文库制备的适配子连接步骤之前纯化dA加尾的产物。

本文所述的序列文库制备方法的各种实施方案消除了执行通常由标准方案强制执行的一个或多个步骤以获得可被NGS测序的修饰的DNA产物的需要。缩写方法(ABB法)、1步法和2步法是制备测序文库的方法的实例，这些方法可以在2012年7月20日递交的第13/555,037号专利申请中找到，其通过引用整体并入本文中。

测序方法

如上文所示的，对制备的样品(例如，测序文库)测序，作为估算癌症样品的CCF程序的一部分。可以利用多种测序技术中的任何一种。

如下文所述的，一些测序技术可商购获得，如来自Affymetrix公司(森尼维尔市,CA)的边杂交边测序平台和来自454Life Sciences(布拉德福德,CT)的边合成边测序平台、Illumina/Solexa(海沃德,CA)和Helicos Biosciences(剑桥,MA)，以及来自AppliedBiosystems(福斯特城,CA)的边连接边测序平台。除了使用Helicos Biosciences的边合成边测序进行的单分子测序外，其他单分子测序技术包括但不限于：Pacific Biosciences的SMRT^TM技术、离子激流^TM(ION TORRENT^TM)技术和例如由Oxford Nanopore Technologies开发的纳米孔测序。

尽管自动化的Sanger方法被视为“第一代”技术，但在本文中所述的方法中也可以采用包括自动化的Sanger测序的Sanger测序。另外的合适的测序方法包括但不限于核酸成像技术，例如原子力显微镜(AFM)或透射电子显微镜(TEM)。将在下文中更详细地描述示例性的测序技术。

在一个说明性但非限制性的实施方案中，本文中所描述的方法包括使用Illumina的边合成边测序和基于可逆终止子的测序化学过程(例如，如Bentley等人，Nature 6:53-59[2009]中所述的)，获得测试样品中的核酸的序列信息，例如，筛查癌症的对象中的cfDNA或细胞DNA等。模板DNA可以是基因组DNA，例如细胞DNA或cfDNA。在一些实施方案中，将来自分离的细胞的基因组DNA用作模板，并将其片段化为数百个碱基对的长度。在其他实施方案中，使用cfDNA作为模板，并且由于cfDNA以短片段存在，因此不需要片段化。循环肿瘤DNA以短片段存在，其大小分布在约150-170bp处达到峰值。Illumina的测序技术依赖于将片段化的基因组DNA连接到一个平的、光学透明的表面上，该表面上结合了寡核苷酸锚。对模板DNA进行末端修复，以生成5’-磷酸化的平末端，并将使用Klenow片段的聚合酶活性来在平的磷酸化的DNA片段的3’端添加单个A碱基。该添加使DNA片段准备好连接至寡核苷酸适配子，所述寡核苷酸适配子在其3’端具有单个T碱基的突出，以提高连接效率。适配子寡核苷酸与流通池锚定寡核苷酸互补(不要与重复扩增分析中的锚/锚定读取混淆)。在有限稀释条件下，将适配子修饰的单链模板DNA加入到流通池中，并通过与锚定寡核苷酸杂交来固定。将连接的DNA片段延伸并桥联扩增，以创建具有数亿个簇的超高密度流通池，每个簇含有约1,000个相同模板的拷贝。在一个实施方案中，在它经受簇扩增之前，使用PCR对随机片段化的基因组DNA进行扩增。可选地，使用无扩增(例如，无PCR)的基因组文库制备物，并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人，Nature Methods 6:291-295[2009])。使用强大的四色DNA边合成边测序技术对模板测序，该技术采用带有可移除的荧光染料的可逆终止子。使用激光激发和全内反射光学器件实现高灵敏度的荧光检测。将约数十至几百个碱基对的短序列读取与参照基因组进行比对，并使用专门开发的数据分析管线软件鉴定短序列读取到参照基因组的独特映射。第一次读取完成后，可以原位再生模板，以从片段的另一端进行第二次读取。因此，可以使用DNA片段的单端测序或配对端测序。

本公开的各种实施方案可以使用允许配对末端测序的边合成边测序。在一些实施方案中，Illumina的边合成边测序平台涉及对片段聚类。聚类是其中每个片段分子均被等温扩增的过程。在一些实施方案中，如此处所述的实例，片段在所述片段两端连接有两个不同的适配子，所述适配子允许片段与流通池通道表面上的两种不同的寡核苷酸杂交。片段在所述片段的两端还包括索引序列或连接有两个索引序列，所述索引序列提供标签以鉴定多重测序中的不同样品。在一些测序平台上，待测序的片段也被称为插入片段。

在一些实施方案中，在Illumina平台中用于聚类的流通池是具有通道的载玻片。每个通道是包被有两种类型寡核苷酸坪(lawn)的玻璃通道。表面上的两种类型的寡核苷酸中的第一种使杂交成为可能。该寡核苷酸与片段一端上的第一适配子互补。聚合酶产生杂交片段的互补链。将双链分子变性，并洗掉原来的模板链。剩余的链与许多其他剩余的链同时通过桥联扩增而被克隆扩增。

在桥联扩增中，链折叠，并且链第二端上的第二适配子区域与流通池表面上的第二种类型的寡核苷酸杂交。聚合酶产生互补链，形成双链桥联分子。将该双链分子变性，从而导致两个单链分子通过两种不同的寡核苷酸拴接到流通池。然后一遍又一遍地重复该过程，并且数百万个簇同时发生，导致所有片段的克隆扩增。桥联扩增后，将反链切割并冲洗掉，仅留下正链。将3’端封闭以防止不需要的引发。

聚类后，以延伸第一测序引物来产生第一读取而开始测序。在每个循环中，荧光标记的核苷酸竞争添加到生长链中。基于模板的序列仅掺入一个。在添加每个核苷酸后，簇被光源激发，并发射出特征性的荧光信号。循环数决定了读取的长度。发射波长和信号强度决定了碱基检出率。对于给定的簇，同时读取所有相同的链。以大规模并行的方式对数以亿计的簇测序。在第一次读取完成后，将读取产物冲洗掉。

在涉及两种索引引物的方案的下一步骤中，引入索引1引物并将其与模板上的索引1区域杂交。索引区域提供了片段的标识，这对于在多重测序过程中将样品解多重很有用。索引1读取的产生类似于第一读取。在完成索引1的读取后，将读取的产品冲洗掉，并将链的3’端去保护。然后，模板链折叠并与流通池上的第二寡核苷酸结合。以与索引1相同的方式读取索引2序列。然后在该步骤完成时冲洗掉索引2读取产物。

读取两个索引后，通过使用聚合酶延伸第二流通池寡核苷酸来启动读取2，从而形成双链桥。将该双链DNA变性，并将3’端封闭。将原来的正链切割并冲洗掉，留下反链。以引入读取2测序引物开始读取2。与读取1一样，重复测序步骤，直到达到所期望的长度。将读取2产物冲洗掉。该整个过程产生数百万个代表所有片段的读取。基于样品制备期间中引入的独特索引分离来自合并样品文库的序列。对于每个样品，将具有相似延伸的碱基调用的读取局部聚类。将正向和反向读取配对以产生连续的序列。将这些连续的序列与参照基因组比对以进行变异鉴定。

上述的边合成边测序实例涉及配对末端读取，其被用于所公开的方法的许多实施方案中。配对末端测序涉及来自片段两端的两个读取。当将一对读取映射到参照序列时，可以确定两个读取之间的碱基对距离，然后可以将所述距离用于确定从中获得读取的片段的长度。在一些情况下，跨两个堆栈段的片段的配对末端读取中的一个将与一个堆栈段比对，且另一个将与相邻的堆栈段比对。随着堆栈段变长或读取变短，这种情况变得越来越少。可以使用各种方法来解释这些片段的堆栈段成员。例如，在确定堆栈段的片段大小频率中可以将它们省略；可以针对两个相邻的堆栈段来对它们计数；可以将它们分配给涵盖两个堆栈段的大量碱基对的堆栈段；或者可以将它们分配给具有与每个堆栈段中的碱基对的一部分相关的权重的两个堆栈段。

配对末端读取可以使用不同长度的插入片段(即待测序的不同片段大小)。作为本公开中的默认方式，配对末端读取被用来指从各种插入长度获得的读取。在一些情况下，为了区分短插入配对末端读取和长插入配对末端读取，后者也称为双端读取(mate pairreads)。在涉及双端读取的一些实施方案中，首先将两个生物素连接适配子连接到相对较长插入片段(例如，几kb)的两端。然后，生物素连接适配子将插入片段的两端连接起来，形成一个环状分子。然后可以通过将环状分子进一步片段化来获得包含生物素连接适配子的亚片段。然后可以通过与上述短插入配对末端测序相同的程序对包括相反序列顺序的原始片段两端的亚片段进行测序。使用Illumina平台进行的双端测序的更多细节显示在以下URL的在线出版物中(其通过引用整体并入本文中)：res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing。关于配对末端测序的另外的信息可以在第7601499号美国专利和第2012/0,053,063号美国专利公开中找到，其通过关于有关配对末端测序方法和设备的物质的引用而被并入本文中。

在DNA片段测序之后，将预定长度(例如100bp)的序列读取映射或比对到已知的参照基因组。映射或比对的读取及其在参照序列上的对应位置也被称为标签。在一个实施方案中，参照基因组序列是NCBI36/hg18序列，其可在万维网上的genome.ucsc.edu/cgi-bin/hgGateway？org＝Human&db＝hg18&hgsid＝166260105)上获得。可选地，参照基因组序列是GRCh37/hg19，其可在万维网上的genome.ucsc.edu/cgi-bin/hgGateway上获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本的DNA数据库)。多种计算机程序可用于比对序列，包括但不限于BLAST(Altschul等人，1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人，Genome Biology 10:R25.1-R25.10[2009])或ELAND(Illumina公司,圣地亚哥,CA,USA)。在一个实施方案中，对血浆cfDNA分子的克隆扩展拷贝的一端进行测序，并通过使用核苷酸数据库的有效大规模比对(ELAND)软件的Illumina基因组分析仪的生物信息学比对分析进行处理。

在一个说明性但非限制性的实施方案中，本文中所描述的方法包括使用Helicos真正的单分子测序(tSMS)技术(例如，如Harris T.D.等人，Science 320:106-109[2008]中所述的)的单分子测序技术，获得测试样品中的核酸(例如，筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。在tSMS技术中，将DNA样品切割成大约100至200个核苷酸的链，并将多聚腺苷酸(polyA)序列添加到每条DNA链的3’端。通过添加荧光标记的腺苷核苷酸标记每条链。然后将DNA链与含有数百万个固定在流通池表面上的寡核苷酸-T捕获位点的流通池杂交。在某些实施方案中，模板的密度可以为约1亿个模板/cm2。然后将流通池加载到仪器(例如HeliScope^TM测序仪)中，并用激光照射流通池的表面，露出每个模板的位置。CCD摄像机可以在流通池表面上绘制模板的位置。然后切割模板荧光标记并冲洗掉。通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡核苷酸-T核酸用作引物。聚合酶以模板指导的方式将标记的核苷酸掺入引物中。去除聚合酶和未掺入的核苷酸。通过对流通池表面成像，识别出已定向掺入荧光标记的核苷酸的模板。成像后，切割步骤去除荧光标记，然后使用其他荧光标记的核苷酸重复此过程，直到获得所期望的读取长度。在每个核苷酸添加步骤中收集序列信息。通过单分子测序技术进行的全基因组测序排除了或通常避免了测序文库制备过程中的基于PCR的扩增，并且该方法允许直接测量样品，而不是测量该样品的拷贝。

在另一说明性但非限制性的实施方案中，本文中所描述的方法包括使用454测序(Roche)(例如，如Margulies,M.等人Nature 437:376-380[2005]中所述的)，获得测试样品中的核酸(例如，筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。454测序通常涉及两个步骤。在第一个步骤中，将DNA剪切成约300-800个碱基对的片段，并将片段平末端化。然后将寡核苷酸适配子连接至片段的末端。适配子用作片段扩增和测序的引物。可以使用例如含有5’-生物素标签的适配子B，将片段连接到DNA捕获珠(例如链霉亲和素包被的珠)上。在油-水乳状液的液滴内经PCR扩增与珠相连的片段。结果在每个珠上产生了克隆扩增的DNA片段的多个拷贝。在第二个步骤中，将珠捕获在孔(例如，皮升大小的孔)中。对每条DNA片段并行进行焦磷酸测序。一个或多个核苷酸的添加产生光信号，其由测序仪器中的CCD摄像机记录。信号强度与掺入的核苷酸数量成比例。焦磷酸测序利用了焦磷酸(PPi)，其在添加核苷酸后被释放。在腺苷-5’-磷酰硫酸存在下，PPi通过ATP硫酸化酶转化为ATP。萤光素酶使用ATP将萤光素转化为氧化萤光素，并且该反应产生可被测量和可分析的光。

在另一说明性但非限制性的实施方案中，本文中所描述的方法包括使用SOLiD^TM技术(Applied Biosystems)，获得测试样品中的核酸(例如测试样品中的cfDNA、筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。在SOLiD^TM边连接边测序中，将基因组DNA剪切成片段，并将适配子连接到片段的5’端和3’端以产生片段文库。可选地，可以通过以下步骤来引入内部适配子：将适配子连接至片段的5’端和3’端，将片段环化、消化环化的片段以产生内部适配子，以及将适配子连接至产生的片段的5’端和3’端以产生配对配对文库(mate-paired library)。接下来，在含有珠、引物、模板和PCR成分的微反应器中制备克隆珠群。PCR之后，将模板变性，并富集珠以分离具有延伸的模板的珠。对所选珠上的模板进行允许与载玻片结合的3’修饰。可以通过连续杂交和将部分随机的寡核苷酸与通过特定荧光团鉴定的中心决定碱基(或碱基对)连接来确定序列。记录颜色后，将连接的寡核苷酸切割并去除，然后重复该过程。

在另一说明性但非限制性的实施方案中，本文中所描述的方法包括使用PacificBiosciences的单分子实时(SMRT^TM)测序技术，获得测试样品中核酸(例如测试样品中的cfDNA、筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。在SMRT测序中，在DNA合成过程中对染料标记的核苷酸的连续掺入进行了成像。将单个DNA聚合酶分子连接到单个零模波长探测器(ZMW探测器)的底表面，该检测器在将磷连接的核苷酸掺入正在生长的引物链中时获得序列信息。ZMW检测器包括限制结构，其使得能够针对快速扩散进出ZMW(例如，以微秒为单位)的荧光核苷酸的背景，观察通过DNA聚合酶掺入单个核苷酸。通常，需要花费几毫秒的时间才能将核苷酸掺入到生长链中。在这段时间内，荧光标记被激发并产生荧光信号，并且荧光标记被切除。染料的相应荧光测量指示掺入了哪种碱基。重复该过程以提供序列。

在另一说明性但非限制性的实施方案中，本文中所描述的方法包括使用纳米孔测序(例如，如Soni GV和Meller A.Clin Chem 53:1996-2001[2007]中所述的)，获得测试样品中的核酸(例如，筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。纳米孔测序DNA分析技术是由多家公司开发的，包括例如，Oxford Nanopore Technologies(牛津,英国)、Sequenom、NABsys等。纳米孔测序是一种单分子测序技术，通过这种技术，单分子DNA在通过纳米孔时直接被测序。纳米孔是小的孔，通常直径约为1纳米的级别。将纳米孔浸入导电流体中并施加通过其中的电势(电压)会由于通过纳米孔传导离子而产生少量电流。流过的电流量对纳米孔的大小和形状敏感。当DNA分子通过纳米孔时，DNA分子上的每个核苷酸都会以不同程度阻塞纳米孔，从而以不同程度改变通过纳米孔的电流大小。因此，当DNA分子通过纳米孔时电流的这种变化提供了DNA序列的读取。

在另一说明性但非限制性的实施方案中，本文中所描述的方法包括使用化学敏感的场效应晶体管(chemFET)阵列(例如，如第2009/0026082号美国专利申请公开中所述的)，获得测试样品中的核酸(例如，筛查癌症的对象中的cfDNA或细胞DNA等)的序列信息。在该技术的一个实例中，可以将DNA分子放入反应室中，并且可以将模板分子与和聚合酶结合的测序引物杂交。通过chemFET，可以将在测序引物的3’端处掺入新核酸链中的一个或多个三磷酸识别为电流的变化。阵列可以具有多个chemFET传感器。在另一个实例中，可以将单个核酸连接到珠，并且可以在珠上扩增核酸，并且可以将单个珠转移到chemFET阵列上的单个反应室中，每个室具有chemFET传感器，并且核酸可被测序。

在另一个实施例中，本方法包括使用透射电子显微镜(TEM)获得测试样品中的核酸的序列信息。该方法被称为单分子放置快速纳米转移(Individual Molecule PlacementRapid Nano Transfer,IMPRNT)，其包括利用单原子分辨率透射电子显微镜对用重原子标志物选择性标记的高分子量(150kb或更大的)DNA进行成像，以及在具有一致的碱基间间隔的超密集(链间3nm)平行阵列中的超薄膜上排列这些分子。使用电子显微镜对薄膜上的分子成像，以确定重原子标志物的位置，并从DNA中提取碱基序列信息。在PCT专利公开WO2009/046445中进一步描述了该方法。该方法允许在不到十分钟的时间内对完整的人类基因组测序。

在另一个实施方案中，DNA测序技术是离子激流单分子测序，其将半导体技术与简单的测序化学结合起来，以在半导体芯片上将化学编码的信息(A、C、G、T)直接转变为数字信息(0,1)。实际上，当核苷酸通过聚合酶掺入DNA链时，氢离子作为副产物释放出来。离子激流使用高密度的微型加工孔阵列来以大规模并行方式进行该生化过程。每个孔中都有不同的DNA分子。孔下面是离子敏感层，且其下方是离子传感器。当将核苷酸(例如C)添加到DNA模板中然后掺入到DNA链中时，氢离子将被释放。来自该离子的电荷将会改变溶液的pH，其可通过离子激流的离子传感器检测到。该测序仪—基本上是世界上最小的固态pH计—调用碱基，直接从化学信息到数字信息。然后，离子个人基因组机器(Ion personal GenomeMachine)(PGM^TM)测序仪依次用一个核苷酸接一个核苷酸充满芯片。如果下一个充满芯片的核苷酸不匹配。不会记录电压变化，并且将不会调用碱基。如果DNA链上有两个相同的碱基，则电压将加倍，并且芯片将记录调用的两个相同的碱基。直接检测允许在几秒钟内记录核苷酸掺入。

在另一个实施方案中，本方法包括使用边杂交边测序获得测试样品中的核酸的序列信息。边杂交边测序包括使多个多核苷酸序列与多个多核苷酸探针接触，其中多个多核苷酸探针中的每一个可以任选地束缚至底物上。底物可以是包含已知核苷酸序列的阵列的平表面。与阵列杂交的模式可被用于确定样品中存在的多核苷酸序列。在其他实施方案中，每个探针被束缚到珠(例如磁珠等)上。可以确定与珠的杂交，并用于鉴定样品中的多个多核苷酸序列。

在本文中所述方法的一些实施方案中，映射的序列标签包含约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读取。预期技术优势将使得能够获得大于500bp的单端读取，从而在产生配对末端读取时使得能够获得大于约1000bp的读取。在一个实施方案中，映射的序列标签包含36bp的序列读取。通过将标签的序列与参照序列比较来实现序列标签的映射，以确定所测序的核酸(例如，cfDNA)分子的染色体来源，并且不需要具体的基因序列信息。可以允许很小程度的错配(每个序列标签0-2个错配)，以解释混合样品中的参照基因组和基因组之间可能存在的少量多态性。

每个样品通常获得多个序列标签。在一些实施方案中，从映射读取至参照基因组每个样品获得了包含75bp读取的至少约1×10⁵个序列标签。

正确估算癌症样品CCF所需的准确性基于测序运行内的样品中映射到参照基因组的序列标签的数量变化(运行间变化性)，以及不同测序运行中映射到参照基因组的序列标签的数量变化(运行间变化性)。使用不同方案可能引起提取和纯化核酸、制备测序文库以及使用不同测序平台的其他变化。

用于估算癌细胞分数(CCF)的设备和系统

通常使用不同的计算机程序来进行测序数据的分析和从中得出的诊断。因此，某些实施方案采用涉及存储在一种或多种计算机系统或其他处理系统中的，或通过一种或多种计算机系统或其他处理系统传输的数据的处理。本文中所公开的实施方案还涉及用于执行这些操作的设备。该设备可以为所需的目的而专门构建，或者可以是由存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或计算机组)。在一些实施方案中，一组处理器协作(例如，经由网络或云计算)和/或以并行方式执行所述分析操作中的一些或全部。用于执行本文中所述方法的处理器或处理器组可以是不同类型的，包括微控制器和微处理器(如可编程装置(例如，CPLD和FPGA))，以及非可编程装置(如门阵列ASIC或通用目的微处理器)。

另外，某些实施方案涉及有形和/或非暂时性的计算机可读介质或计算机程序产品，其包括用于进行各种计算机实施的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的实例包括但不限于：半导体存储器装置、磁介质(如磁盘驱动器、磁带)、光学介质(如CD)、磁光介质，以及专门配置为存储并执行程序指令的硬件装置(如只读存储器装置(ROM)和随机存取存储器(RAM))。计算机可读介质可以由终端用户直接控制，或者所述介质可以由终端用户间接控制。直接控制介质的实例包括位于用户设施处的介质和/或未与其他实体共享的介质。间接控制介质的实例包括用户可以经由外部网络和/或经由提供共享资源的服务(例如“云”)间接访问的介质。程序指令的实例包括机器代码(如通过编译器产生的机器代码)，以及含有可由计算机使用解释器执行的高级代码的文件。

在各种实施方案中，所公开的方法和设备中采用的数据或信息是以电子格式提供的。这样的数据或信息可包括来源于核酸样本的读取和标签、与参照序列的特定区域比对(例如，与染色体或染色体段比对)的此类标签的计数或密度、参照序列(包括仅提供或主要提供多态性的参照序列)、代用如SNV或非整倍性调用、CCF估算值、咨询建议、诊断等。如本文中所使用的，以电子格式提供的数据或其他信息可用于在机器上存储以及在机器之间传输。常规上，电子格式的数据以数字提供，并且可以作为位和/或字节存储在各种数据结构、列表、数据库等中。数据可以以电子、光学等方式呈现。

一个实施方案提供了计算机程序产品，用于产生指示测试样品中的变异(例如与癌症相关的变异)的CCF的输出。该计算机产品可以含有用于进行上述用于确定染色体异常的方法中的任何一种或多种的指令。如同所解释的，计算机产品可以包括其上记录有计算机可执行或可编译逻辑(例如，指令)的非暂时性的和/或有形计算机可读介质，以使处理器能够估算一个或多个癌症样品中的一种或多种变体的CCF。在一个实例中，计算机产品包括其上记录有计算机可执行或可编译逻辑(例如，指令)的计算机可读介质，以使处理器能够确定一个或多个癌症样品中的一种或多种变体的CCF。

可以将来自所考虑的样品的序列信息映射到染色体参照序列，以鉴定任何一条或多条目标染色体中的每条的多个序列标签。在各种实施方案中，例如，将参照序列存储在诸如关系数据库或对象数据库之类的数据库中。

应当理解，对于没有帮助的人来说，执行本文中所公开的方法的计算操作是不切实际的，或者甚至在大多数情况下是不可能的。例如，在不借助计算机设备的情况下，将来自样品的单个30bp读取映射到任何一条人类染色体可能需要数年的努力。混合模型优化或计算机模拟将很难或不可能由人执行。

可以采用用于估算癌症样品的CCF的系统来进行本文中所公开的方法。所述系统包括：(a)用于接收来自测试样品的核酸、提供来自样品的核酸序列信息的测序仪；(b)处理器；和(c)一个或多个计算机可读的存储介质，在其上存储有用于在所述处理器上执行的指令以，以确定一个或多个癌症样品中的一种或多种变体的CCF。

在一些实施方案中，通过其上储存有用于执行估算癌症样品的CCF的方法的计算机可读的指令的计算机可读的介质来指导方法。因此，一个实施方案提供了包括其上储存有计算机可执行的指令的一个或多个计算机可读的非暂时性的存储介质的计算机程序产品，所述计算机可执行的指令当由计算机系统的一个或多个处理器执行时，造成计算机系统实施估算癌症样品的CCF的方法。所述方法包括：(a)接收通过对来自对象的至少一个测试样品中的核酸测序获得的序列读取，其中所述核酸来自癌细胞的一个或多个亚克隆；(b)将序列读取与参照基因组比对以提供序列标签，其中所述参照基因组包含多个基因座，所述多个基因座中的每个基因座含有多个体细胞突变中的一个体细胞突变；(c)针对所述多个基因座中的每个基因座，确定基因座的覆盖率和基因座的变异等位基因频率(VAF)，所述VAF是体细胞突变的变异等位基因的频率；(d)提供肿瘤纯度值(p)，其为测试样品中的肿瘤细胞在所有细胞中所占的分数；(e)针对所述多个基因座中的每个基因座，提供测试样品中所有细胞的该基因座处所有等位基因的平均拷贝数(N)；(f)针对所述多个基因座中的每个基因座，使用VAF、p和N计算初始癌细胞分数(iCCF)，从而获得所述多个基因座的多个iCCF，其中癌细胞分数是该基因座处具有体细胞突变的癌细胞的分数；(g)对所述多个基因座的多个iCCF聚类，从而获得iCCF的一个或多个簇；以及(h)使用一个或多个簇的iCCF确定所述多个体细胞突变中的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)。

在一些实施方案中，指令还可包括自动记录与提供测试样品的人类对象的患者医疗记录中的方法相关的信息。患者医疗记录可以由例如实验室、医生办公室、医院、健康维护机构、保险公司或个人医疗记录网站维护。此外，基于处理器实施的分析的结果，该方法还可以涉及指定、启动和/或更改从其采集测试样品的人类对象的治疗。这可能涉及对采自对象的另外的样品进行一种或多种另外的测试或分析。

也可以使用适于或配置为执行用于预测癌症样品的CCF的方法的计算机处理系统来执行所公开的方法。一个实施方案提供了适于或配置为执行如本文中所述的方法的计算机处理系统。在一个实施方案中，设备包括适于或配置为用于对样品中的至少一部分核酸分子测序以获得本文中其他地方描述的序列信息类型的测序装置。设备还可包括用于处理样品的组件。这样的组件在本文中其他地方有描述。

可以将序列或其他数据直接或间接输入计算机中或存储在计算机可读介质中。在一个实施方案中，计算机系统与读取和/或分析来自样品的核酸序列的测序装置直接联接。来自这样的工具的序列或其他信息是经由计算机系统中的界面提供的。可选地，由系统处理的序列是从诸如数据库或其他知识库的序列存储源提供的。一旦可用于处理设备，则存储器装置或大容量存储器装置至少临时地缓存或存储核酸序列。另外，存储器装置可以储存各种染色体或基因组等的标签计数。存储器还可以储存用于分析呈现序列或映射数据的各种例行程序和/或程序。这样的程序/例行程序可以包括用于进行统计分析的程序等。

在一个实例中，用户将样品提供到测序设备中。由连接到计算机的测序设备收集和/或分析数据。计算机上的软件允许进行数据收集和/或分析。可以将数据存储、展示(经由监视器或其他类似装置)和/或发送到另一位置。可以将计算机连接到因特网，其被用于将数据传输到由远程用户(例如，医生、科学家或分析人员)使用的手持装置。应理解，可以在传输之前对数据进行存储和/或分析。在一些实施方案中，收集原始数据并发送到将分析和/或存储数据的远程用户或设备。传输可以经由因特网进行，但也可以经由卫星或其他连接进行。可选地，可以将数据存储在计算机可读的介质上，并且可以将介质运送到最终用户(例如，经由邮件)。远程用户可以位于相同或不同的地理位置，包括但不限于：建筑物、城市、州、国家或大陆。

在一些实施方案中，方法还包括收集有关多个多核苷酸序列的数据(例如，读取、标签和/或参照染色体序列)，并将数据发送到计算机或其他计算系统。例如，可以将计算机连接到实验室设备，例如样品收集设备、核苷酸扩增设备、核苷酸测序设备或杂交设备。然后，计算机可以收集由实验室装置收集的适用数据。可以在任何步骤中，例如在实时收集时、在发送之前、在发送期间或与发送同时，或者在发送之后，将数据存储在计算机上。可以将数据存储在可以从计算机中提取的计算机可读的介质上。所收集或存储的数据可以例如经由局域网或诸如因特网之类的广域网从计算机传输到远程位置。如下文所述，在远程位置可以对传输的数据执行各种操作。

可以在本文中公开的系统、设备和方法中存储、传输、分析和/或操作的电子格式的数据类型包括以下：

通过对测试样品中的核酸测序获得的读取

通过将读取与参照基因组或其他参照序列或序列比对获得的标签

参照基因组或序列

等位基因计数-参照基因组或其他参照序列的每个等位基因和区域的标签的计数或数量

确定的CCF值、癌细胞克隆性或癌细胞亚克隆的数量

诊断(与调用相关的临床病况)

对来源于调用和/或诊断的进一步测试的建议

来源于调用和/或诊断的治疗和/或监测计划

可以使用不同的设备在一个或多个位置处获得、存储、传输、分析和/或操纵这些不同类型的数据。处理选择所跨的范围很广。在范围的一端，在处理测试样品的位置(例如医生办公室或其他临床场所)中存储和使用所有或许多此类信息。在另一个末端中，在一个位置获得样品，在不同的位置对其进行处理和任选地测序，在一个或多个不同位置比对读取和进行调用，以及仍然在另一位置(其可以是获取样品的位置)准备诊断、建议和/或计划。

在各种实施方案中，利用测序设备产生读取，然后将其传输到远程地点，在该地点处对其进行处理以产生调用。例如，在该远程位置处，将读取与参照序列比对以产生标签，对其进行计数并分配给目标染色体或片段。同样在远程位置处，将剂量用于产生调用。

在处理中，在不同位置处可以采用的操作如下：

样品收集

测序前的样品处理

测序

分析序列数据和定量测试样品

诊断

向患者或卫生保健提供者报告诊断和/或调用

开发用于进一步治疗、测试和/或监测的计划

执行计划

咨询

如本文中其他地方所述，这些操作中的任何一项或多项均可自动化。通常，将通过计算机进行序列数据的测序和分析以及估算CCF。其他操作可以手动或自动进行。

其中可以进行样品收集的位置的实例包括卫生从业人员的办公室、诊所、患者家中(其中提供了样品收集工具或试剂盒)，以及移动卫生保健交通工具。其中可以在测序之前进行样品处理的位置的实例包括卫生从业人员的办公室、诊所、患者家中(其中提供了样品处理设备或试剂盒)、移动卫生保健交通工具，以及DNA分析供应商的设施。其中可以进行测序的位置的实例包括卫生从业人员的办公室、诊所、卫生从业人员的办公室、诊所、患者家中(其中提供了样品测序设备和/或试剂盒)、移动卫生保健交通工具，以及DNA分析供应商的设施。其中测序发生的位置可提供有专用网络连接，用于以电子格式传输序列数据(通常是读取)。这样的连接可以是有线的或无线的，并且具有并且可以被配置为将数据发送到可以在传输到处理地点之前对数据进行处理和/或整合的地点。数据整合器可以由诸如健康维护机构(HMO)的卫生机构维护。

可以在任何前述位置处或者可在专用于计算和/或分析核酸序列数据的服务的另一远程地点处进行分析和/或推导操作。这样的位置包括例如簇，如通用服务器农场、DNA分析服务业务的设施等。在一些实施方案中，用于进行分析的计算机设备是租赁的或租用的。计算资源可以是可访问因特网的处理器集合的一部分，如俗称为云的处理资源。在一些情况下，由彼此关联或不关联的并行或大规模并行处理器组进行计算。可以使用诸如聚类计算、网格计算等的分布式处理来完成处理。在这样的实施方案中，计算资源的簇或网格共同形成由多个处理器组成的超级虚拟计算机，或者一起起作用以进行本文中所述的分析和/或推导的计算机。这些技术以及更常规的超级计算机可以被用于处理如本文中所述的序列数据。每种都是依赖于处理器或计算机的并行计算形式。在网格计算的情况下，这些处理器(通常是整个计算机)通过网络(私有、公用或因特网)，通过常规网络协议如以太网连接。相反，超级计算机具有许多通过本地高速计算机总线连接的处理器。

在某些实施方案中，在与分析操作相同的位置处产生诊断。在其他实施方案中，其在不同的位置处进行。在一些实例中，报告诊断是在采集样品的位置处进行的，尽管并非必须如此。可以产生或报告诊断和/或进行计划制定的位置的实例包括：卫生从业人员的办公室、诊所，计算机可访问的因特网站点，以及与网络建立有线或无线连接的手持装置(如手机、平板电脑、智能电话等)。进行咨询的位置的实例包括卫生从业人员的办公室、诊所、计算机可访问的因特网站点、手持式装置等。

在一些实施方案中，样品收集、样品处理和测序操作在第一位置处进行，且分析和推导操作在第二位置处进行。然而，在一些情况下，样品收集在一个位置(例如，卫生从业人员的办公室或诊所)处收集，且样品处理和测序在不同的位置处进行，所述位置任选地是发生分析和推导的位置同一的位置。

在各种实施方案中，可以由启动样品收集、样品处理和/或测序的用户或实体来触发一系列上文列出的操作。在这些操作中的一项或多项开始执行后，其他操作自然会随之而来。例如，测序操作可导致自动收集读取并将其发送到处理设备，其随后进行(通常为自动化的且可能在没有用户进一步干预的情况下)进行癌症样品的序列分析和估算CCF。在一些实施方案中，该处理操作的结果随后被自动递送(可能会重新格式化为诊断)给处理报告信息给卫生专业人员和/或患者的系统组件或实体。如同所解释的，这样的信息还可被自动地处理以产生可能与咨询信息一起的治疗、测试和/或监测计划。因此，启动早期操作可以触发端到端顺序，其中卫生专业人员、患者或其他有关当事人将被提供可用于作用于身体状况的诊断、计划、咨询和/或其他信息。即使整个系统的一部分是物理分离的并且可能远离例如样品和测序设备的位置，这也可以实现。

图12以简单的方框格式示出了典型的计算机系统，当对其进行适当配置或设计时，可以用作根据某些实施方案的计算机设备。计算机系统2000包括与存储器装置联接的任意数量的处理器2002(也被称为中央处理单元或CPU)，所述存储器装置包括主存储器2006(通常是随机存取存储器或RAM)、主存储器2004(通常是只读存储器或ROM)。CPU 2002可以是各种类型，包括微控制器和微处理器(如可编程装置(例如，CPLD和FPGA))，以及不可编程装置(如门阵列ASIC或通用微处理器)。在所描绘的实施方案中，主存储器2004用于将数据和指令单向传送到CPU，并且主存储器2006通常被用于以双向方式传送数据和指令。这两种主存储器装置都可以包括任何合适的计算机可读介质，如上文所述的那些。大容量存储器装置2008也双向联接到主存储器2006，并提供额外的数据存储容量，并且可以包括上文所述的任何计算机可读的介质。大容量存储器装置2008可以被用于存储程序、数据等，并且通常是诸如硬盘之类的辅助存储介质。通常，这样的程序、数据等被临时拷贝到主存储器2006上以在CPU 2002上执行。应理解，保留在大容量存储器装置2008中的信息在适当的情况下可以以标准方式被合并为主存储器2004的一部分。诸如CD-ROM 2014之类的特定大容量存储器装置也可以单向地将数据传递到CPU或主存储器。

CPU 2002还联接到界面2010，界面2010与一种或多种输入/输出装置连接，诸如如核酸测序仪(2020)、视频监视器、跟踪球、鼠标、键盘、麦克风、触敏显示器、换能器卡读取器、磁带或纸带读取器、平板电脑、手写笔、语音或手写识别外围设备、USB端口或其他熟知的输入装置，如(当然地)其他计算机。最后，CPU 2002任选地可以使用如同所示的外部连接，通常在2012处与诸如数据库或计算机或电信网络的外部装置联接。利用这样的连接，预期CPU在进行本文中所描述的方法步骤的过程中可能会从网络接收信息，或者可能会向网络输出信息。在一些实施方案中，核酸测序仪(2020)可以经由网络连接2012(而非经由界面2010或除经由界面2010外)与CPU 2002通信连接。

在一个实施方案中，将诸如计算机系统2000之类的系统用作数据输入、数据关联和能够执行本文中所述的一些或全部任务的查询系统。可以经由网络连接2012提供包括数据文件在内的信息和程序，以供研究者访问或下载。可选地，可以在存储器装置上向研究者提供这样的信息、程序和文件。

在具体的实施方案中，计算机系统2000直接联接至数据获取系统，如从样品中捕获数据的微阵列、高通量筛选系统或核酸测序仪(2020)。来自这样的系统的数据是经由界面2010提供的，以供系统2000进行分析。可选地，由系统2000处理的数据是从数据存储源(如数据库或相关数据的其他知识库)中提供的。一旦进入设备2000中，诸如主存储器2006或大容量存储器2008之类的存储器装置至少临时地缓存或存储相关的数据。存储器还可以存储用于输入、分析和呈现数据的各种例行程序和/或程序，包括序列读取、UMI、用于确定序列读取的代码、隐缩序列读取和校正读取中的错误等。

在某些实施方案中，本文中使用的计算机可以包括用户终端，其可以是任何类型的计算机(例如台式计算机、膝上型计算机、平板电脑等)、媒体计算平台(例如电缆、卫星机顶盒、数字视频记录器等)、手持式计算装置(例如PDA、电子邮件客户端等)、手机或任何其他类型的计算或通信平台。

在某些实施方案中，本文中使用的计算机还可以包括与用户终端通信的服务器系统，所述服务器系统可以包括服务器装置或分散式服务器装置，并且可以包括大型计算机、微型计算机、超级计算机、个人计算机，或以上的组合。在不脱离本发明范围的情况下，也可以使用多种服务器系统。用户终端和服务器系统可以通过网络彼此通信。网络可以包括例如有线网络(如LAN(局域网)、WAN(广域网)、MAN(城域网)，ISDN(集成服务数字网络)等)，以及无线网络(如无线LAN、CDMA、蓝牙和卫星通信网络等)，而不限制本发明的范围。

图13显示了用于从测试样品产生调用或诊断的分散系统的一种实施方案。样品收集位置01被用于从患者(如怀孕的女性或推定的癌症患者)获得测试样品。然后将样品提供到处理和测序位置03，在该位置处可以按上文所述对测试样品进行处理和测序。位置03包括用于处理样品的设备以及用于对处理的样品测序的设备。如本文中其他地方所述的，测序的结果是读取的集合，其通常以电子格式提供并提供给诸如因特网的网络，其在图13中通过参考编号05指示。

序列数据被提供到远程位置07，在该位置处进行分析和调用产生。该位置可以包括一个或多个功能强大的计算装置，如计算机或处理器。在位置07处的计算资源完成其分析并从接收的序列信息产生调用后，将调用传回网络05。在一些实施方案中，不仅在位置07处产生了调用，而且还生成了相关的诊断。然后将调用和或诊断通过网络传输并返回到如图5中所示的样品收集位置01。如同所解释的，这只是有关在不同的位置之间如何划分与产生调用或诊断相关的各种操作的众多变化之一。一种常见的变化涉及在单个位置提供样品收集和处理及测序。另一种变化涉及在与分析和调用产生相同的位置处提供处理和测序。

图14阐述了在不同位置进行各种操作的选项。从图14中所描绘的最细微的意义上讲，以下每项操作都是在单独的位置处进行的：样品收集、样品处理、测序、读取比对、调用、诊断以及报告和/或计划制定。

在汇总这些操作中的一些的一个实施方案中，在一个位置处进行样品处理和测序，并且在单独的位置处进行读取比对、调用和诊断。参见图14中通过参考字符A标识的部分。在另一实施方案中，在图14中通过字符B标识的样品收集、样品处理和测序均在相同位置进行。在该实施方案中，读取比对和调用在第二位置处进行。最后，在第三位置处进行诊断以及报告和/或计划制定。在图14中通过字符C表示的实施方案中，样品收集在第一位置处进行，样品处理、测序、读取比对、调用和诊断均在第二位置处一起进行，并在第三位置处进行报告和/或计划制定。最后，在图14中标为D的实施方案中，样品收集在第一位置处进行，样品处理、测序、读取比对和调用均在第二位置处进行，且诊断以及报告和/或计划管理在第三位置处进行。

一个实施方案提供了用于分析无细胞DNA(cfDNA)的与肿瘤相关的单核苷酸变异的系统，所述系统包括用于接收核酸样品并提供来自核酸样品的核酸序列信息的测序仪；处理器；和包括用于在所述处理器上执行的指令的机器可读的存储器介质，所述指令包括：(a)接收通过对来自对象的至少一个测试样品中的核酸测序获得的基因组序列数据，其中所述核酸来自癌细胞的一个或多个亚克隆；(b)确定基因组序列数据中的多种体细胞突变变体；(c)针对每种体细胞突变变体，使用VAF计算初始癌细胞分数(iCCF)，从而获得所述多种体细胞突变变体的多个iCCF，其中癌细胞分数是具有体细胞突变变异的癌细胞在所有癌细胞中所占的分数，并且其中VAF是体细胞突变变体的等位基因频率；(d)对所述多个基因座的多个iCCF聚类，从而获得iCCF的一个或多个簇，每个簇对应于一个或多个肿瘤亚克隆的同一亚克隆中存在的变异；以及(e)使用一个或多个簇的iCCF，确定所述多个体细胞突变的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)。

在本文中提供的任何系统的一些实施方案中，将测序仪配置为执行下一代测序(NGS)。在一些实施方案中，将测序仪配置为使用利用可逆染料终止子的边合成边测序进行大规模并行测序。在其他实施方案中，将测序仪配置为边连接边测序。在其他实施方案中，将测序仪配置为进行单分子测序。

实验

实施例1：模拟数据

本实施例使用模拟数据来比较根据一些实施方案且被称为ClonScore的方法与先前的方法PyClone。图15示出了实施例中使用的用于产生具有与正常细胞不同的组成和两种肿瘤亚克隆的20个肿瘤样品的模拟数据的方法。正常细胞群示出为圆圈704。肿瘤创始的克隆示出为圆圈708。两种肿瘤亚克隆示出为圆圈714和716。正常细胞包括生殖系突变“G”(702)。肿瘤创始的克隆(708)包括克隆性体细胞突变“C”(706)。肿瘤亚克隆1(714)包括亚克隆性体细胞突变1“SC1”(710)。肿瘤亚克隆2(716)包括亚克隆性体细胞突变2“SC2”(712)。两种肿瘤亚克隆还包括克隆性体细胞突变“C”(706)。肿瘤样品718a、718b和718c具有不同的细胞和突变组成。样品的肿瘤纯度(p)范围为20％-80％。对于该实施例产生了两个模拟的全外显子组序列(WES)数据集。每个数据集包括20个样品，其具有不同比例的两种不同的肿瘤亚克隆和正常细胞。

数据集中的靶标区域被限定为在TruSeq外显子组测定中指定的那些区域(覆盖约～45Mb)，每个靶标的上下游均填充150bp。从dbsnp中随机选择了生殖系SNP(90,000个)和插入缺失(12,000个)，并将其包括在所有肿瘤亚克隆和正常细胞中。从DGV中随机选择受生殖系CNV影响的区域，并随机选择这样的区域上的拷贝数变异，且其范围从丢失两个拷贝到复制两个等位基因。这些生殖系突变被示出为“G”波突变(702)。还创建了两种不同的肿瘤亚克隆“SC1”(710)和“SC2”(712)。从COSMIC随机选择与至少一个靶区域重叠的一组500个体细胞SNV、200个插入缺失和75个CNV(5个LOH、一种等位基因的5个拷贝的30个增加、20个单拷贝缺失和一种等位基因的8个拷贝的20个增加)，并包括在两种肿瘤亚克隆(克隆变体)中。其被示为“C”波突变(706)。将来自COSMIC的一组不同的500个体细胞SNV、200个插入缺失和75个CNV(与上述相同的拷贝数分布)包括在亚克隆“SC1”(710)中，并将一组相同大小的不同的突变包括在亚克隆“SC2”(712)中。注意，当CNV与SNV重叠时，其具有相等的机会影响携带突变的等位基因或其他的等位基因。因此，许多这样的CNV确实导致突变等位基因的拷贝数增加(预计ClonScore会遇到困难的情况)。模拟了来自每个亚克隆的读取和来自正常细胞的读取，并按不同比例混合在一起，以创建20种不同的肿瘤样品。

在使用富集(Enrichment)_和肿瘤正常(TumorNormal)工作流程处理完该数据集后，我们估算了调用的每个体细胞SNV的fCCF。使用单样品模式下的PyClone和ClonScore进行fCCF估算。对于PyClone，将Canvas等位基因拷贝数调用用于与CNV调用重叠的任何体细胞SNV。对于ClonScore，每当标准化的覆盖率在[1.9,2.1]区间之外时，均使用Canvas标准化的覆盖率作为N的估算值，否则将N假定为2。在PyClone和ClonScore估算中均使用通过Canvas进行的肿瘤纯度估算。

图16显示了PyClone的估算的CCF与真实的CCF的偏差。图17显示了ClonScore的结果。这些结果包括对2个模拟WES数据集中的所有40个样品中的所有SNV的估算值。注意，ClonScore估算值比PyClone估算值更接近真实的CCF。此外，PyClone在每个肿瘤WES实验中花费了约7个小时来运行，而ClonScore仅花费了几秒钟。

实施例1：真实癌症数据

目前研究肿瘤内异质性最常用的方法是肿瘤样品的多位点测序。在同时分析相同肿瘤的多个样品时，克隆性估算工具的准确性提高了，这是因为可以实现更可信的体细胞突变聚类。在Hao等人的最新研究中，对11例食道鳞状细胞癌进行了多位点WES。11例肿瘤中的每例都有用WES进行分析的4个在空间上分离的样品，以及匹配的正常样品。

我们下载了该数据集，并利用富集+肿瘤正常工作流程对其进行了处理。然后将PyClone和ClonScore都以单样品模式，并通过同时分析每种肿瘤的所有四个样品而应用于该数据集。我们首先比较了多样品ClonScore、多样品PyClone和发表的CCF估算值的结果。图18显示了ClonScore和Hao等人之间的CCF差异。图19显示了PyClone和Hao等人之间的CCF差异。图表明所有多样品估算值的结果相对一致，但PyClone估算值与其他两种方法的那些相差更大。

然后，我们将通过ClonScore和PyClone在单个肿瘤样品中进行的CCF估算值与在多个样品间进行的估算值进行了比较。我们观察到，单个样品中ClonScore的估算值与通过Hao(图20)、PyClone(图21)和ClonScore(图22)在样品之间进行的估算值高度一致。令人惊讶的是，PyClone在单样品模式下的性能与通过Hao(图23)、PyClone(图24)和ClonScore(图25)在样品之间进行的估算值不一致。

尽管单个样品的ClonScore结果与样品之间的CCF估算值之间具有令人鼓舞的一致性，但样品之间的结果不一定是真实的CCF值。因此，我们通过检查ClonScore是否能够区分可能是克隆的SNV和可能是亚克隆的那些来评估ClonScore的性能。我们限定SNV的“真实的”克隆状态的方式是通过其在所有四个空间上分离的肿瘤样品中被调用，并且在所有四个肿瘤样品中具有的样品之间的CCF估算值(通过样品之间的ClonScore)大于90％。通过确定预测的克隆SNV是分配的CCF>95％的单个样品ClonScore的那些，我们在克隆状态预测中从单个肿瘤样品观察到0.91的敏感度和0.89的特异性。整个数据集中的结果参见表1。

表1.真实的和预测的克隆和亚克隆SNV

	真实的克隆	真实的亚克隆
			预测的克隆	1,252	3,755
预测的亚克隆	124	29,742

本公开可以以其他具体形式来体现，而不脱离其精神或基本特性。所描述的实施方案被认为在所有方面仅是说明性的而非限制性的。因此，本公开的范围由所附权利要求而不是由前文的描述指示。权利要求的等同物的含义和范围内的所有变化均应包含在其范围内。

Claims

1.使用包括一个或多个处理器和系统存储器的计算机系统实施的方法，所述方法包括：

(a)通过所述一个或多个处理器，接收通过对来自对象的至少一个测试样品中的核酸测序而获得的基因组序列数据，其中所述核酸来自癌细胞的一个或多个亚克隆；

(b)确定所述基因组序列数据中的多个体细胞突变变体；

(c)针对每个体细胞突变变体并通过所述一个或多个处理器，使用VAF计算初始癌细胞分数(iCCF)，从而获得所述多个体细胞突变变体的多个iCCF，其中癌细胞分数是具有所述体细胞突变变体的癌细胞在所有癌细胞中所占的分数，并且其中所述VAF是所述体细胞突变变体的等位基因频率；

(d)通过所述一个或多个处理器，对所述多个体细胞突变变体的所述多个iCCF聚类，从而获得iCCF的一个或多个簇，每个簇对应于所述一个或多个亚克隆中的同一亚克隆中存在的变异，其中所述聚类包括确定属于所述一个或多个簇的突变的一个或多个后验概率；以及

(e)通过所述一个或多个处理器，使用所述一个或多个簇的iCCF，确定所述多个体细胞突变中的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)，其中使用所述一个或多个后验概率和所述多个iCCF计算所述一个或多个fCCF。

2.如权利要求1所述的方法，其还包括：

将所述基因组序列数据的序列读取与参照基因组比对以提供序列标签，其中所述参照基因组包含多个基因座，所述多个基因座中的每个基因座含有多个体细胞突变中的一个体细胞突变；以及

针对所述多个基因座中的每个基因座，确定所述基因座的覆盖率和所述基因座的变异等位基因频率(VAF)。

3.如前述权利要求中任一项所述的方法，其还包括使用所述基因组序列数据估算肿瘤纯度值(p)，所述肿瘤纯度值(p)为所述测试样品中的肿瘤细胞在所有细胞中所占的分数。

4.如权利要求1所述的方法，其还包括针对多个基因座中的每个基因座，使用所述基因组序列数据估算所述测试样品中的所有细胞在所述基因座处的所有等位基因的平均拷贝数(N)。

5.如权利要求4所述的方法，其中使用VAF、p和N计算所述初始癌细胞分数(iCCF)。

6.如权利要求1所述的方法，其还包括：

从个体获得所述至少一个测试样品；

从所述至少一个测试样品获得细胞DNA或无细胞DNA(cfDNA)；以及

对所述细胞DNA或cfDNA测序以产生序列读取。

7.如权利要求1所述的方法，其中所述至少一个测试样品中的所述核酸包含cfDNA。

8.如权利要求1所述的方法，其中所述至少一个测试样品包括来自个体的两个或更多个测试样品。

9.如权利要求5所述的方法，其中基于(VAF*N)/p计算所述iCCF。

10.如权利要求5所述的方法，其中使用所述体细胞突变的变异等位基因的拷贝数(n)，以及VAF、p和N计算所述iCCF。

11.如权利要求10所述的方法，其中基于(VAF*N)/(p*n)计算所述iCCF。

12.如权利要求11所述的方法，其中在假设n为1的情况下来计算所述iCCF。

13.如权利要求12所述的方法，其中基于以下计算iCCF：(i)当(VAF*N)/p不大于1时，为(VAF*N)/p，以及(ii)当(VAF*N)/p大于1时，为1。

14.如权利要求1所述的方法，其中将突变的fCCF计算为每个簇中的体细胞突变的平均iCCF与属于每个簇的突变的后验概率的线性组合。

15.如权利要求14所述的方法，其中使用下式计算突变m的fCCF_m：

其中

是簇k的平均iCCF；并且

pr_m,k是突变m的属于簇k的概率。

16.如权利要求15所述的方法，其中簇k包括所述突变的最高概率的簇。

17.如权利要求1所述的方法，其中所述聚类包括使用混合模型确定所述一个或多个簇。

18.如权利要求17所述的方法，其中所述混合模型包括变分贝叶斯混合模型。

19.如权利要求17所述的方法，其中所述聚类包括确定产生所述iCCF的一个或多个簇的多个亚克隆。

20.如权利要求19所述的方法，其中确定所述多个亚克隆中的亚克隆包括鉴定多个体细胞序列变体的子集，所述子集是基于均在预定范围内的所述子集的估算分数聚类在一起的子集。

21.如权利要求17所述的方法，其中所述混合模型包括两个或更多个簇的变异等位基因计数的两种或更多种概率分布的混合。

22.如权利要求21所述的方法，其中变异等位基因计数的每种概率分布选自：二项分布、β分布、高斯分布，和以上的任意组合。

23.如权利要求22所述的方法，其中变异等位基因计数的每种概率分布是二项分布。

24.如权利要求23所述的方法，其中基于测序深度和iCCF计算所述变异等位基因计数。

25.如权利要求24所述的方法，其中将所述变异等位基因计数计算为：变异等位基因计数＝深度×iCCF。

26.如权利要求22所述的方法，其中突变的iCCF被建模为簇的具有β分布的β随机变量。

27.如权利要求26所述的方法，其中所述至少一个测试样品包括一个样品，并且属于簇的突变的概率被建模为：

其中

pr_m,k是突变m的属于簇k的概率；

β(；)是簇k的β分布的概率密度函数；

f是突变m的iCCF；

Γ()是γ函数；并且

u_k和v_k是簇k的β分布的形状参数。

28.如权利要求26所述的方法，其中所述至少一个测试样品包括两个或更多个测试样品，并且属于簇的突变的概率被建模为：

其中u_k和u_v是S向量，其s^th分量分别是u_ks和v_ks。

29.如权利要求2所述的方法，其中所述多个基因座包括一个或多个双等位基因基因座。

30.如权利要求1所述的方法，其中所述多个体细胞突变中的一个或多个突变与一个或多个拷贝数变异(CNV)重叠。

31.如权利要求30所述的方法，其中所述方法不假定所有癌细胞都受CNV的影响，或都不受所述CNV的影响。

32.如权利要求31所述的方法，其中所述方法不假定携带体细胞突变的所有癌细胞都受CNV的影响，或都不受所述CNV的影响。

33.如权利要求1所述的方法，其中所述聚类不使用马尔科夫链蒙特卡洛(MCMC)方法。

34.如权利要求1所述的方法，其中所述多个体细胞突变包括选自以下的突变：单核苷酸变异(SNV)、插入缺失，或以上的组合。

35.用于表征包含核酸的至少一个测试样品中的癌细胞的系统，所述系统包括：

测序仪，其用于从所述测试样品接收核酸并提供所述测试样品的核酸序列信息；

处理器；和

一个或多个计算机可读的存储介质，在其上存储有用于在所述处理器上执行的指令以：

(a)接收通过对来自对象的至少一个测试样品中的核酸测序而获得的基因组序列数据，其中所述核酸来自癌细胞的一个或多个亚克隆；

(b)确定所述基因组序列数据中的多个体细胞突变变体；

(c)使用VAF计算每个体细胞突变变体的初始癌细胞分数(iCCF)，从而获得所述多个体细胞突变变体的多个iCCF，其中癌细胞分数是具有所述体细胞突变变体的癌细胞在所有癌细胞中所占的分数，并且其中所述VAF是所述体细胞突变变体的等位基因频率；

(d)通过确定属于所述一个或多个簇的突变的一个或多个后验概率，对所述多个体细胞突变变体的多个iCCF聚类，从而获得iCCF的一个或多个簇，每个簇对应于所述一个或多个亚克隆中的同一亚克隆中存在的变异；以及

(e)使用所述一个或多个簇的iCCF，确定所述多个体细胞突变中的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)，其中使用所述一个或多个后验概率和所述多个iCCF计算所述一个或多个fCCF。

36.如权利要求35所述的系统，其还包括用于从所述核酸样品提取核酸分子的装置。

37.存储程序代码的非暂时性机器可读的介质，所述程序代码当通过计算机系统的一个或多个处理器执行时，使得所述计算机系统实施表征包含核酸的至少一个测试样品中的癌细胞的方法，所述程序代码包括：

(a)用于接收通过对来自对象的至少一个测试样品中的核酸测序而获得的基因组序列数据的代码，其中所述核酸来自癌细胞的一个或多个亚克隆；

(b)用于确定所述基因组序列数据中的多个体细胞突变变体的代码；

(c)用于使用VAF计算每个体细胞突变变体的初始癌细胞分数(iCCF)的代码，从而获得所述多个体细胞突变变体的多个iCCF，其中癌细胞分数是具有所述体细胞突变变体的癌细胞在所有癌细胞中所占的分数，并且其中所述VAF是所述体细胞突变变体的等位基因频率；

(d)通过确定属于所述一个或多个簇的突变的一个或多个后验概率，用于对所述多个体细胞突变变体的多个iCCF聚类，从而获得iCCF的一个或多个簇的代码，每个簇对应于所述一个或多个亚克隆的同一亚克隆中存在的变异；以及

(e)用于使用所述一个或多个簇的iCCF确定所述多个体细胞突变中的一个或多个体细胞突变的一个或多个最终癌细胞分数(fCCF)的代码，其中使用所述一个或多个后验概率和所述多个iCCF计算所述一个或多个fCCF。