CN117063239A

CN117063239A - 用于分析分子响应的方法和相关方面

Info

Publication number: CN117063239A
Application number: CN202280019331.2A
Authority: CN
Inventors: 卡蒂·朱莉娅·奎因; 艾莉西亚·杰德·马克; 埃琳娜·赫尔曼; 江婷婷; 贾斯汀·I·奥德加德; 达里娅·丘多瓦; 凯尔·力明·张; 庄涵宇; 丹尼尔·盖勒
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2021-03-05
Filing date: 2022-03-04
Publication date: 2023-11-14

Abstract

本文提供了确定分子响应评分的方法。分子响应评分可用于监测和指导对受试者的治疗施用。

Description

用于分析分子响应的方法和相关方面

相关申请的交叉引用

本申请要求2021年3月5日提交的美国临时专利申请第63/157,592号和2021年4月9日提交的美国临时专利申请第63/173,193号的优先权的权益，为了所有目的将其中各项通过引用以其整体并入本文。

背景

分子响应是对在不同时间点从受试者收集的样品中观察到的循环肿瘤DNA(ctDNA)水平变化的计算。在某些情况下，计算是基于样品中总无细胞DNA(cfDNA)中体细胞变体的分数。在其他情况下，计算是基于样品中ctDNA的浓度(即，根据样品中的cfDNA浓度归一化)。与这些方法相关的一个常见问题是，这些相对简单的分子响应计算经常产生不准确或不精确的分子响应评分。因此，对于准确地确定患有癌症的受试者的分子响应评分的方法仍然存在需求。

概述

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系，基于第一突变等位基因分数(MAF)和第二MAF为被分类为体细胞的多于一个变体中的至少一个变体确定第一MAF的加权平均值和第二MAF的加权平均值，为受试者确定第一MAF的加权平均值和第二MAF的加权平均值的比率，基于第一MAF的加权平均值和第二MAF的加权平均值的比率确定置信区间，并输出第一MAF的加权平均值和第二MAF的加权平均值的比率以及置信区间作为分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系，基于第一突变等位基因分数(MAF)和第二MAF为被分类为体细胞的多于一个变体中的至少一个变体确定MAF比率，为受试者确定MAF比率的加权平均值，基于MAF比率的加权平均值确定与MAF比率的加权平均值关联的置信区间，并输出MAF比率的加权平均值和置信区间作为分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段中的多于一个变体分类为体细胞或种系，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系，重新分类多于一个变体中的至少一个变体以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异，基于第一多于一个序列读段的至少一部分为被分类或重新分类为体细胞的多于一个变体中的至少一个变体确定第一突变等位基因分数，基于第二多于一个序列读段的至少一部分为被分类或重新分类为体细胞的多于一个变体中的至少一个变体确定第二突变等位基因分数，并基于第一突变等位基因分数和第二突变等位基因分数确定分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系，将所述多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体，从所述多于一个变体中去除所述至少一个CHIP变体，基于所述第一多于一个序列读段的至少一部分为被分类为体细胞的所述多于一个变体中的至少一个变体确定第一突变等位基因分数，基于所述第二多于一个序列读段的至少一部分为被分类为体细胞的所述多于一个变体中的至少一个变体确定第二突变等位基因分数，并基于第一突变等位基因分数和第二突变等位基因分数确定分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段中的多于一个变体分类为体细胞或种系，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系，将多于一个变体中的至少一个变体重新分类以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异，将多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体，从多于一个变体中去除至少一个CHIP变体，基于第一多于一个序列读段的至少一部分为被分类或重新分类为体细胞的多于一个变体中的至少一个变体确定第一突变等位基因分数，基于第二多于一个序列读段的至少一部分为被分类或重新分类为体细胞的多于一个变体中的至少一个变体确定第二突变等位基因分数，基于第一突变等位基因分数和第二突变等位基因分数为被分类或重新分类为体细胞的多于一个变体中的至少一个变体确定MAF比率，为受试者确定MAF比率的加权平均值，基于MAF比率的加权平均值确定与MAF比率的加权平均值关联的置信区间，并输出MAF比率的加权平均值和置信区间作为分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定，将第一多于一个序列读段中的多于一个变体分类为体细胞或种系，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系，将多于一个变体中的至少一个变体重新分类以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异，将多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体，从多于一个变体中去除至少一个CHIP变体，基于第一多于一个序列读段的至少一部分为被分类为体细胞的多于一个变体中的至少一个变体确定第一突变等位基因分数(MAF)，基于第二多于一个序列读段的至少一部分为被分类为体细胞的多于一个变体中的至少一个变体确定第二MAF，基于第一MAF和第二MAF为被分类为体细胞的多于一个变体中的至少一个变体确定第一MAF的加权平均值和第二MAF的加权平均值，为受试者确定第一MAF的加权平均值和第二MAF的加权平均值的比率，基于第一MAF的加权平均值和第二MAF的加权平均值的比率确定置信区间，并输出第一MAF的加权平均值和第二MAF的加权平均值的比率与置信区间作为分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定分子响应评分的方法。该方法包括确定与受试者关联的第一多于一个序列读段和第二多于一个序列读段，其中第一多于一个序列读段在施用治疗之前的第一时间点确定，并且第二多于一个序列读段在施用治疗之后的第二时间点确定，将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系，基于在第一时间点的第一突变等位基因分数(MAF)和在第二时间点的第二MAF为被分类为体细胞的多于一个变体中的至少一个变体确定第一MAF的第一中心趋势量度和第二MAF的第二中心趋势量度，确定在第一时间点的第一中心趋势量度与在第二时间点的第二中心趋势量度的比率，并输出在第一时间点的第一中心趋势量度与在第二时间点的第二中心趋势量度的比率作为分子响应评分。

在一个方面，本公开内容提供了一种至少部分地使用计算机确定患有癌症的受试者的分子响应评分的方法。该方法包括(a)由计算机根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息为多于一个变体确定突变等位基因频率(MAF)，为多于一个变体中的每个变体产生第一和第二MAF的集合。该方法还包括(b)由计算机为多于一个变体中的每个变体计算第一和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中每个MAF比率的相应标准偏差。此外，该方法还包括(c)由计算机计算MAF比率的加权平均值和置信区间，从而为患有癌症的受试者确定分子响应评分。

在另一方面，本公开内容提供了一种治疗受试者的癌症的方法。该方法包括(a)根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息为多于一个变体确定突变等位基因频率(MAF)，为多于一个变体中的每个变体产生第一和第二MAF的集合。该方法还包括(b)为多于一个变体中的每个变体计算第一和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中每个MAF比率的相应标准偏差。该方法还包括(c)计算MAF比率的加权平均值和置信区间，以为受试者确定分子响应评分。此外，该方法还包括(d)基于至少分子响应评分对受试者施用一种或更多种治疗，从而治疗受试者的癌症。

在另一方面，本公开内容提供了一种治疗受试者的癌症的方法。该方法包括基于至少受试者的分子响应评分对受试者施用一种或更多种治疗。分子响应评分通过以下产生：(a)由计算机根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关联的靶向核酸生成的序列信息为多于一个变体确定突变等位基因频率(MAF)，为多于一个变体中的每个变体产生第一和第二MAF的集合；(b)由计算机计算多于一个变体中每个变体的第一和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中每个MAF比率的相应标准偏差；和(c)由计算机计算MAF比率的加权平均值和置信区间，以确定受试者的分子响应评分。

在另一方面，本公开内容提供了一种至少部分地使用计算机鉴定患有癌症的受试者中的克隆造血变体的方法。该方法包括(a)由计算机根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关联的靶向核酸生成的序列信息为多于一个变体中的每一个确定肿瘤分数变化P(R)的肿瘤负荷变化(R)，以产生肿瘤负荷变化的集合。该方法还包括(b)由计算机从肿瘤负荷变化的集合中识别对应于一个或更多个克隆造血变体的一个或更多个抗性特征，从而鉴定患有癌症的受试者中的克隆造血变体。

在另一方面，本公开内容提供了一种至少部分地使用计算机鉴定患有癌症的受试者中的克隆造血变体的方法。该方法包括(a)由计算机根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关联的靶向核酸生成的序列信息为多于一个变体中的每一个计算肿瘤分数变化的概率密度函数P(R)。该方法还包括(b)由计算机按P(R)将一个或更多个变体分组到一个或更多个克隆中，以及(c)由计算机为每个克隆生成更新的P(R)。此外，该方法还包括(d)由计算机鉴定在第一和第二时间点之间具有处于或高于预定阈值的分数变化的一个或更多个克隆，从而鉴定患有癌症的受试者中的克隆造血变体。在这些实施方案中的一些中，该方法包括确定给定的变体对表现出相同分数变化的似然，将最可能的变体对合并成一个克隆，以及为该一个克隆更新P(R)。

在另一方面，本公开内容提供了一种至少部分地使用计算机鉴定患有癌症的受试者中的种系变体的方法。该方法包括(a)由计算机根据从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息为给定变体确定突变等位基因频率(MAF)。该方法还包括(b)当给定变体的MAF使样品的最大MAF(该样品包含二倍体基因的最大分数(max frac_diploid))增加时和/或当给定变体的MAF是从自受试者获得的样品确定的一个或更多个其他MAF至少约两倍大、三倍大、四倍大、五倍大、六倍大、七倍大、八倍大、九倍大或更多时，由计算机鉴定给定变体是种系变体，从而鉴定患有癌症的受试者中的种系变体。

在一些实施方案中，本文公开的方法包括将患有癌症的受试者的分子响应评分与预定截止点进行比较，以当分子响应评分低于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗有响应，或者当分子响应评分处于或高于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗无响应。在一些实施方案中，一种或更多种治疗包括一种或更多种免疫治疗。在一些实施方案中，本文公开的方法包括根据分子响应评分对受试者施用一种或更多种癌症治疗。在一些实施方案中，本文公开的方法包括根据分子响应评分，停止对受试者施用一种或更多种癌症治疗。在一些实施方案中，本文公开的方法包括推荐一种或更多种治疗。在一些实施方案中，本文公开的方法包括建议停止一种或更多种治疗。在一些实施方案中，本文公开的方法包括使用分子响应评分作为受试者的预后生物标志物和/或预测生物标志物。

在一些实施方案中，本文公开的方法包括使用分子计数来计算MAF比率的集合中每个MAF比率的标准偏差。在一些实施方案中，本文公开的方法包括通过MAF比率的集合中的每个MAF比率传播方差。在一些实施方案中，本文公开的方法包括在为多于一个变体确定突变等位基因频率(MAF)时排除一个或更多个种系和/或克隆造血变体。在一些实施方案中，多于一个变体包括体细胞核酸变体。在一些实施方案中，本文公开的方法包括排除在第一和第二时间点都具有小于约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％或0.9％的MAF的一个或更多个体细胞变体。在一些实施方案中，第一时间点包括治疗前时间点，并且其中第二时间点包括治疗时或治疗后时间点。

在一些实施方案中，本文公开的方法包括从自样品中的一个或更多个组织或细胞获得的核酸分子生成序列信息。在一些实施方案中，本文公开的方法包括从自受试者获得的样品中的无细胞核酸(cfNA)生成序列信息。在一些实施方案中，cfNA包含循环肿瘤DNA(ctDNA)。

在一些实施方案中，对于多于一个变体中的每个变体，该比率包括第二MAF与第一MAF的比率。在一些实施方案中，本文公开的方法包括使用以下公式计算MAF比率的加权平均值：

总和[权重*比率]/总和[权重]，

其中对于多于一个变体中的给定变体，权重为1/范围²，其中范围是多于一个变体中的给定变体的第一和第二MAF的值之间的差，并且比率是MAF比率集合中的给定MAF比率。在一些实施方案中，本文公开的方法包括使用以下公式计算置信区间：

MAF比率的加权平均值+/-sqrt[比率方差]，

其中比率方差为1/总和[权重]。

在一些实施方案中，变体包括一种或更多种单核苷酸变体(SNV)、插入/缺失突变(插入/缺失)、基因扩增和/或基因融合。在一些实施方案中，本文公开的方法包括使用一个或更多个另外的基因组数据源来确定患有癌症的受试者的分子响应评分。在一些实施方案中，另外的基因组数据源包括以下的一个或更多个：覆盖范围、脱靶覆盖范围、表观遗传特征和/或微卫星不稳定性评分。在一些实施方案中，表观遗传特征包括cfNA片段长度、位置和/或端点密度分布。在一些实施方案中，表观遗传特征包括由给定靶向基因组区域中的一个或更多个表观遗传基因座表现出的表观遗传状态(state or status)。在一些实施方案中，表观遗传状态包括甲基化、羟甲基化、乙酰化、泛素化、磷酸化、类泛素化(sumoylation)、核糖基化、瓜氨酸化和/或组蛋白翻译后修饰或其他组蛋白变异的存在或不存在。

本申请公开了可用于确定患有癌症的受试者的分子响应评分的方法、计算机可读介质和系统。还公开了鉴定克隆造血和/或种系变体的相关方法。所公开的方法、系统和/或组合物的另外益处将在下面的描述中部分地阐述，并且部分地将从描述中理解，或者可以通过所公开的方法和组合物的实践来学习。所公开的方法和组合物的益处将通过在所附权利要求中特别指出的要素和组合来实现和获得。应该理解，上文的一般描述和下文的详细描述仅是示例性的和说明性的，而不是限制如所要求保护的本发明。

附图简述

并入本说明书并构成其一部分的附图示出了所公开的方法和组合物的若干实施方案，并与说明书一起用于解释所公开的方法和组合物的原理。

图1显示了一种示例方法。

图2显示了一种示例方法。

图3显示了一种示例方法。

图4显示了一种示例方法。

图5显示了一种示例方法。

图6A显示了一种示例方法。

图6B显示了一种示例方法。

图7显示了一种示例方法。

图8显示了一种示例方法。

图9显示了一种示例方法。

图10显示了一种示例方法。

图11显示了一种示例方法。

图12A显示了一种示例方法。

图12B显示了一种示例方法。

图13显示了一种示例方法。

图14显示了一种示例方法。

图15显示了一种示例方法。

图16显示了一种示例方法。

图17显示了一种示例方法。

图18显示了一种示例方法。

图19显示了一种示例方法。

图20显示了一种示例方法。

图21显示了一种示例系统。

图22显示了在组空间(panel space)中每个样品检测到的体细胞变体的数量。

图23显示了可能使MR结果偏斜的体细胞分类差异的实例。

图24A-图24F显示了由突变分子计数(MMC＝VAF*分子覆盖范围)确定的变体精确度的实例。(A)根据样品输入和组设计，变体具有一系列分子覆盖范围。变体检测的概率(B)和VAF精确度(C)取决于VAF和分子覆盖范围二者(颜色，映射到(A))。MMC(D)是变体精确度的更好度量，因为它决定了变体检测的概率(E)。VAF精确度(F)。

图25A-图25C显示，当使用比率的平均值m(rVAF)或最大值的比率R(maxVAF)时，肿瘤信号可以被少数变体超过。(A)MR评分分为增加、减少或在精确度限值内(“接近0％的变化”)。(B)按方法显示患者分子响应评分。(C)仅R(mVAF)基线可评价变体(Y轴)对R(mVAF)所有可评价变体的图表。黑色圆圈是可评价的；较浅的圆圈(在x轴上的一条线中看到)不可评价。

图26A-图26C显示了分子响应评分的确定性随着变体数量(A)、分子覆盖范围(B)和最大VAF(C)的增加而增加的实例。

图27A和图27B显示了临床样品(a)和技术重复(零分布)(B)的分子响应评分的直方图，具有变体轨迹的假设实例。

图28显示了确定分子响应评分的实例。

详述

通过参考以下对特定实施方案和其中包括的实例的详细描述以及附图及其前面和后面的描述，可以更容易地理解所公开的方法和组合物。

应当理解，除非另有规定，否则所公开的方法和组合物不限于特定的合成方法、特定的分析技术或特定的试剂，并且因此可以变化。

I.定义

还应当理解，本文使用的术语仅为了描述特定实施方案的目的，并且不被意图是限制性的。此外，除非另外定义，否则本文使用的所有技术术语和科学术语具有与本公开内容所属的领域的普通技术人员所通常理解的相同的含义。在描述和要求保护这些方法、计算机可读介质和系统时，将根据下面阐述的定义使用下面的术语及其语法变体。

如本说明书和所附权利要求书中使用的，除非上下文另有明确指示，否则单数形式“一(a/an)”和“该(the)”包括复数的指代物。因此，例如，提及“一种(a)方法”包括一种或更多种方法和/或本文描述的类型的和/或对本领域普通技术人员而言在阅读本公开内容等后将变得明显的步骤。还应理解，在本公开内容中讨论的温度、浓度、时间、碱基或碱基对的数目、覆盖度等之前存在隐含的“约”，使得微小和非实质差异性的等价物在本公开内容的范围内。在本申请中，除非另外特别说明，否则单数的使用包括复数。此外，“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“含有(contain)”、“含有(contains)”、“含有(containing)”、“包括(include)”、“包括(includes)”和“包括(including)”的使用并非意图限制。

约：如本文所用的，应用于一个或更多个感兴趣的值或要素的“约”或“大约”是指与所述参考值或要素相似的值或要素。在某些实施方案中，术语“约”或“大约”是指在所述参考值或要素的任一方向上(大于或小于)落在25％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％或更小的范围内的值或要素，除非另有说明或从上下文明显(除非该数目将超过可能值或要素的100％)。

衔接子：如本文所用，“衔接子”是指通常是至少部分双链的并用于连接给定样品核酸分子的任一末端或两个末端的短核酸(例如，长度小于约500个核苷酸、小于约100个核苷酸或小于约50个核苷酸)。衔接子可以包含允许扩增在两个末端侧翼均为衔接子的核酸分子的引物结合位点，和/或测序引物结合位点，包括用于测序应用诸如各种下一代测序(NGS)应用的引物结合位点。衔接子还可以包含对于捕获探针，诸如附接至流通池支持物等等的寡核苷酸的结合位点。衔接子还可以包含如本文描述的核酸标签。核酸标签通常被相对于扩增引物和测序引物结合位点定位，使得核酸标签被包含在给定的核酸分子的扩增子和测序读段中。相同或不同的衔接子可以连接至核酸分子的相应末端。在某些实施方案中，除了核酸标签不同之外，相同的衔接子连接到核酸分子的相应末端。在一些实施方案中，衔接子是Y形衔接子，其中一个末端是如本文描述的平末端或加尾的以便连接至核酸分子，该核酸分子也是平末端或用一个或更多个互补核苷酸加尾的。在又其他示例性实施方案中，衔接子是钟形衔接子，包含平末端或加尾的末端以便连接至待分析的核酸分子。其他示例性衔接子包括T加尾和C加尾的衔接子。

施用：如本文所用，向受试者“施用(administer)”或“施用(administering)”治疗剂(例如，免疫治疗剂)是指给予、提供组合物或使组合物与受试者接触。施用可以通过许多途径中的任何一种来完成，包括例如局部、口服、皮下、肌内、腹膜内、静脉内、鞘内和皮内。

等位基因：如本文使用的，“等位基因(allele)”或“等位基因变体(allelicvariant)”是指在定义的基因组位置或基因座处的特定基因变体。等位基因变体通常以50％(0.5)或100％的频率出现，这取决于等位基因是杂合的还是纯合的。例如，种系变体是遗传性的并且通常具有0.5或1的频率。然而，体细胞变体是获得性变体并且通常具有<0.5的频率。遗传位点的主要等位基因和次要等位基因是指具有其中位点分别被参考序列的核苷酸和不同于参考序列的变体核苷酸占据的位点的核酸。位点处的测量可以采取等位基因分数(AF)的形式，它测量在样品中观察到等位基因的频率。

扩增：如本文所用，核酸上下文中的“扩增(amplify)”或“扩增(amplification)”是指通常从少量多核苷酸(例如，单个多核苷酸分子)开始产生多拷贝的多核苷酸或多核苷酸的一部分，其中扩增产物或扩增子通常是可检测的。多核苷酸的扩增包括各种化学和酶促过程。

条形码：如本文所用，核酸上下文中的“条形码”是指包含可用作分子标识符的序列的核酸分子。例如，在下一代测序(NGS)文库制备过程中，通常将单个“条形码”序列添加到每个DNA片段，以便在最终数据分析之前可以对每个读段进行鉴定和分选。

癌症类型：如本文所用，“癌症”、“癌症类型”或“肿瘤类型”是指例如由组织病理学定义的癌症类型或亚型。癌症类型可以由任何常规标准来定义，诸如基于给定组织中的发生(例如，血癌、中枢神经系统(CNS)癌、脑癌、肺癌(小细胞和非小细胞)、皮肤癌、鼻癌、喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、乳腺癌、前列腺癌、卵巢癌、肺癌、肠癌、软组织癌、神经内分泌癌、胃食管癌、头颈癌、妇科癌症、结肠直肠癌、尿路上皮癌、固态癌、异质癌、同质癌)、未知原发性起源的癌症等，和/或相同细胞谱系的癌症(例如，上皮癌(carcinoma)、肉瘤、淋巴瘤、胆管癌、白血病、间皮瘤、黑色素瘤或胶质母细胞瘤)和/或显示癌症标志物诸如Her2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、激素受体和NMP-22的癌症。癌症还可以通过分期(例如，1、2、3或4期)和是否为原发性或继发性起源来分类。

无细胞核酸：如本文所用，“无细胞核酸”是指不包含在细胞内或不以其他方式与细胞结合的核酸，或在一些实施方案中，是指在去除完整细胞后保留在样品中的核酸。无细胞核酸可以包括，例如，来源于来自受试者的体液(例如，血液、血浆、血清、尿液、脑脊液(CSF)等)的所有未包封的核酸。无细胞核酸包括DNA(cfDNA)、RNA(cfRNA)及其杂合体，包括基因组DNA、线粒体DNA、循环DNA、siRNA、miRNA、循环RNA(cRNA)、tRNA、rRNA、小核仁RNA(snoRNA)、Piwi-相互作用RNA(piRNA)、长非编码RNA(长ncRNA)和/或这些的任一种的片段。无细胞核酸可以是双链、单链或其杂合体。无细胞核酸可以通过分泌或细胞死亡程序，例如细胞坏死、凋亡等等，释放到体液中。无细胞核酸可以在胞葬体(efferosome)或外排体中找到。一些无细胞核酸从癌细胞释放到体液中，例如循环肿瘤DNA(ctDNA)。其他从健康细胞释放。ctDNA可以是未包封裹的肿瘤衍生的片段化DNA。无细胞核酸的另一个实例是在母体血流中自由循环的胎儿DNA，也称为无细胞胎儿DNA(cffDNA)。无细胞核酸可以具有一种或更多种表观遗传修饰，例如，无细胞核酸可以被乙酰化、5-甲基化、泛素化、磷酸化、类泛素化(sumoylated)、核糖基化和/或瓜氨酸化。

分类器：如本文所用，“分类器”通常是指接收测试数据作为输入，并产生属于一个或另一个类别(例如，肿瘤DNA或非肿瘤DNA)的输入数据的分类作为输出的算法计算机代码。

克隆：如本文使用的，在核酸的上下文中的“克隆”是指至少在特定的感兴趣的基因座(例如，靶变体)处包含彼此大体上或完全相同的核苷酸序列的核酸群体。

潜能未定克隆性造血：如本文所用，“潜能未定克隆性造血”、“克隆造血变体”或“CHIP”是指个体中涉及包含一种或更多种体细胞突变(例如，血液学癌症相关突变和/或非癌症相关突变)，但在其他方面缺乏血液学恶性肿瘤的诊断标准，诸如发育异常的明确形态学证据的造血干细胞的扩增的造血。CHIP是一种常见的年龄相关现象，其中造血干细胞有助于形成遗传上独特的血细胞亚群。

置信区间：如本文使用的，“置信区间”或“置信水平”是指如此定义的值的范围，使得给定参数的值以特定概率处于该值范围内。

拷贝数变体：如本文所用，“拷贝数变体”、“CNV”或“拷贝数变异”是指基因组的某些区段重复，并且基因组中重复的数目在所考虑的群体中的个体之间变化的现象。

覆盖范围：如本文所用，“覆盖范围”是指代表特定碱基位置的核酸分子的数目。

脱氧核糖核酸或核糖核酸：如本文所用，“脱氧核糖核酸”或“DNA”是指在糖部分的2’-位置具有氢基团的天然或修饰的核苷酸。DNA通常包括包含四种类型的核苷酸碱基的核苷酸链：腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。如本文所用，“核糖核酸”或“RNA”是指在糖部分的2’-位置具有羟基的天然或修饰的核苷酸。RNA通常包括包含四种类型的核苷酸碱基的核苷酸链：A、尿嘧啶(U)、G和C。如本文所用，术语“核苷酸”是指天然核苷酸或修饰的核苷酸。核苷酸的某些对以互补方式彼此特异性结合(称为互补碱基配对)。在DNA中，腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中，腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时，两条链结合形成双链。如本文所用，“核酸测序数据”、“核酸测序信息”、“序列信息”、“核酸序列”、“核苷酸序列”、“基因组序列”、“遗传序列”或“片段序列”或“核酸测序读段”表示指示核酸诸如DNA或RNA的分子(例如，全基因组、全转录组、外显子组、寡核苷酸、多核苷酸或片段)中核苷酸碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶或尿嘧啶)顺序和身份的任何信息或数据。应当理解，本教导设想了使用包括但不限于以下的所有可用的各种技术、平台或科技(technologies)获得的序列信息：毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统以及基于电子特征(electronicsignature)的系统。

检测：如本文使用的，“检测(detect)”、“检测(detecting)”或“检测(detection)”是指确定样品中一种或更多种靶核酸(例如，具有靶向的突变或其他标志物的核酸)的存在(existence)或出现(presence)的行为。

富集的样品：如本文使用的，“富集的样品”是指已经针对特定感兴趣区域富集的样品。可以通过扩增感兴趣的区域或通过使用能够与感兴趣的核酸分子杂交的单链DNA/RNA探针或双链DNA探针(例如，探针，Agilent Technologies)来富集样品。在一些实施方案中，富集的样品是指被富集的经处理的样品的亚组或部分，其中被富集的经处理的样品的亚组或部分包含来自无细胞多核苷酸或多核苷酸样品的核酸分子。

表观遗传信息：如本文所用，DNA聚合物上下文中的“表观遗传信息”是指该聚合物中表现出的一种或更多种表观遗传模式或特征。

表观遗传基因座：如本文所用，“表观遗传基因座”或“表观遗传位点”是指染色体上表现出不涉及核苷酸序列的变化或改变的不同状态的固定位置。为避免疑问，给定的表观遗传基因座可以与给定的核苷酸位置或基因组区域一致，该位置或基因组区域也表现出遗传或序列变异(例如，突变)。例如，给定的表观遗传基因座可以是或可以不是乙酰化的、甲基化的(例如，用5-甲基胞嘧啶(5mC)修饰的、用5-羟甲基胞嘧啶(5hmC)修饰的、和/或类似的)、泛素化的、磷酸化的、类泛素化的、核糖基化的、瓜氨酸化的、具有组蛋白翻译后修饰或其他组蛋白变异、和/或类似的。

表观遗传特征：如本文所用的，“表观遗传特征”是指给定DNA分子中一个或更多个表观遗传基因座表现出的表观遗传状态。例如，构成给定基因组区域或基因座(例如，CTCF结合区等)的DNA分子或cfDNA片段)也可以表现出表观遗传模式，其中那些DNA分子中的一些包括一定数量的甲基化表观遗传基因座，而在其他情况下，构成相同基因组区域的其他DNA分子或cfDNA片段中的相应表观遗传基因座是未甲基化的。

种系突变：如本文所用，“种系突变”是指受孕前存在的生殖细胞中核酸的突变。

免疫治疗：如本文所用，“免疫治疗”是指用一种或更多种以下的剂治疗，所述剂起作用以刺激免疫系统，从而杀伤癌细胞或至少抑制癌细胞的生长，并且优选地降低癌症的进一步增长、降低癌症的大小和/或消除癌症。一些这样的剂与呈递在癌细胞上的靶结合；一些与呈递到免疫细胞上而不是癌细胞上的靶结合；一些与呈递在癌细胞和免疫细胞二者上的靶结合。这样的剂包括但不限于，检查点抑制剂和/或抗体。检查点抑制剂是免疫系统的途径的抑制剂，其维持自我耐受性并且调节外周组织中生理免疫响应的持续时间和幅度，以最小化旁组织损伤(参见例如，Pardoll,Nature Reviews Cancer 12,252–264(2012))。示例性剂包括针对以下中任何一种的抗体：PD-1、PD-2、PD-L1、PD-L2、CTLA-4、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27、CD40或CD47。其他示例性剂包括促炎性细胞因子，诸如IL-1β、IL-6和TNF-α。其他示例性剂是针对肿瘤活化的T细胞，诸如通过表达嵌合抗原而活化的T细胞，所述嵌合抗原靶向由该T细胞识别的肿瘤抗原。

插入/缺失(Indel)：如本文使用的，“插入/缺失”是指涉及受试者的基因组中核苷酸位置的插入或缺失的突变。

最大突变等位基因频率：如本文所用，“最大突变等位基因频率”、“最大变体等位基因频率”、“最大MAF”、“MAX MAF”、“最大VAF”、“max-MAF”或“最大VAF”是指在给定样品中存在或观察到的所有体细胞变体的最大或最大的MAF。

突变等位基因频率：如本文所用，“突变等位基因频率”、“变异等位基因频率”、“突变等位基因分数”、“变异等位基因分数”、“MAF”或“VAF”是指在给定核酸群体诸如从受试者获得的样品中突变等位基因出现的频率。MAF通常被表示为分数或百分比。

分子响应：如本文所用，“分子响应”是指在不同时间点从给定受试者采集的样品之间观察到的一个或更多个循环肿瘤DNA(ctDNA)变体等位基因频率、水平或量的变化。

分子响应者(Molecular Responder)：如本文所用，“分子响应者”或“响应者”是指具有指示在不同时间点从受试者采集的样品之间观察到的一个或更多个循环肿瘤DNA(ctDNA)变体等位基因频率、水平或量的降低的分子响应评分的受试者。

分子无响应者(Molecular Non-Responder)：如本文所用，“分子无响应者”或“无响应者”是指具有指示在不同时间点从受试者采集的样品之间观察到的一个或更多个循环肿瘤DNA(ctDNA)变体等位基因频率、水平或量的增加或无变化的分子响应评分的受试者。指定减少(或增加)水平的阈值可用于确定受试者是分子响应者还是分子无响应者。例如，分子响应者可以是与VAF中减少超过一定百分比的变化相关联的受试者，而无响应者可以是与VAF中增加或无变化或减少小于一定百分比的变化相关联的受试者。

突变：如本文使用的，“突变”、“核酸变体”或“遗传畸变”是指从已知参考序列的变异，并且包括突变，诸如例如单核苷酸变体(SNV)、拷贝数变体或变异(copy numbervariants or variations，CNV)/畸变、插入或缺失(插入/缺少)、截短、基因融合、颠换、易位、移码、复制、重复扩增和表观遗传变体。突变可以是种系突变或体细胞突变。在一些实施方案中，用于比较目的的参考序列是提供测试样品的受试者的物种的野生型基因组序列，通常是人类基因组。在某些情况下，突变或变体是导致或至少促成肿瘤发生的“肿瘤相关遗传变体”。

下一代测序：如本文所用，“下一代测序”或“NGS”是指与传统的基于Sanger和毛细管电泳的方法相比具有增加的通量的测序技术，例如，具有一次产生成千上万个相对小的序列读段的能力。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。

核酸标签：如本文使用的，“核酸标签”是指用于标记核酸分子以区分来自不同样品的核酸(例如，代表样品索引)，或同一样品中不同类型的或经历不同处理的不同核酸分子(例如，代表分子标签)的短核酸(例如，长度小于约500个、约100个、约50个或约10个核苷酸)。核酸标签可以是单链的、双链的或至少部分双链的。核酸标签任选地具有相同的长度或不同的长度。核酸标签还可以包括具有一个或更多个平末端的双链分子，包括5’或3’单链区域(例如，突出端)，和/或在给定分子内的其他位置包括一个或更多个其他单链区域。核酸标签可以附接在其他核酸(例如，待扩增和/或测序的样品核酸)的一个末端或两个末端。核酸标签可以被解码以揭示信息，诸如给定核酸的样品来源、形式或处理。核酸标签也可以用于实现汇集和/或并行处理包含带有不同核酸标签和/或样品索引的核酸的多个样品，其中核酸随后通过读取核酸标签被解卷积。核酸标签也可以被称为分子标识符或标签、样品标识符、索引标签和/或条形码。另外地或可选地，核酸标签可以用于区分同一样品中的不同分子。这包括，例如，对给定样品中的每个不同的核酸分子独特地加标签，或对这样的分子非独特地加标签。在非独特地加标签的应用的情况下，可以使用具有有限数目的标签对每个核酸分子加标签，使得不同分子可以基于例如其映射至所选择的参考基因组的起始位置/终止位置与至少一个核酸标签的组合而被区分。通常，使用足够数目的不同的核酸标签，使得任何两个分子将具有相同的起始位置和/或终止位置并且还具有相同的核酸标签的概率低(例如，小于约10％、小于约5％、小于约1％，或小于约0.1％的概率)。一些核酸标签包含多于一个分子标识符以标记样品、样品内的核酸分子的形式、以及具有相同起始位置和终止位置的形式内的核酸分子。这样的核酸标签可以使用示例性形式“A1i”来引用，其中大写字母指示样品类型，阿拉伯数字指示样品内的分子的形式，并且小写罗马数字指示形式内的分子。

多核苷酸：如本文所用，“多核苷酸”、“核酸”、“核酸分子”或“寡核苷酸”是指核苷(包括脱氧核糖核苷、核糖核苷或其类似物)通过核苷间键合连接的线性聚合物。通常，多核苷酸包含至少三个核苷。寡核苷酸的尺寸范围通常从几个单体单元例如3-4个到几百个单体单元。除非另外注明，否则每当多核苷酸以字母序列诸如“ATGCCTG”表示时，应该理解，该核苷酸从左到右是5'→3'的顺序，并且在DNA的情况下，“A”表示脱氧腺苷，“C”表示脱氧胞苷，“G”表示脱氧鸟苷，并且“T”表示脱氧胸苷。字母A、C、G和T可以用于指碱基本身、指包含该碱基的核苷或核苷酸，这是本领域的标准。

参考样品：如本文使用的，“参考样品”或“参考cfNA样品”是指与测试样品一起分析或与测试样品相比较，以便评价分析程序的准确度、将测试样品分类等等的具有已知组成和/或具有或已知具有或缺乏特定性质(例如，已知核酸变体、已知细胞来源、已知肿瘤分数、已知覆盖范围和/或类似性质)的样品。参考样品数据集通常包括从至少约25个到至少约30,000个或更多参考样品。在一些实施方案中，参考样品数据集包括约50、75、100、150、200、300、400、500、600、700、800、900、1,000、2,500、5,000、7,500、10,000、15,000、20,000、25,000、50,000、100,000、1,000,000个或更多个参考样品。

参考序列：如本文使用的，“参考序列”或“参考基因组”是指用于与经实验确定的序列进行比较的目的的已知序列。例如，已知序列可以是整个基因组、染色体或其任何区段。参考序列通常包括至少约20个、至少约50个、至少约100个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、至少约500个、至少约1000个，或更多个核苷酸。参考序列可以与基因组或染色体的单个连续序列比对，或者可以包括与基因组或染色体的不同区域比对的非连续区段。示例性的参考序列包括，例如，人类基因组，诸如hG19和hG38。

样品：如本文所用，“样品”是指能够通过本文公开的方法和/或系统进行分析的任何生物样品。在本公开内容的某些方面，样品是体液样品，例如全血或其级分、淋巴液、尿液和/或脑脊液，以及无细胞(循环的，不包含在细胞内或以其他方式结合于细胞)核酸所来源的其他体液类型。在某些实施方式中，体液样品是血浆样品，其是不包括细胞(诸如红细胞和白细胞)的全血的流体部分。在一些实施方式中，体液样品是血清样品，即缺乏血纤蛋白原的血浆。在本公开内容的一些方面，样品是“非体液样品”或“非血浆样品”，即除“体液样品”之外的生物样品，诸如细胞和/或组织样品，其是除无细胞核酸之外的核酸的来源。

灵敏度：如本文所用，在给定测定或方法上下文中的“灵敏度”是指测定或方法检测和区分靶向(例如，来源于肿瘤细胞的cfDNA片段)和非靶向(例如，来源于非肿瘤细胞的cfDNA片段)分析物的能力。

测序：如本文使用的，“测序”是指用于确定生物分子例如核酸诸如DNA或RNA的序列(例如，单体单元的身份和顺序)的许多技术中的任一种。示例性测序方法包括但不限于靶向测序、单分子实时测序、外显子或外显子组测序、内含子测序、基于电子显微术的测序、panel测序、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模并行特征测序(massively parallel signaturesequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对末端测序、近末端测序(near-term sequencing)、外切核酸酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiDTM测序、MS-PET测序及其组合。在一些实施方案中，测序可以通过基因分析仪进行，诸如，例如通过可从Illumina,Inc.、Pacific Biosciences,Inc.或AppliedBiosystems/Thermo Fisher Scientific等等商业上获得的基因分析仪进行。

单核苷酸变体：如本文所用，“单核苷酸变体”或“SNV”是指发生在基因组中特定位置的单核苷酸的突变或变异。

体细胞突变：如本文所用，“体细胞突变”是指在受孕后发生的基因组中的突变。体细胞突变可以发生在身体的除了生殖细胞以外的任何细胞中，并且因此不会传递给后代。

特异性：如本文在诊断分析或测定的上下文中使用的“特异性”是指分析或测定检测预期的靶分析物而排除给定样品的其他组分的程度。

亚克隆：如本文所用，核酸上下文中的“亚克隆”是指包含至少在给定的感兴趣基因座(例如，靶变体)彼此基本上或完全相同的核苷酸序列的核酸的亚群体(即，核酸群体的子集)。例如，亚克隆可以指癌细胞的子集。

受试者：如本文所用，“受试者”是指动物，诸如哺乳动物物种(例如人类)或禽类(例如鸟)物种或其他生物体，诸如植物。更具体地，受试者可以是脊椎动物，例如哺乳动物诸如小鼠、灵长类动物、猿或人类。动物包括农场动物(例如，生产牛(production cattle)、奶牛、家禽、马、猪等)、运动动物和伴侣动物(例如，宠物或支持动物)。受试者可以是健康个体、具有或怀疑具有疾病或有患该疾病倾向的个体、或需要治疗或怀疑需要治疗的个体。术语“个体”或“患者”旨在与“受试者”可互换地使用。

例如，受试者可以是已经被诊断患有癌症、将接受癌症治疗和/或已经接受至少一种癌症治疗的个体。受试者可以是处于癌症的缓解中。作为另一个实例，受试者可以是被诊断患有自身免疫性疾病的个体。作为另一个实例，受试者可以是怀孕或计划怀孕的女性个体，其可能已经被诊断或怀疑患有疾病，例如癌症、自身免疫性疾病。

阈值：如本文使用的，“阈值(threshold)”是指用于表征或分类实验确定的值的单独确定的值。

肿瘤分数：如本文所用，“肿瘤分数”是指对给定样品中源自肿瘤的核酸分子的分数的估计。例如，样品的肿瘤分数可以是从样品的最大体细胞突变等位基因频率(最大MAF)或样品的覆盖范围，或样品中cfNA片段的长度、表观遗传状态或其他性质或样品的任何其他所选特征得到的量度。在一些实施方案中，样品的肿瘤分数等于样品的最大MAF。

值：如本文使用的，“值”通常指数据集中可以是表征该值所涉及的特征的任何事物的条目。这包括但不限于数字、词语或短语、符号(例如，+或-)或程度。

尽管在本发明方法和组合物的实践或测试中可以使用与本文所述的方法和材料相似或等效的任何方法和材料，但是特别有用的方法、装置和材料如本文所述。本文引用的出版物和它们所引用材料特别地通过引用特此并入。本文不应解释为承认由于在先发明使得本公开内容不具有优先于此类出版物的资格。不承认任何参考文献构成现有技术。参考文献的讨论陈述了其作者的主张，并且申请人保留质疑引用文件的准确性和相关性的权利。应当清楚地理解，尽管本文引用了许多出版物，但是这种引用并不构成承认这些文献中的任何一个构成了本领域公知的一部分。

贯穿本说明书的描述和权利要求，词语“包含(comprise)”以及该词语的变型，诸如“包含(comprising)”和“包含(comprises)”意指“包括但不限于”并且不意图排除例如其他添加物、组分、整数或步骤。特别地，在陈述为包括一个或更多个步骤或操作的方法中，具体地设想每个步骤包括所列出的内容(除非该步骤包括诸如“由...组成”的限制性术语)，意味着每个步骤不旨在排除例如该步骤中未列出的其他添加物、组分、整数或步骤。

在本发明提供涉及多个顺序步骤的过程中，本发明还可以提供这些不同步骤可以由不同人在不同地点(例如，在不同的国家)在非常不同的时间执行的过程。

II.分子响应评分

在一种实施方案中，如图1所示，公开了用于确定分子响应(MR)评分的方法100。本公开内容的方法可以在无细胞核酸的操作、制备、鉴定、定量和/或分析中具有广泛的用途。分子响应是对治疗中(on-treatment)(通常为3-10周)与治疗前基线相比循环肿瘤DNA(ctDNA)负荷变化的评估。分子响应与患者对治疗的响应以及实体瘤和治疗类型间的长期结果相关。分子响应也可用于比放射学和/或RECIST响应更早地预测临床响应。已经使用了多种方法来计算分子响应，但是对于哪种方法是最好的还没有一致的意见。

描述了使用分子响应(MR)评分来评估对治疗的响应的方法和系统。在一种实施方案中，可以在治疗前获得多于一个患者的基线(治疗前)基因表达数据，并且可以在治疗期间获得多于一个患者的治疗中基因表达数据。在一种实施方案中，可以分析基线基因表达数据(例如，变体数据)和/或治疗中的基因表达数据，以确定分子响应(MR)评分。MR评分可以指示患者对治疗有响应或无响应。在一种实施方案中，突变等位基因分数(MAF)可以被确定为MR评分的一部分。在一种实施方案中，每个MAF的方差可以合并到分子响应评分的确定中。这确保了分子响应评分包括准确的方差，这在从分子响应评分做出正确结论方面提供了显著的改进。当分子响应评分是比率时，这种改进甚至更明显，因为比率对分母的变化很敏感。通过数学推导分子响应方差，或者通过模拟或从每个变体的方差分布取样来确定分子响应方差，可以将方差合并到分子响应评分中。

a.cfDNA的分离与提取

如图1所示，在第一时间T₀，可在步骤101从治疗前从一个或更多个受试者获得的一个或更多个基线样品获得基线cfDNA，并且在第二时间T₁，可在步骤102从治疗后从一个或更多个受试者获得的一个或更多个治疗中样品获得治疗中cfDNA。治疗可以在时间T₀之后的任何时间发生/正在发生。例如，治疗可以在时间T₀之后的几分钟、几小时、几天等发生。作为另外的实例，治疗可以在时间T₀之后30分钟，时间T₀之后1小时至2小时，时间T₀之后1天到2天，时间T₀之后1周至2周，时间T₀之后1个月至2个月，时间T₀之后6个月至1年，时间T₀之后1年至2年，等等发生。时间T₁可以是时间T₀之后的任意时间量，例如，以下之间并包括以下的任何时间：1-24小时、1-180天、1-12周、6-12个月等等。

如本文所述，多核苷酸可以包括任何类型的核酸，诸如DNA和/或RNA。例如，如果多核苷酸是DNA，它可以是基因组DNA、互补DNA(cDNA)或任何其他脱氧核糖核酸。多核苷酸也可以是无细胞核酸，诸如无细胞DNA(cfDNA)。例如，多核苷酸可以是循环cfDNA。循环cfDNA可以包括通过凋亡或坏死从身体细胞脱落的DNA。通过凋亡或坏死脱落的cfDNA可以来源于正常(例如健康)的身体细胞。在有异常组织生长诸如癌症的地方，肿瘤DNA可能会脱落。循环cfDNA可以包括循环肿瘤DNA(ctDNA)。

i.样品

无细胞多核苷酸的分离和提取可以通过使用多种技术收集样品来进行。样品可以是从受试者分离的任何生物样品。样品可以包括身体组织、全血、血小板、血清、血浆、粪便、红细胞、白血细胞或白细胞、内皮细胞、组织活检(例如，来自已知或疑似实体瘤的活检)、脑脊液、滑液、淋巴液、腹水、组织间隙液或细胞外液(例如，来自细胞间隙中的流体)、齿龈液、龈沟液、骨髓、胸膜渗出物、脑脊液、唾液、粘液、痰、精液、汗液、尿液。样品优选地为体液，特别地血液及其级分，以及尿液。这样的样品包括从肿瘤脱落的核酸。核酸可以包括DNA和RNA并且可以是双链和单链形式。样品可以呈最初从受试者分离出来的形式，或者可以已经经历另外的处理以去除或添加组分，诸如细胞，相对于另一种组分富集一种组分，或将一种形式的核酸转化为另一种，诸如RNA至DNA，或单链核酸至双链。因此，例如，用于分析的体液样品是含有无细胞核酸例如无细胞DNA(cfDNA)的血浆或血清。

在一些实施方案中，取自受试者的体液样品体积取决于对测序的区域的期望的读段深度。示例性体积为约0.4ml-40ml、约5ml-20ml、约10ml-20ml。例如，体积可以是约0.5ml、约1ml、约5ml、约10ml、约20ml、约30ml、约40ml或更多毫升。取样的血液的体积通常在约5ml至约20ml之间。

样品可包含不同量的核酸。通常，给定样品中核酸的量等于多于一个基因组当量。例如，约30ng DNA的样品可以含有约10,000(10⁴)个单倍体人类基因组当量，并且在cfDNA的情况下，可以含有约2000亿(2×10¹¹)个个体多核苷酸分子。类似地，约100ng DNA的样品可以含有约30,000个单倍体人类基因组当量，并且在cfDNA的情况下，含有约6,000亿个个体分子。

在一些实施方案中，样品包含来自不同来源的核酸，例如来自细胞和来自无细胞来源的核酸(例如血液样品等)。典型地，样品包括携带突变的核酸。例如，样品任选地包含携带种系突变和/或体细胞突变的DNA。通常，样品包含携带癌症相关突变(例如，癌症相关的体细胞突变)的DNA。在本公开内容的一些实施方案中，受试者中的无细胞核酸可以来源于肿瘤。例如，从受试者分离的无细胞DNA可以包含ctDNA。

扩增前的样品中的无细胞核酸的示例性的量通常在从约1飞克(fg)至约1微克(μg)，例如约1皮克(pg)至约200纳克(ng)、约1ng至约100ng、约10ng至约1000ng的范围。在一些实施方案中，样品包含高达约600ng、高达约500ng、高达约400ng、高达约300ng、高达约200ng、高达约100ng、高达约50ng或高达约20ng的无细胞核酸分子。任选地，该量是至少约1fg、至少约10fg、至少约100fg、至少约1pg、至少约10pg、至少约100pg、至少约1ng、至少约10ng、至少约100ng、至少约150ng或至少约200ng的无细胞核酸分子。在某些实施方案中，该量为高达约1fg、约10fg、约100fg、约1pg、约10pg、约100pg、约1ng、约10ng、约100ng、约150ng或约200ng的无细胞核酸分子。在一些实施方案中，方法包括从样品中获得约1fg至约200ng之间的无细胞核酸分子。

无细胞核酸通常具有长度约100个核苷酸和长度约500个核苷酸之间的大小分布，长度约110个核苷酸至长度约230个核苷酸的分子代表样品中约90％的分子，众数为长度约168个核苷酸，并且第二个次要峰在长度约240个至约440个核苷酸之间的范围内。在某些实施方案中，无细胞核酸的长度为约160至约180个核苷酸，或长度为约320至约360个核苷酸，或长度为约440至约480个核苷酸。

在一些实施方案中，无细胞核酸通过分配步骤(partitioning step)从体液分离，在该分离步骤中，如存在于溶液中的无细胞核酸与体液的完整细胞和其他非可溶性组分分开。在这些实施方案的一些中，分配包括诸如离心或过滤的技术。可选地，体液中的细胞被裂解，并且一起处理无细胞核酸和细胞核酸。通常，在添加缓冲液和洗涤步骤后，无细胞核酸用例如乙醇沉淀。在某些实施方案中，使用另外的净化(clean up)步骤，诸如基于二氧化硅的柱来去除污染物或盐。例如，任选地在整个反应中添加非特异性批量(bulk)载体核酸，以优化示例性程序的某些方面诸如收率。在这样的处理后，样品通常包括各种形式的核酸，包括双链DNA、单链DNA和/或单链RNA。任选地，单链DNA和/或单链RNA转化为双链形式，因此它们被包括在随后的处理和分析步骤中。关于任选地适用于进行本文公开的方法的cfDNA分配和表观遗传修饰的相关分析的另外细节描述在例如通过引用并入的2017年12月22日提交的WO 2018/119452中。

ii.核酸标签

在某些实施方案中，提供分子标识符或条形码的标签通过化学合成、连接或重叠延伸PCR等方法掺入或以其他方式连接到衔接子。在一些实施方案中，反应中独特或非独特标识符或分子条形码的分配遵循例如以下中描述的方法并利用例如以下中描述的系统：美国专利申请20010053519、20030152490、20110160078和美国专利第6,582,908号、第7,537,898号和第9,598,731号，其各自通过引用并入。

标签随机或非随机地连接(link)(例如连接(ligate))到样品核酸。在一些实施方案中，标签以预期的标识符比率(例如，独特和/或非独特条形码的组合)引入微孔。例如，可以加载标识符使得每基因组样品加载多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。在一些实施方案中，加载标识符使得每基因组样品加载少于约2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。在某些实施方案中，每样品基因组加载的标识符的平均数目少于或大于每基因组样品约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、50个、100个、500个、1000个、5000个、10000个、50,000个、100,000个、500,000个、1,000,000个、10,000,000个、50,000,000个或1,000,000,000个标识符。标识符通常是独特的或非独特的。

一种示例性格式使用连接到靶核酸分子两个末端的约2至约1,000,000个不同标签，或约5至约150个不同标签，或约20至约50个不同标签。对于20-50x 20-50的标签，总共创建400-2500个标签。标签的这样的数目是足够的，使得具有相同起点和终点的不同分子具有接收不同标签组合的高概率(例如，至少94％、99.5％、99.99％、99.999％)。

在一些实施方案中，标识符是预定的、随机的或半随机的序列寡核苷酸。在其他实施方案中，可以使用多于一个条形码使得条形码在所述多于一个条形码中相对于彼此不必是独特的。在这些实施方案中，条形码通常附接(例如，通过连接或PCR扩增)至个体分子，使得条形码和可以与其附接的序列的组合产生可以被单独地追踪的独特序列。如本文描述的，加非独特标签的条形码的检测与在序列读段的开始(起始)和结束(终止)部分的序列数据组合通常允许将独特的身份指定至特定分子。单独的序列读段的长度或碱基对数目也任选地用于为给定分子指定独特身份。如本文描述的，来自已经指定了独特身份的核酸单链的片段可以从而允许随后识别来自亲本链和/或互补链的片段。

iii.核酸扩增

侧翼为衔接子的样品核酸通常通过PCR和其他扩增方法来扩增，所述其他扩增方法使用结合至待扩增的DNA分子侧翼的衔接子中的引物结合位点的核酸引物。在一些实施方案中，扩增方法包括由热循环引起的延伸、变性和退火的循环，或者可以是等温的，如在转录介导的扩增中。任选地使用的其他示例性的扩增方法包括连接酶链式反应、链置换扩增、基于核酸序列的扩增、和基于自主持续序列的复制以及其他方法。

通常应用一轮或更多轮扩增循环来使用常规核酸扩增方法将样品索引/标签引入核酸分子。扩增通常在一种或更多种反应混合物中进行。在一些实施方案中，在执行序列捕获步骤之前和/或之后引入分子标签和样品索引/标签。在一些实施方案中，在探针捕获之前仅引入分子标签，并且在进行序列捕获步骤之后引入样品索引/标签。在某些实施方案中，分子标签和样品索引/标签两者均在进行基于探针的捕获步骤之前引入。在一些实施方案中，在执行序列捕获步骤(即，核酸富集)之后引入样品索引/标签。通常，序列捕获方案包括引入与靶向的核酸序列互补的单链核酸分子，例如基因组区域的编码序列，并且这样的区域的突变与癌症类型相关。通常，扩增反应产生具有分子标签和样品索引/标签的多于一个非独特或独特地加标签的核酸扩增子，所述核酸扩增子的大小范围为约200个核苷酸(nt)至约700nt、250nt至约350nt，或约320nt至约550nt。在一些实施方案中，扩增子具有约300nt的大小。在一些实施方案中，扩增子具有约500nt的大小。

iv.核酸富集

在一些实施方案中，在对核酸测序之前富集序列。富集任选地针对特定靶区域来进行或非特异性地进行(“靶序列”)。举例来说，富集可以基于大小选择方法非特异性地进行，该方法不是序列特异性的，而是序列片段大小特异性的。在一些实施方案中，感兴趣的靶向区域可以用针对一个或更多个诱饵集组(bait set panels)选择的核酸捕获探针(“诱饵”)使用差异性平铺和捕获方案(differential tiling and capture scheme)来富集。差异性平铺和捕获方案通常使用不同相对浓度的诱饵集在与诱饵相关的基因组区段中差异性平铺(例如，以不同的“分辨率”)，经受限制的集合(例如，测序仪限制，诸如测序载量、每种诱饵的效用等)，并以下游测序所需的水平捕获靶向的核酸。这些感兴趣的靶向的基因组区段任选地包括核酸构建体的天然或合成核苷酸序列。在一些实施方案中，具有针对一个或更多个感兴趣区段的探针的生物素标记的珠可以用于捕获靶序列，并任选地随后扩增这些区段，以富集感兴趣区域。

序列捕获通常包括使用与靶核酸序列杂交的寡核苷酸探针。在某些实施方案中，探针集策略包括将探针平铺在感兴趣的区段内。这样的探针的长度可以在例如从约60个至约120个核苷酸。该集可以具有约2x、3x、4x、5x、6x、8x、9x、10x、15x、20x、50x或更大的深度。序列捕获的有效性通常部分地取决于靶分子中与探针序列互补(或几乎互补)的序列的长度。

b.核酸测序

如图1所示，在步骤101和102从样品提取和分离cfDNA之后，可以在步骤103和104对cfDNA进行测序。在进行或不进行先前的扩增的情况下，任选地侧翼为衔接子的样品核酸通常经历测序。测序方法或任选地可使用的商业上可获得的格式包括例如，Sanger测序、高通量测序、亚硫酸氢盐测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(NGS)、单分子合成测序(SMSS)(Helicos)、大规模并行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或Nanopore平台的测序。测序反应可以在各种样品处理单元中进行，样品处理单元可包括多通路、多通道、多孔或基本上同时处理多于一个样品集的其他装置。样品处理单元还可以包括多于一个样品室，使得能够同时处理多于一个运行。

测序反应可以对已知包含癌症或其他疾病的标志物的一种或更多种核酸片段类型或区段进行。测序反应也可以对样品中存在的任何核酸片段进行。测序反应可以提供基因组的至少约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％或100％的基因组的序列覆盖度。在其他情况下，基因组的序列覆盖度可以是基因组的小于约5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、99.9％或100％。

同时测序反应可以使用多重测序技术进行。在一些实施方案中，用至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应对无细胞多核苷酸进行测序。在其他实施方案中，无细胞多核苷酸用少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应来测序。测序反应通常顺序地或同时地进行。随后的数据分析通常对所有或部分测序反应进行。在一些实施方案中，对至少约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。在其他实施方案中，对少于约1000个、2000个、3000个、4000个、5000个、6000个、7000个、8000个、9000个、10000个、50000个或100,000个测序反应进行数据分析。示例性的读段深度为每位点(碱基位置)约1000至约50000个读段。

在一些实施方案中，核酸群体被制备用于通过在一个末端或两个末端具有单链突出端的双链核酸上酶促形成平末端进行测序。在这些实施方案中，通常用具有5’-3’DNA聚合酶活性和3’-5’核酸外切酶活性的酶在核苷酸(例如，A、C、G和T或U)的存在下处理群体。任选地使用的示例性酶或其催化片段包括Klenow大片段和T4聚合酶。在5’突出端处，酶通常延伸相对链上凹进的3’末端，直到它与5’末端齐平，产生平末端。在3’突出端处，酶通常从3’末端消化直到相对链的5’末端，并且有时超过5’末端。如果这种消化进行到超过相对链的5’末端，空位可以被具有与用于5’突出端相同的聚合酶活性的酶填充。双链核酸上平末端的形成有利于例如衔接子的附接和随后的扩增。

在一些实施方案中，核酸群体经受另外的处理，诸如单链核酸向双链的转化和/或RNA向DNA的转化。这些形式的核酸还任选地连接到衔接子并被扩增。

在有或没有预先扩增的情况下，可以对经历上述形成平末端过程的核酸以及任选地样品中的其他核酸测序，以产生测序的核酸。测序的核酸可以指核酸的序列(即序列信息)或其序列已经确定的核酸。可以进行测序，以从样品中单个核酸分子的扩增产物的共有序列直接或间接提供样品中单个核酸分子的序列数据。

在一些实施方案中，样品中具有单链突出端的双链核酸在平末端形成后，在两端处被与包含条形码的衔接子连接，并且测序确定了核酸序列以及通过衔接子引入的直线连接的(in-line)条形码。平末端的DNA分子任选地与至少部分双链的衔接子(例如，Y形衔接子或钟形衔接子)的平末端连接。可选地，样品核酸和衔接子的平端可以用互补核苷酸加尾以有利于连接(例如，粘末端连接)。

核酸样品通常与足够数目的衔接子接触，使得相同核酸的任何两个拷贝从两个末端连接的衔接子接收到衔接子条形码的相同组合的概率低(例如，<1或0.1％)。以这种方式使用衔接子允许鉴定参考核酸上具有相同起始点和终止点并且连接至条形码的相同组合的核酸序列的家族。这样的家族代表扩增前样品中模板/亲本核酸的扩增产物的序列。通过平末端形成和衔接子附接修饰，家族成员的序列可以被编译以获得原始样品中核酸分子的一个或多于一个共有核苷酸或完整共有序列。换言之，占据样品中核酸的指定位置的核苷酸被确定为占据家族成员序列中相应位置的共有核苷酸。家族可以包括双链核酸的一条或两条链的序列。如果家族的成员包括来自双链核酸的两条链的序列，出于编译所有序列以获得一个或更多个共有核苷酸或序列的目的，一条链的序列被转化为它们的互补序列。一些家族仅包括单个成员序列。在这种情况下，该序列可以作为扩增前样品中核酸的序列被获取。可选地，仅具有单个成员序列的家族可以从随后的分析消除。

测序的核酸中的核苷酸变异可以通过将测序的核酸与参考序列比较来确定。参考序列通常是已知序列，例如，来自受试者的已知全基因组或部分基因组序列(例如人类受试者的全基因组序列)。参考序列可以是例如hG19或hG38。如上文描述的，测序的核酸可以代表样品中的核酸的直接确定的序列，或这样的核酸的扩增产物的共有序列。可以在参考序列上的一个或更多个指定的位置处进行比较。当相应的序列最大程度地对齐时，可以鉴定测序的核酸的子集，包括与参考序列的指定的位置相对应的位置。在这样的子集内，可以确定哪些(如果有的话)测序的核酸在指定的位置处包括核苷酸变异，基于给定cfDNA片段的端点(即，它的5’和3’末端核苷酸)映射到参考序列的位置确定给定cfDNA片段的长度，确定给定cfDNA片段的中点从cfDNA片段中基因组区域中点的偏移，以及确定任选地哪些(如果有的话)包括参考核苷酸(即，与参考序列中的相同)。如果子集中包括核苷酸变体的测序的核酸的数目超过选择的阈值，那么变体核苷酸可以在指定的位置处被调用。阈值可以是单纯的数值，诸如包括核苷酸变体的子集内的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个测序的核酸，或者它可以是比率，诸如包括核苷酸变体的子集内的至少0.5个、1个、2个、3个、4个、5个、10个、15个或20个测序的核酸，以及其他可能性。可以对参考序列中任何感兴趣的指定的位置重复比较。有时可以对占据参考序列上至少约20个、100个、200个或300个连续位置例如，约20-500个或约50-300个连续位置处的指定的位置进行比较。

关于核酸测序的另外细节，包括本文描述的格式和应用，也在例如以下中提供：Levy等人,Annual Review of Genomics and Human Genetics,17:95-115(2016)，Liu等人,J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012)，Voelkerding等人,Clinical Chem.,55:641-658(2009)，MacLean等人,NatureRev.Microbiol.,7:287-296(2009)，Astier等人,J Am Chem Soc.,128(5):1705-10(2006)，美国专利第6,210,891号，美国专利第6,258,568号，美国专利第6,833,246号，美国专利第7,115,400号，美国专利第6,969,488号，美国专利第5,912,148号，美国专利第6,130,073号，美国专利第7,169,560号，美国专利第7,282,337号，美国专利第7,482,120号，美国专利第7,501,245号，美国专利第6,818,395号，美国专利第6,911,345号，美国专利第7,501,245号，美国专利第7,329,492号，美国专利第7,170,050号，美国专利第7,302,146号，美国专利第7,313,308号，和美国专利第7,476,503号，其均通过引用以其整体并入。

i.测序组(Sequencing Panel)

为了改进检测感兴趣的基因组区域和任选地肿瘤指示突变的似然，测序的DNA区段可以包含一组(a panel of)基因或包含已知基因组区域的基因组区段。选择有限的区段进行测序(例如，有限的组)可以减少所需的总测序(例如，测序的核苷酸总量)。测序组可以靶向多于一个不同的基因或区域，例如，以检测单个癌症、癌症的集合或所有癌症。可选地，可以通过全基因组测序(WGS)或其他无偏测序方法对DNA进行测序，而不使用测序组。在2019年1月31日提交的美国临时专利申请62/799,637中描述的表观遗传靶中可以找到合适的组和用于组的靶的实例，该专利申请通过引用以其全文并入。

在一些方面，选择靶向多于一个不同基因或基因组区域(例如，转录因子结合区、远端调控元件(DRE)、重复元件、内含子-外显子接头、转录起始位点(TSS)等)的组，使得确定比例的患有癌症的受试者在组中的一个或更多个不同基因中表现出遗传变体或肿瘤标志物。可以将组选择为将用于测序的区域限定为固定数目的碱基对。可以选择该组来对所需量的DNA测序。还可以将组选择为实现期望的序列读段深度。可以将组选择为对一定量的测序的碱基对实现期望的序列读段深度或序列读段覆盖范围。可以将组选择为对检测样品中一种或更多种遗传变体实现理论灵敏度、理论特异性和/或理论准确度。

用于检测该组区域的探针可以包括用于检测感兴趣的基因组区域(热点区域)的探针以及核小体感知探针(例如，KRAS密码子12和13)，并且可以设计成基于分析cfDNA覆盖范围和受核小体结合模式影响的片段尺寸变异和GC序列组成来优化捕获。本文使用的区域还可以包括基于核小体位置和GC模型优化的非热点区域。该组可以包括多于一个子组(subpanels)，包括用于鉴定以下的子组：来源组织(例如，使用已发表的文献来定义50-100个诱饵，所述诱饵代表具有组织间的最多样转录谱的基因(不一定是启动子))、全基因组支架(例如，用于鉴定超保守的基因组内容并用少量探针稀疏地跨染色体平铺以用于拷贝数碱基排列目的)、转录起始位点(TSS)/CpG岛(例如，用于捕获例如肿瘤抑制基因的启动子(例如，结肠直肠癌中的SEPT9/VIM)中的差异甲基化区域(例如，差异甲基化区域(DMR))。在一些实施方案中，来源组织的标志物是组织特异性表观遗传标志物。

感兴趣的基因组位置列表的一些实例可见于表1和表2。在一些实施方案中，本公开内容的方法中使用的基因组位置包含表1中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个或97个基因的至少一部分。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有基因。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表1中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个或70个SNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有SNV。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个CNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有CNV。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有融合。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表1中的至少1个、至少2个或3个插入/缺失的至少一部分。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有插入/缺失。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1中的所有基因、SNV、CNV、融合和插入/缺失。在一些实施方案中，本公开内容的方法中使用的基因组位置包含表2中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个、至少75个、至少80个、至少85个、至少90个、至少95个、至少100个、至少105个、至少110个或115个基因的至少一部分。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有基因。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有基因。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表2中的至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少35个、至少40个、至少45个、至少50个、至少55个、至少60个、至少65个、至少70个或73个SNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有SNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有SNV。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表2中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个CNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有CNV。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有CNV。在一些实施方案中，本公开内容的方法中使用的基因组位置包括表2中的至少1个、至少2个、至少3个、至少4个、至少5个或6个融合。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有融合。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有融合。在一些实施方案中，本公开内容的方法中使用的基因组位置包含表2中的至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个或18个插入/缺失的至少一部分。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有插入/缺失。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有插入/缺失。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表2中的所有基因、SNV、CNV、融合和插入/缺失。在一种实施方案中，本公开内容的方法中使用的基因组位置包括表1和表2中的所有基因、SNV、CNV、融合和插入/缺失。这些感兴趣的基因组位置中的每一个可以被鉴定为给定诱饵集组的主链区域或热点区域。

表2

在一些实施方案中，组中的一个或更多个区域包括来自一个或多于一个基因的一个或更多个基因座，用于检测手术后残留癌症。这种检测可以比现有的癌症检测方法更早。在一些实施方案中，组中的一个或更多个基因组位置包括来自一个或多于一个基因的一个或更多个基因座，用于检测高风险患者群体中的癌症。例如，吸烟者的肺癌发病率比一般人群高得多。此外，吸烟者可能会患上其他肺部状况，使癌症检测更加困难，诸如肺部不规则结节的发展。在一些实施方案中，本文描述的方法比现有的癌症检测方法更早地检测患者对癌症治疗的响应(特别是在高风险患者中)。

基因组位置可以基于在该基因或区域中具有肿瘤标志物的患有癌症的受试者的数量来选择以包含在测序组中。基因组位置可以基于患有癌症的受试者的患病率和该基因中存在的肿瘤标志物来选择以包含在测序组中。肿瘤标志物在区域中的存在可以指示受试者患有癌症。

在一些情况下，可以使用来自一个或更多个数据库的信息来选择组。关于癌症的信息可以来源于癌症肿瘤活检或cfDNA测定。数据库可以包括描述测序的肿瘤样品群体的信息。数据库可以包括关于肿瘤样品中mRNA表达的信息。数据库可以包括关于肿瘤样品中调控元件或基因组区域的信息。与测序的肿瘤样品相关的信息可以包括各种遗传变体的频率，并描述遗传变体出现的基因或区域。遗传变体可以是肿瘤标志物。这样的数据库的一个非限制性实例是COSMIC。COSMIC是在各种癌症中发现的体细胞突变的目录。对于特定的癌症，COSMIC根据突变频率对基因进行排序。通过在给定基因中具有高频率的突变，可以选择基因包含在组中。例如，COSMIC表明，33％的测序乳腺癌样品群体在TP53中具有突变，并且22％的取样乳腺癌群体在KRAS中具有突变。包括APC在内的其他排序基因仅在约4％的测序乳腺癌样品群体中具有发现的突变。基于TP53和KRAS在取样的乳腺癌中具有相对高的频率(例如，与APC相比，APC以约4％的频率发生)，可以将TP53和KRAS包括在测序组中。COSMIC作为非限制性实例提供，然而，可以使用将癌症与位于基因或遗传区域中的肿瘤标志物关联的任何数据库或信息集。在由COSMIC提供的另一个实例中，在1156个胆道癌样品中，380个样品(33％)携带TP53突变。其他几个基因，诸如APC，在所有样品的4％-8％中具有突变。因此，可以基于胆道癌样品群体中相对较高的频率来选择TP53以包含在组中。

可以为组选择其中肿瘤标志物在取样的肿瘤组织或循环肿瘤DNA中的频率显著高于在给定背景群体中发现的频率的基因或基因组区段。为了包含在组中，基因组位置的组合可以选择为使得至少大多数患有癌症的受试者可以具有在该组中的基因组位置或基因中的至少一个中存在的肿瘤标志物或基因组区域。可以基于指示对于特定癌症或癌症的集合，大多数受试者在一个或更多个所选区域中具有一种或更多种肿瘤标志物的数据来选择基因组位置的组合。例如，为了检测癌症1，可以基于指示90％患有癌症1的受试者在该组的区域A、B、C和/或D中具有肿瘤标志物的数据来选择包括区域A、B、C和/或D的组。可选地，肿瘤标志物可以表现为独立地出现在患有癌症的受试者的两个或更多个区域中，使得组合起来，两个或更多个区域中的肿瘤标志物存在于患有癌症的受试者群体的大多数中。例如，为了检测癌症2，可以基于指示90％的受试者在一个或更多个区域中具有肿瘤标志物的数据来选择包括区域X、Y和Z的组，并且在30％的这样的受试者中，肿瘤标志物仅在区域X中被检测到，而对于检测到肿瘤标志物的其余受试者，肿瘤标志物仅在区域Y和/或Z中被检测到。如果肿瘤标志物在50％或更多的时间在这些区域中的一个或更多个中检测到，则存在于先前显示与一种或更多种癌症相关的一个或更多个基因组位置中的肿瘤标志物可以指示或预测受试者患有癌症。计算方法，诸如在给定一个或更多个区域内的肿瘤标志物集合的癌症频率的情况下，采用检测癌症的条件概率的模型，可以用于预测哪些区域单独或组合可以预测癌症。用于组选择的其他方法包括使用描述来自采用具有大组(large panels)的肿瘤的综合基因组图谱分析和/或全基因组测序(WGS、RNA-seq、Chip-seq、硫酸氢盐测序、ATAC-seq等)的研究的信息的数据库。从文献中收集的信息也可以描述在某些癌症中通常受影响和突变的途径。组选择还可以通过使用描述遗传信息的本体来通知。

用于测序的组中包括的基因可以包括完全转录区域、启动子区域、增强子区域、调控元件和/或下游序列。为了进一步增加检测肿瘤指示突变的似然，仅外显子可以被包括在组中。该组可包含所选基因的所有外显子，或仅包含所选基因的一个或更多个外显子。该组可包括来自多于一个不同基因中的每一个的外显子。该组可包含来自多于一个不同基因中的每一个的至少一个外显子。

在一些方面，选择来自多于一个不同基因中的每一个的一组外显子，使得确定比例的患有癌症的受试者在该组外显子中的至少一个外显子中表现出遗传变异。

可以对来自一组基因中每个不同基因的至少一个完整外显子进行测序。测序的组可包含来自多于一个基因的外显子。该组可包含来自2至100个不同基因、2至70个基因、2至50个基因、2至30个基因、2至15个基因或2至10个基因的外显子。

选定的组可以包含不同数量的外显子。该组可包含2至3000个外显子。该组可包含2至1000个外显子。该组可包含2至500个外显子。该组可包含2至100个外显子。该组可包含2至50个外显子。该组可包含不超过300个外显子。该组可包含不超过200个外显子。该组可包含不超过100个外显子。该组可包含不超过50个外显子。该组可包含不超过40个外显子。该组可包含不超过30个外显子。该组可包含不超过25个外显子。该组可包含不超过20个外显子。该组可包含不超过15个外显子。该组可包含不超过10个外显子。该组可包含不超过9个外显子。该组可包含不超过8个外显子。该组可包含不超过7个外显子。

该组可包含来自多于一个不同基因的一个或更多个外显子。该组可包含来自一定比例的所述多于一个不同基因中的每一个的一个或更多个外显子。该组可包含来自至少25％、50％、75％或90％的不同基因中的每一个的至少两个外显子。该组可包含来自至少25％、50％、75％或90％的不同基因中的每一个的至少三个外显子。该组可包含来自至少25％、50％、75％或90％的不同基因中的每一个的至少四个外显子。

测序组的大小可以变化。测序组可以变大或变小(就核苷酸大小而言)，这取决于几个因素，包括例如测序的核苷酸总量或为组中特定区域测序的独特分子的数量。测序组的大小可以是5kb到50kb。测序组的大小可以是10kb到30kb。测序组的大小可以是12kb到20kb。测序组的大小可以是12kb到60kb。测序组的大小可以是至少10kb、12kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb或150kb。测序组的大小可以小于100kb、90kb、80kb、70kb、60kb或50kb。

选择用于测序的组可以包括至少1、5、10、15、20、25、30、40、50、60、80或100个基因组位置(例如，每个都包括感兴趣的基因组区域)。在一些情况下，组中的基因组位置选择为使得位置的大小相对较小。在一些情况下，组中的区域具有约10kb或更小、约8kb或更小、约6kb或更小、约5kb或更小、约4kb或更小、约3kb或更小、约2.5kb或更小、约2kb或更小、约1.5kb或更小或约1kb或更小的大小。在一些情况下，组中的基因组位置具有约0.5kb至约10kb、约0.5kb至约6kb、约1kb至约11kb、约1kb至约15kb、约1kb至约20kb、约0.1kb至约10kb或约0.2kb至约1kb的大小。例如，组中的区域可以具有从约0.1kb到约5kb的大小。

本文选择的组可以允许深度测序，其足以检测低频遗传变体(例如，在从样品获得的无细胞核酸分子中)。样品中遗传变体的量可以按照给定遗传变体的突变等位基因频率来指代。突变等位基因频率可以指核酸的给定群体诸如样品中出现突变等位基因(例如，不是最常见的等位基因)的频率。突变等位基因频率低的遗传变体可以具有相对低的在样品中存在的频率。在一些情况下，该组允许检测突变等位基因频率为至少0.0001％、0.001％、0.005％、0.01％、0.05％、0.1％或0.5％的遗传变体。该组可以允许检测突变等位基因频率为0.001％或更高的遗传变体。该组可以允许检测突变等位基因频率为0.01％或更高的遗传变体。该组可以允许检测以低至0.0001％、0.001％、0.005％、0.01％、0.025％、0.05％、0.075％、0.1％、0.25％、0.5％、0.75％或1.0％的频率存在于样品中的遗传变体。该组可以允许检测以至少0.0001％、0.001％、0.005％、0.01％、0.025％、0.05％、0.075％、0.1％、0.25％、0.5％、0.75％或1.0％的频率存在于样品中的肿瘤标志物。该组可以允许检测样品中低至1.0％的频率的肿瘤标志物。该组可以允许检测样品中低至0.75％的频率的肿瘤标志物。该组可以允许检测样品中低至0.5％的频率的肿瘤标志物。该组可以允许检测样品中低至0.25％的频率的肿瘤标志物。该组可以允许检测样品中低至0.1％的频率的肿瘤标志物。该组可以允许检测样品中低至0.075％的频率的肿瘤标志物。该组可以允许检测样品中低至0.05％的频率的肿瘤标志物。该组可以允许检测样品中低至0.025％的频率的肿瘤标志物。该组可以允许检测样品中低至0.01％的频率的肿瘤标志物。该组可以允许检测样品中低至0.005％的频率的肿瘤标志物。该组可以允许检测样品中低至0.001％的频率的肿瘤标志物。该组可以允许检测样品中低至0.0001％的频率的肿瘤标志物。该组可以允许检测样品中以低至1.0％至0.0001％的频率的测序的cfDNA中的肿瘤标志物。该组可以允许检测样品中以低至0.01％至0.0001％的频率的测序的cfDNA中的肿瘤标志物。

在患有疾病(例如，癌症)的受试者群体中，可以表现出一定比例的遗传变体。在一些情况下，至少1％、2％、3％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％或99％的患有癌症的群体在组中的至少一个区域中表现出一种或更多种遗传变异。例如，至少80％患有癌症的群体可以在组中的至少一个基因组位置表现出一种或更多种遗传变异。

该组可以包括来自一个或更多个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下，该组可以包括来自至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50或80个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下，该组可以包括来自至多1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50或80个基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。在一些情况下，该组可以包括来自约1至约80个、1至约50个、约3至约40个、5至约30个、10至约20个不同基因中的每一个的一个或更多个包含感兴趣的基因组区域的位置。

组中包含基因组区域的位置可以选择为以便检测一个或更多个表观遗传修饰的区域。一个或更多个表观遗传修饰的区域可以被乙酰化、甲基化、泛素化、磷酸化、类泛素化、核糖基化和/或瓜氨酸化。例如，组中的区域可以选择为以便检测一个或更多个甲基化区域。

组中的区域可以选择为使得它们包含跨一个或更多个组织差异转录的序列。在一些情况下，包含基因组区域的位置可以包含与其他组织相比在某些组织中以更高水平转录的序列。例如，包含基因组区域的位置可以包含在某些组织中转录但不在其他组织中转录的序列。

组中的基因组位置可以包含编码和/或非编码序列。例如，组中的基因组位置可以包含外显子、内含子、启动子、3’非翻译区、5’非翻译区、调控元件、转录起始位点和/或剪接位点中的一个或更多个序列。在一些情况下，组中的区域可以包含其他非编码序列，包括假基因、重复序列、转座子、病毒元件和端粒。在一些情况下，组中的基因组位置可以包含非编码RNA中的序列，例如核糖体RNA、转移RNA、Piwi相互作用RNA和微RNA。

组中的基因组位置可以选择为以期望的灵敏度水平检测(诊断)癌症(例如，通过检测一种或更多种遗传变体)。例如，组中的区域可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的灵敏度检测癌症(例如，通过检测一种或更多种遗传变体)。组中的基因组位置可以选择为以100％的灵敏度检测癌症。

组中的基因组位置可以选择为以期望的特异性水平检测(诊断)癌症(例如，通过检测一种或更多种遗传变体)。例如，组中的基因组区域可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的特异性检测癌症(例如，通过检测一种或更多种遗传变体)。组中的基因组位置可以选择为以100％的特异性检测一种或更多种遗传变体。

组中的基因组位置可以选择为以期望的阳性预测值检测(诊断)癌症。可以通过增加灵敏度(例如，检测到实际阳性的机会)和/或特异性(例如，不会将实际阴性误认为阳性的机会)来增加阳性预测值。作为非限制性实例，组中的基因组位置可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的阳性预测值检测一种或更多种遗传变体。组中的区域可以选择为以100％的阳性预测值检测一种或更多种遗传变体。

组中的基因组位置可以选择为以期望的准确度检测(诊断)癌症。如本文所用，术语“准确度”可以指测试区分疾病状况(例如，癌症)和健康状况的能力。准确度可以使用诸如灵敏度和特异性、预测值、似然比、ROC曲线下面积、Youden指数和/或诊断优势比的量度来定量。

准确度可以用百分比表示，百分比是指给出正确结果的测试次数与执行的测试总数之间的比率。组中的区域可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的准确度检测癌症。组中的基因组位置可以选择为以100％的准确度检测癌症。

组可以选择为高度灵敏并检测低频遗传变体。例如，组可以选择为使得可以以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的灵敏度检测以低至0.01％、0.05％或0.001％的频率存在于样品中的遗传变体或肿瘤标志物。组中的基因组位置可以选择为以70％或更高的灵敏度检测以1％或更低的频率存在于样品中的肿瘤标志物。组可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的灵敏度检测样品中低至0.1％的频率的肿瘤标志物。组可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的灵敏度检测样品中低至0.01％的频率的肿瘤标志物。组可以选择为以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的灵敏度检测样品中低至0.001％的频率的肿瘤标志物。

组可以选择为高度特异性并检测低频遗传变体。例如，组可以选择为使得可以以至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的特异性检测以低至0.01％、0.05％或0.001％的频率存在于样品中的遗传变体或肿瘤标志物。组中的基因组位置可以选择为以70％或更高的特异性检测以1％或更低的频率存在于样品中的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的特异性检测样品中低至0.1％的频率的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的特异性检测样品中低至0.01％的频率的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的特异性检测样品中低至0.001％的频率的肿瘤标志物。

组可以选择为高度准确并检测低频遗传变体。组可以选择为使得可以以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的准确度检测以低至0.01％、0.05％或0.001％的频率存在于样品中的遗传变体或肿瘤标志物。组中的基因组位置可以选择为以70％或更高的准确度检测以1％或更低的频率存在于样品中的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的准确度检测样品中低至0.1％的频率的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的准确度检测样品中低至0.01％的频率的肿瘤标志物。组可以选择为以至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的准确度检测样品中低至0.001％的频率的肿瘤标志物。

组可以选择为高度预测性并检测低频遗传变体。组可以选择为以低至0.01％、0.05％或0.001％的频率存在于样品中的遗传变体或肿瘤标志物可以具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、99.5％或99.9％的阳性预测值。

可增加组中使用的探针或诱饵的浓度(2至6ng/μL)，以捕获样品中更多的核酸分子。组中使用的探针或诱饵的浓度可为至少2ng/μL、3ng/μL、4ng/μL、5ng/μL、6ng/μL或更高。探针的浓度可为约2ng/μL至约3ng/μL、约2ng/μL至约4ng/μL、约2ng/μL至约5ng/μL、约2ng/μL至约6ng/μL。组中使用的探针或诱饵的浓度可为2ng/μL或更高至6ng/μL或更低。在一些情况下，这可以允许分析生物样品中的更多分子，从而能够检测较低频率的等位基因。

在一种实施方案中，在测序之后，序列读段可以被分配质量评分。质量评分可以是序列读段的表示，其基于阈值指示这些序列读段是否可以用于随后的分析。在一些情况下，一些序列读段不具有足够的质量或长度来进行随后的映射步骤。具有至少90％、95％、99％、99.9％、99.99％或99.999％的质量评分的序列读段可能从序列读段的数据集中过滤掉。在其他情况下，被分配了至少90％、95％、99％、99.9％、99.99％或99.999％的质量评分的序列读段可能从数据集中过滤掉。满足指定质量评分阈值的序列读段可以被映射到参考基因组。映射比对后，序列读段可以被分配映射评分。映射评分可以是映射回参考序列的序列读段的表示，指示每一个位置是或者不是独特地可映射的。具有至少90％、95％、99％、99.9％、99.99％或99.999％的映射评分的序列读段可能从数据集中过滤掉。在其他情况下，被分配了少于90％、95％、99％、99.9％、99.99％或99.999％的映射评分的测序读段可能从数据集中过滤掉。

c.MAF确定

如图1所示，在步骤103和/或104对样品进行cfDNA测序之后，可以在步骤105和/或106确定一个或更多个突变等位基因分数(MAF)。一些或全部MAF确定可以发生在变体分类107/108之前、变体分类107/108之后、变体分类107/108期间、变体过滤109之前、变体过滤109之后、变体过滤109期间或其组合。在步骤103之前，cfDNA可以被末端修复、用包含分子条形码的衔接子连接、扩增和富集。扩增可以掺入样品索引。在一种实施方案中，可以为所有变体或所有体细胞变体确定MAF值。在一种实施方案中，可以为少于所有变体或少于所有体细胞变体确定MAF值。变体等位基因分数(VAF)在本文中与MAF可互换使用。突变等位基因分数(MAF)表示突变分子的数量除以在特定基因组位置的分子总数(例如，分子覆盖范围)：

最大MAF可以被确定为在给定样品中存在或观察到的所有体细胞变体的最大(maximum)或最大的(largest)MAF。在一些实施方案中，最大MAF可以被认为是给定样品的肿瘤分数。

可以确定二倍体基因的最大分数(“max frac_diploid”)(最小等位基因不平衡)。二倍体基因的分数(“frac_diploid”)是通过拷贝数确定的样品中等位基因不平衡水平的量度。等位基因高度不平衡的样品容易出现种系/体细胞错误分类。因此，低水平的等位基因不平衡(或高frac_diploid)是体细胞分类调用的可靠性的指示。

在一种实施方案中，总覆盖范围曲线可用于捕获倍数变化，从而捕获肿瘤分数，而不是各个基因。

d.变体分类

在步骤103和104的测序产生多于一个序列读段。在步骤107和/或108，可以分析多于一个序列读段以确定一种或更多种变体并对一种或更多种变体进行分类。在一种实施方案中，可以在MAF确定105/106之前、在MAF确定105/106之后、在MAF确定105/106期间或其组合确定一些或所有变体分类。变体可以包括例如单核苷酸变体(SNV)、插入/缺失、融合和拷贝数变异。可以使用任何已知的变体调用技术。在一种实施方案中，来自样品的多于一个序列读段可以被组装和/或映射并比对到相对于参考基因组的基因组位置。在一些实施方案中，然后可以将多于一个序列读段(组装的或其他的)与参考基因组进行比较，以确定受试者的多于一个序列读段如何不同于参考基因组。这样的过程可以确定多于一个序列读段中一种或更多种变体的存在。在一些实施方案中，从多于一个序列读段获得的核酸分子的分子条形码和/或起始和终止基因组位置可用于鉴定突变分子，在突变分子中属于该分子的序列读段不同于参考基因组。这样的过程可以确定多于一个序列读段中一种或更多种变体的存在。

在一种实施方案中，常见的杂合SNP可用于模拟局部种系等位基因计数行为，并且如果变体显著偏离观察到的种系突变等位基因分数，则称其为体细胞变体。可以使用β二项式模型，因为它模拟了常见SNP处突变等位基因计数的平均值和方差二者。例如，可以使用通过引用以其整体特此并入的PCT/US2018/052087中描述的β二项式模型。这是相对于固定MAF临界值或泊松模型等更简单的方法的改进，因为它们可能无法恰当地代表分子计数的方差。

e.变体过滤

在实施方案中，如图1所示，在步骤109可对序列读段应用一个或更多个过滤过程以将序列读段排除在进一步分析之外。在一种实施方案中，可以在MAF确定105/106之前、在MAF确定105/106之后、在MAF确定105/106期间、在变体分类107/108之前、在变体分类107/108之后、在变体分类107/108期间或其组合应用一些或所有过滤。

在一些实施方案中，在第一和/或第二时间点具有小于约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％或0.9％的MAF的一种或更多种体细胞变体可以从进一步分析中排除。在一些实施方案中，在第一和/或第二时间点具有少于5、10、15、20、25或30个突变分子计数的一种或更多种体细胞变体可以从进一步分析中排除。在一些实施方案中，在第一和/或第二时间点具有小于50、100、200、300、400、500、600、700、800、900或1000的覆盖范围的一种或更多种体细胞变体可以从进一步分析中排除。

在一种实施方案中，拷贝数变体可用于从进一步分析中排除序列读段。可以如本领域已知的确定拷贝数扩增。在步骤109，方法100可以过滤掉探针覆盖不足或拷贝数不足(例如，低于95％检测限)的基因中的拷贝数扩增。

举例来说，可以通过分析序列读段以产生覆盖的染色体区域(chromosomalregion of coverage)来确定CNV。可以将染色体区域划分为可变长度的窗口或箱元(bin)。可以为每个窗口/箱元区域确定读段覆盖范围。在一种实施方案中，与测序读段覆盖范围相关的定量量度是指示来源于对应于遗传基因座(例如，来自参考基因组的特定位置、碱基、区域、基因或染色体)的DNA分子的读段数量的量度。为了将读段与遗传基因座相关联，可以将读段与参考映射或比对。执行映射或比对的软件(例如，Bowtie、BWA、mrsFAST、BLAST、BLAT)可以将测序读段与遗传基因座相关联。在确定了序列读段覆盖范围之后，可以应用随机建模算法将每个窗口/箱元区域的归一化核酸序列读段覆盖范围转换为离散拷贝数状态。在一些情况下，该算法可以包括以下一个或更多个：隐马尔可夫模型、动态规划、支持向量机、贝叶斯网络、网格解码、维特比解码、期望最大化、卡尔曼滤波方法(Kalmanfiltering methodologies)和神经网络。每一个窗口区域的离散拷贝数状态可以用于鉴定染色体区域中的拷贝数变异。在一些情况下，具有相同拷贝数的所有相邻窗口/箱元区域可以被合并为一个区段，以报告拷贝数变异状态的存在或不存在。在一些情况下，多个窗口/箱元可以在它们与其他区段合并之前被过滤。拷贝数变异可以用于报告指示在无细胞多核苷酸样品中存在多少疾病物质(或具有拷贝数变异的核酸)的百分比评分。

在一种实施方案中，CNV在一种或更多种基因中的存在可用于从进一步分析中排除变体。例如，在T₀或T₁样品中具有拷贝数>＝基因特异性95％检测限(LoD)的LDT可报告基因的阈值数的变体。阈值可以是从约10到约30。阈值可以是例如15、16、17、18、19、20、21、22、23、24、25等。在一种实施方案中，阈值可以是19。

拷贝数变化可以表明给定变体的倍数变化。可以使用高斯模型来确定时间T₀和时间T₁之间的倍数变化比率，其可用作分子响应评分的估计。

在一种实施方案中，如果受试者没有体细胞变体，或者没有满足变体过滤过程的标准的变体，则受试者可以被分类为不可评价。在一种实施方案中，被分类为不可评价的受试者可以被进一步分类为分子响应者。在一种实施方案中，在时间T₀和时间T₁二者具有低ctDNA的受试者可分类为不可评价，并进一步归类为分子响应者。在一种实施方案中，在时间T₀和时间T₁二者具有低MAF的受试者可分类为不可评价，并进一步归类为分子响应者。在一种实施方案中，在时间T₀和时间T₁二者具有低肿瘤分数的受试者可分类为不可评价，并进一步归类为分子响应者。低MAF或低肿瘤分数可以指低于检测限(例如，低于95％检测限)或低于定量限值的MAF或肿瘤分数。什么构成低可以取决于组设计，但例如，0.1％、0.2％或0.3％的MAF可以被认为是低的。

i.种系过滤器

在一种实施方案中，如图2所示，种系过滤器200可以应用于序列读段。图2中所示的一些(例如，少于所有)或所有步骤可以以任何组合和任何顺序进行。在受试者治疗过程中采集的样品(例如，在时间T₀和在时间T₁采集的样品)可以具有不同水平的肿瘤脱落和等位基因不平衡，这意味着在步骤107/108的变体分类可能倾向于为同一受试者中的相同变体分配不同的体细胞分类。由于分子响应的目的是在治疗过程中追踪体细胞变体，所以分类差异可以通过对变体进行重新分类自动解决，来将种系变体从考虑中适当地去除。例如，一个变体可以在时间T₀被分类为体细胞变体并在时间T₁被分类为种系变体。例如，一个变体可以在时间T₀被分类为种系变体并在时间T₁被分类为体细胞变体。例如，一个变体可以在时间T₀被分类为种系变体并在时间T₁未分类。例如，一个变体可以在时间T₀被分类为体细胞变体并在时间T₁未分类。种系过滤器200被配置为解决此类差异并重新分配变体分类。

如图2所示，在步骤201，可以对序列读段中的至少一个变体进行确定，以确定该变体是否是肿瘤抑制基因(TSG)中的有害变体(例如，移码或无义突变)。例如，可以将变体与已知TSG的数据库进行比较。如果该变体是TSG中的有害变体，则不管在步骤107/108的分类结果如何，该变体可被分类为体细胞变体(例如，分类将从种系改变为体细胞)。

如果变体不是TSG中的有害变体，则在步骤202，种系过滤器200可以确定样品中存在的变体的最大MAF和样品中至少一种变体的二倍体基因的最大分数。如果在步骤203，变体的二倍体基因的最大分数(在至少两个时间点之一)指示该变体是体细胞的，并且该变体的MAF(在至少两个时间点之一)没有使最大MAF增加，则该变体可以被分类为体细胞的，而无论在步骤107/108的分类结果如何(例如，分类将从种系改变为体细胞)。如果在步骤203，变体的二倍体基因的最大分数(在至少两个时间点之一)指示该变体是种系，并且该变体的MAF(在至少两个时间点之一)将使最大MAF增加，则该变体可以被分类为种系，而无论在步骤107/108的分类结果如何(例如，分类将从体细胞改变为种系)。

如果在步骤203，变体的二倍体基因的最大分数指示该变体是体细胞的，并且该变体的MAF将使最大MAF增加——或者——如果该变体的二倍体基因的最大分数指示该变体是种系的，并且该变体的MAF不会增加最大MAF，则在步骤204种系过滤器200可以确定该变体在另一个患者样品中是否以小于阈值的百分比被分类为体细胞的(在至少两个时间点之一)。阈值百分比可以是至少约1％、2％、3％、4％、5％、6％、7％、8％或9％。如果变体在另一个患者样品中以小于阈值的百分比被分类为体细胞的，则无论在步骤107/108的分类结果如何，变体可以被分类为体细胞的(例如，分类将从种系改变为体细胞)。

如果在步骤204，变体在另一个患者样品中以<5％未被分类为体细胞，则在步骤205种系过滤器200可以确定变体的MAF(在至少两个时间点之一)是否大于样品中的另一个MAF。例如，种系过滤器200可以确定变体的MAF是否是同一样品中的一个或更多个其他MAF的至少约两倍大、三倍大、四倍大、五倍大、六倍大、七倍大、八倍大、九倍大或至少10倍大。例如，样品中的一个或更多个其他MAF可以是样品中最大MAF的次最高体细胞MAF。如果变体的MAF大于样品中的另一MAF，则可以将变体分类为种系，而无论步骤107/108的分类结果如何(例如，分类将从体细胞改变为种系)。

在步骤205，种系过滤器200可以确定变体的MAF(在至少两个时间点之一)是否大于另一样品中的另一个MAF。例如，种系过滤器200可以确定变体的MAF是否是另一样品中的一个或更多个其他MAF的至少约两倍大、三倍大、四倍大、五倍大、六倍大、七倍大、八倍大、九倍大或至少10倍大。另一样品中的一个或更多个其他MAF例如可以是另一样品的最大MAF。如果变体的MAF大于另一样品中的另一MAF，则可以将变体分类为种系，而无论步骤107/108的分类结果如何(例如，分类将从体细胞改变为种系)。

如果在步骤205，变体的MAF既不大于样品中的另一MAF，也不大于另一样品中的另一MAF，则种系过滤器200可以将变体分类为种系，而无论步骤107/108的分类结果如何(例如，分类将从体细胞改变为种系)。

分类为种系的那些变体可以从进一步分析中排除，所述进一步分析包括例如MAF确定和/或MR评分。在一些实施方案中，当变体在至少一个患者样品中被分类为CHIP时，这些变体被分类为CHIP变体。

ii.CHIP过滤器

cfDNA可以包含来自任何细胞类型(包括肿瘤、血细胞等)的cfDNA的聚集体。潜能未定克隆性造血(CHIP)甚至可以存在于cfDNA中。CHIP过滤的常见方法利用由大型公共或内部队列研究策划的反复出现的CHIP基因或热点。然而，这些方法没有解决在仅血浆方法中鉴定随机CHIP突变的挑战。残留的未过滤CHIP变体会使分数变化偏向1(不变)，并且从而产生不准确的后续分子响应预测。为了过滤专有CHIP变体(例如，是CHIP但在已知CHIP变体的先前数据库中从未被记录或不经常被记录的变体)，两个时间点之间的突变测量结果可用于聚类具有相似分数变化的变体。当患者接受治疗时，进展或响应将导致部分体细胞突变，而CHIP变体将保持稳定。通过将突变聚类为克隆，可以在具有已知CHIP列表富集的克隆或具有稳定分数差异的克隆中发现随机CHIP变体。

因此，本文提供了一种利用两个时间点(T₀和T₁)之间的观察结果对CHIP过滤的改进，对具有不同分数变化的克隆中的基因组突变进行聚类。CHIP过滤可以将事件分组/聚类为克隆，以估计％克隆负载变化。聚类程序可以从每个单个事件开始，并且然后利用新的聚类启发式方法进行合并。在使用所有事件确定了％克隆负载变化后，可以基于变体的组成和％克隆负载变化来检查每个克隆，以确定变体是否是CHIP克隆。

在一种实施方案中，基因组突变/变体利用新的聚集层次聚类启发式方法(agglomerative hierarchical clustering heuristic)进行聚类。启发式通过定制的相异度度量来定量突变/变体之间的统计相异度和聚类。利用可调停止规则，该规则继续聚集，直到满足最小(或最大，取决于度量)可允许的相异度阈值。在一种实施方案中，定制的相异度度量是巴氏距离(Bhattacharyya distance)的修改，使得根据考虑的将在聚类启发式的给定步骤合并的突变/变体和/或聚类的缩放的似然的乘积(不受平方根的影响)执行数值积分。在积分的支持下，似然被缩放为数字积分到1。对于SNV和插入/缺失，似然是根据观察到的计数数据的β-二项式模型近似值计算的，该模型近似值为聚类的变体的MAF确定提供信息。β-二项式模型的离差通过可调参数来设置。对于CNV，根据感兴趣的突变的观察到的倍数变化估计值的高斯模型近似来计算似然，高斯模型的可变性也通过可调参数来设置。突变的聚集以新颖的方式进行，使得在一些情况下，通过分层方法进行聚类，其中突变的第一集合被聚集直到满足停止规则，并且然后引入突变的第二集合，并且可能根据相同的相异度度量和停止规则执行进一步的聚集步骤。在一些情况下，在将聚类启发式应用于突变的第二集合之后，以类似的方式引入突变的第三集合。

在图3所示的实施方案中，CHIP过滤器300可以在步骤301对于样品中的每个突变/变体估计缩放的似然函数P_i(R_i)，其中i＝1,...,I_mv是给定样品在两个时间点间观察到的每个独特合格突变/变体的指数，假设观察到总数为I_mv的合格突变/变体。为了便于展示，我们表示对于i^th突变/变体在时间点1观察到的突变/变体计数的数量为以及在基因组位置和时间点1处的计数总数为/>类似地，定义/>和/>但对于时间点2。定义/>和分别为时间点1和2的真实突变/变体等位基因分数。设计启发式以估计并且然后将突变/变体聚类，R_i值可以合理地认为是相同的。启发式的一种实施方案如下：

P_i(R_i)可被确定为：

其中

和

并且

计算c_i，使得跨支持候选r_i值的数值积分P_i(R_i＝r_i)等于1。该示例实施方案假设数据相对于二项式模型不是过度分散的，并且对应于β-二项式模型的更一般的类的特殊情况。

可以以各种方式为R_i计算近似置信区间，包括通过类似最高密度区间的方法，其中P_i(R_i＝r_i)的缩放的似然被认为是R_i的近似后验密度估计值，假设R_i值的不适当的先验分布。

在步骤302，突变/变体的集合可以根据P_i(R_i)逐对聚集。对于所有可能的配对{i′,i^*:i′≠i^*；i′,i^*＝1,2,…,I_mv}，P_i′(R_i′)和P_i*(R_i*)之间的相异度量度D(i′,i^*)，使用修正的Bhattacharyya距离计算。较大的D(i′,i^*)值表明，突变对{i′,i^*}更有可能是来自相同的潜在分数变化分布的实现。因此，具有最大D(·,·)值的一对突变/变体可以合并到单个克隆中，并且该克隆的P_i(R_i)可以被更新。成对聚集可以持续，直到满足停止标准或所有突变/变体都聚集到单个克隆。阈值可以是和/或包括范围从约0.0005到0.005的值。

在步骤303，可以用置信区间报告克隆的数量和时间点之间关联的分数变化。可以鉴定在第一和第二时间点之间具有处于或高于预定阈值的分数变化的克隆。如果鉴定了多于一个克隆，具有接近1的分数变化的克隆和/或具有特定已知CHIP变体的克隆可以被分类为潜在CHIP变体。CHIP变体可以从进一步分析中排除。在一些实施方案中，当变体在至少一个患者样品中被分类为CHIP时，这些变体可以被分类为CHIP变体。

图4显示了CHIP过滤器300的一个示例应用。图4对应于聚集程序的实例。在该实例中，鉴定了三个合格的突变体。图4最左边的图显示R(x轴)支持下每个突变体(y轴)的缩放似然函数。假设对应于每个突变体的缩放似然函数的第一似然性(线403)的突变体是已知的CHIP突变。左图中最相似的突变体用星号标注。中间图显示来自合并左组中克隆的缩放似然函数的第一似然(线403)和第二似然(线401)的结果聚集似然。左图中每个克隆的缩放似然函数的第三似然(线402)具有不被聚集改变的似然函数。右图显示了最终的克隆性。由于第二似然(线401)克隆的组成是50％ CHIP，所以第二似然(线401)克隆可以被鉴定为推定CHIP。这将导致R的最终值仅由第三似然(线402)克隆定义。

在图5所示的一种实施方案中，图5是一个流程图，其示意性地描绘了根据一些实施方案在患有癌症的受试者中鉴定克隆造血变体的示例性方法步骤。如所示，方法500包括根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息，确定多于一个变体中的每一个的肿瘤分数变化P(R)的肿瘤负荷变化(R)，以产生肿瘤负荷变化的集合(步骤501)。此外，方法500还包括从肿瘤负荷变化的集合中鉴定对应于一个或更多个克隆造血变体的一个或更多个抗性特征(步骤502)。

f.MR评分

回到图1，方法100可以继续进行，以在步骤110确定MR评分。在一种实施方案中，在步骤109可以使用与变体过滤后剩余的体细胞变体相关联的MAF值来确定MR评分。在一种实施方案中，可以使用所有体细胞变体的MAF值。在一种实施方案中，可以使用少于所有体细胞变体的MAF值。如在步骤105/106中所描述的，可以根据从在T₀(例如，治疗前)和T₁(例如，治疗中)从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸产生的序列读段来确定多于一种体细胞变体的MAF以产生多于一种体细胞变体中的体细胞变体的第一和第二MAF的集合。MR评分可以表示为分数或百分比。如图6A所示，可以根据方法600来确定MR评分。方法600可以包括在步骤601确定多于一种体细胞变体中体细胞变体的第一MAF和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中的MAF比率的相应标准偏差。在一些实施方案中，标准偏差可以用作报告MR评分的标准。例如，基于至少一个变量的单个标准偏差，MR评分的标准偏差可用于确定样品可评估性的置信区间和随后的截止值。在一些实施方案中，截止值可以为至少0.1、0.15、0.2、0.3、0.4或0.5。在步骤602，对于受试者，可以使用以下公式来确定MAF比率的加权平均值：

其中，对于所述多于一种体细胞变体中的给定体细胞变体，权重为1/范围^2，其中范围是所述多于一种体细胞变体中的给定体细胞变体的第一和第二MAF的值之间的差，并且比率是MAF比率集合中的给定MAF比率。可以使用以下公式来确定置信区间：

MAF比率的加权平均值

其中比率方差为

在一种实施方案中，除了作为MR评分的MAF比率的加权平均值之外或作为其替代，公开了一种方法，该方法基于MAF比率对变体进行聚类，计算该聚类的总MAF比率，并且然后使用单个选定的聚类比率或聚类比率的加权平均值作为MR评分。可以通过组合具有重叠MAF比率分布的变体对或其他聚类方法来进行聚类。单个选定的聚类可以是包含已知癌症驱动物(driver)变体或不存在已知克隆造血变体的聚类。聚类权重还可以取决于已知癌症驱动物变体的存在或最大VAF或聚类中变体的数量。

如图6B所示，可以根据方法610来确定MR评分。方法610可以包括在步骤601确定多于一种体细胞变体中的体细胞变体的第一MAF的加权平均值和第二MAF的加权平均值以及加权MAF比率的相应标准偏差。在一些实施方案中，标准偏差可以用作报告MR评分的标准。例如，基于至少一个变量的单个标准偏差，MR评分的标准偏差可用于确定样品可评估性的置信区间和随后的截止值。在一些实施方案中，截止值可以为至少0.1、0.15、0.2、0.3、0.4或0.5。在步骤612，对于受试者，可以确定MAF的加权平均值的比率。作为比率方差的置信区间。例如，可以使用以下公式来确定置信区间：

R＝A/B:var(R)～＝var(B)/A^2+var(A)*B^2/A^4，

其中A和B分别是在时间点1和时间点2的加权平均MAF。

可以基于证据的强度对聚类进行加权。例如，最大VAF可以指示哪个是主要克隆，非CHIP变体的数量可以对具有更强信号的聚类进行加权；驱动物权重可以增加权重或选择包含特定癌症类型或分子亚型的驱动物的聚类。所应用的加权可以是，例如，对已知是特定癌症类型或分子亚型中驱动物的变体应用更大的权重。在一种实施方案中，权重可以基于最大VAF(任一个样品)、非CHIP变体的数量和/或驱动物权重(肿瘤类型特异性；在配置文件中定义)。在另一种实施方案中，所应用的加权可以是例如对体细胞变体进行同等加权。

在一种实施方案中，分类为分子响应者或分子非响应者可以取决于变体VAF和变体权重。例如，如果MR评分是平均VAF的比率，那么较高的VAF(即，更多的克隆变体)可能占主导地位。如果MR评分使用变体权重，那么具有较高权重的变体(例如，驱动物变体)可能占主导地位。

如图6A所述得到的MAF比率的加权平均值或如图6B所述的MAF的加权平均值的比率是受试者的MR评分。这样的MR评分将MAF的方差并入到分子响应计算中。这确保了分子响应评分包括准确的方差，这有助于从分子响应得出正确的结论。MR评分可以被视为平均MAF的“数值稳定”比率，其基于MAF中的精确度适当地加权MAF中的变化，并且当MAF在检测限(LOD)附近波动时，其不容易受到过度自信和不正确结果的影响。可以将MR评分与阈值进行比较，以确定受试者是否对治疗有响应或对治疗没有响应。阈值可以是和/或包括例如约25％至约75％。在一些实施方案中，加权可以基于VAF精确度(例如，位置、热点区域、覆盖深度等)或该变体对肿瘤重要性的先验知识(例如，已知的驱动物或抗性突变，或不确定(或未知)显著性的变体)。

为了提供简单的实例来说明本文提出的MR评分方法所解决的问题的各个方面，考虑检测到一种变体的受试者，其基线MAF为0.3％(T₀)，并且治疗中MAF为0.1％(T₁)，以及在该变体位置3000个分子的覆盖范围。使用预先存在的方法，分子响应评分将是：对于定义“分子响应者”与“分子无响应者”50％的截止值，该受试者将是“分子响应者”。然而，根据本文描述的方法传播方差导致分子响应评分的期望值约为～30％-40％，但95％置信区间为0％-120％。因此，对于该受试者，分子响应应被视为不可评价，因为无法有把握地评估MR评分是否真正低于或高于50％的截止值。/>

为了提供简单的实例来说明本文提出的MR评分方法所解决的问题的各个方面，考虑检测到两种变体(a和b)的受试者，其基线MAF为a＝0.1％和b＝8.0％(T₀)，并且治疗中MAF为a＝0.3％和b＝2.0％(T₁)。使用预先存在的取比率平均值的方法，分子响应评分将为：平均值对于定义“分子响应者”与“分子无响应者”50％的截止值，该受试者将是“分子无响应者”。然而，根据本文描述的方法使用平均值的比率，分子响应评分将是/>因此，对于本受试者，分子响应应被视为“分子响应者”。

为了提供简单的实例来说明本文提出的MR评分方法所解决的问题的各个方面，考虑检测到两种变体(a和b)的受试者，其基线MAF为a＝0.3％和b＝0.0％(T₀)，并且治疗中MAF为a＝0.0％和b＝0.3％(T₁)。使用预先存在的方法仅评价基线时高于0.3％的变体，分子响应评分将是：对于定义“分子响应者”与“分子无响应者”50％的截止值，该受试者将是“分子响应者”。然而，包括治疗中出现的变体，分子响应评分将是因此，对于本受试者，分子响应应被视为“分子无响应者”。

方法100可以包括至少基于分子响应评分对受试者施用一种或更多种治疗。本文还公开了示例性治疗。在一些实施方案中，方法100包括将患有癌症的受试者的分子响应评分与预定截止点进行比较，以当分子响应评分低于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗(例如，免疫治疗等)有响应，或者当分子响应评分处于或高于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗无响应。在一些实施方案中，方法100包括根据分子响应评分对受试者施用一种或更多种癌症治疗。在一些实施方案中，方法100包括根据分子响应评分，停止对受试者施用一种或更多种癌症治疗。在一些实施方案中，方法100包括使用分子响应评分作为受试者的预后生物标志物和/或预测生物标志物。

在其他示例性实施方案中，通过模拟或从至少一个变体的方差分布中取样，将方差并入到分子响应计算中，以计算分子响应方差。如本文另外公开的，一些应用包括基于变体在肿瘤中的重要性或肿瘤与克隆造血的似然对其进行加权。一些实施方案包括整合多于一个基因组数据源以估计肿瘤分数(而不是仅依赖变体(例如，SNV、插入/缺失和融合)VAF)、覆盖范围(例如，拷贝数)、脱靶覆盖范围和/或甲基化，以及其他基因组数据源。

在一些实施方案中，方法包括使用一个或更多个另外的基因组数据源来确定患有癌症的受试者的分子响应评分。在一些实施方案中，另外的基因组数据源包括以下中的一个或更多个：覆盖范围、脱靶覆盖范围、表观遗传特征、肿瘤突变负荷和/或微卫星不稳定性评分。对于数据源，可以基于该数据源计算肿瘤分数，并且可以跨数据源组合计算的肿瘤分数(例如使用加权平均值，将数据源的置信度并入到该特定样品的肿瘤分数中)，并且然后可以组合样品中的总肿瘤分数估计值以计算总分子响应。在一些实施方案中，表观遗传特征包括cfNA片段长度、位置和/或端点密度分布。在一些实施方案中，表观遗传特征包括由给定靶向基因组区域中的一个或更多个表观遗传基因座表现出的表观遗传状态。在一些实施方案中，表观遗传状态包括甲基化、羟甲基化、乙酰化、泛素化、磷酸化、类泛素化、核糖基化、瓜氨酸化和/或组蛋白翻译后修饰或其他组蛋白变异的存在或不存在。

尽管本方法是在图1以及第一时间T₀和第二时间T₁的上下文中描述的，应当理解，设想了两个以上的时间点，例如用于纵向监测。如图7所示，在第一时间T₀，可以从治疗前从一个或更多个受试者获得的一个或更多个基线样品获得基线cfDNA，并且在第二时间T₁或任何后续时间T_n，可以从治疗后从一个或更多个受试者获得的一个或更多个治疗中样品获得治疗中cfDNA。时间T₁可以是时间T₀之后的任意时间量，例如，以下之间并包括以下的任何时间：1-24小时、1-180天、1-12周、1-25周、1-30周等等。此外，方法100可应用于时间T₀,T₁,…,T_n的任何组合₀。例如，可以在时间T₁和在时间T₂获得样品，其中在两个时间采集的样品都是治疗中样品。在另一实例中，可以在时间T₁和在时间T₂获得样品，其中在时间T₁获取的样品表示治疗中样品并且在时间T₂获取的样品表示结束治疗(off-treatment)样品。

在一种实施方案中，可以基于分子响应评分来调整施用于受试者的治疗的剂量。例如，分子响应评分可以指示受试者对第一治疗没有响应，并且第一治疗的剂量可以因而增加。在一种实施方案中，可以基于分子响应评分来鉴定替代治疗。例如，分子响应评分可以指示受试者对第一治疗没有响应，并且然后受试者可以接受第二治疗来代替或补充第一治疗。在一种实施方案中，可以为临床试验中的受试者确定分子响应评分，其中可以为接受安慰剂的受试者和接受治疗的受试者确定分子响应评分。可比较两类受试者的分子响应评分以评估治疗。

在另一个实例中，安慰剂和治疗可以推广到比较药物不同的组合的临床试验的两个分支。阈值或截止值可以特定于用例(use case)：用例可以需要清除(MR＝0)，或者用例可以需要ctDNA水平的某个水平的降低或增加。

图8显示了分子响应评分用于患者分层的示例实际应用。晚期癌症患者可以具有在治疗前的时间T₀确定的基线MAF。在治疗4-10周后，晚期癌症患者可以具有在时间T₁确定的治疗中MAF。所得的分子响应评分可能表明患者中的ctDNA减少，在这种情况下，患者应继续接受主要试验药物的治疗。所得的分子响应评分可能表明患者中的ctDNA增加，在这种情况下，如果患者在对照组中，患者应继续用主要试验药物(或安慰剂)进行治疗。否则，如果患者体内的ctDNA增加，患者应在其治疗方案中增加一种或更多种治疗、改变治疗或改变主要试验药物的剂量。

图9显示了分子响应评分用于临床试验富集的示例实际应用。有资格进行标准护理(SOC)治疗的晚期癌症患者可以具有在SOC治疗之前的时间T₀确定的基线MAF。在SOC治疗4-10周后，晚期癌症患者可以具有在时间T₁确定的治疗中MAF。所得的分子响应评分可能表明患者中的ctDNA减少，在这种情况下，患者应继续接受SOC治疗。所得的分子响应评分可能表明患者中的ctDNA增加，在这种情况下，可以确定患者有资格用临床试验药物进行治疗。

图10显示了分子响应评分用于在EGFR-阳性非小细胞肺癌(NSCLC)患者的奥希替尼(osimertinib)+/-化疗的MSKCC试验中前瞻性患者分层和升级的示例实际应用。新诊断的EGFR-阳性NSCLC患者可以具有在使用奥希替尼之前的时间T₀确定的基线MAF。在1个周期的奥希替尼治疗后，患者可以具有在奥希替尼治疗周期2的第1天确定的治疗中MAF。所得的仅基于EGFR驱动物的分子响应评分可能表明未检测到EGFR驱动物，在这种情况下，患者应继续仅使用奥希替尼治疗。所得的仅基于EGFR驱动物的分子响应评分可能表明检测到了EGFR驱动物，在这种情况下，患者应继续接受奥西替尼、卡铂和培美曲塞治疗。

这些方法的各个方面将在图11中进一步说明。如所示，方法1100包括根据从在第一(例如，治疗前)和第二(例如，治疗中)时间点从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息确定多于一个变体的突变等位基因频率(MAF)，以产生多于一个变体中的变体的第一和第二MAF的集合(步骤1101)。方法1100还包括计算多于一个变体中的变体的第一和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中的MAF比率的相应标准偏差(步骤1102)。此外，方法1100还包括计算MAF比率的加权平均值(步骤1103)和置信区间，以确定患有癌症的受试者的分子响应评分。

在一些实施方案中，方法1100包括将患有癌症的受试者的分子响应评分与预定截止点进行比较，以当分子响应评分低于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗(例如，免疫治疗等)有响应，或者当分子响应评分处于或高于预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗无响应。在一些实施方案中，方法1100包括根据分子响应评分对受试者施用一种或更多种癌症治疗。在一些实施方案中，方法1100包括根据分子响应评分，停止对受试者施用一种或更多种癌症治疗。在一些实施方案中，方法1100包括使用分子响应评分作为受试者的预后生物标志物和/或预测生物标志物。

在一些实施方案中，方法1100包括使用分子计数来计算MAF比率集合中的MAF比率的标准偏差。在一些实施方案中，方法1100包括通过MAF比率集合中的MAF比率传播方差。在一些实施方案中，方法1100包括在为多于一个变体确定突变等位基因频率(MAF)时排除一个或更多个种系和/或克隆造血变体。本文进一步描述了排除种系和CHIP变体的方法的实例。在一些实施方案中，方法1100包括排除在第一和/或第二时间点具有小于约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％或0.9％的MAF的一个或更多个体细胞变体。在一些实施方案中，该方法包括排除在第一和/或第二时间点具有少于5、10、15、20、25或30突变分子计数的一个或更多个体细胞变体。在一些实施方案中，该方法包括排除在第一和/或第二时间点具有小于300、400、500、600、700、800、900或1000的覆盖范围的一个或更多个体细胞变体。在这些实施方案的一些中，第一时间点包括治疗前时间点，并且其中第二时间点包括治疗时或治疗后时间点。

在一些实施方案中，对于多于一个变体中的变体，该比率包括第二MAF与第一MAF的比率。在一些实施方案中，方法1100包括使用以下公式计算MAF比率的加权平均值：

总和[权重*比率]/总和[权重]，

其中对于多于一个变体中的给定变体，权重为1/范围²，其中范围是多于一个变体中的给定变体的第一和第二MAF的值之间的差，并且比率是MAF比率集合中的给定MAF比率。在一些实施方案中，方法1100包括使用以下公式计算置信区间：

MAF比率的加权平均值+/-sqrt[比率方差]，

其中比率方差为1/总和[权重]。

在一些实施方案中，变体包括一种或更多种单核苷酸变体(SNV)、插入/缺失突变(插入/缺失)、基因扩增和/或基因融合。在一些实施方案中，方法1100包括使用一个或更多个另外的基因组数据源来确定患有癌症的受试者的分子响应评分。在一些实施方案中，另外的基因组数据源包括以下的一个或更多个：覆盖范围、脱靶覆盖范围、表观遗传特征和/或微卫星不稳定性评分。在一些实施方案中，表观遗传特征包括cfNA片段长度、位置和/或端点密度分布。在一些实施方案中，表观遗传特征包括由给定靶向基因组区域中的一个或更多个表观遗传基因座表现出的表观遗传状态。在一些实施方案中，表观遗传状态包括甲基化、羟甲基化、乙酰化、泛素化、磷酸化、类泛素化、核糖基化、瓜氨酸化和/或组蛋白翻译后修饰或其他组蛋白变异的存在或不存在。

为了进一步说明，图12A是示意性描绘示例方法1200的流程图。如所示，方法1200包括根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息确定多于一个变体的突变等位基因频率(MAF)，以产生多于一个变体中的变体的第一和第二MAF的集合(步骤1201)。方法1200还包括计算多于一个变体中的变体的第一和第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中MAF比率的相应标准偏差(步骤1202)，并计算MAF比率的加权平均值和置信区间，以确定受试者的分子响应评分(步骤1203)。在一些实施方案中，标准偏差可以用作置信区间的估计。在一些实施方案中，标准偏差可以用作报告分子响应评分的标准。此外，方法1200还包括基于至少分子响应评分对受试者施用一种或更多种治疗(步骤1204)。本文还公开了示例性治疗。

图12B是示意性描绘示例方法1210的流程图。如所示，方法1210包括根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息确定多于一个变体的突变等位基因频率(MAF)，以产生多于一个变体中的变体的第一和第二MAF的集合(步骤1211)。方法1210包括在步骤1212确定从针对时间点(即，第一时间点和第二时间点)考虑的体细胞变体的MAF获得的中心趋势度量。应当理解，中心趋势度量可以是但不限于平均值、中值或众数之一。方法1210包括在步骤1213确定在第一时间点的中心趋势度量与在第二时间点的中心趋势度量的比率。方法1210可以包括使用所考虑的MAF的标准偏差来计算中心趋势比的标准偏差。在一些实施方案中，中心趋势度量可以是平均值或中值。在一些实施方案中，中心趋势度量可以是平均值。在一些实施方案中，中心趋势度量可以是中值。在一些实施方案中，方法1210包括在步骤1212确定针对每个时间点(即，第一时间点和第二时间点)考虑的体细胞变体的MAF的平均值；在步骤1213计算在第一时间点获得的平均值与在第二时间点获得的平均值的比率，并使用所考虑的每个MAF的标准偏差来计算平均比率的标准偏差。在一些实施方案中，分子响应评分可以根据在第一时间点获得的平均值与在第二时间点获得的平均值的比率来计算。在一些实施方案中，方法1210包括在步骤1212确定针对每个时间点(即，第一时间点和第二时间点)考虑的体细胞变体的MAF的中值；在步骤1213计算在第一时间点获得的中值与在第二时间点获得的中值的比率，并使用所考虑的每个MAF的标准偏差来计算中值比率的标准偏差。在一些实施方案中，分子响应评分可以根据在第一时间点获得的中值与在第二时间点获得的中值的比率来计算。在一些实施方案中，标准偏差可以用作置信区间的估计。在一些实施方案中，标准偏差可以用作报告分子响应评分的标准。此外，方法1210还包括基于至少分子响应评分对受试者施用一种或更多种治疗(步骤1214)。本文还公开了示例性治疗。

通常，确定分子响应评分的方法包括过滤掉CHIP变体。例如，分子响应通常通过基因组改变(例如，两个时间点之间的小变异)的等位基因频率来测量，以代表肿瘤分数变化。鉴于cfDNA信号是来自基本上任何细胞类型(包括肿瘤、血细胞等)的信号的集合，大量研究已经表明在cfDNA样品中存在潜能未定克隆性造血(CHIP)变体。CHIP过滤的常见方法经常利用由各种数据源策划的重复出现的CHIP基因或热点。然而，仅用血浆方法鉴定随机CHIP突变仍然是一个挑战。残留的未过滤CHIP变体通常将分数变化偏向1(不变)，并且从而产生不准确的分子响应预测或评分。因此，在一些实施方案中，本文公开的方法使用模型来利用两个时间点之间的观察结果，以聚类具有单独分数变化的克隆中的基因组突变。为了对突变进行分组，这些方法通常利用两个时间点的变体的变体等位基因计数和总计数，并建立肿瘤分数变化R的概率密度函数为P(R)。

作为进一步的说明，图13是一个流程图，其示意性地描绘了根据一些实施方案在患有癌症的受试者中鉴定克隆造血变体的示例性方法步骤。如所示，方法1300包括根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息，计算多于一个变体中的变体的肿瘤分数变化的概率密度函数P(R)(步骤1301)。如另外所示，方法1300还包括按照P(R)将一个或更多个变体分组到一个或更多个克隆中(步骤1302)，为克隆中的克隆生成更新的P(R)(步骤1303)，以及鉴定在第一和第二时间点之间具有处于或高于预定阈值的分数变化的一个或更多个克隆(步骤1304)。

在另一方面，本公开内容提供了在确定分子响应评分时鉴定和排除种系变体或以其他方式解决体细胞分类差异的方法。例如，一个问题是，在患者治疗过程中收集的样品通常具有不同水平的肿瘤脱落和等位基因不平衡，这意味着给定生物信息学管道的体细胞变体调用者有时会对同一患者的同一变体进行不同的体细胞分类。由于分子响应确定的目的是在治疗过程中追踪体细胞变体，因此应解决任何分类差异，以适当地将种系变体从考虑中去除。

为了说明，图14是流程图，其示意性地描绘了根据一些实施方案在患有癌症的受试者中鉴定变体的示例性方法步骤。如所示，方法1400包括根据从自受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息确定给定变体的突变等位基因频率(MAF)(步骤1401)。方法1400可以利用给定变体的确定的MAF来将给定变体鉴定为种系或体细胞变体。在一些实施方案中，方法1400可以利用给定变体的基线MAF和随后的治疗中MAF来将给定变体分类或改变先前的分类为种系或体细胞变体。方法1400还可以包括当给定变体的MAF增加了包括二倍体基因的最大分数(max frac_diploid)(即，最小等位基因不平衡)的样品的最大MAF(在至少两个时间点之一)时和/或当给定变体的MAF是从受试者或另一患者样品获得的样品确定的一个或更多个其他MAF(例如，样品中的最大MAF)至少约两倍大、三倍大、四倍大、五倍大、六倍大、七倍大、八倍大、九倍大或至少10倍大时，鉴定给定变体是种系变体。在一些实施方案中，当给定变体在至少两个时间点之一中没有提高样品的最大MAF(例如，与另一MAF相比)并且max frac_diploid是体细胞时，该给定变体被分类为体细胞。在一些实施方案中，当给定变体确实提高最大MAF并且具有max frac_diploid的样品是种系时，给定变体被分类为种系。在一些实施方案中，方法1400包括当给定变体被确定为肿瘤抑制基因(TSG)中的有害变体(例如，移码或无义突变)时，将该变体分类为体细胞变体。在一些实施方案中，当在任何给定样品中观察到小于约1％、2％、3％、4％、5％、6％、7％、8％或9％时，给定变体被分类为体细胞变体。在一些实施方案中，当相关差异未通过方法1400解决时，给定的变体被分类为种系。在这些实施方案中，该变体在当确定给定的分子响应评分时通常被从进一步考虑中去除。在一些实施方案中，当变体在至少一个患者样品中被分类为CHIP时，这些变体被分类为CHIP变体。

图15是示意性描绘方法1500的流程图，该方法1500包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤1501)。如另外所示，方法1500还包括将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1502)，确定MAF比率(步骤1503)，确定MAF比率的加权平均值(步骤1504)，确定与MAF比率的加权平均值相关的置信区间(步骤1505)，以及输出MAF比率的加权平均值和置信区间(步骤1506)。应当理解，第一多于一个序列读段可以在施用治疗之前确定，并且第二多于一个序列读段可以在施用治疗之后确定。在步骤1502将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。还应当理解，MAF比率的确定(步骤1503)可以针对被分类为体细胞的多于一个变体中的至少一个变体并基于第一MAF和第二MAF来确定。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。还应当理解，MAF比率的加权平均值的确定(步骤1504)可以是针对受试者的。此外，应当理解，与MAF比率的加权平均值相关的置信区间的确定(步骤1505)可以是基于MAF比率的加权平均值。最后，应当理解，MAF比率的加权平均值和置信区间可以作为分子响应评分输出。

图16是示意性描绘方法1600的流程图，该方法1600包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤1601)。如另外所示，方法1600还包括将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1602)，确定第一MAF的加权平均值和第二MAF的加权平均值(步骤1603)，确定第一MAF的加权平均值和第二MAF的加权平均值的比率(步骤1604)，确定置信区间(步骤1605)，以及输出第一MAF的加权平均值和第二MAF的加权平均值的比率与置信区间(步骤1606)。应当理解，第一多于一个序列读段可以在施用治疗之前确定，并且第二多于一个序列读段可以在施用治疗之后确定。在步骤1602将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。还应当理解，第一MAF的加权平均值和第二MAF的加权平均值的确定(步骤1603)可以针对被分类为体细胞的多于一个变体中的至少一个变体并基于第一MAF和第二MAF来确定。还应当理解，确定第一MAF的加权平均值和第二MAF的加权平均值的比率(步骤1604)可以是针对受试者的。此外，应当理解，置信区间的确定(步骤1605)可以基于第一MAF的加权平均值和第二MAF的加权平均值的比率。最后，应当理解，第一MAF的加权平均值和第二MAF的加权平均值的比率以及置信区间可以作为分子响应评分输出。

图17是示意性描绘方法1700的流程图，该方法1700包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤1701)。如另外所示，方法1700还包括将第一多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1702)，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1703)，重新分类多于一个变体中的至少一个变体以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异(步骤1704)，确定第一突变等位基因分数(MAF)(步骤1705)，确定第二MAF(步骤1706)，以及确定分子响应评分(1707)。应当理解，第一多于一个序列读段可以在施用治疗之前确定，并且第二多于一个序列读段可以在施用治疗之后确定。在步骤1703将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。还应当理解，第一MAF的确定(步骤1705)可以针对被分类为体细胞的多于一个变体中的至少一个变体，并且基于第一多于一个序列读段的至少一部分。还应当理解，第二MAF的确定(步骤1706)可以针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且基于第二多于一个序列读段的至少一部分。最后，应当理解，可以基于第一MAF和第二MAF来确定分子响应。

图18是示意性描绘方法1800的流程图，该方法1800包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤1801)。如另外所示，方法1800还包括将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1802)，将多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体(步骤1803)，去除至少一个CHIP变体(步骤1804)，确定第一突变等位基因分数(MAF)(步骤1805)，确定第二MAF(步骤1806)，以及确定分子响应评分(步骤1807)。应当理解，第一多于一个序列读段可以在施用治疗之前确定，并且第二多于一个序列读段可以在施用治疗之后确定。在步骤1802将第一多于一个序列读段和第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。还应当理解，至少一个CHIP变体的去除(步骤1804)可以来自多于一个变体。还应当理解，第一MAF的确定(步骤1805)可以是针对被分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第一多于一个序列读段的至少一部分。还应当理解，第二MAF的确定(步骤1806)可以是针对被分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第二多于一个序列读段的至少一部分。最后，应当理解，分子响应评分的确定(步骤1807)可以基于第一MAF和第二MAF。

图19是示意性描绘方法1900的流程图，该方法1900包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤1901)。如另外所示，方法1900还包括将第一多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1902)，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤1903)，将多于一个变体中的至少一个变体重新分类以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异(步骤1904)，将多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体(步骤1905)，去除至少一个CHIP变体(步骤1906)，确定第一突变等位基因分数(MAF)(步骤1907)，确定第二MAF(步骤1908)，确定MAF比率(步骤1909)，确定MAF比率的加权平均值(步骤1910)，确定与MAF比率的加权平均值相关的置信区间(步骤1911)，并输出MAF比率的加权平均值和置信区间(步骤1912)。应当理解，第一多于一个序列读段可以在施用治疗之前确定，并且第二多于一个序列读段可以在施用治疗之后确定。在步骤1902将第一多于一个序列读段中的多于一个变体分类以及在步骤1903将第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。还应当理解，至少一个CHIP变体的去除(步骤1906)可以来自多于一个变体。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。分类差异可以是变体在第一多于一个序列读段中被分类为体细胞而在第二多于一个序列读段中被分类为种系。分类差异可以是变体在第一多于一个序列读段中被分类为种系而在第二多于一个序列读段中被分类为体细胞。还应当理解，第一MAF的确定(步骤1907)可以是针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第一多于一个序列读段的至少一部分。还应当理解，第二MAF的确定(1908)可以是针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第二多于一个序列读段的至少一部分。还应当理解，MAF比率的确定(1909)可以是针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第一突变等位基因分数和第二突变等位基因分数。还应当理解，MAF比率的确定(步骤1910)可以是针对受试者的。此外，应当理解，与MAF比率的加权平均值相关的置信区间的确定(步骤1911)可以是基于MAF比率的加权平均值。最后，应当理解，MAF比率的加权平均值和置信区间可以作为分子响应评分输出。

图20是示意性描绘方法2000的流程图，该方法2000包括确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段(步骤2001)。如另外所示，方法2000还包括将第一多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤2002)，将第二多于一个序列读段中的多于一个变体分类为体细胞或种系(步骤2003)，将多于一个变体中的至少一个变体重新分类以解决第一多于一个序列读段和第二多于一个序列读段之间的分类差异(步骤2004)，将多于一个变体中的至少一个变体确定为潜能未定克隆性造血(CHIP)变体(步骤2005)，去除至少一个CHIP变体(步骤2006)，确定第一突变等位基因分数(MAF)(步骤2007)，确定第二MAF(步骤2008)，确定第一MAF的加权平均值和第二MAF的加权平均值(步骤2009)，确定第一MAF的加权平均值与第二MAF的加权平均值的比率(步骤2010)，确定置信区间(2011)，并输出第一MAF的加权平均值和第二MAF的加权平均值的比率与置信区间(步骤2012)。应当理解，第一多于一个序列读段在施用治疗之前确定，并且第二多于一个序列读段在施用治疗之后确定。在步骤2002将第一多于一个序列读段中的多于一个变体分类以及在步骤2003将第二多于一个序列读段中的多于一个变体分类为体细胞或种系可以如本文所述执行，例如如关于图2描述的。在一种实施方案中，多于一个变体中的至少两个变体被分类为体细胞。还应当理解，至少一个CHIP变体的去除(步骤2006)可以来自多于一个变体。第一MAF可以在治疗前的时间使用第一多于一个序列读段中的变体来确定，并且第二MAF可以在治疗后的时间使用第二多于一个序列读段中的相同变体来确定。可以为第一多于一个序列读段和第二多于一个序列读段中相同的变体确定第一MAF和第二MAF。还应当理解，第一MAF的确定(步骤2007)可以是针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第一多于一个序列读段的至少一部分。还应当理解，第二MAF的确定(步骤2008)可以是针对被分类或重新分类为体细胞的多于一个变体中的至少一个变体，并且可以是基于第二多于一个序列读段的至少一部分。还应当理解，第一MAF的加权平均值和第二MAF的加权平均值的确定(步骤2009)可以是针对被分类为体细胞的多于一个变体中的至少一个变体并且可以是基于第一MAF和第二MAF。还应当理解，确定第一MAF的加权平均值和第二MAF的加权平均值的比率(步骤2010)可以是针对受试者的。此外，应当理解，置信区间的确定(步骤2011)可以是基于第一MAF的加权平均值和第二MAF的加权平均值的比率。最后，应当理解，第一MAF的加权平均值和第二MAF的加权平均值的比率以及置信区间可以作为分子响应评分输出。

III.癌症和其他疾病

在某些实施方案中，本文公开的方法和方面用于对患有给定疾病、病症或状况的患者进行纵向监测。公开的方法可用于随时间追踪患者对一种或更多种治疗的响应。通常，所考虑的疾病是一种癌症。这种癌症的非限制性实例包括胆道癌、膀胱癌、移行细胞癌、尿路上皮癌、脑癌、神经胶质瘤、星形细胞瘤、乳腺癌、化生性癌、宫颈癌、宫颈鳞状细胞癌、直肠癌、结肠直肠癌、结肠癌、遗传性非息肉性结肠直肠癌、结肠直肠腺癌、胃肠间质瘤(GIST)、子宫内膜癌、子宫内膜间质肉瘤、食管癌、食管鳞状细胞癌、食管腺癌、眼黑色素瘤、葡萄膜黑色素瘤、胆囊癌、胆囊腺癌、肾细胞癌、透明细胞肾细胞癌、移行细胞癌、尿路上皮癌、肾母细胞瘤、白血病、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞白血病(CML)、慢性髓单核细胞白血病(CMML)、肝癌、肝上皮癌、肝细胞癌、胆管癌、肝母细胞瘤、肺癌、非小细胞肺癌(NSCLC)、间皮瘤、B细胞淋巴瘤、非霍奇金淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、T细胞淋巴瘤、非霍奇金淋巴瘤、前体T淋巴母细胞性淋巴瘤/白血病、外周T细胞淋巴瘤、多发性骨髓瘤、鼻咽癌(NPC)、成神经细胞瘤、口腔癌、口腔鳞状细胞癌、骨肉瘤、卵巢癌、胰腺癌、胰腺导管腺癌、假乳头状肿瘤、腺泡细胞癌、前列腺癌、前列腺腺癌、皮肤癌、黑色素瘤、恶性黑色素瘤、皮肤黑色素瘤、小肠癌、胃癌、胃上皮癌、胃肠间质瘤(GIST)、子宫癌或子宫肉瘤。

使用本文公开的方法和系统任选地评价的其他基于遗传的疾病、病症或状况的非限制性实例包括软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、孤独症、常染色体显性多囊肾病、沙尔科-马里-图思病(Charcot-Marie-Tooth,CMT)、猫叫综合征、克罗恩病、囊性纤维化、德卡姆病(Dercum disease)、唐氏综合征、Duane综合征、杜兴氏肌营养不良症、因子V Leiden易栓症、家族性高胆固醇血症、家族性地中海热、脆性X综合征、戈谢病、血色素沉着症、血友病、前脑无裂畸形(holoprosencephaly)、亨廷顿病、克兰费尔特综合征、马方综合征、强直性肌营养不良、神经纤维瘤病、努南综合征、成骨不全、帕金森病、苯丙酮尿症、Poland异常、卟啉症、早老症、视网膜色素变性、重症联合免疫缺陷(scid)、镰状细胞病、脊髓性肌萎缩症、Tay-Sachs、地中海贫血、三甲基胺尿症、特纳综合征、颚心脸综合征(velocardiofacial syndrome)、WAGR综合征、威尔逊病等。

IV.定制治疗和相关施用

在一些实施方案中，本文公开的方法涉及鉴定具有给定的疾病、病症或状况的患者以及向所述患者施用治疗。基本上任何癌症治疗(例如，外科治疗、放射治疗、化疗等等)被包括作为这些方法的部分。在某些实施方案中，施用于受试者的治疗可包括至少一种化疗药物。在一些实施方案中，化疗药物可以包含烷化剂(例如但不限于苯丁酸氮芥、环磷酰胺、顺铂和卡铂)、亚硝脲(例如但不限于卡莫司汀和洛莫司汀)、抗代谢物(例如但不限于氟尿嘧啶、甲氨蝶呤和氟达拉滨)、植物生物碱和天然产物(例如但不限于长春新碱、紫杉醇和拓扑替康)、抗肿瘤抗生素(例如但不限于博莱霉素、多柔比星和米托蒽醌)、激素剂(例如但不限于泼尼松、地塞米松、他莫昔芬和亮丙立德)和生物响应调节剂(例如但不限于赫赛汀和阿瓦斯丁、爱必妥(Erbitux)和利妥昔单抗)。在一些实施方案中，施用于受试者的化疗可以包括FOLFOX或FOLFIRI。在某些实施方案中，可以对受试者施用包含至少一种PARP抑制剂的治疗。在某些实施方案中，PARP抑制剂可包括OLAPARIB、TALAZOPARIB、RUCAPARIB、NIRAPARIB(商品名ZEJULA)等。通常，治疗包括至少一种免疫治疗(或免疫治疗剂)。免疫治疗通常指增强针对给定癌症类型的免疫应答的方法。在某些实施方案中，免疫治疗是指增强针对肿瘤或癌症的T细胞应答的方法。

在一些实施方案中，免疫治疗或免疫治疗剂靶向免疫检查点分子。某些肿瘤能够通过选择免疫检查点途径来逃避免疫系统。因此，靶向免疫检查点已经成为对抗肿瘤逃避免疫系统的能力和激活针对某些癌症的抗肿瘤免疫的有效方法。Pardoll,Nature ReviewsCancer,2012,12:252-264。

在某些实施方案中，免疫检查点分子是抑制性分子，其减少T细胞对抗原的应答中涉及的信号。例如，CTLA4在T细胞上表达，并通过结合抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)在下调T细胞活化中起作用。PD-1是另一种在T细胞上表达的抑制性检查点分子。PD-1在炎性应答期间限制外周组织中T细胞的活性。此外，PD-1的配体(PD-L1或PD-L2)通常在许多不同肿瘤的表面上上调，导致肿瘤微环境中抗肿瘤免疫应答的下调。在某些实施方案中，抑制性免疫检查点分子是CTLA4或PD-1。在其他实施方案中，抑制性免疫检查点分子是PD-1的配体，诸如PD-L1或PD-L2。在其他实施方案中，抑制性免疫检查点分子是CTLA4的配体，诸如CD80或CD86。在其他实施方案中，抑制性免疫检查点分子是淋巴细胞活化基因3(LAG3)、杀伤细胞免疫球蛋白样受体(KIR)、T细胞膜蛋白3(TIM3)、半乳凝素9(GAL9)或腺苷A2a受体(A2aR)。

靶向这些免疫检查点分子的拮抗剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此，在某些实施方案中，免疫治疗或免疫治疗剂是抑制性免疫检查点分子的拮抗剂。在某些实施方案中，抑制性免疫检查点分子是PD-1。在某些实施方案中，抑制性免疫检查点分子是PD-L1。在某些实施方案中，抑制性免疫检查点分子的拮抗剂是抗体(例如，单克隆抗体)。在某些实施方案中，抗体或单克隆抗体是抗CTLA4、抗PD-1、抗PD-L1或抗PD-L2抗体。在某些实施方案中，抗体是单克隆抗PD-1抗体。在某些实施方案中，抗体是单克隆抗PD-L1抗体。在某些实施方案中，单克隆抗体是抗CTLA4抗体和抗PD-1抗体、抗CTLA4抗体和抗PD-L1抗体、或抗PD-L1抗体和抗PD-1抗体的组合。在某些实施方案中，抗PD-1抗体是pembrolizumab或纳武利尤单抗/>中的一种或更多种。在某些实施方案中，抗CTLA4抗体是易普利姆玛/>在某些实施方案中，抗PD-L1抗体是阿特珠单抗(atezolizumab)/>avelumab/>或durvalumab/>中的一种或更多种。/>

在某些实施方案中，免疫治疗或免疫治疗剂是针对CD80、CD86、LAG3、KIR、TIM3、GAL9或A2aR的拮抗剂(例如抗体)。在其他实施方案中，拮抗剂是抑制性免疫检查点分子的可溶性形式，诸如包含抑制性免疫检查点分子的细胞外结构域和抗体的Fc结构域的可溶性融合蛋白。在某些实施方案中，可溶性融合蛋白包含CTLA4、PD-1、PD-L1或PD-L2的细胞外结构域。在一些实施方案中，可溶性融合蛋白包含CD80、CD86、LAG3、KIR、TIM3、GAL9或A2aR的细胞外结构域。在一种实施方案中，可溶性融合蛋白包含PD-L2或LAG3的细胞外结构域。

在某些实施方案中，免疫检查点分子是共刺激分子，其放大T细胞对抗原的应答中涉及的信号。例如，CD28是一种在T细胞上表达的共刺激受体。当T细胞通过其T细胞受体与抗原结合时，CD28与抗原呈递细胞上的CD80(又名B7.1)或CD86(又名B7.2)结合，以放大T细胞受体信号传导并促进T细胞活化。因为CD28与CTLA4结合相同的配体(CD80和CD86)，CTLA4能够抵消或调节由CD28介导的共刺激信号传导。在某些实施方案中，免疫检查点分子是选自CD28、诱导性T细胞共刺激因子(ICOS)、CD137、OX40或CD27的共刺激分子。在其他实施方案中，免疫检查点分子是包括例如CD80、CD86、B7RP1、B7-H3、B7-H4、CD137L、OX40L或CD70的共刺激分子的配体。

靶向这些共刺激检查点分子的激动剂可用于增强针对某些癌症的抗原特异性T细胞应答。因此，在某些实施方案中，免疫治疗或免疫治疗剂是共刺激检查点分子的激动剂。在某些实施方案中，共刺激检查点分子的激动剂是激动剂抗体，并且优选地是单克隆抗体。在某些实施方案中，激动剂抗体或单克隆抗体是抗CD28抗体。在其他实施方案中，激动剂抗体或单克隆抗体是抗ICOS、抗CD137、抗OX40或抗CD27抗体。在其他实施方案中，激动剂抗体或单克隆抗体是抗CD80、抗CD86、抗B7RP1、抗B7-H3、抗B7-H4、抗CD137L、抗OX40L或抗CD70抗体。

用于治疗除了癌症之外的特定的基于遗传的疾病、病症或状况的治疗选项通常是本领域普通技术人员熟知的，并且鉴于所考虑的特定疾病、病症或状况将是明显的。

在某些实施方案中，本文所述的定制治疗通常肠胃外(例如，静脉内或皮下)施用。含有免疫治疗剂的药物组合物通常静脉内施用。某些治疗剂口服施用。然而，定制治疗(例如，免疫治疗剂等)也可以通过本领域已知的任何方法施用，包括例如口腔施用、舌下施用、直肠施用、阴道施用、尿道内施用、局部施用、眼内施用、鼻内施用和/或心房内施用，这些施用可以包括片剂、胶囊、颗粒、水性悬浮液、凝胶、喷雾剂、栓剂、药膏(salves)、软膏(ointments)等。

V.系统和计算机可读介质

本公开内容还提供了各种系统和计算机程序产品或机器可读介质。例如，在一些实施方案中，至少部分地使用系统、分布式计算硬件和应用(例如，云计算服务)、电子通信网络、通信接口、计算机程序产品、机器可读介质、电子存储介质、软件(例如，机器可执行代码或逻辑指令)等来任选地执行或促进本文描述的方法。为了说明，图21提供了适合用于实现本申请中公开的方法的至少一些方面的示例性系统的示意图。如图所示，系统2100包括至少一个控制器或计算机，例如服务器2102(例如搜索引擎服务器)，其包括处理器2104和存储器、存储设备或存储器组件2106，以及位于远离远程服务器2102的位置，并通过电子通信网络2112(诸如因特网或其他互联网络)与远程服务器2102通信的一个或更多个其他通信设备2114和2116(例如客户端计算机终端、电话、平板电脑、笔记本电脑、其他移动设备等)。通信设备2114和2116通常包括通过网络2112与例如服务器2102计算机通信的电子显示器(例如，支持互联网的计算机等)，其中该电子显示器包括用于在实现本文描述的方法时显示结果的用户界面(例如，图形用户界面(GUI)、基于网络的用户界面等)。在某些实施方案中，通信网络还包括例如使用硬盘驱动器、拇指驱动器或其他数据存储机制将数据从一个位置物理传输到另一个位置。系统2100还包括存储在计算机或机器可读介质上的程序产品1508，诸如例如一个或更多个各种类型的存储器，诸如服务器2102的存储器2106，其可由服务器2102读取，以便于例如引导搜索应用或可由一个或更多个其他通信设备诸如2114(示意性地示出为台式或个人计算机)和2116(示意性地示出为平板计算机)执行的其他应用。在一些实施方案中，系统2100任选地还包括至少一个数据库服务器，诸如例如，与在线网站相关联的服务器2110，该在线网站具有存储在其上的数据(例如，分类器评分、对照样品或比较器结果数据、索引定制治疗等)，可直接或通过搜索引擎服务器2102搜索。系统2100任选地还包括一个或更多个远离服务器2102放置的其他服务器，每个服务器任选地与一个或更多个远离或位于每个其他服务器本地的数据库服务器2110相关联。其他服务器可以有益地向地理上远程的用户提供服务，并增强地理上分布式的操作。

如本领域普通技术人员所理解的，服务器2102的存储器2106任选地包括易失性和/或非易失性存储器，包括例如RAM、ROM和磁盘或光盘等。本领域的普通技术人员还应当理解，尽管被示为单个服务器，但是所示的服务器2102的配置仅作为示例给出，并且也可以使用根据各种其他方法或架构配置的其他类型的服务器或计算机。图21中示意性示出的服务器2102代表服务器或服务器集群(server cluster)或服务器场(server farm)，并且不限于任何单独的物理服务器。服务器站点可以部署为由服务器托管提供商管理的服务器场或服务器集群。服务器的数量及其架构和配置可以基于系统2100的使用、需求和容量要求而增加。如本领域普通技术人员也理解的，这些实施方案中的其他用户通信设备2114和2116例如可以是笔记本电脑、台式电脑、平板电脑、个人数字助理(PDA)、手机、服务器或其他类型的计算机。如本领域普通技术人员所知和理解的，网络2112可以包括因特网、内联网、远程通信网络、外联网或多于一个计算机/服务器的万维网，这些计算机/服务器通过通信网络与一个或更多个其他计算机通信，和/或本地网或其他局域网的部分。

如本领域普通技术人员进一步理解的，示例性程序产品或机器可读介质2108任选地是微码、程序、云计算格式、例程(routines)和/或符号语言的形式，其提供有序操作的一个或更多个集合，这些有序操作控制硬件的功能并指导其操作。根据示例性实施方案，程序产品2108也不需要全部驻留在易失性存储器中，而是可以根据本领域普通技术人员已知和理解的各种方法，根据需要选择性地加载。

如本领域普通技术人员进一步理解的，术语“计算机可读介质”或“机器可读介质”是指参与向处理器提供指令以供执行的任何介质。为了说明，术语“计算机可读介质”或“机器可读介质”包括分发介质、云计算格式、中间存储介质、计算机的执行存储器以及能够存储实现本公开内容的各种实施方案的功能或过程的程序产品2108的任何其他介质或设备，例如，用于由计算机读取。“计算机可读介质”或“机器可读介质”可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘。易失性介质包括动态存储器，诸如给定系统的主存储器。传输介质包括同轴电缆、铜线和光纤，包括构成总线的导线。传输介质也可以采用声波或光波的形式，诸如在无线电波和红外数据通信等期间产生的声波或光波。计算机可读介质的示例形式包括软盘(floppy disk)、软性磁盘(flexibledisk)、硬盘、磁带、闪存盘或任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔模式的任何其他物理存储介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、载波、或者计算机可以从其读取的任何其他介质。

程序产品2108任选地从计算机可读介质复制到硬盘或类似的中间存储介质。当要运行程序产品2108或其部分时，它任选地从它们的分发介质、它们的中间存储介质等加载到一个或更多个计算机的执行存储器中，配置计算机以根据各种实施方案的功能或方法来操作。所有这类操作是例如计算机系统领域普通技术人员熟知的。

为了进一步说明，在某些实施方案中，本申请提供了包括一个或更多个处理器以及与处理器通信的一个或更多个存储器组件的系统。存储器组件通常包括一个或更多个指令，这些指令在被实施时使得处理器提供使得序列信息、表观遗传信息、分类器评分、cfDNA属性数据、cfDNA片段分布集数据、测试结果、对照或比较器结果、定制治疗等被显示(例如，经由通信设备2114、2116等)的信息，和/或使得处理器从其他系统组件和/或从系统用户接收信息(例如，经由通信设备2114、2116等)。

在一些实施方案中，程序产品2108包括非暂时性的计算机可执行指令，当由电子处理器2104实施时，这些指令至少执行：根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息确定多于一个变体的突变等位基因频率(MAF)，以产生多于一个变体中至少一个变体的第一和第二MAF的集合，计算多于一个变体中至少一个变体的第一和第二MAF的比率，以产生MAF比率的集合和该MAF的集合中MAF比率的相应标准偏差，以及计算MAF比率的加权平均值和置信区间，以确定患有癌症的受试者的分子响应评分。本文描述了另外的计算机可读介质实施方案。

系统2100通常还包括被配置成执行本文描述的方法的各个方面的另外系统组件。在这些实施方案的一些中，这些另外系统组件中的一个或更多个远离远程服务器2102，并通过电子通信网络2112与远程服务器2102通信，而在其他实施方案中，这些另外系统组件中的一个或更多个位于本地，并与服务器2102通信(即，在没有电子通信网络2112的情况下)，或者直接与例如台式计算机2114通信。

在一些实施方案中，例如，包括样品制备组件2118的另外系统组件可操作地连接(直接或间接(例如，通过电子通信网络2112))到控制器2102。样品制备组件2118被配置成制备样品中的核酸(例如，制备核酸文库)，以通过核酸扩增组件(例如，热循环仪等)和/或核酸测序仪进行扩增和/或测序。在这些实施方案的某些中，样品制备部件2118被配置为从样品中的其他组分分离核酸，将包含分子条形码的一个或更多个衔接子连接到本文所述的核酸，在测序之前选择性地富集来自基因组或转录组的一个或更多个区域，等等。

在某些实施方案中，系统2100还包括可操作地连接(直接或间接(例如，通过电子通信网络2112))到控制器2102的核酸扩增组件2120(例如，热循环仪等)。核酸扩增组件2120被配置成扩增来自受试者的样品中的核酸。例如，核酸扩增组件2120任选地被配置成扩增从本文所述的样品中的基因组或转录组选择性地富集的区域。

系统2100通常还包括至少一个核酸测序仪2122，其可操作地连接(直接或间接(例如，通过电子通信网络2112))到控制器2102。核酸测序仪2122被配置为提供来自受试者样品中的核酸(例如，扩增的核酸)的序列信息。基本上任何类型的核酸测序仪可以适用于这些系统。例如，核酸测序仪2122任选地被配置为对核酸进行亚硫酸氢盐测序、焦磷酸测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序或其他技术以生成测序读段。任选地，核酸测序仪2122被配置成将序列读段分组为序列读段家族，每个家族包括从给定样品中的核酸生成的序列读段。在一些实施方案中，核酸测序仪2122使用来源于测序文库的克隆单分子阵列来生成测序读段。在某些实施方案中，核酸测序仪2122包括至少一个芯片，该芯片具有用于对测序文库进行测序以产生测序读段的微孔阵列。

为了便于完全或部分系统自动化，系统2100通常还包括可操作地连接(直接或间接(例如，通过电子通信网络2112))到控制器2102的材料转移组件2124。材料转移组件2124被配置成将一种或更多种材料(例如，核酸样品、扩增子、试剂等)转移到核酸测序仪2122、样品制备组件2118和核酸扩增组件2120和/或从其转移。

与计算机系统和网络、数据库和计算机程序产品相关的另外细节也在例如以下中提供：Peterson,Computer Networks:A Systems Approach,Morgan Kaufmann,5th Ed.(2011)，Kurose,Computer Networking:A Top-Down Approach,Pearson,7th Ed.(2016)，Elmasri,Fundamentals of Database Systems,Addison Wesley,6th Ed.(2010)，Coronel,Database Systems:Design,Implementation,&Management,Cengage Learning,11th Ed.(2014)，Tucker,Programming Languages,McGraw-Hill Science/Engineering/Math,2nd Ed.(2006)，和Rhoton,Cloud Computing Architected:Solution DesignHandbook,Recursive Press(2011)，其均通过引用以其整体并入。

VI.实施例

A.实施例1：用于预测患者结果的分子响应计算的比较

1.背景

在许多回顾性研究中，估计为早期治疗中样品(通常在治疗开始后2-9周)和治疗前基线之间循环肿瘤(ctDNA)负荷变化的分子响应(MR)已被表明可以预测跨实体瘤和治疗类型的患者响应和结果。然而，关于用于评估分子响应的最佳方法还没有达成共识。因此，我们旨在评估几种分子响应计算，并确定用于预测个体晚期癌症患者的结果的最佳方法。

2.方法

使用cfDNA NGS测定临床平台(Guardant Health,Inc.,Redwood City,CA,USA)分析了>4,000个患者样品对(间隔3-10周)、>1000个患者样品技术重复、>100个策划的样品稀释和计算机模拟的汇总结果。基线和治疗中配对的患者样品收集自具有超过12种肿瘤类型(包括肺、结肠和乳腺)的晚期癌症患者。MR计算包括体细胞SNV、插入/缺失和融合的变体等位基因分数(VAF)。比较了方法，包括最大VAF的比率(RmaxVAF)、平均VAF的比率(RmVAF)和VAF比率的平均值(mVAF)。评估了分析准确度、再现性和检测限(LoD)。

3.结果

计算>1500个样品对上ctDNA载量净变化的方法比较显示了高度相关性(ρ范围为0.93至0.98)，和与按中值分类的一致性(categorical agreement split by the median，93％)。因此，基于结果预测选择最佳方法将需要非常大的患者队列。分析评价和计算机模拟可以预测每种方法的行为。对真实治疗前样品的肿瘤分数变化的模拟发现，RmVAF或RmaxVAF比mVAFR更准确，后者可能因低VAF比率而偏斜。几乎25％的样品对具有不是maxVAF的肿瘤驱动物或抗性突变，这表明mVAF比maxVAF更好地捕捉肿瘤动力学。新检测到的治疗中变体(newly-detected on-treatment variants)可能是ctDNA水平上升的重要信号，影响大约2％样品对的MR。

重要的是，所有方法的MR准确度随着maxVAF接近或低于变体LoD而降低，这是由于随机检测和在低VAF时变体的较高CV。因此，测定的变体LoD是能够接受MR评价的患者的分数的关键决定因素。技术重复鉴定了肿瘤分数50％变化与技术变异显著不同的变体标准，并可定义分析报告限值。

4.结论

在大量患者样品和模拟中MR方法的比较支持RmVAF，包括新检测到的突变。

B.实施例2

1.介绍

分子响应(MR)是对治疗中早期(通常为3-10周)与治疗前基线相比循环肿瘤(ctDNA)负荷变化的评估。在许多回顾性研究中，分子响应与跨实体瘤和治疗类型的患者对治疗的响应和长期结果相关。

分子响应也显示出比放射学和/或RECIST响应更早预测临床响应。已经使用了多种方法来计算分子响应，但是对于哪种方法是最好的还没有一致的意见。

在本实施例中，评估了几种分子响应计算，并确定了预测个体晚期癌症患者结果的最佳方法。

2.方法

使用cfDNA NGS测定临床平台(Guardant Health,Inc.,Redwood City,CA,USA)加工间隔3-10周的>1,500份患者血浆样品的配对样品，中值独特覆盖范围为测序至20,000x读段深度的～4600个分子。将体细胞和种系SNV、小插入/缺失和融合按子集分类到(subsetto)74个癌症相关基因的组空间(74-cancer associated gene panel space)，以模拟分子响应的临床应用。在任一组中加工了>140个患者样品技术重复，并将其按子集分类到74个基因的组空间中。评估了三种先前发表的分子响应方法(参见表3)。

表3

3.结果

i.分子响应计算捕获SNV、插入/缺失和融合的ctDNA VAF的变化

图22显示了在74个癌症相关基因的组空间中每个样品检测到的体细胞变体的数量。在这项研究中，对于前3种癌症类型，每个样品的分子响应计算中计数了体细胞SNV、插入/缺失和融合的数量。乳腺、CRC和NSCLC的中值突变变体计数分别为4、5和3。

ii.成对样品的体细胞分类解决改进了肿瘤信号

图23显示了可能使MR结果偏斜的体细胞分类差异的实例。罕见的体细胞状态分类差异(<0.8％的变体)可能发生在高肿瘤分数和等位基因不平衡的情况下。如果没有解决，ALK将针对普遍下降的VAF使MR评分偏斜。

表4显示了解决患者样品之间的体细胞分类差异改进了变体准确度的实例。患者样品对中的体细胞分类差异通过基于变体特征的算法解决。由主题专家对照手动解决方案评估准确度。

表4

分类准确度	解决前	解决后，基于VAF	解决后，MR算法
				变体水平	99.2％	99.3％	99.8％
患者水平	87％	89％	96％

iii.基于检测和VAF精确度将变体包括在分子响应计算中

图24显示了由突变分子计数(MMC＝VAF*分子覆盖范围)确定变体精确度的实例。(图24A)变体具有一系列的分子覆盖范围，这取决于样品输入和组设计。变体检测概率(图24B)和VAF精确度(图24C)取决于VAF和分子覆盖范围(颜色，映射到(图24A))二者。MMC(图24D)是变体精确度的更好度量，因为它确定了变体检测的概率(图24E)和VAF精确度(图24F)。在两个时间点具有低MMC的变体应从分子响应中排除，以更好地区分信号与噪声。

iv.两种方法之间的分子响应基本一致，但R(mVAF)在患者间更稳健

图25显示，当使用比率平均值m(rVAF)或最大比率R(maxVAF)时，肿瘤信号可以被少数变体超过。(图25A)MR评分分为增加、减少或在精确度限值内(“接近0％的变化”)。在任何方法中，只有8％的患者在增加和减少之间变化，表现出高度的分类相关性(X2 p<0.001)。MR相关性范围为ρ＝0.42至0.86(p<0.001)。(图25B)当一些VAF较低(红色)时，m(rVAF)容易高估MR。R(maxVAF)可能因偏离大多数的单个最大变体(紫色)而偏斜。20％的样品对具有不是maxVAF的肿瘤驱动物或抗性突变，这表明mVAF更好地捕捉肿瘤动力学。(C)排除新的治疗中变体将导致较低的MR可评价率，并排除新出现变体的信号。

v.ctDNA水平变化信号低的患者被鉴定为不可评价分子响应

图26显示了分子响应评分的确定性随着变体数量(图26A)、分子覆盖范围(图26B)和最大VAF(图26C)的增加而增加的实例。

如果没有体细胞变体(大约7％的患者)，或没有符合纳入标准的体细胞变体(16％)，使用基于VAF的方法不可评价样品对的分子响应。此外，使用VAF精确度的统计模型从理论上计算了分子响应评分的确定性。超过可接受的不确定度极限(黑线)的样品对不可评价MR(3％)。这导致大约74％的样品对可评价MR。

vi.临床患者样品的分子响应评分的范围反映了强的生物信号

在临床患者样品对中，分子响应分布显示了从“100％下降”到“>100％增加”的评分范围(图27A)。

技术重复提供了零分子响应分布，峰值为0％变化(图27B)。

4.结论

分子响应计算的每个组成部分对于MR的准确评估都很重要，包括种系和低精确度变体过滤、总体配方(overall formulation)和可评价标准。在大量患者样品和模拟中比较分子响应方法支持平均VAF的比率，包括了新检测到的突变。

C.实施例3

图28显示了用于MR计算的样品对的实例。从任一样品中检测到的所有SNV、插入/缺失、融合开始，去除常见的种系变体。接下来，解决变体体细胞/种系分类差异，给出单一分类。(在本实施例中，不存在差异)。接下来，过滤掉种系变体，并入然后过滤掉CHIP变体(在本实施例中，ATM.R3008H是被移除的CHIP变体)。接下来，不符合基于MMC或覆盖范围的纳入阈值的变体被去除。在本实施例中，在这些过滤步骤之后，三个体细胞变体(PDGFRA、RET和TP53)仍然存在。最后，根据这些剩余的变量计算MR评分。在本实施例中，基线平均VAF为22.2％，并且治疗中平均VAF为2.7％，得出MR评分为12％，这是ctDNA下降88％。

本文引用的所有专利、专利申请、网站、其他出版物、登录号等为了所有目的通过引用以其整体并入，其程度如同每个单独的项目被具体并单独地指出通过引用并入。如果一个序列的不同版本在不同时间与一个登录号相关联，则意指在本申请的有效申请日与该登录号相关联的版本。如果适用，有效申请日意指实际申请日或提及该登录号的优先权申请的申请日中的较早者。同样，如果出版物、网站等的不同版本在不同时间公布，则意指在本申请的有效申请日最近公布的版本，除非另外指示。

本领域技术人员使用不超过常规实验将认识到或能够确定本文描述的方法和组合物的具体实施方案的许多等同物。这样的等同方案意图被所附权利要求涵盖。

Claims

1.一种方法，所述方法包括：

确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段，其中所述第一多于一个序列读段在施用治疗之前确定，并且所述第二多于一个序列读段在施用所述治疗之后确定；

将所述第一多于一个序列读段和所述第二多于一个序列读段中的多于一个变体分类为体细胞或种系；

基于第一突变等位基因分数(MAF)和第二MAF，为被分类为体细胞的多于一个变体中的至少一个变体确定所述第一MAF的加权平均值和所述第二MAF的加权平均值；

对于所述受试者，确定所述第一MAF的加权平均值和所述第二MAF的加权平均值的比率；

基于所述第一MAF的加权平均值与所述第二MAF的加权平均值的比率确定置信区间；和

输出所述第一MAF的加权平均值与所述第二MAF的加权平均值的比率以及所述置信区间作为分子响应评分。

2.一种方法，所述方法包括：

基于第一突变等位基因分数(MAF)和第二MAF，为被分类为体细胞的多于一个变体中的至少一个变体确定MAF比率；

为所述受试者确定所述MAF比率的加权平均值；

基于所述MAF比率的加权平均值确定与所述MAF比率的加权平均值相关的置信区间；和

输出所述MAF比率的加权平均值和所述置信区间作为分子响应评分。

3.一种方法，所述方法包括：

将所述第一多于一个序列读段中的多于一个变体分类为体细胞或种系；

将所述第二多于一个序列读段中的所述多于一个变体分类为体细胞或种系；

对所述多于一个变体中的至少一个变体进行重新分类，以解决所述第一多于一个序列读段和所述第二多于一个序列读段之间的分类差异；

基于所述第一多于一个序列读段的至少一部分，为被分类或重新分类为体细胞的所述多于一个变体中的至少一个变体确定第一突变等位基因分数(MAF)；

基于所述第二多于一个序列读段的至少一部分，为被分类或重新分类为体细胞的所述多于一个变体中的至少一个变体确定第二MAF；和

基于所述第一MAF和所述第二MAF确定分子响应评分。

4.一种方法，所述方法包括：

确定所述多于一个变体中的至少一个变体为潜能未定克隆性造血(CHIP)变体；

从所述多于一个变体中去除所述至少一个CHIP变体；

基于所述第一多于一个序列读段的至少一部分，为被分类为体细胞的所述多于一个变体中的至少一个变体，确定第一突变等位基因分数(MAF)；

基于所述第二多于一个序列读段的至少一部分，为被分类为体细胞的所述多于一个变体中的至少一个变体确定第二MAF；和

基于所述第一MAF和所述第二MAF确定分子响应评分。

5.一种方法，所述方法包括：

从所述多于一个变体中去除所述至少一个CHIP变体；

基于所述第一多于一个序列读段的至少一部分，为被分类为体细胞的所述多于一个变体中的至少一个变体确定第一突变等位基因分数(MAF)；

基于所述第二多于一个序列读段的至少一部分，为被分类为体细胞的所述多于一个变体中的至少一个变体确定第二MAF；

基于所述第一MAF和所述第二MAF，为被分类为体细胞的所述多于一个变体中的至少一个变体确定MAF比率；

为所述受试者确定所述MAF比率的加权平均值；

6.一种方法，所述方法包括：

从所述多于一个变体中去除所述至少一个CHIP变体；

基于所述第一MAF和所述第二MAF，为被分类为体细胞的多于一个变体中的至少一个变体确定所述第一MAF的加权平均值和所述第二MAF的加权平均值；

7.一种方法，所述方法包括：

确定与受试者相关的第一多于一个序列读段和第二多于一个序列读段，其中所述第一多于一个序列读段在施用治疗之前的第一时间点确定，并且所述第二多于一个序列读段在施用所述治疗之后的第二时间点确定；

基于在所述第一时间点的第一突变等位基因分数(MAF)和在所述第二时间点的第二MAF，为被分类为体细胞的多于一个变体中的至少一个变体确定所述第一MAF的第一中心趋势量度和所述第二MAF的第二中心趋势量度；

确定在所述第一时间点的所述第一中心趋势量度与在所述第二时间点的所述第二中心趋势量度的比率；和

输出在所述第一时间点的所述第一中心趋势量度与在所述第二时间点的第二中心趋势量度的比率作为分子响应评分。

8.根据权利要求7所述的方法，其中所述中心趋势度量是平均值、中值或众数中的一个或更多个。

9.一种至少部分地使用计算机确定患有癌症的受试者的分子响应评分的方法，所述方法包括：

(a)由所述计算机根据从在第一时间点和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息为多于一个变体确定突变等位基因频率(MAF)，来为所述多于一个变体中的至少一个变体产生第一MAF和第二MAF的集合；

(b)由所述计算机为所述多于一个变体中的至少一个变体计算所述第一MAF和所述第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中每个MAF比率的相应标准偏差；以及，

(c)由所述计算机计算所述MAF比率的加权平均值和置信区间，从而确定患有癌症的受试者的分子响应评分。

10.一种治疗受试者的癌症的方法，所述方法包括：

(a)根据从在第一时间点和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息，为多于一个变体确定突变等位基因频率(MAF)，来为所述多于一个变体中的至少一个变体产生第一MAF和第二MAF的集合；

(b)为所述多于一个变体中的至少一个变体计算所述第一MAF和所述第二MAF的比率，以产生MAF比率的集合和该MAF比率的集合中每个MAF比率的相应标准偏差；

(c)计算所述MAF比率的加权平均值和置信区间，以确定受试者的分子响应评分；以及，

(d)基于至少所述分子响应评分对受试者施用一种或更多种治疗，从而治疗受试者的癌症。

11.一种治疗受试者的癌症的方法，所述方法包括基于至少所述受试者的分子响应评分对所述受试者施用一种或更多种治疗，其中所述分子响应评分通过以下产生：

(a)由计算机根据从在第一时间点和第二时间点从受试者获得的样品中与一种或更多种癌症类型关联的靶向核酸生成的序列信息为多于一个变体确定突变等位基因频率(MAF)，来为所述多于一个变体中的至少一个变体产生第一MAF和第二MAF的集合；

(c)由所述计算机计算所述MAF比率的加权平均值和置信区间，以确定受试者的分子响应评分。

12.一种至少部分地使用计算机鉴定患有癌症的受试者中的克隆造血变体的方法，所述方法包括：

(a)由所述计算机根据从在第一时间点和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关联的靶向核酸生成的序列信息为多于一个变体中的每一个确定肿瘤分数变化P(R)的肿瘤负荷变化(R)，以产生肿瘤负荷变化的集合；以及，

(b)由所述计算机从所述肿瘤负荷变化的集合中识别对应于一个或更多个克隆造血变体的一个或更多个抗性特征，从而鉴定患有癌症的受试者中的克隆造血变体。

13.一种至少部分地使用计算机鉴定患有癌症的受试者中的克隆造血变体的方法，所述方法包括：

(a)由所述计算机根据从在第一和第二时间点从受试者获得的样品中与一种或更多种癌症类型相关联的靶向核酸生成的序列信息为多于一个变体中的每一个计算肿瘤分数变化的概率密度函数P(R)；

(b)由所述计算机按P(R)将一个或更多个变体分组为一个或更多个克隆；

(c)由所述计算机为每个所述克隆生成更新的P(R)；以及，

(d)由所述计算机鉴定在所述第一时间点和所述第二时间点之间具有处于或高于预定阈值的分数变化的一个或更多个克隆，从而鉴定患有癌症的受试者中的克隆造血变体。

14.根据权利要求13所述的方法，包括确定给定变体对表现出相同分数变化的似然，将最可能的变体对合并成一个克隆，并为所述一个克隆更新P(R)。

15.一种至少部分地使用计算机鉴定患有癌症的受试者中的种系变体的方法，所述方法包括：

(a)由所述计算机根据从自受试者获得的样品中与一种或更多种癌症类型相关的靶向核酸生成的序列信息为给定变体确定突变等位基因频率(MAF)；以及，

(b)当所述给定变体的MAF使样品的最大MAF(该样品包含二倍体基因的最大分数(maxfrac_diploid))增加时和/或当所述给定变体的MAF是从自受试者获得的样品确定的一个或更多个其他MAF的至少约两倍大、三倍大、四倍大、五倍大、六倍大、七倍大、八倍大、九倍大或更多时，由所述计算机鉴定所述给定变体是种系变体，从而鉴定患有癌症的受试者中的种系变体。

16.根据任何一项前述权利要求所述的方法，还包括将患有癌症的受试者的分子响应评分与预定截止点进行比较，以当所述分子响应评分低于所述预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗有响应，或者当所述分子响应评分处于或高于所述预定截止点时，鉴定受试者可能对癌症的一种或更多种治疗无响应。

17.根据任何一项前述权利要求所述的方法，其中所述一种或更多种治疗包括一种或更多种免疫治疗。

18.根据任何一项前述权利要求所述的方法，还包括根据所述分子响应评分对受试者施用一种或更多种癌症治疗。

19.根据任何一项前述权利要求所述的方法，还包括根据所述分子响应评分停止对受试者施用一种或更多种癌症治疗。

20.根据任何一项前述权利要求所述的方法，包括使用所述分子响应评分作为受试者的预后生物标志物和/或预测生物标志物。

21.根据任何一项前述权利要求所述的方法，包括使用分子计数来计算所述MAF比率集合中每个MAF比率的标准偏差。

22.根据任何一项前述权利要求所述的方法，包括通过所述MAF比率集合中的每个MAF比率传播方差。

23.根据任何一项前述权利要求所述的方法，还包括在确定所述多于一个变体的突变等位基因频率(MAF)时排除一个或更多个种系和/或克隆造血变体。

24.根据任何一项前述权利要求所述的方法，其中所述多于一个变体包括体细胞核酸变体。

25.根据任何一项前述权利要求所述的方法，还包括排除在所述第一时间点和所述第二时间点均具有小于约0.1％、0.2％、0.3％、0.4％、0.5％、0.6％、0.7％、0.8％或0.9％的MAF的一个或更多个体细胞变体。

26.根据任何一项前述权利要求所述的方法，其中所述第一时间点包括治疗前时间点，并且其中所述第二时间点包括治疗中或治疗后时间点。

27.根据任何一项前述权利要求所述的方法，包括从获自所述样品中的一个或更多个组织或细胞的核酸分子生成序列信息。

28.根据任何一项前述权利要求所述的方法，包括从获自受试者的所述样品中的无细胞核酸(cfNA)生成序列信息。

29.根据任何一项前述权利要求所述的方法，其中所述cfNA包括循环肿瘤DNA(ctDNA)。

30.根据任何一项前述权利要求所述的方法，其中所述比率包括所述多于一个变体中至少一个变体的所述第二MAF与所述第一MAF的比率。

31.根据任何一项前述权利要求所述的方法，包括使用以下公式计算所述MAF比率的加权平均值：

总和[权重*比率]/总和[权重]，

其中对于所述多于一个变体中的给定变体，权重为1/范围²，其中范围是所述多于一个变体中的给定变体的所述第一MAF和所述第二MAF的值之间的差，并且比率是MAF比率集合中的给定MAF比率。

32.根据任何一项前述权利要求所述的方法，包括使用以下公式计算所述置信区间：

MAF比率的加权平均值+/-sqrt[比率方差]，

其中比率方差为1/总和[权重]。

33.根据任何一项前述权利要求所述的方法，包括使用以下公式计算所述MAF的加权平均值的比率：

(在时间点2的所述MAF比率的加权平均值)/(在时间点1的所述MAF比率的加权平均值)其中在某个时间点未检测到的变体的MAF被设置为零。

34.根据任何一项前述权利要求所述的方法，其中所述变体包括一个或更多个单核苷酸变体(SNV)、插入/缺失突变(插入/缺失)、基因扩增和/或基因融合。

35.根据任何一项前述权利要求所述的方法，还包括使用一个或更多个另外的基因组数据源来确定患有癌症的受试者的分子响应评分。

36.根据任何一项前述权利要求所述的方法，其中所述另外的基因组数据源包括以下的一个或更多个：覆盖范围、脱靶覆盖范围、表观遗传特征和/或微卫星不稳定性评分。

37.根据任何一项前述权利要求所述的方法，其中所述表观遗传特征包括cfNA片段长度、位置和/或端点密度分布。

38.根据任何一项前述权利要求所述的方法，其中所述表观遗传特征包括由给定靶向基因组区域中的一个或更多个表观遗传基因座表现出的表观遗传状态。

39.根据任何一项前述权利要求所述的方法，其中所述表观遗传状态包括甲基化、羟甲基化、乙酰化、泛素化、磷酸化、类泛素化、核糖基化、瓜氨酸化和/或组蛋白翻译后修饰或其他组蛋白变异的存在或不存在。

40.根据任何一项前述权利要求所述的方法，还包括在施用所述治疗之前确定一个或更多个拷贝数变体，和在施用所述治疗之后确定一个或更多个拷贝数变体，并基于超过阈值的一个或更多个拷贝数变体的数量，从所述多于一个变体中去除一个或更多个拷贝数变体。

41.根据任何一项前述权利要求所述的方法，还包括：

确定在第一时间点从体细胞变体的MAF获得的第一中心趋势量度和在第二时间点从所述体细胞变体的MAF获得的第二中心趋势量度；

计算在所述第一时间点的中心趋势量度与在所述第二时间点的中心趋势量度的比率；

计算在所述第一时间点的中心趋势量度与在所述第二时间点的中心趋势量度的比率的标准偏差；和

输出在所述第一时间点的中心趋势量度与在所述第二时间点的中心趋势量度的比率作为另一分子响应评分。

42.根据任何一项前述权利要求所述的方法，还包括：

在多于一个时间点中的每一个获得多于一个序列读段；和

确定所述多于一个时间点中任意两个时间点之间的MAF比率。

43.根据任何一项前述权利要求所述的方法，还包括推荐一种或更多种治疗。

44.一种设备，所述设备被配置成进行任何前述权利要求的方法。

45.一种计算机可读介质，包含非暂时性计算机可执行指令，当由至少一个电子处理器实施时，所述非暂时性计算机可执行指令执行任一项前述权利要求的方法。

46.一种系统，所述系统被配置为执行任一项前述权利要求的方法。