CN113383089A

CN113383089A - 经由代表性DNA测序进行个性化ctDNA疾病监测

Info

Publication number: CN113383089A
Application number: CN201980078983.1A
Authority: CN
Inventors: N·R·阿历山大; S·斯塔尼斯拉夫; K·R·利奇费尔德; S·图拉吉利克
Original assignee: Royal Marsden NHS Trust; Francis Crick Institute Ltd; Ventana Medical Systems Inc
Current assignee: Royal Marsden NHS Trust; Francis Crick Institute Ltd; Ventana Medical Systems Inc
Priority date: 2018-11-29
Filing date: 2019-11-22
Publication date: 2021-09-10
Also published as: WO2020112566A1; US20220064733A1; JP7479367B2; EP3887547A1; JP2022511787A

Abstract

本文公开了一种从均质化的输入样品衍生出多个基因变体的方法。本文还公开了鉴定样品中多个基因变体的方法，所述方法包括：对一个或多个输入样品均质化以提供均质化样品；制备从所述均质化的输入样品中分离出的基因组材料以用于测序；以及在对制备的基因组材料测序后得出的测序数据内鉴定所述多个基因变体。

Description

经由代表性DNA测序进行个性化ctDNA疾病监测

相关专利申请的交叉引用

本申请要求于2018年11月29日提交的美国临时申请第62/772,650号的提交日的权益，该美国临时申请的公开内容通过引用整体并入本文。

技术领域

本公开涉及鉴定样品诸如代表性样品中的基因变体的方法。在一些实施例中，该法涉及基于样品(诸如代表性样品)中鉴定的多个基因变体的CTDNA监测组的生成。

背景技术

自从40年前引入到现有技术中，使用DNA测序对人类遗传变异进行研究已经经历了非凡的发展，这使得可以在几天之内对人类基因组进行测序和分析。2000年代中期，第一批“下一代测序”(NGS)仪器的发布引发了疾病研究的一场革命，以显著降低的成本极大地提高了速度，从而使得只需数周生成人类全基因组序列。除了价格和性能之外，新的测序技术还证明可以弥补较旧的测序和基因分型技术的某些技术缺陷，从而可以以低成本对变体(包括新变体)进行全基因组检测。NGS在人类基因组学中的进一步突破是通过引入靶向富集方法，从而可以对感兴趣区域进行选择性测序，从而显著减少了需要生成的序列数量。该方法基于收集代表基因组中靶序列的DNA或RNA探针，所述探针可以结合并提取源自靶区域的DNA片段。

全外显子测序(WES)，其能够对人类基因组中所有蛋白质编码区域(外显子)进行测序，从而迅速成为最广泛使用的靶向富集方法，尤其是对于单基因(“孟德尔”)疾病。该方法可以检测外显子(编码)以及剪接位点变体两者，而与全基因组测序相比仅需要约2％的测序“负荷”。所有基因的无偏分析消除了在测序前对耗时的候选基因选择的需求。据估计，外显子携带约85％的突变，这对疾病相关性状有很大影响。另外，显示外显子突变引起大多数单基因疾病，仅错义和无义突变占疾病突变的约60％。

基因组测序技术的最新进展提供了前所未有的机会来表征单个基因组地图，并鉴定与诊断和疗法相关的突变。实际上，近年来，NGS也越来越多地用于解决药物基因组学研究问题。不仅可以检测出可以解释为什么某些患者对某种药物没有反应的遗传原因，而且可以尝试根据遗传信息预测药物的成功。某些基因变体可以影响特定蛋白质的活性，并且这些基因变体可以用于估计靶向该蛋白质的药物的可能功效和毒性。因此，NGS的应用远远超出了发现引起疾病的变体。

所有人类中共享全部DNA中的约99.5％，正是这0.5％产生所有的差异。遗传变异或变体是使得每个人的基因组独特的差异。DNA测序通过将单个的DNA序列与基因组参考联盟(GRC)维护的参考基因组的DNA序列进行比较来鉴定单个的变体。据信，人类的基因组平均具有数百万个变体。一些变体出现在基因中，但大多数出现在基因外部的DNA序列中。少数变体已与疾病(诸如癌症)相关。

癌症是一种以异常细胞不受控制的增殖为特征的疾病。在正常组织中，细胞在组织内分裂和组织，以应答于周围细胞的信号，从而产生由组织环境周密协调的正常细胞行为。癌细胞对周围组织的生长限制环境诱因无应答，并且它们通常具有遗传变异，这促使它们增殖并在许多器官中形成肿瘤。随着肿瘤的继续生长、遗传和表型变异不断累积，使癌细胞群体能够克服额外的“检查点”，诸如抗肿瘤免疫应答，并表现为更具攻击性的癌细胞生长表型。如果不及时治疗，可能会发生转移，癌细胞会通过淋巴系统或血液流动扩散到身体远端部分。转移导致在多个部位形成继发性肿瘤，损害健康组织。大多数癌症死亡是由此类继发性肿瘤引起的。

当前的诊断肿瘤学利用从肿瘤的一部分中获取的信息，并且是基于肿瘤是由在组成上均匀的细胞组成的这一前提。许多肿瘤在组成上不是均匀的，而是异质的。实际上，已经报道了一些实体瘤不是均质的，而是由多个遗传上不同的、空间上分离的癌细胞群组成。参见Gerlinger等人，NEJM(2012)366：883-92；以及Yachida等人Nature(2010)467(7319)：1114-1117，其公开内容据此通过引用整体并入本文。常规的组织学方法论通过选择多个活检样品进行分析来解决这种异质性，例如基于形态学和其他特征。例如，活检样品取自肿瘤的多个区域，其中每个获取的样品包括约0.1立方厘米的组织。这些方法调查了更多的肿瘤组织和肿瘤的不同空间区域；然而，使用此类方法测定的绝大多数肿瘤仍未采样。类似地，常规方法仅从癌症患者中采样检查一小部分淋巴结，而不对绝大多数组织进行采样检查。这些样品的小尺寸也可能限制所利用的其他诊断步骤，诸如测序。

发明内容

本公开的一个方面是一种鉴定样品(例如，源自人类患者的样品)中的多个基因变体的方法，该方法包括：对一个或多个肿瘤样品均质化以提供均质化样品；制备从均质化样品中分离出的基因组材料以用于测序；以及在对制备的基因组材料测序后得到的测序数据内鉴定多个基因变体。在一些实施例中，该方法进一步包括确定经鉴定的多个基因变体为克隆的还是亚克隆的。在一些实施例中，一种或多种新抗原源自经鉴定的亚克隆突变。在一些实施例中，该多个基因变体是使用全基因组测序(WGS)、全外显子组测序(WES)、单核苷酸多态性(SNP)分析、深度测序、合成测序、靶向基因测序或其任意组合来鉴定的。

在一些实施例中，该方法进一步包括基于经鉴定的多个基因变体生成ctDNA监测组。在一些实施例中，生成的ctDNA监测组用于确定对疗法的应答。在一些实施例中，生成的ctDNA监测组用于确定癌症的进化轨迹。在一些实施例中，生成的ctDNA监测组用于预测对未来治疗策略的应答。在一些实施例中，生成的ctDNA监测组用于在疗法期间或疗法之后确定患者中癌症的存在。在一些实施例中，生成的ctDNA监测组用于在疾病缓解之后、对疗法完全应答之后或诊断出无法检测的疾病之后确定患者中癌症的存在。在一些实施例中，生成的ctDNA监测组用于在手术去除原发性肿瘤之后检测微小残留病。在一些实施例中，生成的ctDNA监测组用于在手术去除转移性肿瘤之后检测微小残留病。

在一些实施例中，该方法进一步包括基于经鉴定的多个基因变体来计算克隆结构。在一些实施例中，克隆结构的计算包括：(i)为多个经鉴定的基因变体中的每一者计算癌细胞分数估计值；以及(ii)将计算出的癌细胞分数估计值分组为突变簇。在一些实施例中，该方法进一步包括对单个经鉴定的基因变体的分离进行评估。

在一些实施例中，该方法进一步包括在制备基因组材料之前，对均质化样品内的细胞颗粒进行分选。在一些实施例中，细胞颗粒的分选是基于尺寸的。在一些实施例中，细胞颗粒的分选是基于一种或多种生物标志物的存在。

在一些实施例中，该方法进一步包括：如果在多个经鉴定的基因变体内鉴定出一个或多个特定亚克隆变体，则评估人类受试者是否处于快速疾病进展的升高的风险中。在一些实施例中，该方法进一步包括基于在多个经鉴定的基因变体内的一个或多个特定亚克隆变体的鉴定来确定是否需要替代疗法。

本公开的另一方面是一种鉴定样品(例如，源自人类患者的样品)中的多个基因变体的方法，该方法包括：对一个或多个输入样品均质化以提供均质化样品；制备从均质化的输入样品中分离出的基因组材料以用于测序；以及在对制备的基因组材料测序后得到的测序数据内鉴定多个基因变体。在一些实施例中，该方法进一步包括确定经鉴定的多个基因变体为克隆的还是亚克隆的。在一些实施例中，一种或多种新抗原源自经鉴定的亚克隆突变。在一些实施例中，该多个基因变体是使用全基因组测序(WGS)、全外显子组测序(WES)、单核苷酸多态性(SNP)分析、深度测序、靶向基因测序或其任意组合来鉴定的。

在一些实施例中，一个或多个输入样品源自肿瘤样品、淋巴结样品、血液样品和/或其他组织样品中的一个或多个。在一些实施例中，一个或多个输入样品源自肿瘤样品和/或血液样品中的一个或多个。在一些实施例中，一个或多个输入样品源自肿瘤样品。在一些实施例中，输入样品源自人类患者或哺乳动物受试者：(i)被诊断出患有癌症，(ii)被怀疑患有癌症，(iii)有发展为癌症的风险；(iv)有癌症的恶化或复发的风险；及/或(v)怀疑患有癌症复发。在一些实施例中，输入样品源自健康的人类患者或哺乳动物受试者。

在一些实施例中，输入样品包括源自肿瘤样品、淋巴结样品、血液样品或其任意组合的细胞的代表性样品。在一些实施例中，代表性样品可以从实体瘤的完整肿瘤活检样品生成。在一些实施例中，活检样品包含至少约100至约200个细胞。在一些实施例中，活检样品包含至少约200至约1,000个细胞。在一些实施例中，活检样品包含至少约1,000至约5,000个细胞。在一些实施例中，活检样品包含至少约10,000至约100,000个细胞。在一些实施例中，活检样品包含至少约100,000至约1,000,000或更多个细胞。

本公开的另一方面是一种鉴定样品(例如，源自人类患者的样品)中的多个基因变体的方法，该方法包括：获得代表性样品；以及在对代表性样品测序后得到的测序数据内鉴定多个基因变体。在一些实施例中，代表性样品可以从实体瘤的完整肿瘤活检样品生成。在一些实施例中，活检样品包含至少约100至约200个细胞。在一些实施例中，活检样品包含至少约200至约1,000个细胞。在一些实施例中，活检样品包含至少约1,000至约5,000个细胞。在一些实施例中，活检样品包含至少约10,000至约100,000个细胞。在一些实施例中，活检样品包含至少约100,000至约1,000,000或更多个细胞。

在一些实施例中，代表性样品可以通过对一个或多个输入样品进行均质化而获得。在一些实施例中，一个或多个输入样品源自肿瘤样品、淋巴结样品、血液样品和/或其他组织样品中的一个或多个。在一些实施例中，一个或多个输入样品源自肿瘤样品和/或血液样品中的一个或多个。在一些实施例中，一个或多个输入样品源自肿瘤样品。在一些实施例中，输入样品源自人类患者或哺乳动物受试者：(i)被诊断出患有癌症，(ii)被怀疑患有癌症，(iii)有发展为癌症的风险；(iv)有癌症的恶化或复发的风险；及/或(v)怀疑患有癌症复发。在一些实施例中，输入样品源自健康的人类患者或哺乳动物受试者。

在一些实施例中，该方法进一步包括确定经鉴定的多个基因变体为克隆的还是亚克隆的。在一些实施例中，一种或多种新抗原源自经鉴定的亚克隆突变。在一些实施例中，该多个基因变体是使用全基因组测序(WGS)、全外显子组测序(WES)、单核苷酸多态性(SNP)分析、深度测序、合成测序、靶向基因测序或其任意组合来鉴定的。

迄今已对成千上万的实体瘤进行了测序，但基本的欠采样偏差是当前方法学固有的。这是由固定尺寸的活检输入样品引起的，随着肿瘤体积的扩大，能力明显不足。确实，我们对当前临床和研究实践的分析表明，现有方案仅从总肿瘤块的0.0005％至2.0％进行采样，从而增加了出现明显的采样范围偏差的可能性。在这里，我们演示了代表性测序(以下称“Rep-Seq”)，作为一种实现实体瘤组织无偏差采样的新型方法。Rep-Seq方案包括将所有未用于病理学的残留肿瘤材料均质化为充分混合的溶液，并结合下一代测序。Rep-Seq是在11种肿瘤的概念验证基础上实施的，并以匹配的测序深度针对单区域和多区域测序方法进行了基准测试。Rep-Seq能够检测更多变体，从亚克隆突变确定克隆中获得更高的准确性，并能在重复之间提供更高水平的可重复性。总之，Rep-Seq有效地实施了无偏差的肿瘤采样方法，从整个肿瘤块的充分混合的溶液中提取DNA分子，从而消除了当前方法固有的空间偏差。

附图说明

参考附图来总体理解本公开的特征。在附图中，相同的附图标记始终用于鉴定相同的元件。

图1提供了流程图，其阐明了在均质化的肿瘤样品内鉴定基因变体的步骤。

图2提供了流程图，其阐明了对源自均质化的肿瘤样品的基因组数据进行测序的步骤。

图3阐明了在从均质化的肿瘤样品中鉴定出多个基因组样品之后可能发生的进一步的下游过程。

图4阐明了导致欠采样的当前肿瘤测序方法，这可以通过更宽的采样范围来解决。

图4A(上)示出了来自癌症基因组图谱(TCGA)的肿瘤体积分布的密度图，其中肿瘤体积(cm3)以对数标度绘制在x轴上。图4A(中)示出了在同一组TCGA样品中用作测序的输入材料的活检组织体积的密度图。图4A(下)示出了被采样的组织的比例(即，对于每种情况，来自中间组的值除以顶部组的值)，按肿瘤阶段划分。

图4B(左)示出了根据局部临床审核估计的肿瘤体积(cm³)，按组织部位划分。图4B(右)示出了在临床审核中按组织部位划分的被采样的组织的比例。

图4C示出了用于合并的“混合”样品的中试实验的实验设计。

图4D(左)示出了与根据多次活检测序(y轴)估算的真实VAF相比，混合测序(x轴)之间的变体等位基因频率(VAF)相关性。图4D(右)示出了与根据多次活检测序(y轴)估算的真实VAF相比，单区域测序(x轴)之间的变体等位基因频率(VAF)相关性。

图4E(左)示出了在针对非小细胞肺癌的中试数据集中每种测序方法中发现的变体数量。图4E(右)示出了与针对非小细胞肺癌的单区域活检测序相比，使用“混合”测序发现的已知真实变体的比例。

图4F(左)示出了在针对尿路上皮癌的中试数据集中每种测序方法中发现的变体数量。图4F(右)示出了与针对尿路上皮癌的单区域活检测序相比，使用“混合”测序发现的已知真实变体的比例。

图5阐明了如本文所述的代表性采样测序方法。

图5A阐明了根据本文所述的一些实施例的用于新的代表性测序(Rep-Seq)方法学的方法学工作流程。

图5B阐明了采样策略，用于针对广泛的活检采样来验证Rep-Seq方法。

图5C阐明了在所有活检、ctDNA样品和Rep-Seq生物学重复中发现的非同义变体的图谱，并对病例Rep-Seq1进行测序。

图5D阐明了作为可重复性的量度，针对单活检测序相对于Rep-Seq(左)以及ctDNA测序相对于Rep-Seq(右)的Jaccard相似性指数结果。

图5E提供了变体等位基因频率(VAF)相对于针对Rep-Seq(VAF)样品和整个肿瘤(VAF)样品检测到的变体的图。

图6阐明了通过Rep-Seq和ctDNA进行的克隆追踪。

图6A阐明了病例Rep-Seq1的系统发育树，其是使用广泛的多次活检测序(左)和单个Rep-Seq样品衍生出的。

图6B阐明了原发性Rep-Seq1肿瘤的4个切片和淋巴结转移瘤中的克隆分布。

图6C阐明了每个活检样品(左)和Rep-Seq样品(右)中的肿瘤克隆A、B和C中的突变的癌细胞分数(CCF)估计值。

图6D阐明了克隆性模拟数据的错觉，其中在x轴上绘制了模拟活检样品的数量，以及在y轴上错误地显示了克隆(克隆性错觉)的变体的百分比(来自100个模拟样品组合)。

图6E阐明了Rep-Seq1的ctDNA数据，并绘制了克隆A、B和C中的突变的VAF(y轴)。

图6F阐明了使用Rep-Seq方法构建的病例Rep-Seq2和Rep-Seq3的系统发育树。

图6G阐明了病例Rep-Seq4至Rep-Seq11的非同义突变计数(上)，以及突变特征分析结果(下)。

图6H阐明了对于总批量混合的细胞群体的Rep-Seq11覆盖率数据，然后是估计的肿瘤细胞覆盖率以及纯度估计值(左)。显示出数据用于标准Rep-Seq，然后显示出肿瘤纯度高的Rep-Seq，以进行比较。图6H阐明了在正常的和纯度高的Rep-Seq样品中检测到的非同义变体的数量(右)。变体计数基于“共享”(即在两个样品中都存在)或“私有”(即变体仅在该样品中存在，而在另一个样品中不存在)进行颜色编码。

图7阐明了对于病例Rep-Seq1的来自每个活检样品和Rep-Seq生物学重复的预测的新抗原。尽管肿瘤可能含有成千上万种突变或变体，但这些突变中只有某些会作为新抗原(即被感知为对于免疫系统是“外来”的变化的蛋白质)呈现给免疫系统。不可能先验地获知突变是否可以被免疫系统有效识别为外来，因此计算机算法被用于预测修饰的(即，突变的)蛋白质的抗原性。通过创建个性化疫苗，新抗原可用于在癌症患者中引发免疫应答。接种有靶向的个性化新抗原疫苗之后，有效免疫应答的关键组成部分是(1)适当检测新抗原的克隆性(因为引发免疫应答的亚克隆新抗原只会消除具有该新抗原的癌细胞)，以及(2)从每位患者中发现尽可能多的新抗原(不可能知道预测的新抗原是否会成为免疫系统的生产性刺激物，个性化癌症疫苗的效用可能取决于所靶向的新抗原的数量)。因此，如图7所示，在所有病例中Rep-Sep都将优于单个活检。

图8A和8B列出了Rep-Seq1(图8A)以及在快速尸检时从疾病的20个不同的解剖部位取得的转移性活检区域(图8B)的所有原发性活检区域的拷贝数热图。活检基于染色体臂14q的log(R)值递减排序。转移性区域都含有14q丢失，以及大约一半的原发性活检区域(克隆B)，表明转移是由克隆B播散的。尽管我们注意到我们不能排除转移中14q丢失是独立的并行事件的可能性，然而结合的ctDNA数据、淋巴结代表性测序和尸检转移性数据都将支持该假说。

图9提供了在病例Rep-Seq4至Rep-Seq10中从整个外显子组测序得到的变体等位基因频率，其通过Ref>Alt碱基变化以及通过频率(高于或低于5％VAF)进行划分。与FFPE伪像相关的碱基变化(例如C>T，G>A)在低频突变中没有升高。这些数据表明Rep-Seq生成的测序数据与标准测序方法相当，并且福尔马林固定的延长期不会对来自均质化的残留肿瘤组织的DNA测序产生负面影响。

具体实施方式

还应该理解的是，除非有明显的相反指示，否则在本文主张的包括多个步骤或动作的任何方法中，所述步骤或动作的顺序不必限于所述方法叙述的步骤或动作的顺序。

如本文所使用的，除非另有说明，否则单数术语“一(a/an)”及“该/所述”包括复数个参考物。类似地，除非上下文另外明确指出，否则单词“或”旨在包括“和”。术语“包括”定义为包括性的，以使“包括A或B”表示包括A、B、或A和B。

如本文在说明书和权利要求书中所用，“或”应当理解为具有与如上所定义的“和/或”相同的含义。例如，当将列表中的项目分开时，“或”或“和/或”应解释为包括性的，即包括多个元素或元素的列表以及任选地额外未列出项目中的至少一个，但也包括多于一个。仅明确指出相反的术语，例如“仅一个”或“恰好一个”，或当在权利要求书中使用时，“由……组成”将指的是仅包括一个或多个元素中的一个元素。通常，当前置有排他性术语诸如“任一”、“一个”、“仅一个”、“正好一个”时，本文中使用的术语“或”仅应解释为表明排他性选择(例如“一个或另一个，但并非两者”)。当在权利要求书中使用时，“基本上由……组成”应具有在专利法领域中所使用的普通含义。

术语“包括”、“包含”、“具有”等可互换使用并且具有相同的含义。类似地，“包括”、“包含”、“具有”等可互换使用并且具有相同的含义。具体而言，每个术语的定义都与普通美国专利法对“包括”的定义一致，因此每个术语都被理解为开放性术语，其含义为“至少以下”，并且也被理释为不排除额外的特征、限制、方面等。因此，例如“具有部件a、b和c的装置”意味着该装置至少包括部件a、b和c。类似地，短语：“涉及步骤a、b和c的方法”是指所述方法至少包括步骤a、b和c。此外，尽管本文可以特定的顺序概述步骤和过程，但是本领域技术人员将认识到，所述顺序步骤和过程可能会有所不同。

如本文在说明书和权利要求书中所用，在提及一个或多个要素的清单时，短语“至少一个”应当理解为意味着从该要素列表中的任何一个或多个要素中选择的至少一个要素，但不一定包括该要素列表中具体列出的每一个要素中的至少一个，并且不排除该要素列表中的要素的任何组合。该定义还允许除了短语“至少一个”所指代的元素列表中具体鉴定的元素之外，可以任选地存在别的元素，无论与那些具体鉴定的元素有关还是无关。因此，作为非限制性示例，在一个实施例中，“A和B中的至少一个”(或等价地“A或B中的至少一个”、或等价地“A和/或B中的至少一个”)可以指至少一个(任选地包括多于一个)A，不存在B(并且任选地包括除B以外的元素)；在另一个实施例中，其可以指至少一个(任选地包括多于一个)B，不存在A(并且任选地包括除A以外的元素)；在又一个实施例中，其可以指至少一个(任选地包括多于一个)A和至少一个(任选地包括多于一个)B(以及任选地包括其它元素)等等。

如本文所用，术语“生物学样品”、“组织样品”、“标本”或类似的术语是指从包括病毒在内的任何生物体中获得的包括生物分子(例如蛋白质、肽、核酸、脂质、碳水化合物或其组合)在内的任何样品。其他生物体的实例包括哺乳动物(例如人类；兽类动物，如猫、狗、马、牛和猪；以及实验室动物，如小鼠、大鼠和灵长类动物)、昆虫、环节动物、蛛形纲动物、有袋类动物、爬行类动物、两栖类动物、细菌和真菌。生物学样品包括组织样品(例如组织切片和组织的穿刺活检)、细胞样品(例如细胞学涂片，如子宫颈涂片或血液涂片或通过显微解剖获得)，或细胞级分、碎片或细胞器(例如通过裂解细胞并通过离心或其他方式分离其组分获得)。生物学样品的其他实例包括血液、血清、尿液、精液、粪便、脑脊液、间质液、粘液、眼泪、汗液、脓液、活检组织(例如，通过手术活检或穿刺活检获得)、乳头抽吸物、耵聍、乳汁、阴道分泌物、唾液、拭子(例如口腔拭子)、或任何含有生物分子且从第一生物学样品导出的材料。在某些实施例中，本文使用的术语“生物学样品”是指从受试者获得的肿瘤或其一部分制备的样品(诸如经均质化或液化处理的样品)。

如本文所用，术语“生物标志物”是指在血液、其他体液或组织中发现的生物学分子，其作为正常或异常过程或病症或疾病(例如癌症)的标志。生物标志物可用于确定身体对疾病或病症的治疗的应答程度或受试者是否易患疾病或病症。在癌症的情况下，生物标志物是指指示体内癌症存在的生物学物质。生物标志物可以是由肿瘤分泌的分子或身体对癌症存在的特异性应答。遗传、表观遗传学、蛋白质组学、糖类和影像学生物标志物可用于癌症的诊断、预后和流行病学。可以在非侵入性收集的生物流体(例如血液或血清)中测定此类生物标志物。几种基于基因和蛋白质的生物标志物已用于患者护理中，包括但不限于AFP(肝癌)、BCR-ABL(慢性粒细胞白血病)、BRCA1/BRCA2(乳腺癌/卵巢癌)、BRAF V600E(黑素瘤/结直肠癌)、CA-125(卵巢癌)、CA19.9(胰腺癌)、CEA(结直肠癌)、EGFR(非小细胞肺癌)、HER-2(乳腺癌)、KIT(胃肠道间质瘤)、PSA(前列腺特异性抗原)、S100(黑素瘤)等。生物标志物可用作诊断(鉴定早期癌症)和/或预后(预想癌症的侵袭性和/或预测受试者对特定治疗的应答程度和/或癌症复发的可能性)。

如本文所用，术语“细胞颗粒”是指单个细胞或从细胞释放的细胞器。在一些实施例中，从细胞释放的细胞器是细胞核。在其他实施例中，从细胞释放的细胞器是含有细胞质物质的残余物的细胞核，其可用于鉴定核起源的细胞。例如，细胞角蛋白可以保持附着于核，并用作起源于肿瘤细胞的核的蛋白质标志物。

如本文所用，术语“克隆突变”是指存在于大多数细胞中的突变。

如本文所用，术语“ctDNA”是指从原发性肿瘤细胞、血液循环系统中循环性肿瘤细胞以及外周血中的坏死性或凋亡性肿瘤细胞或其任意组合中释放的游离DNA。

如本文所用，术语“升高的风险”是指与另一群体相比事件将发生的可能性增加。在本公开的上下文中，“处于快速疾病进展的升高风险的受试者”是指由于一种或多种突变(包括与不具有此类一种或多种突变的受试者相比的亚克隆突变)的存在而具有疾病快速进展的可能性增加的受试者(例如人类患者)。

如本文所用，术语“将...均质化”(homogenizing)或“均质化”(homogenization)是指一种过程(诸如机械过程和/或生化过程)，由此该过程使生物学样品达到使得样品的所有级分在组成上均相等的状态。代表性样品(如上所定义)可以通过去除已被均质化的一部分样品来制备。均质化样品(“匀浆”)应充分混合，使得去除一部分样品(等分试样)不会实质上改变剩余样品的整体组成，并且去除的等分试样的组分与剩余样品的组分实质相同。在本公开中，“均质化”通常将保持样品内大多数细胞的完整性，例如，均质化过程的结果是样品中至少50％的细胞不会破裂或溶解。在其他实施例中，均质化将保留样品中至少80％的细胞的完整性。在其他实施例中，均质化将保留样品中至少85％的细胞的完整性。在其他实施例中，均质化将保留样品中至少90％的细胞的完整性。在其他实施例中，均质化将保留样品中至少95％的细胞的完整性。在其他实施例中，均质化将保留样品中至少96种细胞的完整性。在其他实施例中，均质化将保留样品中至少97％的细胞的完整性。在其他实施例中，均质化将保留样品中至少98％的细胞的完整性。在其他实施例中，均质化将保留样品中至少99％的细胞的完整性。在其他实施例中，均质化将保留相同细胞中至少99.9％的细胞的完整性。匀浆可以基本上分解成单个细胞(或细胞簇)，并且所得的一种或多种匀浆基本上是均质的(由相似的元素组成或由其构成，或者整体上是均匀的)。

如本文所用，术语“淋巴结”是指淋巴系统的椭圆形或肾形器官，广泛存在于整个身体中，包括腋窝和胃，并通过淋巴管相连。淋巴结含有多种免疫细胞，包括但不限于B细胞和T细胞。在一些实施例中，淋巴结可含有隐藏的肿瘤细胞。

如本文所用，术语“新抗原”是由细胞的蛋白质组中通常不存在的肽所形成的抗原。术语“抗原”在本文中按其本领域的原样使用，并且是指在能够产生抗体的生物体中诱导抗体产生的分子或其部分。在一些实施例中，术语“新抗原”是指一类肿瘤抗原，其由表达的蛋白质中的肿瘤特异性突变产生。在一些实施例中，新抗原可以源自任何癌症、肿瘤或其细胞。在一些实施例中，该术语涵盖新抗原肽和编码新抗原肽的多核苷酸两者。并非所有抗原都可以引发免疫应答，因此术语“抗原性”与“免疫原性”不是同义的。同样，术语“抗原”与“免疫原”不是同义的。如本文所用，使用本公开的方法发现的新抗原可以是免疫原性的或可以不是免疫原性的。在一些实施例中，使用本公开的方法发现的新抗原是免疫原性的。在一些实施例中，使用本公开的方法发现的新抗原对一种宿主例如人宿主没有免疫原性，但是可以用于在其他宿主中生成抗体以治疗性地靶向它们。在一些实施例中，本公开的新抗原可以对细胞的每个单个的群体是特异性的。例如，从一个受试者获得的细胞群体可以含有与在从不同的受试者获得的细胞群体中含有的新抗原不同的新抗原。因此，尽管从不同受试者获取的两个细胞群体之间的细胞DNA可能相同或几乎相同，但细胞群体中所含有的新抗原却可能不同。因此，本公开可以应用于个性化用药的方法中。

如本文所用，本文所用的术语“核酸”是指由传递遗传信息的核苷酸链组成的高分子量的生化大分子。最常见的核酸是脱氧核糖核酸(DNA)和核糖核酸(RNA)。构成核酸的单体称为核苷酸。每个核苷酸由三个部分组成：含氮杂环碱基、嘌呤或嘧啶(也称为核碱基)；以及戊糖。不同的核酸类型在其核苷酸的糖结构上有所不同；DNA含有2-脱氧核糖，而RNA含有核糖。

如本文所用，术语“读段深度”或“测序深度”是指序列已被测序的次数(测序的深度)。例如，可以通过比对多个测序运行结果并在一定大小(例如100bp)的非重叠窗口中计数读取的起始位置来确定读段深度。可以使用本领域已知的方法基于读段深度来确定拷贝数变化。例如，使用Yoon等人(Genome Research 2009September；19(9)：1586-1592)；Xie等人(BMC Bioinformatics 2009Mar.6；10：80)；或者Medvedev等人(Nature Methods2009November；6(11 Suppl)：S13-20)所述的方法。

如本文所用，术语“代表性样品”和“代表性采样”是指一种样品(或样品的子集)，其准确反映整体组成并且因此该样品是对整个群体的无偏指示。通常，这意指代表性样品或其一部分中不同类型的细胞及其相对比例或百分比基本准确地反映或模拟了整个组织标本(通常是实体瘤或其部分)内这些细胞类型的相对比例或百分比。采样是固定对象的一部分以进行后续分析的操作。代表性样品以能够获得对所研究对象的相当接近的知识的方式来生成。相比之下，常规的随机采样方法通常不会产生“代表性样品”。虽然基于所选区域对从较大样品中选择较小的单个子样品可能产生偏差，但将大型样品(例如整个肿瘤或淋巴结)均质化，会导致空间分隔元素在整个样品中均匀分散。

如本文所用，术语“测序”或“DNA测序”是指用于确定DNA寡核苷酸中核苷酸碱基、腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶的顺序的生化方法。如本文中所使用的术语，测序可以包括但不限于平行测序或本领域技术人员已知的任何其他测序方法，例如链终止法、快速DNA测序法、游走点分析(wandering-spot analysis)、Maxam-Gilbert测序、染料终止剂测序，或使用任何其他现代的自动化DNA测序仪器。

如本文所用，术语“序列数据”或“测序数据”是指技术人员已知的关于核酸分子的任何序列信息。序列数据可以包括有关必须转换成核酸序列的DNA或RNA序列、修饰的核酸、单链或双链序列、或可替代地氨基酸序列的信息。序列数据可以另外包括关于测序设备、获取日期、读段长度、测序方向、已测序实体的来源、相邻序列或读段、重复的存在或本领域技术人员已知的任何其它合适的参数的信息。序列数据可以以本领域技术人员已知的任何合适的格式、档案、编码或文档来呈现。

如本文所用，术语“亚克隆突变”是指存在于少于100％的癌细胞中的突变，通常少于50％。亚克隆突变可存在于大多数肿瘤(即小于100％，但大于50％)中或存在于少数肿瘤(即小于50％)中。

如本文所用，术语“肿瘤”是指团块或赘生物，其本身被定义为细胞的异常新生长，这种细胞通常比正常细胞生长更快，并且如果不治疗将会继续生长，有时会导致对邻近结构的损害。肿瘤大小可能相差很大。肿瘤可以是实体的或液体填充的。肿瘤可以指良性(非恶性，通常无害)或恶性(能够转移)的生长。一些肿瘤可能包含良性赘生性细胞(例如原位癌)，同时还包含恶性癌细胞(例如腺癌)。应该理解为包括位于全身多个位置的赘生物。因此，出于本公开的目的，肿瘤包括原发性肿瘤、淋巴结、淋巴组织和转移性肿瘤。

如本文所用，术语“肿瘤样品”涵盖从肿瘤或从可能包含或怀疑包含癌细胞的样品制备的样品，或待测试癌细胞的可能存在的样品。在一些实施例中，肿瘤样品可以源自例如淋巴结。

如本文所用，术语“变体”或“基因变体”是指基因、基因组序列或其部分的替代形式。变体也可以指在蛋白质或RNA水平上对应于基因组变化。在一些实施例中，变体引起蛋白质序列中氨基酸的改变，但是还可以以其它方式，例如在RNA剪接、翻译或其它水平的转录或翻译调节方面影响蛋白质或细胞的功能或活性。“变体”也可以指这样一种多肽：其中序列与群体中在不改变编码的多肽的氨基酸序列(即保守变化)的位置处最普遍的序列不同。基因变体多肽可以由风险单倍型编码、由保护性单倍型编码或可以由中性单倍型编码。基因变体多肽可以与风险相关、与保护相关或可以是中性的。基因变体的非限制性示例包括移码、停止获得、开始丢失、剪接受体、剪接供体、停止丢失、错义、剪接区域、同义和拷贝数变体。拷贝数变体的非限制性类型包括缺失和重复。

用于测序的代表性样品的生成

输入样品和均质化

在一些实施例中，通过将样品放置在机械剪切设备(例如搅拌器或超声波仪)中，将肿瘤样品、淋巴结样品、血液样品和/或其他组织样品(统称为“输入样品”)均质化(步骤100)。

在一些实施例中，输入样品包括源自肿瘤样品、淋巴结样品、血液样品或其任意组合的细胞的代表性样品。在一些实施例中，输入样品源自人类患者或哺乳动物受试者：(i)被诊断出患有癌症，(ii)被怀疑患有癌症，(iii)有发展为癌症的风险；(iv)有癌症的恶化或复发的风险；及/或(v)怀疑患有癌症复发。在其他实施例中，输入样品源自健康的人类患者或哺乳动物受试者。

在一些实施例中，代表性样品是通过从受试者获得的大容量或大量的肿瘤样品(诸如临床肿瘤样品)或淋巴结进行均质化(步骤100)而获得的。例如，整个肿瘤或其实质部分可以用作生成代表性样品的输入材料。在一些实施例中，将至少40％的肿瘤或淋巴结(或其在去除用于其他诊断测试的部分(诸如去除可用于制备常规FFPE样品的部分)后剩余的部分)被用于均质化。在其他实施例中，至少50％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少60％的肿瘤或淋巴被用于均质化。在其他实施例中，至少70％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少80％的肿瘤或淋巴被用于均质化。在其他实施例中，至少90％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少91％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少92％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少93％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少94％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少95％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少96％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少97％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少98％的肿瘤或淋巴结被用于均质化。在其他实施例中，至少99％的肿瘤或淋巴结被用于均质化。在仍其他实施例中，整个肿瘤、整个淋巴结或整个淋巴结群体(或其一部分在去除用于其他诊断性测试的部分后残留，诸如去除可用于制备常规FFPE样品的部分)用于均质化。

代表性样品可以从实体瘤的完整肿瘤活检样品中生成。在一些实施例中，活检样品包含至少约100至约200个细胞。在其他实施例中，活检样品包含至少约200至约1,000个细胞。在仍其他实施例中，活检样品包含至少约1,000至约5,000个细胞。在进一步的实施例中，活检样品包含至少约10,000至约100,000个细胞。在甚至进一步的实施例中，活检样品包含至少约100,000至约1,000,000或更多个细胞。在一些实施例中，细胞获自肿瘤的空间上不同的区域。在另一个实施例中，本文公开的代表性实例是通过将一个或多个假定的正常组织标本均质化而获得的，所述正常组织标本例如源自具有患癌症风险的患者或哺乳动物受试者，包括由于遗传突变或先前癌症而处于患癌症风险的那些。如本文所用，术语“在空间上不同”是指分布在空间的不同区域中的元素。在一个实施例中，用于生成代表性样品的肿瘤活检样品取自肿瘤样品的不同区域。例如，肿瘤的近端相对于远端区域、肿瘤的不同面、肿瘤的不同层等，以捕获整个肿瘤内的多样性。

在一些实施例中，通过将样品放置在机械剪切装置(例如搅拌器或超声波仪)中，将肿瘤样品、淋巴结样品或其他组织样品均质化。在一些实施例中，均质化产生一系列组织碎片，每个组织碎片从数千到数百个细胞。在一些实施例中，组织碎片尺寸的中位数与搅拌器(或其他合适的装置)的能量呈负相关；使得在高能量下，组织碎片非常小。在一些实施例中，与搅拌器能量最相关的组织成分是胶原蛋白含量，因为真皮需要大量能量才能完全解离。在一些实施例中，混合的时间也很重要；然而，最有效的临床应用需要在几分钟内使整个肿瘤解离。一旦确定了混合时间，就可以轻松确定在所需时间限制内达到肿瘤解离所需的能量。制备肿瘤样品或淋巴结样品的其他方法在PCT公开号WO/2017/07976和美国专利公开号2018/0320229中公开，其公开内容据此通过引用整体并入本文。可以从均质化样品中去除等分试样，以用于制备用于测序的基因组材料，诸如本文进一步所述的。

在进行足够的机械剪切以分离肿瘤、淋巴结和/或其他组织样品后，最初在原始样品内空间隔离的所有肿瘤细胞的亚群会分布在整个新均质化样品中。即，由于将肿瘤、一个或多个淋巴结、血液或其任意组合均质化，肿瘤内细胞的任意异质性基本上是均质地(均匀地)分布在所得匀浆或其一部分或一级分内，使得匀浆(或其任意级分)基本上均质地表达了作为输入的肿瘤和/或淋巴结样品的异质性。通过将肿瘤和/或淋巴结均质化以生成代表肿瘤整体的样品(或匀浆)，在某些实施例中，可能表征肿瘤的特征(诸如异质性)，诸如如本文所述，通过对存在于均质化样品内的基因变体进行测序来进行。

在一些实施例中，输入样品源自足够数量的组织学切片和/或活检样品，例如，获自多个组织学切片和/或多个活检样品。在一些实施例中，源自组织学切片和/或活检样品的输入样品包含至少0.2微克的基因组材料。在一些实施例中，源自组织学切片和/或活检样品的输入样品包含至少0.3微克的基因组材料。在一些实施例中，源自组织学切片和/或活检样品的输入样品包含至少0.4微克的基因组材料。在一些实施例中，源自组织学切片和/或活检样品的输入样品包含至少0.5微克的基因组材料。在其他实施例中，源自组织学切片和/或活检样品的输入样品包含至少1微克的基因组材料。在其他实施例中，源自组织学切片和/或活检样品的输入样品包含至少5微克的基因组材料。在其他实施例中，源自组织学切片和/或活检样品的输入样品包含至少10微克的基因组材料。

在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少10倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少50倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少100倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少250倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少500倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大至少1000倍。在一些实施例中，用于公开的方法的输入样品内的基因组材料的量比用于传统的序列捕获方法的输入样品内的材料的量大于约1000倍。

均质化样品的后续处理

在一些实施例中，均质化样品在下游分析之前被进一步处理。例如，可以将细胞和/或基因组材料与均质化样品分离，诸如通过过滤匀浆。在一些实施例中，用一组不同尺寸(例如约20um、约10um等)的细胞筛网将匀浆过滤。在一些实施例中，在用细胞筛网过滤之前，金属网用于去除大的组织碎片。在一些实施例中，获得的经过滤的样品主要由可以用所需标志物染色的单个细胞(一些小的细胞聚集体，诸如双细胞)组成。

在一些实施例中，均质化样品或过滤的均质化样品中的细胞被裂解以释放细胞组分。例如，可以使用弗氏压碎器或类似类型的裂解装置、微流化器、磨削、研磨、化学或酶裂解和/或使用本领域已知的其他技术来裂解细胞。在一些实施例中，从含有细胞组分的样品中除去膜脂质和蛋白质(包括组蛋白)(例如通过添加表面活性剂或酶(蛋白酶))。另外，可以从含有细胞成分的样品中除去RNA(例如，用诸如核糖核酸酶的酶)。

均质化样品(或经过滤的均质化样品)可经进一步解离和/或处理，以提供解离的细胞、核和/或小的组织聚集体。通常，存在三种用于组织解离的主要方法，包括酶解离、化学解离和机械解离或其任意组合。通常基于组织类型和组织来源来选择解离方法。

酶解离是使用酶消化组织碎片从而从组织释放细胞的过程。在该过程中可以使用许多不同类型的酶，并且，如本领域技术人员将理解的，某些酶对某些组织类型更有效。本领域技术人员还将理解，任何酶解离过程可彼此结合使用一种或多种酶，或与其他化学和/或机械解离方法结合使用一种或多种酶。合适的酶的示例包括但不限于胶原酶、胰蛋白酶、弹性蛋白酶、透明质酸酶、木瓜蛋白酶、DNase I、中性蛋白酶和胰蛋白酶抑制剂。

胶原酶是一种蛋白水解酶，用于消化细胞外基质中发现的蛋白质。独特于酶蛋白酶，胶原酶可以攻击并降解结缔组织中常见的三螺旋天然胶原纤维。存在四种基本的胶原酶类型，即：1型，其适用于上皮、肝、肺、脂肪和肾上腺组织细胞标本；2型，由于其具有很高的蛋白水解活性，适合用于心脏、骨骼、肌肉、甲状腺和软骨肿瘤起源的组织；3型，由于其蛋白水解活性低，适用于乳腺细胞；和4型：由于其胰蛋白酶的活性，适用于胰岛和其他研究方案，在这些研究方案中，受体的完整性至关重要。

胰蛋白酶被描述为一种胰腺丝氨酸(一种氨基酸)蛋白酶，对涉及精氨酸和赖氨酸氨基酸的羧基的肽键具有特异性。它被认为是最高度特异性的蛋白酶之一。单独使用胰蛋白酶通常对组织解离无效，因为它对细胞外蛋白质的选择性极低。它通常与其他酶(例如胶原酶或弹性蛋白酶)结合使用。

弹性蛋白酶是另一种胰腺丝氨酸蛋白酶，其对中性氨基酸旁的肽键具有特异性。它在蛋白酶中具有水解天然弹性蛋白的独特能力。弹性蛋白酶也可以在血液成分和细菌中发现。在一些实施例中，它适合从肺组织中分离II型细胞。

透明质酸酶是一种多糖酶，这种酶通常在与诸如胶原酶等更天然的蛋白酶结合使用时，用于组织解离。它对几乎所有结缔组织中存在的键具有亲和力。

木瓜蛋白酶是一种巯基蛋白酶，它具有广泛的特异性，因此可以比胰腺蛋白酶(即胰蛋白酶或弹性蛋白酶)更彻底地降解大多数蛋白质底物。木瓜蛋白酶通常用于从组织中分离神经元物质。

脱氧核糖核酸酶I(DNase I)通常包含在酶细胞分离程序中，以消化渗漏至解离介质中的核酸并可应对增加粘度和回收率问题。不希望受任何特定理论的束缚，据信DNaseI不会破坏完整细胞。

中性蛋白酶，例如

(可从Worthington Biochemical获得)是一种具有轻度蛋白水解活性的细菌酶。

可用于分离原代和继代细胞培养物，因为它具有维持细胞膜完整性的能力。已经发现与上皮样细胞相比，其能更有效地分离成纤维细胞样细胞。它被EDTA抑制。

胰蛋白酶抑制剂主要来源于大豆，它使胰蛋白酶失活，因此有时用于特定的细胞分离方案。

化学解离利用阳离子参与细胞内键和细胞内基质的维持这一事实。通过引入结合这些阳离子的EDTA或EGTA，细胞间键受到破坏，从而允许组织结构的解离。

在一些实施例中，可通过本领域普通技术人员已知的方式来分离、提取或纯化DNA。例如，可以经由乙醇沉淀或苯酚-氯仿提取来提取DNA，之后离心以形成颗粒。在一些实施例中，可以在固相柱上分离或提取DNA。在一些实施例中，可以使用核酸结合珠粒来分离或提取DNA。在一些实施例中，可以基于物理、化学或电的性质通过选择性的通过多孔基质来分离或提取DNA。

提取的DNA(基因组材料)可以溶解在缓冲液中，例如碱性缓冲液，并作为用于测序的输入样品引入，如本文进一步解释。

均质化样品内细胞的任选的分选

在一些实施例中，来自步骤100的均质化样品在下游处理之前被进一步分选(步骤110)。在一些实施例中，使用细胞上存在的一种或多种生物标志物实行分选。在一些实施例中，在通过流式细胞术评估均质化样品之前，对解离的细胞和/或核进行标记或染色，以便可以鉴定不同的细胞类型。标记物或染色剂可以是可通过流式细胞术鉴定不同细胞类型的任何可检测标记物或报告部分，例如荧光标记物。例如，可以首先对均质化样品染色以检测一种或多种生物标志物的存在，然后可以基于细胞是染色的还是未染色的，利用流式细胞术对细胞进行分选。在一些实施例中，使均质化样品与一种或多种检测探针接触，其可以通过施加一种或多种检测试剂而可视化(参见例如PCT公开号WO/2017/085307，其公开内容通过引用整体合并于本文)。例如，在一些实施例中，所利用的检测探针对免疫细胞标志物是特异性的。作为进一步的实例，可以对细胞进行染色，以用于检测选自以下项的一种或多种生物标志物的存在：CD3、CD4、CD8、CD25、CD163、CD45LCA、CD45RA、CD45RO、PD-1、TIM-3、LAG-3、CD28、CD57、FOXP3、EPCAM和CK8/18。

在一些实施例中，使用基于尺寸的分选程序来实现分选。在一些实施例中，基于尺寸的分选步骤将解离的细胞颗粒分选为第一细胞颗粒群体和第二细胞颗粒群体，其中第一细胞颗粒群体富含肿瘤细胞，而其中第二细胞颗粒群体富含正常细胞。在一些实施例中，细胞颗粒是细胞，由此正常细胞的平均直径小于12μm，而由此肿瘤细胞的平均直径大于12μm。在一些实施例中，基于尺寸的分选步骤将解离的细胞颗粒分选为第一核群体和第二核群体，其中第一核群体富含肿瘤，而其中第二核群体富含正常的核。在一些实施例中，正常的核的平均直径小于8.5μm，而肿瘤的核的平均直径大于8.5μm。在一些实施例中，用微流体装置完成细胞颗粒的分选。在一些实施例中，基于尺寸的染色不需要染色步骤。基于尺寸的分选的其他方法描述于PCT公开号WO/2018/189040中，其公开内容据此通过引用整体并入本文。

用于测序的基因组材料的制备

在基因组材料的任选的分选之后，然后制备基因组材料用于测序(步骤120)。制备用于测序的基因组材料的方法描述于美国专利申请公开号2018/0320229中，其公开内容据此通过引用整体并入本文。在一些实施例中，将基因组材料片段化，以提供片段化的基因组样品。在一些实施例中，基因组材料的片段化之后是对片段化的基因组材料的末端进行修复或“抛光”。在一些实施例中，片段化的核酸样品(例如，片段化的基因组DNA、cDNA等)通过与5′端和3′端之一者或两者上的衔接子连接而被修饰。然后根据本领域普通技术人员已知的程序使基因组材料变性以分离互补的DNA链。

然后使变性的基因组材料进行杂交反应，其中该杂交反应混合物包括例如核酸序列与基因组材料内的靶标互补的DNA捕获探针、Cot1级分阻断DNA(以阻断非特异性杂交)以及阻断寡核苷酸(步骤200)。可以使用链霉亲和素包被的珠粒或表面对DNA捕获探针进行生物素化以进行后续固定，或直接固定在固体支持物(诸如微阵列)上。杂交之后，按照本领域已知的方法，从固体支持物上洗去未靶向的和未结合的核酸，并从微阵列或捕获珠粒或捕获表面洗脱结合的、靶向的核酸。在一些实施例中，在基因组材料与生物素化的DNA捕获探针杂交之后，将链霉亲和素包被的珠粒与杂交的基因组材料一起孵育，使得杂交的基因组材料经由链霉亲和素-生物素键固定，并且通过洗涤(珠粒捕获)去除任何非靶向的基因组材料(步骤210)。然后将捕获的基因组材料洗脱并提供以用于测序，或者在测序之前首先扩增捕获的基因组材料。

制备的基因材料的测序

可以根据本领域普通技术人员已知的任何方法来执行测序(步骤220)。在一些实施例中，测序方法包括Sanger测序和染料终止剂测序，以及下一代测序技术诸如焦磷酸测序、纳米孔测序、基于微孔的测序、纳米球测序、MPSS、SOLiD、Illumina、离子激流、Starlite、SMRT、tSMS、合成测序、连接测序、质谱测序、聚合酶测序、RNA聚合酶(RNAP)测序、基于显微学的测序、微流体Sanger测序、基于显微学的测序、RNAP测序、隧道电流DNA测序和体外病毒测序。参见WO2014144478、WO2015058093、WO2014106076和WO2013068528，其各自据此通过引用整体并入。

在一些实施例中，测序可以通过多种不同的方法来执行，诸如通过采用合成技术进行测序。根据现有技术的通过合成进行的测序被定义为在测序反应过程中监测在整合特定的三磷酸脱氧核苷后副产物的生成的任何测序方法(Hyman，1988，Anal.Biochem.174：423-436；Rhonaghi等人，1998，Science 281：363-365)。通过合成反应进行测序的一个突出的实施例是焦磷酸盐测序方法。在这种情况下，通过酶促级联监测核苷酸整合期间焦磷酸盐的生成，该酶促级联导致化学发光信号的生成。454基因组测序仪系统(Roche AppliedScience目录号.04 760 085 001)(通过合成进行测序的实例)是基于焦磷酸盐测序技术的。对于在454 GS20或454FLX仪器上进行测序，如产品文献中所述，平均基因组DNA片段尺寸分别在200bp或600bp范围内。

在一些实施例中，通过合成反应的测序可以可替代地基于测序反应的终止剂染料类型。在这种情况下，整合的染料脱氧核三磷酸(ddNTP)结构单元包含可检测的标记，该标记优选是阻止新生DNA链进一步延伸的荧光标记。然后例如通过使用包含3′-5′核酸外切酶或校对活性的DNA聚合酶将ddNTP结构单元整合到模板/引物延伸杂合物中来去除和检测标记。

在一些实施例中，使用诸如由Illumina，Inc.(“Illumina测序方法”)提供的下一代测序方法来执行测序。不希望受到任何特定理论的束缚，Illumina下一代测序技术使用克隆扩增和合成测序(SBS)化学技术来实现快速、准确的测序。该过程同时鉴定DNA碱基，同时将其整合到核酸链中。每个碱基在添加到生长链中时都会发出独特的荧光信号，该信号用于确定DNA序列的排序。

测序数据集

测序之后(步骤220)，可以分析测序数据，从而可以鉴定多个基因变体，即可以在源自对均质化样品进行测序的测序数据内鉴定基因变体。在一些实施例中，鉴定的基因变体可以是克隆的或亚克隆的。在一些实施例中，Mutect用于检测测序数据内的变体(参见https//software.broadinstitute.org/cancer/cga/mutect；也参见美国专利公开号2015/0178445，其公开内容据此通过引用整体并入本文)。

在一些实施例中，新抗原源自经鉴定的基因变体(步骤300)。在一些实施例中，新抗原的衍生使得能够进行药物发现、疫苗生成和/或CAR-T细胞工程(步骤301)。例如，Ott等人″An immunogenic personal neoantigen vaccine for patients with melanoma，″Nature，Vol.000，00Month 2017，doi：10.1038/nature22991(其公开内容据此通过引用整体并入本文)描述了针对新抗原生成疫苗的过程。同样地，Sahin等人，″Personalized RNAmutanome vaccines mobilize poly-specific therapeutic immunity againstcancer，″Nature，Vol.000，00Month 2017，doi：10.1038/nature23003(其公开内容通过引用整体并入本文)描述了一种基于RNA的多新表位方法，以针对人类中多种癌症突变调动免疫力。这样，在一些实施例中，根据本文所述的方法对均质化的肿瘤样品进行测序后，可以基于衍生的一种或多种新抗原来生成疫苗。在一些实施例中，该方法进一步包括向受试者施用有效量的疫苗。

在其他实施例中，可以基于经鉴定的基因变体来开发ctDNA监测组(步骤310)。在一些实施例中，该ctDNA组可用于监测可能导致远端复位的基因变体(步骤311)。

在仍其他实施例中，可以基于所鉴定的基因变体来计算克隆结构(步骤320)。在一些实施例中，经计算的克隆结构可用于评估截断变体和亚克隆变体之间的分离(步骤321)。

实例

当前的肿瘤测序方法受到物理采样偏差的阻碍，其中输入组织仅从狭窄的空间框架中抽出，这将错过在其他远端位置扩展的亚克隆。这是无法通过过多的测序深度解决的难题。为了检查该问题的严重程度，我们对癌症基因组图谱的泛癌测序数据进行了分析，结果显示，当前方案平均仅采样到肿瘤块的2.3％(所有阶段的中值，n＝1，667个样品)，对于IV期肿瘤，其降低至0.5％(中值，n＝181)(图4A)。我们通过在主要癌症治疗中心内对随机选择的病例审核进行分子谱分析作为标准治疗的一部分，在常规的临床背景下进一步研究了这种模式(请参见方法)。这表明中位数肿瘤采样比例仅为0.0005％(n＝76例)(图4B)，反映出可从标准病理学肿瘤载玻片获得的最少输入材料。剩下的99.9％+的肿瘤组织出于分子谱分析的目的未进行采样，从而导致高水平的欠采样。Pierre Gy开发的“采样理论”充分说明了采用非代表性采样方法的陷阱¹，并已在食品污染、选举投票和采矿业范围内的多个领域得到了实践证明^2-4。在肿瘤测序的情况下，这种偏差是在肿瘤内异质性的背景下出现的，这种异质性是癌症的一个有据可查的特征^5-7，再加上分子谱分析作为对患者进行靶向治疗或免疫疗法治疗的一种工具，其效用不断提高⁸。无法解决这个问题可能会破坏基因组医学在癌症中的临床效用；通过降低的检测免疫疗法的预后标志物或新抗原靶标的敏感性，活检结果之间的测序结果缺乏可重复性，并且由于有偏差的变体等位基因频率值，亚克隆变体作为克隆被误分配。经常提出的解决方案是进行多区域采样，尽管这可能在研究环境中进行⁵，但对于大规模临床实践而言可能过于昂贵且劳动密集。此外，由于患者之间的肿瘤异质性差异很大，因此无法回答“应进行多少次活检”这一反复出现的问题。我们假设可以采用一种新的采样方法学来克服这些局限性，方法是利用残留的手术材料来创建更广泛、更具代表性的采样范围，从而无需增加测序深度即可获得更好的结果，也无需针对每个肿瘤进行多个样品分析。

为了首先检验该假设，我们进行了一项中试实验，通过合并从n＝1，184个多区域活检(从n＝79个原发性实体瘤中)中提取的DNA来扩大采样范围，以为每个肿瘤创建“混合”溶液(图4C)。对合并的混合样品进行下一代测序(中位数深度＝674X)，并将突变检出与先前生成的单次活检(反映当前临床实践，中位数深度＝608X)以及多区域活检(真值集)数据(中位数深度＝612X)进行比较。通过相同的方案处理所有样品(参见方法)。在所有79个肿瘤中，混合样品发现真值集突变的中位数为100％(范围[30％-100％])，与之相比，单个活检样品的中位发现率仅为73％[15％-100％]，其支持以下假设：更宽泛的采样范围可提高检测变体的灵敏度(p＝6.6x10^-11，配对的Wilcoxon检验，图4E和图4F)。此外，源自混合样品的变体等位基因频率(VAF)与多区域测序的真实VAF值具有很强的相关性(r＝0.97)，相对于单次活检采样所获得的相关性，具有更高的相关性(r＝0.69)(图4D)。这表明更宽的采样范围提供了对整个肿瘤块中真实细胞突变发生率的更准确估计，这是预后性生物标志物和预测性生物标志物两者的重要考虑因素。

基于这些试验结果，我们接下来寻求开发一种新型的肿瘤采样方法学，以允许对从尽可能宽的采样范围中提取的输入材料进行测序。在这里，我们演示了一种称为“代表性测序”(Rep-Seq)的新方法，该方法包括将实体瘤块均质化为充分混合的溶液，并结合下一代测序(图5A)。肿瘤块的来源是手术之后未用于病理学评估的全部残留肿瘤材料，否则这些材料将被视为临床废物并被破坏。残留样品平均占肿瘤总体积的54.8％，并且每个肿瘤平均提供223.5g组织(基于我们的病例试验群，请参见表S1)。这些值相对于0.0006％的采样平均值和0.0001g的肿瘤组织显著增加，当前用作标准分子谱分析方法中的采样范围。在将福尔马林固定的残留肿瘤组织从周围正常组织中解剖之后，将残留肿瘤块均质化为代表性溶液。

从这种充分混合的溶液中，提取样品用于DNA提取、文库制备和测序(图5A)。Rep-Seq在概念验证的基础上应用于来自4种不同癌症类型的11种肿瘤中(表S1)。第一个经处理的肿瘤是Rep-Seq1，这是一种大型透明细胞肾细胞癌(ccRCC)肿瘤(最大尺寸为17cm)，其经过选择可广泛采样用于交叉验证。从原发性肿瘤中总共采集了68份新鲜的冷冻单个的活检，并根据Rep-Seq方案对剩余的福尔马林固定的残留块(1258克组织)进行均质化。为了确定该肿瘤中的变体情况，首先对7种在空间上不相干的原发性活检和Rep-Seq样品的等分试样(中位数162x深度)进行选择进行了全外显子组测序(WES)，从而发现了总共76种非同义突变(SNV和小规模插入/缺失)。

随后在目标自定义组中捕获了这76种突变，并在68处原发性活检、从2个淋巴结转移瘤获取的11个活检、4个生物学Rep-Seq重复(原发性肿瘤)、在不同时间点收集的6个循环肿瘤(ct)DNA样品以及3个均质化的淋巴结Rep-Seq样品(一个淋巴结未用于活检采样)以高深度(中位数15，402x深度)进行测序(图5B)。靶向自定义组的开发描述于US公开号2009/0246788中，其公开内容据此通过引用整体并入本文。该集成数据集用于全面评估Rep-Seq方法学(图5C)。首先，我们评估了每种方法的可重复性，比较了原发性肿瘤活检的成对组合相对于Rep-Seq的成对生物学重复以及ctDNA时间点的成对组合之间的Jaccard相似性指数。活检之间的中位数成对相似性为0.77，这表明在单个活检中发现的大约四分之一的突变无法在随后的活检样品中重现。相比之下，在0.95(p＝9.9x10^-7，图5D)处的Rep-Seq重复之间的中位数相似性显著更高，其中每个重复都发现了几乎相同的突变列表(图2c)。血浆ctDNA样品之间的成对相似性很低(总体中位数相似性指数＝0.24，图5C至图5D)，其反映了ctDNA分析中的技术挑战。

此外，还应认识到肿瘤在ctDNA时间点上的持续时间演变，然而我们注意到，即使在接近的时间点(例如，P16和P20相距仅21天)之间有实质性差异，但没有共同的突变。通过Rep-Seq检测到的突变主要是克隆性的(在每个癌细胞中)或主要亚克隆中的事件，而活检测序经常检测到低频的次要亚克隆性改变，其仅存在于一小部分肿瘤细胞中。次要的亚克隆突变已得到充分记录，并且在研究环境中经常引起人们的兴趣(参考文献)，然而对于临床效用而言，明确鉴定真正的克隆变异和高水平的可重复性通常是更重要的目标。此外，较宽的采样范围(其检测克隆性的和主要的亚克隆突变)的好处，相对于单活检分析，可导致更高的总体变体检测率(因为后者会错过空间上远端肿瘤区域中存在的亚克隆突变)。在个性化的过继细胞疗法或疫苗免疫疗法的设计中，更高的突变检测率可能尤为重要，并且我们注意到，使用Rep-Seq方法发现的新抗原的平均数量显著更高(+19％)(跨Rep-Seq生物学重复的新抗原平均值＝185，经测序的单个活检的平均值＝155，p＝0.011，图7)。

接下来，我们研究了Rep-Seq在确定克隆结构中的效用，因为已经表明克隆多样性的衡量与预后相关^9，10。首先针对Rep-Seq1原发性肿瘤活检集(n＝52个通过克隆质量控制的活检)内的所有突变(n＝76)计算癌细胞级分(CCF)估计值，然后分组为突变簇以推断出真值基准的克隆结构(请参见方法)。检测到四个不同的肿瘤克隆：克隆A(截断克隆，每个癌细胞CCF中的突变＝100.0％，n＝41个突变)、及(亚)克隆B(CCF＝45.6％，n＝6个突变)、C(CCF＝52.8％，n＝3个突变)以及D(CCF＝17.1％，n＝2个突变)(图6A)。对单独的Rep-Seq样品重复进行聚类过程(n＝1)，然后在方法之间比较克隆溶液(图6A)。Rep-Seq将所有41个克隆突变正确地聚类到截断克隆A(CCF＝100.0％)中，并且鉴定出主要(亚)克隆B(CCF＝40.6％)以及C(CCF＝33.3％)(图6A)。在Rep-Seq样品中未检测到最低频率的亚克隆(克隆D，CCF＝17.1％)作为不同的簇，这反映了在将低频突变准确分组上的挑战。通过空间活检位置和突变存在的物理映射、返回到肿瘤切片的图像，验证了从这两种方法得出的癌细胞级分估计值：在52例原发性活检中发现有20个(亚)克隆B(38.4％)，而在52例中发现有32个(亚)克隆C(61.5％)(图6B)。这证实了两个主要的、空间上不同的亚克隆的存在。有趣的是，淋巴结转移瘤LN1和LN2仅由克隆B播散，而空间近端肾周淋巴结样品LN(PR)是多克隆性的，存在有克隆B和克隆C。

接下来考虑每个样品内的单个突变CCF，以便评估分开的截断事件(即，每个癌细胞中克隆的或存在于每个癌细胞中的突变)(克隆A)来自亚克隆突变(克隆B和克隆C)的程度如何。在Rep-Seq样品内，克隆事件(克隆A)的CCF估计值与(亚)克隆B和(亚)克隆C明显分离，其反映了Rep-Seq中CCF估计值向真实值的快速收敛(图6C)。相比之下，单个样品活检中的CCF分布在克隆A、B和C之间重叠，其中亚(克隆)B和C在

的单个活检中经常作为克隆出现(不正确)(“克隆性错觉”)。平均而言，在52个原发性活检中，当将17％(范围[6％-35％])的克隆变体视为单区域时，会遭受克隆性错觉(图6D)(包括所有76个突变，请参见方法)。

即使进行多区域活检采样，仍然存在一种克隆性错觉；其中模拟显示，两次随机活检产生的克隆性错觉为9％[0％-25％]，三个＝6％[0％-25％]，四个＝4％[0％-15％]以及五个＝3％[0％-15％](图6D)。此外，由于沿z轴进行了三维采样，因此这些结果很可能代表对克隆率真实错觉的保守估计。我们注意到，如果仅在切片4上进行了正常的二维肿瘤切片采样，而切片4对于克隆C是单克隆性的，则没有任何活检数可以阻止克隆性错觉(图6B)，并且令人担忧的是克隆B(其转移至淋巴结)将被完全错过。

鉴于液体活检的广泛适用性，以及先前的研究表明可以鉴定出克隆突变和亚克隆突变两者¹¹，一个相关的问题是与原发性肿瘤的代表性采样相比，血浆中的ctDNA样品在多大程度上代表了真正的克隆多样性。利用具有特征明确的原发性肿瘤和6个纵向ctDNA时间点的机会，我们调查了这个问题。在手术前的时间点(P1和P10)，克隆A、B和C的变体都可以在0.1％-1.0％的VAF处被检测到，然而错过了许多变体，包括一些克隆A截断事件，这反映了对ctDNA进行分析的技术挑战。克隆A内的平均VAF总体上高于(亚)克隆B和C，然而就单个变体和跨时间点观察到较大的不一致(图6E)。在手术后时间点P16，最高的VAF变体实际上来自克隆C，并且类似地在时间点P20，克隆B的突变最高，均高于任何克隆A的截断突变(图6E)。然而，在稍后阶段的时间点(尸检时)，以高度一致的VAF频率检测到所有克隆性突变(图6E)。

来自ctDNA的VAF的相关性系数，与存在突变的活检计数相比，范围从r＝-0.17(时间点P16)到r＝0.78(尸检胸膜液)之间。Rep-Seq CCF与活检计数数据相关性最高，其中r＝0.90。这表明仅从ctDNA推断从头克隆结构仍然具有挑战性，然而先前已从肿瘤组织中鉴定出的追踪克隆标志物仍然具有很高的信息价值(例如，对于微小残留病追踪(MRD))。我们注意到，在MRD跟踪的背景下，较大的变体组可能会提高检测更早期时间点复发的敏感性，例如在时间点p16的Rep-Seq1数据中，与使用Rep-Seq样品的漏检率为0％相比，单次活检设计的MRD组有53％的时间错过了疾病复发(表S2)。就Rep-Seq1的克隆动力学而言，观察到一种有趣的模式，其中克隆C在稍后的ctDNA时间点消失并变得不可检测(图6E)。这支持了通过活检和Rep-Seq分析确定的预测转移性播散模式，即克隆B实现了远端转移播散，而克隆C包含在肾(周)区域内(图6B)。作为额外的验证，还对另外43份活检进行了拷贝数分析，这些活检采样自Rep-Seq1尸检时存在的20种不同的转移性疾病的解剖部位。所有位点都含有14q的丢失，这是仅在原发性肿瘤的克隆B中发现的驱动事件(图8)。我们注意到在单区域活检测序中；转移性克隆B将在52个中丢失32次(61.5％)。

作为技术可行性研究，在另外10个病例中还进行了Rep-Seq方法。病例Rep-Seq2和Rep-Seq3是额外的ccRCC肿瘤，并且似乎主要具有单克隆结构(图6F)。病例Rep-Seq4至Rep-Seq10是乳腺、结直肠和肺原发性部位的肿瘤，并且在所有标本中均成功检测到了肿瘤特异性驱动突变。在Rep-Seq7(结肠)中观察到最高的突变负荷，具有980/251个非同义SNV/Indel，以及存在与错配修复缺陷相关的COSMIC突变特征6和15(图6G)，其由显示丢失MHL1的IHC来证实。三种非小细胞肺癌(NSCLC)肿瘤(Rep-Seq8、Rep-Seq9、Rep-Seq10)的特征分析显示仅在这三种肿瘤中独特地存在特征4(吸烟相关)的证据(图6G)。因此，源自Rep-Seq的突变特征与预期模式相一致。最后，组织均质化的额外好处是能够在细胞分选步骤中添加，以富集从而得到更高的肿瘤纯度。

作为原理的证明，对Rep-Seq11(结直肠肿瘤)进行了流式分选，基于细胞角蛋白8和18的存在优先选择肿瘤细胞。首先对来自Rep-Seq方案的标准样品(未分选，深度221X)进行全外显子组测序，其结果显示肿瘤纯度为0.44。在相同的总批量样品测序深度和成本下，在流式分选的Rep-Seq样品(深度215X)中观察到了显著的富集，其中纯度为0.89，这导致有效肿瘤细胞测序的覆盖范围大约翻了一倍(从90X到184X)(图6H)。在变体发现方面，在标准样品和流式分选样品两者之间共观察到365个非同义SNV，然后在流式分选样品中独特地发现了额外68个突变(增加+19％)，这可能是由于从更高的有效肿瘤深度的灵敏度提高(图6H)。仅发现5个突变(占总数的1.4％)具有相反的模式，即存在于标准样品中但在流式分选中缺失，这表明流式分选不会产生系统性偏差，从而排除了某些肿瘤亚克隆。

总之，Rep-Seq有效地实施了无偏差的肿瘤采样方法，从所有残留的手术肿瘤材料的充分混合的均质化溶液中提取DNA分子，从而消除了当前单区域和多区域活检方法固有的空间偏差。我们表明，更宽的采样范围会导致整体上提高检测突变的敏感性，其中权衡降低分辨率以检测较小的(亚)克隆，但是获得了全面确定所有主要亚克隆的位置的能力。这种权衡在临床背景下是可以接受的，在这种情况下，较低频率的突变可能不如广泛扩展的克隆性或主要亚克隆性驱动事件那么直接起作用。Rep-Seq中结果的可重复性显著高于当前的单活检测序方法(在相同的等效测序深度下)，并且从亚克隆变体确定克隆中也获得了更高的准确性。

材料和方法

研究群

如前所述，病例Rep-Seq1、Rep-Seq2和Rep-Seq3被诊断出患有肾细胞癌，并经TRACERx肾脏研究(国家卫生服务研究伦理委员会批准11/LO/1996)同意进行研究⁵。病例Rep-Seq4、Rep-Seq5、Rep-Seq6、Rep-Seq7、Rep-Seq8、Rep-Seq9、Rep-Seq10和Rep-Seq11的残留手术材料获自经IRB批准的美国医院的研究标本的商业供应商(GLAS Consultants，Winston-Salem，NC.(IRB#：120160685)和The MT Group，Van Nuys，CA(MTG-015))。

当前分子谱分析实践的临床审核

获得用于服务评估的机构审查委员会的批准，以将肿瘤体积量化作为切除的结直肠癌、黑素瘤和肉瘤肿瘤中的常规诊断护理标准(SE725)，其中手术和分子谱分析两者均由英国伦敦的皇家马斯登NHS基金会进行。获得了从2016年5月至2018年5月的病例清单用于每个肿瘤类型并进行回顾。如果在组织病理学报告中记录了>2个肉眼可见的肿瘤尺寸，并且如果可获得关于用于分子谱分析的载玻片的数量和厚度的信息，则纳入病例。

区域活检和混合样品的制备

使用与前述相同的方法对手术切除的肿瘤组织进行多区域和单区域的活检采样⁵。通过以等摩尔比将从每个肿瘤的所有单区域中获取的提取DNA进行合并，为每个肿瘤创建混合样品(如图4A至图4F所示)。每个混合物合并了9个单区域样品的中位数。

Rep-Seq1组织的总和和均质化

诊断性组织学采样以及去除新鲜活检之后，从肾脏根治性肾切除术(Rep-Seq1)中分离出三个不同的临床手术废物组织，其含有：1)原发性肿瘤，2)主动脉旁淋巴结簇，以及3)在10％中性缓冲的福尔马林中固定24小时以模仿标准临床工作流程的肾门的节点。固定后，将样品更换为磷酸盐缓冲盐水(PBS)进行24小时，然后保存在乙醇中直至被解剖。病理学家通过宏观评估和物理触诊来鉴定肿瘤组织，并将所有可鉴定的肿瘤从周围组织解剖。病理学家还解剖并保留了正常组织的区域(距肿瘤至少5cm)。在对Rep-Seq1标本进行大体检查期间检测到的淋巴结包括肺门和肾周淋巴结，也被解剖为独立的组织样品。在均质化之前，将所有解剖的组织称重。

将残留的原发性肿瘤组织划分成两份，每份625g；将每份与600ml autoMACSRunning Buffer(Miltenyi Biotec Inc.，130-091-221)合并，并在流化器中以最高设置将其均质化3分钟。将原发性肿瘤匀浆(总共2.5升)手动混合并在塑料容器中混合、分开并再次液化以进行额外的均质化和混合，并合并在一起放入一个大的塑料容器中。使用一次性混合容器用IKA Tube Mill(IKA Works Inc.Wilmington North Carolina，0004180001)在autoMACS Running Buffer(1∶1，质量∶体积)中以15,000rpm运行2分钟，分别将肾门肺淋巴结、肾周淋巴结、正常肾组织和主动脉旁淋巴结的分离组织各自进行均质化。当组织质量超过单个搅拌器容器的容量时，通过如上所述的混合将同一样品的匀浆进行合并。将每种组织匀浆的样品在4℃储存在甲醇(1∶1，v∶v)中。病例Rep-Seq2和Rep-Seq3仅是原发性肾肿瘤，并通过相同方案进行处理。

残留组织(SMRT)处理的标准方法

对于病例Rep-Seq4到病例Rep-Seq11、福尔马林固定的、残留的肿瘤组织获自经IRB批准的美国医院的研究标本的商业供应商(GLAS Consultants，Winston-Salem，NC.和The MT Group，Van Nuys，CA)。为了诊断和分期，每个标本都经过了标准化采样。这些病例被认为是手术废物并将准备焚烧，因此被保存在福尔马林中四到六周。到达后，将组织转移至PBS中12至24h。病理学家通过宏观评估和物理触诊来鉴定肿瘤组织，并将所有可鉴定的肿瘤从周围组织解剖。病理学家还解剖并保留了正常组织的区域(远离肿瘤至少5cm)。在均质化之前，将所有解剖的组织称重。将解剖后的肿瘤和正常组织分别在一次性搅拌器容器(IKA Works Inc.Wilmington North Carolina，0004180001)中或一次性消费级搅拌器(Hamilton Beach，51102，Glen Allen，VA)中，在autoMAC缓冲液(1∶1，m∶v)于15,000rpm下持续2分钟进行均质化。过滤器来自Pluriselect(San Diego，CA)。使用的缓冲液来自以下公司：CC1(950-124；Ventana Medical Systems，Tucson，AZ)、抗体稀释剂(251-018，Ventana Medical Systems)、autoMACS缓冲液(130-091-221，Miltenyi Biotech，Teterow，Germany)、磷酸盐缓冲盐水(PBS，14190，Fisher Scientific，USA)。Tween 20购自美国Fisher Scientific(AC233362500)。DAPI(D9542)和胃蛋白酶(P7012)购自美国Sigma。蛋白酶K(0706)来自美国VWR。小鼠抗细胞角蛋白8/18抗体(760-4344)来自Ventana MedicalSystems。与Alexa Fluor 488(A-11001)和Alexa Fluor 647(A-21236)缀合的山羊抗小鼠抗体购自Invitrogen。将所得匀浆在4℃储存直至进一步处理。

从组织和cfDNA中纯化基因组DNA

通过离心5000rcf 2分钟收集每个组织匀浆的等分试样(1200微升)，用pH 8.0的TE缓冲液(VWR，AAJ62745-EQE)冲洗两次，并在5ml的蛋白酶消化缓冲液[9.75ml pH 8.0的TE缓冲液、60mg蛋白酶K(VWR，0706)以及0.25ml 20％SDS的水溶液(Amresco，0837)]中在56℃孵育2-16小时。根据制造商的方案，将消化的组织(100微升)用于通过High Pure PCR纯化试剂盒(Roche Applied Sciences，Mannheim Germany，11 732 668 001)进行基因组DNA纯化。使用NanoDrop 8000(Thermo Fisher Scientific)对纯化的基因组DNA进行定量，并保存在-20℃。使用cobas cfDNA样品制备试剂盒(Roche，07247737190)从血浆中分离cfDNA。

富含靶标的NGS文库的构建和测序

使用《SeqCap EZ HyperCap工作流程用户指南》，v1.0(Roche SequencingSolutions)，从组织的基因组DNA中构建与Illumina兼容的索引NGS文库，并指定以下规定参数。简短地说，将1g纯化的基因组DNA在37℃酶促片段化33-40分钟，并根据制造商的说明(Roche Sequencing Solutions，KK8514)使用KAPA HyperPlus文库制备试剂盒制备用于衔接子的连接。SeqCap测序衔接子的最终反应浓度为2M，并且衔接子连接反应时间在16℃延长至14-18h。连接反应纯化之后不使用预捕获的PCR。根据制造商说明，适用于MedExome(07681330001)、Onco_EZ(08333076001)或特定于定制Rep-Seq1的SeqCap EZ文库探针诱饵(请参阅下面的数据分析部分以了解设计标准)靶标富集组(Roche SequencingSolutions)和2nM阻断寡核苷酸(Roche Sequencing Solutions)在47℃孵育18-22小时。捕获后的PCR使用KAPA HiFi HotStart ReadyMix和LM-PCR寡核苷酸执行14个循环。捕获后的纯化的文库浓度由Qubit(ThermoFisher)确定，并且片段尺寸分布由Bioanalyzer 2100(Agilent)分析。将扩增的富集文库各自稀释至2nM，并在合并进行测序之前保存在-20℃。根据生产商的建议，使用MiSeq和HiSeq仪器(Illumina)对合并的文库进行测序，以使用(Illumina)运行101个碱基配对末端的读段进行配对末端测序。遵循AVENIO ctDNA分析试剂盒试剂工作流程用户指南v1.0.0，使用AVENIO ctDNA靶向试剂盒(Roche，08061076001)构建cfDNA测序文库。使用Vacufuge plus仪器(Eppendorf)将扩增的、衔接子连接的样品与杂交补充液一起浓缩。将每个样品重悬于适当的增强的寡核苷酸、定制的Rep-Seq1专用组和杂交预混液中。根据制造商的说明执行富集、杂交清除和扩增。将样品(等质量)合并，并根据说明使用Hiseq(Illumina)用151个碱基配对末端读段进行测序。如图1所示，使用先前描述的方法，对来自79个肾细胞癌的多区域、混合区域和单区域样品，进行了肾脏驱动程序Panel_v6文库的制备和测序⁵。Rep-Seq1的多区域全外显子组文库制备和测序由外部实验室(Eurofins Scientific)，使用Agilent SureSelect Human All Exon v5试剂盒进行。

流式分选方法以提高肿瘤纯度

在autoMACS缓冲液(1∶1的质量体积比)中，通过在IKA搅拌器中匀浆，生成来自Rep-Seq11的福尔马林固定的残留肿瘤组织的代表性样品。通过采用前述方法，将匀浆的等分试样(1g)进一步解离为单个核¹²。简而言之，通过离心收集组织，将其重悬于CC1缓冲液(5∶1的质量体积比)中，并在80℃加热30分钟。将组织用PBS洗涤一次，然后重悬于含1mg/ml蛋白酶K(1∶1的质量体积比)的PBS中，并在50℃孵育10分钟。将样品更换为在150mM NaCl(pH1.5)中的5mg/ml的胃蛋白酶，并在37℃孵育30分钟。用5M NaOH将样品调节至pH 8，并更换为PBS、0.5％BSA和0.5％Tween 20，然后通过20微摩尔过滤器过滤以收集核。

然后通过400×g离心，并更换成抗体稀释剂在20℃持续30分钟来收集核。将样品直接从分配器中更换成小鼠抗细胞角蛋白8/18初级抗体在4℃持续1小时，在0.5ml PBS、0.1％BSA和0.1％Tween 20中洗涤三次，并在4℃在与Alexa Fluor 488或Alexa Fluor 647(2微克/ml)以及DAPI(3μM)缀合的山羊抗小鼠抗体中孵育30分钟。使用BD FACS Aria(656700，Becton Dickinson)进行分析和分选之前，将染色的样品洗涤并过滤，该BD FACSAria配备有355nm，60mW激光器和450/50nm滤光器用于DAPI；488nm，60mW激光器和530/30nm滤光器用于AF 488；以及633nm，100mW激光器和670/30nm滤光器用于AF 647。没有使用任何补偿。DAPI用于双重识别。门控后，Rep-Seq11肿瘤核通过FACS进行富集，该门控包括细胞角蛋白阳性(CK+)、高侧向散射(SSC)核，而排除细胞角蛋白阴性(CK-)、低SSC核。

数据与统计学分析

肿瘤体积采样分析

对于临床审核数据，所有样品均具有可用的宽度(W)和长度(L)尺寸的数据，并使用以下公式估算肿瘤体积(T_V)：

T_V＝(W²×L)/2

(取自文献，是最准确的肿瘤体积测量方法¹³)。

基于8个典型载玻片的2D表面积分析，计算活检体积(B_V)，其中每个载玻片均使用Aperio AT2全载玻片扫描仪以40x扫描。手动标注每个图像，跟随组织的周长，并经由使用Aperio ImageScope软件来计算表面积。平均表面积为3.37cm²，并将此值乘以载玻片厚度(10μm)以及所用载玻片的总数，以获得每个肿瘤的B_V估计值。我们注意到，在使用多个载玻片用于分子谱分析的情况下(最多使用5个)，每个载玻片均取自同一区块(即全部取自一个固定的空间位置)。然后将每种情况下采样的总肿瘤体积的比例简单地计算为B_V/T_V。对于癌症基因组图谱(TCGA)数据集分析，我们从Broad Institute TCGA GDAC Firehose存储库中提取了每个实体瘤群的摘要性临床注释文件。共有6种肿瘤类型的n＝1667个样品的肿瘤尺寸数据可用：ACC、KICH、KIRC、KIRP、PAAD和THCA。根据上述，肿瘤体积(T_V)使用以下公式进行计算：T_V＝(W²×L)/2。在仅给出一个尺寸(即最大尺寸)的情况下，将其假定为肿瘤长度，并使用1∶0.8的L∶W比率来估算肿瘤宽度，其中0.8标准值估算为用可用的长度和宽度数据在所有情况下观察到的中位数比率值。根据在临床注释文件中给出的确切长度(L)、宽度(W)和深度(D)尺寸来计算活检样品体积，其中活检形状假定为长方体，并且活检体积(B_V)计算为B_V＝L×W×D。在临床注释文件中缺少活检尺寸的情况下，基于可获得数据的所有其他基准的中值，假定标准活检体积(B_V)为0.48cm³。然后将每种情况下采样的总肿瘤体积的比例简单地计算为B_V/T_V。

测序数据处理

使用Burrows-Wheeler Aligner(BWA)v0.7.15，将由Hiseq测序的FastQ格式的配对末端读段与参考人类基因组(build hg19)进行比对，其中播散递归(-c flag)设置为10000¹⁴。使用Samtools v1.3.1执行Sam文件的中间处理，并使用Picard 1.81(http:// broadinstitute.github.io/picard/)执行重复数据删除。对于全外显子组和肾脏驱动程序Panel_v6测序数据集，使用Mutect v1.1.7执行了单核苷酸变体(SNV)调用，并且小规模插入/缺失(INDEL)被称为在体细胞模式下运行VarScan v2.4.1，其中最小变体频率(--min-var-freq)为0.005，肿瘤纯度估计值(--tumor-purity)为0.75，然后使用Scalpelv0.5.3(在体细胞模式下进行手术刀发现)进行验证(采用两个调用之间的交集)^15-17。由Mutect调用的SNV是使用以下标准进行进一步过滤：i)相应种系样品中的变体等位基因频率(VAF)≤1％，ii)不考虑落入线粒体染色体、单倍型染色体、HLA基因或任何基因间区域的变体，iii)支持该变体的正向链读段和反向链读段两者的存在。对于定制的Rep-Seq1组测序数据，使用独特的分子条形码(UMI)索引以高深度进行测序，并使用UMI工具¹⁸将PCR重复读段和去重复读段分组，从而每组产生一个读段。然后使用deepSNV调用SNV¹⁹，因为众所周知Mutmut无法针对更高的测序深度水平进行校准。如上所述，Varscan和Scalpel用于调用Rep-Seq1自定义组INDEL。所有变体都使用Annovar进行注释²⁰。为了估计体细胞拷贝数的变化，在配对的肿瘤正常测序数据上用默认参数执行了CNVkit v0.7.3²¹。在病例特异性的联合分段之前，使用中位数绝对偏差Winsorization检测并修改了从CNVkit派生的log2-比率(logR)调用的异常值，以鉴定恒定logR的基因组片段²²。使用ABSOLUTE v1.0.6估算肿瘤样品的纯度、倍性和每个片段的绝对拷贝数²³。通过首先使用POLYSOLVER确定每位患者的4数位HLA类型以及I类HLA基因的突变来衍生出新抗原预测²⁴。接下来，基于每个样品中检测到的体细胞非同义SNV和INDEL突变，计算所有可能的9、10和11-mer突变体肽。使用NetMHCpan(v3.0)和NetMHC(v4.0)可以预测突变体和相应的野生型肽的结合亲和力，这些野生型肽与相应的POLYSOLVER推断的HLA等位基因相关²⁵。新抗原结合剂定义为IC50＜50nM或等级<2.0。使用软件包deconstructSigs对所有非同义突变进行了特征分析²⁶。我们还检查了Rep-Seq数据中福尔马林诱导的伪像变体的证据，因为该方案涉及福尔马林暴露的物质。福尔马林固定的石蜡包埋的(FFPE)样品可能含有伪像，其通常是由于胞嘧啶水解脱氨形成尿嘧啶或胸腺嘧啶(如果胞嘧啶被甲基化)而引起的。此类伪像通常在较低的变体等位基因频率下显示为过量的C>T/G>A突变²⁷。在来自Rep-Seq病例的全外显子组测序数据中对此进行的分析表明，没有证据显示低频福尔马林诱发了过多的伪像，其中低频(低于5％VAF)C>T突变的比例为34.0％，与所有碱基变化的平均值(33.3％)非常接近(图9)。

合并的混合测序数据的分析

混合样品的最终集包括79个肿瘤，这些肿瘤具有来自多区域测序的匹配的经处理的参考数据集。每个混合样品的活检数范围为2到75，其中每个肿瘤的活检中位数为8，并且单个活检总数为1184。作为真实变体的参考数据集，我们使用了先前发布的来自相同病例的多区域测序变体调用，该调用表示每个肿瘤中检测到的所有变体的总和⁵。在我们的分析中，我们比较了单区域测序和混合测序的整体性能，以从已知的真值集中检测体细胞突变。从整个多区域数据集中，选择了单区域样品作为每个肿瘤的一个随机的单区域活检。我们首先通过比较每种方法在每个肿瘤中检测到的体细胞变体的数量，与多区域和单区域测序相比来评估混合测序方法的性能。为了反映单区域活检的平均性能，我们计算了每个肿瘤通过单区域测序检测到的变体的平均数量。接下来，我们使用多区域测序数据作为参考，确定混合样品和单区域样品中真实变体的检测率。用配对的Wilcoxon检验评估显著性。最后，为了确定混合测序方法的准确性，我们接下来确定了通过多区域测序检测到的所有体细胞突变的变体等位基因频率(VAF)与混合样品中的VAF以及每个肿瘤的随机化单区域活检之间的相关性。计算多区域VAF作为混合物中包括的所有区域的平均VAF。相关性是通过Spearman的排名相关性测试计算得出的。

自定义组设计

为了对代表性测序方法进行深入验证，使用自定义组对病例Rep-Seq1进行了高覆盖谱分析。组设计基于以下各项的全外显子组测序结果：i)从Rep-Seq1原发性肿瘤中采集的7个活检(均质化之前)，以及ii)Rep-Seq1均质化溶液的等分试样。如上所述，在8个样品中调用了SNV和INDEL突变，并且共检测到76个非同义突变。在目标自定义组中成功捕获了这76种突变，并在68处原发性活检、从2个淋巴结转移瘤获取的11个活检、4个生物学原发性Rep-Seq重复、在不同时间点收集的6个循环肿瘤(ct)DNA样品以及3个均质化的淋巴结Rep-Seq样品以高深度(中位数15，402x)进行测序。

Jaccard可重复性分析

使用Jaccard相似系数评估Rep-Seq1原发性肿瘤活检(n＝68)、Rep-Seq生物学重复(n＝4)以及ctDNA样品(n＝6)之间变体发现的可重复性。考虑了样品之间(每个组内)的每个成对组合，例如活检1(A)vs活检2(B)、活检1(A)vs活检3(B)等。使用标准公式(J)计算Jaccard相似系数：

J＝M₁₁/(M₀₁+M₁₀+M₁₁)

其中M₁₁代表样品A和样品B两者中都存在的变体总数，M₁₀代表A中存在但B中不存在的变体总数，M₀₁代表B中存在但A中不存在的变体总数。

聚类和系统发育分析

使用PyClone Dirichlet过程聚类对Rep-Seq1自定义组数据执行聚类分析²⁸。对于每个突变，将观察到的替代等位基因计数、参考计数和总局部肿瘤拷贝数与每个样品的纯度一起用作输入。PyClone运行了10,000次迭代，并以--var_prior total_copy_number的默认参数进行了1000次的预烧。进行了两次单独的PyClone运行，第一次运行是针对原发性多区域活检数据集。在总共测序的n＝68例原发性活检中，有n＝52例通过了质量控制以进行聚类分析，其中由于纯度较低(基于纯度过低而无法正确调用已知的克隆3p拷贝数丢失事件进行测量)，因此排除了n＝16个活检。使用相同的参数，仅对Rep-Seq匀浆样品(n＝1)进行第二次PyClone聚类运行。

克隆模拟的错觉

为了评估克隆性错觉的风险，使用了Rep-Seq1数据集，模拟了活检采样方法，对1到20个活检进行了采样。对于每个活检数(n＝1-20)，从针对Rep-Seq1进行分析的68例原发性活检的总集中抽取随机尺寸的活检样品。在随机采样集内，计算了似乎是克隆性的突变数量(基于在采样集中所有活检中普遍存在的突变)。然后将该列表与已知的真正的克隆突变列表(来自完整的68个集)进行比较，并记录被错误分类为克隆性的变体的百分比。对每个n重复此过程100次迭代，以给出分布，从中可以计算出平均值和标准偏差值。

纯度富集的数据的分析

对于Rep-Seq11，使用标准Rep-Seq方案进行全外显子组测序，然后再重复流式分选纯度富集的额外步骤。如上所述，完成了变体调用，并以相同的方式在两个样品中计算了纯度估计值。计算每个样品中发现的变体数目，然后计算出样品中共有的变体数量，并将其绘制在图6中。

表的图例

表S1-来自各种肿瘤类型的11个代表性样品的特性。使用取自临床病理学报告的尺寸来计算肿瘤体积。肿瘤匀浆平均含有初始肿瘤体积的54.8％。

表S2-微小残留病ctDNA追踪组、活检相对于Rep-Seq的比较。

技术领域

参考文献

1.Gy，P.Heterogeneite，Echantillonnage，Homogeneisation(Heterogeneity，Sampling，Homogenizing).xiv+607p(Masson：Paris)(1988).

2.Rohde，A.Sampling and Homogenization Strategies SignificantlyInfluence the Detection of Foodbome Pathogens in Meat.BioMed ResearchInternational(2015).

3.Crespi，I.Pre-Election Polling：Sources of Accuracy and Error.(1988).

4.David，M.Handbook of Applied Advanced Geostatistical Ore ReserveEstimation.Elsevier：Amsterdam(1988).

5.Turajlic，S.et al.Deterministic Evolutionary Trajectories InfluencePrimary Tumor Growth：TRACERx Renal.Cell 173，595-610e511(2018).

6.Jamal-Hanjani，M.et al.Tracking the Evolution of Non-Small-Cell LungCancer.The New England journal of medicine 376，2109-2121(2017).

7.Warrick，J.I.et al.Intratumoral Heterogeneity of Bladder Cancer byMolecular Subtypes and Histologic Variants.European urology(2018).

8.Consortium，A.P.G.AACR Project GENIE：Powering Precision MedicineThrough An International Consortium.Cancer discovery(2017).

9.Miao，D.et al.Genomic correlates of response to immune checkpointblockade in microsatellite-stable solid tumors.Nature genetics 50，1271-1281(2018).

10.McGranahan，N.et al.Clonal neoantigens elicit T cellimmunoreactivity and sensitivity to immune checkpoint blockade.Science 351，1463-1469(2016).

11.Abbosh，C.et al.Phylogenetic ctDNA analysis depicts early-stagelung cancer evolution.Nature 545，446-451(2017).

12.Hedley，D.W.，Friedlander，M.L.，Taylor，I.W.，Rugg，C.A.&Musgrove，E.A.Method for analysis of cellular DNA content of paraffin-embeddedpathological material using flow cytometry.The journal of histochemistry andcytochemistry：official journal of the Histochemistry Society31，1333-1335(1983).

13.Faustino-Rocha，A.et al.Estimation of rat mammary tumor volumeusing caliper and ultrasonography measurements.Lab animal 42，217-224(2013).

14.Li，H.&Durbin，R.Fast and accurate short read alignment withBurrows-Wheeler transform.Bioinformatics 25，1754-1760(2009).

15.Cibulskis，K.et al.Sensitive detection 0f somatic point mutationsin impure and heterogeneous cancer samples.Nat Biotechnol 31，213-219(2013).

16.Fang，H.et al.Indel variant analysis of short-read sequencing datawith Scalpel.Nat Protoc 11，2529-2548(2016).

17.Koboldt，D.C.et al.VarScan：variant detection in massively parallelsequencing of individual and pooled samples.Bioinformatics 25，2283-2285(2009).

18.Smith，T.，Heger，A.&Sudbery，I.UMI-tools：modeling sequencing errorsin Unique Molecular Identifiers to improve quantification accuracy.Genomeresearch 27，491-499(2017).

19.Gerstung，M.et al.Reliable detection of subclonal single-nucleotidevariants in tumor cell populations.Nature communications 3，811(2012).

20.Wang，K.，Li，M.Y.&Hakonarson，H.ANNOVAR：functional annotation ofgenetic variants from high-throughput sequencing data.Nucleic Acids Res 38(2010).

21.Talevich，E.，Shain，A.H.，Botton，T.&Bastian，B.C.CNVkit：Genome-WideCopy Number Detection and Visualization from Targeted DNA Sequencing.PlosComput Biol 12(2016).

22.Nilsen，G.et al.Copynumber：Efficient algorithms for single-andmulti-track copy number segmentation.Bmc Genomics 13(2012).

23.Carter，S.L.et al.Absolute quantification of somatic DNAalterations in human cancer.Nat Biotechnol 30，413-421(2012).

24.Shukla，S.A.et al.Comprehensive analysis of cancer-associatedsomatic mutations in class I HLA genes.Nature biotechnology 33，1152-1158(2015).

25.Andreatta，M.&Nielsen，M.Gapped sequence alignment using artificialneural networks：application t0 the MHC class I system.Bioinformatics32，511-517(2016).

26.Rosenthal，R.，McGranahan，N.，Herrero，J.，Taylor，B.S.&Swanton，C.DeconstructSigs：delineating mutational processes in single tumorsdistinguishes DNA repair deficiencies and patterns of carcinomaevolution.Genome biology 17，31(2016).

27.W0ng，S.Q.et al.Sequence artefacts in a prospective series offormalin-fixed tumors tested for mutations in hotspot regions by massivelyparallel sequencing.BMC medical genomics 7，23(2014).

28.Roth，A.et al.PyClone：statistical inference of clonal populationstructure in cancer.Nat Methods 11，396-398(2014).

尽管已经参考多个说明性实施例描述了本公开，但是应当理解，本领域技术人员可以设计出许多其它修改和实施例，它们将落入本公开原理的精神和范围内。更特别地，在前述公开、附图和所附权利要求的范围内，主题组合布置的组成部分和/或布置中的合理变化和修改是可能的，而不背离本公开的精神。除了组成部分和/或布置的变化和修改之外，替代使用对本领域技术人员也是显而易见的。

补充表2

基于肿瘤组织的Rep-Seq或活检测序设计的微小残留病ctDNA跟踪组的比较。给出了从所有Rep-Seq和活检重复中每个时间点检测到的突变的总体中位数数量，并且以下是所有单个样品的完整数据集。显示了检测到的突变数量的百分比差异。还显示了将错过MRD的次数的百分比(“％_MRD_missed”)，这假设需要在ctDNA中检测到至少＝>3个独特的肿瘤突变，以可靠地确认疾病复发。

Claims

1.一种对样品中多个基因变体进行鉴定的方法，所述方法包括：

(a)将一个或多个肿瘤样品均质化以提供均质化样品；

(b)制备从所述均质化样品中分离出的基因组材料以用于测序；以及

(c)在对制备的基因组材料测序后得出的测序数据内鉴定所述多个基因变体。

2.根据权利要求1所述的方法，其进一步包括确定经鉴定的多个基因变体为克隆的还是亚克隆的。

3.根据权利要求2所述的方法，其中一种或多种新抗原源自经确定的亚克隆突变。

4.根据前述权利要求中任一项所述的方法，其进一步包括基于所述经鉴定的多个基因变体生成ctDNA监测组。

5.根据权利要求4所述的方法，其中生成的ctDNA监测组用于确定对疗法的应答。

6.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于确定癌症的进化轨迹。

7.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于预测对未来治疗策略的应答。

8.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于在疗法期间或者疗法之后确定患者中癌症的存在或者不存在。

9.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于在疾病缓解之后、对疗法完全应答之后或诊断出无法检测的疾病之后确定患者中癌症的所述存在。

10.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于在手术去除原发性肿瘤之后检测微小残留病。

11.根据权利要求4所述的方法，其中所述生成的ctDNA监测组用于在手术去除转移性肿瘤之后检测微小残留病。

12.根据权利要求10和11中任一项所述的方法，其中在同一手术期间去除所述原发性肿瘤和转移性肿瘤，并且ctDNA监测测试包括在来自单个患者的多个肿瘤中检测到的变体。

13.根据前述权利要求中任一项所述的方法，其进一步包括基于所述经鉴定的多个基因变体来计算克隆结构。

14.根据权利要求13所述的方法，其中所述克隆结构的计算包括：(i)为多个经鉴定的基因变体中的每一者计算癌细胞分数估计值；以及(ii)将计算出的癌细胞分数估计值分组为突变簇。

15.根据权利要求14所述的方法，其进一步包括对单个经鉴定的基因变体的分离进行评估。

16.根据前述权利要求中任一项所述的方法，其进一步包括在制备所述基因组材料之前，对所述均质化样品内的细胞颗粒进行分选。

17.根据权利要求16所述的方法，其中所述细胞颗粒的分选是基于尺寸。

18.根据权利要求16所述的方法，其中所述细胞颗粒的分选是基于一种或多种生物标志物的存在。

19.根据权利要求2所述的方法，其进一步包括：如果在所述多个经鉴定的基因变体内鉴定出一个或多个高风险的亚克隆变体，则评估人类受试者是否处于快速疾病进展的升高的风险中。

20.根据权利要求2所述的方法，其进一步包括基于对所述多个经鉴定的基因变体内的一个或多个特定的亚克隆变体的鉴定来确定治疗策略。

21.根据前述权利要求中任一项所述的方法，其中所述多个基因变体是使用全基因组测序(WGS)、全外显子组测序(WES)、单核苷酸多态性(SNP)分析、深度测序、靶向基因测序、聚合酶链式反应(PCR)或其任意组合来鉴定的。