CN112602156A

CN112602156A - 用于检测残留疾病的系统和方法

Info

Publication number: CN112602156A
Application number: CN201980027654.4A
Authority: CN
Inventors: 丹·阿维·兰道; 阿萨夫·兹维兰; 维克多·A·阿达尔斯泰森
Original assignee: Cornell University; Broad Institute Inc; New York Genome Center Inc
Current assignee: Cornell University; Broad Institute Inc; New York Genome Center Inc
Priority date: 2018-02-27
Filing date: 2019-02-27
Publication date: 2021-04-02
Also published as: JP2021520004A; SG11202007871RA; US20230295738A1; AU2019228512B2; EP3759238A1; AU2019228512A1; IL276893A; CA3092352A1; WO2019169044A1; KR20210003094A; US20210002728A1; JP7506380B2; EP3759238A4; AU2024203815A1

Abstract

本公开涉及用于在受试者例如人类癌症患者中检测残留疾病例如残留肿瘤疾病的系统、软件和方法。

Description

用于检测残留疾病的系统和方法

相关申请的交叉引用

本申请要求2018年2月27日提交的美国临时申请62/636，150的权益，其全部内容通过引用并入本文。

技术领域

本公开的实施方案通常涉及医学诊断领域。特别地，本公开的实施方案涉及用于肿瘤检测和诊断的组合物，方法和系统。

引言

从垂死细胞释放的无细胞循环DNA(cfDNA)能够随时间动态地调查体细胞基因组和表观基因组，以用于临床目的。通过简单抽血获得活检的能力允许以非侵入性方式进行动态基因组测量。它能够克服空间限制，例如难以进入肺组织。

能够在癌症患者的血液中发现并测量循环肿瘤DNA(ctDNA)，不要将其与无细胞DNA(cfDNA)混淆。ctDNA已显示与肿瘤负荷和对治疗或手术应答的变化相关(Diehl等人，Nature medicine，14(9):985–990，2008)。ctDNA甚至在早期的非小细胞肺癌(NSCLC)中能够检测到，并且因此具有转变NSCLC诊断和治疗的潜力(Sozzi等人，Journal of ClinicalOncology,21(21),3902–3908，2003；Tie等人，Science translational medicine，8(346):346ra92–346ra92，2016；Bettegowda等人,Science translational medicine，6(224):224ra24–224ra24,2014；Wang等人，Clinical Cancer Research，16(4):1324–1330，2010)。

基于cfDNA的癌症研究的未来前景的主要领域之一是检测残留疾病(RD)以指导临床干预。例如，在手术切除后检测残留疾病能够帮助临床医生和患者做出有关昂贵且有毒的辅助疗法的决定。然而，在具有低负荷的肿瘤(例如最小残留疾病(MRD))的情况下，肿瘤分数(TF)非常低。为了能够检测低TF cfDNA的突变，流行的范例是增加有限高产量靶标集的测序深度(例如，常见的癌症驱动因子或患者特异性小组，其被测序至约10,000至100,000个读数/碱基的深度)。此外，分子和分析方法已与超深度测序相整合，以减少测序错误并改善在低肿瘤分数(TF)的检测灵敏度。

尽管这些现有技术的方法在一些情况下提供高精度的检测，但是它们受到降低检测灵敏度(受限的输入材料)的基本限制的阻碍。在MRD中，肿瘤负荷低，典型的血浆样品仅包含1-10ng/ml的cfDNA。少量的cfDNA仅转化成数百至数千的基因组当量(equivalent)。因此，覆盖样品中存在的每个位点的有限数量的物理片段(例如，6ng cfDNA中1000个基因组当量)可能使依赖于超深度测序(例如，100,000X)的流行技术无效。即使采用超深度测序和先进的分子错误抑制，有限的输入材料对低于0.1-1％的肿瘤分数(TF)频率施加检测极限。因此，尽管检测具有低肿瘤负荷的癌症在临床上对患者和临床医生是有益的，但是依赖于体细胞突变鉴定的现有方法由于肿瘤来源的cfDNA样品的频率低而面临着显著的挑战。

因此，特别是在使用有限的输入材料诊断最小残留疾病(MRD)的情况下，对于允许检测肿瘤的微创系统和方法存在着迫切的但未满足的需求。从经济和临床观点来看，在残留疾病情况下(例如，在手术和/或治疗之后)对肿瘤的有效诊断都是有利的。在肺癌的情况下尤其如此，因为大多数患者被诊断为患有令人沮丧结果的晚期疾病(Herbst等，N Engl JMed.，359(13):1367-80，2008)。

发明概述

本公开涉及用于通过分析受试者的样品(例如，血浆样品或血液样品)中的肿瘤特异性标记来诊断残留肿瘤疾病的方法和系统。本公开的方法利用算法和/或统计分类器基于多个参数来区分质量标记和人工噪声。例如，当标记是单核苷酸变异(SNV)时，本公开的算法基于标记的定性特征，诸如例如SNV的碱基质量(BQ)和SNV的映射质量(MQ)，将受试者的遗传概要中的此类SNV分类为信号或噪声。类似地，其中所述标记是拷贝数变异(CNV)，所述算法基于参数将概要中的CNV分类为信号或噪声，所述参数例如为着丝粒邻近、与cfDNA覆盖掩码的重叠、和/或CNV与低映射能力(映射质量；MQ)读数的关联。因此，从受试者的遗传概要中，消除了可能与人工噪声相关的标记，并通过允许评估样品中肿瘤分数的稳健的、整合数学模型处理高质量的标记。如果发现估计的肿瘤分数高于某个阈值，则可以以高置信度做出阳性诊断。相反，如果估计的肿瘤分数低于阈值，则此时不作出阳性诊断。

在这种情况下，使用来自具有范围从1％至0.001％(1/100,000)的可变肿瘤读数分数的肺患者的肿瘤和正常全基因组测序数据的合成混合物模拟测试血浆体细胞突变调用(calling)揭示了本发明方法相对于现有技术的强度和准确性。

本公开还涉及多个指示物，所述指示物能够提示经由测序检测到的变体不是真正的体细胞突变而是测序或映射技术的假象。在这种情况下，先前的研究已经证明，测序错误不是随机的，并且可能与DNA序列背景和测序技术相应的技术因素有关。测序的保真度也受到每个测序读数的长度的限制，错误率随着读数长度的增加而增加。当读数被映射到参考基因组时，可能施加错误。由于基因组具有可变区、基序和可重复元件的事实，映射过程是计算密集的和复杂的。短核苷酸读数可映射到多于一个位置或根本不映射。使用本公开的系统和方法可以纠正现有的用于基因组数据的测序/映射的方法的这些限制。本公开的指示物能够通过分析多个因素来从错误中调用真正的突变，所述因素例如(i)低碱基质量；和/或(ii)低映射质量，(iii)读数中的突变位置，和(iv)SNV标记情况下的读数片段大小，和(1)基因组位置得分，(2)cfDNA覆盖掩码(黑名单)，(3)低映射质量，(4)CNV标记情况下Log2和读数组片段大小之间的相关性。

用于检测与肿瘤相关的生物标记的本系统和方法尤其适于检测低丰度标记。首先，该模型考虑与标记类型相关联的质量度量和在其检测中使用的系统/方法以及受试者特异性参数两者，以计算估计的肿瘤分数(eTF)。例如，其中标记是SNV，整合数学模型考虑了过程质量度量，诸如估计的覆盖度和噪声，以及受试者特异性参数，诸如突变负荷。在CNV的情况下，整合数学模型考虑指数因子以及诸如CNV方向性的受试者特异性特征(例如，对扩增进行正向分解；对缺失进行负向分解)，以计算估计的肿瘤分数(eTF)。因此，本公开的分析方法整合了全基因组突变信息以允许对含有cfDNA的样品进行灵敏分析，使得能够精确地且非侵入性地诊断残留疾病。

因此，本公开涉及以下非限制性实施方案：

在各种实施方案中，提供了一种用于在需要其的受试者中检测残留疾病的方法。所述方法可包括接收与来自受试者的第一生物样品中的遗传标记相关的读数的第一受试者特异性的全基因组概要。第一生物样品可包括基线样品。第一读数概要可各自包含单个碱基对长度的读数(例如，SNV或Indel)，并且其中基线样品包括肿瘤样品或血浆样品。所述方法可进一步包括从第一读数概要中过滤人工位点。过滤可包括从遗传标记的第一概要中去除在参考健康样品队列中生成的重复位点。备选地或另外地，过滤可包括鉴定正常细胞样品的外周血单核细胞中的种系突变，并从第一遗传标记概要中去除所述种系突变。所述方法可进一步包括检测来自受试者的第二生物样品中遗传标记的第二受试者特异性全基因组概要中的读数，以在第二样品中生成遗传标记的肿瘤相关全基因组代表。所述方法可进一步包括从第一和第二读数全基因组概要中过滤噪声。噪声过滤可包括使用至少一个错误抑制方案来产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集。至少一个错误抑制方案可包括计算第一和第二概要中的任何单核苷酸变异是人工突变的概率，并去除所述突变。所述概率可作为选自以下的特征的函数来计算：映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合。备选地或组合地，至少一个错误抑制方案可以包括使用由聚合酶链反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试来去除人工突变。除了不一致性测试之外或作为其替代，可以包括重复一致性，其中当在给定重复家族的大部分中缺乏一致性时，鉴定并去除人工突变。所述方法可以进一步包括通过将背景噪声模型应用于一个或多个整合数学模型中，使用第一和第二过滤读数集来计算第一和第二生物样品的估计肿瘤分数(eTF)。该方法可以进一步包括如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

在各种实施方案中，提供了一种用于在需要其的受试者中检测残留疾病的方法。所述方法可包括接收与来自受试者的第一生物样品中的遗传标记相关的第一受试者特异性的读数的全基因组概要。生物样品可包括基线样品。第一读数概要可各自包含拷贝数变异(CNV)，并且其中基线样品包括肿瘤样品或血浆样品。所述方法可进一步包括接收与来自受试者的第二生物样品中的遗传标记相关的第二受试者特异性的读数全基因组概要。第二生物样品可以包括外周血单核细胞样品(PBMC)。遗传标记的第二概要可各自包含拷贝数变异(CNV)。所述方法可进一步包括从读数的第一和第二概要中过滤人工位点。过滤可包括从第一和第二读数概要中去除在参考健康样品队列中生成的重复位点。备选地或组合地，过滤可包括将第一和第二概要之间共享的CNV鉴定为种系突变，并从第一和第二读数概要中去除所述突变。所述方法可进一步包括检测来自受试者的第三生物样品中的遗传标记的第三受试者特异性全基因组概要中的读数，以生成第三样品中的遗传标记的肿瘤相关全基因组代表。所述方法可进一步包括将第一，第二和第三读数概要中的每一个归一化，以产生用于第一读数全基因组概要的第一过滤读数集，用于第二读数全基因组概要的第二过滤读数集，以及用于第三读数全基因组概要的第三过滤读数集。所述方法可以进一步包括通过将背景噪声模型应用于一个或多个整合数学模型中，使用第三过滤读数集来计算第三生物样品的估计肿瘤分数(eTF)。可以将一个或多个模型配置为使用第一过滤读数集产生第一eTF，和/或将一个或多个模型配置为使用第二过滤读数集产生第二eTF。该方法可以进一步包括如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

在一些实施方案中，本公开涉及用于在需要其的受试者中检测残留疾病的方法。优选地，残留疾病检测包括在治疗期间检测最小残留疾病。特别地，本公开涉及在以下一种或多种情况下检测残留疾病：(a)切除手术之后；(b)在治疗期间或之后；(c)在监测治疗效果的同时；(d)监测肿瘤的复发或再发的同时；或(e)其任何组合。特别地，本公开涉及在化学疗法，免疫疗法，靶向疗法或其组合期间或之后和/或在监测此类疗法效果有效性的过程中检测残留疾病。

在一些实施方案中，本公开内容涉及用于在需要其的受试者中检测残留疾病的方法，其包括：(A)从受试者的生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病。在前述方法的一些实施方案中，(1)对于SNV标记，通过将包含估计的基因组覆盖度和测序噪声的过程质量度量与包含突变负荷(N)的患者特异性参数进行积分来计算估计的TF(eTF[SNV])；(2)对于CNV标记，通过将与肿瘤CNV方向性一致的偏态的定向覆盖深度进行积分来计算估计的TF(eTF[CNV])，其中拷贝数的扩增为正偏态而拷贝数的缺失为负偏态。在一些实施方案中，使用ROC曲线优化标记的BQ，MQ和片段大小过滤器。在一些实施方案中，该方法包括采用组合的碱基质量映射质量(BQ MQ)过滤器。

在一些实施方案中，本公开的残留疾病检测方法通过接收来自多个遗传标记的受试者特异性全基因组概要来进行的，其中所述多个遗传标记来自包含受试者的肿瘤样品的生物样品和包含非肿瘤样品的正常样品。在一些实施方案中，该方法包括使用受试者的肿瘤样品和受试者的外周血单核细胞(PMBC)生成标记的全基因组概要。特别是，遗传标记的全基因组概要是通过对受试者样品(例如肿瘤样品)和对照样品(例如PMBC)进行全基因组测序而生成的。优选地，受试者的肿瘤样品包括切除的肿瘤，例如在外科手术程序之后被去除的实体瘤；所述外科手术程序例如胃乳房切除术；前列腺切除术；皮肤损伤去除；小肠切除；胃切除术；开胸术；肾上腺切除术；结肠切除术；卵巢切除术；甲状腺切除术；子宫切除术；舌切除术；或结肠息肉切除术，优选开胸术。

在一些实施方案中，本公开内容涉及用于在需要其的受试者中检测残留疾病的方法，其包括：(A)从受试者的生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病，其中，所述读数组包括覆盖特异性SNV或indel位点的读数集，或包含在特异性CNV或SV基因组窗口中的读数集。在一些实施方案中，正常细胞样品包括PMBC，唾液样品，毛发样品或皮肤样品。在一些实施方案中，受试者是人，并且受试者的第二生物样品包含选自血液，脑脊液，胸膜液，眼液，粪便，尿液或其组合的生物材料。

在本公开的一些实施方案中，肿瘤样品包括切除的肿瘤或细针抽吸(FNA)样品，速冻组织，最佳切割温度化合物(OCT)包埋的组织或福尔马林固定的石蜡包埋的(FFPE)组织。

在本公开的一些实施方案中，正常样品包含外周血单核细胞(PMBC)或唾液或皮肤样品。

在本公开的一些实施方案中，通过全基因组测序受试者的生物样品和对照样品来接收多个遗传标记。

在本公开的一些实施方案中，肿瘤遗传标记概要包括高突变率和/或高数量的SNP，indel，CNV或SV，例如每兆碱基对至少1个，至少2个，至少3个，至少5个，至少7个，至少10个或更多个例如约15个SNP或indel，或累积大小为至少5兆碱基对(MBP)，至少7MBP，至少10MBP或更大(例如，累积大小约为15MBP)的CNV/SV。

在一些实施方案中，本公开内容涉及用于在需要其的受试者中检测残留疾病的方法，其包括：(A)从受试者的生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病，其中，通过测量正常健康样品中的检测错误率来定义经验噪声模型，并将其转换为基础噪声eTF估计。

在本公开的一些实施方案中，eTF估计噪声阈值在0.0001(10^-4)和0.000001(10^-6)之间。

在一些实施方案中，本公开内容涉及用于在需要其的受试者中检测残留疾病的方法，其包括：(A)从受试者的生物样品中的多个遗传标记中接收体细胞遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)随后在包含受试者血浆样品的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病。在一些实施方案中，正常细胞样品包括PMBC，唾液样品，毛发样品或皮肤样品。在一些实施方案中，受试者是人，并且受试者的第二生物样品包含选自血液，脑脊液，胸膜液，眼液，粪便，尿液或其组合的生物材料。在一些实施方案中，使用ROC曲线优化标记的BQ，MQ和片段大小过滤器。在一些实施方案中，该方法包括采用组合的碱基质量映射质量(BQ MQ)过滤器。

在一些实施方案中，残留疾病检测包括定量估计患者治疗、观察或随访期间的患者最小残留疾病负荷。特别地，最小残留疾病检测包括切除手术后残留疾病的检测；在治疗期间或之后残留疾病的检测；检测残留疾病以监测治疗有效性；检测残留疾病以监测癌症的复发或再发；或其组合。在一些实施方案中，最小残留疾病检测包括在包括淋巴结活检的切除手术之后检测残留疾病；头部或颈部手术；子宫或子宫内膜活检；膀胱活检；乳房切除术；前列腺切除术；皮肤损伤去除；小肠切除；胃切除术；开胸术；肾上腺切除术；结肠切除术；卵巢切除术；甲状腺切除术；子宫切除术；舌切除术；或结肠息肉切除术。在一些实施方案中，最小残留疾病检测包括在包括化学疗法、免疫疗法、靶向疗法、放射疗法或其组合的疗法后检测残留疾病。

在本公开的一些实施方案中，疾病检测方法进一步包括从受试者的生物样品中接收多个遗传标记，所述生物样品包括肿瘤样品和正常细胞样品，并从所接收的多个遗传标记中生成受试者特异性全基因组概要。

在本公开的一些实施方案中，疾病检测方法进一步包括在第二生物样品例如血浆样品中检测遗传标记的受试者特异性全基因组概要。在一些实施方案中，在一个过程(例如，2天，1周，2周，1个月，2个月，3个月，4个月，6个月，1年，18个月，2年，30个月，3年，42个月，4年，5年，7年，10年或更长时间，例如15年或20年)中检测受试者中的第二生物样品，以生成患者血浆中肿瘤全基因组遗传标记的时间更新的代表。

在本公开的一些实施方案中，疾病检测方法包括凭经验确定背景噪声阈值，其中高于背景噪声阈值的肿瘤分数提供了肿瘤负荷的定量估计。特别地，低于噪声阈值的肿瘤分数被认为是未检测到的(N.D.)。

在本公开的一些实施方案中，疾病检测方法包括随时间定量监测肿瘤疾病(例如，肿瘤分数)。在一些实施方案中，所述肿瘤是脑癌，肺癌，皮肤癌，鼻癌，喉癌，肝癌，骨癌，淋巴瘤，胰腺癌，皮肤癌，肠癌，直肠癌，甲状腺癌，膀胱癌，肾癌，口腔癌，胃癌，骨肉瘤或本质上异质或同质的固态肿瘤。优选地，肿瘤是肺癌，乳腺癌，黑色素瘤，膀胱癌或骨肉瘤，例如，肺腺癌，导管腺癌，非小细胞肺癌肺腺癌(NSCLC LUAD)，皮肤黑色素瘤，尿路上皮癌或骨肉瘤。

在一些实施方案中，本公开的残留疾病检测方法进一步包括：通过积分概率模型来计算SNV或indel标记的eTF，该概率模型包括：1)血浆SNV或indel检测的积分信号，2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量，3)包括突变负荷(N)的患者特异性参数；和/或通过利用概率稀释模型计算CNV或SV标记的eTF，该概率稀释模型包括：1)根据肿瘤CNV或SV的方向性，积分血浆和正常患者样品之间偏态的定向覆盖深度，其中拷贝数的扩增为正偏态而拷贝数的缺失为负偏态；2)积分肿瘤和正常(PBMC)患者样品之间偏态的累积覆盖深度；3)得到上述信号之间的稀释比。

在一些实施方案中，本发明的残留疾病检测方法包括：(A)在受试者的生物样品和受试者的正常细胞样品中接收多个遗传标记，所述遗传标记包括单核苷酸变异(SNV)或拷贝数变异(CNV)或其组合，以生成遗传标记的受试者特异性全基因组概要；(B)从标记的全基因组概要中鉴定和过滤人工噪声标记，其中，(1)噪声SNV是基于检测到噪声的概率(PN)作为SNV的碱基质量(BQ)和SNV的映射质量(MQ)的函数通过将概要中的每个SNV统计学分类为信号或噪声来鉴定的；和/或(2)噪声CNV是基于其相对于着丝粒的位置，在给定的覆盖深度中将其cfDNA掩码黑名单重叠和其读数映射性通过将概要中的每个CNV统计学分类为信号或噪声来鉴定的；(C)基于一个或多个整合数学模型计算样品的估计肿瘤分数(eTF)，其中，对于SNV标记，通过数学公式eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)来计算估计的TF(eTF[SNV])，其中M是患者样品中肿瘤特异性概要检测的数目，σ是经验估计的噪声的测量，R是目的区域(ROI)中唯一读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的唯一读数的平均值；和/或对于CNV标记，eTF[CNV]是通过数学公式eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))计算的，其中P是用代表血浆的{i}索引的基因组窗口中的中值深度值，T是用代表肿瘤的{i}索引的基因组窗口中的中值深度值，N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值。特别是在这些实施方案下，基于一种或多种CNV标记的检测来估计肿瘤分数的基因组窗口为约500个碱基对(bp)。

在一些实施方案中，本公开涉及用于诊断受试者最小残留疾病的方法，其包括(A)在从受试者接收的多个生物样品测序的遗传数据中，接收读数全基因组概要，所述生物样品包括肿瘤样品，正常样品和血浆样品；(B)对来自受试者的肿瘤和PBMC样品进行突变调用(包含MUTECT，LOFREQ和/或STRELKA突变调用)，以生成体细胞SNV(sSNV)或indel的受试者特异性读数作为个性化参考集；(C)从受试者特异性突变位点收集和过滤读数，包括(1)去除低映射质量读数(例如，＜29，ROC优化的)；(2)建立复制家族(代表相同DNA片段的多个PCR/测序拷贝)，并基于一致性测试产生校正的读数；(3)去除低碱基质量读数(例如，<21，ROC优化的)；(4)去除高片段大小的读数(例如>160，ROC优化的)；(D)计算具有至少一个支持读数(在过滤的集合中)的受试者特异性突变位点的数目，用与肿瘤中完全相同的取代；(F)基于数学模型eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)…(等式1)估计SNV的肿瘤分数，其中M是患者样品中肿瘤特异性概要检测的数量，σ是根据经验估算的噪声的测量，R是目的区域(ROI)内唯一读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的唯一读数的平均数量；(G)将eTF[SNV]与检测阈值进行比较，该检测阈值包括从健康样品中凭经验测量的基础噪声TF估计值，其中eTF[SNV]高于阈值水平(例如，噪声TF分布的2个标准差(FPR<2.5％))表示阳性检测；并且(K)基于eTF诊断受试者中的残留疾病。

在一些实施方案中，本公开涉及用于诊断受试者最小残留疾病的方法，其包括(A)在从受试者接收的多个生物样品测序的遗传数据中，接收读数全基因组概要，所述生物样品包括肿瘤样品，正常样品和血浆样品；(B)对来自受试者的肿瘤和PBMC样品进行CNV或SV调用，并沿着片段的方向性注释，生成超过阈值长度(例如，>2Mbp，优选地>5Mbp)的多个CNV片段的参考分区(segmentation)，其中扩增被正注释，而缺失被负注释；(C)收集覆盖患者特异性CNV分区目的区域(ROI)的血浆，肿瘤和PBMC样品的单bp深度覆盖度信息；(D)将患者特异性CNV或SV分区ROI划分为500bp窗口，并计算所有样品和窗口的每个窗口的中值(人为抑制)；(E)使用以下方法生成所有500bp窗口的归一化深度覆盖度信息：(a)每个样品的稳健zscore归一化；和/或(2)稳健主成分分析(RPCA)；(F)从患者特异性分区中过滤读数/窗口，其中过滤包括：(1)去除低映射质量读数(例如，＜29，ROC优化的)；和/或(2)去除着丝粒区域(例如，去除归一化正常值大于10的窗口)；和/或(3)去除cfDNA中未表示的区域(例如，去除由多个cfDNA样品组成的cfDNA代表掩码中未包括的窗口)；和(G)使用数学模型sum_i[(P(i)-N(i))*sign[T(i)-N(i)]]-E(σ)…(等式2)，将血浆和正常(PBMC)患者样品之间偏态的覆盖方向深度进行积分，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度覆盖度值，与正常样品群相比，通过稳健zscore方法或稳健PCA进行归一化；E(sigma)是根据经验估算的错误率的测量；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品群相比，通过稳健zscore方法或稳健PCA进行归一化；并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；(H)使用数学模型sum_i[abs(T(i)-N(i))]-E(σ))…(等式3)，将肿瘤和正常(PBMC)患者样品之间偏态的覆盖度累积深度进行积分，其中E(σ)是经验估计的错误率的测量；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；(I)计算(G)的定向(directional)深度覆盖度和累积深度覆盖度(H)之间的稀释率，该稀释率对应于CNV或SV的估计肿瘤分数((eTF[CNV])＝(sum_i[(P(i)-N(i))*sign[T(i)-N(i)]]-E(σ))/(sum_i[abs(T(i)-N(i))]-E(σ))…(等式4)；(J)将eTF[CNV]与检测阈值进行比较，该检测阈值包括来自健康样品的根据经验测量的基础噪声TF估计值，其中eTF[CNV]高于阈值水平(例如，噪声TF分布的2个标准差(FPR<2.5％))表示阳性检测；和(K)基于eTF诊断受试者中的残留疾病。

在一些实施方案中，本公开涉及用于在需要其的受试者中检测残留疾病的系统，其包括，(A)分析单元，其配置和布置为从标记的全基因组概要中过滤出人工噪声标记，其中所述标记的全基因组概要是从来自受试者生物样品的多个遗传标记生成的，所述生物样品包括肿瘤样品和正常细胞样品，其中遗传标记概要选自由单核苷酸变异(SNV)，indel，拷贝数变异，SV及其组合组成的组，分析单元进一步包括在包含受试者血浆样品的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以生成患者血浆中的肿瘤全基因组遗传标记的代表，分析单元进一步包括选自由SNV和indel分类引擎，CNV和SV分类引擎及其组合组成的组的引擎(engine)，其中：基于检测到噪声的概率(PN)作为1)包含SNV或Indel的读数组的映射质量(MQ)，2)包含SNV或Indel的读数组的片段大小长度，3)包含特异性SNV的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，SNV和indel分类引擎将概要中的每个SNV统计学分类为信号或噪声，并且基于1)相对于着丝粒的位置，2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)cfDNA数据中CNV或SV窗口的代表，CNV和SV分类引擎将概要中的每个CNV或SV统计学分类为信号或噪声；(B)eTF单元，其配置和布置为基于一个或多个整合数学模型来计算样品的估计肿瘤分数(eTF)；(C)显示单元，其基于所估计的肿瘤分数来输出受试者的残留疾病概况。

在本公开的前述系统的一些实施方案中，eTF单元还被配置和布置为：通过积分包括以下各项的概率模型来计算SNV或Indel标记的eTF：1)血浆SNV或indel检测的积分信号，2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量，3)包括突变负荷(N)的患者特异性参数；和/或通过利用概率混合模型计算CNV或SV标记的eTF，该概率混合模型包括：1)根据肿瘤CNV或SV的方向性，将血浆和正常患者样品之间偏态的定向覆盖深度进行积分，其中拷贝数的扩增为正偏态而拷贝数的缺失为负偏态；2)将肿瘤和正常患者样品之间偏态的累积覆盖深度进行积分；3)发现上述信号之间的稀释比。

在本公开的前述系统的一些实施方案中，肿瘤分数估计单元(B)包括处理器，该处理器被配置为执行计算机可读指令，该计算机可读指令在被执行时进行基于以下一个或多个整合数学模型的用于估计样品的肿瘤分数(eTF)的方法：(1)TF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)，其中M是患者血浆样品中肿瘤特异性的SNV概要检测的数量，σ是根据经验估计的错误率的测量，R是SNV概要目的区域中独特读数的总数，N是肿瘤突变负荷，cov是SNV概要ROI中每个位点的独特读数的平均数量；和/或(2)eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度覆盖度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化，其中{i}是离散索引，用于计数覆盖患者肿瘤特异性扩增和缺失基因组区段的所有基因组窗口。

在一些实施方案中，本公开涉及包括计算机可执行指令的计算机可读介质，所述计算机可执行指令在由处理器执行时使处理器执行用于检测残留疾病的方法或一组步骤，所述方法或步骤包括：(A)从受试者的生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病。

本公开另外涉及用于癌症分层的方法，其包括检测癌症患者中的最小残留疾病(MRD)。分层方法包括根据上述方法鉴定低丰度MRD特异性标记；并检测标记以诊断MRD。癌症分层方法可以进一步包括通过诸如肺癌特异性标记的RT-PCR和/或使用探针的分子成像的方法来检测肿瘤。

附图简述

在附图/表格和以下描述中阐述了本公开的一个或多个实施方案的细节。根据附图/表格和详细描述以及根据权利要求，本公开的其他特征，目的和优点将是显而易见的。图1A示出了根据各种实施方案的本公开的诊断方法的示意图，该诊断方法例如用于检测最小残留肿瘤疾病。图1B示出了根据各种实施方案的用于检测受试者中残留疾病的代表性工作流程。图1C示出了根据各种实施方案的用于检测受试者中残留疾病的代表性工作流程。图1D示出了用于基于单核苷酸多态性或indel的测量来诊断受试者中的最小残留疾病(MRD)的本公开的代表性工作流程。图1E示出了用于基于拷贝数变异或结构变异的测量来诊断受试者中的最小残留疾病(MRD)的本公开的代表性工作流程。

图2A-2B示出了基于外部或内部参数的检测概率的图。图2A示出了基于伯努利模型的各种肿瘤分数和覆盖度(直至基因组当量限制：～1000个分子)的检测概率。图2B示出了全基因组SNV积分的检测概率(二项式模型)，假设积分了20,000个点突变。

图3A-3K示出了根据各种实施方案的应用各种过滤器的效果以及由本发明方法提供的肿瘤分数的估计。图3A示出了应用碱基质量(BQ)过滤器的效果。图3B示出了通过接收器操作曲线(ROC)优化碱基质量过滤的效果。图3C显示了应用联合碱基质量(BQ)和映射质量(MQ)优化的过滤器在使用对照样品评估多个重复样品的错误率分布中的效果，这可在测序错误中提供约7倍数变化(FC)抑制。对于肺癌和黑色素瘤癌症类型，前过滤器噪声显示～2x 10^-3的比率，对于这两种癌症类型，后过滤器噪声率均降至～2x 10^-4。图3D显示了应用联合碱基质量(BQ)和映射质量(MQ)优化的过滤器并具有减轻的35X覆盖度的效果。该过滤器允许检测具有低至1/20,000的TF的样品中的标记。红线代表理论(二项式模型)期望值，并且以黑色显示经验测量(5个独立重复的平均值和置信区间。噪声水平由根据TF＝0的检测分布的灰色区域表示。图3E显示了黑色素瘤样品中TF估计的计算机验证。输入混合物TF(x轴)对从突变模式(y轴)估计的TF，指示高相关性(R²＝0.999)，对高于5x 10^-5的所有TF均获得了准确而具体的估计。图3F和图3G示出了根据各种实施方案的诊断方法，其允许检测其他类型的实体瘤例如肺肿瘤分数(图3F)和乳腺癌患者(图3G)中的遗传生物标记的特征，甚至在肿瘤分数(TF)低至1/10000的情况下。图3H显示可靠的基于sSNV的肿瘤分数估计，肿瘤分数(TF)低至5x 10^-5。图3I显示可靠的基于sCNV的肿瘤分数估计，肿瘤分数(TF)低至5x10^-5，优选TF>10^-4。图3J示出了使用基于SNV的估计(x轴)和基于CNV的估计(y轴)的TF估计之间的强相关性。灰色象限显示了在低于5x 10^-5阈值的TF处，基于SNV的估计与基于SNV的估计之间的较弱的相关性。图3K示出了箱形图，其示出了与ICHOR-CNA方法相比的本发明方法的比较。

图4显示了根据各种实施方案，在切除手术之前(手术前)和切除手术之后(手术后)的2名癌症患者(BB1122，BB1125)cfDNA样品和2名健康对照cfDNA样品(BB600和BB601)的背景噪声模型(健康PBMC和cfDNA样品)中的SNV检出率。

图5A和图5B示出了使用本公开的系统和方法对患者样品的临床评估。图5A示出了根据各种实施方案，使用从患有早期肺癌受试者和/或最小残留疾病(MRD)患者获得的临床样品的本公开的系统和方法的示例性评估。数据显示了所分析的所有患者的术前和术后血浆样品的肿瘤分数(TF)估计。只有两名患者显示手术后TF高于5x 10^-5的噪声阈值。但是，所有健康对照样品的TF均低于检测阈值。N.D.表示未检测到。数据在血浆检测和TF相关性方面显示出与SNV方法一致的结果。图5B显示了从腺癌患者获得的11个不同样品中zscores的计算。数据显示健康对照的zscore低于阈值水平(例如，如水平虚线所表示的zscore为2)。图5C显示了与跨患者阴性对照相比，从腺癌患者获得的11个不同样品中zscores的计算。数据显示健康对照的zscore低于阈值水平(例如，如水平虚线所表示的zscore为2)。观察到基于sSNV的检测方法和基于sCNV的检测方法之间的一致性(图5D)。

图6A-6E显示了一种积分跨大基因组CNV区段的大量定向深度覆盖度偏态的分析方法。图6A示出了在TF＝0.001处的稀疏CNV偏态的积分，其中上图示出了在扩增的10Kbp区段中合成血浆(TF＝10^-3)和匹配的PBMC之间的单bp深度覆盖度的比较；中间的图显示了血浆和PBMC之间的残差，下面的图显示了残差之和。在中间的图中，请注意残差的稀疏但正偏差，在下面的图中，部分地由于扩增正偏差，当积分到基因组上时，残差(信号)的总和累积。图6B显示了代表性扩增区段中的肿瘤读数深度(红色)，种系读数深度(粉色)和手术前血浆cfDNA读数深度(蓝色)的概况。手术前血浆显示与种系DNA相当的读数深度，但在扩增区段的端粒末端也显示扩增的深度偏态。如上所述，该数学方法积分了整个基因组的读数深度偏态。图6C显示了每个TF的信噪比(SNR)，其中10^-6以上的所有TF都显示出正(>0)SNR检测(表明高灵敏度)。图6D显示CNV血浆SNR与TF成线性关系(稀释模型)，对于肺/黑色素瘤/乳腺癌患者显示相似的动态。图6E显示在获取基因组的中性区域(例如，不包含扩增和/或缺失的区域)时，偏态相对于肿瘤分数(TF)的图。可以看出，在这些区域中，血浆和PBMC之间的深度覆盖度偏态没有偏差，并且正偏态和负偏态的概率是相似的。因此，没有信号且SNR＝0，而与TF(x轴)无关。

图7A-图7C提供了根据各个实施方案的本公开的系统的示意图。

图8提供了根据各个实施方案的代表性流程图，其概述了将手术后癌症受试者鉴定和/或分类为辅助疗法的候选者。

图9示出了本文的各个实施方案的患者特异性sSNV积分与ICHOR(BroadInstitute)之间的比较。特别是，与MIT-Broad Institute的ICHOR检测方法相比，检测灵敏度提高了约100倍。

图10A-图10E显示了正交特征例如片段大小在本公开的诊断方法中的用途，以及在基于SNV的方法中应用此类正交特征的伴随效果。图10A显示了健康正常cfDNA样品中显示的片段大小分布。图10B显示了与正常cfDNA样品相比，乳腺肿瘤cfDNA(红色和紫色)中的片段大小偏移。图10C显示在小鼠异种移植(PDX)模型中，来自肿瘤起源的循环DNA明显短于来自正常起源的循环DNA。图10D显示片段DNA大小(x-轴；碱基数)相对于肿瘤和正常样品中观察所述长度的片段的频率绘制的线性图。图10E显示了使用正交特征的患者特异性突变检测，所述正交特征例如基于DNA片段的片段大小分布(x轴)和GMM联合对数比值比(y轴)的具有肿瘤来源的DNA片段的对应性。

图11A-图11J显示了正交特征例如片段大小在本公开的诊断方法中的用途，以及在基于CNV的方法中应用此类正交特征的伴随效果。图11A显示了基因组区域(bp)相对于累积血浆深度覆盖度偏态(底部图)，血浆相对于正常深度覆盖度偏态(中图)和覆盖度(顶图)的线性图。图11B示出深度覆盖度的log2(log2＞0.5＝扩增，log2＜-0.5＝缺失)与该区段中的局部片段大小质心(COM)之间的关系。图11C显示了患者样品中基于深度覆盖度的CNV检测与基于片段大小质量中心(COM)的CNV检测之间的关系。图11D显示了在正常(健康)血浆样品中基于深度覆盖度的CNV检测与基于片段大小质量中心(COM)的CNV检测之间缺乏关系。图11E和图11F显示了两名接受治疗的患者的COM，绝对斜率值和R²的变化。在基线(第0天)和在治疗后21天和42天显示数值。图11G显示了片段大小log2斜率与患者的肿瘤分数之间的关系。图11H显示了检查无复发时间和肿瘤DNA手术后(手术后2周)检测(zscore)之间的关联的癌症患者临床研究结果。图11I显示了在治疗的基线(第0天)，中点(第21天)和结束(第42天)的四名患者的肿瘤分数的条形图。图11J显示了在治疗的基线(第0天)，中点(第21天)和结束(第42天)的四名患者的归一化CNV得分的条形图。

详细说明

各个实施方案的以下描述仅是示例性和说明性的，并且不应以任何方式解释为限制性的或限定性的。从说明书和附图以及从权利要求书中，本教导的其他实施方案，特征，目的和优点将是显而易见的。

除非另有定义，否则与本文所述的本教导结合使用的科学和技术术语应具有本领域普通技术人员通常理解的含义。在本文的公开内容的描述中使用的术语仅出于描述特定实施方案的目的，而无意于限制本公开内容。此外，除非上下文另有要求，单数术语应包括复数，复数术语应包括单数。通常，与以下相关使用的术语和以下的技术是本领域公知和常用的:本文描述的分子生物学，蛋白质和寡核苷酸或多核苷酸化学和杂交。使用标准技术，例如，用于核酸的纯化和制备，化学分析，重组核酸和寡核苷酸合成。根据制造商的说明书(或如本领域通常完成的或如本文所述)进行酶促反应和纯化技术。本文描述的技术和程序通常根据本领域众所周知和如在本说明书全文中引用和讨论的各种通用和更具体的参考文献中所述的常规方法进行。参见，例如，Sambrook等人，Molecular Cloning:ALaboratory Manual(第3版,Cold Spring Harbor Laboratory Press，Cold SpringHarbor，N.Y.2000)。本文所描述的与之相关使用的术语以及实验室程序和技术是本领域众所周知的和常用的。

在以下段落中进一步详细描述了本公开的各个实施方案。

如在本公开的说明书和所附权利要求书中所使用的，单数形式的“一”、“一个”和“该”也旨在包括复数形式，除非上下文另外明确指出。同样如本文中所使用的，“和/或”是指并且涵盖一个或更多个相关联的所列项目的任何一个及其所有可能的组合，以及当以备选方式(“或”)解释时缺乏组合。

单词“约”表示该值的正负10％的范围，例如，“约5”表示4.5至5.5，“约100”表示90至100，等等，除非本公开的上下文另外指出，或与此解释不一致。例如，在诸如“约49，约50，约55”之类的数值列表中，“约50”是指延伸至小于先前值与后续值之间的间隔的一半的范围，例如大于49.5到小于52.5。此外，应基于本文所提供的术语“约”的定义来理解短语“小于约”一个数值或“大于约”一个数值。

在本公开中提供了数值的范围的情况下，其意图是在该范围的上限和下限之间的每个中间值以及在该范围内任何其他声明的值或中间值都包含在本公开中。例如，如果声明的范围是1μM至8μM，则旨在也明确公开了2μM、3μM、4μM、5μM、6μM和7μM。

如本文所用，术语“多个”可以是2、3、4、5、6、7、8、9、10或更多。

如本文所用，术语“检测”是指通过测量样品中的一个或更多个参数来确定与样品相关的一个值或一组值的过程，并且可进一步包括将测试样品与参考样品进行比较。根据本公开，肿瘤的检测包括鉴定、测定、测量和/或定量一种或更多种标记。

如本文所用，术语“诊断”是指可以确定受试者是否可能患有给定疾病或病况的方法，包括但不限于以遗传变异为特征的疾病或病况。技术人员通常基于一种或更多种诊断指标(例如标记)进行诊断，该标记的存在、不存在、数量或数量的变化指示疾病或病症的存在、严重性或不存在。其他诊断指标可包括患者病史；身体症状，例如无法解释的体重减轻、发烧、疲劳、疼痛或皮肤异常；表型；基因型；或环境或遗传因素。技术人员将理解，术语“诊断”是指特定病程或结果发生的增加的可能性；也就是说，与未表现出该特征的个体相比，在表现出给定特征(例如，诊断指标的存在或水平)的患者中更可能发生病程或结果。本公开的诊断方法可以单独使用，或者与其他诊断方法结合使用，以确定在表现出给定特征的患者中是否更可能发生病程或结果。

在“正常细胞”的上下文中使用的术语“正常”是指未转化的表型的细胞或表现出所检查的组织类型的未转化细胞形态的细胞(例如，PBMC)。在一些实施方案中，本文所用的“正常样品”包括非肿瘤样品，例如唾液样品，皮肤样品，头发样品等。应当注意，可以在不使用正常样品的情况下实现本公开的方法。

如本文所用，术语“异常的”通常是指在一定程度上偏离正常(例如，野生型)的生物系统的状态。异常状态可以发生在生理或分子水平。代表性实例包括例如生理状态(疾病，病理学)或遗传畸变(突变，单核苷酸变体，拷贝数变体，基因融合，indel等)。疾病状态可以是癌症或癌症前期。异常的生物学状态可能与异常的程度相关联(例如，指示远离正常状态的距离的定量测量)。

如本文所用，术语“可能性”通常是指概率，相对概率，存在或不存在或程度。

如本文所用，术语“肿瘤”包括与正常或野生型细胞相比，在遗传、细胞或生理水平上可能已经经历转化的任何细胞或组织。该术语通常表示肿瘤生长，其可能是良性的(例如，不形成转移并破坏相邻正常组织的肿瘤)或恶性的/癌变(例如，侵入周围组织且通常能够产生转移的肿瘤，其在尝试移除后可能复发，除非经过适当治疗，否则很可能导致宿主死亡)。参见Steadman的Medical Dictionary，28^th Ed Williams&Wilkins，Baltimore，MD(2005)。

术语“癌症”(与“肿瘤”互换使用)是指人类癌症和癌、肉瘤、腺癌、淋巴瘤、白血病、实体癌和淋巴癌等。不同类型的癌症的实例包括但不限于肺癌、胰腺癌、乳腺癌、胃癌、膀胱癌、口腔癌、卵巢癌、甲状腺癌、前列腺癌、子宫癌、睾丸癌、神经母细胞瘤、头、颈、子宫颈和阴道鳞状细胞癌、多发性骨髓瘤、软组织和成骨肉瘤、结肠直肠癌、肝癌、肾癌(例如RCC)、胸膜癌、宫颈癌、肛门癌、胆管癌、胃肠道类癌、食道癌、胆囊癌、小肠癌、中枢神经系统癌症、皮肤癌、绒毛膜癌、成骨肉瘤、纤维肉瘤、神经胶质瘤、黑色素瘤等。在一些实施方案中、排除“液体”癌症、例如血液癌、例如淋巴瘤和/或白血病。

示例性癌症包括但不限于肾上腺皮质癌、与AIDS有关的癌症、与AIDS有关的淋巴瘤、肛门癌、肛肠癌、肛管癌、阑尾癌、儿童小脑星形细胞瘤、儿童脑星形细胞瘤、基底细胞癌、皮肤癌(非黑色素瘤)、胆道癌、肝外胆管癌、肝内胆管癌、膀胱癌(bladder cancer)、膀胱癌(urinary bladder cancer)、骨和关节癌、骨肉瘤和恶性纤维组织细胞瘤、脑癌、脑瘤、脑干神经胶质瘤、小脑星形细胞瘤、脑星形细胞瘤/恶性神经胶质瘤、室管膜瘤、髓母细胞瘤、幕上原始神经外胚层肿瘤、视觉通路和下丘脑神经胶质瘤、乳腺癌、支气管腺瘤/类癌、类癌、胃肠道、神经系统癌、神经系统淋巴瘤、中枢神经系统癌、中枢神经系统淋巴瘤、宫颈癌、儿童期癌症、慢性淋巴细胞性白血病、慢性粒细胞性白血病、慢性骨髓增生性疾病、结肠癌、结肠直肠癌、皮肤T细胞淋巴瘤、淋巴样肿瘤、蕈样肉芽肿、Seziary综合征、子宫内膜癌、食道癌、颅外生殖细胞瘤(extracranial germ cell tumor)、性腺外生殖细胞瘤、肝外胆管癌、眼癌、眼内黑色素瘤、视网膜母细胞瘤、胆囊癌、胃癌、胃肠道类癌、胃肠道间质瘤(GIST)、生殖细胞瘤、卵巢生殖细胞瘤、妊娠滋养细胞肿瘤神经胶质瘤、头颈癌、肝细胞(肝)癌、霍奇金淋巴瘤(Hodgkin lymphoma)、下咽癌、眼内黑色素瘤、眼癌、胰岛细胞瘤(内分泌胰腺)、卡波济肉瘤(Kaposi's sarcoma)、肾癌(kidney cancer)、肾癌(renal cancer)、喉癌、急性淋巴细胞白血病、急性髓细胞性白血病、慢性淋巴细胞性白血病、慢性粒细胞性白血病、毛细胞白血病、嘴唇和口腔癌、肝癌、肺癌、非小细胞肺癌、小细胞肺癌、与AIDS相关的淋巴瘤、非霍奇金淋巴瘤、原发中枢神经系统淋巴瘤、Waldenstram巨球蛋白血症、髓母细胞瘤、黑色素瘤、眼内(眼)黑色素瘤、默克尔(Merkel)细胞癌、恶性间皮瘤、间皮瘤、转移性鳞状颈癌、口腔癌、舌癌、多发性内分泌肿瘤综合征、蕈样肉芽肿、骨髓增生异常综合症、骨髓增生异常/骨髓增生性疾病、慢性骨髓性白血病、急性髓性白血病、多发性骨髓瘤、慢性骨髓增生性疾病、鼻咽癌、神经母细胞瘤、口腔癌(oral cancer)、口腔癌(oral cavitycancer)、口咽癌、卵巢癌、卵巢上皮癌、卵巢低度恶性潜在肿瘤、胰腺癌、胰岛细胞胰腺癌、鼻窦和鼻腔癌、甲状旁腺癌、阴茎癌、咽癌、嗜铬细胞瘤、成松果体细胞瘤和幕上原始神经外胚层肿瘤、垂体瘤、浆细胞肿瘤/多发性骨髓瘤、胸膜肺母细胞瘤、前列腺癌、直肠癌、肾盂和输尿管癌、移行细胞癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、尤文氏肉瘤家族、卡波济肉瘤、子宫癌、子宫肉瘤、皮肤癌(非黑色素瘤)、皮肤癌(黑色素瘤)、默克尔细胞皮肤癌、小肠癌、软组织肉瘤、鳞状细胞癌、胃癌、幕上原始神经外胚层肿瘤、睾丸癌、喉癌、胸腺瘤、胸腺瘤和胸腺癌、甲状腺癌、肾盂和输尿管及其他泌尿器官的移行细胞癌、妊娠滋养细胞肿瘤、尿道癌、子宫内膜子宫癌、子宫肉瘤、子宫体癌、阴道癌、外阴癌和威尔姆氏肿瘤(Wilm'sTumor)。

如本文所用，本文所用的术语“非小细胞肺癌”或NSCLC是指不是小细胞肺癌的所有肺癌，并且包括几种亚型，包括但不限于大细胞癌、鳞状细胞癌和腺癌。包括所有阶段和转移。鳞状细胞癌占肺癌的25％，通常始于中央支气管附近。通常在肿瘤中心发现空心腔和相关的坏死。高分化鳞状细胞癌的生长速度通常比其他类型的癌症慢。腺癌占非小细胞肺癌的40％。它通常起源于周围的肺组织。多数腺癌病例与吸烟有关；然而，在从未吸烟的人群中，腺癌是最常见的肺癌形式。参见，Rosell等人，Lung Cancer,46(2),135-48，2004；Coate et al.,Lancet Oncol,10,1001-10,2009。

如本文所用，术语“残留疾病”是指即使在例如外科手术干预，放射消融，化学疗法等干预之后，残留的赘生性细胞的持久性。术语“最小残留疾病”(MRD)描述了一种情况，在这种情况下，在对肿瘤进行治疗(例如化学疗法，免疫疗法或靶向疗法)之后，形态正常的组织(例如肺组织)仍然可以具有相关数量的残留恶性细胞。最小残留疾病(MRD)的检测是一种新的实用工具，用于更精确地测量治疗期间的缓解诱导。在液体肿瘤(例如淋巴瘤或骨髓瘤)的情况下，术语MRD可涉及低于10^-4，例如10^-5或甚至10^-6的检测极限。在实体瘤的情况下，术语“最小残留疾病”可涉及肿瘤标记低于使用传统的检测手段例如ctDNA检测或血浆DNA分析可检测到的情况。在一些实施方案中，MRD涉及其中每5ml血浆检测到少于100个拷贝，优选少于40个拷贝，特别是少于10个拷贝的ctDNA的情况(Bettegowda等人，Sci TranslMed.，6(224)，224ra24，2014)。

如本文所用，术语“受试者”是指哺乳动物，包括人、兽医或农场动物、家畜或宠物以及通常用于临床研究的动物。特别地，受试者是人类受试者，例如被诊断出患有肿瘤或怀疑患有肿瘤的人类患者。受试者可能具有，潜在地具有或怀疑具有选自癌症的一种或多种特征，与癌症有关的症状，关于癌症的无症状的或未被诊断的(例如，未被诊断为癌症的)。该受试者可能患有癌症，该受试者可能显示出与癌症相关的症状，该受试者可能没有与癌症相关的症状，或者该受试者可能没有被诊断出患有癌症。在一些实施方案中，受试者是人。

如本文所用，关于突变的术语“单核苷酸多态性”或“单核苷酸变异”(“SNP”或“SNV”)是指与另一个序列相比，序列中至少一个核苷酸的差异。

术语“拷贝数变异”或“CNV”是指具有相同核苷酸序列的基因片段在存在或不存在/获得或丢失的情况下的比较数值变化。在人类基因组中，拷贝数变体可以涉及一个或多个DNA片段的纯合或杂合重复或倍增，或一个或多个DNA片段的纯合或杂合缺失。对于CNV的重复/倍增，CNV的方向性通常表示为正，而对于CNV的缺失通常表示为负。

如本文所用，术语“indel”是指基因组上一个等位基因中存在一个或更多个碱基而另一等位基因中不存在碱基的位置。从进化的观点来看，插入或缺失是不同的，但是在诸如本文所述的分析过程中，由于在一个等位基因中的插入等同于在另一个等位基因中的缺失，它们通常不被区分。因此，术语indel是指两个等位基因之间的插入/缺失的位置。

如本文所用，术语“结构变体”指染色体的某些部分的改变，而不是基因组中染色体或一组染色体的数目的改变。导致结构变体的突变共有四种常见类型：缺失和插入，例如重复(分别涉及染色体中DNA数量的变化，遗传物质的丢失和获得)，倒置(涉及染色体区段的排列变化)和易位(涉及染色体区段的位置变化，这能够引起基因融合)。在本发明中，术语“结构变体”包括遗传物质的丢失、遗传物质的增加、易位、基因融合及其组合。

如本文所用，术语“样品”是指获自或源自目的受试者的组合物，其包含例如将基于以下物理、生化、化学和/或生理特性表征和/或识别的细胞和/或其他分子实体。优选地，样品是“生物样品”，其是指源自活体例如细胞，组织，器官等的样品。在一些实施方案中，组织样品的来源可以是血液或任何血液成分；体液；来自新鲜、冷冻和/或保存的器官或组织样品或活检或抽吸的实体组织；以及在受试者的妊娠或发育过程中的任何时间的细胞或血浆。样品包括但不限于原代或培养的细胞或细胞系、细胞上清液、细胞裂解物、血小板、血清、血浆、玻璃体液、眼液、淋巴液、滑液、卵泡液、精液、羊水、奶、全血、尿液、脑脊液(CSF)、唾液、痰、眼泪、汗液、粘液、肿瘤裂解物和组织培养基、以及组织提取物(例如均质组织)、肿瘤组织和细胞提取物。样品进一步包括生物样品，这些样品在获得后已经通过任何方式进行了处理，例如通过试剂处理，对某些成分(例如蛋白质或核酸)进行增溶或富集，或者包埋在半固体或固体基质中用于切片目的，例如组织学样品中的组织或细胞的薄切片。样品可以包含环境成分，例如水，土壤，泥，空气，树脂，矿物质等。在某些实施方案中，样品可以包括含有从受试者(例如人或其他哺乳动物受试者)获得的DNA(例如gDNA)，RNA(例如mRNA，tRNA)，蛋白质或其组合的生物样品。

如本文所用，术语“细胞”与术语“生物细胞”可互换使用。生物细胞的非限制性实例包括真核细胞、植物细胞、动物细胞(例如哺乳动物细胞、爬行动物细胞、禽类细胞、鱼细胞等)、原核细胞、细菌细胞、真菌细胞、原生动物细胞等、从组织(例如肌肉、软骨、脂肪、皮肤、肝、肺、神经组织等)分离的细胞、免疫细胞(例如T细胞、B细胞、自然杀伤细胞、巨噬细胞等)、胚胎(例如，受精卵)、卵母细胞、卵细胞、精子细胞、杂交瘤、培养的细胞、来自细胞系的细胞、癌细胞、感染的细胞、经转染和/或转化的细胞、报告细胞等。哺乳动物细胞可以例如来自人、小鼠、大鼠、马、山羊、绵羊、牛、灵长类动物等。

如本文所用，术语“标记”是指可以作为正常生物学过程、致病过程或对治疗干预(例如利用抗癌药治疗)的药理反应的指标而客观地测量的特征。标记的代表性类型包括例如标记的结构(例如序列)或数量的分子变化，包括例如基因突变、基因重复或多种差异，例如cfDNA的体细胞改变、拷贝数变异、串联重复或其组合。

如本文所用，术语“遗传标记”是指在染色体上具有特定位置的DNA序列，其可以在实验室中测量。术语“遗传标记”也可以用于指例如由基因组序列编码的cDNA和/或mRNA，以及该基因组序列本身。遗传标记可包括两个或更多个等位基因或变体。遗传标记可以是直接的(例如，位于目的基因或基因座内(例如，候选基因))，间接的(例如，由于邻近但不在目的基因或基因座内，而与目的基因或基因座紧密相连)。而且，遗传标记还可能与基因组的非编码区段中存在的基因或基因座(例如SNV，CNV，indel，SV或串联重复)无关。遗传标记包括编码或不编码基因产物(例如蛋白质)的核酸序列。特别地，遗传标记包括单核苷酸多态性/变异(SNP/SNV)或拷贝数变异(CNV)或其组合。优选地，与参考样品相比，遗传标记包括DNA中的体细胞变异，例如sSNV或sCNV，indel，SV或其组合。

如本文所用，术语“无细胞DNA”或“cfDNA”是指例如，从循环血液的血浆/血清中提取或分离的，从淋巴液，脑脊液(CSF)，尿液或其他体液中提取的，无细胞的脱氧核糖核酸(DNA)链。术语“cfDNA”与“循环肿瘤DNA”或“ctDNA”截然不同。无细胞DNA(cfDNA)是一个较宽泛的术语，其描述了在血流中自由循环但不一定来自肿瘤的DNA。

如本文所用，术语“种系DNA”或“gDNA”是指从患者的外周单核血细胞(包括从循环血液中获得的淋巴细胞)分离或提取的DNA。

如本文所用，术语“变异”是指变化或偏差。关于核酸，变异是指DNA核苷酸序列之间的差异或变化，包括拷贝数差异(CNV)。DNA序列之间核苷酸的这种实际差异可以是SNP和/或DNA序列的变化，例如，当将序列与参照物(例如种系DNA(gDNA)或参考人类基因组HG38序列)比较时观察到的变化，例如融合、缺失、添加、重复等。优选地，变异是指cfDNA序列与不是来自肿瘤细胞的对照DNA序列之间的差异，例如当cfDNA与参考HG38序列比较时，当将cfDNA与gDNA比较时。在gDNA和cfDNA中识别出的差异被认为是“构成性的(constitutional)”，可以忽略不计。

如本文所用，术语“对照”是指测试样品的参考，例如从外周单核血细胞和淋巴细胞分离的对照DNA，其中这些细胞不是癌细胞等。如本文所用，“参考样品”是指可能患有或不患有癌症的用于比较的组织或细胞的样品。因此，“参考”样品由此提供了可以与另一样品例如含有cfDNA的血浆样品进行比较的基础。相反，“测试样品”是指与参考样品或对照样品相比的样品。参考样品不必是无癌的，例如当从同一位患者在不同时间获得参考样品和测试样品时。

在一些实施方案中，参考样品或对照可包括参考组件(reference assembly)。术语“参考组件”是指数字核酸序列数据库，例如包含HG38组件序列的人类基因组(HG38)数据库(组装于2013年12月)。可以通过万维网URL GENOME.UCSC.EDU的人类(Homo sapiens)加州大学圣克鲁兹分校(University of California Santa Cruz，UCSC)基因组浏览器网关访问该网关。另外，参考组件也可以指基因组参考协会的人类基因组组件(版本38；组装于2017年6月)，可通过美国国家生物技术信息中心(U.S.National Center forBiotechnology Information,NCBI)的网站在互联网上进行访问。

如本文所用，术语“测序”或“序列测定”作为动词是指确定DNA的核苷酸序列或核苷酸的顺序，例如核苷酸顺序AGTCC等的过程。术语“序列”作为名词是指从测序获得的实际核苷酸序列；例如，具有序列AGTCC的DNA。其中“序列”是以数字形式提供和/或接收的，例如在磁盘上或通过服务器远程提供，“测序”可以指使用本公开的方法和/或系统传播、操作和/或分析的DNA的集合。

如本文所用，术语“DNA序列”通常是指“原始序列读数”和/或“一致性”。原始序列读数是DNA测序仪的输出，通常包含相同亲本分子的冗余序列，例如在扩增后。“共有序列”是衍生自旨在代表原始亲本分子的序列的亲本分子的冗余序列的序列。一致性可通过投票(其中每个多数核苷酸，例如，在给定碱基位置上最常观察到的核苷酸，在序列中是共有核苷酸)或诸如与参考基因组比较的其他方法来产生。可通过用独特或不独特的分子标签(例如条形码)标记原始的亲本分子来产生一致性，所述分子标签允许跟踪子代序列(例如在PCR之后)。

测序方法可以是第一代测序方法，例如Maxam-Gilbert或Sanger测序，或高通量测序(例如，下一代测序或NGS)方法。高通量测序方法可以同时(或基本同时)对至少10，000、100,000、1,000,000、1000万，1亿，10亿或更多个多核苷酸分子进行测序。测序方法可以包括但不限于：焦磷酸测序，合成测序，单分子测序，纳米孔测序，半导体测序，连接测序，杂交测序，数字基因表达(Helicos)，大规模平行测序，例如Helicos，克隆单分子阵列(Solexa/Illumina)，使用PACBIO，SOLID，Ion Torrent或NANOPORE平台的测序。

术语“全基因组测序”是指确定样品中每个DNA链的DNA序列的实验室过程。所得序列可以称为“原始测序数据”或“读数”。如本文所用，当序列与参考染色体DNA序列的区域具有相似性时，读数是“可映射的”读数。术语“可映射的”可以指与参考序列显示相似性并因此被“映射”的区域，例如，与数据库中的参考序列显示相似性的cfDNA区段，例如与人类基因组(HG38)数据库中的人类染色体区域8q248q24.3具有高相似性百分比的cfDNA是“可映射的读数”。

“深度测序”是指针对序列的每个区域的大量重复读数的一般概念。

如本文所用，术语“映射”通常是指基于序列同源性将DNA序列与参考序列比对。可以使用比对算法来进行比对，例如，Needleman-Wunsch算法，BLAST或EMBOSS。

除“WGS”外，可使用靶向测序来获得基因组概要。与WGS相比，本文使用的术语“靶向测序”是指确定样品中选定DNA基因座或基因的DNA序列的实验室过程，例如对选定组的癌症相关基因或标记(例如靶标)进行测序。在本上下文中，术语“靶序列”是指选定的靶多核苷酸，例如存在于cfDNA分子中的序列，需要确定其存在、数量和/或核苷酸序列或其中的变化。靶序列被查询是否存在体细胞突变。靶多核苷酸可以是与疾病例如癌症相关的基因区域。在一些实施方案中，该区域是外显子。

如本文所用，关于cfDNA的术语“低丰度”是指样品中cfDNA的量小于约20ng/mL，例如约15ng/mL，约10ng/mL或以下，例如约9ng/mL、8ng/mL、7ng/mL、6ng/mL、5ng/mL、4ng/mL、3ng/mL、2ng/mL、1ng/mL、0.7ng/mL、0.5ng/mL、0.3ng/mL或更小，例如0.1ng/mL或甚至0.05ng/mL。在一些实施方案中，术语“低丰度”可以在标记的唯一性的上下文中理解，例如长度或碱基组成。例如，尽管受试者的样品可能包含大量的cfDNA(例如>20ng/mL)，但cfDNA中包含的独特遗传标记(例如sSNV，sCNV，indel，SV)的实际数量可能非常低。通常，此参数表示为基因组当量(GE)或覆盖度，如下所述。一些实施方案中，术语“低丰度”可以在标记的肿瘤特异性的背景下理解。例如，尽管受试者的样品可能包含大量的cfDNA(例如，>20ng/mL)，但cfDNA中包含的绝大多数遗传标记(例如，sSNV，sCNV，indel，SV)可能是冗余的和/或与参照物(例如PBMC gDNA)相关。通常，此参数表示为肿瘤分数(TF)，如下所述。

如本文所用，关于cfDNA的术语“肿瘤特异性的”或“与肿瘤相关的”是指当与参考DNA比较时，例如当cfDNA与来自非肿瘤细胞的对照DNA(gDNA)比较时，其癌症形成肿瘤的受试者(例如肺癌患者)中cfDNA的DNA序列的差异，如本文所述。备选地，当与治疗期间或之后收集的cfDNA相比时，“肿瘤特异性”可涉及治疗前的cfDNA。

如本文所用，术语“读数重复家族”包括PCR和测序重复。通常，这些是相同的独特片段的独立重复，因此可以用于统计测试(一致性测试)中以纠正低频PCR和测序错误。

术语“覆盖度”或“读数深度”涉及测序工作。例如，20X的覆盖度表示适度的测序工作，而35X或更高的覆盖度则表示高的测序工作，而5X的覆盖度则表示低的测序工作。在本公开的实施方案中，覆盖度通常在约5X至约100X之间，特别是在15X至约40X之间，例如20X、30X、35X、40X、50X、70X或更大。

如本文所用，“深度覆盖度”是指其映射在特定基因组坐标处或之上重叠的独特读数的数量。

如本文所用，术语“cfDNA覆盖度掩码”是指代表正常cfDNA队列中的cfDNA读数覆盖度的基因组区域的掩码。如本领域所知，cfDNA覆盖度不是完全均匀的(可访问的染色质基因组区域较少表示)，因此为了消除偏差，可以实施黑名单或掩码以允许对覆盖良好的区域进行选择性分析。

如本文所用，术语“读数可映射性”涉及读数与基因组的映射准确性的数值(例如，百分比同一性)或统计学测量(例如，置信度估计)。

如本文所用，术语“突变负荷”或“N”是指预定基因组窗口中每个预选单位(例如，每兆碱基对)的改变(例如，一个或更多个遗传改变，特别是一个或更多个体细胞改变)的水平(例如数量)。可以例如基于整个基因组或外显子组或基于基因组或外显子组的子集来测量突变负荷。在某些实施方案中，可以外推基于基因组或外显子组的子集测量的突变负荷以确定整个基因组或外显子组突变负荷。在某些实施方案中，突变负荷是在来自受试者例如本文所述的受试者的样品例如肿瘤样品(例如，肺肿瘤样品或从肺肿瘤获得或衍生的样品)中测量的。优选地，突变负荷是cfDNA每兆碱基对(1,000,000bp或MBP)的突变数的量度。如本领域中已知的，突变负荷可以根据肿瘤的类型、遗传谱系和其他受试者特异性特征(例如年龄、性别、烟草消费等)而变化。在肿瘤诊断的背景下，突变负荷可以介于每MBP约1000到约10000个突变之间，例如约1000、2000、4000、6000、8000、10000、12000、15000、20000、25000、30000、40000、50000、60000、60000、70000、80000、90000、10000、10000或更多，例如每MBP约200000。通常，在非吸烟者中，突变负荷为每MBP约8,000个，而在患有黑色素瘤的受试者中，突变负荷为每MBP 40,000个以上。

如本文所用，术语“基因组窗口”是指所选核苷酸序列边界内的DNA区域。窗口可彼此分离或彼此重叠。

如本文所用，术语“肿瘤分数”或“TF”涉及相对于正常DNA分子的肿瘤DNA分子的水平(例如数量)。在一些实施方案中，“肿瘤分数”是指无循环细胞的肿瘤DNA(ctDNA)相对于无细胞DNA(cfDNA)总量的比例。据信肿瘤分数指示肿瘤的大小。通常，肿瘤分数(TF)在约0.001％至约1％之间，例如，约0.001％，0.05％，0.1％，0.2％，03％，0.4％，0.5％，0.6％，0.7％，0.8％，0.9％，1％或更高，例如2％。

术语“丰度”可以指表明特定分子种类的存在的二进制(例如，不存在/存在)、定性(例如，不存在/低/中等/高)或定量信息(例如，与数量、频率或浓度成比例的值)。在这种情况下，以较高相对浓度存在的突变与大量恶性细胞相关，例如，与体内其他恶性细胞相比，在致癌过程中较早转化的细胞(Welch等人，Cell，150：264-278，2012)。由于这些突变的相对丰度较高，因此它们与具有较低相对丰度的那些突变相比，有望表现出更高的诊断灵敏度用于检测癌症DNA。

如本文所用，“测序噪声”是指在“运行”期间由测序仪器，软件或其他人工引入的噪声。在测序管线存在着至少两个噪声源。首先，由输入沉淀(DNA或细胞沉淀)产生的DNA混合物是细胞的复杂混合物，因此任何有用的信号都会被不具有信息内容的DNA稀释。第二个噪声源是由于所采用的特定的测序技术。例如，测序噪声或“机器”噪声可源自离子-对-碱基的测序过程，例如使用IONTORENT PGM^TM平台。例如，基于pH检测将碱基读数的离子检测测序对均聚物敏感，有时会将均聚物链读为一个碱基太长或太短。

如本文所用，“测序错误率”涉及不正确测序核苷酸的比例。例如，在全基因组测序的背景下，文献中报道了每1000个碱基大约1个的测序错误率(范围：每个碱基调用(base-call)的错误率约为0.1–1％级；Wu等人，Bioinformatics，33(15):2322-2329，2017)。

如本文所用，术语“测序深度”是指测序区被序列读数覆盖的次数。例如，平均测序深度为10倍意味着测序区域内的每个核苷酸平均被10个序列读数覆盖。随着测序深度的增加，检测与癌症相关的突变的机会有望增加。但是，实际上，检测的几率并不随测序深度线性增加，这一事实证明，即使在42,000X的中值深度，cfDNA丰度的基本限制也只能导致大约19％的早期肺腺癌的阳性检测(Abbosh等人，Nature，545(7655)：446-451，2017)。

如本文中所使用，术语“噪声”在最广义上是指仍然可能作为真实事件被处理或接收的任何不期望的干扰(例如，与真实事件不直接相关的信号)。噪声是人为和自然来源引入系统的不需要的或干扰能量的总和。噪声会使信号失真，从而使信号携带的信息降级或可靠性降低。该术语与“信号”相反，“信号”是传达有关某种现象的行为或属性的信息(例如标记(SNV，CNV，indel，SV)与肿瘤之间的概率关联)的功能。

如本文所用，术语“信噪比”是指从系统的噪声中解析真实信号的能力。信噪比是通过获取所需信号的水平与信号中存在的噪声水平的比率来计算的。影响信噪比的现象包括例如检测器噪声，系统噪声和背景假象。如本文所使用的，术语“检测器噪声”是指源自检测器内的不期望的干扰(即，不是直接由预期的检测能量产生的信号)。检测器噪声包括暗电流噪声和散粒噪声。诸如测序仪的光学检测器系统中的暗电流噪声可能是由来自光电检测器的各种热辐射引起的。光学系统中的散粒噪声是入射光子通过光电检测器时的基本粒子性质(即泊松分布的能量波动)的产物。

本领域技术人员以多种方式使用术语“过滤器”，以表示丢弃或去除不需要的数据，保留需要的数据，或以上两者。在本公开中，术语“过滤器”主要用于暗示保留需要的数据，例如信号。

术语“碱基质量”(BQ)得分涉及多核苷酸中每个核碱基处的测序质量的置信度。在一些实施方案中，碱基质量(BQ)包括可变碱基质量(VBQ)或平均读数碱基质量(MRBQ)，这两者都是碱基质量度量的变体。

术语“映射质量”(MQ)得分涉及关于标记与基因组的映射准确性的置信度估计。

术语“读数位置”或“读数中位置(PIR)”是指核苷酸序列中读数(例如标记)上的位置。如在基因组学中所理解的，许多测序方案易于发生各种类型的扩增引起的偏差和错误，这可以通过实施诸如“读数方向”和“读数位置”过滤器的过滤器来减少。读数方向过滤器可去除几乎只存在于正向或反向读数中的变体。对于许多测序方案而言，此类变体最有可能是扩增引起的错误的结果。读数位置过滤器以类似于“读数方向过滤器”的方式实施，以消除系统错误，但也适用于基于杂交的数据。与覆盖变体位点的读数的一般位置所预期的相比，它去除了携带它的读数中不同定位的变体。这通过根据读数的映射方向及在读数中发现该核苷酸的位置将每个测序的核苷酸(或缺口)分类而完成；每个读数沿其长度分为几部分(例如5部分)，并记录核苷酸的部分编号。对于每个测序的核苷酸，总共给出了十个类别，并且一个给定的位点会在覆盖该位点的读数的这十个类别之间分布。如果该位点中存在变体，则可以预期该变体核苷酸遵循相同的分布。读数位置过滤器执行测试以测量读数位置的显著性，例如，测量携带读数的变体的读数位置分布是否与覆盖该位点的读数总集的读数位置分布不同。

如本文所用，标记(例如，CNV)的术语“位置属性”涉及在染色体或基因序列中的标记的空间位置。例如，可以基于标记是否是距离染色体的端粒、着丝粒或异染色质区域至少1000千个碱基(kb)，至少400kb，至少100kb，至少20kb或更少的kb，例如1kb来测量标记的位置属性。以染色体重排热点为特征的映射到亚端粒或着丝粒附近区域的CNV可能是不受欢迎的。如本文所用，关于标记(例如CNV)的术语“代表的”涉及其与表型或疾病的关联。例如，以前的研究发现，免疫球蛋白区域中的CNV调用不能代表gDNA，并且倾向于主要依赖于DNA来源-例如，唾液与血液或淋巴样干细胞系与血液(Need等，2009；Wang等，2007；Sebat等，2004)。

如本文所用，DNA测序中的术语“覆盖度”或“深度”是指在重构序列中包括给定核苷酸的读数的数目。覆盖度柱状图通常用于描述整个数据集的测序覆盖度的范围和均匀性。它们通过展示通过各种深度下映射测序读数覆盖度的参考碱基的数量来说明总体覆盖度分布。映射的“读数深度”是指在给定的参考碱基位置处测序和比对的碱基总数。通常，在测序覆盖度柱状图中，将读数深度分箱(bin)并展示在x轴上，而占据每个读数深度箱的参考碱基的总数展示在y轴上。这些也可以写作参考碱基的百分比。

如本文所用，“深度覆盖度”是指其映射与特定基因组坐标重叠的独特读数的数量。

如本文所用，关于CNV的术语“读数可映射性”是指关于与该CNV有关的读数与基因组的映射准确性的置信度估计。

如本文所用，术语“独特读数”是指具有独特特征，例如在参考基因组中独特出现的读数。相反，“非独特读数”是指不具有或仅有很少的独特特征，例如，在读数中发生多于一次(即重复)的读数。

如本文所用，基因组“目的区域”或ROI可以是希望获得遗传信息的任何基因组区域。目的基因组区域可以包含染色体的区域。目的基因组区域可以包含整个染色体。染色体可以是二倍体染色体。例如，在人类基因组中，二倍体染色体可以是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23号染色体中的任何一个。在某些情况下，染色体可以是X或Y染色体。在某些情况下，目的基因组区域包括染色体的一部分。目的基因组区域可以是任何长度。目的基因组区域可以具有以下长度:例如，约1个至约10个碱基，约5个至约50个碱基，约10个至约100个碱基，约70个至约300个碱基，约200个碱基至约1000个碱基(1kb)，约700个碱基至约2000个碱基，约1kb至约10kb，约5kb至约50kb，约20kb至约100kb，约50kb至约500kb，约100kb至约2000kb(2Mb)，约1Mb至约50Mb，约10Mb至约100Mb，约50Mb至约300Mb。例如，目的基因组区域可以是超过1个碱基，超过10个碱基，超过20个碱基，超过50个碱基，超过100个碱基，超过200个碱基，超过400个碱基，超过600个碱基，超过800个碱基，超过1000个碱基(1kb)，超过1.5kb，超过2kb，超过3kb，超过4kb，超过5kb，超过10kb，超过20kb，超过30kb，超过40kb，超过50kb，超过60kb，超过70kb，超过80kb，超过90kb，超过100kb，超过200kb，超过300kb，超过400kb，超过500kb，超过600kb，超过700kb，超过800kb，超过900kb，超过1000kb(1Mb)，超过2Mb，超过3Mb，超过4Mb，超过5Mb，超过6Mb，超过7Mb，超过8Mb，超过9Mb，超过10Mb，超过20Mb，超过30Mb，超过40Mb，超过50Mb，超过60Mb，超过70Mb，超过80Mb，超过90Mb，超过100Mb或超过200Mb。目的基因组区域可以包含一个或多个信息基因座。信息基因座可以是多态性基因座，例如包含两个或多个等位基因。在某些情况下，两个或多个等位基因包括次要等位基因。

如本文所使用的，关于读数的术语“方向性”是指进行读数的方向或方式。例如，在单末端读取中，测序仪仅从一个末端至另一末端读取片段，从而生成碱基对序列。在配对末端读取中，它从一个读取开始，以指定的读数长度完成该方向，然后从片段的相反末端开始另一轮读取。配对末端读取改善了识别基因组中各个读数的相对位置的能力，使其在解决结构重排(例如基因插入，缺失或倒置)中比单末端读取更加有效。它还可以改善重复区域的组装。但是，配对末端读取比单末端读取更昂贵，更耗时。

如本文所用，术语“CNV方向性”是指拷贝数变化的方向。例如，拷贝数的增加(例如，增加或倍增)是正的，而减少(例如，丢失或碎片化)是负的。

如本文所用，术语“箱”是指例如在“基因组箱”中分组在一起的DNA序列组。在特定情况下，箱可以包括基于“基因组箱窗口”而分箱的DNA序列组，其包括使用基因组窗口对DNA序列进行分组。

如本文所用，在标记水平的情况下，术语“估计”以广义使用。这样，术语“估计”可以指实际值(例如，1/mbp)，值的范围，统计值(例如，均值，中位数等)或其他估计方式(例如，概率地)。

如本文所用，“基本上”是指足以用于预期目的。因此，术语“基本上”允许从绝对的或完美的状态、尺寸、测量、结果等进行微小的、微不足道的变化，这是本领域普通技术人员可以期望的，但是不会明显影响整体性能。当针对可表示为数值的数值或参数或特性使用时，“基本上”是指百分之十以内。

如本文所用，术语“基本上纯化的”是指从其天然环境中移除的，分离或分开或提取的cfDNA分子，其至少60％，优选75％，更优选90％，且最优选99％不含与之天然相关的其他成分。

本文中提及的所有出版物均通过引用并入本文，其目的在于描述和公开出版物中描述的并且可与本公开相关使用的装置，组合物，制剂和方法。

如本文所用，术语“包含(comprise)”，“包含(comprises)”，“包含(comprising)”，“含有(contain)”，“含有(contains)”，“含有(containing)”，“具有(have)”，“具有(having)”，“包括(include)”，“包括(includes)”和“包括(including)”及其变体不意图是限制性的，其是包括性的或开放性的，并且不排除额外的未叙述的添加物，组分，整数，元件或方法步骤。例如，包含一系列特征的过程，方法，系统，组分，套件或设备并不仅限于这些特征，还可以包括未明确列出的或此类过程，方法，系统，组分，套件或设备固有的其他特征。

除非另外指出，否则本主题的实施可以采用本领域技术范围内的常规技术和有机化学，分子生物学(包括重组技术)，细胞生物学和生物化学的描述。

方法

本公开涉及通过分析无细胞DNA(cfDNA)中存在的标记来检测和/或诊断残留肿瘤的方法和系统。该检测可以单独使用，也可以与现有技术结合使用，以确定是否存在残留肿瘤，预测患有此类疾病的可能性，以及开发针对此类疾病的治疗性或预防性干预。

在一些实施方案中，本公开的方法在获自受试者的样品上进行。优选地，样品包括血液(包括全血)，血浆，血清，溶血产物，淋巴液，滑液，脊髓液，尿液，脑脊液，粪便，痰，粘液，羊水，泪液，囊肿液，汗腺分泌物，胆汁，乳液，眼泪，唾液或耳垢。可以使用各种方法处理样品以去除特定的细胞，所述方法例如离心，亲和层析(例如，免疫吸附手段)，免疫选择和过滤。因此，在一个实例中，样品可包含直接从受试者中分离或从受试者获得的样品中纯化的特定细胞类型或细胞类型的混合物(例如，从全血中纯化T细胞)。在一个实例中，生物学样品是外周血单核细胞(PBMC)。在其他实例中，样品可以选自由以下各项组成的组：B细胞，树突状细胞，粒细胞，先天性淋巴样细胞(ILC)，巨核细胞，单核细胞/巨噬细胞，自然杀伤(NK)细胞，血小板，红细胞(RBC)，T细胞，胸腺细胞。在一些实施方案中，样品可以包含皮肤细胞，毛囊细胞，精子等。

在图1和图8中提供了诊断方法的代表性的、非限制性的示意图。

工作流程

图1A是流程图，其示出根据本公开的各个实施方案的用于检测残留疾病的方法100，所述残留疾病例如为手术后或治疗后发明(例如化学疗法，免疫疗法，靶向疗法，放射疗法)的肿瘤疾病。方法100仅是说明性的，并且实施方案可以使用方法100的变体。方法100可包括以下步骤：接收标记概要；基于多个特征过滤与标记相关联的噪声；从概要中删除人工噪声标记，以生成受试者特异性的标记，然后将所述受试者特异性的标记用于评估肿瘤分数(eTF)，然后将肿瘤分数用于诊断残留疾病。应当注意的是，TF是指肿瘤DNA(ctDNA)在总血浆DNA(cfDNA)中的分数。因此，在本公开内容和其他地方中，术语“ctDNA丰度”可以与术语肿瘤分数互换使用。

在图1A的方法100的步骤110中，从受试者接收与生物样品(肿瘤样品和任选的正常样品)中的多个遗传标记(例如，SNV，CNV，SV，indel)相关的读数的受试者特异性全基因组概要的概要。在一些实施方案中，遗传标记的概要是以变体调用格式(VCF)文件接收的。如本领域所理解的，VCF文件在生物信息学中用于存储基因序列变异。VCF格式是随着大规模基因分型和DNA测序项目(例如1000基因组项目)的出现而开发的。备选地，可以以包含所有遗传数据的通用特征格式(GFF)提供概要。通常，GFF提供了冗余的功能，因为它们在基因组之间共享。相反，使用VCF，只需将变异与参考基因组一起存储即可。在一些实施方案中，(例如使用全基因组测序(WGS))对受试者的样品进行测序，并且例如使用诸如例如基因组VCF(gVCF)的工具来处理序列文件。

在图1A的方法100的步骤120中，检测了受试者的第二样品(例如血浆或血液)中的遗传标记的受试者特异性全基因组概要，以生成患者样品(例如血浆或血液样品)中肿瘤相关的全基因组遗传标记的代表。

在图1A的方法100的步骤130中，分析每个标记的噪声概率(P_N)。例如，在标记是SNV或indel的情况下，P_N可以作为以下各项的函数进行分析：1)SNV/indel的MQ；2)包含SNV/indel的读数的片段长度；3)在包含SNV或Indel的读数重复家族中的一致性测试，和/或4)SNV/indel的BQ。同样地，在标记是CNV或SV的情况下，可基于以下各项通过将概要中的每个CNV或SV窗口统计学分类为信号(S)或噪声(N)来分析所述标记是噪声相关的概率：(1)其相对于着丝粒的位置，2)包含CNV/SV的读数组的MQ；和/或3)假象读数的cfDNA数据中CNV窗口的代表。噪声去除步骤130可以包括基于联合碱基质量(BQ)和映射质量(MQ)得分，执行最佳接收器操作特性(ROC)曲线，其中该曲线包括概要中的遗传标记的概率分类。通常，联合BQMQ得分以矩阵(x，y)的形式提供，其中x是BQ得分，y是MQ得分。在示例性实施方案中，通常采用在10和50之间(对于每个参数)的联合BQMQ得分，例如，BQMQ得分为(10，40)，(15，30)，(20，20)，(20,30),(30，40)。在一些实施方案中，标记的分类包括在ROC曲线(AUC)下的面积的测量，其典型地代表在潜在标记中随机选择的候选标记物显示出高于随机提取的对照标记的值的概率。对于完全非信息性的标记，ROC曲线将接近上升的对角线(称为“偶然性对角线”或“偶然性线”)，并且AUC趋于0.5，即仅由于偶然性而进行分类的预期概率。相反，在完美分类的情况下，ROC曲线将达到最高的理论准确度的点(灵敏度和特异性均为100％)，而AUC趋向于1，即最高概率值。在图3B中提供了代表性的ROC。碱基质量过滤器的过滤前错误模型和过滤后效果如图3A所示。图3C显示了碱基质量(BQ)和映射质量过滤器(MQ)的应用将测序错误抑制了约七倍。

在图1A的方法100的步骤140中，基于一个或多个整合数学模型来计算生物样品的估计肿瘤分数(eTF)。取决于标记(例如，SNV/indel对CNV/SV)，数学模型整合了多个过程质量度量以及患者特异性属性，以估计肿瘤分数(TF)。认识到SNV/indel和CNV/SV之间在频率方面的根本差异以及与性状(例如癌症)的结合性，本公开的系统和方法涉及使用标记特异性数学算法来估计肿瘤分数。在每种情况下，数学推论模型都基于标记的数量/频率，估计的噪声，读数，突变负荷和/或覆盖度或深度，来输出生物样品(例如血浆)中肿瘤DNA的估计分数。

在一些实施方案中，本公开的方法包括基于多个SNV/indel标记的检测来估计TF。在本文中，通过将包括估计的基因组覆盖度和测序噪声的过程质量度量与包括突变负荷(N)的患者特异性参数进行积分来计算估计的TF(eTF[SNV])。优选地，该方法包括计算SNV/indel标记的估计的肿瘤分数(eTF)，其中eTF[SNV]＝1-[1-(M-E(σ)^R)/N]^(1/cov)，其中M是患者样品中肿瘤特异性概要检测的数量，σ是根据经验估算的噪声的测量，R是目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的独特读数的平均数量。

在一些实施方案中，本公开的方法包括基于多个CNV/SV标记的检测来估计TF。在本文中，估计的TF(eTF[CNV])是通过对与肿瘤CNV/SV方向性一致的偏态的定向覆盖度深度进行积分而计算的，其中，拷贝数的扩增为正偏态，拷贝数的缺失为负偏态。优选地，该方法包括计算CNV标记的估计肿瘤分数(eTF)，其中eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度值，T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值。

在图1A的方法100的步骤150中，基于eTF(在步骤140中计算)和通过背景噪声模型计算的经验阈值来诊断受试者中的残留疾病。在一些实施方案中，检测阈值包括来自健康样品的凭经验测量的基础噪声TF估计。在这样的实施方案中，将高于阈值(例如，噪声TF分布的至少2个标准差(FPR＜2.5％)；优选大于3STD或大于5STD)的任何eTF定义为阳性检测。

如图1B所示的示例性工作流程100所进一步提供的，根据各种实施方案，提供了一种用于在有需要的受试者中检测残留疾病的方法。如在图1B的方法100的步骤110中所提供的，工作流程可包括接收与来自受试者的第一生物样品中的遗传标记相关的第一受试者特异性的读数的全基因组概要。第一生物样品可包括基线样品。第一读数概要可各自包含单个碱基对长度的读数。基线样品可包含肿瘤样品或血浆样品。第一生物样品也可以包括正常细胞样品。

如在图1B的方法100的步骤120中所提供的，工作流程可以包括从第一读数概要中过滤人工位点，其中所述过滤包括从第一遗传标记概要中去除在参考健康样品队列中生成的重复位点。备选地或另外地，过滤可包括鉴定正常细胞样品的外周血单核细胞中的种系突变，并从第一遗传标记概要中去除所述种系突变。

如图1B的方法100的步骤130中所提供的，工作流程可进一步包括检测来自受试者的第二生物样品中遗传标记的第二受试者特异性全基因组概要中的读数，以在第二样品中生成遗传标记的肿瘤相关全基因组代表。

如图1B的方法100的步骤140中所提供的，工作流程可包括使用至少一个错误抑制方案来过滤来自第一和第二读数全基因组概要的噪声，以产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集。至少一个错误抑制方案可包括计算第一和第二概要中的任何单核苷酸变异是人工突变的概率，并去除所述突变。所述概率可作为选自以下的特征的函数来计算：映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合。备选地或组合地，至少一个错误抑制方案可以包括使用由聚合酶链反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试来去除人工突变。备选地，或与不一致性测试相结合，去除人工突变可以包括重复一致性测试，其中当在给定重复家族的大多数中缺乏一致性时，鉴定并去除人工突变。

如图1B的方法100的步骤150中所提供的，工作流程可包括通过将背景噪声模型应用于一个或多个整合数学模型中，使用第一和第二过滤读数集来计算第一和第二生物样品的估计肿瘤分数(eTF)。

如在图1B的方法100的步骤160中所提供的，工作流程可以包括如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

如图1C所示的示例性工作流程100所另外提供的，根据各种实施方案，提供了一种用于在有需要的受试者中检测残留疾病的方法。如在图1C的方法100的步骤110中所提供的，工作流程可包括接收与来自受试者的第一生物样品中的遗传标记相关的第一受试者特异性的读数的全基因组概要。第一生物样品可包括基线样品。第一读数概要可各自包含拷贝数变异(CNV)。基线样品可包含肿瘤样品或血浆样品。

如在图1C的方法100的步骤120中所提供的，工作流程可包括接收与来自受试者的第二生物样品中的遗传标记相关的第二受试者特异性的读数的全基因组概要。第二生物样品可以包括外周血单核细胞样品(PBMC)。遗传标记的第二概要可各自包含拷贝数变异(CNV)。

如在图1C的方法100的步骤130中所提供的，工作流程可以包括从第一和第二读数概要中过滤人工位点，其中所述过滤包括从第一和第二读数概要中去除在参考健康样品队列中生成的重复位点。备选地或组合地，过滤可包括将第一和第二概要之间共享的CNV鉴定为种系突变，并从第一和第二读数概要中去除所述突变。

如图1C的方法100的步骤140中所提供的，工作流程可进一步包括检测来自受试者的第三生物样品中的遗传标记的第三受试者特异性全基因组概要中的读数，以生成第三样品中的遗传标记的肿瘤相关全基因组代表。

如在图1C的方法100的步骤150中所提供的，工作流程可以包括将第一，第二和第三读数概要中的每一个归一化，以产生用于第一读数全基因组概要的第一过滤读数集，用于第二读数全基因组概要的第二过滤读数集，以及用于第三读数全基因组概要的第三过滤读数集。

如在图1C的方法100的步骤160中所提供的，工作流程可以包括通过将背景噪声模型应用于一个或多个整合数学模型，使用第三过滤读数集来计算第三生物样品的估计的肿瘤分数(eTF)，所述一个或多个模型使用第一过滤读数集产生第一eTF，和/或所述一个或多个模型使用第二过滤读数集产生第二eTF。

如在图1C的方法100的步骤170中所提供的，工作流程可以包括如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

方案

图1D和图1E显示了用于实践本公开方法的示意性工作流程。图1D概述了通常在目的标记包含SNV/indel的情况下使用的工作流程；图1E概述了通常在目的标记包含CNV/CV的情况下使用的工作流程。应该注意的是，尽管出于说明的目的提供了单独的工作流程，但是并不一定要单独执行它们以实现本公开的方法。例如，工作流程的某些特征/元件可以组合使用以生成输出(例如，基于SNV/indel和CNV/SV的组合的估计肿瘤分数)，该输出与目的结果(例如，具有MRD的受试者是否对化学疗法应答)相关联。

如图1D所示，基于SNV/indel标记的MRD检测通常利用以下步骤：接收数据；生成SNV/indel的患者特异性签名；去除/过滤人工位点；检测后续样品中的读数/位点；使用特定算法(包括机器学习)抑制错误；更正读数；检测提供估计肿瘤分数的位点；以及任选地，将基因组数据中的次要特征进行正交积分分析(例如，分析片段大小偏移)以改善检测的灵敏度，特异性和/或可靠性。

在图1D的第一步中，接收来自基线样品(通常是肿瘤样品，但也可能包括治疗前血浆，单独或与肿瘤样品一起)和正常样品(通常是PBMC，也可能包括相邻的正常组织或颊拭子)的遗传数据，以生成患者特异性标记签名(例如，包括SNV/indel)。接下来，通过过滤人工位点，从基线样品中调用体细胞突变的参考列表。在这里，从样品中去除种系突变。另外，体细胞突变调用是使用多个调用子(例如MUTECT，STRELKA)独立进行的，使用调用子的交集以生成高置信度突变列表。连续或并行地，在健康血浆样品(正常小组(PON)黑名单或掩码)队列中生成复现的人工位点，将其从患者检测到的突变中去除，以去除常见的测序或比对假象。然后使用过滤的高置信度患者特异性突变数据集来检测后续血浆样品中的突变。通常，在手术后，治疗(例如，化学疗法)期间或之后或在随访(例如，检查复发或再发)期间获得后续血浆。

接下来，采用了能够检测单个突变片段的高灵敏度方法。此步骤采用一个或多个错误抑制步骤。在第一错误抑制步骤中，使用过滤方案在单个读数的基础上进行分析，并对所述读数代表人工突变的概率进行量化。代表性方法包括使用具有线性内核的支持向量机(SVM)分类的多维分类框架。该分类引擎在种系SNP上进行了训练，并与正常PBMC样品中的低变异等位基因分数(VAF)测序假象进行了比较。在包括变体碱基质量(VBQ)、映射质量(MQ)、读数位置(PIR)、平均读数碱基质量(MRBQ)的多维空间上定义了分类决策边界。为了评估分类方案，在相同协议下，将10倍交叉验证后的SVM验证度量与随机森林进行了比较。SVM分类显示了高分类性能，适度胜于随机森林模型。在所有患者中，SVM的平均灵敏度为90.7％，特异性为83.9％(N＝10个样品，F1＝87.7％，PPV＝84.9％)。

在第二错误抑制步骤中，使用相同原始DNA片段的独立重复的比较，校正了由PCR或测序生成的人工突变。在cfDNA样品中，通常使用成对末端150bp测序，在典型cfDNA片段的短尺寸(～165bp)的情况下，导致重叠的成对读数(R1和R2序列重叠)。因此，R1和R2对之间的任何不一致都被视为潜在的测序假象，这些假象被校正回相应的参考基因组。此外，由于认识到在测序和PCR中多次复制的任何DNA分子建立独立复制的潜力，因此重复家族被5'和3'相似性以及比对位置所识别。然后，每个重复家族都用于检查独立重复中特定突变的一致性，从而校正大多数重复家族中未显示一致性的人工突变。

接下来，估计血浆中出现的患者特异性突变的分数。该参数在N个独立的伯努利实验中服从二项式分布，其中N是患者突变负荷。每个此类实验均包括多轮随机样品，这些随机样品取决于局部覆盖度，其中每一轮中采样突变片段的概率即为肿瘤分数。因此，在覆盖度，突变负荷，检测到的突变数量与肿瘤分数之间存在数学关系，其对应于以下等式M＝N(1-(1-TF)^cov)+μ*R，，其中M表示随访血浆样品中检测到的突变数，N表示患者特异性突变模式中的突变负荷，TF表示肿瘤分数，cov表示患者突变位点中的局部覆盖度，μ表示与特定患者突变位点相对应的噪声率。这种关系允许从突变检测率计算出患者的肿瘤分数，即使是在突变等位基因分数本身也不能提供信息的极低等位基因分数中(主要代表有效覆盖度范围内的0到1之间的随机采样-仅一次支持性读数)。

为了解决具有不同突变模式的患者之间的噪声变异，使用患者特异性突变签名来计算健康血浆样品(正常小组，PON)队列中的预期噪声分布。主要执行与上述相同的过程，用于检测健康样品(PON)或其他患者(跨患者分析)中的患者特异性模式。这些检测代表背景噪声模型，为此模型我们计算了人工突变检测率的均值和标准差(μ，σ)。如果患者检测到的肿瘤分数高于人工肿瘤分数，则可实现置信性肿瘤检测和肿瘤分数估计，该人工肿瘤分数对应于平均数之上的1.5*σ的错误率。

接下来，任选地，工作流程可以包括基于片段大小偏移计算的正交积分。在此，为了使预测/诊断方法更稳健、准确和/或灵敏，可以将基于读数的特征(例如DNA片段大小偏移)正交积分到模型中。正交特征的重要性(在确定MRD中)可以使用统计方法或概率混合模型(例如，高斯模型)来确定。有关详细概述，请参见实施例3A。

在示例性方法中，基于概率稀释模型，将血浆样品中的高置信性肿瘤特异性检测聚集并转化为肿瘤DNA分数(TF)的估计。整个检测协议(检测，错误抑制和肿瘤分数估算)也通过以下在健康血浆样品组(PON)上完成：使用患者特异性突变概要，并使用相同签名计算健康样品中噪声TF值的分布。随后，使用确保低的假阳性率(高特异性)的统计学显著性框架(z-score)，仅对显示出显著高于PON噪声TF值的肿瘤分数的样品进行肿瘤检测和评估。使用统计学方法(显著性检验或GMM)对血浆突变检测中肿瘤DNA的存在进行正交确认，该方法可以量化肿瘤特异性检测列表和其他随机突变检测列表之间的患者内片段大小偏移。

备选地或与以上工作流程结合，本公开还涉及使用CNV/SV标记检测残留疾病(或监测治疗)。如图1E所示，基于CNV/SV标记的MRD检测通常利用以下步骤：接收数据；生成CNV/SV的基线样品特异性和/或正常样品特异性签名；去除种系CNV事件；过滤人工窗口；在后续样品中检测基于窗口的中值深度覆盖度；使用例如鸟嘌呤-胞嘧啶(GC)归一化和/或zscore归一化进行归一化；检测肿瘤CNV信号，所述肿瘤CNV信号提供了肿瘤分数的估计；以及任选地，将基因组数据中次要特征进行正交积分分析(例如，片段大小偏移的分析)，以改善检测的灵敏度，特异性和/或可靠性。

在图1E的第一步中，接收来自基线样品(通常是肿瘤样品，但也可能包括治疗前血浆，单独或与肿瘤样品一起)和正常样品(通常是PBMC，也可能包括相邻的正常组织或颊拭子)的遗传数据，以生成肿瘤特异性标记签名以及正常标记签名(例如，包含CNV/SV的签名)。接下来，使用针对正常小组(PON)的基线调用肿瘤拷贝数变异(T_CNV)。使用针对正常小组(PON)的PBMC样品调用PBMC拷贝数变异(P_CNV)。共享的拷贝数变异事件被认为是种系。肿瘤体细胞事件(sT_CNV，仅在肿瘤组织中检测到)和PBMC体细胞事件(sP_CNV，仅在PBMC组织中检测到)可用于肿瘤分数检测和评估。

接下来，从CNV/SV参考列表中去除种系变异(例如CNV/SV事件)，以生成基线sCNV/SV和/或正常-sCNV/SV。同样，对具有低可映射性和/或覆盖度的窗口进行过滤。连续或并行地，在健康血浆样品(正常小组(PON)黑名单或掩码)队列中生成复现的人工位点，将其从窗口中去除，以过滤人工窗口。经过滤的高置信度参考CNV/SV区段用于检测后续血浆样品中的突变。通常，在手术后，治疗(例如，化学疗法)期间或之后或在随访(例如，检查复发或再发)期间获得后续血浆。

在健康血浆样品队列(正常PON小组黑名单)上生成复现的人工CNV位点，并将其从患者检测到的突变中去除，以去除常见的测序或比对假象，例如着丝粒和重复区域。

然后将包含sT_CNV和sP_CNV的所有基因组区段的目的区域(ROI)分箱到窗口(500bp或更多)。从后续血浆样品(手术后，治疗期间，复发的随访中)估计每个窗口的深度覆盖度(读数计数)。计算每个窗口的中值深度覆盖度，然后除以平均样品覆盖度。

接下来，通过对逐箱GC分数和可映射性得分执行两次LOESS回归曲线拟合，对深度覆盖度值随后进行归一化，以校正GC含量和可映射性偏差。

使用稳健zscore归一化可以进行进一步的批量效应校正，该归一化分别应用于每个样品。简言之，根据每个样品的中性区域计算中值和中值绝对偏差(MAD)，然后通过(B(i)-Median)/MAD将所有CNV箱归一化。

与正常小组(PON)健康血浆样品相比，针对每个箱计算深度覆盖度偏态和片段大小质量中心(COM)偏态。在本文中，低肿瘤分数样品显示稀疏的深度覆盖度偏态，其由CNV区段的方向性所偏差，扩增区段将显示向正深度覆盖度偏态的偏差，而缺失显示向负深度覆盖度偏态的偏差。在另一方面，中性区域显示随机偏态，没有优选的方向性，因此将微分的(血浆-PON)深度覆盖度偏态乘以CNV区段的方向性(扩增乘以+1，缺失乘以-1)将求和整个基因组中的CNV信号，而中性区噪声将由于随机方向性而被取消。

该步骤由以下等式

完成，其中M为覆盖度ROI的窗口数。P(i)和N(i)分别是窗口I中血浆样品和PON的深度覆盖度值。符号(T(i)-N(i))代表肿瘤CNV区段的方向(扩增乘以+1，缺失乘以-1)。

然后可以通过检查在血浆样品处检测到的累积信号与在肿瘤中检测到的累积信号之间的线性稀释比来计算肿瘤分数。此步骤由以下等式完成：

其中N(i)，P(i)，T(i)分别代表窗口I中的患者PBMC，血浆和肿瘤深度覆盖度。

为了解决具有不同CNV模式的患者之间的噪声变异，使用患者特异性CNV签名来计算健康血浆样品(正常小组，PON)队列中的预期噪声分布。主要可以执行与上述在SNV标记分析中所述的相同过程，以检测健康血浆样品(PON)或其他患者(跨患者分析)中的患者特异性模式。这些检测代表背景噪声模型，为此模型我们计算了人工突变检测率的均值和标准差(μ，σ)。如果患者检测到的肿瘤分数高于人工肿瘤分数，则可实现置信性肿瘤检测和肿瘤分数估计，该人工肿瘤分数对应于平均数之上的错误率的1.5*σ。

也有可能从sP_CNV中的定向全基因组深度覆盖度偏态推断出肿瘤分数。在本文中，由于肿瘤DNA分数的增加(由于肿瘤DNA不包括该CNV事件)，预期PBMC特异性CNV事件将降低其信号。因此，预期肿瘤分数与血浆中的sP_CNV检测信号之间呈负相关性。因此，将微分的(PBMC-血浆)深度覆盖度偏态乘以PBMC CNV区段的方向性(扩增乘以+1，缺失乘以-1)将在整个基因组上对PBMC CNV信号求和(图11A)。

然后可以通过检查PBMC CNV信号的损失比例来计算肿瘤分数，例如，使用以下等式：

如在使用SNV/indel标记的MRD估计的情况下，可以将次要特征正交积分到最终计算中。在此，为了改善检测方法的稳健性，准确性和/或灵敏度/特异性，可以将基于读数的特征(例如DNA片段大小偏移)正交积分到模型中。可以使用广义线性模型(GLM)来确定正交特征(在确定MRD中)的重要性，以基于CNV深度覆盖度和片段大小偏移之间的关系来正交确定肿瘤分数。有关详细概述，请参见实施例3B。

应当理解，经过一些修改，本文所公开的工作流程还可以广泛地用于在化学疗法，免疫疗法，靶向疗法或其组合期间或之后和/或在监测此类疗法效果的过程中检测残留疾病。

示例性方法部分基于以下认识：只有在血浆中的覆盖度偏态遵循与在基线组织(例如肿瘤)中的拷贝数变异相同的方向性(扩增和缺失)的情况下，血浆样品中的全基因组CNV信号才会累积。因此，例如使用血浆中累积CNV信号除以肿瘤中累积CNV之间的线性稀释比，可以根据患者肿瘤特异性CNV事件的血浆样品中的信号增益来计算肿瘤DNA比率。可以用相似的混合物稀释模型，基于仅对患者PBMC特异的CNV事件(造血体细胞CNV事件)的信号丢失来正交估计肿瘤分数。整个CNV检测方案也通过以下在健康血浆样品小组(PON)上完成：使用患者特异性拷贝数变异概要，使用相同的CNV签名计算健康样品中噪声TF值的分布。随后，使用确保低的假阳性率(高特异性)的统计学显著性框架(z-score)，仅对显示出显著高于PON噪声TF值的肿瘤分数的样品进行肿瘤检测和评估。通过检查患者特异性CNV区段中CNV log2值与片段大小质心(COM)值之间的关系(负相关性)，然后将该关系转换为基于广义线性模型(GLM)的基于CNV的TF估计的正交估计，可以对血浆中肿瘤DNA的存在进行正交确认。

机器学习

不受限于单个实施方案，并且仅出于说明的目的，根据本文的各个实施方案，将机器学习(ML)算法以单个步骤或单个步骤的组合整合到现有方法中。可以通过使用输入的训练数据集，交叉引用输出到已知答案，反向传播以及调整与在重复环中给定ML算法相关的加权因子和参数以达到数据输出的阈值质量，将ML掺入以优化来自算法(例如神经网络，ML算法等)的结果。在随后的步骤中，例如使用诸如逻辑回归的概率模型(例如，结合或替代地优化或训练)，可以验证模型在测试数据集上的预测能力。任选地，可以进行重采样，以获得对模型的可能未来性能的公正评估。ROC曲线的特征(例如曲线下面积)(也称为c指数)或统计检验(例如Wilcoxon-Mann-Whitney检验)得出的一致性概率，可以为单纯的预测判别提供良好的概括性度量。

优选地，基于一个或多个质量过滤器或读数特征，ML算法适应性地和/或系统性地过滤与概要中的每个读数相关的测序噪声。在一些实施方案中，ML算法执行用于过滤噪声的碱基质量(BQ)过滤器(更具体地，可变碱基质量(VBQ)或平均读数碱基质量(MRBQ))。在一些实施方案中，ML算法执行用于过滤噪声的映射质量(MQ)过滤器。在一些实施方案中，ML算法执行用于过滤噪声的读数位置(PIR)过滤器。在一些实施方案中，ML算法执行过滤器的组合。

在一些实施方案中，在本公开的系统和/或方法中使用的机器学习(ML)方法包括深度卷积神经网络(CNN)，递归神经网络(RNN)，随机森林(RF)，支持向量机(SVM)，判别分析，最近邻分析(KNN)，集成分类器或其组合，优选为支持向量机(SVM)。在一些实施方案中，已经对ML进行了训练以区分癌症改变的测序读数和因测序或PCR错误改变的读数。在一些实施方案中，已经在大型全基因组测序(WGS)癌症数据集上训练了ML，所述全基因组测序(WGS)癌症数据集包含肿瘤突变和正常测序错误中的数十亿的读数。在一些实施方案中，ML能够(a)以高精度鉴定测序或PCR假象，以及(b)整合序列背景并读数特异性特征。

本公开进一步涉及利用ML(例如引擎)以便适应性地和/或系统性地过滤测序噪声的系统和程序。本公开还涉及计算机可读存储介质，该计算机可读存储介质包含用于检测包括基因组读数中的体细胞突变的肿瘤标记的程序，所述程序利用ML，例如支持向量机(SVM)。

如本领域中已知的，卷积神经网络(CNN)通常通过以下步骤来完成处理和分类/检测的高级形式：首先查找低级特征(诸如例如读数中的重复序列)，然后通过一系列卷积层前进至更抽象的(例如，对于正在分类的读数类型而言是独特的)概念。CNN可以通过使数据经过一系列卷积，非线性，池化(pooling)(或下采样，如下所述)和完全连接的层来实现此目的，并获得输出。同样，输出可以是单个类别或最优描述数据或检测数据中对象的类别的概率。

关于CNN中的层，第一层通常是卷积层(conv)。第一层将使用一系列参数处理读数的代表性阵列。CNN将使用过滤器(或神经元或内核)分析数据子集的集合，而不是将数据作为整体处理。子集将包括阵列中的焦点以及周围的点。例如，过滤器能够检查32x 32代表中的一系列5x 5区域(或地区)。这些区域可以称为感受野(receptive field)。由于过滤器通常具有与输入相同的深度，因此尺寸为32x 32x 3的代表将具有相同深度的过滤器(例如5x5x 3)。使用上面的示例性尺寸进行卷积的实际步骤将涉及沿输入数据滑动过滤器，将过滤器值与数据的原始代表值相乘以计算元素依次乘积(element wise multiplication)，并对这些值求和以对所述代表的检查区域得出单个数字。

在完成该卷积步骤之后，使用5x 5x 3过滤器，将得到尺寸为28x 28x 1的激活映射(或过滤器映射)。对于使用的每个附加层，可以更好地保留空间尺寸，以便使用两个过滤器将获得28x 28x 2的激活映射。每个过滤器通常具有它表示的独特特征，这些特征一起表示最终数据输出所需的特征标识符。当组合使用这些过滤器时，允许CNN处理数据输入以便检测在每个代表上存在的那些特征。因此，如果过滤器用作曲线检测器，则过滤器沿数据输入的卷积将在激活映射中生成数字阵列，该数字阵列对应于曲线的高可能性(高求和元素依次乘积)，曲线的低可能性(低求和元素依次乘积)或零值(其中在某些点处的输入体积没有提供激活曲线检测器过滤器的任何东西)。这样，Conv中的过滤器(也称为通道)数量越多，激活映射上提供的深度(或数据)就越多，并因此提供将导致更准确输出的有关输入的更多信息。

与CNN的准确性相平衡的是产生结果所需的处理时间和能力。换句话说，使用的过滤器(或通道)越多，执行Conv所需的时间和处理能力就越多。因此，应特别选择满足CNN方法需求的过滤器(或通道)的选择和数量，以在考虑可用时间和能力的同时产生尽可能准确的输出。

为了进一步使CNN能够检测更复杂的特征，可以添加额外的Conv，以分析来自先前Conv(例如，激活映射)的输出。例如，如果第一Conv查找基本特征(例如曲线或边线)，则第二Conv查找更复杂的特征(例如形状)，这可以是在较早的Conv层中检测到的各个特征的组合。通过提供一系列的Conv，CNN能够检测到越来越高水平的特征，最终达到检测到特定所需对象的概率。此外，由于Convs在彼此顶部上堆栈，分析先前的激活映射输出，因此堆栈中的每个Conv都自然会通过在每个Conv水平上发生的按比例缩小来分析越来越大的感受野，从而允许CNN在检测目的对象时响应于代表空间逐渐增长的区域。

CNN架构通常由一组处理块组成，包括至少一个用于对输入体积(数据)进行卷积的处理块和至少一个用于解卷积(或转置卷积)的处理块。另外，处理块可包括至少一个池化块和反池化(unpooling)块。池化块可用于按比例缩小数据分辨率，以产生可用于Conv的输出。这可以提供计算效率(有效的时间和能力)，进而可以提高CNN的实际性能。这些池化或二次采样、块使过滤器保持较小且计算需求合理，这些块能够使输出变得粗略(导致感受野中丢失空间信息)，从而通过特定因子减少从输入的大小。

反池化块可用于重构这些粗略输出，以产生具有与输入体积相同尺寸的输出体积。反池化块可以视为卷积块的反向操作，以将激活输出返回到原始输入体积尺寸。但是，反池化过程通常只是将粗略的输出简单放大为稀疏的激活映射。为避免此结果，去卷积块会对此稀疏的激活映射进行致密处理，以生成扩大的和致密的激活映射，最终，在进行任何进一步必要的处理之后，最终的输出体积的大小和密度将更接近输入体积。作为卷积块的反向操作，去卷积块不是将感受野中的多个阵列点减少为单个数字，而是将单个激活输出点与多个输出关联，以放大和致密化所得的激活输出。

应该注意的是，虽然池化块可以用于按比例缩小数据，并且反池化块可以用于放大这些按比例缩小的激活映射，但是卷积和去卷积块可以被构造为进行卷积/去卷积和按比例缩小/放大而无需单独的池化块和反池化块。

取决于在数据输入中检测的目的对象，池化块和反池化过程可能有缺点。由于池化通常通过查看没有窗口重叠的子数据窗口来按比例缩小数据，因此在按比例缩小时会明显损失空间信息。

处理块可包括包装有卷积或去卷积层的其他层。这些层可包括，例如，修正线性单元层(ReLU)或指数线性单元层(ELU)，它们是在其处理模块中检查Conv输出的激活函数。ReLU或ELU层充当选通函数，仅使对应于Conv特有的目的特征的阳性检测的那些值前进。

给定基本架构，然后为CNN准备训练过程，以磨练其在(目的对象的)数据分类/检测中的准确性。这涉及到称为反向传播(backpropagation，backprop)的过程，该过程使用训练数据集或用于训练CNN的样品数据，以使其更新其参数以达到最佳(或阈值)准确性。反向传播涉及一系列重复步骤(训练迭代)，这些步骤取决于反向传播的参数，将缓慢或快速地训练CNN。反向传播步骤通常包括根据给定的学习速率进行正向传递、损失函数、反向传递和参数(权重)更新。正向传递涉及使训练数据通过CNN。损失函数是输出中错误的度量。向后传递确定了损失函数的影响因素。权重更新涉及更新过滤器的参数，以将CNN移至最佳状态。学习速率决定为了达到最佳状态时每次迭代权重更新的程度。如果学习速率太低，则训练可能会花费很长时间并且会涉及太多的处理能力。如果学习速率太快，则每个权重更新可能会太大而无法精确实现给定的最佳值或阈值。

向后传播过程可能导致训练复杂化，因此导致在训练开始时需要较低的学习速率以及更具体，更小心确定的初始参数。一种复杂的情况是，随着每次迭代结束时权重更新的发生，Conv参数的变化会放大网络的深度。例如，如果CNN具有多个Conv，如上所述，该Conv允许进行更高水平的特征分析，则在每个后续Conv处将对第一个Conv的参数更新倍增。净结果是取决于给定CNN的深度，对参数的最小改变能够具有很大的影响。这种现象称为内部协变量偏移。

通常，本公开的CNN能够适应性地和/或系统地过滤测序噪声。在一些实施方案中，基于发明人的认识，即三核苷酸背景包含诱变中涉及的不同特征，来设计CNN架构。因此，CNN使用大小为3的感受野在某个位置上的所有特征(列)上进行卷积。经过两个连续的卷积层后，通过感受野为2且步幅为2的最大池化来进行下采样，从而迫使引擎中的模型仅在较小的空间区域中保留最重要的特征。当在三核苷酸窗口上卷积时，所得的架构保持空间不变性，并通过将读数片段坍塌(collapsing)为25个区段(每个区段代表约8个核苷酸的区域)来捕获“质量映射”。最终分类是通过将最后一个卷积层的输出直接应用于S型完全连接层来进行的。CNN采用简单的逻辑回归层而不是多层感知器或全局平均池化，以保留与基因组读数中的位置相关的特征。

为了训练引擎，首先对多个肺癌患者及其匹配的系统错误概况进行采样。训练练习的目标是使用一种训练方案，该方案允许以高灵敏度检测真正的体细胞突变，并且还拒绝由系统错误引起的候选突变。训练中可以使用样品的混合物，例如来自例如患有或怀疑患有癌症的受试者的完全肿瘤样品和健康组织样品的混合物。

上游步骤：

接收遗传数据

在一些实施方案中，遗传数据是从受试者的生物样品(例如，肿瘤样品或包含PBMC的正常细胞样品)中原位接收的。这主要是通过测序来完成的。在一些实施方案中，可以使用常规方法纯化样品以获得细胞亚群。例如，可以使用各种已知的基于Ficoll的离心方法(例如Ficoll-Hypaque密度梯度离心法)从全血中纯化PBMC。还可以通过使用诸如免疫磁性细胞分选(例如，DYNABEADS，Invitrogen，Carlsbad，CA，USA)的技术选择合适的表型来纯化其他细胞，例如T细胞。例如，T细胞能够通过使用两步选择过程而纯化，该过程首先去除CD8+细胞，然后选择CD4+细胞。可以通过使用市售的抗体(例如BD Biosciences)评估适当的标记(例如CD19-FITC，CD3-PE，CD8-PerCP，CD11c-PE Cy7，CD4-APC和CD14-APC Cy7)来确认细胞群纯度。

样品制备后，从样品中提取DNA用于标记分析。在一个实例中，DNA是基因组DNA。分离DNA特别是基因组DNA的各种方法是本领域技术人员已知的。通常，已知方法涉及破坏和裂解起始材料，然后去除蛋白质和其他污染物，最后回收DNA。例如，涉及酒精沉淀的技术；多年来，有机苯酚/氯仿的提取和盐析已被用于提取和分离DNA。DNA分离的一个实例如下(例如Qiagen ALL-PREP试剂盒)例证。但是，还有各种其他市售的用于基因组DNA提取的试剂盒(Thermo-Fisher，Waltham，MA；Sigma-Aldrich，St.Louis，MO)。DNA的纯度和浓度可以通过各种方法来评估，例如分光光度计法。

在一些实施方案中，遗传数据包括遗传标记的概要，其以变异调用格式(VCF)文件编译。如本领域所理解的，VCF文件在生物信息学中用于存储基因序列变异。VCF格式是随着大规模基因分型和DNA测序项目(例如1000基因组项目)的出现而开发的。备选地，可以以包含所有遗传数据的通用特征格式(GFF)提供概要。通常，GFF提供了冗余的功能，因为它们在基因组之间共享。相反，使用VCF，只需将变异与参考基因组一起存储即可。

微阵列技术广泛用于检测本公开的标记，例如SNV/indel和CNV/SV。例如，可以使用阵列比较基因组杂交(阵列CGH)和单核苷酸多态性(SNP)微阵列。在传统的阵列CGH中，将参考DNA和测试DNA进行荧光标记并与阵列杂交，并将信号比用作拷贝数(CN)比率的估计值。SNP微阵列也基于杂交，但是在每个微阵列上处理单个样品，并且通过将研究的样品的强度与参考样品集合或所有其他研究样品的强度进行比较来形成强度比率。尽管微阵列/基因分型阵列对于大的CNV检测是有效的，但它们对于检测短基因或DNA序列(例如，长度小于约50kb)的CNV较不敏感。

在一些实施方案中，可以使用下一代测序(NGS)检测本公开的标记。通过提供基因组的逐个碱基视图，NGS允许检测可能未被阵列检测到的小的或新的CNV。合适的NGS方法的实例可以包括全基因组(WGS)，全外显子组测序(WES)或靶向外显子组测序(TES)。优选地，测序方法采用WGS。

在一些实施方案中，例如使用全基因组测序(WGS)对受试者的样品进行测序，并使用标准方法对其进行调用(对于SNV/indel和/或CNV/CV标记)。例如，来自NGS数据的SNV调用利用计算方法从下一代测序(NGS)实验的结果中确定单核苷酸变体(SNV)的存在。由于NGS数据不断丰富，这些技术在进行SNP基因分型中正变得越来越流行，并为特定的实验设计和应用设计了各种各样的算法。同样，有若干种生物信息学方法可从下一代测序数据中检测CNV(Pirooznia等人，Front Genet.，6:138，2015)。在一些实施方案中，对样品进行处理和测序，以获得序列文件，并且例如使用诸如基因组VCF或外显子组VCF(eVCF)的工具来处理序列文件。

在一些实施方案中，本公开内容的方法可以涉及产生遗传标记的概要。典型的概要包括全基因组测序的肿瘤样品以及对照(例如PMBC)的遗传数据。肿瘤样品优选包括切除的肿瘤或FNA，例如，肺腺癌或皮肤黑色素瘤。对照样品优选包含如上所述使用Ficoll分离获得的PMBC。然后创建混合物并使用本公开的计算方法分析其中的标记。

在一些实施方案中，本公开的方法可以包括基于其中包含的标记，例如SNV，CNV，indel，SV，突变，缺失，融合等，将遗传数据分类为不同的组分。在优选的实施方案中，分类步骤可以包括基于本公开的计算方法对经噪声过滤和分析的体细胞SNV(sSNV)和体细胞CNV(sCNV)标记的各自分箱。在此，用于分析噪声和唯一性的SNV标记的计算方法可能不同于用于分析CNV的方法。在一些实施方案中，SNV或插indel的计算分析可以与CNV或SV的计算分析顺序地执行。在一些实施方案中，可以一起执行分析。

本公开提供了数学算法和计算方法在(a)滤除人工噪声；(b)筛选真实标记中的用途。

关于噪声消除，其中标记是SNV或indel，基于包括碱基质量和/或映射质量的多个参数来消除人工噪声。通常，BQ分数是对通过自动DNA测序生成的核碱基的鉴定质量的度量。它可以使用常规方法来确定，例如，Phred质量得分，将其分配给自动测序仪迹线(automated sequencer trace)中的每个核苷酸碱基。Phred质量得分(Q)被定义为与碱基调用错误概率(P)对数相关的属性。例如，如果Phred为一个碱基分配的质量得分为30，则错误调用该碱基的机会为千分之一。通常，测序读数的BQ在10到50之间，例如BQ得分为10、15、20、25、30、35或40。

同样在sSNV或indel标记的情况下，映射质量(MQ)得分是读数实际上来自于映射算法所对齐的位置的置信度。其可以使用常规方法，例如映射质量得分来确定(参见，Li等人，Genome Research 18:1851-8，2008)。通常，读数的MQ在10至50之间，例如MQ得分约为10、15、20、25、30、35或40。

在一些实施方案中，噪声是通过以下去除的：基于联合碱基质量(BQ)和映射质量(MQ)得分，执行最佳接收器操作特性(ROC)曲线，其中该曲线包括概要中的遗传标记的概率分类。通常，联合BQMQ得分以矩阵(x，y)的形式提供，其中x是BQ得分，y是MQ得分。在示例性实施方案中，通常采用在10和50之间(对于每个参数)的联合BQMQ得分，例如，BQMQ得分为(10,40),(15，30),(20,20),(20,30)等。

尽管不受任何特定理论的束缚，但是在一些实施方案中，删除步骤从最初被鉴定为与疾病强烈相关的标记概要中过滤具有低碱基质量和/或映射质量的“噪声”标记。一些实施方案中，删除步骤可以包括：获取满足检测的阈值概率(P_D)的每个标记，基于标记的ROC曲线将所述标记分类为信号或噪声；和如果标记被归类为噪声，则从概要中删除该标记。备选地，包括例如检测概率(P_D)与噪声概率(P_N)之比的评分系统可以用于删除不满足阈值得分的标记。

除了BQ和MQ之外，读数位置(RP)也可能影响信号的质量。在sSNV或indel标记的情况下，可以例如通过对测序读数的起始碱基的位置进行映射来对RP进行映射。影响标记质量的其他因素包括，例如与较高的测序错误概率相关的特定序列上下文(Chen等人，Science，355(6326):752–756，2017)。在这一方面，真正的突变通常可以映射到其自身的特定序列上下文，而错误则不能。例如，与烟草相关的突变倾向于发生在CC上下文中，与APOBEC酶活性相关的突变更倾向于用于插入体细胞突变的TpC上下文(参见Greenman等，Nature，446(7132):153–158，2007)。因此，序列上下文可用于帮助鉴定更可能由测序假象导致的变化以及更可能由普遍的突变过程导致的变化。

关于噪声消除，其中标记是CNV，基于CNV特异性的多个参数来消除人工噪声。在一些实施方案中，CNV特异性的噪声参数包括CNV的“位置属性”。通常，染色体的着丝粒，端粒和/或异染色质区域由于参与重排而具有广泛的变异性。位于这些区域中或其附近的CNV(通过原位方法以及通过计算机软件检测)可能是不利的。在一些实施方案，可以基于CNV是否是距离染色体的端粒、着丝粒或异染色质区域至少1000千个碱基(kb)，至少400kb，至少100kb，至少20kb或更少的kb，例如1kb来测量CNV的位置属性。在一些实施方案中，位于亚端粒区或着丝粒区中的以染色体重排热点为特征的CNV是不利的。可以在本公开的方法中采用的一个进一步的特征包括读数的位置(PIR)或读数位置。可以通过各种技术使用不同的位置测量(例如，读数的基因组坐标，参考序列上的位置或染色体位置)来获得读数位置信息。在进一步的实施中，独特的分子索引(UMI)和读数位置可以组合以将读数坍塌。

在一些实施方案中，CNV特异性噪声参数包括对具有疾病的CNV的“代表性”的评估。例如，以前的研究发现，免疫球蛋白区域中的CNV调用不能代表gDNA，并且倾向于主要依赖于DNA来源-例如，唾液对血液或淋巴母细胞细胞系对血液(Need等，2009；Wang等，2007；Sebat等，2004)。此类非代表性CNV可能是不利的。

在一些实施方案中，CNV特异性的噪声参数包括对CNV的“深度覆盖度”的评估，其指的是其映射与CNV基因组区段中的特定基因组坐标重叠的独特读数的数量。

一旦噪声标记被过滤，诊断方法的下一步骤包括将来自血浆样品的全基因组概要信号整合到数学推断模型中，该数学推断模型输出生物样品(例如血浆)中肿瘤DNA的估计分数。取决于标记，数学模型整合了多个过程质量度量以及患者特异性属性，以估计肿瘤分数(TF)。认识到SNV(或indel)和CNV(SV)之间在频率方面的根本差异以及与性状(例如癌症)的结合性，本公开的系统和方法涉及使用标记特异性数学算法来估计肿瘤分数。

从工作流程的角度来看，基于CNV的检测方法可以执行先前描述的基于SNV的检测方法的变异。在一些实施方案中，基线样品(例如血浆样品和/或肿瘤样品)和正常细胞样品(例如PBMC)被分别处理并且也被分别分析。在最后的分析步骤中，例如基于定向覆盖偏态和局部片段大小偏态，将肿瘤信号与PBMC信号分别分箱。如果信号被鉴定为来自肿瘤(肿瘤CNV/SV)，则用于估计肿瘤分数的数学模型具有正方向性(forward directionality)；相反，如果信号被鉴定为来自PBMC，则用于估计肿瘤分数的数学模型具有反方向性(reversedirectionality)。尽管可以仅使用肿瘤样品来估计肿瘤分数(即，不使用PBMC样品)，但是该方法优选地整合了双向性(即，基于肿瘤和基于PBMC的肿瘤分数估计均被整合)。

如同在基于SNV的检测方法的情况下，基于CNV的检测方法还允许对次要特征(例如片段大小偏移)进行正交积分。在此，临时申请(尤其是使用CNV的基于肿瘤的eTF估计)涵盖了使用结合方向性特征的数学方程式确定估计的肿瘤分数(eTF)的主要方法。但是，为了使预测/诊断方法更稳健、准确和/或灵敏，可以将基于读数的特征(例如DNA片段大小偏移)正交积分到模型中。可以使用广义线性模型(GLM)来确定正交特征(在确定MRD中)的重要性，以基于CNV深度覆盖度和片段大小偏移之间的关系来正交确定肿瘤分数。

在一些实施方案中，基于CNV的方法如下进行：从基线样品(通常为肿瘤样品，但也可以包括任选地包含肿瘤样品的血浆样品)和正常样品(通常为PBMC)中去除种系标记。接下来，在健康血浆样品队列(正常PON小组黑名单)上生成人工CNV位点，并将其从患者检测到的突变中去除，以去除常见的测序或比对假象，例如着丝粒和重复区域。然后将包含肿瘤(sT_CNV)和PMBC(sP_CNV)的所有基因组区段的目的区域(ROI)分箱到离散窗口(500bp或更多)中，并从后续血浆样品(手术后，治疗期间，复发的随访)中估计每个窗口的深度覆盖度(读数计数)。计算每个窗口的中值深度覆盖度，然后除以平均样品覆盖。

接下来，通过对逐箱(bin-wise)GC分数和可映射性得分执行两次LOESS回归曲线拟合，对深度覆盖度值随后进行归一化，以校正GC含量和可映射性偏差。使用稳健zscore归一化可以进行进一步的批量效应校正，该归一化分别应用于每个样品。简言之，根据每个样品的中性区域计算中值和中值绝对偏差(MAD)，然后通过(B(i)-Median)/MAD将所有CNV箱归一化。接下来,与正常小组(PON)健康血浆样品相比，针对每个箱计算深度覆盖度偏态和片段大小质量中心(COM)偏态。在本文中，低肿瘤分数样品显示稀疏的深度覆盖度偏态，其由CNV区段的方向性所偏差，扩增区段将显示向正深度覆盖度偏态的偏差，而缺失显示向负深度覆盖度偏态的偏差。在另一方面，中性区域显示随机偏态，没有优选的方向性，因此将微分的(血浆-PON)深度覆盖度偏态乘以CNV区段的方向性(扩增乘以+1，缺失乘以-1)将求和整个基因组中的CNV信号，而中性区噪声将由于随机方向性而被取消。

该步骤在数学上执行，并且通过检查在血浆样品处检测的累积信号与在肿瘤中检测的累积信号之间的线性稀释比来估计肿瘤分数。为了解决具有不同CNV模式的患者之间的噪声变化，使用患者特异性CNV签名来计算健康血浆样品(正常小组，PON)队列中的预期噪声分布。主要可以执行与上述在SNV标记分析中所述的相同过程，以检测健康血浆样品(PON)或其他患者(跨患者分析)中的患者特异性模式。这些检测代表背景噪声模式，为此模式计算了人工突变检测率的均值和标准差(μ,σ)。如果患者检测到的肿瘤分数高于阈值(例如，人工肿瘤分数，该人工肿瘤分数对应于平均数之上的1.5*σ的错误率)，则可实现置信肿瘤检测和肿瘤分数估计。

也有可能从sP_CNV中的定向全基因组深度覆盖度偏态推断出肿瘤分数，例如使用如上所述的工作流程中的相反的方法。最后，可以将正交特征整合到此计算模型中，以提高算法和方法的稳健性，准确性，灵敏度或特异性。在一些实施方案中，本公开的方法包括基于多个SNV标记的检测来估计TF。在本文中，通过将包括估计的基因组覆盖度和测序噪声的过程质量度量与包括突变负荷(N)的患者特异性参数进行整合来计算估计的TF(eTF[SNV])。优选地，该方法包括计算SNV标记的估计的肿瘤分数(eTF)，其中eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)，其中M是患者样品中肿瘤特异性概要检测的数量，σ是根据经验估算的噪声的测量，R是目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的独特读数的平均数量。

在一些实施方案中，本公开的方法包括基于多个SNV标记的检测来估计TF。在本文中，估计的TF(eTF[CNV])是通过根据肿瘤CNV方向性积分偏态的覆盖方向深度而计算的，其中，拷贝数的扩增为正偏态，拷贝数的缺失为负偏态。优选地，该方法包括计算CNV标记的估计肿瘤分数(eTF)，其中eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度值，T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值。

在一方面，确定TF分数可包括建立优化的碱基/映射质量过滤，使用最佳接收器操作点以过滤SNV噪声，并使用如上所述的整合的数学模型分析过滤的SNV信号。实施例2提供了代表性方法，结果示于图2中。可以使用对照样品以及肿瘤样品在多个重复样品之间评估错误率分布。可以使用统计模型(例如，二项式模型)建立用于截止(cutoff)的理论阈值，针对该统计模型绘制经验测量并计算每个测量的均值/置信区间。使用统计模型在分布中鉴定噪声水平。在统计学测量的基础上建立可以诊断肿瘤的基线肿瘤分数(TF)。从图3D至3G的数据中可以看出，高于约1×10^-5的基线TF值的肿瘤分数表示对于大多数实体瘤(包括黑色素瘤，肺和乳腺肿瘤)的最小残留疾病。

在一个方面，确定TF分数可以包括建立用于过滤CNV噪声的适当过滤器，并使用如上所述的整合数学模型来分析经过滤的CNV信号。实施例3提供了代表性方法，结果示于图5中。首先，获得切除的肿瘤，种系(例如PBMC)和手术前生物样品(优选cfDNA)的遗传数据。生成代表性扩增区段(例如500kb；优选100kb)中的肿瘤读数深度、种系读数深度和手术前血浆cfDNA读数深度的概况。深度覆盖度在所有样品中均被归一化，以使偏差最小化。使用整合数学模型来评估三个样品基因组之间的差异，其中所述模型积分如上所述的整个基因组中的读数深度偏态。结果表明，当使用前述方法积分全基因组CNV模式时，检测具有高检测灵敏度。更具体地，上述方法具有惊人且出乎意料的能力来检测低至约1/100,000的TF的肿瘤。从每个TF的信噪比(SNR)可以明显看出这一特征，其中与噪声相比，所有10^-5以上的TF都显示出信号的正(>0)检测。

图7A-7C示出了用于使用本公开的方法的示例性系统。在本文中，从受试者(例如，癌症患者)接收遗传标记概要。遗传标记概要包括，例如，肿瘤DNA(例如，从切除的肿瘤获得)和对照DNA(例如，PMBC)。使用突变调用子分析遗传数据，并将体细胞SNV(sSNV)设置为下游分析的参考。在一些方面，该参考标准可以被个性化，例如针对特定受试者。在一些方面，该参考标准可以与额外的参考标准队列一起使用。

优选地，为了利用非常干净和高质量的参考集，将三个不同的突变调用子MUTECT，LOFREQ和STRELKA的输出相交。MUTECT可以可靠地、准确地鉴定癌症基因组的下一代测序数据中的体细胞点突变(Cibulskis等人，Nature Biotechnology，31，213–219，2013)；LOFREQ对测序运行特异性错误率进行建模，以准确调用发生在<0.05％的群体中的变体(Wilm等人，Nucleic Acids Res.，40(22):11189–11201,2012)；STRELKA是一种分析包，其被设计为从匹配的肿瘤正常样品的比对测序读数中检测体细胞SNV和小indel(Saunders等人，Bioinformatics,28(14):1811-7，2012)。

通常，突变调用子交集包括使用多个本领域已知的调用子。在一些实施方案中，在患者肿瘤和正常测序读数上使用三个突变调用子(MUTECT，LOFREQ和STRELKA)，相交的变体列表被定义为在所有调用子中显示完全相同置换的检测(相同的基因组座标和核苷酸变化)。

接下来，收集并过滤来自患者特异性突变位点的读数。在一些实施方案中，收集和/或过滤步骤包括去除低映射质量读数。例如，任何映射质量得分小于29(ROC优化)的读数都将被过滤。附加地或备选地，过滤可以涉及建立重复家族。例如，重复可包括相同DNA片段的多个PCR/测序拷贝(即，非唯一的标记和目的区域的重复)。最后，可以生成基于一致性测试的校正读数。过滤步骤可以包括去除低碱基质量读数。例如，任何具有低于21(ROC优化)的碱基质量得分的读数都可以被过滤。最后，过滤步骤可以包括去除高片段大小读数。例如，可以过滤片段大小大于160(ROC优化)的任何读数。其原理是肿瘤DNA倾向于比正常DNA短，因此低片段大小过滤器富集肿瘤DNA。参见，Jiang等，PNAS USA,112.11(2015):E1317-E1325；和和Mouliere等，bioRxiv,134437,2017。

下一步骤涉及计算患者特异性突变位点的数量，该位点具有(在过滤集中的)至少一个支持读数，其具有与肿瘤中完全相同的置换。在其中标记是SNV的一些方面中，计算步骤可以包括积分概率模型，该概率模型包括：1)血浆SNV检测的积分信号；2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量；3)包含突变负荷(N)的患者特异性参数。更具体地，整合数学模型可以涉及计算估计的eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)，其中M是患者血浆样品中的肿瘤特异性SNV概要检测的数目，σ是根据经验估算的错误率的测量，R是SNV概要目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，并且cov是SNV概要ROI中每个位点的独特读取数的平均数目。接下来，将估计的TF针对检测阈值进行检查，该检测阈值是由根据经验测量的健康样品的基础噪声TF估计所定义的。在一些方面，如果TF高于阈值，例如噪声TF分布的2个标准差(例如，FPR<2.5％)，则将其定义为检测到。

在其中标记是CNV的一些实施方案中，过滤步骤可包括对来自患者的肿瘤和正常(例如PBMC)样品运行CNV调用(例如，扩增和/或缺失分析)，并生成满足阈值特征(例如，长度大于5Mega碱基对)的所有CNV区段的参考分区以及变异的方向性(其中，扩增被分配为正因子，例如+1，缺失被分配为负因子，例如-1)。接下来，收集涵盖患者特异性CNV分区ROI的血浆、肿瘤和PBMC样品的单碱基对深度覆盖度信息。接下来，将患者特异性CNV分区ROI针对500bp窗口进行归一化，并为所有样品和窗口计算每个窗口的中值(人为抑制)。接下来，生成所有500bp窗口的归一化深度覆盖度信息。

在一些实施方案中，可以使用(1)每个样品的稳健zscore归一化和/或(2)稳健主成分分析(RPCA)方法来执行归一化。例如，Zscore方法可以包括使用代数函数preop_median＝(preop_median-median(preop_median))./(1.4826*mad(preop_median，1))。备选地，稳健主成分分析(RPCA)方法可能涉及解决M＝L+S的优化问题，以去除噪声和高频假象(S矩阵)。也可以使用上述方法的组合。

接下来，过滤来自患者特异性分区的读数/窗口。在一些实施方案中，过滤步骤可以包括去除低映射质量读数(例如，＜29，ROC优化的)；去除邻近着丝粒区域的读数，例如，去除归一化正常值高于阈值(例如10)的窗口。关于着丝粒附近过滤器，已确定与着丝粒区域共定位的约70％-80％的CNV噪声热点，并且可以通过PBMC样品中异常高的深度覆盖度值来检测。这些着丝粒热点可以在过滤步骤中去除。

接下来，去除cfDNA中的未代表区域。例如，可以去除不包含在由多个cfDNA样品组成的cfDNA代表掩码中的窗口。此过滤步骤的基本原理是，在cfDNA偏向于仅显示核小体保护的基因组区域并在可接近的染色质基因组区域中显示未代表的缺口的情况下，将这些未代表的区域包括在计算中可能会导致偏差和错误。因此，使用cfDNA样品队列生成了在cfDNA队列中代表的区域(>0读数)的掩码。

接下来，使用计算方法来积分血浆和正常样品的覆盖度参数。因此，可以使用等式sum_i[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma)积分血浆和正常(PBMC)患者样品之间偏态的覆盖方向深度。类似地，可以使用等式sum_i[abs(T(i)-N(i))]-E(σ))来积分肿瘤和正常(PBMC)患者样品之间偏态的累积覆盖深度。

接下来，计算前述信号相对于定向深度和累积覆盖深度之间的稀释比，其对应于估计的肿瘤分数(eTF)。在一些方面，计算步骤可包括通过利用概率稀释模型来计算CNV标记的eTF，所述概率稀释模型包括：1)根据肿瘤CNV的方向性，将血浆和正常(PBMC)患者样品之间偏态的定向覆盖深度进行积分，其中拷贝数的扩增为正偏态而拷贝数的缺失为负偏态；2)将肿瘤和正常(PBMC)患者样品之间偏态的累积覆盖深度进行积分；和3)发现上述信号之间的稀释比。更具体地说，整合数学模型可以涉及计算估计的eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度覆盖度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化。接下来，将估计的TF(CNV)针对检测阈值进行检查，该检测阈值是由根据经验测量的健康样品的基础噪声TF估计所定义的。在一些方面，如果eTF(CNV)高于阈值，例如噪声TF分布的2个标准差(例如，FPR<2.5％)，则将其定义为检测到。

在一些实施方案中，概率模型用于基于数学运算A*PBMC_cov+B*tumor_cov来计算每个基因组位点的有效覆盖，其中如果特定位点与扩增或缺失相关联，则PBMC覆盖和肿瘤覆盖不相同，且A+B＝1。在一些实施方案中，对于各种样品的A，B如下：对照(例如，PBMC样品)A＝1和B＝0；肿瘤样品B＝纯度和A＝1-纯度；血浆样品B＝TF，A＝1-TF。在一些实施方案中，血浆和肿瘤中信号之间的关系与纯度和TF之间的稀释度(或混合物比例的变化)线性相关。如本领域中已知的，模型也受到噪声的影响，该噪声可以被包括在概率模型中。

方法在手术后患者治疗中的应用

对于已经经历了肿瘤的外科切除术(例如，通过乳房切除术去除乳房肿瘤；通过肺切除术或肺叶切除术去除肺肿瘤；或者通过前列腺切除术去除前列腺)的癌症患者的预后至关重要。例如，在乳腺癌患者中，对于正在考虑进行辅助治疗的女性，绝大多数人表示希望在没有辅助治疗的情况下了解其预后(Ravdin等，J Clin Oncol.，16(2):515-521，1998)。辅助治疗是不希望的，因为它令人不快且不便(Duric等，Lancer Oncol.，2(11):691-697，2001)。在一些情况下，它可能仅提供适度的益处(Simes等人，J Natl CancerInst Monogr.，30，146-152,2001)。是否拥有它是一个合法的决定(Duric等人，同上)。它可能涉及权衡Wouters等(Ann Oncol.，24(9):2324-9，2013)。有人呼吁完善对癌症造成的风险的确定(Kratz等人，Transl Lung Cancer Res.,2(3):222–225，2013)。

许多研究指出，肿瘤大小是重要的预后变量。但是，在MRD环境中，肿瘤大小不是相关的，因为使用传统的诊断工具(例如CT扫描)通常无法检测到肿瘤。因此，肿瘤大小的临界点是有问题的。

因此，预测模型的计算机化版本将在这个方向提供重要的步骤，并且可能是当前可用的最准确的预测方法。图7示出了基于估计的肿瘤分数的手术后患者中的模型预测。例如，高于阈值的估计肿瘤分数(例如，对于SNV标记约10^-4和/或对于SNV标记约10^-5)将指示受试者需要辅助治疗。

除了将其简单地用于患者咨询之外，该模型还可用于医师关于辅助治疗的决定。因此，所公开的方法为医师和临床医生提供了预测在不存在辅助治疗下的结果(例如转移或甚至死亡)的工具。据推测，具有极低基线风险(作为估计的肿瘤分数(eTF)的函数)的患者可能希望避免与辅助治疗相关的毒性。因此，预测工具可以是有效的决策辅助工具。该预测工具也可能用作判断任何新疗法(例如化学疗法，免疫疗法或靶向疗法，例如使用研究药物)的预测能力的基准。

系统

本公开进一步涉及用于执行本公开方法的系统。在图7A的示意图中提供了代表性的系统，其示出了用于执行本公开的诊断方法的示例性系统。如本文所描绘的，提供了系统500，其可以包括分析单元510，分类单元520，计算单元530和显示器540，用于输出数据并接收(经由关联的输入设备(未示出)的)用户输入。分析单元510通常包括遗传数据的输入，例如，包含来自受试者的肿瘤样品，任选地正常(例如，PBMC)样品的读数的VCF文件，以及第二生物学样品，例如来自相同受试者的血浆样品(注意：第一和第二样品采集可以一起执行或顺序执行，即在时间上分开)。分类单元520可包括一个或多个引擎，用于分类各种类型的标记，例如，CNV/SV与SNP/indel。应该注意的是，图7A示出了系统的一种配置。这些组件的方向和配置可以根据需要变化。此外，可以将另外的组件添加到该系统。这些各种组件，它们的各种操作，它们的各种定向以及彼此之间的各种关联将在下面详细讨论。

在一些实施方案中，本公开涉及用于在需要其的受试者中检测残留疾病的系统。所述系统可以包括分析单元510，该分析单元510被配置和布置成从标记的全基因组概要中过滤人工噪声标记，其中标记的全基因组概要是从来自受试者的生物样品中的多个遗传标记生成的，生物样品包括肿瘤样品和正常细胞样品，其中遗传标记概要选自由单核苷酸变异(SNV)，indel，拷贝数变异(CNV)，结构变体(SV)及其组合组成的组，分析单元进一步包括检测第二生物样品中遗传标记的受试者特异性全基因组概要，以生成第二样品中肿瘤全基因组遗传标记的代表，分析单元进一步包括分类引擎520。在一些实施方案中，分类引擎520将概要中的每个标记统计分类为信号或噪声。例如，其中标记是SNV或indel(由于相似的结构特征而分组在一起，但不必使用相同的分类方案)，则分类引擎基于检测到噪声的概率(P_N)作为1)包含SNV或indel的读数组的映射质量(MQ)，2)包含SNV或indel的读数组的片段大小长度，3)包含特定SNV的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，将SNV或Indel分类为信号或噪声。类似地，其中标记是SNV或indel(由于相似的结构特征而分组在一起，但不必使用相同的分类方案)，分类引擎基于1)相对于着丝粒的位置，2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)cfDNA数据中CNV或SV窗口的代表，将SNV或indel分类为信号或噪声。

在一些实施方案中，SNV/indel分类单元520基于检测到噪声的概率(P_N)作为SNV/indel的碱基质量(BQ)和SNV/indel的映射质量(MQ)的函数，将概要中的每个SNV/indel统计学分类为信号或噪声。在一些实施方案中，CNV/SV分类单元520基于其相对于着丝粒的位置，其在给定覆盖深度中的非代表及其读数能力，将概要中的每个CNV/SV统计学分类为信号或噪声。在一些实施方案中，分类单元520基于一个或多个前述参数对SNV/indel标记以及CNV/SV标记进行分类。

在一些实施方案中，本公开的系统包含计算单元530，其被配置和布置为基于一个或多个整合数学模型来计算样品的估计肿瘤分数(eTF)。例如，计算单元可以被配置和布置为基于对SNV/indel标记特异性的或对CNV/SV标记特异性的一个或多个整合数学模型来计算样品的估计肿瘤分数(eTF)。在这样的实施方案中，其中标记是SNV/indel，计算单元可以将包括估计的基因组覆盖度和测序噪声的过程质量度量与包括突变负荷(N)的患者特异性参数进行积分。同样地，其中标记是CNV或SV，计算单元可以通过积分与肿瘤CNV方向性一致的偏态的定向覆盖深度来计算CNV标记的eTF，其中，拷贝数的扩增为正偏态，拷贝数的缺失为负偏态。

本公开的系统进一步包含显示单元540，其基于估计的肿瘤分数输出受试者的残留疾病概况，其中如果估计的肿瘤分数超过由背景噪声模型计算的经验阈值，则在残留疾病概况中输出受试者的残留疾病。在一些实施方案中，在本公开的系统中，分类引擎单元和/或计算单元可以单独地或共同地耦合到显示单元，该显示单元基于所估计的肿瘤分数来输出受试者的残留疾病概况。

在一些实施方案中，本公开的系统500包括分析单元510，该分析单元510包括分类单元520，该分类单元520包括选自由SNV分类引擎520-1，CNV分类引擎520-2，indel分类单元520-3，结构变体(SV)分类单元520-4或它们的组合520-5组成的组的至少一个引擎，其中：SNV/indel分类引擎基于检测到噪声的概率(P_N)作为SNV的碱基质量(BQ)或SNV的映射质量(MQ)的函数，将概要中的每个SNV统计学分类为信号或噪声；和/或CNV/SV分类引擎基于其相对于着丝粒的位置、其在给定覆盖深度中的非代表以及其读数能力，将概要中的每个CNV/SV统计学分类为信号或噪声。系统500可以进一步包括计算单元530，该计算单元530被配置为基于特定于标记类型的一个或多个整合数学模型来计算样品的估计肿瘤分数(eTF)。例如，其中标记是SNV，计算单元530可以被配置为基于数学模型eTF[SNV]＝1-[1-(M-E(σ)^R)/N]^(1/cov)来计算eTF，其中M是患者样品中肿瘤特异性概要检测的数量，σ是根据经验估算的噪声的测量，R是目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的独特读数的平均数量。同样，其中标记是CNV，计算单元530可以被配置为基于数学模型eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))来计算eTF，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度值，T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值。

在一些实施方案中，计算单元530可以被配置为基于特定于indel的数学模型(通常与用于计算SNP的eTF的数学模型相似或相同)来计算eTF。在一些实施方案中，计算单元530可以被配置为基于特定于SV的数学模型(通常与用于计算CNV的eTF的数学模型相似或相同)来计算eTF。在一些实施方案中，计算单元530可以被配置为基于特定于SNP的数学模型和基于特定于CNV的数学模型来计算eTF，其中，特定于SNP的数学模型包括等式eTF[SNV]＝1-[1-(M-E(σ)^R)/N]^(1/cov)，其中M是患者样品中肿瘤特异性概要检测的数目，σ是经验估计的噪声的测量，R是目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的独特读数的平均数目，其中，基于特定于CNV的数学模型包括等式eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度值，T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值。

在一些实施方案中，计算单元530被配置为通过积分概率模型来计算SNV或Indel标记的eTF，其中该概率模型包括1)血浆SNV或Indel检测的积分信号，2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量，和/或3)包含突变负荷(N)的患者特异性参数；和/或通过利用概率混合模型来计算CNV或SV标记的eTF，其中概率稀释模型包括1)根据肿瘤CNV或SV的方向性，积分血浆和正常患者样品之间偏态的定向覆盖深度，其中拷贝数的扩增为正偏态，而拷贝数的缺失为负偏态；2)积分肿瘤和正常患者样品之间偏态的累积覆盖深度；和/或3)发现上述信号之间的稀释比。

根据本文的各个实施方案，提供了一种计算机可读介质，该计算机可读介质包括计算机可执行指令，该计算机可执行指令在由处理器执行时使处理器执行用于过滤从受试者样品中接收的遗传标记概要中的噪声的方法或步骤集，其中所述遗传标记在基因组读数中包含SNV(优选sSNV)，CNV(优选sCNV)，indel和/或SV(优选易位，基因融合或其组合)。优选地，过滤器通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，将概要中的每个SNV或Indel统计学分类为信号或噪声；和/或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)cfDNA数据中CNV窗口的代表，将概要中的每个CNV或SV窗口统计学分类为信号或噪声。所述计算机可读介质可进一步包括计算机可执行指令，所述计算机可执行指令在由处理器执行时使所述处理器执行以下方法或步骤集：基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；基于估计的肿瘤分数和背景噪声模型计算的经验阈值，诊断受试者的残留疾病。

在一些实施方案中，系统包括计算单元530，该计算单元530包括计算机可执行指令，该计算机可执行指令在由处理器执行时使处理器执行以下方法或步骤集：基于用于计算eTF的一个或多个上述数学模型，估计肿瘤分数(eTF)；以及基于所计算的eTF进行合格诊断的诊断单元(例如，如果eTF≥2std高于噪声阈值，则做出阳性诊断)。该系统可以进一步包括显示器540，用于输出数据并接收经由关联的输入设备(例如，鼠标)的用户输入。在一些实施方案中，结果可以以二进制输出(即，“MRD的+ve”或“MRD的-ve”)或序数得分(例如以1至5的比例)的形式显示在显示器540上，其中得分为1表示该受试者不太可能患有MRD，并且得分为5表示该受试者很可能患有MRD。

如图7B所示，提供了示例系统100，其被配置和布置为检测需要其的受试者中的残留疾病。参考图7B，系统100可以包括分析单元110和计算单元150。分析单元110可以包括预过滤器引擎120和校正引擎130。这些系统组件和关联引擎将在下面详细地讨论。

再次参考图7B，分析单元110的预过滤器引擎120可以被配置和布置为接收与来自受试者的第一生物样品中的遗传标记相关联的第一受试者特异性的读数的全基因组概要。如关于本文的工作流程所讨论的，并且根据各个实施方案，第一生物样品可以包括基线样品；第一读数概要可以各自包含单个碱基对长度的读数；基线样品可以包括肿瘤样品或血浆样品。

图7B中的预过滤器引擎120还可以被配置和布置为从第一读数概要中过滤人工位点(artefactual sites)。如关于本文的工作流程所讨论的，并且根据各个实施方案，过滤可以包括从遗传标记的第一概要中去除在参考健康样品队列上生成的重复位点，和/或鉴定正常细胞样品的外周血单核细胞中的种系突变，并从遗传标记的第一概要中去除所述种系突变。

在图7B中，分析单元110的校正引擎130可以被配置和布置为接收来自引擎120的输出。校正引擎130也可以被配置和布置为接收来自受试者的第二生物样品中的遗传标记的第二受试者特异性全基因组概要中的读数，以生成第二样品中的遗传标记的肿瘤相关全基因组代表。如图7B所示，可以使用检测单元140来检测第二生物样品的读数。所述检测单元140可以是系统100的一部分或不是系统100的一部分，在这种情况下，读数可由来自外部系统100的校正引擎130简单接收。此外，这些读数可以在噪声过滤之前在系统中的任何点被接收到分析单元110中，这将在下面讨论。此外，如果在噪声已经被过滤的情况下将读数提供给系统110，则甚至可以在噪声过滤之后接收这些读数。此外，检测单元140可被集成到分析单元110中，或者与分析单元110分离，如图7B所示。

校正引擎130还可以被配置和布置为使用至少一个错误抑制方案来过滤来自第一和第二读数全基因组概要的噪声，以产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集。

如关于本文的工作流程所讨论的，并且根据各个实施方案，所述至少一个错误抑制方案可包括计算第一和第二概要中的任何单核苷酸变异是人工突变的概率，并去除所述突变。

如关于本文的工作流程所讨论的，并且根据各个实施方案，所述概率可作为选自以下的特征的函数来计算：映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合。

如关于本文的工作流程所讨论的，并且根据各个实施方案，所述至少一个错误抑制方案可以包括使用由聚合酶链反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试和/或重复一致性(其中当在给定重复家族的大多数中缺乏一致性时，可以鉴定并去除人工突变)来去除人工突变(artefactual mutations)。

系统100的计算单元150可以配置和布置为接收来自校正引擎130的输出，并通过将背景噪声模型应用于一个或多个整合数学模型中，使用第一和第二过滤读数集来计算第一和第二生物样品的估计肿瘤分数(eTF)。计算单元150可以进一步配置和布置为，如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。本文将详细讨论背景噪声模型，整合数学模型和经验阈值。

系统100还可以包括显示器160，如图7B所示。显示器可以被配置和布置为接收来自计算单元150的输出。输出可以包括与检测受试者/用户中的残留疾病有关的数据。备选地，系统100可以不包括显示器，并且可以将来自计算单元150的数据输出发送到系统100外部的任何形式的存储或显示设备或位置。也如本文中所讨论的，系统100的组件可以被集成到单个单元中，或者可以被分解成比图7B所示的更多的分离的物理单元。此外，系统100可以是系统的分布式网络的一部分，每个系统执行基本相似的任务并将数据从每个系统传输到枢纽(hub)。

如图7C所示，提供了示例系统100，其被配置和布置为检测需要其的受试者中的残留疾病。如图7C的示例系统所示，系统100可以包括分析单元110和计算单元150。与图7B的系统相反，图7C的分析单元110可以包括预过滤器引擎120和归一化引擎130。这些系统组件和关联引擎将在下面详细地讨论。

再次参考图7C，分析单元110的预过滤器引擎120可以被配置和布置为接收与来自受试者的第一生物样品中的遗传标记相关联的第一受试者特异性的读数的全基因组概要。如关于本文的工作流程所讨论的，并且根据各个实施方案，第一生物样品可以包括基线样品；第一读数概要可以各自包含单个碱基对长度的读数；基线样品可以包括肿瘤样品或血浆样品。

预过滤器引擎120还可以被配置和布置为接收与来自受试者的第二生物样品中的遗传标记相关联的第二受试者特异性的读数的全基因组概要。如关于本文的工作流程所讨论的，并且根据各种实施方案，第二生物样品可以包括外周血单核细胞样品(PBMC)；以及遗传标记的第二概要可各自包含拷贝数变异(CNV)。

预过滤器引擎120还可以被配置和布置为从第一和第二读数概要中过滤人工位点。如关于本文的工作流程所讨论的，并且根据各个实施方案，过滤可以包括从第一和第二读数概要中去除在参考健康样品队列上生成的重复位点；将第一和第二概要之间共享的CNV鉴定为种系突变，并从第一和第二读数概要中去除所述突变。

分析单元110的归一化引擎130可以被配置和布置为接收来自引擎120的输出。归一化引擎130也可以被配置和布置为接收来自受试者的第三生物样品中的遗传标记的第三受试者特异性全基因组概要中的读数，以生成第二样品中的遗传标记的肿瘤相关全基因组代表。

如图7C所示，可以使用检测单元140来检测第三生物样品的读数。所述检测单元140可以是系统100的一部分,或不是系统100的一部分，在这种情况下，读数可由来自外部系统100的归一化引擎130接收。此外，这些读数可以在噪声过滤之前在系统中的任何点被接收到分析单元110中，这将在下面讨论。此外，如果在噪声已经被过滤的情况下将读数提供给系统110，则甚至可以在噪声过滤之后接收这些读数。此外，检测单元140可被集成到分析单元110中，或者与分析单元110分离，如图7C所示。

归一化引擎130还可以被配置和布置为将第一，第二和第三读数概要中的每一个归一化，以产生用于第一读数全基因组概要的第一过滤读数集，用于第二读数全基因组概要的第二过滤读数集，以及用于第三读数全基因组概要的第三过滤读数集。归一化方法在本文中详细讨论，并且可以以任何预期的组合使用以便归一化所讨论的读数。

图7C中的系统100的计算单元150可被配置和布置为接收来自归一化引擎X30的输出，并且通过例如将背景噪声模型应用于一个或多个整合数学模型，使用第三过滤读数集来计算第三生物样品的估计的肿瘤分数(eTF)，所述一个或多个模型使用第一过滤读数集产生第一eTF，和/或所述一个或多个模型使用第二过滤读数集产生第二eTF。计算单元150可以进一步配置和布置为，如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。本文将详细讨论背景噪声模型，整合数学模型和经验阈值。

系统100还可以包括显示器160，如图7C所示。显示器可以被配置和布置为接收来自计算单元150的输出。输出可以包括与检测受试者/用户中的残留疾病有关的数据。备选地，系统100可以不包括显示器，并且可以将来自计算单元150的数据输出发送到系统100外部的任何形式的存储或显示设备或位置。也如本文中所讨论的，系统100的组件可以被集成到单个单元中，或者可以被分解成比图7C所示的更多的分离的物理单元。此外，系统100可以是系统的分布式网络的一部分，每个系统执行基本相似的任务并将数据从每个系统传输到枢纽(hub)。

其他相关实施方案

移植排斥的估计

本公开进一步涉及使用前述系统，方法和算法来估计移植排斥。优选地，可以使用图1B和图1D中概述的基于SNV/indel的工作流程来估计移植排斥。

在一些实施方案中，移植排斥的评估基于这样的方案：其使用仅对供体特异性的(并且未出现在受体中的)SNP的参考。基于受体血液(例如，移植后)中这些供体特异性SNP的检测率，供体DNA分数可以使用本公开的方法和系统来计算。预期供体-DNA分数与移植组织的凋亡率或排斥率相关。例如，高供体-DNA分数与高排斥表型相关，低供体-DNA分数与低排斥表型相关。

在一些实施方案中，如使用本公开方法所测量的供体和受体之间的微分SNP可以用于估计受体血液样品中的供体DNA的分数(eDF)。基于eDF，计算将要被排斥的移植的几率/可能性。例如，如果eDF大于某阈值，则表明移植的组织将被宿主排斥或与宿主不相容。相反，如果eDF等于或低于阈值水平，则表明移植的组织将被宿主接受或与宿主相容。

染色体畸变的无创性产前测试(NIPT)

本公开进一步涉及使用前述系统，方法和算法的染色体畸变的无创性产前测试(NIPT)。优选地，可以使用图1C和图1E中概述的基于CNV/SV的工作流程来执行NIPT。在本文中，将已知的扩增和缺失用作CNV参考集，针对其测量受试者样品(例如，从携带怀疑患有染色体畸变的胎儿的怀孕女性获得的羊水或血液)。图1C和图1E中的工作流程被设计为，假设目的区段和方向性(扩增，缺失)是已知的，即使信号低且稀疏也检测拷贝数变异的变化。在NIPT的背景下，假设需要对母血中的21三体进行测试，则目的区段(21号染色体)和变化(扩增)方向都是已知的。

实施例

本文所述的结构、材料、组合物和方法旨在作为本公开的代表性实例，并且应理解，本公开的范围不受实施例范围的限制。本领域技术人员将认识到，可以通过对所公开的结构、材料、组合物和方法进行变型来实现本公开，并且这种变型被认为在本公开的范围内。

实施例1:用于检测和验证肿瘤特异性低丰度肿瘤标记的方法和系统及其在癌症诊断中的用途

本公开的系统和方法可用于检测最小残留疾病。如本领域中已知的，与转移性癌症(其特征在于高疾病负荷和显著升高的ctDNA)相比，在残留疾病检测的情况下，ctDNA的丰度限制了靶向测序技术的使用。考虑到在低肿瘤负荷的情况下已知数量有限的cfDNA，首先，研究了优化cfDNA提取的潜力。首先，为减少源自样品采集的差异和个体间差异，使用由通过健康受试者和经受造血干细胞收集的癌症患者的血浆去除术进行的大体积血浆收集(约300cc)生成的均匀cfDNA材料，比较了市售的提取试剂盒和方法。大量血浆可在相同cfDNA输入上测试多种方法和方案参数，从而能够精确测量产量和质量的细微差异。

在该比较研究中使用了来自Capital Biosciences(Gaithersburg，MD,USA；Catalog#CFDNA-0050),Qiagen(Germantown，MD，USA)，Zymo(Irvine，CA，USA；Catalog#D4076),Omega BIO-TEK(Norcross,GA，USA；Catalog#M3298)和NEOGENESTAR(Somerset，NJ，USA，Catalog#NGS-cfDNA-WPR)的试剂盒和/或提取方法。按照制造商的说明统一使用这些试剂盒和试剂，以对1毫升的大体积血浆样品进行提取。并行处理多个血浆等分试样，以评估方法间和方法内的可变性。使用荧光定量(总质量)，UV吸光度(检测盐和蛋白质污染物)和芯片上电泳(大小分布和gDNA污染)确定每个回收的cfDNA样品的产量和纯度。

结果表明，来自欧Omega BIO-TEK的MAG-BIND cfDNA提取试剂盒的性能优于所有其他测试方法。进一步对制造商方案的每个步骤进行了系统优化，以减少污染物残留并提高cfDNA的回收率。即使这样，早期NSCLC(n＝21)的cfDNA产量仍然很低且高度可变(中值5ng/ml(<1000基因组当量)；范围3-30ng/ml)。

以上数据支持以下观点：对患者血浆样品中单点突变的检测是由两个连续的统计采样过程产生的：(i)以存在于典型血浆样品中的有限数量的基因组当量，将突变片段进行采样的概率；和(ii)鉴于其丰富度，测序深度和测序错误(信噪比)，检测样品中突变片段的概率。尽管后一过程一直是科学界进行深入研究和技术开发的焦点(例如，超深度无错误测序方案)，但前者的随机过程却很少涉及。然而，在低疾病负荷ctDNA检测中，两个过程都起着至关重要的作用，如图2所示。如果不存在包含靶向突变的物理片段，那么即使是理想的超深度靶向测序也将无法发现癌症信号。在实践中，单次观察(突变测序读数)很少足以用于可靠检测的事实使这个问题更加复杂。

因此，存在于血浆样品中的基因组当量构成了患者循环中整个cfDNA片段池的随机采样，其可以通过伯努利试验随机采样模型来制定。该模型预测与早期癌症治疗方案(regime)相关的TF(TF<1％)的检测概率将对于低TFs迅速降低。即使在0.1％(1/1000)的频率下，预测检测概率将低于0.65(图2A)。但是，通过在大量位点重复伯努利试验，引入测序的广度可以弥补每个位点有限的覆盖(有限的基因组当量的函数)。利用该模型发现，即使在TF为1:100，000的情况下，以适度测序工作(例如20X覆盖度，图2B)积分超过20，000个点突变(在17％的人类癌症中发现约10个突变/mb)11能够提供高检测概率(高达0.98)，从而可以用标准的全基因组测序(WGS)轻松实现。

然后将优化的提取方案应用于患者样品。该队列包括用于估计最小残留病(MRD)的来自相同患者的6个手术后(～14d)血浆样品，以及来自良性患者(对照)的4个血浆样品。尽管优化了提取，但低疾病负荷样品中的cfDNA产量仍然很低，并且在患者之间显示0.13ng/mL至1.6ng/mL的高变异性。这些数据证实了可用于cfDNA测序的DNA分子数目少且可变。

总之，这些结果表明，在MRD检测的情况下，鉴于基因组当量的数目远低于应用的测序深度，有限的输入材料构成了超深度靶向测序(最小ctDNA频率为0.1-1％)的有效应用的主要障碍。

实施例2:全基因组积分允许基于WGS的灵敏NSCLC ctDNA检测手术后残留疾病，用于辅助疗法分层和疗法优化

用cfDNA对MRD的超灵敏鉴定可能具有基本的预后含义，并允许患者分层以进行后续辅助化疗。当前的方法主要是通过增加深度测序以抵消cfDNA中ctDNA的低分数，来扩展驱动子热点突变检测的范例。然而，这些方法固有地受到基因组当量上限的限制。为了克服这一局限性，积分了全基因组信息，理由是合并在整个基因组中的信息将允许利用肺癌中的高突变率。因此，取代了依赖于少数位点的更深测序，突变检测的宽度扩展到整个基因组，以提高灵敏度。因此，WGS被用于对相当一部分NSCLC中观察到的10,000–30,000体细胞突变所提供的累积信号进行碱基灵敏度检测。值得注意的是，这些突变中的大多数被认为发生在转化之前，因此，它们甚至也可能存在在早期NSCLC中。为了评估治疗目的的手术后NSCLC患者中残留疾病的检测方法，分析了五个早期肺癌患者样品(表1中提供了完整的临床详细信息)。

表1:当前测序患者的临床信息。

首先对来自外周血单核细胞(PBMC)的匹配的肿瘤DNA和种系DNA进行WGS，以生成患者特异性的全基因组sSNV概要。另外，在手术前和手术切除后约14天收集血浆样品。根据优化的MAG-BIND cfDNA提取试剂盒提取cfDNA，并根据试剂盒仅从1ng患者cfDNA中制备文库。

接下来，使用点突变模式匹配来检测MRD。为此，建立了稳健数学模型来估计SNV标记和CNV标记的肿瘤分数。数学模型表明，增加位点的数量将导致检测概率的显著增加。为了验证该预测，使用了来自多个肺腺癌患者的肿瘤和正常WGS数据的计算机混合物来模拟cfDNA的检测，方法是将肿瘤和正常WGS读数以不同比例混合以获得不同TF(10^-2至10^-6，n＝5个重复)的虚拟血浆样品。为了模拟噪声和可能的错误检测，从匹配的正常种系WGS生成了测序读数的补充数据集，而没有肿瘤读数的混合(TF＝0，n＝20个重复)。为了模拟在残留疾病背景下的检测，对原始肿瘤和种系WGS数据进行了体细胞突变调用，并获得了患者特异性体细胞SNV概要。然后，通过检测针对患者特异性SNV概要的至少一个支持读数，来测量计算机模拟血浆混合物中肿瘤相关突变位点的数量。通过分析有和没有ctDNA的模拟血浆，鉴定了测序噪音是灵敏检测的主要障碍。为了减少测序假象的影响，过滤了与较低的碱基质量(BQ)和映射质量(MQ)标记相关的错误。通过最佳接收器点分析(ROC，图3A)开发了联合的BQ和MQ优化过滤器，将测量的错误率降低了-10倍(图3B，降低至约2/10,000)。总的来说，这种优化的SNV检测方法在我们提出的数学方法(红线，图3C)和测量的经验数据(平均值+/-置信区间，图3C)之间显示出很高的一致性，以及接近TF＝1/100,000的高灵敏度。此外，实验结果与数学模型之间的高度一致性使我们能够将经验SNV检测准确地转换为TF估计值(图3D)，允许定量MRD监测。此外，对TF估计的计算机验证表明，对于5×10^-5以上的所有TF均获得了准确且具体的估计(图3E，图3F和图3G)。在此，在三个不同样品(例如黑色素瘤(图3E)，肺(图3F)和乳腺(图3G)肿瘤样品)中，在输入混合物TF(x轴)和由突变模式估计的TF(y轴)之间观察到高度相关性(R²＝0.999)。

数据表明，过滤器降低样品中的噪声。例如，对于肺癌和黑色素瘤癌症类型，前过滤器噪声出现在～2x 10^-3的比率，对于这两种癌症类型，后过滤器噪声率均降至～2x 10^-4(图3C)。具有减轻的35X覆盖度的联合碱基质量(BQ)和映射质量(MQ)优化的过滤器的应用，允许检测TF低至1/20,000的样品中的标记。此处，红线代表理论(二项式模型)期望值，并且以黑色显示经验测量(5个独立重复的平均值和置信区间(图3D)。噪声水平由根据TF＝0的检测分布的灰色区域表示。进一步地，在对黑色素瘤样品中的TF估计进行计算机验证中，对于5×10^-5以上的所有TF均获得了准确且具体的估计(图3E)。

使用合成血浆混合物的标记的分析验证进一步证明了体细胞SNV和体细胞cCNV在所有TF>5x 10^-5特别是TF>5x 10^-4的肿瘤分数估计中的有效性。数据示于3H和图3I中。

使用合成样品的方法的进一步分析验证显示了SNV和CNV检测方法之间的很好相关性(R²＝83.5％)。参见图3J。

与ICHOR相比，本公开方法的比较评估显示，仅当TF>5x 10^-3时，ICHOR方法才提供输入的肿瘤分数和输出的肿瘤分数之间的相关性(图3K)。

图4显示了使用本公开的方法和系统从计算机或从对照受试者(BB601)或癌症患者(BB1122或BB1125)获得的ctDNA样品中的SNV检测率的图。

为了评估治疗目的的手术后NSCLC患者中残留疾病的检测方法，收集了五个早期肺癌样品(表1)。首先对匹配的肿瘤和种系DNA(PBMC)进行WGS，以生成患者特异性全基因组SNV概要。另外，在手术前和手术切除后约14天从受试者收集血浆样品。提取CfDNA并通过优化的WGS方案进行测序，然后基于患者特异性全基因组SNV概要分析所有血浆样品中的SNV检测。

结果显示在图5A中。数据显示，在早期NSCLC腺癌病例的所有5个术前血浆样品中，高于噪声阈值的全基因组SNV检测(图5A)。此外，在五分之二的患者中记录术后血浆检测，其与这些患者的临床结局(复发或死亡)相关(图5A)。具体地，只有两名患者显示手术后TF高于5x10^-5的噪声阈值。但是，所有健康对照样品均显示低于检测阈值的TF。N.D.表示未检测到。数据在血浆检测和TF相关性方面显示出与SNV方法一致的结果。

为了在临床上验证该创新方法并促进其在临床实践中的实施，将上述方法应用于30例早期肺癌(I和II期)中。首先对这些患者的匹配的先前收集的肿瘤和PBMC DNA以及手术前和手术后血浆样品进行WGS。基于SNV的检测算法用于量化术前和术后TF。识别与高术前或术后血浆TF相关的临床变量(例如疾病的阶段，淋巴结累及(involvement)，病理特征和患者的人口统计学信息)。明确检查了阳性术后血浆样品对这些患者无进展生存的影响。来自11名患者的代表性队列的数据显示于图5B(针对健康血浆对照的腺癌)和图5C(针对跨患者阴性对照的腺癌)中，表明>60％的灵敏度和>85％的特异性。sSNV和sCNV检测之间的一致性显示于图5D中。

手术后肿瘤DNA检测可用作需要辅助治疗的侵袭性疾病的预后标记。例如，在11位患者的结果的手术后(手术后2周收集的血浆)分析中，发现无复发时间与基于sSNV的zscore检测成反比相关(图11H)。

实施例3A：基于SNV的方法中片段大小特征的正交积分(orthogonalintegration)

由于血液循环期间的DNA降解，cfDNA片段分布具有独特的特征。健康的正常cfDNA样品显示图10A所示的片段大小分布。与主要源自造血细胞(免疫细胞)凋亡的“正常”DNA片段相比，源自肿瘤的循环DNA片段显示出较短的片段大小。与正常cfDNA样品相比，乳腺肿瘤cfDNA(红色和紫色)显示片段大小偏移(图10B)。计算第一核小体的质心(COM)(170bp附近的峰)显示出向与TF线性对应的较低COM偏移。在小鼠中使用人肿瘤异种移植模型(PDX)显示，来自肿瘤起源的循环DNA(红色，与人类比对)明显短于来自正常起源的循环DNA(黑色，与小鼠比对)。参见图10C。

为了产生可以量化单DNA片段来自肿瘤或正常起源的概率的稳健模型，我们使用联合高斯混合模型(GMM)来表征循环DNA的片段大小分布。通过将GMM分析应用于从我们的PDX样品中提取的循环肿瘤DNA中，仅使用与人类基因组比对的循环DNA，即可估计循环肿瘤DNA模型(红色虚线)。通过将GMM分析应用于健康人类志愿者血浆样品中的循环DNA，可以估计循环正常DNA模型(灰色虚线)。然后使用联合对数比值比(log odds ratio)(黄线)来估计特定循环DNA的片段大小来自肿瘤或正常起源的概率。数据示于图10D中。

基于DNA片段大小分布和GMM联合对数比值比，患者特异性突变检测可用于检查这些DNA片段是否与肿瘤起源相对应。为了增加置信度并降低批次效应偏差，使用跨患者检测开发了患者内对照。例如，在下面显示的特定患者中，检测到的肿瘤突变(灰色，匹配的检测结果)存在，并且显示出片段大小向低片段大小偏移的趋势。在相同患者样品上，检测到与其他患者相关的突变(红色，跨患者检测)，这些假象检测具有相同的烟草特征上下文信息模式，但不是真实检测。有趣的是，这些跨患者检测结果未显示出低片段大小偏移的趋势，并且其片段大小分布与真正的肿瘤检测结果明显不同(Wilcoxonrank-sum，Pvalue3*10^-9)。使用GMM联合对数比值比确认患者特异性突变检测来自肿瘤起源(联合对数比值比＝0.3)，而来自相同患者样品的人工突变(artefactual mutations)来自正常起源(联合对数比值比＝-0.35)。三位患者的代表性数据示于图10E中。

实施例3B：在CNV标记的情况下片段大小的正交积分

由于血液循环期间的DNA降解，cfDNA片段分布具有独特的特征。健康的正常cfDNA样品显示片段大小分布的变化(参见以上，图10A和图10B)。在此，在分析质心(COM)分布的情况下，计算第一核小体的COM(170bp附近的峰)显示出向与TF线性对应的较低COM偏移。

患者之间的片段大小质心(COM)的比较分析在灵敏度方面可能受到限制，并且也可能容易产生批次效应。患者内局部片段大小COM可以由于表观遗传学特征或由于拷贝数事件而改变。实际上，在扩增区段中，肿瘤分数存在局部增加(由于肿瘤DNA比例的增加)，因此局部片段大小质心(COM)减小。另一方面，在缺失区段中，肿瘤分数存在局部降低(由于肿瘤DNA比例的降低)，因此局部片段大小质心(COM)增加。

验证来自癌症患者的血浆样品上的这一概念，鉴定了在该区段中深度覆盖度的log2(log2>0.5＝扩增，log2<-0.5＝缺失)与局部片段大小质心(COM)之间的明显的负相关性。参见图11B。来自12个不同癌症患者的血浆样品的进一步验证显示，基于深度覆盖度的CNV检测与基于片段大小质心(COM)的CNV检测之间存在明确的关系(图11C)，这种关系在正常(健康)血浆样品中不明显(图11D)。

可以从每个样品的深度覆盖度(Log2)和片段大小(COM)关系中提取多个定量特征。更具体地，中性区域的质心(Log2＝0)，Log₂/COM关系的斜率和Log₂/COM关系的R²。这些特征显示了对手术后或治疗过程中患者肿瘤分数变化的动态响应，例如，下面是在治疗过程中进展的癌症患者，其显示COM降低，绝对斜率值和R²升高(图11E和图11F)。即使在微量的肿瘤DNA(例如治疗期间的第二位患者)中也可以分辨出变化。

使用多元线性回归或GLM允许将log₂/COM特征转换为肿瘤分数，以便监测手术后和治疗期间的患者(图11G)。例如，在6周(42天)的时间内监测接受治疗的患者的结果。估计的肿瘤分数(图11I)和归一化的CNV得分(图11J)制成表格，并呈现在比较条形图中用于监测残留疾病。数据显示，随着时间的推移，患者4(而非患者1-3)对治疗有应答，如以下事实所证明的：与治疗时的eTF相比，该患者在用药治疗后42天的eTF明显更低(图11I)。归一化CNV得分的分析也得出相似的结论，相对于接受免疫疗法和化学疗法组合的患者4中的阳性应答，这与接受单独疗法(单独化学疗法或免疫疗法)的1-3患者形成对比。治疗反应结果由影像学和长期临床随访证实，并显示与eTF预测相符。

实施例4:使用大的体细胞拷贝数变异(sCNV)的全基因组积分的灵敏性ctDNA检测

除了体细胞点突变，癌症基因组的特征还在于基本非整倍性。通过此过程，基因组的大片区域(swath)会经历扩增和缺失，从而产生用于ctDNA检测的潜在稳健信号。这主要是因为WGS覆盖深度是每个位点处DNA含量的函数。其他突出的实例包括，与正常cfDNA相比，ctDNA的片段长度更短，以及核小体定位信息。

因此，由于有大量的正交信息源来增加检测，WGS提供了比靶向测序更多的优势。为了使WGS提供的正交全基因组信号发挥杠杆作用，开发了一种类似的方法来利用大扩增和缺失基因组区段中的差别读数深度覆盖度。这种读数深度检测方法旨在积分数百万个小的基因组窗口，以便灵敏地检测患者特异性sCNV区域中的微小深度变化，从而允许在低TF血浆和健康(TF＝0)对照之间灵敏鉴别。

因此，本公开提供了一种分析方法，以积分跨大基因组CNV区段的大量定向深度覆盖度偏态(图6A)。在我们的NSCLC虚拟血浆样品上进行测试，通过积分全基因组CNV模式，可实现低至TF 1/100，000的高检测灵敏度(图6B)。此外，检测信号与TF之间的比较显示出线性(R²＝1，P值＝2*10^-24)关系，表明通过简单的稀释模型可以进行适当的建模，其中肿瘤局部深度覆盖度差异(扩增，缺失)通过与常规读数的比例混合进行稀释。这种明确的关系使得能够由经验患者测量结果来计算TF。该方法以及SNV方法将在上述相同患者队列中并排验证，并将用于构建联合分类模型以通过积分这些正交信号来协同提高灵敏度。

要注意的是，本发明的方法为SNV突变负荷低但CNV负荷高的患者提供了补充的灵敏检测。或者，本文所述的方法可以与基于SNV的方法整合，以进一步改善独立于cfDNA丰度的检测。两种方法在示例性样品上的整合显示了最小残留疾病的潜在检测。数据表明，即使不存在匹配的肿瘤样品，全基因组sSNV积分也可以通过应用突变推断特征来提供灵敏的MRD检测。

本公开内容的方法不限于本文举例的标记的类型。例如，可以以类似于SNV分析的方式通过分析读数的基因组概要中的插入或缺失(indel)来进行残留疾病检测/诊断(以上在实施例2中示例)。类似地，可以以类似于CNV分析的方式通过分析读数的基因组概要中的结构变体(SV)来进行残留疾病检测/诊断(以上在实施例3中示例)。

尽管上面已经讨论了许多示例性方面和实施方案，但是本领域技术人员将认识到其某些修改、排列、添加和子组合。因此，旨在将所附权利要求书和此后引入的权利要求书解释为包括在其真实精神和范围内的所有这样的修改、排列、添加和子组合。

实施例5:比较评估

将本公开的系统和方法与本领域已知的调用子进行了比较。

当前的突变调用子在低TF方案中不起作用。更具体地，MUTECT在TF低于1％时不起作用。用于鉴定ctDNA标记的适用替代方法包括具有错误抑制的高覆盖靶向测序(例如双链体测序)。Phallen等人在“Direct Detection of Early Stage Cancers UsingCirculating Tumor DNA”(Science Translational Medicine,9,203，2017)中给出了本领域方法的示例。Phallen和其他出版物中描述的方法在低TF中具有有限的灵敏度(即，在1/1000TF以下几乎没有检测)。来自Broad研究所的第二种本领域方法(称为IBroadCHOR)具有类似的局限性。ICHOR(参见，Adalsteinsson等人，“"Scalable whole-exome sequencingof cell-free DNA reveals high concordance with metastatic tumors，"Naturecommunications 8.1，1324，2017)试图跨WGS积分CNV信息；然而，ICHOR方法与本方法完全不同。从图9所示的比较结果可以看出，与本方法相比，Broad ICHOR方法具有显著较低的灵敏度。特别地，与ICHOR方法相比，用本公开的方法和系统获得的灵敏度的100倍增加是显著优越的并且出乎意料地有利。

因此，本公开涉及以下非限制性实施方案：

实施方案1.用于在有需要的受试者中检测残留疾病的方法，其包括：(A)从受试者的第一生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)从第一和第二生物样品中标记的全基因组概要中过滤出人工噪声标记，其中所述过滤包括：(a)基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，和/或4)SNV或Indel的碱基质量(BQ)的函数，将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或(b)基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，和/或3)与cfDNA掩码(黑名单)的重叠，将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算第一和第二生物样品的估计肿瘤分数(eTF)；和(E)如果估计的肿瘤分数超过使用背景噪声模型计算的经验阈值，则检测受试者中的残留疾病。

实施方案2.根据实施方案1的方法，其中，步骤(A)包括接收来自多个遗传标记的遗传标记受试者特异性全基因组概要，其中所述多个遗传标记来自包含受试者的肿瘤样品和正常细胞样品的生物样品。

实施方案3.根据实施方案1和2中任一项的方法，其中所述读数组包括覆盖特定SNV或indel位点的读数集，或包含在特定CNV或SV基因组窗口中的读数集。

实施方案4.根据实施方案1至3中任一项的方法，其中所述肿瘤样品包括切除的肿瘤或FNA，其包括速冻组织，OCT包埋的组织或FFPE。

实施方案5.根据实施方案1至4中任一项的方法，其中所述正常样品包括外周血单核细胞(PMBC)或唾液或皮肤样品。

实施方案6.根据实施方案1-5中任一项的方法，其中多个遗传标记是通过全基因组测序受试者的生物样品来接收的。

实施方案7.根据实施方案1至6中任一项的方法，其中来自受试者的第一生物样品的多个遗传标记的遗传标记概要包括高突变率和/或高数量的CNV或SV。

实施方案8.根据实施方案7的方法，其中所述高突变率包括每兆碱基对至少1个体细胞单核苷酸多态性或indel的突变率，并且其中高拷贝数变异包括累积大小为至少5兆碱基对的体细胞CNV或SV。

实施方案9.根据实施方案1至8中任一项所述的方法，其中，背景噪声模型包括测量正常健康样品中的检测错误率并将该错误率转换为基础噪声eTF估计模型。

实施方案10.根据实施方案9的方法，其中，通过eTF估计模型计算的阈值在10^-4至10^-6之间。

实施方案11.根据实施方案1至11中任一项的方法，其中步骤(A)包括从来自受试者生物样品的多个遗传标记中接收体细胞遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和正常细胞样品；步骤(B)包括随后在包含受试者血浆样品的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以生成患者血浆中随时间更新的遗传标记的肿瘤相关全基因组代表。

实施方案12.根据实施方案1-11中任一项的方法，其中所述正常细胞样品包括PMBC，唾液样品，毛发样品或皮肤样品。

实施方案13.根据实施方案1-12中任一项的方法，其中所述受试者是人，并且所述受试者的第二生物样品是选自由以下组成的组的生物材料：血液，脑脊液，胸膜液，眼液，粪便，尿液或其组合。

实施方案14.用于定量估计患者治疗期间，患者观察期间或随访期间患者最小残留疾病负荷的方法，其包括实施：(A)从受试者的第一生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)从第一和第二生物样品中的标记的全基因组概要中过滤出人工噪声标记，其中所述过滤包括：(a)基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，和/或4)SNV或Indel的碱基质量(BQ)的函数，将概要中的每个SNV或Indel统计学归类为信号或噪声；和/或(b)基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，和/或3)与cfDNA掩码的重叠(黑名单)，将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算第一和第二生物样品的估计肿瘤分数(eTF)；和(E)如果估计的肿瘤分数超过使用背景噪声模型计算的经验阈值，则检测受试者中的残留疾病。

实施方案15.根据实施方案14的方法，其中(E)进一步包括在切除手术后检测受试者中的残留疾病；以及在治疗期间或之后检测残留疾病；检测残留疾病以监测治疗有效性；检测残留疾病以监测癌症的复发或再发；或其组合。

实施方案16.根据实施方案15的方法，其中切除手术包括淋巴结活检；头部或颈部手术；子宫或子宫内膜活检；膀胱活检；乳房切除术；前列腺切除术；皮肤损伤去除；小肠切除；胃切除术；开胸术；肾上腺切除术；结肠切除术；卵巢切除术；甲状腺切除术；子宫切除术；舌切除术；或结肠息肉切除术。

实施方案17.根据实施方案15的方法，其中所述疗法包括化学疗法，免疫疗法，靶向疗法，放射疗法或其组合。

实施方案18.根据实施方案14至17中任一项的方法，其中使用ROC曲线优化标记的BQ，MQ和片段大小参数。

实施方案19.根据实施方案14至18中任一项的方法，包括采用组合的碱基质量映射质量(BQ MQ)参数。

实施方案20.根据实施方案14-19中任一项的方法，其进一步包括从受试者的生物样品中接收多个遗传标记，所述生物样品包括肿瘤样品和正常细胞样品，并从所接收的多个遗传标记中生成遗传标记的受试者特异性全基因组概要。

实施方案21.根据实施方案14至20中任一项的方法，其进一步包括检测受试者的第三生物样品中遗传标记的受试者特异性全基因组概要，以与在受试者的第一生物样品中生成的遗传标记的受试者特异性全基因组概要进行比较。

实施方案22.根据实施方案21的方法，其中第三生物样品是受试者的血浆样品，所述受试者的血浆样品被获得以在患者血浆中生成肿瘤全基因组遗传标记的随时间更新的代表。

实施方案23.根据实施方案14至22中任一项的方法，其进一步包括凭经验确定背景噪声阈值，其中高于背景噪声阈值的肿瘤分数提供了肿瘤负荷的定量估计。

实施方案24.根据实施方案14至23中任一项的方法，其中低于噪声阈值的肿瘤分数被认为是未被检测到(N.D.)。

实施方案25.根据实施方案14至24中任一项的方法，其中检测包括随时间定量监测。

实施方案26.根据实施方案14至25中任一项的方法，其中所述肿瘤是脑癌，肺癌，皮肤癌，鼻癌，喉癌，肝癌，骨癌，淋巴瘤，胰腺癌，皮肤癌，肠癌，直肠癌，甲状腺癌，膀胱癌，肾癌，口腔癌，胃癌，黑色素瘤，骨肉瘤或本质上异质或同质的实体态肿瘤。

实施方案27.根据实施方案14至26中任一项的方法，其中所述肿瘤是肺腺癌，导管腺癌，非小细胞肺癌肺腺癌(NSCLC LUAD)，皮肤黑色素瘤，尿路上皮癌或骨肉瘤。

实施方案28.根据实施方案14至27中任一项所述的方法，其中，所述计算步骤进一步包括：通过积分概率模型来计算SNV或indel标记的eTF，其中该概率模型包括1)血浆SNV或indel检测的积分信号，2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量，和/或3)包含突变负荷(N)的患者特异性参数；和/或通过利用概率稀释模型来计算CNV或SV标记的eTF，其中概率稀释模型包括1)根据肿瘤CNV或SV的方向性，积分血浆和正常患者样品之间偏态的定向覆盖深度，其中拷贝数的扩增为正偏态，而拷贝数的缺失为负偏态；2)积分肿瘤和正常(PBMC)患者样品之间偏态的累积覆盖深度；和/或3)发现上述信号之间的稀释比。

实施方案29.用于在有需要的受试者中检测残留疾病的系统，其包括，(A)分析单元，其被配置和布置成从标记的全基因组概要中过滤人工噪声标记，其中标记的全基因组概要是从来自受试者的生物样品中的多个遗传标记生成的，生物样品包括肿瘤样品和正常细胞样品，其中遗传标记概要选自由单核苷酸变异(SNV)，indel，拷贝数变异，SV及其组合组成的组，分析单元进一步包括检测第二生物样品中遗传标记的受试者特异性全基因组概要，以生成第二样品中肿瘤全基因组遗传标记的代表，分析单元进一步包括分类引擎，其中所述分类引擎：(a)基于检测到噪声的概率(P_N)作为1)包含SNV或Indel的读数组的映射质量(MQ)，2)包含SNV或Indel的读数组的片段大小长度，3)包含特异性SNV的读数重复家族内的一致性测试，和/或4)SNV或Indel的碱基质量(BQ)的函数，将概要中的每个SNV统计学归类为信号或噪声；和/或(b)基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)cfDNA数据中CNV或SV窗口的代表，将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(B)计算单元，其被配置和布置为基于一个或多个整合数学模型来计算样品的估计肿瘤分数(eTF)；(C)显示单元，其基于所估计的肿瘤分数来输出受试者的残留疾病概况，其中，如果所估计的肿瘤分数超过由背景噪声模型计算的经验阈值，则在残留疾病概况中输出受试者的残留疾病。

实施方案30.根据前述实施方案的任一项的系统或方法，其中，所述计算单元进一步被配置和布置为：通过积分概率模型来计算SNV或Indel标记的eTF，其中该概率模型包括1)血浆SNV或Indel检测的积分信号，2)包括估计的基因组覆盖度和测序噪声模型的过程质量度量，和/或3)包含突变负荷(N)的患者特异性参数；和/或通过利用概率混合模型来计算CNV或SV标记的eTF，其中概率稀释模型包括1)根据肿瘤CNV或SV的方向性，积分血浆和正常患者样品之间偏态的定向覆盖深度，其中拷贝数的扩增为正偏态，而拷贝数的缺失为负偏态；2)积分肿瘤和正常患者样品之间偏态的累积覆盖深度；和/或3)发现上述信号之间的稀释比。

实施方案31.根据实施方案30所述的系统或方法，其中，所述计算单元(B)包括处理器，所述处理器被配置为执行计算机可读指令，该计算机可读指令在被执行时基于以下一个或多个整合数学模型来估计样品肿瘤分数(eTF)：(1)eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)，其中M是患者血浆样品中肿瘤特异性的SNV概要检测的数量，σ是根据经验估计的错误率的测量，R是SNV概要目的区域(ROI)中独特读数的总数，N是肿瘤突变负荷，cov是SNV概要ROI中每个位点的独特读数的平均数量；和/或(2)eTF[CNV]＝(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度覆盖度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，其通过稳健zscore方法或稳健PCA进行归一化；并且{i}是离散索引，用于计数覆盖患者肿瘤特异性扩增和缺失基因组区段的所有基因组窗口。

实施方案32.包括计算机可执行指令的计算机可读介质，所述计算机可执行指令在由处理器执行时使处理器执行用于检测残留疾病的方法或步骤集，所述方法或步骤包括：(A)从受试者的生物样品中的多个遗传标记中接收遗传标记的受试者特异性全基因组概要，所述生物样品包括肿瘤样品和任选的正常细胞样品，其中所述遗传标记概要选自由以下各项组成的组：单核苷酸变异(SNV)，短插入和缺失(Indel)，拷贝数变异，结构变体(SV)及其组合；(B)在受试者的第二生物样品中检测遗传标记的受试者特异性全基因组概要，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(C)通过以下方式从标记的全基因组概要中过滤出人工噪声标记：基于检测到噪声的概率(P_N)作为1)包含SNV的读数组的映射质量(MQ)，2)包含SNV的读数组的片段大小长度，3)包含SNV或Indel的读数重复家族内的一致性测试，4)SNV或Indel的碱基质量(BQ)的函数，通过将概要中的每个SNV或Indel统计学归类为信号或噪声；或基于1)相对于着丝粒的位置；2)包含CNV或SV窗口的读数组的映射质量(MQ)，3)与cfDNA掩码的重叠(黑名单)，通过将概要中的每个CNV或SV窗口统计学分类为信号或噪声；(D)基于一个或多个整合数学模型，计算生物样品的估计肿瘤分数(eTF)；和(E)基于估计肿瘤分数和由背景噪声模型计算出的经验阈值来诊断受试者中的残留疾病。

实施方案33.用于检测受试者中的最小残留疾病的方法，其包括(A)在从受试者接收的多个生物样品测序的遗传数据中，接收读数全基因组概要，所述多个生物样品包括肿瘤样品，正常样品和血浆样品；(B)对来自受试者的肿瘤和外周血单核细胞(PBMC)样品进行突变调用，其中所述突变调用包含MUTECT，LOFREQ和/或STRELKA突变调用，以生成体细胞SNV(sSNV)或indel的受试者特异性读数作为个性化参考集；(C)从受试者特异性体细胞SNV(sSNV)或indel收集和过滤读数，所述收集和过滤包括(1)去除低映射质量读数(例如，＜29，ROC优化的)；(2)建立复制家族(代表相同DNA片段的多个PCR/测序拷贝)，并基于一致性测试产生校正的读数；(3)去除低碱基质量读数(例如，<21，ROC优化的)；和(4)去除高片段大小读数(例如>160，ROC优化的)；(D)计算具有至少一个支持读数(在过滤的集合中)的受试者特异性突变位点的数目，所述受试者特异性突变位点具有与肿瘤中完全相同的取代；(F)基于数学模型eTF[SNV]＝1-[1-(M-E(σ)*R)/N]^(1/cov)…(等式1)估计SNV的肿瘤分数，其中M是患者样品中肿瘤特异性概要检测的数量，σ是根据经验估算的噪声的测量，R是目的区域(ROI)内独特读数的总数，N是肿瘤突变负荷，cov是ROI中每个位点的独特读数的平均数量；(G)将eTF[SNV]与检测阈值进行比较，该检测阈值包括从健康样品中凭经验测量的基础噪声TF估计值，其中eTF[SNV]高于阈值水平(例如，噪声TF分布的2个标准差(FPR<2.5％))表示阳性检测；并且(K)基于超过检测阈值水平的eTF估计来检测受试者中的残留疾病。

实施方案34.用于检测受试者中最小残留疾病的方法，其包括(A)在从受试者接收的多个生物样品测序的遗传数据中，接收读数的全基因组概要，所述多个生物样品包括肿瘤样品，正常样品和血浆样品；(B)对来自受试者的肿瘤和外周血单核细胞(PBMC)样品进行CNV或SV调用，生成超过阈值长度(例如，>2Mbp，优选地>5Mbp)的多个CNV或SV片段或SV的参考分区(segmentation)，并注释区段的方向性，其中扩增被正注释，而缺失被负注释；(C)收集覆盖患者特异性CNV或SV分区目的区域(ROI)的血浆、肿瘤和PBMC样品的单bp深度覆盖度信息；(D)将患者特异性CNV或SV分区ROI划分为500bp窗口，并计算所有样品和窗口的每个窗口的中值(人为抑制)；(E)使用以下方法生成所有500bp窗口的归一化深度覆盖度信息：(a)每个样品的稳健zscore归一化；和/或(2)稳健主成分分析(RPCA)；(F)从患者特异性分区中过滤窗口，其中所述过滤包括：(1)去除低映射质量读数(例如，＜29，ROC优化的)；和/或(2)去除着丝粒区域(例如，去除归一化正常值大于10的窗口)；和/或(3)去除cfDNA中未代表的区域(例如，去除由多个cfDNA样品组成的cfDNA代表掩码中未包括的窗口)；(G)使用数学模型sum_i[(P(i)-N(i))*sign[T(i)-N(i)]]-E(σ)…(等式2)，将血浆和正常(PBMC)患者样品之间偏态的定向覆盖深度进行积分，其中P是用代表血浆深度覆盖度的{i}索引的基因组窗口中的中值深度覆盖度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；E(sigma)是根据经验估算的错误率的测量；T是用代表肿瘤深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；并且N是用代表正常深度覆盖度的{i}索引的基因组窗口中的中值深度值，与正常样品队列相比，通过稳健zscore方法或稳健PCA进行归一化；(H)使用数学模型sum_i[abs(T(i)-N(i))]-E(σ))…(等式3)，将肿瘤和正常(PBMC)患者样品之间偏态的累积覆盖深度进行积分，其中T，N和E(σ)如上提供；(I)计算(G)的定向(directional)深度覆盖度和累积深度覆盖度(H)之间的稀释率，该稀释率对应于CNV或SV的估计肿瘤分数(eTF[CNV])＝(sum_i[(P(i)-N(i))*sign[T(i)-N(i)]]-E(σ))/(sum_i[abs(T(i)-N(i))]-E(σ))…(等式4)；(J)将eTF[CNV]与检测阈值进行比较，该检测阈值包括来自健康样品的根据经验测量的基础噪声TF估计值，其中eTF[CNV]高于阈值水平(例如，噪声TF分布的2个标准差(FPR<2.5％))表示阳性检测；和(K)基于超过检测阈值水平的eTF估计来检测受试者中的残留疾病。

实施方案35.用于在有需要的受试者中检测残留疾病的方法，其包括：(A)接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品和正常细胞样品，其中所述第一读数概要各自包含单个碱基对长度的读数，并且其中所述基线样品包括肿瘤样品或血浆样品；(B)从第一读数概要中过滤人工位点，其中所述过滤包括从遗传标记的第一概要中去除在参考健康样品队列上生成的重复位点，和/或鉴定正常细胞样品的外周血单核细胞中的种系突变并从遗传标记的第一概要中去除所述种系突变；(C)检测来自受试者的第二生物样品中遗传标记的第二受试者特异性全基因组概要的读数，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；(D)使用至少一个错误抑制方案过滤来自第一和第二读数全基因组概要的噪声，以产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集，其中至少一个错误抑制方案包括：(a)计算第一和第二概要中任何单核苷酸变异是人工突变的概率，并去除所述突变，其中所述概率是作为从由映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合组成的组中选择的特征的函数来计算的；和/或(b)使用由聚合酶链式反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试，和/或重复一致性(其中当在给定重复家族的大多数中缺乏一致性时，鉴定并去除人工突变)来去除人工突变；(E)通过将背景噪声模型应用于一个或多个整合数学模型，使用第一和第二过滤的读取集来计算第一和第二生物样品的估计肿瘤分数(eTF)；(F)如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

实施方案36.用于在有需要的受试者中检测残留疾病的方法，其包括，(A)从受试者的第一生物学样品中接收与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品，其中第一读数概要各自包含拷贝数变异(CNV)或结构变异(SV)，并且其中基线样品包括肿瘤样品或血浆样品；(B)接收与来自受试者的第二生物样品的遗传标记相关的读数的第二受试者特异性全基因组概要，所述第二生物样品包括外周血单核细胞样品(PBMC)，其中遗传标记的第二概要各自包括CNV或SV；(C)从第一和第二读数概要中过滤人工位点，其中所述过滤包括从第一和第二读数概要中去除在参考健康样品队列上生成的重复位点；将第一和第二概要之间共享的CNV/SV鉴定为种系突变，并从第一和第二读数概要中去除所述突变；(D)检测来自受试者的第三生物样品中的遗传标记的第三受试者特异性全基因组概要的读数，以生成第三样品中的遗传标记的肿瘤相关全基因组代表；(E)将第一，第二和第三读数概要中的每一个进行归一化，以产生用于第一读数全基因组概要的第一过滤的读数集，用于第二读数全基因组概要的第二过滤的读数集，和用于第三读数全基因组概要的第三过滤的读数集；(F)通过将背景噪声模型应用于一个或多个整合数学模型，使用第三过滤的读数集来计算第三生物样品的估计肿瘤分数(eTF)，所述一个或多个模型使用第一过滤的读数集来产生第一eTF，和/或所述一个或多个模型使用第二过滤的读数集产生第二eTF；和(G)如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

实施方案37.用于在有需要的受试者中检测残留疾病的系统，其包括：分析单元，该分析单元包括预过滤器引擎，该预过滤器引擎被配置和布置为接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品和正常样品，其中所述第一读数概要各自包含单个碱基对长度的读数，并且其中所述基线样品包括肿瘤样品或血浆样品；并从第一读数概要中过滤人工位点，其中所述过滤包括从遗传标记的第一概要中去除在参考健康样品队列上生成的重复位点，和/或鉴定正常细胞样品的外周血单核细胞中的种系突变并从遗传标记的第一概要中去除所述种系突变；和校正引擎，其被配置和布置为在受试者的第二生物样品中接收来自遗传标记的第二受试者特异性全基因组概要的读数，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；和使用至少一个错误抑制方案过滤来自第一和第二读数全基因组概要的噪声，以产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集，其中至少一个错误抑制方案包括：(a)计算第一和第二概要中任何单核苷酸变异是人工突变的概率，并去除所述突变，其中所述概率是作为从由映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合组成的组中选择的特征的函数来计算的；和/或(b)使用由聚合酶链式反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试，和/或重复一致性(其中当在给定重复家族的大多数中缺乏一致性时，鉴定并去除人工突变)来去除人工突变；和计算单元，其被配置和布置为通过将背景噪声模型应用于一个或多个整合数学模型，使用第一和第二过滤的读取集来计算第一和第二生物样品的估计肿瘤分数(eTF)；和如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

实施方案38.用于在有需要的受试者中检测残留疾病的系统，其包括，预过滤器引擎，所述预过滤器引擎被配置和布置为从受试者的第一生物学样品中接收与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品，其中第一读数概要各自包含单碱基对长度的读数，并且其中基线样品包括肿瘤样品或血浆样品；接收与来自受试者的第二生物样品的遗传标记相关的读数的第二受试者特异性全基因组概要，所述第二生物样品包括外周血单核细胞样品(PBMC)，其中遗传标记的第二概要各自包括拷贝数变异(CNV)；和从第一和第二读数概要中过滤人工位点，其中所述过滤包括从第一和第二读数概要中去除在参考健康样品队列上生成的重复位点；将第一和第二概要之间共享的CNV鉴定为种系突变，并从第一和第二读数概要中去除所述突变；和校正引擎，其被配置和布置为在受试者的第二生物样品中接收来自遗传标记的第三受试者特异性全基因组概要的读数，以生成第三样品中的遗传标记的肿瘤相关全基因组代表；和将第一，第二和第三读数概要中的每一个进行归一化，以产生用于第一读数全基因组概要的第一过滤的读数集，用于第二读数全基因组概要的第二过滤的读数集，和用于第三读数全基因组概要的第三过滤的读数集；以及计算单元，其被配置和布置为通过将背景噪声模型应用于一个或多个整合数学模型，使用第三过滤的读数集来计算第三生物样品的估计肿瘤分数(eTF)，所述一个或多个模型使用第一过滤的读数集来产生第一eTF，和/或所述一个或多个模型使用第二过滤的读数集产生第二eTF；和如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

实施方案39.实施方案35的方法，其中所述标记包含单核苷酸变异(SNV)或插入/缺失(indel)；优选SNV。

实施方案40.实施方案35和39的方法，其中过滤在参考健康样品队列上生成的重复位点包括生成正常小组(PON)黑名单或掩码。

实施方案41.实施方案35和39至40中任一项的方法，其中正常样品包含外周血单核细胞(PBMC)，并且在人工位点过滤步骤(B)中去除PBMC中的种系突变。

实施方案42.实施方案35和39至41中任一项的方法，其中在步骤(A)中，第一生物样品包括血浆样品，所述血浆样品是在手术前或治疗前从受试者获得的。

实施方案43.实施方案35和39至42中任一项的方法，其中在步骤(C)中，第二生物样品包括血浆样品，所述血浆样品是在治疗后或手术后从相同受试者获得的。

实施方案44.实施方案35和39至43中任一项的方法，其中步骤(D)包括采用机器学习(ML)算法，例如深度卷积神经网络(CNN)，递归神经网络(RNN)，随机森林(RF)，支持向量机(SVM)，判别分析，最近邻分析(KNN)，集成分类器或其组合；优选支持向量机(SVM)，来过滤人工噪声。

实施方案45.实施方案35和39至44中任一项的方法，其中在步骤(D)中，第二错误抑制步骤包括通过使用相同原始核酸片段的独立重复的比较，校正由PCR或测序生成的人工突变。

实施方案46.实施方案45的方法，其中在步骤(D)中，第二错误抑制步骤包括校正由配对末端150bp测序生成的人工突变，从而导致配对读数(R1和R2)重叠，并且R1和R2对之间的不一致性被校正回相应的参考基因组。

实施方案47.实施方案35和39至46中任一项的方法，其中在步骤(D)中，第二错误抑制步骤包括校正在测序和/或PCR扩增过程中生成的重复家族，其中所述重复家族是通过5'和3'相似性以及比对位置来鉴定的，并且其中每个重复家族用于检查跨独立重复的特异性突变的一致性，从而校正在大多数重复家族中未显示一致性的人工突变。

实施方案48.实施方案35和39至47中任一项的方法，其中在步骤(E)中，数学模型整合覆盖度、突变负荷、检测的突变的数量和肿瘤分数(TF)之间的关系。

实施方案49.根据实施方案35和39至48中任一项所述的方法，其中在步骤(E)中，背景噪声计算包括使用患者特异性突变特征来计算(1)在健康血浆样品队列(正常小组或PON)中的预期噪声分布或(2)其他患者的预期噪声分布(跨患者分析)。

实施方案50.实施方案49的方法，其中，背景噪声模型提供了人工突变检测率的估计的平均值和标准差(μ，σ)。

实施方案51.实施方案35至50中任一项的方法，进一步包括对包括片段大小偏移的第二特征进行正交积分。

实施方案52.实施方案51的方法，其中使用统计学方法例如显著性检验或高斯混合模型(GMM)，分析肿瘤特异性标记和随机标记列表中的患者内片段大小偏移。

实施方案53.实施方案36的方法，其中标记包括拷贝数变异(CNV)。

实施方案54.实施方案36和37中任一项的方法，其中过滤在参考健康样品队列上生成的重复位点包括生成正常小组(PON)黑名单或掩码。

实施方案55.实施方案36和53至54中任一项的方法，其中PBMC中的种系事件是在人工位点过滤步骤(C)中去除的。

实施方案56.实施方案36和53至55中任一项的方法，其中在步骤(A)中，第一生物样品包括在手术前或治疗前从受试者获得的血浆样品，和第二生物样品包括在手术前或治疗前从相同受试者获得的PBMC。

实施方案57.实施方案36和53至56中任一项的方法，其中在步骤(C)中，第三生物样品包括血浆样品，所述血浆样品是在治疗后或手术后从相同受试者获得的。

实施方案58.实施方案36和53至57中任一项的方法，其中在步骤(C)中包括将含有体细胞肿瘤CNV(sT_CNV)和体细胞PBMC CNV(sP_CNV)的所有基因组区段的目的区域(ROI)分箱(至≥500bp的窗口)；从后续血浆样品中估计每个窗口中的深度覆盖度(读数计数)；并计算每个窗口的中值深度覆盖度。

实施方案59.实施方案36和53至58中任一项的方法，其中所述后续血浆样品是在手术后，治疗期间或随访时获得的。

实施方案60.实施方案36和53至59中任一项的方法，其中归一化步骤包括通过对逐箱GC分数和可映射得分进行两次LOESS回归曲线拟合来归一化深度覆盖度值以校正GC含量和可映射性偏差。

实施方案61.实施方案36和53至60中任一项的方法，其中，所述归一化步骤包括使用稳健zscore归一化的批量效应校正，所述稳健zscore归一化被分别应用于每个样品。

实施方案62.实施方案62所述的方法，其中zscore归一化包括基于每个样品的中性区域来计算中值和中值绝对偏差(MAD)，并且通过减去中值和将差额(differential)除以MAD将所有CNV分箱进行归一化。

实施方案63.实施方案36和53至62中任一项的方法，其中，步骤(E)包括计算第三样品中的与正常小组(PON)健康血浆样品相比的深度覆盖度偏态和/或片段大小质心(COM)偏态。

实施方案64.实施方案36和53至63中任一项的方法，其中步骤(E)包括通过检查后续血浆样品中检测的累积信号与肿瘤样品中检测的累积信号相比之间的线性稀释比来计算肿瘤分数。

实施方案65.实施方案36和53至64中任一项的方法，其中在步骤(F)中，背景噪声计算包括使用患者特异性CNV/SV特征来计算(1)在健康血浆样品队列(正常小组或PON)中的预期噪声分布或(2)其他患者的预期噪声分布(跨患者分析)。

实施方案66.实施方案65的方法，其中，背景噪声模型提供了人工SNV/SV检测率的估计的平均值和标准差(μ，σ)。

实施方案67.实施方案36和53至66中任一项的方法，进一步包括对包括片段大小偏移的第二特征进行正交积分。

实施方案68.实施方案67所述的方法，其中分析CNV区段中的深度覆盖度偏态与片段尺寸偏态之间的相关性，以便例如使用广义线性模型(GLM)来推断肿瘤分数。

为了方便起见，这里收集了说明书、实施例和权利要求书中使用的某些术语。除非另有定义，否则本公开中使用的所有技术和科学术语均具有与本公开所属领域的普通技术人员通常所理解的相同含义。

在整个本公开中，引用了各种专利、专利申请和出版物。这些专利，专利申请、收录的信息(例如，由PUBMED、PUBCHEM、NCBI、UNIPROT或EBI登录号标识的信息)和出版物的全部内容均通过引用并入到本公开中，以便更全面地描述截至本公开日期本领域技术人员已知的技术水平。在所引用的专利、专利申请和出版物与本公开之间存在任何不一致的情况下，以本公开为准。

Claims

1.用于在有需要的受试者中检测残留疾病的方法，其包括：

(A)接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品和正常细胞样品，其中所述第一读数概要各自包含单碱基对长度的读数，并且其中所述基线样品包括肿瘤样品或血浆样品；

(B)从第一读数概要中过滤人工位点，其中所述过滤包括从遗传标记的第一概要中去除在参考健康样品队列上生成的重复位点，和/或鉴定正常细胞样品的外周血单核细胞中的种系突变，并从遗传标记的第一概要中去除所述种系突变；

(C)检测来自受试者的第二生物样品中遗传标记的第二受试者特异性全基因组概要中的读数，以在第二样品中生成遗传标记的肿瘤相关全基因组代表；

(D)使用至少一个错误抑制方案过滤来自第一和第二读数全基因组概要的噪声，以产生第一读数全基因组概要的第一过滤读数集和第二读数全基因组概要的第二过滤读数集，其中至少一个错误抑制方案包括：(a)计算第一和第二概要中任何单核苷酸变异是人工突变的概率，并去除所述突变，其中所述概率是作为从由映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合组成的组中选择的特征的函数来计算的；和/或(b)使用由聚合酶链式反应或测序处理生成的相同DNA片段的独立重复之间的不一致测试，和/或重复一致性来去除人工突变，其中当在给定重复家族的大多数中缺乏一致性时，鉴定并去除人工突变；

(E)通过将背景噪声模型应用于一个或多个整合数学模型中，使用第一和第二过滤读数集来计算第一和第二生物样品的估计肿瘤分数(eTF)；

和

(F)如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

2.用于检测有需要的受试者中残留疾病的方法，其包括：

(A)接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品，其中所述第一读数概要各自包含拷贝数变异(CNV)或结构变异(SV)，并且其中基线样品包括肿瘤样品或血浆样品；

(B)接收与来自受试者的第二生物样品的遗传标记相关的读数的第二受试者特异性全基因组概要，所述第二生物样品包括外周血单核细胞样品(PBMC)，其中所述遗传标记的第二概要各自包括CNV或SV；

(C)从第一和第二读数概要中过滤人工位点，其中所述过滤包括从所述第一和第二读数概要中去除在参考健康样品队列上生成的重复位点；将在所述第一和第二概要之间共享的CNV/SV鉴定为种系突变，并从所述第一和第二读数概要中去除所述突变；

(D)检测来自受试者的第三生物样品中的遗传标记的第三受试者特异性全基因组概要中的读数，以在第三样品中生成遗传标记的肿瘤相关全基因组代表；

(E)将第一，第二和第三读数概要中的每一个归一化，以产生用于第一读数全基因组概要的第一过滤读数集，用于第二读数全基因组概要的第二过滤读数集，以及用于第三读数全基因组概要的第三过滤读数集；

(F)通过将背景噪声模型应用于一个或多个整合数学模型，使用第三过滤读数集来计算所述第三生物样品的估计的肿瘤分数(eTF)，所述一个或多个模型使用所述第一过滤读数集产生第一eTF，和/或所述一个或多个模型使用所述第二过滤读数集产生第二eTF；

和

(G)如果第三生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

3.用于检测在有需要的受试者中的残留疾病的系统，其包括：

分析单元，所述分析单元包括

预过滤器引擎，其被配置和布置为

接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品和正常样品，其中所述第一读数概要各自包含单碱基对长度的读数，并且其中所述基线样品包括肿瘤样品或血浆样品；和

从第一读数概要中过滤人工位点，其中所述过滤包括从所述遗传标记的第一概要中去除在参考健康样品队列上生成的重复位点，和/或鉴定正常细胞样品的外周血单核细胞中的种系突变，并从所述遗传标记的第一概要中去除所述种系突变；

和

校正引擎，其被配置和布置为

接收来自受试者的第二生物样品中的遗传标记的第二受试者特异性全基因组概要中的读数，以生成第二样品中的遗传标记的肿瘤相关全基因组代表；和

使用至少一个错误抑制方案过滤来自第一和第二读数全基因组概要的噪声，以产生用于第一读数全基因组概要的第一过滤读数集和用于第二读数全基因组概要的第二过滤读数集，其中至少一个错误抑制方案包括：(a)计算第一和第二概要中任何单核苷酸变异是人工突变的概率，并去除所述突变，其中所述概率是作为从由映射质量(MQ)，变体碱基质量(MBQ)，读数位置(PIR)，平均读数碱基质量(MRBQ)及其组合组成的组中选择的特征的函数来计算的；和/或(b)使用由聚合酶链式反应或测序处理生成的相同DNA片段的独立重复之间的不一致性测试，和/或重复一致性来去除人工突变，其中当在给定重复家族的大多数中缺乏一致性时，鉴定并去除人工突变；

和

计算单元，其被配置和布置为

通过将背景噪声模型应用于一个或多个整合数学模型中，使用第一和第二过滤读数集来计算第一和第二生物样品的估计肿瘤分数(eTF)；和

如果第二生物样品中的估计肿瘤分数超过经验阈值，则检测受试者中的残留疾病。

4.用于在有需要的受试者中检测残留疾病的系统，其包括：

预过滤器引擎，其被配置和布置为

接受来自受试者的第一生物样品的与遗传标记相关的读数的第一受试者特异性全基因组概要，所述第一生物样品包括基线样品，其中所述第一读数概要各自包含单碱基对长度的读数，并且其中所述基线样品包括肿瘤样品或血浆样品；

接收与来自受试者的第二生物样品的遗传标记相关的读数的第二受试者特异性全基因组概要，所述第二生物样品包括外周血单核细胞样品(PBMC)，其中所述遗传标记的第二概要各自包括拷贝数变异(CNV)；

从所述第一和第二读数概要中过滤人工位点，其中所述过滤包括从所述第一和第二读数概要中去除在参考健康样品队列上生成的重复位点；将在所述第一和第二概要之间共享的CNV鉴定为种系突变，并从所述第一和第二读数概要中去除所述突变；

和

校正引擎，其被配置和布置为

接收来自受试者的第二生物样品中的遗传标记的第三受试者特异性全基因组概要中的读数，以生成第三样品中的遗传标记的肿瘤相关全基因组代表；和

将所述第一，第二和第三读数概要中的每一个归一化，以产生第一读数全基因组概要的第一过滤读数集，第二读数全基因组概要的第二过滤读数集，以及第三读数全基因组概要的第三过滤读数集；

和

计算单元，其被配置和布置为

通过将背景噪声模型应用于一个或多个整合数学模型，使用所述第三过滤读数集来计算所述第三生物样品的估计的肿瘤分数(eTF)，所述一个或多个模型使用所述第一过滤读数集产生第一eTF，和/或所述一个或多个模型使用所述第二过滤读数集产生第二eTF；和

如果所述第三生物样品中的估计肿瘤分数超过经验阈值，则检测所述受试者中的残留疾病。

5.权利要求1所述的方法，其中，所述标记包含单核苷酸变异(SNV)或插入/缺失(indel)；优选SNV。

6.权利要求1所述的方法，其中过滤在参考健康样品队列上生成的重复位点包括生成正常小组(PON)黑名单或掩码。

7.权利要求1所述的方法，其中所述正常样品包含外周血单核细胞(PBMC)，并且在所述人工位点过滤步骤(B)中去除PBMC中的种系突变。

8.权利要求1所述的方法，其中在步骤(A)中，所述第一生物样品包括血浆样品，所述血浆样品是在手术前或治疗前从所述受试者获得的。

9.权利要求1所述的方法，其中在步骤(C)中，所述第二生物样品包括血浆样品，所述血浆样品是在治疗后或手术后从相同受试者获得的。

10.权利要求1所述的方法，其中步骤(D)包括采用机器学习(ML)算法，例如深度卷积神经网络(CNN)，递归神经网络(RNN)，随机森林(RF)，支持向量机(SVM)，判别分析，最近邻分析(KNN)，集成分类器或其组合；优选支持向量机(SVM)，来过滤人工噪声。

11.权利要求1所述的方法，其中在步骤(D)中，所述第二错误抑制步骤包括通过使用相同原始核酸片段的独立重复的比较，校正由PCR或测序生成的人工突变。

12.权利要求11所述的方法，其中在步骤(D)中，所述第二错误抑制步骤包括校正由配对末端150bp测序生成的人工突变，从而导致重叠的配对读数(R1和R2)，并且R1和R2对之间的不一致性被校正回相应的参考基因组。

13.权利要求1所述的方法，其中在步骤(D)中，第二错误抑制步骤包括校正在测序和/或PCR扩增过程中生成的重复家族，其中所述重复家族是通过5'和3'相似性以及比对位置来识别的，并且其中每个重复家族用于检查跨独立重复的特异性突变的一致性，从而校正在大多数重复家族中未显示一致性的人工突变。

14.权利要求1所述的方法，其中在步骤(E)中，数学模型整合覆盖度、突变负荷、检测的突变的数量和肿瘤分数(TF)之间的关系。

15.权利要求1所述的方法，其中在步骤(E)中，背景噪声计算包括使用患者特异性突变特征来计算(1)在健康血浆样品队列(正常小组或PON)中的预期噪声分布或(2)其他患者之间的预期噪声分布(跨患者分析)。

16.权利要求15所述的方法，其中，所述背景噪声模型提供了人工突变检测率的估计的平均值和标准差(μ，σ)。

17.权利要求1至16中任一项所述的方法，进一步包括对包括片段大小偏移的第二特征进行正交积分。

18.权利要求17所述的方法，其中使用统计学方法例如显著性检验或高斯混合模型(GMM)，分析肿瘤特异性标记和随机标记列表中的患者内片段大小偏移。

19.权利要求2所述的方法，其中所述标记包括拷贝数变异(CNV)。

20.权利要求2所述的方法，其中过滤在参考健康样品队列上生成的重复位点包括生成正常小组(PON)黑名单或掩码。

21.权利要求2所述的方法，其中PBMC中的种系事件是在所述人工位点过滤步骤(C)中去除的。

22.权利要求2所述的方法，其中在步骤(A)中，所述第一生物样品包括在手术前或治疗前从受试者获得的血浆样品，和所述第二生物样品包括在手术前或治疗前从相同受试者获得的PBMC。

23.权利要求2所述的方法，其中在步骤(C)中，所述第三生物样品包括血浆样品，所述血浆样品是在治疗后或手术后从相同受试者获得的。

24.权利要求2所述的方法，其中在步骤(C)中包括将含有体细胞肿瘤CNV(sT_CNV)和体细胞PBMC CNV(sP_CNV)的所有基因组区段的目的区域(ROI)分箱(至≥500bp窗口)；估计来自后续血浆样品的每个窗口中的深度覆盖度(读数计数)；并计算每个窗口的中值深度覆盖度。

25.权利要求2所述的方法，其中所述后续血浆样品是在手术后，治疗期间或随访时获得的。

26.权利要求2所述的方法，其中所述归一化步骤包括通过对逐箱GC分数和可映射得分进行两次LOESS回归曲线拟合来归一化深度覆盖度值以校正GC含量和可映射性偏差。

27.权利要求2所述的方法，其中，所述归一化步骤包括使用稳健zscore归一化的批量效应校正，所述稳健zscore归一化被分别应用于每个样品。

28.权利要求27所述的方法，其中所述zscore归一化包括基于每个样品的中性区域来计算中值和中值绝对偏差(MAD)，并且通过减去所述中值和将差额(differential)除以MAD将所有CNV箱进行归一化。

29.权利要求2所述的方法，其中，步骤(E)包括计算所述第三样品中的与正常小组(PON)健康血浆样品相比的深度覆盖度偏态和/或片段大小质心(COM)偏态。

30.权利要求2所述的方法，其中步骤(E)包括通过检查所述后续血浆样品中检测的累积信号与所述肿瘤样品中检测的累积信号相比之间的线性稀释比来计算肿瘤分数。

31.权利要求2所述的方法，其中在步骤(F)中，所述背景噪声模型包括使用患者特异性CNV/SV特征来计算(1)在健康血浆样品队列(正常小组或PON)中的预期噪声分布或(2)其他患者间的预期噪声分布(跨患者分析)。

32.权利要求31所述的方法，其中，所述背景噪声模型提供了人工SNV/SV检测率的估计的平均值和标准差(μ，σ)。

33.权利要求2所述的方法，其进一步包括对包括片段大小偏移的第二特征的正交积分。

34.权利要求33所述的方法，其中分析CNV区段中的深度覆盖度偏态与片段尺寸偏态之间的相关性，以便例如使用广义线性模型(GLM)来推断肿瘤分数。