CN118043909A

CN118043909A - 使用并行处理和整合随时间的未来拦截发病率对多癌症早期检测效果进行微观模拟

Info

Publication number: CN118043909A
Application number: CN202280066814.8A
Authority: CN
Inventors: 张楠; 张婧; E·哈贝尔; J·V·布劳恩; N·R·西蒙
Original assignee: Greer Co ltd
Current assignee: Greer Co ltd
Priority date: 2021-08-06
Filing date: 2022-08-03
Publication date: 2024-05-14
Also published as: WO2023014755A1; EP4352747A1

Abstract

一种模拟系统执行微观模拟，以对多个参与者的一个或多个早期癌症检测筛查的影响进行建模，以模拟随机对照试验(RCT)。在一个实例中，使用并行处理技术来执行微观模拟。微观模拟模拟早期检测筛查对参与者的个体轨迹的影响。特别地，虽然大多数筛查形态是针对单种癌症类型，但本文中的微观模拟使用例如能够检测多种类型的癌症的多癌症早期检测(MCED)筛查来模拟检测模型对患有多种类型的癌症的参与者群体的个体轨迹的影响。

Description

使用并行处理和整合随时间的未来拦截发病率对多癌症早期检测效果进行微观模拟

相关申请的交叉引用

本申请要求于2021年8月6日提交的美国临时专利申请号62/230464的权益，其全部内容在此通过引用并入。

背景技术

当治疗仍然是一项可行选项并且更为高效时，癌症筛查旨在通过早期检测癌性病变来预防癌症死亡。然而，除了一些例外，许多癌症缺乏可用的筛查形态。通常，通过临床症状的表现对这些癌症进行的诊断一般发生在晚期，此时癌症已经扩散到身体其他部位并且生存的机会要低得多。多癌症早期检测(MCED)测试可以被训练为生成多种癌症类型跨越阶段的检测估计。如果MCED测试可以在较早阶段检测到癌症，则它可以引发癌症何时可以被治疗的范式转变。MCED测试的临床实用性将在大规模随机对照试验(RCT)中进行试点，其目的是评估阶段转变和评价死亡率降低。

发明内容

描述了一种用于模拟患有多种类型的癌症的多个参与者的早期癌症检测的方法。可以使用模拟模型来模拟多个参与者中的每个参与者的癌症进展。参与者的第一子集可以被指派为控制组，而参与者的第二子集可以被指派为干预组。对于多个参与者中的每个被模拟的参与者，可以对参与者的癌症类型和癌症诊断阶段进行采样。在相对于登记时间参与者的诊断时间段已经过去之后，可以预期参与者在诊断阶段被临床诊断为该癌症类型。可以生成参与者的癌症轨迹，该癌症轨迹指示参与者的一个或多个癌症阶段的进展，并且可以基于参与者的癌症类型和诊断阶段来确定生存时间。可以确定第一检测时间，该第一检测时间指示参与者的癌症在等于或早于诊断阶段的第一检测阶段被正确检测到的时间。例如，在一个实施例中，对于被指派为控制组的参与者，可以确定第一检测时间，该第一检测时间指示参与者的癌症在等于诊断阶段的第一检测阶段被正确检测到的时间。

对于干预组的参与者的第二子集中的每个被模拟的参与者，可以模拟通过一个或多个机器学习癌症检测模型在至少一个筛查时间内进行的早期癌症检测筛查。具体地，可以生成用于参与者的指示，该指示指示机器学习癌症检测模型是否预测参与者患有癌症。如果癌症检测模型的指示预测参与者患有癌症并且参与者在至少一个筛查时间具有比第一检测阶段较早的癌症阶段，则可以生成第二检测阶段作为较早阶段，并且基于第二检测阶段来更新生存时间。对于参与者的第一子集和参与者的第二子集中的每个，可以评价与癌症进展有关的一个或多个度量。可以评价参与者的第一子集的一个或多个度量与参与者的第二子集的一个或多个度量之间的差，以确定早期癌症检测筛查效果。

附图说明

图1A是根据一个实施例的描述了对无细胞(cf)DNA片段进行测序以获得甲基化状态载体的过程的流程图。

图1B是根据一个实施例的对无细胞(cf)DNA片段进行测序以获得甲基化状态载体的图1A的过程的图示。

图2A和图2B图示了根据一个实施例的描述了确定来自样品的经异常甲基化的片段的过程的流程图。

图3A是根据一个实施例的描述了癌症分类器的训练过程的流程图。

图3B图示了根据一个实施例的用于训练癌症分类器的特征向量的示例生成。

图4A图示了根据一个实施例的用于对核酸样品进行测序的设备的流程图。

图4B是根据一个实施例的分析系统的框图。

图5图示了根据一个示例实现方式的示出了多类别癌症分类器针对各种癌症类型的癌症预测准确性的许多曲线图。

图6图示了根据一个示例实现方式的示出了多类别癌症分类器在首次使用二进制癌症分类器之后针对各种癌症类型的癌症预测准确性的许多曲线图。

图7图示了根据一个示例实现方式的演示了经训练的癌症分类器的性能的混淆矩阵。

图8图示了特异性高于95％的非癌症样品的癌症类型似然性的曲线图。

图9A和图9B图示了根据甲基化测序数据分离的血液学亚型的曲线图。

图10A图示了根据一个或多个实施例的描述了确定二进制癌症分类的二进制阈值截止值的过程的流程图。

图10B图示了根据一个或多个实施例的描述了对TOO标记进行阈值化以确定二进制癌症分类的二进制阈值截止值的过程的流程图。

图11图示了演示了具有附加血液学癌症亚型的经训练的癌症起源组织分类器的性能的混淆矩阵。

图12A和图12B图示了示出了在各个癌症阶段调整和不调整许多癌症类型的阈值截止值的癌症分类器的癌症预测准确性的曲线图。

图13A图示了根据一个或多个实施例的用于将血液学信号分层为两个层的过程。

图13B图示了根据一个或多个实施例的用于将血液学信号分层为三个层的过程。

图13C图示了根据一个或多个实施例的用于首先对血液学信号进行分层并且随后对结肠直肠信号进行分层的过程。

图14图示了根据一个或多个实施例的确定TOO分层的二进制阈值截止值的过程。

图15图示了根据一个或多个实施例的描述了使用由TOO分层确定的二进制阈值截止值来预测测试样品的癌症存在或癌症不存在的过程的流程图。

图16A图示了示出了分类器在跨越血液学亚型的99.5％特异性水平下的灵敏度的曲线图。

图16B图示了示出了分类器在跨越霍奇金氏淋巴瘤和非霍奇金氏淋巴瘤的各个阶段的95％特异性下的灵敏度的曲线图。

图17图示了第一示例实现方式中的示出了血液学特异性癌症分类器的癌症预测准确性的混淆矩阵。

图18图示了第一示例实现方式中的绘制了癌症分数相对于在用于血液学特异性癌症分类的UMAP嵌入中与质心相距的距离的一系列曲线图。

图19图示了第二示例实现方式中的绘制了用于血液学特异性癌症分类的多个训练样品的异常分数的曲线图。

图20图示了第二示例实现方式中的示出了血液学特异性癌症分类器在99.5％特异性下的灵敏度的曲线图。

图21图示了第二示例实现方式中的示出了血液学特异性癌症分类器的癌症预测准确性的混淆矩阵。

图22图示了根据一个实施例的在不同研究长度下的模拟RCT结构和后果测量。

图23图示了根据一个实施例的来自控制组或干预组的参与者的癌症轨迹的模拟。

图24图示了根据一个实施例的来自具有MCED筛查的干预组的参与者的癌症轨迹的模拟。

图25A是图示了示例RCT模拟的真阳性预测值、假阳性预测值和阳性预测值(PPV)的实验结果。图25B是图示了基于CCGA3临床研究的模拟示例MCED筛查的阴性预测值(NPV)、灵敏度、特异性、癌症检测率(CDR)、CSO准确性和癌症发病率比率的实验结果。

图26是图示了三轮MCED筛查后与控制组相比较在干预组中检测到的癌症比例的实验结果。

图27是图示了三轮MCED筛查后I阶段癌症和II阶段癌症比例的实验结果。

图28是图示了三轮MCED筛查后III阶段癌症和IV阶段癌症的绝对减少和相对减少的实验结果。

图29是图示了在不同类型的肿瘤生长速率下死亡率降低的实验结果。

图30A和图30B图示了根据一个实施例的描述了计算机模拟RCT以确定MCED筛查的影响的过程的流程图。

图31图示了根据一个实施例的标识可检测性的不同亚群的拦截模型途径。

图32A至图32C图示了根据一个实施例的如从SEER数据获得的作为年龄的函数的癌症发病率。

图33图示了根据一个实施例的作为从筛查可能会在阶段IV被临床诊断但首次在肺癌的阶段I可检测到的亚群开始的时间的函数的MCED筛查的权重矩阵。

图34图示了根据一个实施例的作为从筛查一个或多个亚群开始的时间的函数的MCED筛查的权重矩阵。

图35图示了根据一个实施例的作为特定癌症类型的后筛查年龄和起始年龄的函数的肺癌的拦截发病率。

图36图示了根据一个实施例的按临床诊断阶段的肺癌的拦截发病率。

图37图示了根据一个实施例的在所有临床诊断阶段中肺癌的拦截发病率。

图38图示了根据一个实施例的每个起始年龄的拦截发病率。

图39图示了根据一个实施例的由整合系统建模的拦截发病率与由拦截模型建模的拦截发病率的比较。

图40图示了根据一个实施例的描述了用于确定MCED筛查的拦截发病率的整合方法的过程的流程图。

附图仅出于说明的目的描绘了各种实施例。本领域技术人员将根据以下讨论应当容易地认识到，在没有背离本文中所描述的原理的情况下，可以采用本文中所图示的结构和方法的备选实施例。

具体实施方式

I.概述

I.A.甲基化概述

根据本说明书，例如，通过将未经甲基化的胞嘧啶转换为尿嘧啶，对来自个体的cfDNA片段进行处理，对其进行测序，并且将序列读段与参考基因组比较以标识DNA片段内特异性CpG位点处的甲基化状态。每个CpG位点可以是经甲基化的或未经甲基化的。与健康个体相比较，对经异常甲基化的片段的标识可以深入了解受试者的癌症状态。DNA甲基化异常(与健康对照相比较)可能会引起不同的影响，这可能会导致癌症。标识经异常甲基化的cfDNA片段时出现了各种挑战。首先，确定要经异常甲基化的DNA片段只有在与对照个体组相比较时才有分量，使得如果控制组的数目较少，则由于较小尺寸的控制组内的统计变异性，所以该确定失去置信度。附加地，在对照个体组中，甲基化状态可能发生变化，这在确定受试者的DNA片段要异常甲基化时可能难以解释。另一方面，CpG位点处胞嘧啶的甲基化因果地影响后续CpG位点处的甲基化。简要描述这种依赖性本身是另一挑战。

当胞嘧啶碱基的嘧啶环上的氢原子被转换为甲基基团，从而形成5-甲基胞嘧啶时，甲基化通常出现在脱氧核糖核酸(DNA)中。具体地，甲基化倾向于在胞嘧啶和鸟嘌呤的二核苷酸处发生，该二核苷酸在本文中被称为“CpG位点”。在其他实例中，甲基化可以出现在不是CpG位点的一部分的胞嘧啶处或在不是胞嘧啶的另一核苷酸处；然而，这些事件很少发生。在本公开中，为了清楚起见，参考CpG位点对甲基化进行讨论。异常DNA甲基化可以被标识为高甲基化或低甲基化，两者均可能指示癌症状态。在整个公开中，如果DNA片段包括超过阈值数目的CpG位点，其中超过阈值百分比的那些CpG位点是经甲基化的或未经甲基化的，则针对DNA片段表征高甲基化和低甲基化。

本文中所描述的原理同样适用于检测非CpG环境中的甲基化，包括非胞嘧啶甲基化。在这样的实施例中，用于检测甲基化的湿实验室测定可能与本文中所描述的湿实验室测定不同。此外，本文中所讨论的甲基化状态向量可以含有通常是甲基化已经在其中发生或尚未出现的位点的元素(即使那些位点确切地说并非是CpG位点)。通过该替换，本文中所描述的过程的其余部分均相同，因此本文中所描述的发明概念适用于那些其他形式的甲基化。

I.B.定义

术语“个体”是指人类个体。术语“健康个体”是指假定没有患有癌症或疾病的个体。术语“受试者”是指已知患有或可能患有癌症或疾病的个体。同样，术语“受试者”还可以涵盖非人类动物或任何其他生物。

术语“无细胞核酸”或“cfNA”是指在个体的身体(例如，血液)中循环并且源自一种或多种健康细胞和/或源自一种或多种癌细胞的核酸片段。术语“无细胞DNA”或“cfDNA”是指在个体身体(例如，血液)中循环的脱氧核糖核酸片段。附加地，个体的身体中的cfNA或cfDNA可能来自其他非人类来源。

术语“基因组核酸”、“基因组DNA”或“gDNA”是指从一个或多个细胞获得的核酸分子或脱氧核糖核酸分子。在各种实施例中，可以从健康细胞(例如，非肿瘤细胞)中或从肿瘤细胞(例如，活检样品)中提取gDNA。在一些实施例中，可以从来源于血细胞谱系的细胞(诸如白细胞)中提取gDNA。

术语“循环肿瘤DNA”或“ctDNA”是指核酸片段，其源自肿瘤细胞或其他类型的癌症细胞并且可能由于生物过程(诸如死亡细胞的凋亡或坏死)而被释放到个体的体液(例如，血液、汗液、尿液或唾液)中或由活肿瘤细胞主动释放。

术语“DNA片段”、“片段”或“DNA分子”通常是指任何脱氧核糖核酸片段，即，cfDNA、gDNA、ctDNA等。

术语“序列读段”是指从来自个体的测试样品的核酸分子获得的核苷酸序列。可以通过本领域已知的各种方法获得序列读段。

术语“测序深度”或“深度”是指来自个体的测试样品的给定基因组位置或基因座处的序列读段或读取区段的总数。

术语“异常片段”、“经异常甲基化的片段”或“具有异常甲基化模式的片段”是指具有CpG位点的异常甲基化的片段。可以使用概率模型来确定片段的异常甲基化，以标识在控制组中观察到片段的甲基化模式的意外性。

术语“具有极端甲基化的不寻常片段”或“UFXM”是指低甲基化片段或高甲基化片段。低甲基化片段和高甲基化片段是指具有至少一定数目的CpG位点(例如，5个)的片段，这些CpG位点分别具有超过一定阈值百分比(例如，90％)的甲基化或未甲基化。

术语“异常分数”是指CpG位点的分数，该分数基于来自与CpG位点重叠的样品的异常片段(或在一些实施例中，UFXM)的数目。异常分数用在用于分类的样品的特征化的环境中。

II.样品处理

II.A.生成针对DNA片段的甲基化状态向量

图1A是根据一个实施例的描述对无细胞(cf)DNA片段进行测序以获得甲基化状态向量的过程100的流程图。为了分析DNA甲基化，分析系统首先从个体获得110测试样品，该个体包括多个cfDNA分子。通常，样品可以来自健康个体、已知患有或怀疑患有癌症的受试者、或没有先验信息是已知的受试者。测试样品可以是选自由以下各项组成的组的样品：血液、血浆、血清、尿液、粪便和唾液样品。替代地，测试样品可以包括选自由以下各项组成的组的样品：全血、血液组分(例如，白细胞(WBC))、组织活检、胸膜液、心包液、脑脊髓液和腹膜液。在附加实施例中，过程100可以用于对其他类型的DNA分子进行测序。

分析系统从样品中分离出每个cfDNA分子。对cfDNA分子进行处理以将非经甲基化的胞嘧啶转换为尿嘧啶。在一个实施例中，该方法使用DNA的重亚硫酸氢盐处理，该重亚硫酸氢盐处理将未经甲基化的胞嘧啶转换为尿嘧啶而不转换经甲基化的胞嘧啶。例如，商业试剂盒(诸如EZ DNAMethylation^TM–Gold,EZ DNA Methylation^TM–Direct或EZ DNAMethylation^TM–Lightning试剂盒)(可从Zymo Research Corp(Irvine，CA)获得)用于重亚硫酸氢盐转换。在另一实施例中，使用酶促反应完成非经甲基化的胞嘧啶向尿嘧啶的转换。例如，转换可以使用市售试剂盒将非经甲基化的胞嘧啶转换为尿嘧啶，诸如APOBEC-Seq(NEBiolabs，Ipswich，MA)。

从经转换的cfDNA分子制备130测序文库。可选地，针对cfDNA分子或基因组区域，可以富集135测序文库，这些cfDNA分子或基因组区域使用多个杂交探针来提供癌症状态的信息。杂交探针是短寡核苷酸，其能够与特定指定的cfDNA分子或靶向区域杂交并且富集那些片段或区域以用于进行后续测序和分析。杂交探针可以用于对研究人员感兴趣的所指定的CpG位点集合执行靶向的深度分析。在一个实施例中，设计杂交探针以富集已经(例如，使用重亚硫酸氢盐)被处理用于将非经甲基化的胞嘧啶转换为尿嘧啶的DNA分子。一旦制备，可以对测序文库或其部分进行测序以获得多个序列读段。序列读段可以采用计算机可读数字格式，以用于由计算机软件进行处理和解释。序列读段的数目可以是至少1个、10个、1000个、5000个、10000个、20000个、50000个或更多个。在一些实施例中，序列读段的数目可以是最多100000个、50000个、20000个、10000个、5000个、1000个、20个或更少个。

根据序列读段，分析系统基于与参考基因组的比对来确定150每个CpG位点的位置和甲基化状态。分析系统生成160每个片段的甲基化状态向量，该甲基化状态向量指定片段在参考基因组中的位置(例如，如由每个片段中的第一CpG位点的位置所指定的、或另一类似度量)、片段中的CpG位点的数目、以及片段中的每个CpG位点的甲基化状态，无论是经甲基化的(例如，被表示为M)、未经甲基化的(例如，被表示为U)还是不确定的(例如，被表示为I))。所观察到的状态是经甲基化的状态和未经甲基化的状态；然而，未被观察到的状态是不确定的状态。不确定的甲基化状态可能源自DNA片段的互补链的甲基化状态之间的测序误差和/或不一致。甲基化状态向量可以被存储在暂态或永久计算机存储器中以供以后使用和处理。此外，分析系统可以从单个样品中去除重复的读段或重复的甲基化状态向量。分析系统可以确定具有一个或多个CpG位点的特定片段具有超过阈值数目或百分比的不确定甲基化状态，并且可以排除这样的片段或选择性地包括这样的片段但构建考虑这样的不确定甲基化状态的模型；下文结合图4对一个这样的模型进行描述。

图1B是根据一个实施例的对cfDNA分子进行测序以获得甲基化状态向量的图1A的过程100的图示。作为一个示例，分析系统接收cfDNA分子112，在该示例中包含三个CpG位点。如所示出的，对cfDNA分子112的第一CpG位点和第三CpG位点进行甲基化114。在处理步骤120期间，对cfDNA分子112进行转换以生成经转换的cfDNA分子122。在处理120期间，未经甲基化的第二CpG位点的胞嘧啶被转换为尿嘧啶。然而，第一CpG位点和第三CpG位点没有被转换。

在转换之后，制备测序文库130并且对其进行测序140，从而生成序列读段142。分析系统比对150序列读段142与参考基因组144。参考基因组144提供了关于cfDNA片段在人类基因组中起源的位置的环境。在该简化示例中，分析系统比对150序列读段142，使得三个CpG位点与CpG位点23、24和25相关(为了便于描述而使用任意参考标识符)。因此，分析系统生成关于cfDNA分子112上的所有CpG位点的甲基化状态和CpG位点所映射到的人类基因组中的位置的信息。如所示出的，序列读段142上经甲基化的CpG位点被读作胞嘧啶。在该示例中，胞嘧啶在序列读段142中仅出现在第一CpG位点和第三CpG位点中，这允许人们能够推断原始cfDNA分子中的第一CpG位点和第三CpG位点被甲基化。然而，第二CpG位点被读作胸腺嘧啶(在测序过程期间，U被转换为T)，并且因此可以推断第二CpG位点在原始cfDNA分子中未被甲基化。通过这两条信息，甲基化状态和位置，分析系统生成160针对片段cfDNA 112的甲基化状态向量152。在该示例中，所得到的甲基化状态向量152为<M₂₃、U₂₄、M₂₅>，其中M与经甲基化的CpG位点相对应，U与未经甲基化的CpG位点相对应，并且下标数字与参考基因组中每个CpG位点的位置相对应。

II.B.标识异常片段

分析系统使用样品的甲基化状态向量确定样品的异常片段。对于样品中的每个片段，分析系统使用与该片段相对应的甲基化状态向量确定该片段是否是异常片段。在一个实施例中，分析系统计算每个甲基化状态向量的p值分数，该p值分数描述在健康控制组中观察到该甲基化状态向量或其他甲基化状态向量的可能性甚至更小的概率。下文将在第II.B.i章节的P值过滤中对计算p值分数的过程进行进一步讨论。分析系统可以将具有低于阈值p值分数的甲基化状态向量的片段确定为异常片段。在另一实施例中，分析系统还将具有至少一定数目的CpG位点的片段分别标记为高甲基化片段和低甲基化片段，这些CpG位点具有超过一定阈值百分比的甲基化或未甲基化。高甲基化片段或低甲基化片段还可以被称为具有极端甲基化的不寻常片段(UFXM)。在其他实施例中，分析系统可以实现用于确定异常片段的各种其他概率模型。其他概率模型的示例包括混合模型、深度概率模型等。在一些实施例中，分析系统可以使用下文所描述的过程的任何组合来标识异常片段。通过所标识的异常片段，分析系统可以对样品的甲基化状态向量集合进行过滤以用于其他过程，例如，用于训练并部署癌症分类器。

II.B.I.p值过滤

在一个实施例中，与来自健康控制组中的片段的甲基化状态向量相比较，分析系统计算每个甲基化状态向量的p值分数。p值分数描述了在健康控制组中观察到甲基化状态与该甲基化状态向量或其他甲基化状态向量匹配的可能性甚至更小的概率。为了确定DNA片段被异常甲基化，分析系统使用具有被正常甲基化的大多数片段的健康控制组。当进行这种用于确定异常片段的概率分析时，与组成健康控制组的对照受试者组相比较，该确定具有分量。为了确保健康控制组的稳健性，分析系统可以选择一些阈值数目的健康个体来找出包括DNA片段的样品的来源。下文的图2A描述了生成健康控制组的数据结构的方法，分析系统可以使用该数据结构计算p值分数。图2B描述了使用所生成的数据结构计算p值分数的方法。

图2A是根据一个实施例的描述了生成健康控制组的数据结构的过程200的流程图。为了创建健康控制组的数据结构，分析系统接收来自多个健康个体的多个DNA片段(例如，cfDNA)。对于每个片段，例如，经由过程100标识甲基化状态向量。

对于每个片段的甲基化状态向量，分析系统将甲基化状态向量细分205为CpG位点字符串。在一个实施例中，分析系统对甲基化状态向量进行细分205，使得所得字符串全部小于给定长度。例如，长度为11的甲基化状态向量可以被细分为长度小于或等于3的字符串可能会产生9个长度为3的字符串、10个长度为2的字符串和11个长度为1的字符串。在另一示例中，长度为7的甲基化状态向量被细分为长度小于或等于4的字符串可能会产生4个长度为4的字符串、5个长度为3的字符串、6个长度为2的字符串和7个长度为1的字符串。如果甲基化状态向量比指定字符串长度短或与指定字符串长度相同，则甲基化状态向量可以被转换为包含向量的所有CpG位点的单个字符串。

针对向量中每个可能CpG位点和甲基化状态的可能性，分析系统通过对控制组中存在的字符串的数目进行计数来对这些字符串进行合计210，这些字符串具有作为该字符串中第一CpG位点的指定CpG位点字符串并且具有甲基化状态的这种可能性。例如，在给定CpG位点处并且考虑字符串长度为3，存在2^3或8个可能的字符串配置。在该给定CpG位点处，对于8个可能的字符串配置中的每个可能的字符串配置，分析系统对控制组中出现的每种甲基化状态向量可能性的次数进行合计210。继续该示例，对于参考基因组中的每个起始CpG位点x，这可能包括对以下量进行合计：<M_x、M_x+1、M_x+2>、<M_x、M_x+1、U_x+2>、……、<U_x、U_x+1、U_x+2>。分析系统创建215数据结构，该数据结构存储每个起始CpG位点的所合计的计数和字符串可能性。

设置字符串长度的上限存在几个益处。首先，依据字符串的最大长度，由分析系统创建的数据结构的大小可以显着增加。例如，最大字符串长度为4意味着每个CpG位点至少有2^4个数字来对长度为4的字符串进行合计。将最大字符串长度增加到5意味着每个CpG位点至少还有2^4或16个数字来合计，从而与先前字符串长度相比较，使数字加倍来进行合计(以及使所用的计算机存储器加倍)。减小字符串大小可以有助于在计算和存储方面保持数据结构的创建和执行(例如，如下文所描述的，用于稍后参考)合理。其次，限制最大字符串长度的统计考虑是避免过拟合使用字符串计数的下游模型。如果长字符串的CpG位点在生物学上对结果没有强烈影响(例如，预测癌症存在的异常预测)，则基于大CpG位点字符串来计算概率可能是有问题的，因为其需要大量的可能不可用的数据，并且因此对于模型而言可能太过稀疏，而无法适当地执行。例如，计算以先前100个CpG位点为条件的异常/癌症的概率可能会需要对长度为100的数据结构中的字符串进行计数，理想情况下，一些字符串与先前100个甲基化状态精确匹配。如果只有长度为100的字符串的稀疏计数可用，则将没有足够的数据来确定测试样品中长度为100的给定字符串是否异常。

图2B是根据一个实施例的描述了用于标识来自个体的经异常甲基化的片段的过程220的流程图。在过程220中，分析系统根据受试者的cfDNA片段生成100个甲基化状态向量。分析系统如下处置每个甲基化状态向量。

对于给定甲基化状态向量，分析系统枚举230在甲基化状态向量中具有相同起始CpG位点和相同长度(即，CpG位点集合)的甲基化状态向量的所有可能性。由于每个甲基化状态通常是经甲基化的或未经甲基化的，所以每个CpG位点处有效地存在两种可能的状态，并且因此对甲基化状态向量的不同可能性的计数取决于2的幂，使得长度为n的甲基化状态向量可能与甲基化状态向量的2ⁿ种可能性相关联。对于包括一个或多个CpG位点的不确定状态的甲基化状态向量，分析系统可以枚举230仅考虑具有已经观察到状态的CpG位点的甲基化状态向量的可能性。

分析系统通过访问健康控制组的数据结构来计算240观察到针所标识的起始CpG位点的甲基化状态向量和甲基化状态向量长度的每种可能性的概率。在一个实施例中，计算观察到给定可能性的概率使用马尔可夫链概率来对联合概率计算进行建模。在其他实施例中，使用马尔可夫链概率以外的计算方法来确定观察到甲基化状态向量的每种可能性的概率。

分析系统使用针对每种可能性计算的概率计算250甲基化状态向量的p值分数。在一个实施例中，这包括：标识与匹配所讨论的甲基化状态向量的可能性相对应的所计算的概率。具体地，这是具有与甲基化状态向量相同的CpG位点集合或类似地具有与甲基化状态向量相同的起始CpG位点和长度的可能性。分析系统对概率小于或等于所标识的概率的任何可能性的所计算的概率进行求和，以生成p值分数。

该p值可以表示控制组观察到片段的甲基化状态向量或在健康控制组中甚至更不可能观察到的其他甲基化状态向量的概率。因此，相对于健康控制组，低p值分数通常与健康个体中稀有的并且导致片段被标记为异常甲基化的甲基化状态向量相对应。高p值分数一般涉及预期甲基化状态向量在相对意义上存在于健康个体中。如果健康控制组是非癌症组，例如，低p值指示片段相对于非癌症组是经异常甲基化的，因此可能指示测试受试者体内存在癌症。

如上所述，分析系统计算多个甲基化状态向量中的每个甲基化状态向量的p值分数，每个甲基化状态向量表示测试样品中的cfDNA片段。为了标识哪些片段被异常甲基化，分析系统可以基于它们的p值分数对甲基化状态向量集合进行过滤260。在一个实施例中，通过比较p值分数与阈值并且保持那些片段低于阈值来执行过滤。该阈值p值分数可以是0.1、0.01、0.001、0.0001等的量级。

根据来自过程400的示例因此，分析系统在训练时为没有患有癌症的参与者产生具有异常甲基化模式的2800(1500至12000)个片段的中值(范围)，并且在训练时为患有癌症的参与者产生具有异常甲基化模式的3000(1200至220000)个片段的中值(范围)。如下文在第III章节中所描述的，这些经过滤的具有异常甲基化模式的片段集合可以用于下游分析。

在一个实施例中，分析系统使用255滑动窗口来确定甲基化状态向量的可能性，并且计算p值。分析系统仅对连续CpG位点的窗口枚举可能性并且计算p值，而非对整个甲基化状态向量枚举可能性并且计算p值，其中窗口的(CpG位点的)长度比至少一些片段短(否则，窗口可能不会用于任何目的)。窗口长度可以是静态的、由用户确定的、动态的或以其他方式选择的。

在计算大于窗口的甲基化状态向量的p值时，该窗口从向量中的第一CpG位点开始从窗口内的向量中标识CpG位点的连续组。分析系统可以计算包括第一CpG位点的窗口的p值分数。然后，分析系统将窗口“滑动”到向量中的第二CpG位点，并且计算第二窗口的另一p值分数。因此，对于窗口大小l和甲基化向量长度m，每个甲基化状态向量可以生成m-l+1个p值分数。在完成对向量的每个部分的p值计算之后，来自所有滑动窗口的最低p值分数被视为甲基化状态向量的总p值分数。在另一实施例中，分析系统汇总甲基化状态向量的p值分数以生成总p值分数。

使用滑动窗口可以有助于减少甲基化状态向量的所枚举的可能性的数目和它们的对应概率计算，否则需要执行这些计算。为了给出现实示例，片段可能具有多于54个CpG位点。代替计算2^54(大约1.8×10^16)种可能性的概率以生成单个p分数，分析系统反而可以使用大小(例如)为5的窗口，这会产生该片段的甲基化状态向量的50个窗口中的每个窗口的50个p值计算。50个计算中的每个计算都可以枚举了甲基化状态向量的2^5(32)种可能性，这总共产生50×2^5(1.6×10^3)次概率计算。这会大量减少要执行的计算，但对准确标识异常片段没有任何意义。

在具有不确定状态的实施例中，分析系统可以计算p值分数，该p值分数将片段的甲基化状态向量中具有不确定状态的CpG位点相加。分析系统可以标识与不包括不确定状态的甲基化状态向量的所有甲基化状态一致的所有可能性。分析系统可以向甲基化状态向量分配概率作为所标识的可能性的概率的总和。作为一个示例，由于观察到CpG位点1和3的甲基化状态并且这些甲基化状态与CpG位点1和3处的片段的甲基化状态一致，所以分析系统计算甲基化状态向量<M₁、I₂、U₃>的概率作为甲基化状态向量<M₁、M₂、U₃>和<M₁、U₂、U₃>的可能性的概率之和。这种将具有不确定状态的CpG位点相加的方法使用高达2^i种可能性的概率的计算，其中i表示甲基化状态向量中不确定状态的数目。在附加实施例中，可以实施动态编程算法以计算具有一个或多个不确定状态的甲基化状态向量的概率。有利地，动态编程算法可以在线性计算时间内操作。

在一个实施例中，可以通过高速缓存至少一些计算来进一步减少计算概率和/或p值分数的计算负担。例如，分析系统可以在暂态或永久存储器中高速缓存甲基化状态向量(或其窗口)的可能性的概率的计算。如果其他片段具有相同的CpG位点，则高速缓存可能性概率实现了对p分数值的高效计算，而无需重新计算基础概率。同样地，分析系统可以计算与来自向量(或其窗口)的一组CpG位点相关联的甲基化状态向量的可能性中的每个可能性的p值分数。分析系统可以高速缓存p值分数以用于确定包括相同的CpG位点的其他片段的p值分数。通常，具有相同的CpG位点的甲基化状态向量的可能性的p值分数可以用于确定来自同一组CpG位点的可能性中的不同可能性的p值分数。

II.B.II.高甲基化片段和低甲基化片段

在另一实施例中，分析系统将异常片段确定为如下片段，该片段具有超过阈值数目的CpG位点并且要么具有超过阈值百分比的经甲基化的CpG位点要么具有超过阈值百分比的未经甲基化的CpG位点；分析系统将这样的片段标识为高甲基化片段或低甲基化片段。片段(或CpG位点)长度的示例阈值包括大于3、4、5、6、7、8、9、10等。甲基化或非甲基化的示例百分比阈值包括大于80％、85％、90％、或95％、或50％至100％范围内的任何其他百分比。

II.C.示例分析系统

图4A是根据一个实施例的用于对核酸样品进行测序的设备的流程图。该说明性流程图包括诸如测序仪420和分析系统400之类的设备。测序仪420和分析系统400可以协同地工作以执行图1A的过程100、图2A的过程200、图2B的过程220以及本文中所描述的其他过程中的一个或多个步骤。

在各种实施例中，测序仪420接收经富集的核酸样品410。如图4A所示，测序仪420可以包括图形用户接口425，该图形用户接口425使得用户能够与特定任务(例如，启动测序或终止测序)以及一个或多个装载站430进行交互，该装载站用于装载包括经富集的片段样品的测序盒和/或用于装载用于执行测序测定的必需的缓冲液。因此，一旦测序仪420的用户向测序仪420的装载站430提供了必要的试剂和测序盒，用户就可以通过与测序仪420的图形用户接口425交互来启动测序。一旦启动，测序仪420就执行测序并且输出来自核酸样品410的经富集的片段的序列读段。

在一些实施例中，测序仪420与分析系统400通信耦合。分析系统400包括一定数目的计算设备，以用于处理各种应用的序列读段，诸如评估一个或多个CpG位点处的甲基化状态、变体调用或质量控制。测序仪420可以向分析系统400提供BAM文件格式的序列读段。分析系统400可以通过无线、有线或无线和有线通信技术的组合通信耦合到测序仪420。通常，分析系统400配置有处理器和非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令在由处理器实行时使得处理器处理序列读段或执行本文中所公开的方法或过程中的任一方法或过程的一个或多个步骤。

在一些实施例中，可以使用本领域已知的方法比对序列读段与参考基因组以确定比对位置信息，例如，经由图1A中的方法100的步骤140。比对位置通常可以描述参考基因组中与给定序列读段的起始核苷酸碱基和末端核苷酸碱基相对应的区域的起始位置和末端位置。与甲基化测序相对应，可以根据与参考基因组的比对来概括比对位置信息以指示序列读段中包括的第一CpG位点和最后一个CpG位点。比对位置信息还可以指示给定序列读段中所有CpG位点的甲基化状态和位置。参考基因组中的区域可以与基因或基因区段相关联；如此，分析系统400可以使用与序列读段比对的一个或多个基因来标记序列读段。在一个实施例中，从起始位置和末端位置确定片段长度(或大小)。

在各种实施例中，例如，当使用配对末端测序过程时，序列读段由被表示为R_1和R_2的读段对组成。例如，可以从双链DNA(dsDNA)分子的第一末端对第一读段R_1进行测序，并且可以从双链DNA(dsDNA)的第二末端对第二读段R_2进行测序。因此，第一读段R_1和第二读段R_2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如，以相反方向)比对。从读段对R_1和R_2导出的比对位置信息可以包括参考基因组中与第一读段(例如，R_1)的末端相对应的起始位置和参考基因组中与第二读段(例如，R_2)的末端相对应的末端位置。换句话说，参考基因组中的起始位置和末端位置表示参考基因组内核酸片段所对应的可能位置。可以生成具有SAM(序列比对图)格式或BAM(二进制)格式的输出文件，并且输出它们以用于进一步分析。

现在，参考图4B，图4B是根据一个实施例的用于处理DNA样品的分析系统400的框图。分析系统实现用于分析DNA样品的一个或多个计算设备。分析系统400包括序列处理器440、序列数据库445、模型数据库455、模型450、参数数据库465和评分引擎460。在一些实施例中，分析系统400执行图1A的过程100和图2的过程200中的一些或全部过程。

序列处理器440生成来自样品的片段的甲基化状态向量。在片段上的每个CpG位点处，序列处理器440生成每个片段的甲基化状态向量，该甲基化状态向量经由图1A的过程100指定片段在参考基因组中的位置、片段中的CpG位点的数目和片段中的每个CpG位点的甲基化状态是甲基化的、未经甲基化的还是不确定的。序列处理器440可以在序列数据库445中存储片段的甲基化状态向量。序列数据库445中的数据可以被组织为使得来自样品的甲基化状态向量彼此相关联。

进一步地，多个不同模型450可以被存储在模型数据库455中或被检索以与测试样品一起使用。在一个示例中，模型是经训练的癌症分类器，用于使用从异常片段导出的特征向量来确定针对测试样品的癌症预测。将结合第III章节的用于确定癌症的癌症分类器对癌症分类器的训练和使用进行进一步讨论。分析系统400可以对一个或多个模型450进行训练，并且将各种经训练的参数存储在参数数据库465中。分析系统400将模型450以及函数一起存储在模型数据库455中。

在推断期间，评分引擎460使用一个或多个模型450来返回输出。评分引擎460访问模型数据库455中的模型450以及来自参数数据库465的经训练的参数。根据每个模型，评分引擎接收用于模型的适当输入，并且基于所接收的输入、参数以及将输入和输出相关的每个模型的函数来计算输出。在一些使用情况下，评分引擎460还计算与根据模型所计算的输出的置信度相关的度量。在其他使用情况下，评分引擎460计算用于模型的其他中间值。

III.用于确定癌症的癌症分类器

III.A.概述

对癌症分类器进行训练以接收测试样品的特征向量，并且确定测试样品是否来自患有癌症的测试受试者，或更具体地来自特定癌症类型的测试受试者。癌症分类器包括多个分类参数和表示作为输入的特征向量与作为输出的癌症预测之间的关系的函数，该函数由使用分类参数对输入特征向量进行操作确定。在一个实施例中，输入到癌症分类器中的特征向量基于从测试样品确定的异常片段集合。异常片段可以经由图2B中的过程220确定，或更具体地，高甲基化片段和低甲基化片段经由过程220的步骤270确定，或异常片段根据一些其他过程确定。在部署癌症分类器之前，分析系统使用过程300对癌症分类器进行训练。

III.B.训练癌症分类器

图3A是根据一个实施例的描述癌症分类器的训练的过程300的流程图。分析系统获得310多个训练样品，每个训练样品具有异常片段集合和癌症类型的标签。多个训练样品包括来自具有“非癌症”的一般标签的健康个体的样品、来自具有“癌症”的一般标签或特定标签(例如，“乳腺癌”、“肺癌”等)的受试者的样品的任何组合。来自针对一种癌症类型的受试者的训练样品可以被称为该癌症类型的队列或癌症类型群组。

分析系统基于训练样品的异常片段集合来确定320每个训练样品的特征向量。分析系统计算初始组CpG位点中的每个CpG位点的异常分数。初始组CpG位点可以是人类基因组中的所有CpG位点或其某一部分—其可以是10⁴、10⁵、10⁶、10⁷、10⁸等的量级。在一个实施例中，分析系统基于涵盖CpG位点的一组异常片段合中是否存在异常片段而使用二进制分数来定义特征向量的异常分数。在另一实施例中，分析系统基于与CpG位点重叠的异常片段的计数来定义异常分数。在一个示例中，分析系统可以使用三元评分指派，该三元评分分配针对缺乏异常片段的存在指派第一分数，针对少数异常片段的存在指派第二分数，并且针对多于少数异常片段的存在指派第三分数。例如，分析系统对样品中与CpG位点重叠的5个异常片段进行计数，并且基于计数5来计算异常分数。

一旦确定了训练样品的所有异常分数，分析系统就将特征向量确定为元素的向量，对于每个元素，该特征向量包括与初始组中的CpG位点中的一个CpG位点相关联的异常分数中的一个异常分数。分析系统基于样品的覆盖率来使特征向量的异常分数归一化。这里，覆盖率是指分类器中使用的初始CpG位点集合所覆盖的或基于给定训练样品的异常片段集合的所有CpG位点上的中值或平均测序深度。

作为一个示例，现在参考图3B，图3B图示了特征向量322的训练矩阵。在该示例中，分析系统已经标识了CpG位点[K]326，以供在生成癌症分类器的特征向量时考虑。分析系统选择训练样品[N]324。分析系统确定要用于训练样品[n1]的特征向量的第一任意CpG位点[k1]的第一异常分数328。分析系统检查异常片段集合中的每个异常片段。如果分析系统标识出包括第一CpG位点的至少一个异常片段，则分析系统将第一CpG位点的第一异常分数328确定为1，如图3B所示。考虑第二任意CpG位点[k2]，分析系统类似地检查一组异常片段中的包括第二CpG位点[k2]的至少一个异常片段。如果分析系统没有发现包括第二CpG位点的任何这样的异常片段，则分析系统将第二CpG位点[k2]的第二异常分数329确定为0，如图3B所示。一旦分析系统确定了初始组CpG位点的所有异常分数，分析系统就确定包括异常分数的第一训练样品[n1]的特征向量，其中特征向量包括第一CpG位点[k1]的为1的第一异常分数328、为0的第二CpG位点[k2]的第二异常分数329、以及后续异常分数，从而形成特征向量[1，0，……]。

分析系统还可以限制被考虑为用于癌症分类器的CpG位点。分析系统基于训练样品的特征向量来为初始CpG位点集合中的每个CpG位点计算330信息增益。根据步骤320，每个训练样品具有特征向量，该特征向量可以包含初始CpG位点集合中的所有CpG位点的异常分数，该初始CpG位点集合可以包括人类基因组中的多达所有CpG位点。然而，初始CpG位点集合中的一些CpG位点可能在区分癌症类型时不如其他CpG位点信息丰富，或可能与其他CpG位点重复。

在一个实施例中，分析系统计算330初始集合中每种癌症类型和每个CpG位点的信息增益，以确定是否将该CpG位点包括在分类器中。可以计算具有给定癌症类型的训练样品与所有其他样品相比的信息增益。例如，使用两个随机变量‘异常片段’(‘AF’)和‘癌症类型’(‘CT’)。在一个实施例中，AF是二进制变量，指示如针对上述异常分数/特征向量所确定的给定样品中是否存在与给定的CpG位点重叠的异常片段，。CT可以是指示癌症是否是特定类型的随机变量。分析系统可以计算关于给定AF的CT的互信息。也就是说，如果知道是否存在与特定CpG位点重叠的异常片段，则可以获得关于癌症类型的多少位的信息。在实践中，针对第一癌症类型，分析系统可以计算针对每个其他癌症类型的成对互信息增益，并且对跨越所有其他癌症类型的互信息增益进行求和。

对于给定癌症类型，分析系统使用该信息基于它们的癌症特异性如何来对CpG位点进行排名。对所考虑的所有癌症类型重复该过程。如果特定区域在给定癌症的训练样品中通常被异常甲基化，而在其他癌症类型的训练样品或健康训练样品中没有被异常甲基化，则对于给定癌症类型，与那些异常片段重叠的CpG位点将倾向于具有高信息增益。基于用于癌症分类器的选择CpG位点集合的排名，针对每种癌症类型的经排名的CpG位点被急切地添加(选择)340到选择CpG位点集合。

在附加实施例中，分析系统可以考虑用于选择要用于癌症分类器的信息丰富的CpG位点的其他选择准则。一个选择准则可以是选择CpG位点与其他选择CpG位点相距大于阈值间隔。例如，选择CpG位点与任何其他选择CpG位点相距超过阈值数目的碱基对(例如，100个碱基对)，使得阈值间隔内的CpG位点并不都被选择以供在癌症分类器中考虑。

在一个实施例中，根据从初始集合中选择的CpG位点集合，分析系统可以根据需要修改350训练样品的特征向量。例如，分析系统可以截断特征向量以去除与不在选择CpG位点集合中的CpG位点相对应的异常分数。

通过训练样品的特征向量，分析系统可以以若干种方式中的任一方式来对癌症分类器进行训练。特征向量可以与来自步骤320的初始CpG位点集合相对应或与来自步骤350的选择CpG位点集合相对应。在一个实施例中，分析系统对二进制癌症分类器进行训练360以基于训练样品的特征向量来区分癌症和非癌症。以这种方式，分析系统使用包括来自健康个体的非癌症样品和来自受试者的癌症样品的训练样品。每个训练样品可以具有两个标签“癌症”或“非癌症”中的一个标签。在该实施例中，分类器输出指示癌症存在或癌症不存在的可能性的癌症预测。

在另一实施例中，分析系统对多类别癌症分类器进行训练450以区分许多癌症类型(还被称为起源组织(TOO)标签)。癌症类型包括一种或多种癌症，并且可以包括非癌症类型(还可以包括任何附加的其他疾病或遗传病症等)。为此，分析系统可以使用癌症类型群组，并且还可以包括或不包括非癌症类型群组。在该多癌症实施例中，对癌症分类器进行训练以确定癌症预测(或更具体地，TOO预测)，该癌症预测包括被分类的癌症类型中的每种癌症类型的预测值。预测值可以与给定训练样品(以及在推断期间，测试样品)具有癌症类型中的每种癌症类型的可能性相对应。在一个实现方式中，预测值在0与100之间进行评分，其中预测值的累积等于100。例如，癌症分类器返回包括乳腺癌、肺癌和非癌症的预测值的癌症预测。例如，分类器可以返回测试样品是乳腺癌的似然性为65％、肺癌的似然性为25％和非癌症的似然性为10％的癌症预测。分析系统还可以评估预测值以生成样品中存在一种或多种癌症的预测，还可以被称为TOO预测，其指示一种或多种TOO标记，例如，具有最高预测值的第一TOO标记、具有第二最高预测值的第二TOO标记等。继续上述示例并且给定百分比，在该示例中，假定乳腺癌具有最高似然性，则系统可以确定样品具有乳腺癌。

在这两个实施例中，分析系统通过将具有特征向量的训练样品集合输入到癌症分类器中并且调整分类参数来对癌症分类器进行训练，使分类器的函数将训练特征向量与它们的对应标签精确相关。分析系统可以将训练样品分组为一个或多个训练样品的集合，以用于对癌症分类器进行迭代批量训练。在输入所有训练样品集合(包括其训练特征向量)并且调整分类参数之后，对癌症分类器进行充分训练以根据它们在一定误差范围内的特征向量标记测试样品。分析系统可以根据若干种方法中的任一方法来对癌症分类器进行训练。作为一个示例，二进制癌症分类器可以是使用对数损失函数而被训练的L2-正则逻辑回归分类器。作为另一示例，多癌症分类器可以是多项逻辑回归。在实践中，可以使用其他技术来对任一类型的癌症分类器进行训练。这些技术有很多，包括可能使用内核方法、随机森林分类器、混合模型、自动编码器模型、诸如多层神经网络之类的机器学习算法等。

III.C.癌症分类器的调谐

在使用癌症分类器期间，分析系统可以执行操作以调谐癌症分类器的预测能力。通常，样品分布可以包括具有高组织信号的一个或多个非癌样品。这些高组织信号非癌样品中的一些高组织信号非癌样品甚至可能是前期癌症、早期癌症或未经诊断的癌症。因此，具有高组织信号的非癌症样品可能混淆癌症分类器的预测能力。

如本文中所使用的，“高组织信号”是指组织信号超过预定阈值的样品，例如，通常针对任一组织类型或对于特定癌症类型-还被称为TOO标记。与健康分布相比，可以通过多类别癌症分类器或其他方式来确定组织信号。具有高组织信号的非癌症样品是非癌症分布中的离群值。这些非癌症样品中的一些非癌症样品可以是前期癌症、早期癌症或未经诊断的癌症。分析系统可以标识至少一种TOO标记中具有高组织信号的非癌症样品。在确定高组织信号的一种途径中，将由多类别癌症分类器输出的TOO标记的预测值与组织信号阈值进行比较。预测值高于组织信号阈值的样品可以被视为针对该TOO标记具有高组织信号；而预测值低于组织信号阈值的样品可以被视为针对该TOO标记不具有高组织信号(或低组织信号)。在另一方法中，考虑TOO预测中的一个或多个排名靠前的预测。例如，样品的TOO预测具有结肠直肠TOO标记的第一预测、乳腺TOO标记的第二预测和头颈TOO标记的第三预测。如果考虑排名靠前的预测，则样品可以被视为针对第一预测中的TOO标记具有高组织信号，该TOO标记在该示例中是结肠直肠TOO标记。如果考虑排名在前两位的预测，则在结肠直肠TOO标记和乳腺TOO标记两者中存在高组织信号。确定组织信号的其他途径可以包括被训练为确定一种或多种TOO标记的组织信号的其他模型。这样的模型可以包括被训练为确定TOO标记子集的组织信号的分类器。例如，血液学特异性分类器可以被训练为并且被用来确定一种或多种血液学亚型的组织信号。在第V章节的癌症分类器的示例结果下描述了两个这样的示例实现方式。其他模型包括可以解卷积来自甲基化测序数据(和/或其他类型的测序数据)的组织信号的解卷积模型。

在调谐分类器的一个实施例中，排除高组织信号非癌样品提高了分类器在癌症预测中的灵敏度。通过经修剪的样品分布，可以根据最小特异性来确定二进制阈值截止值，其中二进制阈值截止值被用来预测测试样品中的癌症存在或不存在。该方法在第III.C.i章节的高信号非癌症样品的去除中进行进一步阐述。

在调谐癌症分类器的另一实施例中，可以根据TOO信号对样品分布进行分层。分析系统可以通过将样品分为层中来确定每个所得层的二进制阈值截止值。对于测试样品，分析系统可以根据TOO信号将测试样品放置到层中，并且使用层的二进制阈值截止值来预测测试样品中癌症的存在或不存在。该方法可以在III.C.ii章节的根据TOO信号对样品分布进行分层中进行进一步阐述。

参考图8，图8图示了特异性高于95％的非癌症样品的癌症类型似然性的曲线图。计算来自多个非癌症样品(即，来自当前未经诊断患有癌症的健康个体的样品)的每个非癌症样品的癌症分数。癌症分数可以通过二进制分类器根据样品的甲基化测序数据被确定为样品具有癌症的似然性。在其他实施例中，可以根据其他方法来计算癌症分数，这些方法至少输入测序数据(例如，甲基化、单核苷酸多态性(SNP)、DNA、RNA等)和基于输入测序数据输出样品具有癌症的似然性。分类器的一个示例是混合模型分类器。可以根据非癌症样品的癌症分数来生成非癌症样品的分布。可以设置二进制阈值截止值以确保一定程度的二进制分类特异性(例如，真阴性率)。通常，对癌症进行分类时可以使用高特异性截止值，例如，99.4％或更高的特异性。然而，用于训练癌症分类器且略低于特异性截止值的很多非癌症样品可以具有高组织信号，从而正偏离二进制阈值截止值。

在一些实施例中，某些癌症类型还被分离为癌症亚型。例如，血液学癌症类型可以进一步被分离为比如循环淋巴亚型、非霍奇金氏淋巴瘤(NHL)惰性亚型、NHL侵袭性亚型、霍奇金氏淋巴瘤(HL)亚型、髓细胞亚型和浆细胞亚型的组合，所有这些也属于淋巴肿瘤类别。

为加以证实，选择特异性高于95％的非癌症样品，然后输入到多类别癌症分类器中，以确定每种癌症类型或来源组织(TOO)的概率。在多类别癌症分类器的该实施例中使用的癌症类型或TOO标记包括循环淋巴样、髓样、NHL惰性、结肠直肠、NHL侵袭性、肺、子宫、乳腺、前列腺、胰腺和胆囊、上消化道、膀胱和尿路上皮、浆细胞、头颈、肾、卵巢、肉瘤、肝和胆管、宫颈、其他组织、HL、肛门直肠、黑色素瘤、甲状腺。图8中的曲线图示出了来自至少一种组织类型的具有高组织信号的很多非癌症样品。组织类型列中的每个点对应于特异性阈值高于95％的非癌症样品的来源组织似然性。值得注意的是，很多组织类型具有具有显著组织贡献的多个非癌症样品离群值，这对于非癌症样品而言并不常见。这可以发生在当此类非癌症样品具有由癌症样甲基化、克隆分数和/或生长/周转速率驱动的cfDNA信号时。然而，具有显著组织贡献的这些非癌症样品使二进制分类截止值阈值向上移位，从而降低了癌症分类的灵敏度，特别是对于组织信号明显低于先前所设置的二进制分类截止值阈值的样品。在实践中，此类信号(例如，对应于循环淋巴样、髓样和NHL惰性)可以是假阳性判定的主要诱因。应当注意，循环淋巴样、髓样、NHL惰性、结肠直肠、NHL侵袭性、肺、子宫、乳腺、前列腺、胰腺和胆囊、上消化道、浆细胞、头颈、宫颈、HL标记具有来源组织概率高于0.1的至少一种非癌症样品。特别地，循环淋巴样、髓样、NHL惰性和NHL侵袭性标记(所有血液学亚型)具有来源组织概率高于0.5的两种或更多种非癌症样品。

参考图9A和图9B，图9A和图9B图示了根据甲基化测序数据分离的血液学亚型的曲线图。图9A和图9B的曲线演示了对血液学亚型进行建模的能力。这可以证明有利于为多类癌症分类提供更高精细度(例如，附加地使用血液学亚型标记进行分类)，或在训练癌症分类器之前通过修剪具有高血液学亚型信号的非癌症样品作为调谐癌症分类的方式。如上文所描述的，甲基化信号可以涵盖多个CpG位点，从而产生高维向量空间。所示出的血液学亚型包括循环淋巴样、实体淋巴样、浆细胞和髓样。实体淋巴样亚型还可以划分为HL、NHL惰性和NHL侵袭性。

在图9A中，分析系统执行t分布随机邻居嵌入。t分布随机邻居嵌入将向量空间(涵盖甲基化测序数据)的降维标识为较小数目的嵌入。嵌入按照样品之间甲基化信号的变化次序排列。被示为曲线图上的横轴上的“V1”的第一主嵌入的方差最高。被示为曲线图上的竖轴上的“V2”的第三主嵌入的方差排名第三。曲线图上注释了每个血液学亚型和非癌症的样品的集群。

在图9B中，分析系统执行UMAP嵌入。UMAP嵌入还将向量空间的维度降低到数目较少的嵌入中。嵌入按照样品之间甲基化信号的变化次序排列。被示为曲线图上的横轴上的“嵌入1”的第一主嵌入的方差最高。被示为曲线图上的竖轴上的“嵌入2”的第二主嵌入的方差排名第二。使用轮廓密度示出非癌症样品。

曲线图示出了用于根据血液学亚型进行分类的潜力——要么用于在多类别癌症分类中添加血液学亚类要么对血液学亚类型中的每个血液学亚类型进行建模以调谐癌症分类。

III.C.i.高信号非癌症样品的去除

在一个或多个实施例中，分析系统通过修剪用于训练癌症分类器的非癌症样品来调谐经训练的癌症分类器。特别地，分析系统可以寻求去除具有高组织信号的非癌症样品，这些非癌症样品削弱了癌症分类器在癌症预测中的灵敏度。

图10A示出了描述了根据一个或多个实施例的确定二进制癌症分类的二进制阈值截止值的过程1000的流程图。用于预测癌症和非癌症的二进制分类针对所确定二进制阈值截止值来评价样品癌症分数，其中癌症分数低于二进制阈值截止值的样品被确定为非癌症，并且癌症分数为二进制阈值截止值或更高的样品被确定为癌症。经训练的多类别癌症分类器可以评价样品的甲基化信号(和/或其他测序数据)以确定由多类别癌症分类器分类的若干个TPP标记的概率。多类别癌症分类器中所使用的TOO标记可以为癌症组织类型或癌症组织亚型(例如，上文所描述的血液学亚型)。过程1000可以由分析系统执行或实现。

分析系统接收1010含有cfDNA片段的多个生物样品的测序数据，这些生物样品包括癌症样品或非癌症样品。测序数据可以是甲基化测序数据、SNP测序数据、另一DNA测序数据、RNA测序数据等。

针对每个非癌症样品，分析系统基于源自测序的特征来使用多类别癌症分类器对非癌症样品进行分类1020，其中多类别癌症分类器预测多个TOO标记中的每个TOO标记的概率。分析系统可以根据图3A的步骤320生成非癌症样品的特征向量，即，基于与每个所考虑的CpG位点重叠的至少一个经异常甲基化的cfDNA片段来向该CpG位点指派异常分数。

针对每个非癌症样品，分析系统针对一个或多个TOO标记确定1030所预测的概率似然性是否超过TOO阈值。确定TOO阈值下文在图10B中进行进一步描述。

分析系统确定1040用于预测癌症存在的二进制阈值截止值，该二进制阈值截止值基于非癌症样品(排除被标识为概率似然性超过至少一个TOO阈值的一个或多个非癌症样品)的分布而确定。可以排除针对TOO标记的概率似然性超过对应于该TOO标记的TOO阈值的至少一个非癌症样品。然后，分析系统根据每个非癌症样品的癌症分数来计算非癌症样品的分布，并且然后根据该分布来确定特异性水平(例如，99.4％至99.9％特异性)下的二进制阈值截止值。可以根据测序数据来确定每个癌症分数，例如，可以由二进制癌症分类器输出癌症分数，该癌症分数可以基于甲基化测序数据来预测癌症似然性，如图3A所描述的。在其他实施例中，可以根据至少输入测序数据(例如，甲基化、单核苷酸多态性(SNP)、DNA、RNA等)的其他方法来计算癌症分数，这些方法并且基于输入测序数据来输出样品具有癌症的似然性。

图10B图示了根据一个或多个实施例的描述了对TOO标记进行阈值化以确定二进制癌症分类的二进制阈值截止值的过程1005的流程图。该过程1005可以是过程1000的一个实施例。用于预测癌症和非癌症的二进制分类针对所确定的二进制阈值截止值来评价样品癌症分数，其中癌症分数低于二进制阈值截止值值的样品被确定为非癌症，并且癌症分数为二进制阈值截止值或更高的样品被确定为癌症。经训练的多类别癌症分类器可以评价样品的甲基化信号(和/或其他测序数据)以确定由多类别癌症分类器分类的若干个TOO标记的概率。TOO标记可以是癌症组织类型或更特别地是癌症组织亚型(例如，上文所描述的血液学亚型)。过程1005可以由分析系统执行或实现。

分析系统获得1015包括具有癌症标记或非癌症标记的多个样品的训练组和包括具有癌症标记或非癌症标记的多个样品(即，分别是癌症样品或非癌症样品)的保留组。训练组中的每个样品可以包括甲基化测序数据(例如，根据图1A的过程100生成)。在其他实施例中，每个训练样品具有与甲基化测序数据串联使用或代替其的其他测序数据。而且，来自训练组和保留组的每个样品具有癌症分数。如上文所指出的，给定样品的甲基化测序数据，癌症分数可以由二进制分类器被确定为样品患有癌症的似然性。在其他实施例中，根据其他方法来计算癌症分数，这些方法至少输入测试数据(例如，甲基化、单核苷酸多态性(SNP)、DNA、RNA等)，并且根据输入测试数据输出样品患有癌症的似然性。

针对每个非癌症训练样品，分析系统基于甲基化测序数据来确定1025特征向量。分析系统可以确定每个非癌症训练样品的特征向量，例如以描述确定所考虑的CpG位点集中的每个CpG位点的异常分数的图3A中的步骤320相似的方式。在一些实施例中，分析系统使用二进制分数来定义特征向量的异常分数，该二进制分数基于异常片段集中是否存在涵盖CpG位点的异常片段。一旦确定样品的所有异常分数，分析系统就可以将特征向量确定为具有与所考虑的每个CpG位点相关联的异常分数的向量。分析系列可以附加地基于样品的覆盖度来归一化特征向量的异常分数。

分析系统将每个非癌症训练样品的特征向量输入1035到多类别癌症分类器中以生成TOO预测。在多个TOO标记(包括癌症类型、癌症亚型、非癌症或其任一组合)上对多类别癌症分类器进行训练。可以根据图3A的过程300对多类别癌症分类器进行训练。经训练的多类别癌症分类器可以确定TOO标记的多个概率以作为癌症预测，其中TOO标记的概率指示具有对应于TOO标记的癌症的似然性。

在一些示例中，分析系统扫掠(sweep)1045或迭代通过作为候选TOO阈值的TOO标记概率范围，从而计算TOO标记概率范围内的特异性率和灵敏度率。分析系统可以增量地扫掠通过概率范围，例如，0.01、0.02、0.03、0.04、0.05等。因为分析系统扫掠通过概率范围，所以分析系统根据多类别癌症分类器的输出来过滤TOO标记概率为候选TOO阈值或更高的非癌症训练样品。作为数值示例，分析系统可以考虑0.35的候选TOO阈值。从训练组筛选掉(filter out)TOO标记概率为0.25或更高的非癌症训练样品。分析系统可以基于所过滤的训练组来确定经调整的二进制阈值截止值。分析系统使用针对保留组的经调整的二进制阈值截止值来计算预测的特异性率。特异性可以是指将非癌症样品标识为非癌症标记的准确性。分析系统还使用针对保留组的经调整的二进制阈值截止值来计算预测的灵敏度率。灵敏度可以是指将癌症样品标识为癌症标记的准确性。在实践中，可以根据真阳性率、假阳性率、真阴性率、假阴性率、另一统计学计算等来定义特异性率和/或灵敏度率。

分析系统确定1055TOO标记的TOO阈值。分析系统通过在一定范围的候选TOO阈值内最佳化所计算的特异性率和/或灵敏度率从候选TOO阈值选择TOO阈值。在一些示例中，TOO阈值被确定或以其他方式应用于某些TOO组织类型类别或亚型类别(诸如血液学类别)。仅通过示例，用于计算和应用TOO特异性概率阈值的算法可以被用来去除具有血液病证的超过信号的非癌症样品。该算法可以包括针对每个预定TOO标记首先搜索概率值网格，并且针对每个值使用在去除具有概率等于或大于指定TOO标记的非癌症样品之后计算的二进制检测阈值来评价保留组的临床特异性和临床灵敏度。通过迭代通过概率网格，该算法将标识预定TOO标记的TOO阈值的一定组合，该组合最佳化保留组的临床特异性与临床灵敏度之间的取舍。给定TOO标记，经最佳化的最终TOO概率阈值可以被用来筛选出超过值中的任一值的非癌症样品。经清洗的非癌症样品集可以被用来计算癌症-非癌症检测阈值。另外，在一些示例中，TOO特异性阈值可以手动设置在任何截点，诸如特异性水平(例如，99.4％至99.9％的特异性)。

分析系统通过在确定二进制阈值截止值之前修剪超过TOO阈值化的非癌症训练样品来调谐1065二进制癌症分类。分析系统根据TOO标记的所确定的TOO阈值从训练组筛选掉非癌症训练样品。分析系统根据经过滤的训练组来设置二进制阈值截止值。例如，分析系统基于经过滤的分数分布来确定新二进制阈值截止值。在其他实施例中，分析系统可以根据步骤1010、1020、1030和1040来确定TOO标记中的任一TOO标记的TOO阈值以调谐二进制癌症分类。

III.C.ii.根据TOO信号对样品分布进行分层

在一个或多个实施例中，分析系统通过根据TOO信号对样品分布进行分层以确定每个层的二进制阈值截止值来调谐癌症分类器。分析系统可以根据根据由多类别癌症分类器输出的TOO预测所确定的一个或多个TOO标记的信号对样品分布进行分层。

现在，参考图13A，图13A图示了根据一个或多个实施例的将血液学信号分层为两个层的过程。尽管以下说明书描述了使用血液学信号的分层，但是该原理可以易于应用于其他TOO信号。

分析系统根据血液学信号将癌症样品和非癌症样品的保留组分层1300A为低信号层1310和高信号层1320。保留组的每个样品可以具有由二进制癌症分类器确定的癌症分数和由多类别癌症分类器确定的TOO预测。在一个实施例中，根据由多类别癌症分类器输出的TOO预测来确定样品的血液学信号。高组织信号可以根据第III.C.章节的癌症分类器的调谐所述进行确定。在一个实施例中，当考虑一个或多个排名靠前的预测(例如，第一、第二等)时，如果所考虑排名靠前的预测中的至少一个预测是一种血液学亚型(例如，淋巴样赘生物亚型和髓样赘生物亚型)，则可以确定高血液学信号。可以包括其他血液学亚型。如此，如果样品具有其中排名靠前的预测中的至少一个预测可以被视为淋巴样赘生物亚型或髓样赘生物亚型的TOO预测，则可以确定样品具有高血液学信号。否则，确定样品不具有高血液学信号。

分析系统可以确定每个层的二进制阈值截止值以预测样品的癌症存在或癌症不存在。分析系统使用低信号层1310中的样品来确定1305用于预测低信号层1310中的样品中的癌症不存在或癌症存在的二进制阈值截止值。根据针对低信号层1310而设置的假阳性预算来确定1305二进制阈值截止值。使用低信号层1310中的样品的癌症分数，分析系统扫掠一定范围的候选二进制阈值截止值，该一定范围的候选二进制阈值截止值评价每个候选二进制阈值截止值处的真阳性率(还被称为灵敏度)和假阳性率。具有假阳性预算内最接近的假阳性的候选二进制阈值截止值可以被确定为候选二进制阈值截止值。分析系统执行类似操作以确定1315高信号层1320的二进制阈值截止值。低信号层1310的假阳性预算和高信号层1320的假阳性预算可以根据层的统计真阳性率比值来设置。该比值旨在抑制高信号层1320中的假阳性率。

针对测试样品，分析系统可以根据血液学信号将测试样品置于低信号层1310或高信号层1320中。如果测试样品被置于低信号层1310中，则分析系统将低信号层1310的二进制阈值截止值应用1315于测试样品的癌症分数。如果癌症分数大于或等于低信号层1310的二进制阈值截止值，则分析系统返回存在于测试样品中的癌症的预测，否则返回无癌症预测。如果测试样品被置于高信号层1320中，则将高信号层1320的二进制阈值截止值应用1325于测试样品的癌症分数。如果癌症分数大于或等于高信号层1320的二进制阈值截止值，则分析系统返回存在于测试样品中的癌症的预测，并且另外返回无癌症预测。

图13B图示了根据一个或多个实施例的用于将血液学信号分层为三个层的过程。尽管以下描述描述了使用血液学信号的分层，但是这些原理可以容易地应用于其他TOO信号。这些原则也可以很容易地扩展到分层为三个以上的层的情况。

分析系统可以根据血液学信号将癌症样品和非癌症样品的保留组分层为三个层：低信号层1330、中信号层1340和高信号层1350。保留组的每个样品组可以具有由二进制癌症分类器确定的癌症分数和由多类别癌症分类器确定的TOO预测。在一个或多个实施例中，血液学TOO标记包括多种血液学亚型。在一个或多个侵袭性血液学亚型中具有高组织信号的保留组的任何样品都可以被放置到高信号层1350中。在一个或多个惰性血液学亚型中具有高组织信号的保留组的任何样品(尚未分类到高信号层1350中)可以被放置到中信号层1340中。并且未被分类在高信号层1350或中信号层1340中的样品被放置在低信号层1330中。根据图13A中所描述的原理，分析系统基于每个层的假阳性预算来确定每个层的二进制阈值截止值——确定1335用于低信号层1330的二进制阈值截止值，确定1345用于中信号层1340的二进制阈值截止值，并且确定1355用于高信号层1350的二进制阈值截止值。与图13A相似，针对测试样品，分析系统标识其中放置测试样品的层，并且应用该层的二进制阈值截止值来预测测试样品中的癌症存在或癌症不存在。

图13C图示了根据一个或多个实施例的用于首先对血液学信号进行分层并且随后对结肠直肠信号进行分层的过程。尽管以下描述描述了使用血液学信号以及随后使用结肠直肠信号的分层，但是这些原理可以容易地应用于被串行评估的TOO信号的其他组合。

分析系统根据血液学信号1300C和随后的结肠直肠信号1370对癌症样品和非癌症样品的保留组进行分层。保留组的每个样品可以具有由二进制癌症分类器确定的癌症分数和由多类别癌症分类器确定的TOO预测。与上文在图13A中所描述的原理相似，具有高血液学信号的保留组的任何样品被放置到高血液学信息层1360中。随后根据结肠直肠信号1370对剩余样品进行分层。与血液学分层类似，具有高结肠直肠信号的任何样品被放置到高结肠直肠信号层1380中。既不放入高血液信号层1360也不放入高结肠直肠信号层1380的样品被分组到低信号层1390中。在该实施例中，血液学信号比结肠直肠信号具有更高的优先级。在一个或多个实施例中，多个TOO信号可以按照优先级次序被串行评价。因此，具有高血液学信号和高结肠直肠信号两者的样品可以放置在高血液学层1360下方而非高结肠直肠层1380下方，因为血液学信号比结肠直肠信号具有更高的优先级。根据图13A中描述的原理，分析系统基于每个层的假阳性预算来确定每个层的二进制阈值截止值。确定1365高血液学信号层1360的二进制阈值截止值，确定1385高结肠直肠信号层1380的二进制阈值截止值，并且确定1395低信号层1390的二进制阀值截止值。与图13A相似，对于测试样品，分析系统标识其中放置测试样品的层，并且应用层的二进制阈值截止值来预测测试样品中的癌症存在或癌症不存在。

图14图示了根据一个或多个实施例的确定TOO分层的二进制阈值截止值的过程1400。尽管过程1400被描述为由分析系统执行，但是过程1400可以更一般地由任何计算系统执行。

分析系统获得1410包括被分类为癌症或非癌症或具有癌症标记或非癌症标记的多个样品的保留组。保留组的每个样品可以附有癌症分数，比如，代表样品对应于癌症的似然性(例如，由二进制癌症分类器确定)；以及TOO预测，比如，表示样品对应于特定类型的组织的癌症的似然性(如，由多类别癌症分类器确定)。

分析系统基于TOO预测来将保留组分层1420为第一TOO标记的第一高信号层和第二低信号层。在一个示例中，分层使用预测值阈值。在TOO预测中第一TOO标记的预测值等于或高于预测值阈值的任何样品被分类为第一TOO标记的高信号。否则，该样品可以被分类为第一TOO标记的低信号。在另一示例中，分析系统考虑每个样品的TOO预测中的一个或多个排名靠前的预测。在所考虑的排名靠前的预测中的至少一个预测中具有第一TOO标记的任何样品都可以被分类为第一TOO标记的高信号。否则，该样品可以被分类为第一TOO标记的低信号。

在一个或多个实施例中，分析系统还将第一TOO标记的中等信号分层为第三层。在其中根据预测值对信号进行分层的实施例中，该一定范围的预测值可以被分割成用于确定高信号、中信号和低信号的三个部分。

在一个或多个实施例中，分析系统还根据一个或多个附加TOO标记的组织信号将一个或多个层分层为附加层。与第一TOO标记相比，附加TOO标记在分层时可以处于较低优先级。

对于每个层，分析系统在多个候选二进制阈值截止值处扫掠1440癌症分数域，从而计算每个候选二进制阀值截止值的真阳性率和假阳性率。真阳性率可以相对于假阳性率来绘制，以生成接收者操作特性(ROC)曲线。

对于每个层，分析系统基于假阳性预算来确定1440二进制阈值截止值。可以根据层的统计真阳性率比值将假阳性预算分配给每个层。

图15图示了根据一个或多个实施例的描述了使用由TOO分层确定的二进制阈值截止值来预测测试样品的癌症存在或癌症不存在的过程1500的流程图。过程1500被描述为由分析系统执行，尽管过程1500更一般地可以由任何计算系统来完成。

分析系统获得1510未知癌症存在的测试样品。测试样品附有癌症分数，例如，由二进制癌症分类器确定；以及TOO预测，例如，由多类别癌症分类器确定。

分析系统基于TOO预测将测试样品放置1520到用于第一TOO标记的第一高信号层或第二低信号层中。上文描述了放置(或分类)(比如，关于过程1400的步骤1420处的分层)。

分析系统通过比较癌症分数与测试样品所放置的层的二进制阈值截止值来预测1530测试样品是否存在癌症。例如，如果测试样品具有第一TOO标记的高信号并且被放置到第一高信号层中，则分析系统将针对第一高信号层确定的二进制阈值截止值应用于测试样品的癌症分数。可替代地，如果测试样品被放置到第二低信号层中，则可以使用针对第二层确定的二进制阈值截止值。如果测试样品的癌症分数等于或高于所使用的二进制阈值截止值，则可以预测测试样品存在癌症。否则，可以预测测试样品不存在癌症。

III.D.癌症分类器的部署

在使用癌症分类器期间，分析系统可以从未知癌症类型的受试者获得测试样品。分析系统可以使用过程100、200和220的任何组合来处理由DNA分子组成的测试样品，以获得一组异常片段合。分析系统根据过程800中讨论的类似原理确定供癌症分类器使用的测试特征向量。分析系统可以计算由癌症分类器使用的多个CpG位置中的每个CpG位置的异常分数。例如，癌症分类器接收包括1000个选择CpG位点的异常分数的特征向量作为输入。因此，分析系统可以基于该组异常片段来确定包括1000个选择CpG位点的异常分数的测试特征向量。分析系统以与训练样品相同的方式来计算异常分数。在一个实施例中，分析系统基于涵盖CpG位点的一组异常片段中是存在高甲基化片段还是存在低甲基化片段来将异常分数定义为二进制分数。

然后，分析系统将测试特征向量输入到癌症分类器中。然后，癌症分类器的函数可以基于在过程300中训练的分类参数和测试特征向量来生成癌症预测。在第一方式中，癌症预测可以是二进制的并且选自由“癌症”或“非癌症”组成的组；在第二方式中，癌症可以预测选自许多癌症类型和“非癌症”的组。在附加实施例中，癌症预测具有针对许多癌症类型中的每种癌症类型的预测值。而且，分析系统可以确定测试样品最可能是这些癌症类型中的一种癌症类型。在其中测试样品的癌症预测为65％可能性的乳腺癌、25％可能性的肺癌和10％可能性的非癌症的上述示例之后，分析系统可以确定测试样品最可能患有乳腺癌。在另一示例中，当癌症预测是非癌症为60％的可能性和癌症为40％的可能性的二进制时，分析系统确定测试样品最可能没有患有癌症。在附加实施例中，具有最高可能性的癌症预测仍然可以与阈值(例如，40％、50％、60％、70％)进行比较，以便将测试受试者称为患有该癌症类型。如果具有最高可能性的癌症预测没有超过该阈值，则分析系统可以返回不确定的结果。

在附加实施例中，分析系统将在过程300的步骤360中训练的癌症分类器与在过程300的步骤370中训练的另一癌症分类器链接。在过程300的步骤360中，分析系统将测试特征向量输入到被训练为二进制分类器的癌症分类器中。分析系统可以接收癌症预测的输出。关于测试受试者是否可能患有或可能没有患有癌症，癌症预测可以是二进制的。在其他实现方式中，癌症预测包括描述癌症的可能性和非癌症的可能性的预测值。例如，癌症预测具有85％的癌症预测值和15％的非癌症预测值。分析系统可以确定测试受试者可能患有癌症。一旦分析系统确定测试受试者可能患有癌症，分析系统就可以将测试特征向量输入到被训练以区分不同癌症类型的多类别癌症分类器中。多类别癌症分类器接收测试特征向量，并且返回多种癌症类型中的一种癌症类型的癌症预测。例如，多类别癌症分类器提供指定测试受试者最可能患有卵巢癌的癌症预测。在另一实现方式中，多类别癌症分类器提供多种癌症类型中的每种癌症类型的预测值。例如，癌症预测可以包括40％的乳腺癌类型预测值、15％的结肠直肠癌类型预测值和45％的肝癌预测值。

根据二进制癌症分类的广义实施例，分析系统可以基于测试样品的测序数据(例如，甲基化测序数据、SNP测序数据、其他DNA测序数据、RNA测序数据等)来确定测试样品的癌症分数。分析系统可以将测试样品的癌症分数与二进制阈值截止值进行比较，以预测测试样品是否可能患有癌症。可以基于一个或多个TOO亚型来使用TOO阈值化来调谐二进制阈值截止值。分析系统还可以生成测试样品的特征向量，用于多类别癌症分类器以确定指示一个或多个可能癌症类型的癌症预测。

IV.应用

在一些实施例中，本发明的方法、分析系统和/或分类器可以被用来检测癌症的存在、监测癌症进展或复发、监测治疗反应或效果、确定最小残留疾病(MRD)的存在或监测MRD、或其任何组合。例如，如本文中所描述的，分类器可以被用来生成描述测试特征向量来自患有癌症的受试者的似然性的概率分数(例如，从0至100)。在一些实施例中，将概率分数与阈值概率进行比较以确定受试者是否患有癌症。在其他实施例中，可以在多个不同的时间点(例如，在治疗之前或之后)评估似然性或概率分数以监测疾病进展或监测治疗效果(例如，治疗功效)。在其他实施例中，似然性或概率分数可以被用来做出或影响临床决策(例如，癌症的诊断、治疗选择、对治疗效果的评估等)。例如，在一个实施例中，如果概率分数超过阈值，则医生可以制定适当治疗。

IV.A.癌症的早期检测

在一些实施例中，本发明的方法和/或分类器被用来检测怀疑患有癌症的受试者中是否存在癌症。例如，分类器(例如，如上文在第III章节中描述的和在第V章节中例示的)可以被用来确定描述测试特征向量来自患有癌症的受试者的似然性的癌症预测。

在一个实施例中，癌症预测是测试样品是否患有癌症的可能性(例如，在0与100之间进行评分)(即，二进制分类)。因此，分析系统可以确定用于确定测试受试者是否患有癌症的阈值。例如，大于或等于60的癌症预测可以指示受试者患有癌症。在其他实施例中，大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95的癌症预测指示受试者患有癌症。在其他实施例中，癌症预测可以指示疾病的严重程度。例如，与低于80的癌症预测(例如，概率分数为70)相比较，80的癌症预测可以指示癌症的更严重形式或后期阶段。同样，癌症预测随时间的增加(例如，通过对在两个或更多个时间点采集的来自相同受试者的多个样品的测试特征向量进行分类来确定)可以指示疾病进展，或癌症预测随时间的减少可以指示成功治疗。

在另一实施例中，癌症预测包括许多预测值，其中被分类(即，多类别分类)的多种癌症类型中的每种癌症类型具有预测值(例如，在0与100之间进行评分)。预测值可以与给定训练样品(以及在推断期间，训练样品)具有癌症类型中的每种癌症类型的似然性相对应。分析系统可以标识具有最高预测值的癌症类型并且指示测试受试者可能具有该癌症类型。在其他实施例中，分析系统还将最高预测值与阈值(例如，50、55、60、65、70、75、80、85等)进行比较，以确定测试受试者可能患有该癌症类型。在其他实施例中，预测值还可以指示疾病的严重程度。例如，与60的预测值相比，大于80的预测值可以指示癌症的更严重形式或后期阶段。同样，预测值随时间的增加(例如，通过对在两个或更多个时间点采集的来自相同受试者的多个样品的测试特征向量进行分类来确定)可以指示疾病进展，或预测值随时间的减小可以指示成功治疗。

根据本发明的各方面，可以对本发明的方法和系统进行训练来检测多个癌症适应症或对其进行分类。例如，本发明的方法、系统和分类器可以被用来检测一个或多个、两个或更多个、三个或更多个、五个或更多个、十个或更多个、十五个或更多个、或二十个或更多个不同类型的癌症的存在。

可以使用本发明的方法、系统和分类器来检测的癌症的示例包括癌、淋巴瘤、母细胞瘤、肉瘤和白血病或淋巴恶性肿瘤。这样的癌症的更具体示例包括但不限于鳞状细胞癌(例如，上皮鳞状细胞癌)、皮肤癌、黑素瘤、肺癌(包括小细胞肺癌、非小细胞肺癌(“NSCLC”)、肺腺癌和肺鳞状细胞癌)、腹膜癌、胃癌(包括胃肠癌)、胰腺癌(例如，胰腺导管腺癌)、宫颈癌、卵巢癌(例如，高级浆液性卵巢癌)、肝癌(例如，肝细胞癌(HCC))、肝细胞瘤、肝癌、膀胱癌(例如，尿道上皮膀胱癌)、睾丸(生殖细胞肿瘤)癌、乳腺癌(例如，HER2阳性、HER2阴性和三阴性乳腺癌)、脑癌(例如，星形细胞瘤)、神经胶质瘤(例如，成胶质细胞瘤))、结肠癌、直肠癌、结肠直肠癌、子宫内膜癌或子宫癌、唾液腺癌、肾癌(例如，肾细胞癌、肾母细胞瘤或Wilms氏肿瘤)、前列腺癌、外阴癌、甲状腺癌、肛门癌、阴茎癌、头颈癌、食道癌和鼻咽癌(NPC)。癌症的其他示例包括但不限于视网膜母细胞瘤、卵泡膜瘤、卵巢男性细胞瘤，血液学恶性肿瘤(包括但不限于非霍奇金氏淋巴瘤(NHL)、多发性骨髓瘤和急性血液系统恶性疾病)、子宫内膜异位症、纤维肉瘤、绒毛膜癌、喉癌、卡波西肉瘤、神经鞘瘤、少突神经胶质瘤、成神经细胞瘤、横纹肌肉瘤、成骨肉瘤、平滑肌肉瘤和泌尿道癌。

在一些实施例中，癌症是以下各项中的一项或多项：肛门直肠癌、膀胱癌、乳腺癌、宫颈癌、结肠直肠癌、食道癌、胃癌、头颈癌、肝胆癌、白血病、肺癌、淋巴瘤、黑素瘤、多发性骨髓瘤、卵巢癌、胰腺癌、前列腺癌、肾癌、甲状腺癌、子宫癌或其任何组合。

在一些实施例中，一种或多种癌症可以是“高信号”癌症(被定义为具有大于50％的5年癌症特异性死亡率的癌症)，诸如肛门直肠癌、结肠直肠癌、食道癌、头颈癌、肝胆癌、肺癌、卵巢癌和胰腺癌、以及淋巴瘤和多发性骨髓瘤。高信号癌症倾向于更具侵袭性，并且通常在从患者获得的测试样品中具有高于平均的无细胞核酸浓度。

IV.B.癌症和治疗监测

在一些实施例中，可以在多个不同时间点(例如，或在治疗之前或之后)评估癌症预测以监测疾病进展或监测治疗效果(例如，治疗功效)。例如，本发明包括以下方法，这些方法包括：在第一时间点从癌症患者获得第一样品(例如，第一血浆cfDNA样品)，从中确定第一癌症预测(如本文中所描述的)，在第二时间点从癌症患者获得第二测试样品(例如，第二血浆cfDNA样品)，以及由此确定第二癌症预测(如本文中所描述的)。

在某些实施例中，第一时间点在癌症治疗之前(例如，在切除手术或治疗干预之前)，并且第二时间点在癌症治疗之后(例如，在切除手术或治疗干预之后)，并且分类器用于监测治疗的有效性。例如，如果第二癌症预测与第一癌症预测相比减小，则认为治疗已经成功。然而，如果第二癌症预测与第一癌症预测相比增加，则认为治疗没有成功。在其他实施例中，第一时间点和第二时间点两者均在癌症治疗之前(例如，在切除手术或治疗干预之前)。在其他实施例中，第一时间点和第二时间点两者均在癌症治疗之后(例如，在切除手术或治疗干预之后)。在其他实施例中，可以在第一时间点和第二时间点从癌症患者获得cfDNA样品，并且对其进行分析，例如，以监测癌症进展，以确定癌症是否处于缓解(例如，在治疗之后)，以监测或检测残留疾病或疾病复发，或监测治疗(例如，疗法)功效。

测试样品可以在任何组期望时间点内从癌症患者获得，并且根据本发明的方法进行分析以监测患者的癌症状态。在一些实施例中，第一时间点和第二时间点相隔的时间量约为15分钟至约30年，诸如约30分钟，诸如约1小时、2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、11小时、12小时、13小时、14小时、15小时、16小时、17小时、18小时、19小时、20小时、21小时、22小时、23或约24小时，诸如约1天、2天、3天、4天、5天、10天、15天、20天、25或约30天，或诸如约1月、2月、3月、4月、5月、6月、7月、8月、9月、10月、11或12个月，或诸如约1年、1.5年、2年、2.5年、3年、3.5年、4年、4.5年、5年、5.5年、6年、6.5年、7年、7.5年、8年、8.5年、9年、9.5年、10年、10.5年、11年、11.5年、12年、12.5年、13年、13.5年、14年、14.5年、15年、15.5年、16年、16.5年、17年、17.5年、18年、18.5年、19年、19.5年、20年、20.5年、21年、21.5年、22年、22.5年、23年、23.5年、24年、24.5年、25年、25.5年、26年、26.5年、27年、27.5年、28年、28.5年、29年、29.5年或约30年。在其他实施例中，至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次或至少每5年一次可以从患者获得测试样品。

IV.C.治疗

在又一实施例中，癌症预测可以被用来做出或影响临床决策(例如，癌症的诊断、治疗选择、对治疗效果的评估等)。例如，在一个实施例中，如果癌症预测(例如，对于癌症或对于特定癌症类型)超过阈值，则医生可以制定适当治疗(例如，切除手术、放射疗法、化学疗法和/或免疫疗法)。

分类器(如本文中所描述的)可以被用来确定样品特征向量来自患有癌症的受试者的癌症预测。在一个实施例中，当癌症预测超过阈值时，制定适当治疗(例如，切除手术或治疗)。例如，在一个实施例中，如果癌症预测大于或等于60，则制定一种或多种适当治疗。在另一实施例中，如果癌症预测大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95，则制定一种或多种适当治疗。在其他实施例中，癌症预测可以指示疾病的严重程度。然后，可以制定与疾病严重程度相匹配的适当治疗。

在一些实施例中，治疗是一种或多种癌症治疗剂，该一种或多种癌症治疗剂选自由以下各项组成的组：化学治疗剂、靶向癌症治疗剂、分化治疗剂、激素治疗剂和免疫治疗剂。例如，治疗可以是一种或多种化疗剂，该一种或多种化疗剂选自由以下各项组成的组：烷化剂、抗代谢物、蒽环霉素、抗肿瘤抗生素、细胞骨架破坏剂(紫杉烷)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、基于铂的药剂及其任何组合。在一些实施例中，治疗是一种或多种靶向癌症治疗剂，该靶向癌症治疗剂选自由以下各项组成的组：信号转导抑制剂(例如，酪氨酸激酶和生长因子受体抑制剂)、组蛋白脱乙酰酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白体抑制剂、血管生成抑制剂和单克隆抗体缀合物。在一些实施例中，治疗是一种或多种分化治疗剂，该一种或多种分化治疗剂包括类视黄醇，诸如维甲酸、阿利维A酸和贝沙罗汀。在一些实施例中，治疗是一种或多种激素治疗剂，该激素治疗剂选自由以下各项组成的组：抗雌激素、芳香酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施例中，治疗是一种或多种免疫治疗剂，该一种或多种免疫治疗剂选自由以下各项组成的组：单克隆抗体疗法(诸如利妥昔单抗(RITUXAN)和阿仑单抗(CAMPATH))、非特异性免疫疗法和佐剂(诸如BCG、白介素-2(IL-2)和干扰素-α)；免疫调节药物(比如，沙利度胺和来那度胺(REVLIMID))。有经验的医生或肿瘤学家能够基于诸如肿瘤类型、癌症阶段、先前暴露于癌症治疗或治疗剂的特征以及癌症的其他特性来选择适当的癌症治疗剂。

V.癌症分类器的示例结果

V.A.样品收集和处理

研究设计和样品：CCGA(NCT02889978)是一项具有前瞻性的多中心型病例对照式观察性研究，具有纵向随访。从142个地点的近似15000名参与者收集未经标识的生物样品。样品被细分为训练组(1785)和测试集(1015)；选择样品以确保每个队列中癌症类型和非癌症跨越位点的预先指定分布，并且癌症样品和非癌症样品按性别进行频率年龄匹配。

全基因组重亚硫酸氢盐测序：从血浆中分离出cfDNA，并且采用全基因组重亚硫酸氢盐测序(WGBS；30x深度)用于分析cfDNA。使用改良的QIAamp循环核酸试剂盒(Qiagen；Germantown，MD)从每位患者的两管血浆(合并体积高达10ml)中提取cfDNA。使用EZ-96DNA甲基化试剂盒(Zymo Research，D5003)对高达75ng的血浆cfDNA进行重亚硫酸氢盐转换。经转换的cfDNA用于使用Accel-NGS Methyl-Seq DNA文库制备试剂盒(Swift BioSciences；Ann Arbor，MI)制备双索引测序文库，并且使用Illumina Platforms的KAPA文库定量试剂盒(KAPA Biosystems；Wilmington，MA)对所构建的文库进行量化。合并四个文库以及10％PhiX v3文库(Illumina，FC-110-3001)，并且将其在Illumina NovaSeq 6000S2流动池上进行群集，随后进行150-bp配对末端测序(30x)。

对于每个样品，将WGBS片段集合缩减为具有异常甲基化模式的小片段子集。附加地，选择高甲基化的cfDNA片段或低甲基化的cfDNA片段。选择cfDNA片段具有异常甲基化模式，并且是高甲基化或超甲基化的，即，UFXM。在没有患有癌症或具有不稳定甲基化的个体中以高频率出现的片段不太可能产生用于分类癌症状态的高度区别性特征。因此，我们使用来自CCGA研究的没有患有癌症的108名非吸烟参与者(年龄：58±14岁，79[73％]女性)的独立参考集合(即，参考基因组)产生了典型片段的统计模型和数据结构。这些样品用于对马尔可夫链模型(3级)进行训练，从而估计片段内给定CpG甲基化状态序列的似然性，如上文在第II.B章节中所描述的。证明该模型在正常片段范围内被校准(p值>0.001)，并且由于不够不寻常，所以将其用于摒除来自马尔科夫模型的p值为>＝0.001的片段。

如上文所描述的，其他数据简化步骤仅选择覆盖有至少5个CpG的片段，并且平均甲基化要么>0.9(高甲基化)要么<0.1(低甲基化)。该过程导致训练时没有患有癌症的参与者的中值(范围)为2800(1500至12000)个UFXM片段，而训练时患有癌症的参与者的中值(范围)为3000(1200至220000)个UFXM片段。由于该数据简化过程仅使用参考集合的数据，所以该阶段仅需要应用于每个样品一次。

V.B.起源组织癌症分类

图5至图7、图11、图12A、图12B、图16A、图16B、图17和图18图示了根据一个实施例的描述了各种经训练的癌症分类器的癌症预测准确性的许多曲线图。被用来产生图5至图7、图11、图12A、图12B、图16A、图16B、图17和图18所示的结果的癌症分类器根据上文在图3A中描述的过程300的示例实现方式进行训练。

分析系统选择要在癌症分类中考虑的CpG位点。与所有其他样品相比较，计算具有给定癌症类型的训练样品的信息增益。例如，使用两个随机变量‘异常片段’(‘AF’)和‘癌症类型’(‘CT’)。CT是指示癌症是否为特定类型的随机变量。分析系统计算关于给定AF的CT的互信息。也就是说，如果知道是否存在与特定CpG位点重叠的异常片段，则可以获得关于癌症类型的多少位的信息。对于给定癌症类型，分析系统使用该信息基于癌症的特异性来对CpG位点进行排名。针对所有考虑中的癌症类型，重复该程序。每种癌症类型的经排名的CpG位点被急切地添加(例如，以获得近似3000个CpG位点)，用于癌症分类器。

对于样品的特征化，分析系统标识每个样品中具有异常甲基化模式的片段以及UFXM片段。对于一个样品，分析系统计算所考虑的每个选择CpG位点的异常分数(～3000)。分析系统基于样品是否具有涵盖CpG位点的UFXM片段来通过二进制评分定义异常分数。

图5图示了根据一个示例实施方式的示出了多类别癌症分类器针对各种癌症类型的癌症预测准确性的许多曲线图。在该说明性示例中，多类别癌症分类器被训练为根据11种癌症类型来区分特征向量：乳腺癌症类型、结肠直肠癌症类型、食管癌症类型、头/颈癌症类型、胆道癌症类型、肺癌症类型、淋巴瘤癌症类型、卵巢癌症类型、胰腺癌症类型、非癌症类型和其他癌症类型。本实施例中使用的样品来自已知具有癌症类型中的每种癌症类型的受试者。例如，癌症类型样品队列被用来验证癌症分类器在称作乳腺癌症类型时的准确性。而且，所使用的样品来自处于不同癌症阶段的受试者。

对于乳腺癌队列、结肠直肠癌队列和肺癌队列，癌症分类器在准确预测后续癌症阶段中的癌症类型时逐渐更准确。对于头/颈队列、卵巢队列和胰腺队列，癌症分类器在稍后阶段(即，阶段III和/或阶段IV)的准确性增加。对于食道队列和胆道队列，癌症分类器也具有稍后阶段准确性，即，阶段III和阶段IV。对于非癌症队列，癌症分类器在预测非癌症样品不可能患有癌症时完全准确。最后但并非最不重要的是，淋巴瘤队列在不同阶段都取得了成功，其中在准确预测处于癌症的阶段II的样品时取得了最高成功。

图6图示了根据一个示例实现方式的示出了多类别癌症分类器在首次使用二进制癌症分类器之后针对各种癌症类型的癌症预测准确性的许多曲线图。在该示例中，分析系统首先将来自许多癌症类型群组的样品输入到二进制癌症分类器中，以确定样品是否可能患有癌症或不患有癌症。然后，分析系统将被确定为可能患有癌症的样品输入到多类别癌症分类器中，以预测这些样品的癌症类型。所考虑的癌症类型包括：乳腺癌症类型、结肠直肠癌症类型、食管癌症类型、头颈癌症类型、胆道癌症类型、肺癌症类型、淋巴瘤癌症类型、卵巢癌症类型、胰腺癌症类型和其他癌症类型。

与图5中的示例相比较，当首次使用二进制癌症分类器，然后使用多类别癌症分类器时，分析系统的准确性得以提高。在乳腺癌队列、结肠直肠癌队列、肺癌队列和淋巴瘤癌队列中，分析系统的准确性总体上有所提高。具体地，在癌症的早期阶段，即，阶段I、阶段II甚至阶段III，分析系统对这些癌症类型中的每种癌症类型的预测准确性都有显著提高。

图7图示了根据一个示例实现方式的示出了经训练的癌症分类器的性能的混淆矩阵。在根据过程300进行训练的一个示例中，针对每种癌症类型，在所导出的特征向量上对具有岭回归惩罚的多类别核逻辑回归(KLR)分类器进行训练，其中对权重进行惩罚并且对偏差项进行固定惩罚。在未用于选择高相关性位置的训练数据中的一部分上(使用对数损失)对岭回归惩罚进行优化，并且一旦找到最佳参数，就在整个局部训练折叠集合上对逻辑分类器进行重新训练。然后，选择高相关性位点和分类器权重应用于新数据。在CCGA训练组内，重复保留一个折叠，选择9个折叠中的8个折叠上的相关位点，在第9个集合上对KLR分类器的超参数进行优化，并且在10个折叠中的9个折叠上对KLR进行重新训练并且将其应用于保留折叠。这被重复10次以估计CCGA训练组中的TOO。对于CCGA测试集，选择CCGA训练的10个折叠中的9个折叠上的相关位点，在第10个折叠上对超参数进行优化，并且在所有CCGA训练数据上对KLR分类器进行重新训练，并且选择位点和KLR分类器应用于测试集。所考虑的癌症类型包括：多发性骨髓瘤癌症类型、结肠直肠癌症类型、淋巴瘤癌症类型、卵巢癌症类型、肺癌症类型、头/颈癌症类型、胰腺癌症类型、乳腺癌症类型、胆管癌症类型、食管癌症类型和其他癌症类型。其他癌症类型包括CCGA内收集的样品少于5个的癌症，诸如肛门直肠癌、膀胱癌、原发性TOO未知的癌症、宫颈癌、胃癌、白血病、黑色素瘤、前列腺癌、肾甲状腺癌、子宫癌和其他附加癌症。

混淆矩阵示出了具有患有已知癌症TOO(沿着x轴)和预测癌症TOO(沿着y轴)的样品的癌症类型之间的一致性。为了验证经训练的KLR分类器的性能，使用KLR分类器对每种癌症类型的样品队列(针对，每种癌症类型，沿着y轴的括号中所指示的)进行分类。x轴指示在每种癌症类型下对每个队列中的多少样品进行分类。例如，对于具有患有已知肺癌的25个样品的肺癌症队列，KLR分类器预测一个样品患有卵巢癌、19个样品患有肺癌、两个样品患有头/颈癌、一个样品患有胰腺癌、一个样品患有乳腺癌、以及一个样品被标记为其他癌症类型。值得注意的是，对于除其他癌症类型之外的所有癌症类型，KLR分类器准确预测了每个队列的一半以上，其中对于癌症类型的多发性骨髓瘤(2/2或100％)、结肠直肠(18/20或90％)、淋巴瘤(8/9或88.8％)、卵巢(4/5或80％)、肺(19/25或76％)和头/颈(3/4或75％)具有特别高的准确性。这些结果证明了KLR分类器的预测准确性。

图11图示了一个示例实现方式中的演示了具有附加血液学癌症亚型的经训练的癌症分类器的性能的混淆矩阵。根据上文所描述的原理来训练癌症分类器，比如，关于图7的癌症分类器示例结果。血液学亚型的TOO标记包括霍奇金氏淋巴瘤(HL)、NHL侵袭性、NHL惰性、髓样、循环淋巴瘤(或淋巴样)和浆细胞。值得注意的是，1076个样品中的分类精确度为87.5％。

图12A和图12B图示了一个示例实施方式中的示出了多种癌症类型在不同癌症阶段的癌症预测准确性的曲线图。在该示例中，根据上文所描述的过程100在修剪非癌症样品之后训练癌症分类器。分析系统确定血液学亚型的多个TOO阈值。分析系统排除至少一个TOO概率等于或大于血液学亚型的对应TOO阈值的非癌症样品。所示出的曲线图示出了如下癌症类型的癌症在不同阶段的分类灵敏度：肛门直肠癌、膀胱和尿路上皮癌、乳腺癌、宫颈癌、结肠直肠癌、头颈癌、肝癌和胆管癌、肺癌、黑色素瘤、卵巢癌、胰腺癌和胆囊癌、前列腺癌、肾癌、肉瘤、甲状腺癌、上消化道癌和子宫癌。每种癌症类型的曲线图示出了使用不使用TOO阈值化的第一癌症分类器(被标记为“locked_v1_orgi”使用TOO阈值化的第二癌症分类器(被标记为“v2_custom”在每种癌症类型阶段的预测灵敏度。值得注意的是，对于很多癌症类型而言，给定更多样品可用于验证，第二癌症分类器具有较高预测准确性，并且同时维持严格的置信区间。尤其值得注意的是，很多癌症类型在阶段I和II水平的预测准确性更高，从而指示使用TOO阈值化在早期癌症中的预测潜力有所提高。

示例血液学特异性分类器

图16A、图16B、图17和图18图示了根据第一示例实现方式的示出了血液学特异性癌症分类器的癌症预测准确性的曲线图。首先，从第二预先指定的CCGA子研究中获取cfDNA样品，该第二预先指定的CCGA子研究被设计为用于靶向甲基化测定验证。在该示例中，使用训练组样品，并且包括来自内部组织活检参考数据库的肿瘤组织样品用于分类模型训练。具体而言，被用来训练血液学恶性肿瘤的定制分类模型的样品来自被登记为被诊断为血液系统癌症的参与者(癌症病例)和被登记为没有被诊断为癌症的参与者(非癌症对照者)。还包括血液学恶性肿瘤的154个血细胞样品或组织FFPE样品。在一年随访中，总共包括患有血液系统癌症的185名参与者和被确认没有被诊断为癌症的1998名非癌症对照者的cfDNA样品用于评价性能。

在第一实施例中，对癌症分类器进行训练，以区分五种血液学亚型和癌症不存在(“非癌症”)。五种血液学亚型是髓样肿瘤、非霍奇金氏淋巴瘤(NHL)、循环淋巴瘤、浆细胞瘤和霍奇金氏淋巴瘤(HL)。经交叉验证的互信息算法被用来标识区分五种血液学亚型和对照类别的特征。然后，多项式分类器被训练为检测癌症存在或癌症不存在，并且使用6折叠交叉验证来预测五种血液学癌症和非癌症中的起源组织。

经训练的血液学特异性分类器在对照者中实现了>99.4％[95％置信区间(CI)：99.0％至99.7％]的总体特异性，并且在血液学癌症中实现了74.3％[95％ CI:67.4％至80.5％]的灵敏度。图16A图示了示出了分类器跨越血液学亚型的99.5％特异性水平下的灵敏度的曲线图。每个血液学亚型的血液学特异性癌症分类器的灵敏度按升序排列，其中类别标签中的数字指示样品的数目，并且误差条示出了95％置信区间。骨髓瘤分类有四个样品，其灵敏度略低于50％，其中宽95％置信区间的范围为～10％至～90％。这种较低的灵敏度可能是由于训练中使用的样品有限。在图16A的实施例中，NHL、循环淋巴瘤、浆细胞瘤和HL比髓样肿瘤具有更好的灵敏度，约70％至87％。具体而言，血液学亚型对髓样肿瘤的灵敏度为45.8％[95％ CI：5.3％至91.6％]，对循环淋巴瘤的灵敏度为76.5％[95％ CI：61.3％至88.0％]，对于霍奇金氏淋巴瘤的灵敏度为86.1％[95％ CI：54.7％至98.7％]，对其他非霍奇金氏淋巴瘤的灵敏度为71.3％[95％ CI：60.8％至80.3％]，对浆细胞瘤的灵敏度为78.9％[95％ CI：61.6％至91.0％]。

图16B图示了示出了分类器跨越霍奇金氏淋巴瘤和非霍奇金氏淋巴瘤的阶段的95％特异性下的灵敏度的曲线图。阶段I灵敏度(15个样品中)为～25％。阶段II灵敏度(27个样品中)为～85％。阶段III灵敏度(27个样品中)为～75％。阶段IV灵敏度(32个样品中)为～85％。该曲线图示出了血液学特异性癌症分类器在阶段I与阶段II之间(以及其他)的灵敏度显著增加。具体而言，对于淋巴瘤(HL和NHL)而言，针对阶段I，按阶段的灵敏度为25.6％[95％ CI：7.2％至54.0％]；针对阶段II，按阶段的灵敏度为84.6％[95％ CI：65.5％至95.5％]；针对阶段III，按阶段的灵敏度为72.8％[95％ CI：52.4％至88.0％]；并且针对阶段IV，按阶段的灵敏度为83.9％[95％ CI：66.6％至94.4％]。

图17图示了第一示例实现方式中的示出了血液学特异性癌症分类器的癌症预测准确性的混淆矩阵。每个框中的数字表示所预测的样品总数。在混淆矩阵中，着色/遮蔽对应于所预测的血液学亚型的比例，如绘图的右侧所示。同样，正确预测的百分比被指示在曲线图的右侧。对癌症病例的起源组织定位进行评估，这些病例通过TOO多类分类器正确检测为血液学癌症。如图17所示，血液学特异性分类器实现了87.7％的总体TOO预测准确性，霍奇金氏淋巴瘤和髓样肿瘤显示出最高的预测准确性(100％)，其次是浆细胞瘤(96.4％)、非霍奇金氏淋巴瘤(85.9％)和循环淋巴瘤(80％)。在被归类为患有血液学癌症的11名非癌症对照者(非癌症对照者的0.55％)中，5名被预测为患有循环淋巴瘤，6名被预测为患有其他非霍奇金氏淋巴瘤(假阳性率<1％)，大多数显示可靠的TOO信号定位于所预测的血红素类别(≥总概率质量的50％)。

在一些示例中，可以使用UMAP方法生成对最终分类器有效的甲基化特征的低维表示，该UMAP方法保留了高维数据的拓扑结构。例如，在上文所讨论的图9B中，UMAP嵌入显示大多数血液学恶性肿瘤分离成五个主要集群，这五个主要集群反映了发育谱系和疾病个体发生。绝大多数非癌症对照者(在图9B中使用轮廓密度示出)与血液学癌症分开群集。

然后，散点图被用来可视化特征嵌入的空间分布与模型的类别概率之间的关系。例如，图18图示了一个示例性实施方式中的绘制了癌症分数相对于在UMAP嵌入与质心相距的距离的一系列曲线图。UMAP嵌入与图9B的UMAP嵌入相同。x轴绘制了样品为癌症的logit变换概率，即，癌症的logit分数。logit函数(还被称为对数几率)是几率p/(1-p)的对数，其中p是概率。y轴绘制了UMAP嵌入的与质心相距的欧几里得距离。这些绘图描绘了癌症分数与在各种血液学亚型的UMAP嵌入中的定位之间的相关性。曲线图1810描绘了髓样肿瘤亚型的相关性。曲线图1820描绘了NHL亚型中的相关性。曲线图1830描绘了循环淋巴瘤亚型中的相关性。曲线图1840描绘了HL亚型中的相关性。曲线图1850描绘了浆细胞瘤亚型中的相关性。曲线图1860描绘了非癌症样品中的最小相关性。如图18所示，它们的UMAP嵌入定位与分类分数之间存在强的正相关性。

如示例血液学特异性分类器所演示的，血液学恶性肿瘤的定制分类器提供了一种同时检测和区分五种主要血液学恶性肿瘤的方便方式，有助于临床诊断和治疗选择。这样，定制分类器可以实现对多种癌症更为灵敏的检测，并且可以被用来提高癌症检测和TOO预测准确性。

图19、图20和图21图示了根据第二示例实现方式的示出了血液学特异性癌症分类器的癌症预测准确性的曲线图。首先，从第二预先指定的CCGA子研究中获取cfDNA样品，该第二预先指定的CCGA子研究被设计为用于靶向甲基化测定验证。在该示例中，使用训练组样品，并且包括来自内部组织活检参考数据库的肿瘤组织样品用于分类模型训练。具体而言，被用来训练血液学恶性肿瘤的定制分类模型的样品来自被登记为被诊断为血液系统癌症的参与者(癌症病例)和被登记为没有被诊断为癌症的参与者(非癌症对照者)。总共包括患有血液系统癌症的534名参与者的cfDNA样品用于评价性能。

在第二示例实现方式中，对癌症分类器进行训练，以区分七种血液学亚型和癌症不存在(“非癌症”)。七种血液学亚型是髓样肿瘤、非霍奇金氏淋巴瘤(NHL)、循环淋巴瘤、浆细胞瘤、霍奇金氏淋巴瘤(HL)、heme_1和heme_3。亚型heme_1和heme_3是指可能会发展为血液学癌症(诸如其他血液学亚型)的两种类型的血液学前体疾病。血液学前体疾病可能包括但不限于意义不确定的单克隆免疫球蛋白病或单克隆B细胞淋巴细胞增多症。经交叉验证的互信息算法被用来标识区分七种血液学亚型和非癌症类别的特征。然后，多项式分类器被训练为检测癌症存在或癌症不存在，并且使用6折叠交叉验证来预测五种血液学癌症和非癌症中的起源组织。

图19图示了绘制了用于血液学特异性癌症分类的多个训练样品的异常分数的曲线图。参考附图，“M”是指髓样肿瘤血液学亚型，“H3”是指heme_3血液学亚型，“HL”是指霍奇金氏淋巴瘤血液学亚型，“nHL”是指非霍奇金氏淋巴瘤亚型，“CL”是指循环淋巴瘤血液学亚型，“H1”是指heme_1血液学亚型，并且“P”是指浆细胞瘤血液学亚型。y轴上是根据互信息增益选择使用的几个排名靠前的特征。如此，第一列示出了与第二列中示出的其他血液学亚型中的每个血液学亚型相比的每个血液学亚类型。跨越x轴是按已知血液学亚型分组的训练样品。例如，“nHL”列下是已知被标记为非霍奇金氏淋巴瘤血液学亚型的训练样品。分析系统确定选择特征中的每个选择特征的异常分数。在该实现方式中，异常分数是基于覆盖该特征的经异常甲基化的片段的存在(以白色示出)或不存在(以灰色示出)的二进制分数。值得注意的是，沿着主对角线(从左上到右下)的白色区域提供了对血液学亚型进行分类时的辨别力的指示。在一行内，如果跨越来自不同血液学亚型的不同样品散布的一个特征是白色的，则指示该特征的辨别力较小并且具有噪声。

图20图示了示出了血液学特异性癌症分类器在99.5％特异性下的灵敏度的曲线图。每个血液学亚型的左侧组的数据是用于被用来训练血液学特异性癌症分类器的训练组；然而，右侧组的数据是用于保留组。跨越底部x轴，在每个血液学亚型的标签后面分别标记训练组和保留组中存在的样品的数目。示出了在每个亚型的训练组和保留组下测量的灵敏度的95％置信区间。heme_1亚型对训练组和保留组两者具有较低的灵敏度。heme_3亚型对训练组和保留组两者具有～25％的灵敏度。髓样肿瘤亚型对训练组(准确预测了1/2的训练样品)具有50％的灵敏度而对保留组(准确预测了1/1的保留样品)具有100％的灵敏度。循环淋巴瘤亚型对两个集合的灵敏度均为～70％。非霍奇金氏淋巴瘤亚型对训练组的灵敏度为～70％而对保留组的灵敏度为～75％。浆细胞瘤亚型对这两个集合的灵敏度均为～75％。霍奇金氏淋巴瘤亚型对训练组的灵敏度为80％而对保留组的灵敏度为～70％。

图21图示了第二示例实现方式中的示出了血液学特异性癌症分类器的癌症预测准确性的混淆矩阵。每个框中的数字表示所预测的样品总数。在混淆矩阵中，着色/遮蔽对应于所预测的血液学亚型的比例，如绘图的右侧所示。同样，正确预测的百分比被指示到曲线图的右侧。对癌症病例的起源组织定位进行评估，这些癌症病例通过TOO多类分类器被正确检测为血液学癌症。如图21所示，血液学特异性分类器实现了～75％的总体TOO预测准确性。浆细胞瘤亚型的预测准确性为100％，其中17个已知样品中有17个样品得以准确预测。Heme_1亚型的预测准确性为25％，其中4个已知样品中有1个样品得以准确预测。循环淋巴瘤亚型的预测准确性为92.6％，其中27个已知样品中有25个样品得以准确预测。非霍奇金氏淋巴瘤亚型的预测准确性为87.3％，其中55个已知样品中有48个样品得以准确预测。霍奇金氏淋巴瘤亚型的预测准确性为100％，其中8个已知样品中有8个样品得以准确预测。Heme_3亚型的预测准确性为95％，其中20个已知样品中有19个样品得以准确预测。骨髓瘤的预测准确性为100％，其中1个已知样品中有1个样品得以准确预测。

如第二示例血液学特异性分类器所演示的，用于血液学恶性肿瘤和血液学前体条件的定制分类器也能够标识最终可以发展为血液学恶性肿瘤的这种前体条件。这种对前体条件的分类能力证明有助于标识后来可能发展为血液学恶性肿瘤的个体，这可以导致甚至更早的临床诊断和治疗选择。这样，定制分类器可以实现对多种癌症的甚至更为灵敏的检测，并且可以被用来提高癌症检测和TOO预测准确性。

VI.对关于癌症轨迹的多癌症早期检测筛查的微观模拟

VI.A.模拟系统

在一个实施例中，模拟系统执行微观模拟，以对多个参与者的一个或多个早期癌症检测筛查的效果进行建模，以模拟随机对照试验(RCT)。微观模拟可以模拟早期检测筛查对参与者的个体轨迹的影响。特别地，虽然大多数筛查形态针对单种癌症类型，但本文中所执行的微观模拟可以使用例如能够检测多种类型的癌症的多癌症早期检测(MCED)筛查来模拟检测模型对患有多种类型的癌症的参与者群体的个体轨迹的效果。在一个实施例中，微观模拟通过利用并行处理技术来执行，并且在一个实例中，可以使用编程语言Julia来执行。Julia可以通过编译和提供多处理环境两者来实现快速原型设计和开发，并且在运行时加快实行速度，在该多处理环境中，可以方便地在多个进程上运行模拟。Julia可以将诸如R和Python之类的“脚本”语言的交互性和语法与诸如C之类的“编译”语言的速度相结合，从而成功地解决了两语言问题。两语言问题可能包括以下情形：算法以易于阅读的编程语言进行编码，但以运行速度很快的另一编程语言进行重写。

在一个实施例中，MCED筛选模拟一个或多个机器学习癌症检测模型的性能。在一个实例中，机器学习癌症检测模型可以是说明书的第III章节中描述的癌症检测模型中的任一癌症检测模型。例如，癌症检测模型可以是经由图3A中的过程300训练的癌症分类器或经由过程450训练的多类别癌症分类器。而且，一个或多个癌症检测模型可以被配置为使得每个癌症检测模型对相应类型的癌症进行分类，或可以被配置为多类别癌症检测模型，其中一个癌症检测模型对两种或更多种类型的癌症进行分类。

图22图示了根据一个实施例的不同研究长度下的模拟RCT结构和结果测量。多个参与者可以在登记时间被登记在RCT中，并且包括被指派给控制组的参与者的第一子集和被指派给干预组的参与者的第二子集。对于多个参与者中的一个参与者，模拟系统可以生成参与者的轨迹，该轨迹是参与者的癌症进展和诊断事件的时间轴。特别地，诊断事件可以包括通过临床症状或现有筛查形态对癌症进行临床诊断。对于干预组中的参与者，模拟系统还可以模拟一个或多个筛查时间处的MCED筛查，以更新参与者的轨迹。特别地，经更新的轨迹的诊断事件可以包括通过影响参与者的生存时间的MCED筛查对癌症进行早期诊断。模拟系统可以比较控制组和干预组之间与癌症进展和诊断有关的一个或多个度量，以确定MCED筛查的影响。在一个实施例中，度量包括阶段转变和死亡率降低。

图22所图示的示例RCT示出了在登记时间Y0被登记在RCT中的140000名参与者的RCT。参与者的第一子集(70000名参与者)被指派为控制组，而参与者的第二子集(700000名参与者)则被指派为干预组。对于多个参与者中的一个参与者，模拟系统生成参与者的轨迹。对于干预组中的一个参与者，模拟系统在筛查时间Y0、Y1、Y2模拟三次MCED筛查，以基于MCED筛查的性能来更新参与者的轨迹。下文关于图23和图24对模拟个体轨迹的细节进行进一步描述。在一个实例中，筛查时间相隔一年。因此，第二筛查时间Y1可以是登记时间和第一筛查时间Y0之后的一年，并且第三筛查时间Y2可以是第二筛查时间Y1之后的一年。

如下文所进一步详细描述的，模拟系统确定控制组和干预组之间与癌症进展和诊断有关的一个或多个度量，以确定三次MCED筛查的影响。可以相对于一个或多个评价时间来确定度量。在图22所图示的示例中，模拟系统可以确定癌症检测模型的阳性预测值(PPV)，该PPV指示模型被正确估计为患有癌症的参与者在模型被估计为患有癌症的参与者中的比例。作为另一示例，模拟系统可以确定在评价时间Y1(即，第一筛查时间Y0之后的一年随访时间)被诊断为阶段IV癌症的参与者减少。作为另一示例，模拟系统可以确定在评价时间Y3(即，第三筛查时间Y2之后的一年随访时间)被诊断为阶段III和阶段IV癌症的参与者的减少。作为又一示例，模拟系统可以确定参与者在附加随访时间Y5至Y11中的任一随访时间的死亡率的减少，其中Y5是在时间Y3之后两年，并且每个顺序时间是在前一时间之后的一年。

本文中所描述的微观模拟提供了一个灵活的计算高效的框架，用于估计RCT的结果，以检测癌症检测、阶段转变和潜在死亡率减少的临床显著终点。微观模拟还可以估计经模拟的RCT的多个参数选择的统计功效，并且考虑数据的多个变化水平。该结果可以被用来估计早期癌症检测筛查对患有多种类型的癌症的患者群体的危害和益处，并且指导制定适当的筛查标准。而且，本文中所描述的微观模拟方法可以提供一种使用并行处理技术全面执行针对多癌症群体的RCT模拟的方式，而非执行各自针对特定类型的癌症而定制的多个分开的RCT模拟。附加地，本文中所描述的微观模拟方法可以具有时效性、成本效益、灵活性和强效型，从而允许在模拟多种癌症类型之后对多个子集进行并行模拟，而非进行分开模拟。

VI.B.个体轨迹的模拟

模拟系统可以模拟RCT的多个参与者的个体癌症轨迹，以确定MCED筛查的影响。在一个实施例中，模拟系统模拟多个RCT重复。在一个实例中，模拟系统模拟RCT的500个实例。模拟系统可以跨越多个(例如，96个)核并行实行模拟。如下文所进一步详细描述的，在一个实施例中，模拟系统首先模拟控制组和干预组中的多个参与者的个体轨迹，以在没有MCED筛查的情况下确定现有临床设置下的癌症进展和诊断事件。然后，模拟系统模拟干预组中的参与者的一次或多次MCED筛查，并且依据筛查结果来更新这些参与者的诊断事件。

用于临床诊断的个体轨迹的模拟

对于RCT实例的多个参与者中的一个参与者，模拟系统可以生成参与者的轨迹，该轨迹是参与者的癌症进展和诊断事件的时间轴。特别地，诊断事件可以包括通过临床症状或现有筛查形态对癌症进行临床诊断。因此，控制组和干预组的参与者的这种初始轨迹可以在没有MCED筛选的情况下模拟癌症进展和诊断事件。在一个实施例中，基于包括癌症发病率、诊断阶段分布和来自先前研究的生存统计数据的经验数据来生成参与者的轨迹。在一个实例中，从2006年到2015年被诊断为原发性癌症时随访直至2018年12月以了解生命状态的年龄为50岁至79岁的群体的经验数据(“SEER数据”)从美国国家癌症研究所的监测、流行病学和最终结果(SEER)计划(https://seer.cancer.gov/)获得。

图23图示了根据一个实施例的来自控制组或干预组的参与者的癌症轨迹的模拟。在图23所示的示例中，模拟系统生成控制组中的参与者Ci的轨迹。然而，应当领会，可以对干预组中的参与者执行相似过程。而且，为了便于解释，附图图示了用于被模拟的参与者的个体轨迹以在时间轴上显示癌症进展和诊断事件的时间轴。然而，应当领会，在实际实现方式中，模拟系统可以使用任何方法在存在或不存在这种时间轴的情况下模拟这些事件。

模拟系统对参与者的临床诊断时间段进行采样。特别地，在参与者的临床诊断时间段相对于登记时间已经过去之后，预期参与者被临床诊断为癌症。临床诊断时间段可以是例如0年至5年、0年至10年等。如本文中所定义的，当通过临床症状、各类型的癌症的现有筛查形态或不包括早期MCED筛查的其他现有癌症诊断方法来诊断癌症时，发生临床诊断。在一个实施例中，临床诊断时间段从指数分布中采样，该指数分布由从经验数据(诸如SEER数据)的癌症发病率获得的均值比率定义，该经验数据包括关于先前癌症患者和现有癌症患者的诊断时间段的数据。在这种实例中，假设个体参与者的第一癌症的发生随着时间的推移是一致的。这导致参与者患癌症的时间(例如，首次临床癌症诊断)呈指数分布。在一个实例中，通过使用负对数是指数分布的累积分布函数的倒数的关系，从[0，1]之间的均匀分布中采样一个数字并且取经采样的值的负对数，生成用于对临床诊断时间段进行采样的指数分布。在一个实例中，由于通过筛查，第一癌症可能并非最可检测癌症，所以针对一个或多个受试者，模拟多种癌症。

对于多个参与者中的每个参与者，模拟系统可以对参与者的癌症类型和癌症诊断阶段进行采样。在一个实施例中，参与者的癌症类型从多项式分布中采样，该多项式分布由一组癌症类型和用于对每种癌症类型进行采样的对应概率表征。可以基于来自经验数据的癌症类型的频率来确定概率。在一个实例中，一组癌症类型包括经由MCED筛查可检测到的50种AJCC癌症类型，包括乳腺癌(HR+、HR-、HR未知)和肺癌(腺癌、鳞状细胞癌、小细胞癌、所有其他)的亚类。在一个实施例中，诊断阶段还从多项式分布中采样，该多项式分布由癌症一组阶段和用于对每个阶段进行采样的对应概率表征。概率可以基于来自经验数据的诊断阶段的频率来确定。在一个实例中，诊断一组阶段包括阶段I、II、III和IV。

临床诊断时间段可能因癌症类型而有所不同。例如，患有肺癌的参与者的临床诊断时间段可以从均值3年的指数分布中采样，患有乳腺癌的参与者的一个临床诊断时间段可以从均值1年的指数分布中采样。因此，模拟系统可以通过将登记时间Y0和经采样的临床诊断时间段相加来确定临床诊断时间。如本文中所定义的，癌症的检测时间可以是得知癌症存在的时间，并且临床诊断时间可以是其中在没有早期癌症检测筛查的影响的情况下癌症被临床诊断的一种类型的检测时间。

在图23所示的示例中，模拟系统(例如，从指数分布)对临床诊断时间段进行采样。模拟系统将临床诊断时间确定为参与者的癌症将被临床诊断时的时间t₁。模拟系统还对参与者C_i的癌症类型和诊断阶段进行采样2304。特别地，参与者C_i中的癌症类型从多项式分布中采样，其中参数n_ct表示一组癌症类型，而参数p_ct表示癌症类型的对应概率。参与者C_i的诊断阶段从多项式分布中采样，其中参数n_cs表示癌症一组阶段，而p_cs表示癌症一组阶段的响应概率。基于所采样的值，在临床诊断事件时，参与者C_i被指派为进展到阶段III的肺癌。

模拟系统在临床诊断之前确定参与者癌症的一个或多个阶段的进展。在一个实施例中，模拟系统通过确定每个阶段的停留时间来确定癌症进展的一个或多个阶段，该停留时间指示在没有临床干预的情况下癌症在进展到下一阶段之前将停留在该阶段的时间跨度。模拟系统可以依序使用每个阶段的停留时间来追溯每个阶段的开始时间。例如，可以从临床诊断时间中减去当前阶段(临床诊断阶段，例如，阶段III)的停留时间，以确定当前阶段的开始时间。可以从当前阶段的开始时间减去前一阶段(例如，阶段II)的停留时间，以确定前一阶段的开始时间，以此类推，直至癌症的开始时间。

在一个实施例中，参与者每癌症阶段每癌症类型的停留时间从由均值比率定义的相应指数分布中采样。在一个实例中，模拟系统考虑了各种肿瘤生长速率场景，并且生成表示慢生长速率、快生长速率和极快生长速率的三个肿瘤生长速率集合。被指派为慢生长速率的癌症类型的停留时间的指数分布对于阶段I可能具有3年至7年的均值(对于稍后阶段，具有较短的均值时间)，被指派为快生长速率的癌症类型的停留时间对于阶段I可能具有2年至4年的均值(对于稍后阶段，具有较短的均值时间)，并且被指派为极快速率的癌症类型的停留时间对于阶段I可能具有1年至2年的均值(对于后期阶段，具有更短的均值时间)。当前阶段的时间可以在当前阶段的停留时间内均匀分布。

在图23所示的示例中，模拟系统在参与者Ci的临床诊断时间t₁之前确定2306癌症的一个或多个阶段的进展。模拟系统获得三个指数分布，其对肺癌的阶段I、阶段II和阶段III的停留时间进行建模。模拟系统根据相应指数分布对每个阶段的停留时间进行采样。特别地，通过从当前阶段的停留时间均匀采样来进一步确定当前阶段的时间。模拟系统从临床诊断时间t₁中减去当前阶段的时间，以将III阶段的开始时间确定为时间t₂。模拟系统从阶段III的开始时间减去阶段II的停留时间，以将阶段II的开始时间确定为时间t₃。模拟系统从阶段II的开始时间减去阶段I的停留时间，以将阶段I的开始时间和肺癌的开始确定为时间t₄。

在一个实施例中，模拟系统确定临床诊断时间段以及临床诊断时的癌症类型和诊断阶段，以纳入随时间变化的癌症发病率。具体而言，参与者随时间变化的恒定癌症发病率(例如，均值癌症发病率)可能适合短的前导时间，但当癌症发病率随时间变化(例如，年龄越大，癌症发病率越高)并且前导时间越长时，这种近似可能会受到限制。许多类型的癌症通常都是这种情况，因为癌症的发病率通常会随着年龄的增长而增加。

模拟系统可以获得诸如SEER数据之类的来源，这些来源包括按年龄的癌症发病率强度。该模拟系统可以将癌症发病率转换为按年龄的癌症的累积分布函数(CDF)。例如，模拟系统可以构造CDF，使得所有癌症的25％在80岁之前被诊断。在一个实例中，模拟系统通过对均匀变量进行采样并且应用所构造的按年龄的癌症发病率的CDF的倒数来生成临床诊断时间段。这种反函数可以通过使用函数近似技术或任何其他适当技术凭经验生成。

在一个实施例中，模拟系统模拟之前没有诊断出癌症的在预定年龄开始筛查的参与者。例如，模拟系统可以模拟均匀登记年龄，其中多个参与者具有相同的年龄(例如，50岁)并且被模拟为在预定数年(例如，30年)内进行筛查。作为另一示例，模拟系统可以基于可以从群体表中抽取的群体分布来模拟多个参与者(例如，50岁至80岁的个体加上基于升高的风险因素的较年轻的个体)。在又一示例中，模拟系统可以模拟滚动登记模型，其中所有参与者都在特定开始日期(例如，2023年)进行登记，但是例如允许2024年年满50岁的参与者重新登记。

对于给定年龄的被模拟的参与者，模拟系统可以通过从给定年龄分布的参与者的年龄的分位数开始生成均匀随机数来生成临床诊断时间段(条件是在研究的登记时间的年龄之前没有被诊断为患有癌症)。例如，对于50岁的参与者，模拟系统可以对[0.6，1]之间的均匀随机变量进行采样，这可以通过例如对区间进行乘法细分来完成。该模拟系统可以将按年龄的癌症发病率的CDF的倒数应用于所采样的值。在一个实例中，模拟系统可以被模拟的参与者，条件是不同类型的临床变量，诸如性别(例如，男性、女性)、参与者是否是吸烟者、非吸烟者、曾吸烟者等。该模拟系统可以获得每个临床变量的癌症发病率的CDF，并且通过执行上文所描述的采样过程并且应用癌症发病率的CDF的倒数来生成与该临床变量相关联的参与者的临床诊断时间。

模拟系统还可以指派所模拟的参与者的癌症类型和诊断阶段，以纳入随年龄变化的发病率的变化。具体而言，模拟系统可以将癌症类型和诊断阶段的采样过程从多项式分布扩展到随年龄变化的条件多项式分布。因此，以参与者的临床诊断时间为条件，可以从时变多项式分布中采样参与者的癌症类型，该时变多项式分布由一组癌症类型和随年龄或时间变化的对应概率表征。同样，参与者的诊断阶段可以从时变多项式分布中采样，该时变多项式分布由诊断一组阶段和随年龄变化的对应概率表征。

在生成个体轨迹之后，模拟系统可以确定多个参与者的癌症的第一检测时间和第一检测阶段。第一检测时间可以是在没有MCED筛查的情况下正确检测到癌症的最早时间，并且第一检测阶段可以是第一检测时间的参与者的癌症的进展阶段。在一个实施例中，模拟系统将临床诊断时间确定为参与者的癌症的第一检测时间，并且将第一检测阶段确定为临床诊断时间的参与者的癌症的诊断阶段。然而，如下文所进一步详细描述的，微观模拟也可以模拟附加非MCED筛查，并且除了单独的临床诊断之外，第一检测时间和第一检测阶段可以基于附加筛查而被确定。

基于个体轨迹，模拟系统基于癌症类型和第一检测阶段(例如，临床诊断时间的诊断阶段)来确定参与者的生存时间。在一个实施例中，基于癌症类型和临床诊断的诊断阶段来通过对来自经验SEER数据的经验生存概率进行线性插值确定生存时间。在一个实施例中，模拟系统通过从与参与者的生存百分位数相对应的[0，1]范围内的均匀分布中采样随机值来确定生存时间。具体而言，经验数据可以包括关于先前癌症患者的诊断生存时间的统计数据，这些统计数据指示患者从癌症诊断时间开始生存的时间。例如，统计数据可以显示被诊断为阶段III肺癌的患者的诊断生存时间从1年到4年不等，其中1年时为100百分位数、2.5年时为50百分位数和4年时为0百分位数。

模拟系统可以从临床诊断时具有相同类型的癌症和进展阶段的癌症患者(例如，被临床诊断为阶段III肺癌的患者)中获得参与者的诊断生存时间，特别是在与参与者的所采样的生存百分位数相对应的百分位数处的诊断生存时间。在一个实施例中，当第一检测时间是临床诊断时间时，参与者的生存时间可以被确定为临床诊断时间和针对参与者确定的诊断生存时间之和。在图23所示的示例中，模拟系统对参与者的50％的生产百分位数进行采样，并且基于阶段III肺癌诊断的经验数据来将参与者C_i的生存时间确定为2.5年。

在一个实施例中，模拟系统可以包含取决于年龄以及其他临床变量的不同生存时间和死亡率。具体而言，模拟系统可以构造多维CDF，条件是来自癌症死亡率和非癌症死亡率两者的临床诊断的年龄和时间。因此，CDF的一个维度(非癌症)可以指示在从临床诊断开始的不同时间内由于非癌症原因而导致的累积死亡率，并且CDF的另一维度(癌症)可以指示在从临床诊断开始的不同时间内由于取决于参与者的癌症类型和诊断阶段而导致的累计死亡率。

对于给定年龄的被模拟的参与者，模拟系统基于根据年龄和其他临床变量变化的累计死亡率来生成非癌症死亡日期。模拟系统可以通过从参与者在登记时的年龄的分位数开始对均匀随机变量进行采样并且将所构造的CDF的倒数应用于所采样的值来生成这种日期。在一个实例中，模拟系统可以构造不同的CDF，条件是不同的临床变量(例如，吸烟状态可能会影响心血管和肺死亡率)。如果基于非癌症死亡日期而计算的生存时间早于参与者的临床诊断年龄，则除非MCED筛查事件干预(如下文所描述的)，否则不会更改参与者的生存时间，因为参与者最终可能在癌症被临床诊断之前死于非癌症原因。

另一方面，如果参与者的癌症临床诊断时间早于非癌症死亡年龄，则癌症的存在可能会缩短参与者的寿命，并且可以生成癌症死亡率，条件是参与者在临床诊断时的年龄以及癌症的癌症类型和诊断阶段。而且，与普通群体相比较，被诊断为癌症的参与者在诊断后的非癌症死亡率升高(例如，因为治疗影响非癌症死亡率)。在这种实例中，模拟系统首先生成癌症死亡率死亡年龄，然后生成新非癌症死亡率死亡年龄，说明参与者可以生存到临床诊断年龄，并且所模拟的参与者使用更危险的癌症诊断的非癌症死亡率曲线。新非癌症死亡率估计可以代替原始估计，以正确维持群体中的平均值，并且可以确定参与者的生存时间。

图23图示了控制组中的一个参与者的癌症轨迹的示例模拟。然而，应当领会，针对控制组和干预组中的其他参与者，可以重复该过程，并且事件时间轴可以依据从每个分布中采样的值而变化。

干预组的MCED筛查的模拟

对于干预组中的一个参与者，模拟系统可以模拟干预组中的参与者的早期癌症检测筛查，特别是多癌症早期检测筛查。如上文所描述的，干预组中的参与者可能已经被指派有癌症类型和诊断阶段。干预组中的参与者还可以模拟轨迹，该轨迹通过与结合图23所描述的过程相似的过程指示参与者的临床诊断时间和癌症进展。

图24图示了根据一个实施例的来自具有MCED筛查的干预组的参与者的癌症轨迹的模拟。在图24所示的示例中，模拟系统获得2402在模拟MCED筛查之前为参与者I_i生成的癌症轨迹。特别地，参与者I_i在临床诊断时间t₅被指派为乳腺癌的癌症类型和阶段IV的诊断阶段。模拟系统将阶段IV的开始时间确定为时间t₆，将阶段III的开始时间确定为时间t₇，并且将阶段II的开始时间确定为时间t₈。

对于干预组中的一个参与者，模拟系统可以在一个或多个筛查时间模拟MCED筛查。一个或多个筛选时间可以在参与者中的公共时间发生。在一个实施例中，基于一个或多个机器学习癌症检测模型的性能来模拟MCED筛选。对于参与者的每个筛查事件，模拟系统可以确定参与者在筛查事件时是否患有癌症。如果参与者在筛查事件时患有癌症，则模拟系统可以基于一个或多个癌症检测模型对参与者当时的癌症类型和进展阶段的灵敏度来生成癌症检测模型是否预测参与者患有癌症的筛查事件的检测估计。另一方面，如果参与者在筛查事件时没有患有癌症，则模拟系统可以基于一个或多个癌症检测模型的特异性来生成筛查事件的检测估计。在一个实例中，根据“循环无细胞基因组图谱(CCGA；NCT02889978)病例对照研究”估计一种或多种癌症检测模型的灵敏度和特异性。

具体而言，癌症检测模型的“灵敏度”可以指示癌症检测模型从患有癌症的参与者集合中正确检测到癌症存在的比率，并且可能取决于筛查时癌症的不同癌症类型和进展阶段。因此，如果参与者在筛查事件时患有癌症，则模拟系统可以基于被模拟为用于筛查的癌症检测模型的灵敏度来生成检测估计。在一个实例中，模拟系统获得癌症检测模型对筛查事件的灵敏度(例如，0.7、0.75、0.8、0.85)。该测试可以包括各自被引导为检测相应类型的癌症的个别癌症检测模型，或被配置为检测多种类型的癌症的单个癌症检测模型，或两者的组合。模拟系统可以对[0，1]范围内的检测水平进行采样。如果检测水平等于或低于癌症检测模型对该癌症类型和进展阶段的灵敏度，则模拟系统可以生成指示癌症存在的阳性检测估计。否则，模拟系统可以生成指示癌症不存在的阴性检测估计。

在一个实施例中，假设灵敏度随不同的癌症类型和阶段而变化，并且模拟系统可以对一个或多个癌症检测模型的灵敏度进行建模，以考虑参与者轨迹中癌症的阶段进展。例如，模拟系统可以假设MCED筛查的灵敏度通常对于癌症的晚期阶段会增加，并且在随着时间的推移模拟癌症的晚期阶段的筛查事件时，为癌症检测模型指派不减小的灵敏度。作为示例，被用来检测患者中的肺癌的癌症检测模型的灵敏度如果在癌症的阶段II期间执行，则可以具有65％的灵敏度，如果在癌症的阶段III期间执行，则可以具有70％的灵敏度，并且如果在癌症的阶段IV期间执行，则可以具有75％的灵敏度。

在一个实施例中，为了说明研究中灵敏度估计中仍然存在的不确定性，模拟系统使用马尔可夫链蒙特卡罗(MCMC)技术对每种癌症类型的跨越增加的进展阶段的非减小的灵敏度进行建模，这些灵敏度根据以所观察到的数据和非信息性杰弗里(Jeffreys)先验为条件的后验分布得出。要通过微观模拟传播的不确定性可以来自输入数据，该输入数据是具有有限数目的病例的病例对照者研究。从这项研究中观察到的灵敏度可以包括来自癌症的每个阶段的n次尝试的检测。在对真实基本灵敏度没有约束的情况下，可以通过每个阶段的独立二项式抽样来处置这种不确定性。然而，在一个实施例中，基于癌症是进展性疾病的基本原理，未知真实灵敏度被建模为非减小的。因此，这种方法可以根据这种分布生成关于结果的相对分布的抽样，这在先前微观模拟方法中可能无法观察到。简单的摒除方法可能效率不高，并且难以归一化为基本概率分布。然而，凭借马尔可夫链可以有效地探索与观察兼容的非减小真实灵敏度空间。

在一个实施例中，该方法在有效空间内构造起点(灵敏度严格增加，而非0或1，以免在边界上)。这可以通过多种方式实现。之后，一次坐标更新(coordinate-at-a-timeupdate)可以被用来为随机选取的阶段提出移动建议，将其他灵敏度视为硬边界以及0和1。对于硬边界，可以利用“镜像移动”技巧，以将边界外的建议反射回到有效空间。该移动集满足基本平衡条件，即，移动与反向移动的可能性相同。然后，该马尔可夫链从适当的概率分布中采样。为了有效混合，可以基于每个阶段的病例对照者研究的采样不确定性来选择提议规模。通过以适当尺度细化链，可以生成近似独立于后验分布的抽样。每个这种抽样都会被一轮微观模拟用作该轮的输入灵敏度向量。这样，重复的各轮微观模拟可以横跨输入数据的不确定性。这种方法可以生成可以被使用的输入灵敏度，并且不受连续筛查测试的相关性的影响。而且，模拟系统还可以对灵敏度进行建模，使得对于给定参与者，在给定阶段可检测到的癌症类型在较晚期阶段也可检测到，并且在给定阶段无法检测到的癌症类型(也就是说，灵敏度为零)在较早阶段也无法检测到。

另一方面，癌症检测模型的“特异性”可以指示癌症检测模型从没有患有癌症的一组参与者中正确检测到癌症不存在的比率。因此，如果参与者在筛查事件时没有患有癌症，则模拟系统可以基于被模拟为用于筛查的癌症检测模型的特异性来生成检测估计。在一个实例中，模拟系统获得癌症检测模型对筛查事件的灵敏度和/或特异性(例如，0.995)。模拟系统可以对[0，1]范围内的随机数进行采样。如果随机数等于或低于癌症检测模型的特异性，则模拟系统可以生成预测癌症存在的阳性检测估计。否则，模拟系统可以生成预测癌症不存在的阴性检测估计。

在图24所示的示例中，对于参与者I_i，第一MCED筛查事件发生在时间Y0(登记时间)，第二MCED筛查事件发生在时间Y1，并且第三MCED筛查事件发生在时间Y2。每个筛查事件可能相隔一年。由于每个筛查时间对应于参与者被模拟为患有癌症的时间，所以模拟系统可以基于用于参与者的一个或多个癌症检测模型的灵敏度来生成每个筛查事件的检测估计。灵敏度可以根据癌症进展到的阶段而变化。在图24所示的示例中，模拟系统生成检测估计，该检测估计预测第一筛查事件在Y0处未检测到癌症，第二筛查事件在Y1处检测到癌症，并且第三筛查事件在Y2处检测到癌症。

对于干预组中的每个参与者，模拟系统可以依序生成一个或多个MCED筛查的检测估计。特别是，对于在参与者患有癌症时模拟的筛查事件，如果检测估计正确估计了癌症存在，则检测估计可能为“真阳性”，或如果当实际上存在癌症时，检测估计错误估计了癌症不存在，则检测估计可能为“假阴性”。另一方面，对于在参与者没有患有癌症时模拟的筛查事件，如果检测估计正确估计了癌症不存在，则检测估计可能为“真阴性”，或如果当实际上不存在癌症时，检测估计错误估计了癌症存在，则检测估计可能为“假阳性”。

对于干预组中的参与者的第二子集中的每个参与者，模拟系统可以确定参与者是否与MCED筛查的一个或多个真阳性检测估计相关联。模拟系统可以为干预组中的参与者确定第二检测时间和第二检测阶段。因此，因为第二检测时间是在模拟了一个或多个MCED筛查之后正确检测到癌症的时刻，所以当生成初始轨迹时，第二检测时间可能与被指派给参与者的第一检测时间不同。

在一个实施例中，模拟系统确定具有真阳性检测估计的最早筛查事件。如果存在这种筛查事件并且最早筛查事件的时间早于第一检测时间，则模拟系统可以在第二检测时间将第二检测时间确定为最早筛选事件的时间并且将第二检测阶段确定为癌症的进展阶段。如果参与者的第二检测阶段早于第一检测阶段，则可能发生“阶段转变”，其中参与者的癌症在比癌症在单独临床诊断时预期进展的阶段更早的阶段被检测到。在图24所示的示例中，由于Y1早于参与者的临床诊断时间(第一检测时间)，所以最早真阳性筛查是时间Y1的第二MCED筛查，并且模拟系统将参与者的第二检测阶段更新为阶段II乳腺癌。

具体而言，一旦实际RCT中的参与者被指派了来自MCED筛查的阳性检测估计，则可以对参与者执行随访调查(例如，临床诊断)，以确认癌症存在或癌症不存在，因此本文中所描述的微观模拟假设第二检测时间可以相对接近筛查事件的时间。另一方面，如果不存在具有真阳性检测估计的筛查事件或具有真阳性的检测估计的最早筛查事件晚于第一检测时间，则参与者的第二检测时间可以被确定为等于第一检测时间，因此第二检测阶段可以等于第一检测阶段。

模拟系统可以基于第二检测阶段来更新干预组中的参与者的生存时间。对于第二检测阶段早于第一检测阶段的参与者，经更新的生存时间通常可以大于基于第一检测阶段的生存时间。具体而言，在这种情况下，模拟系统基于参与者的早期检测阶段来获得新诊断生存时间。例如，模拟系统可以使用被指派给参与者的现有或新采样的生存百分位数来获得经验诊断生存时间。模拟系统可以将经更新的生存时间确定为第一检测时间/第二检测时间和经更新的诊断生存时间之和。经更新的生存时间或癌症特异性死亡率可以基于参与者生存到原始诊断日期的条件来确定。经更新的生存时间或癌症特异性死亡率可以基于通过筛查进行检测时被转化为原始诊断时间的经更新的阶段来遵循生存插值分布。如果第二检测时间和第二检测阶段等于第一检测时间和第一检测阶段，则生存时间可以不变。在图24所示的示例中，模拟系统基于阶段II乳腺癌的较早第二检测阶段来更新参与者的生存时间。新生存时间可能大于旧生存时间。

在一个实施例中，在“过度诊断”的情况下，即，癌症被早期检测到，而在另一死亡原因(例如，非癌症死亡原因)之后可能会被临床诊断，可以使用癌症诊断的超额条件死亡率曲线基于较早检测时间(即，第二检测时间)来生成新非癌症死亡率死亡日期，以确定癌症诊断和治疗是否可能因非癌症原因而缩短寿命。由于参与者在诊断日期之前不会死于癌症，所以癌症特异性死亡率平均可以尊重这一特性。

在另一实施例中，如说明书的第III章节所描述的，通过将一个或多个机器学习癌症检测模型应用于所模拟的参与者的输入数据，模拟MCED筛查的检测估计。在一个实施例中，输入数据是所模拟的参与者的一个或多个特征向量。例如，模拟系统可以为干预组中的参与者确定特征向量，将一个或多个经训练的癌症检测模型应用于参与者的特征向量，以生成参与者患有癌症(单种类型的癌症或多种类型的癌症)的一个或多个概率似然性。如果概率似然性高于预定阈值，则检测估计可能为阳性；并且如果概率似然性低于预定阈值，则检测估计可能为阴性。

在一个实施例中，模拟系统可以获得人类参与者的特征向量，这些特征向量包括贯穿本说明书所描述的甲基化状态向量，这些甲基化状态向量包含与甲基化已经发生或尚未发生的位点相对应的元素(具体而言，即使这些位点不是CpG位点)。例如，可以获得人类参与者的样品，并且可以准备湿实验室测定以检测甲基化并且生成参与者的甲基化状态载体。模拟系统可以将MCED模型应用于包括参与者的甲基化状态向量的特征向量，以生成一个或多个MCED筛查的检测估计。通过这种方式，给定人类参与者的特征向量，模拟系统可以模拟MCED筛查对人类参与者的影响，而不必等待相当长的时间来确定用于评价的各种度量。

虽然图24图示了干预组中的一个参与者的个体轨迹的示例模拟，但针对干预组中的其他参与者，可以重复该过程，并且事件的时间轴可以依据从每个分布中采样的值而变化。例如，另一参与者的临床诊断时间可能早于一个或多个MCED筛查事件中的任一MCED筛查事件的时间。

纳入附加非MCED筛查

在一个实施例中，模拟系统模拟一个或多个附加非MCED筛查，该一个或多个附加非MCED筛查可能附加地影响参与者的第一检测时间和第一检测阶段。在一个实例中，模拟系统纳入了美国预防服务工作组(USPSTF)在2013年推荐的肺癌的低剂量计算机断层扫描(LDCT)筛查。具体而言，USPSTF推荐每年对55岁至80岁的有30包年(pack-year)吸烟史且目前吸烟或在过去15年内已经戒烟的成年人每年进行一次LDCT肺癌筛查。在控制组和干预组中都有可能添加LDCT筛查，以进行模拟。

在一个实例中，当生成个体轨迹时，模拟系统标识每个组中有资格(例如，参与者患有癌症)进行LDCT筛查的参与者的子集(例如，10％)，并且标识该子集内采用LDCT筛选的参与者的另一子集(例如，5％)。LDCT筛查可以假设从登记时间起每年进行一次。在一个实施例中，与结合图24所描述的用于模拟MCED筛查的方法相似，模拟系统基于通过实证研究发现的LDCT筛查的灵敏度和特异性来为在控制组和干预组中采用LDCT的参与者在每个LDCT筛查时间指派检测估计。在一个示例中，LDCT筛查的灵敏度的范围在84.9％到78.6％之间，LDCT筛选的特异性的范围在87.2％到94.7％之间。对于选择采用LDCT筛查的控制组和干预组中的每个参与者，模拟系统可以依序为在控制组和干预组两者中标识的参与者生成年度LDCT筛查集合的检测估计。

除了临床诊断之外，模拟系统还可以基于LDCT筛查来确定第一检测时间和第一检测阶段。具体地，模拟系统可以确定参与者是否与LDCT筛查的一个或多个真阳性检测估计相关联。如果参与者与真阳性LDCT检测估计相关联，则模拟系统可以确定在这种最早LDCT筛查时的癌症的阶段是否早于临床诊断时间的癌症诊断的阶段。如果LDCT筛查时癌症的进展阶段更早，则模拟系统可以将第一检测时间确定为LDCT筛查时间并且将第一检测阶段确定为LDCT筛查时癌症的阶段，并且基于LDCT筛查的检测阶段来确定生存时间。否则，模拟系统可以将第一检测时间保持为临床诊断时间并且将第一检测阶段保持为癌症的诊断阶段。

确定性能度量

如下文关于实验结果章节所进一步详细描述的，在执行一个或多个RCT模拟之后，模拟系统可以确定与癌症进展和诊断事件有关的一个或多个度量。在一个实施例中，基于控制组中的参与者的第一检测时间和第一检测阶段以及干预组中的参与者的第二检测时间和第二检测阶段来确定每个组的一个或多个度量。因此，可以假设在进展到第一检测阶段的阶段在第一检测时间检测到控制组中的参与者中的癌症。另一方面，可以假设在进展到第二检测阶段的阶段在第二检测时间检测到干预组中的参与者中的癌症。

VI.C.实验结果

本章节中所描述的实验结果是500个RCT模拟的结果。每个RCT模拟假设共有140000名参与者，70000名参与者被指派为控制组，而70000人被指派为干预组，其中粘度中途退出率为6％。对癌症发病率、停留时间、临床诊断时间的采样均基于SEER经验数据。从登记时间Y0开始模拟三次MCED筛查，其中每个后续筛查间隔一年进行。基于SEER经验数据，根据每阶段每癌症类型确定MCED筛查的灵敏度，MCED筛查的灵敏度被设置为99.5％。

图25A是示例RCT模拟的真阳性预测值、假阳性预测值和阳性预测值(PPV)的实验结果。在一个实施例中，一个或多个度量包括与RCT模拟的真阳性检测估计、假阳性检测估计和PPV有关的统计。PPV指示阳性检测结果为真阳性估计的比例。标签“S1”指示第一MCED筛查，“S2”指示第二MCED筛查，“S3”指示第三MCED筛查，而“慢”、“快”和“极快”指示被指派给每个相应肿瘤生长速率的癌症类型。

如图25A所示，在不同的肿瘤生长速率下，S1中的假阳性估计数的范围为331至344，S2中的假阳性估计数的范围为308至318，并且S3中的假阳性估计数的范围为281至294。这反映了在考虑了试验过程期间的中途退出和死亡之后总体假阳性率为0.5％。在慢肿瘤生长速率下，S1、S2和S3之后的累积PPV分别为0.7687(95％置信区间(CI)：0.7462至0.7924)、0.6740(95％ CI：0.6495至0.6996)和0.6241(95％ CI：0.6006至0.6467)。给定较少的癌症以较快的生长速度被拦截，PPV随着较快的肿瘤生长速度而下降。例如，PPV在较快生长速率的情况下分别为0.6806(95％ CI：0.6493至0.7125)、0.5863(95％ CI：0.5576至0.6149)和0.5418(95％ CI：0.5161至0.5691)，并且在极快生成速率的情况下分别为0.5404(95％ CI：0.5010至0.5802)、0.4652(95％ CI：0.4339至0.4973)和0.4357(95％CI：0.4086至0.4615)。

图25B是图示了基于CCGA3临床研究的模拟示例MCED筛查的阴性预测值(NPV)、灵敏度、特异性、癌症检测率(CDR)、CSO准确性和癌症发病率的实验结果。NPV指示阴性检测结果为真阴性估计的比例。CDR指示真阳性检测估计与样品总数(即，真阳性样品、假阳性样品、真阴性样品、假阴性样品的总和)的比率。CSO准确性指示真阳性样品中的正确癌症信号预测的比例。癌症发病率指示发生的癌症数占参与者总数的比例。

如图25B所示，第一列指示基于NCRAS癌症的CCGA3临床研究的MCED模型的灵敏度、PPV和CSO准确性。该模型的灵敏度为0.664(95％ CI：0.586至0.735)，特异性为0.995(95％CI：0.994至0.996)，PPV为0.491(95％ CI：0.445至0.537)，CSO准确性为0.922(95％ CI：0.8781至0.954)。第二列指示肿瘤生长速度极快的癌症的度量。癌症发病率为0.0136(95％CI：0.0123至0.0151)，敏感度为0.594(95％ CI：0.510至0.664)，PPV为0.556(95％ CI：0.505至0.613)，NPV为0.992(95％ CI：0.991至0.993)，CSO准确性为0.891(95％ CI：0.86至0.916)，CDR为0.0061(95％ CI：0.0051至0.0071)。第三列是指肿瘤生长速率极快的度量，其中CCGA3的灵敏度和准确性降低了10％。灵敏度为0.551(95％ CI：0.470至0.625)，PPV为0.529(95％ CI：0.473至0.590)，CSO准确性为0.802(95％ CI：0.774至0.823)。

图26是图示了三次MCED筛查之后与控制组相比较在干预组中检测到的癌症的比例的实验结果。在一个实施例中，一个或多个度量还包括与在多个参与者中检测到的癌症的数目有关的统计。在图26中，Y3是登记时间Y0之后的三年，Y7是登记时间Y0之后的7年，Y9是登记时间Y0之后的9年，Y11是登记时间Y0之后的11年。图26中的每个列指示对于不同的肿瘤生长速率，与控制组相比，在干预组中检测到的更多癌症的比例。经过三轮筛查，在不同的肿瘤生长速率下，在干预组中检测到的癌症增加了11.87％(95％ CI：5.41％至18.91％)至44.58％(95％ CI：35.96％至53.56％)。过多的癌症主要是由于普遍的筛查，其中第一年临床诊断无法检测到的癌症早期通过MCED筛查发现。随着随访时间的延长，控制组出现了“追赶型”癌症，这导致了两组之间的差异较小。例如，在时间Y11，在干预组中累计检测到的癌症增加了1.45％(95％ CI：-2.41％至5.52％)至7.71％(3.87％至11.51％)。

图27是图示了三轮MCED筛查之后阶段I癌症和阶段II癌症的比例的实验结果。在一个实施例中，一个或多个度量还包括与较早进展阶段的癌症检测有关的统计。特别地，图27图示了到时间Y3之前在控制组和干预组中检测到的阶段I癌症和阶段II癌症的比例。在控制组中，阶段I癌症和阶段II癌症的比例为近似62％。两组均实施了肺癌的LDCT筛查，并且在控制组中检测到的早期肺癌相对增加。在干预组中，肿瘤生长速度影响结果。比如，在肿瘤生长速率缓慢的情况下，80.06％(95％ CI：78.16％至81.82％)被检测到的癌症为阶段I和阶段II，与控制组相比，增加了17.99％(95％ CI：15.04％至20.70％)。对于快肿瘤生长速率和极快肿瘤生长速率，阶段I癌症和阶段II癌症的比例分别为78.18％(95％ CI：76.18％至80.15％)和76.43％(95％ CI：74.46％至78.39％)。控制组与干预组之间的差异分别为16.14％(95％ CI：13.33％，19.06％)和14.30％(95％ CI：11.27％至17.13％)。

图27所示的结果图示了通过执行MCED筛查的阶段转变的效果。具体而言，MCED筛查将所有肿瘤生长速率下检测到的阶段I癌症和阶段II癌症的比例提高到76％以上，并且与控制组相比，早期癌症显著增加。而且，研究结果表明，实施MCED筛查可以帮助检测早期癌症，这些癌症很可能是无症状的，并且可能在癌症发展到晚期阶段后才得到临床诊断。

图28是图示了三次MCED筛查之后的阶段III癌症和阶段IV癌症的绝对减少和相对减少的实验结果。在一个实施例中，一个或多个度量包括与晚期进展阶段的癌症检测有关的统计。特别地，图28图示了三次MCED筛查之后控制组与干预组之间阶段III癌症和阶段IV癌症的绝对减少和相对减少。在慢肿瘤生长速率情况下，与在干预组中检测到558例(95％CI：508至609)阶段III癌症和阶段IV癌症相比，在控制组中检测到735例(95％ CI：683至789)阶段III癌症和阶段IV癌症。绝对减少为177(95％ CI：104至249)，而相对减少为23.93％(95％ CI：14.86％至32.34％)。检测到阶段III癌症和阶段IV癌症的显著减少的能力为97.60％。在快肿瘤生长速率下，绝对减少为203(95％ CI：126至278)，相对减少为27.49％(95％ CI：18.05％至35.97％)。在极快肿瘤生长速率下，绝对减少和相对减少分别为223(95％ CI：151至296)和30.31％(95％ CI：21.85％至38.11％)。对于快肿瘤生长速率和极快肿瘤生长速率两者，能力均大于99％。

图29是图示了在不同类型的肿瘤生长速率下死亡率降低的实验结果。在一个实施例中，一个或多个度量包括与癌症死亡和在一个或多个评价时间的死亡率降低有关的统计。具体而言，如果参与者的生存时间小于评价时间，意味着参与者没有生存到评价时间，则可能会在评价时间出现癌症死亡。在图29的结果中，评价时间是Y5，即，在登记时间Y0之后的五年。癌症特异性死亡计数表示在该评价时间由于癌症而致的死亡人数。每1000人年死亡表示每1000人年的死亡人数，其中人年的计算时间为登记时间Y0至癌症死亡或因中途退出或研究结束而剔除(以先到者为准)的日期。比率比值被定义为控制组与干预组之间癌症特异性死亡率的比值。

图29中的结果图示了评价时间Y5的癌症特异性死亡率。在慢肿瘤生长速率下，控制组和干预组的死亡人数分别为694人(95％ CI：643至748)和557人(95％ CI：509至608)。这相当于每1000人年1.88(95％ CI：1.74至2.02)和1.50(95％ CI：1.37至1.64)的死亡率和0.80(95％ CI：0.72至0.89)的比率比值。双侧精确测试显著降低癌症特异性死亡率的能力为97.6％。肿瘤生长速度越快，效果越小，能力越低。比率比值分别为0.81(95％ CI：0.72至0.90)和0.83(95％ CI：0.74至0.92)，并且在快肿瘤生长速率和极快肿瘤生长速率下，能力分别降至95.6％和92.0％。因此，图29图示了一个或多个评价时间的MCED筛查对潜在死亡率降低的影响。

如结合本章节所描述的各种实验结果所描述的，本文中模拟RCT的方法可以提供一种计算有效方式来评价MCED筛查，以检测癌症检测、阶段转变和死亡率降低的临床显著终点。而且，大多数现有筛查形态针对单种癌症类型，并且虽然可以执行模拟来模拟这些现有筛查形态的影响，但使用被配置为预测多种类型的癌症的机器学习的检测模型，很难估计早期检测筛查对患有多种类型的癌症的参与者群体的影响。本文中所描述的微观模拟方法可以提供一种对多癌症群体整体执行RCT模拟的方式，而不必对每种类型的癌症执行多个分开的RCT模拟。这还可以通过使用多个或并行核心以及通过高效强大的编程语言(诸如Julia)进行的并行处理促进上述功能的实现。

VI.D.计算机模拟RCT的过程

图30A和图30B图示了根据一个实施例的描述了计算机模拟RCT以确定MCED筛查的影响的过程的流程图。图30A至图30B中的步骤中的一个或多个步骤可以由模拟系统执行，但实施例不限于此。

模拟系统计算机模拟3002多个参与者。参与者的第一子集可以被指派为控制组，而参与者的第二子集可以被指派为干预组。对于多个参与者中的一个被模拟的参与者，模拟系统对参与者的癌症类型和癌症诊断阶段进行采样3004。在参与者的诊断时间段相对于登记时间已经过去之后，参与者可以被临床诊断为在诊断阶段进展的癌症类型。模拟系统还基于参与者的癌症类型和诊断阶段来为参与者生成3006癌症轨迹，该癌症轨迹指示一个或多个癌症阶段的进展和生存时间。模拟系统确定3008第一检测时间，该第一检测时间指示在等于或早于诊断阶段的第一检测阶段正确检测到参与者的癌症的时间。

对于干预组的参与者的第二子集中的一个被模拟的参与者，模拟系统可以在至少一个筛查时间内通过一个或多个机器学习癌症检测模型模拟早期癌症检测筛查。具体而言，模拟系统为参与者生成3010指示，该指示指示机器学习癌症检测模型是否检测到参与者患有癌症。如果癌症检测模型的指示在至少一个筛查时间检测到参与者患有癌症并且参与者具有癌症的早期阶段，则模拟系统生成3012第二检测阶段作为较早阶段，并且基于较早阶段来更新参与者的生存时间。

对于多个参与者，模拟系统评价3014与癌症进展有关的一个或多个性能度量。模拟系统评价3016参与者的第一子集和参与者的第二子集的一个或多个度量之间的差异，以确定早期癌症检测筛查对多癌症群体的影响。

VII.通过整合模型随时间整合来评价早期MCED筛查的影响

VII.A.整合系统

在第VI章节中所描述的微观模拟可以被模拟的参与者，并且对每个参与者的个体轨迹进行建模，以经由各种评价度量(诸如所检测到的癌症的数目、由于阶段转变而致的死亡率降低以及预期寿命的预期提高)来确定MCED筛查的性能。因此，微观模拟可以深入了解由于这种早期筛查而检测到多少癌症，以及对特定群体而言，这样做在前导时间和死亡率益处方面的益处。而且，还如第VI章节所描述的，微观模拟附加地可以纳入随年龄或时间而变化的癌症发病率，以确定当已知癌症的发病率随年龄或时间变化时，MCED筛查如何影响个体。通常情况下，实体可能会要求提供关于这些度量如何随时间或参与者的年龄而改变的信息，尤其是由于癌症发病率随年龄而改变。

在一个实施例中，整合系统可以在未来时间内进行整合以确定作为年龄或时间(或两者的组合)的函数的MCED筛查的各种度量。例如，整合系统可以在无需个别被模拟的参与者的轨迹的情况下，确定在每次MCED筛查中拦截的未来癌症发病率与时间的函数关系。换言之，当在某些情况下可以整合个体群体的未来癌症发病率和死亡率时，整合系统可以整合诊断时间以确定“拦截”检测的数目，并且整合未来死亡率和前导时间以获得预期的预期寿命提高。通过这样做，整合系统可以深入了解癌症发病率随时间的变化将如何影响MCED筛查检测，同时节省执行若干次微观模拟可能需要的计算资源。

图31图示了根据一个实施例的标识可检测性的不同亚群的拦截模型途径。在一个实施例中，整合系统基于MCED筛查首次检测到哪个阶段的癌症以及MCED筛查在临床诊断时间之前拦截病例的有效性来获得可检测性的不同亚群。如本文中所定义的，“拦截”或“所拦截的病例”是MCED筛查在参与者的所估计的临床诊断时间或实际临床诊断时间之前检测到参与者存在癌症的事件。例如，由于存在一次或多次MCED筛查，所以患有肺癌的参与者可能在MCED筛查中检测到肺癌的阶段(例如，阶段II)可能早于临床诊断肺癌的阶段(例如，阶段IV)。作为另一示例，患有乳腺癌的另一参与者在MCED筛查中检测到癌症的阶段可能与与临床诊断癌症的阶段相同，但却早于该阶段内的时间。

如图31所示，在一个实施例中，对于给定类型的癌症，存在五个不同的亚群——(1)第一亚群是从癌症的阶段I开始通过MCED筛查首次检测到的参与者——因此，依据MCED筛查的灵敏度，他们的癌症可能在阶段I、II、III或IV被拦截；(2)第二亚群是首次从癌症的阶段II检测到的参与者，因此可能在阶段II、III或IV被拦截；(3)第三亚群是首次从癌症的阶段III检测到的参与者，因此可能在阶段III或IV被拦截；(4)第四亚群是首次从癌症的阶段IV检测到的参与者，因此可能在阶段IV被拦截；以及(5)第五亚群是在任何阶段都不能通过MCED筛查检测到的参与者。

在一个实施例中，整合系统可以通过例如所观察到的病例对照者灵敏度研究来获得所推断的每个亚群的病例数。在一个实例中，每种癌症类型生成单独的拦截模型，并且可以跨越不同的癌症类型组合所推断的值。在一个实例中，整合系统可以从另一源获得所推断的数据，或可以使用来自医学文献或出版物、医院等的经验数据来推断数据本身。来自图31的观察是如果每个亚群中的可检测阶段具有相似或相同的停留时间，则每个亚群具有其中可以拦截癌症的持续时间的不同分布。例如，由于第一亚群的癌症可能在所有阶段I、II、III或IV被潜在地拦截，所以第一亚群中的参与者可能比第四亚群中的参与者具有更长的持续时间，在该持续时间内，癌症可能被MCED筛查拦截。因此，如下文所更详细地描述的，整合系统可以在未来时间内进行集成以确定作为年龄或时间的函数的MCED筛查的各种度量。

在本说明书的剩余部分中，使用从CCGA2研究的MCED筛查中获得的示例可检测性性能来描述整合系统，这些CCGA2研究与上述说明书第VI.C章节中描述的CCGA3研究相似。从SEER数据中获得癌症发病率信息，包括所有癌症每1岁的发病率。可检测性时间的持续时间可以被近似为具有均值和方差的伽马分布。

VII.B.随时间进行集成以确定由于MCED筛查而引起的拦截和对死亡率的影响

图32A至图32C图示了根据一个实施例的从SEER数据获得的作为年龄的函数的癌症发病率。在一个实施例中，整合系统获得特定癌症类型的每个阶段的癌症发病率数据。图32A图示了来自SEER数据的膀胱癌、胆囊癌、肺癌、淋巴瘤、胰腺癌、胃癌和泌尿系癌的癌症发病率数据。如图32A所示，癌症发病率数据图示了每100000风险群体中癌症比率(竖轴)与年龄(横轴)的函数关系。一般而言，癌症的发病率随着年龄的增长而增加(每年近似7％至9％)。而且，对于图32A中所示的示例，随着年龄的增长癌症的发病率相对平稳的增加。

图32B图示了来自SEER数据的肛门癌、食道癌、头颈癌、肾脏癌、肝癌/胆管癌、卵巢癌、肉瘤、甲状腺癌和子宫癌的癌症发病率数据。如图32B所示，某些癌症类型因年龄而与图32A所示的癌症类型不同。这些变化可能由于例如诊断偏差而致，由于甲状腺癌在个体45岁时被重新定义，而肝癌/胆管癌在可能死亡的个体中未被检查。这些变化也可能是由于队列效应(诸如暴露于风险因素)、年龄效应(诸如激素暴露)以及手术史(诸如年龄较大时子宫切除增加)。

图32C图示了乳腺癌、宫颈癌、结肠癌/直肠癌、黑色素瘤和前列腺癌的癌症发病率数据，这些癌症都是经过一定量的普通护理筛查的癌症。如图32C所示，对于乳腺癌，当乳房X光筛查开始时(近似50岁)，阶段分布显著转变。对于结肠癌/直肠癌症，由于诊断强度的改变，癌症发病率在50岁和65岁左右突然增加。对于前列腺癌，变化可能是由于前列腺特异性抗原(PSA)的诊断强度，尤其是阶段II发病率。

图33图示了根据一个实施例的作为从筛查亚群开始的时间的函数的MCED筛查的权重矩阵，该亚群可能在阶段IV被临床诊断，但在阶段I首次可检测到肺癌。在一个实施例中，整合系统生成一个或多个权重矩阵。权重矩阵可以对应于参与者的相应亚群，这些参与者在特定阶段被确定为被临床诊断，但在较早阶段或相同阶段但在较早时间通过MCED筛查首次可检测到。因此，权重矩阵可以对应于一个或多个亚群，该一个或多个亚群被确定为在阶段I被临床诊断但在阶段I首次可检测到，被确定为在阶段II被临床诊断但在阶段I或II首次可检测到、被确定为在阶段III被临床诊断但在阶段I、II或III首次可检测到，并且被确定为在阶段IV被临床诊断但在阶段I、II、III或IV首次可检测到。

特别是，权重矩阵可以图示了作为从MCED筛查开始的临床诊断的时间的函数的在给定MCED筛查(“当前筛查”)(竖轴)时被拦截的参与者的比例。因此，对于给定MCED筛查，如果癌症的可检测逗留时间大于从临床诊断筛查开始的时间，则将来可能被临床诊断的参与者可以在MCED筛查时被拦截。图33特别图示了在IV阶段临床诊断为肺癌但在阶段I首次可检测到的亚群的权重矩阵。因此，基于图33中的实线曲线，可能从MCED筛查开始的2.3年时被临床诊断的参与者在筛查事件(在时间“0”)时被检测到的似然性为近似75％。

在一个示例中，权重矩阵的当前筛查可以是流行率筛查，并且拦截的比例由实线曲线给出。在另一实例中，当前筛查可以是在一个或多个先前筛查之后的发病率筛查。例如，可以模拟一年间隔的一个或多个筛查事件，并且当前筛查可以是第三MCED筛查，其中第一筛查事件是当前筛查前两年，而第二筛查事件是当前筛查前一年。在这种实例中，虚线曲线图示了根据当前筛查的时间调整的先前筛查的权重矩阵。参与者每次从筛查拦截的比例可以由实线曲线与虚线曲线之间的差给出，因为之前被拦截的参与者不能再被拦截。例如，在当前筛查的5年内被临床诊断的参与者比例可能为近似25％(当前筛查)与13％(上次筛查)之间的差。

图34图示了根据一个实施例的作为从筛查开始的时间的函数的一个或多个亚群的MCED筛查的权重矩阵。具体而言，图34图示了为上文结合图31所描述的亚群中的一个亚群生成的权重矩阵。在一个实施例中，从拦截模型获得权重矩阵，以获得作为从筛查事件开始的临床诊断时间的函数的对于每个亚群在给定筛查时可能会被拦截的参与者的比例。例如，因为阶段IV对肺癌的持续时间非常短，所以在阶段IV可能会被临床诊断并且在阶段IV首次可检测到的亚群的权重矩阵相对非常陡峭。换言之，如果亚群中的参与者可能会在一年或一年后得到临床诊断，则该参与者在MCED筛查时处于阶段IV的机会几乎很小。

因此，亚群的权重矩阵可以是通过前导时间拦截未来癌症发病率的概率分布。因此，权重矩阵可以取决于癌症的每个阶段的停留时间，但不取决于癌症发病率或癌症发病率随时间的改变。而且，虽然权重矩阵计算被拦截的未来发病率的小部分，但这可能与诊断阶段不同。相反，拦截阶段可能是一个可变前导时间，这取决于未来临床诊断阶段和MCED筛查间隔。例如，如果筛查间隔相对较短，则拦截阶段通常可能处于较早阶段，而如果筛查间隔较长，则发病率筛查的权重矩阵可能接近流行率筛查的分布。因此，从筛查中获益最多的个体的阶段转变可能最大并且死亡率获益时间最迟。

图35图示了根据一个实施例的作为特定癌症类型和起始年龄的筛查后年龄的函数的肺癌的拦截发病率。在图35所示的示例中，拦截发病率针对起始年龄为62岁的群体进行绘制。线型为“IR”的曲线(红色)图示了基于临床诊断的癌症发病率。因此，可能会在阶段I、阶段II、阶段III和阶段IV被临床诊断的亚群的每个癌症发病率曲线可以分别对应于图32A所图示的肺癌的阶段I、阶段II、阶段III和阶段Ⅳ癌症发病率数据。注意，在阶段I首次可检测到的群体比例为0.19，在阶段II首次可检测到的比例为0.60，在阶段III首次可检测到的比例为0.09，并且在阶段IV首次可检测到的比例为0.04。

虚线类型为“流行”的曲线图示了当前MCED筛查的累积拦截发病率，并且通过将从当前筛查的群体的年龄开始的癌症发病率与当前筛查的权重矩阵相乘而生成。例如，为了从筛查后年龄为65岁的未来参与者群体中生成拦截发病率，假设群体年龄为62岁，将65岁时的癌症发病率值乘以与筛查后3年对应的权重矩阵的值。因此，这个数字代表了MCED筛查将检测到的拦截病例的数目，并且将从未来65岁的参与者群体中“抽取”出来，这些参与者将注定在肺癌的特定阶段被临床诊断(由每一行指示)。可以对筛查后年龄的所有值执行该计算，以生成流行发病率曲线。

实线类型为“发病”的曲线图示了当前筛查的拦截事件，而不考虑来自一个或多个先前筛查的拦截。通过将癌症发病率曲线乘以流行率权重矩阵与发病率权重矩阵之间的差，可以生成发病曲线。另外，虚线类型为“剩余部分”的曲线图示了遗漏的未来发病率，并且表示当前筛查未检测到的病例数。因此，剩余部分曲线可以是癌症发病率曲线与流行曲线之间的差。

在一个实施例中，整合系统可以对筛查后年龄的拦截发病率进行求和，以使用流行率曲线或发病率曲线来确定当前MCED筛查的拦截发病率总数。例如，整合系统可以对流行曲线中指示的所有拦截发病率进行求和，以确定假设当前筛查是流行筛查在当前筛查时进行的拦截的总数。换言之，该值表示由于当前筛查而从给定群体的未来拦截或拉取的病例数。

图36图示了根据一个实施例的按临床诊断阶段的肺癌的拦截发病率。具体而言，图36中生成的拦截发病率曲线与图35相似，但在每个临床诊断阶段的所有亚群上相加。“发病率”曲线图示了按原始诊断的癌症发病率。“拦截”曲线图示了从当前筛查开始的拦截病例数，假设这是首次对62岁开始的参与者执行MCED筛查。“漏诊”曲线图示了按当前筛查的漏诊发病率数，斜率可以表示要被临床诊断的参与者池被重新填充的速度。“先前拦截”曲线图示了假设当前筛查为发病率筛查，从先前筛查(当参与者61岁时)开始的拦截发病率数。换言之，图36图示了取决于临床诊断阶段的未来发病率的可变折耗。

图37图示了根据一个实施例的所有临床诊断阶段中的肺癌的拦截发病率。特别地，图37中生成的拦截发病率曲线与图36相似，但跨越所有临床诊断阶段相加。如上文所描述的，给定MCED筛查的拦截病例总数可以通过对拦截曲线中指示的所有拦截事件进行求和来确定，以确定在当前筛查时进行的拦截总数。基于拦截所折耗的癌症发病率的刷新率，整合系统可以根据发病率曲线估计适当的筛查间隔。

图38图示了根据一个实施例的每个起始年龄的拦截发病率。具体而言，图38假设参与者在50岁的起始年龄通过MCED进行筛查，并且已经按一年间隔进行筛查。对于每个起始年龄，整合系统通过对跨越筛查后年龄的拦截发病率进行求和来计算流行率筛查(50岁时)的影响和随后发病率筛查的影响，与结合图35至图37所描述的。图例为“soc noscreen”的曲线指示没有MCED筛查的情况下的常见癌症发病率。图例为“cfdna”的曲线图示了每个起始年龄的拦截发病率，假设MCED筛查从50岁开始。如图38所示，因为MCED筛查在这个年龄“开启”，所以在50岁时拦截病例突然激增，并且在筛查时检测到的未来发病率之和通常显著高于一年常见癌症发病率。在一些情况下，由于癌症发病率在短前导时间内改变不大，所以按年龄确定的拦截事件可能与其他类型的模型(诸如第VII.A章节中描述的拦截模型)相似。

图39图示了根据一个实施例的由整合系统建模的拦截发病率与由拦截模型建模的拦截发病率的比较。在图39的结果中，用于模拟拦截数的示例模型(诸如第VII.A章节中描述的拦截模型)被用来生成随年龄的拦截发病率，并且将这些结果与整合系统生成的结果进行比较。最上面一行图示了拦截数，最下面一行图示了通过常见临床诊断发现的癌症数。虽然整合系统纳入了癌症发病率随年龄的改变，但拦截模型所生成的发病率可能与癌症发病率在给定年龄内如何局部改变无关。然而，由于当癌症发病率普遍较高时，整合系统从未来(根据癌症的停留时间，从未来开始近似2年至3年)拉取发病率，所以整合系统的拦截发病率相对高于拦截模型的拦截发病率。

如上文所描述的，整合系统在未来时间内进行集成，以确定作为年龄或时间函数的MCED筛查的各种度量，而无需被模拟的参与者的个体轨迹，从而获得高计算能力。整合系统可以深入了解癌症发病率随时间的变化将如何影响从MCED筛查开始的拦截，如图35至图39所详细描述的。本文中所描述的整合系统提供了一种灵活方式来纳入各种类型的癌症发病率曲线，甚至非平滑的那些曲线，对于其他类型的模型而言，这可能是不可能的或在技术上可能难以纳入。由整合系统生成的分析可以被提供给分析模块(其是整合系统的一部分或与之分离)，使分数析模块可以确定早期检测筛查的各种参数，诸如最佳筛查间隔，用于改善登记研究中的参与者的阶段转变和死亡率降低。

VII.C.整合系统的过程

图40图示了描述了根据一个实施例的用于确定MCED筛查的拦截发病率的整合方法的过程的流程图。图40中的步骤中的一个或多个步骤可以由整合系统执行，但实施例不限于此。

整合系统获得4002至少一种癌症类型的癌症发病率数据，该癌症发病率数据指示作为年龄的函数的癌症发病率。年龄的癌症发病率数据可以指示该年龄的若干个临床诊断的癌症发病率。整合系统生成4004作为从早期检测筛查开始的时间的函数的早期检测筛查的权重矩阵。对于在从早期检测筛查开始的特定时间可能会被临床诊断的一组参与者，权重矩阵可以指示可能会被早期检测筛查拦截的一组参与者的比例。对于在早期检测筛查时处于给定年龄的参与者群体，整合系统通过将从给定年龄开始的癌症发病率数据与用于早期检测筛查的权重矩阵相乘来生成4006用于早期检测筛查的癌症拦截发病率。整合系统向用于确定早期检测筛查研究的一个或多个参数的模块提供4008拦截发病率。

VIII.附加考虑

前面对实施例的详细描述参考了附图，这些附图图示了本公开的具体实施例。具有不同结构和操作的其他实施例没有背离本公开的范围。参考本说明书中所阐述的申请人的发明的许多备选方面或实施例的某些特定示例来使用术语“本发明”等，并且其使用或不使用都不旨在限制申请人的发明的范围或权利要求书的范围。

本发明的各实施例还可以涉及一种用于执行本文中的操作的装置。该装置可以为所需目的而专门构造，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以被存储在非暂态的有形计算机可读存储介质或适合于用于存储电子指令的任何类型的介质中，该介质可以耦合到计算机系统总线。此外，本说明书中提到的任何计算系统可以包括单个处理器，或可以是采用多个处理器设计以增加计算能力的架构。

本文中所描述的由分析系统执行的步骤、操作或过程中的任一步骤、操作或过程可以单独地或与其他计算设备组合地使用装置的一个或多个硬件或软件模块来执行或实现。在一个实施例中，使用计算机程序产品来实现软件模块，该计算机程序产品包括包含计算机程序代码的计算机可读介质，该计算机程序代码可以由计算机处理器执行以用于执行所描述的步骤、操作或过程中的任何或所有步骤、操作或过程。

Claims

1.一种方法，包括：

使用模拟模型模拟多个参与者中的每个参与者的癌症进展，其中所述参与者的第一子集被指派为控制组，并且所述参与者的第二子集被指派为干预组；

对于所述多个参与者中的每个被模拟的参与者：

对所述参与者的癌症类型和诊断阶段进行采样，其中在相对于登记时间所述参与者的诊断时间段已经过去之后，所述参与者被预期在所述诊断阶段被临床诊断为所述癌症类型；

基于所述参与者的所述癌症类型和所述诊断阶段来生成所述参与者的癌症轨迹，所述癌症轨迹指示所述参与者的一个或多个癌症阶段的进展和生存时间；以及

确定第一检测时间，所述第一检测时间指示所述参与者的所述癌症在等于或早于所述诊断阶段的第一检测阶段被正确检测到的时间；

针对所述干预组的参与者的所述第二子集中的每个被模拟的参与者，通过以下操作模拟通过一个或多个机器学习癌症检测模型在至少一个筛查时间内进行的早期癌症检测筛查：

为所述参与者生成指示所述机器学习癌症检测模型是否预测所述参与者患有癌症的指示；

如果所述癌症检测模型的所述指示预测所述参与者患有癌症并且所述参与者在所述至少一个筛查时间具有比所述第一检测阶段更早的癌症阶段，则生成第二检测阶段作为较早阶段并且基于所述第二检测阶段来更新所述生存时间；以及

针对所述参与者的所述第一子集和所述参与者的所述第二子集中的每个，评价与癌症进展相关的一个或多个度量；以及

评价所述参与者的所述第一子集的所述一个或多个度量与所述参与者的所述第二子集的所述一个或多个度量之间的差异，以确定早期癌症检测筛查的效果。

2.根据权利要求1所述的方法，其中根据权利要求1所述的步骤在硬件处理系统的两个或更多个核上并行执行，并且其中根据权利要求1所述的步骤使用Julia编程语言实现。

3.根据权利要求1所述的方法，其中所述参与者的所述癌症类型从第一多项式分布中采样，所述第一多项式分布由一组癌症类型和所述一组癌症类型的对应概率表征，并且其中所述参与者的所述诊断阶段从第二多项式分布中采样，所述第二多项式分布由一组阶段和所述一组阶段的对应概率表征。

4.根据权利要求1所述的方法，其中所述诊断时间段从具有均值比率的指数分布中采样。

5.根据权利要求1所述的方法，还包括：

获得与年龄相关的癌症发病率数据并且从所述癌症发病率数据生成癌症发病率的累积分布函数(CDF)；

针对所述多个参与者中的每个参与者：

为所述参与者指派年龄；

从与所述参与者的所述年龄对应的分位数开始从均匀分布中采样值；以及

将所述癌症发病率的所述CDF的倒数应用于所采样的值以生成所述参与者的所述诊断时间段。

6.根据权利要求1所述的方法，其中生成所述参与者的癌症轨迹还包括：

对所述参与者的癌症的一个或多个阶段的一个或多个停留时间进行采样，每个停留时间指示所述癌症在进展到下一阶段之前将在相应阶段停留的时间跨度；以及

基于所采样的停留时间来确定所述一个或多个阶段的开始时间。

7.根据权利要求1所述的方法，其中所述一个或多个机器学习癌症检测模型包括机器学习模型，所述机器学习模型被配置为输出对多种类型的癌症的癌症存在的预测。

8.根据权利要求1所述的方法，其中所述至少一个筛查时间包括多个筛查时间，并且模拟所述早期癌症检测筛查还包括：

为所述参与者生成多个指示，每个指示指示所述机器学习癌症检测模型是否预测所述参与者在所述多个筛查时间中的相应筛查时间患有癌症；以及

如果两个或更多个筛查时间的两个或更多个指示检测到所述参与者患有癌症并且所述参与者在所述两个或更多个筛查时间患有癌症，则选择所述两个或更多个筛查时间中的较早筛查时间；以及

如果所述参与者在所选择的筛查时间具有比所述第一检测阶段更早的所述癌症阶段，则将所述第二检测阶段分类为所述较早阶段。

9.根据权利要求8所述的方法，其中所述多个筛查时间的所述多个指示通过以下操作来生成：将所述机器学习癌症检测模型的灵敏度建模为随着所述癌症的进展阶段不减小，并且使用马尔可夫链对所述多个指示进行采样。

10.根据权利要求1所述的方法，其中生成所述指示包括：

确定所述参与者在所述至少一个筛查时间是否患有癌症；

如果所述参与者在所述至少一个筛查时间患有癌症，则基于所述一个或多个机器学习癌症检测模型的灵敏度来对所述指示进行采样；以及

如果所述参与者在所述至少一个筛查时间没有癌症，则基于所述一个或多个机器学习癌症检测模型的特异性来对所述指示进行采样。

11.根据权利要求1所述的方法，其中模拟所述早期癌症检测筛查还包括：如果所述癌症检测模型的所述指示没有预测到所述参与者患有癌症或所述参与者在所述至少一个筛查时间具有比所述第一检测阶段更晚的癌症阶段，则将所述第一检测阶段确定为所述第二检测阶段。

12.根据权利要求11所述的方法，其中针对所述控制组和所述干预组中的每个组，所述一个或多个度量包括与在进展的阶段I或阶段II检测到的癌症的数目、在进展的阶段III或阶段IV检测到的癌症的数目以及死亡率有关的统计。

13.一种系统，包括：

处理器；

计算机可读存储介质，用于存储能够由处理器执行的指令，所述指令包括：

对于所述多个参与者中的每个被模拟的参与者：

14.根据权利要求13所述的系统，其中根据权利要求1所述的步骤在硬件处理系统的两个或更多个核上并行执行，并且其中根据权利要求1所述的步骤使用Julia编程语言实现。

15.根据权利要求13所述的系统，其中所述参与者的所述癌症类型从第一多项式分布中采样，所述第一多项式分布由一组癌症类型和所述一组癌症类型的对应概率表征，并且其中所述参与者的所述诊断阶段从第二多项式分布中采样，所述第二多项式分布由一组阶段和所述一组阶段的对应概率表征。

16.根据权利要求13所述的系统，其中所述诊断时间段从具有均值比率的指数分布中采样。

17.根据权利要求13所述的系统，还包括：

针对所述多个参与者中的每个参与者：

为所述参与者指派年龄；

18.根据权利要求13所述的系统，其中生成所述参与者的癌症轨迹还包括：

19.根据权利要求13所述的系统，其中所述一个或多个机器学习癌症检测模型包括机器学习模型，所述机器学习模型被配置为输出对多种类型的癌症的癌症存在的预测。

20.根据权利要求13所述的系统，其中所述至少一个筛查时间包括多个筛查时间，并且模拟所述早期癌症检测筛查还包括：

21.根据权利要求20所述的系统，其中所述多个筛查时间的所述多个指示通过以下操作来生成：将所述机器学习癌症检测模型的灵敏度建模为随着所述癌症的进展阶段不减小，并且使用马尔可夫链对所述多个指示进行采样。

22.根据权利要求13所述的系统，其中生成所述指示包括：

确定所述参与者在所述至少一个筛查时间是否患有癌症；

23.根据权利要求13所述的系统，其中模拟所述早期癌症检测筛查还包括：如果所述癌症检测模型的所述指示没有预测到所述参与者患有癌症或所述参与者在所述至少一个筛查时间具有比所述第一检测阶段更晚的癌症阶段，则将所述第一检测阶段确定为所述第二检测阶段。

24.根据权利要求23所述的系统，其中针对所述控制组和所述干预组中的每个组，所述一个或多个度量包括与在进展的阶段I或阶段II检测到的癌症的数目、在进展的阶段III或阶段IV检测到的癌症的数目以及死亡率有关的统计。

25.一种非暂态计算机可读存储介质，用于存储能够由处理器执行的指令，所述指令包括：

对于所述多个参与者中的每个被模拟的参与者：

对所述参与者的癌症类型和诊断阶段进行采样，其中在相对于登记时间所述参与者的诊断时间段已经过去之后，所述参与者被预期在所述诊断阶段被临床诊断为癌症类型；

确定第一检测时间，所述第一检测时间指示所述参与者的所述癌症在等于或早于所述诊断阶段的第一检测阶段被正确检测到的时间；针对所述干预组的参与者的所述第二子集中的每个被模拟的参与者，通过以下操作模拟通过一个或多个机器学习癌症检测模型在至少一个筛查时间内进行的早期癌症检测筛查：

26.根据权利要求25所述的非暂态计算机可读存储介质，其中根据权利要求1所述的步骤在硬件处理系统的两个或更多个核上并行执行，并且其中根据权利要求1所述的步骤使用Julia编程语言实现。

27.根据权利要求25所述的非暂态计算机可读存储介质，其中所述参与者的所述癌症类型从第一多项式分布中采样，所述第一多项式分布由一组癌症类型和所述一组癌症类型的对应概率表征，并且其中所述参与者的所述诊断阶段从第二多项式分布中采样，所述第二多项式分布由一组阶段和所述一组阶段的对应概率表征。

28.根据权利要求25所述的非暂态计算机可读存储介质，其中所述诊断时间段从具有均值比率的指数分布中采样。

29.根据权利要求25所述的非暂态计算机可读存储介质，还包括：

针对所述多个参与者中的每个参与者：

为所述参与者指派年龄；

30.根据权利要求25所述的非暂态计算机可读存储介质，其中生成所述参与者的癌症轨迹还包括：

31.根据权利要求25所述的非暂态计算机可读存储介质，其中所述一个或多个机器学习癌症检测模型包括机器学习模型，所述机器学习模型被配置为输出对多种类型的癌症的癌症存在的预测。

32.根据权利要求25所述的非暂态计算机可读存储介质，其中所述至少一个筛查时间包括多个筛查时间，并且模拟所述早期癌症检测筛查还包括：

33.根据权利要求32所述的非暂态计算机可读存储介质，其中所述多个筛查时间的所述多个指示通过以下操作来生成：将所述机器学习癌症检测模型的灵敏度建模为随着所述癌症的进展阶段不减小，并且使用马尔可夫链对所述多个指示进行采样。

34.根据权利要求25所述的非暂态计算机可读存储介质，其中生成所述指示包括：

确定所述参与者在所述至少一个筛查时间是否患有癌症；

35.根据权利要求25所述的非暂态计算机可读存储介质，其中模拟所述早期癌症检测筛查还包括：如果所述癌症检测模型的所述指示没有预测到所述参与者患有癌症或所述参与者在所述至少一个筛查时间具有比所述第一检测阶段更晚的癌症阶段，则将所述第一检测阶段确定为所述第二检测阶段。

36.根据权利要求35所述的非暂态计算机可读存储介质，其中针对所述控制组和所述干预组中的每个组，所述一个或多个度量包括与在进展的阶段I或阶段II检测到的癌症的数目、在进展的阶段III或阶段IV检测到的癌症的数目以及死亡率有关的统计。

37.一种方法，包括：

获得癌症发病率数据，所述癌症发病率数据指示针对至少一种癌症类型的、与年龄相关的癌症发病率，针对年龄的所述癌症发病率数据指示所述年龄的临床诊断的癌症发病率的数目；

生成与来自早期检测筛查的时间相关的、针对所述早期检测筛查的权重矩阵，其中针对将在来自所述早期检测筛查的特定时间被临床诊断的一组参与者，所述权重矩阵指示所述一组参与者中的将被所述早期检测筛查拦截的比例；

针对在所述早期检测筛查时处于给定年龄的参与者群体，通过将从所述给定年龄开始的所述癌症发病率数据与针对所述早期检测筛查的所述权重矩阵相乘来生成癌症的用于所述早期检测筛查的拦截发病率；以及

将所述拦截发病率提供给用于确定早期检测筛查研究的一个或多个参数的模块。