CN117063238A

CN117063238A - 用于定位准确度的起源组织条件返回

Info

Publication number: CN117063238A
Application number: CN202280024428.2A
Authority: CN
Inventors: O·C·维恩; P·D·弗里兹; S·S·格罗斯; R·A·P·卡列夫; A·詹希迪
Original assignee: Greer Co ltd
Current assignee: Greer Co ltd
Priority date: 2021-04-06
Filing date: 2022-04-05
Publication date: 2023-11-14
Also published as: EP4302299A1; IL305894A; JP2024513563A; CA3207988A1; KR20230167070A; WO2022216756A1; AU2022255318A1; US20220333209A1

Abstract

本文公开了利用核酸样本定位疾病状态(例如癌症起源组织)的系统和方法。在一个实施例中，该方法包括接收样本的多个癌症信号，每个癌症信号指示样本与多个疾病状态中的不同疾病状态相关联的概率。该方法确定多个癌症信号中具有最大概率的第一癌症信号。基于确定第一癌症信号满足标准，该方法将样本与第一疾病状态相关联。基于确定第一癌症信号不满足标准，该方法确定多个癌症信号中具有第二最大概率的第二癌症信号，并且将样本与第一疾病状态和第二疾病状态关联。

Description

用于定位准确度的起源组织条件返回

相关申请的交叉引用

本申请要求2021年4月6日提交的美国临时申请63/171,355号的优先权，用于所有目的，该临时申请通过引用而被整体并入本文。

技术领域

本公开总体上涉及用于定位疾病状态的起源组织确定的条件返回。

背景技术

可以训练模型以预测疑似癌症的起源组织。但是由于生物学模糊性，可能存在多于一个似乎合理的起源组织预测。例如，具有不同癌症起源组织的生物样本可能具有相似的特征。医生或其它医疗服务人员难以解析模糊或复杂的癌症信号以确定个体的诊断。由于信息片段较少，低肿瘤脱落(例如早期癌症)样本的定位也是具有挑战性的。

发明内容

本文公开了使用核酸样本定位疾病状态(例如存在或不存在癌症、癌症类型和/或癌症起源组织(在本文也称为“癌症信号起源”))的方法。本文公开的实施例提供了对使用非侵入性方法的癌症诊断和癌症早期检测领域的现有技术的改进。在一个方面，本公开提供了一种癌症诊断方法，包括：接收第一个体的第一样本的第一多个癌症信号，其中第一多个癌症信号中的每个癌症信号指示第一样本与多个疾病状态中的不同疾病状态相关联的概率；确定第一多个癌症信号中具有最大概率的第一癌症信号；响应于确定第一癌症信号满足准则，将第一样本与对应于第一癌症信号的疾病状态相关联；提供对应于与第一样本相关联的第一癌症信号的疾病状态，呈现在客户端设备上以确定第一个体的第一诊断；接收第二个体的第二样本的第二多个癌症信号，其中第二多个癌症信号中的每个癌症信号指示第二样本与多个疾病状态中的不同疾病状态相关联的概率；确定第二多个癌症信号中具有最大概率的第二癌症信号；响应于确定第二癌症信号不满足准则，将第二样本与多个疾病状态的子集相关联，该子集对应于包括至少第二癌症信号的第二多个癌症信号的子集；以及提供对应于与第二样本相关联的第二多个癌症信号的子集的多个疾病状态的子集，呈现在客户端设备上以确定第二个体的第二诊断。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括确定第二多个癌症信号中具有第二最大概率的第三癌症信号，其中第二多个癌症信号的子集还包括该第三癌症信号。

在一些实施例中，准则是概率阈值，其中确定第一癌症信号满足准则包括确定第一癌症信号的最大概率大于概率阈值。在一些实施例中，概率阈值为至少88％、89％、90％、91％或92％。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括基于癌症信号概率的准确度和假阳性来确定准则。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括基于与样本相关联的当前癌症的残余风险来确定准则。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括确定第一多个癌症信号中具有n个最大概率的第一多个癌症信号中的n个癌症信号的子集；以及响应于确定第一多个癌症信号的子集的至少阈值数目与疾病状态类别相关联，将第一样本与疾病状态类别中的每个疾病状态相关联。

在一些实施例中，疾病状态类别是人乳头状瘤病毒(HPV)癌。在一些实施例中，疾病状态类别包括胃癌和肠癌。

在一些实施例中，多个疾病状态包括非癌症状态。

在一些实施例中，多个疾病状态包括选自以下中的一种或多种类型的癌症，包括：肛门癌、乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂和输尿管的尿路上皮癌、非尿路上皮癌的肾癌、前列腺癌、肛肠癌、结肠直肠癌、食道的鳞状细胞癌、非鳞状食道癌、胃癌、由肝细胞产生的肝胆癌、由非肝细胞产生的肝胆癌、胰腺癌、人乳头状瘤病毒相关联的头颈癌、非人乳头状瘤病毒相关联的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和非腺癌或小细胞肺癌的肺癌、神经内分泌癌、黑素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤、白血病、肾癌、肝癌、胆管癌、浆细胞瘤、上胃肠道癌、外阴癌和肺神经内分泌肿瘤以及其它高级别神经内分泌肿瘤。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括提供对应于与第二样本相关联的多个疾病状态的子集的每个疾病状态的图形比较，用于在客户端设备上呈现。在一些实施例中，图形比较是基于第二多个癌症信号的概率的条形图。

在另一方面，本公开提供了一种系统，包括计算机处理器和存储器，存储器上存储计算机程序指令，当由计算机处理器执行时，该计算机程序指令使得处理器执行包括以下步骤的步骤：接收第一个体的第一样本的第一多个癌症信号，其中第一多个癌症信号中的每个癌症信号指示第一样本与多个疾病状态中的不同疾病状态相关联的概率；确定第一多个癌症信号中具有最大概率的第一癌症信号；响应于确定第一癌症信号满足准则，将第一样本与对应于第一癌症信号的疾病状态相关联；提供对应于与第一样本相关联的第一癌症信号的疾病状态，呈现在客户端设备上以确定第一个体的第一诊断；接收第二个体的第二样本的第二多个癌症信号，其中第二多个癌症信号中的每个癌症信号指示第二样本与多个疾病状态中的不同疾病状态相关联的概率；确定第二多个癌症信号中具有最大概率的第二癌症信号；响应于确定第二癌症信号不满足准则，将第二样本与多个疾病状态的子集相关联，该子集对应于包括至少第二癌症信号的第二多个癌症信号的子集；以及提供对应于与第二样本相关联的第二多个癌症信号的子集的多个疾病状态的子集，呈现在客户端设备上以确定第二个体的第二诊断。

在另一方面，本公开提供了一种包含指令的非暂态计算机可读介质，当由一个或多个处理器执行时，该指令使得一个或多个处理器执行以下步骤：接收第一个体的第一样本的第一多个癌症信号，其中第一多个癌症信号中的每个癌症信号指示第一样本与多个疾病状态中的不同疾病状态相关联的概率；确定第一多个癌症信号中具有最大概率的第一癌症信号；响应于确定第一癌症信号满足准则，将第一样本与对应于第一癌症信号的疾病状态相关联；提供对应于与第一样本相关联的第一癌症信号的疾病状态，呈现在客户端设备上以确定第一个体的第一诊断；接收第二个体的第二样本的第二多个癌症信号，其中第二多个癌症信号中的每个癌症信号指示第二样本与多个疾病状态中的不同疾病状态相关联的概率；确定第二多个癌症信号中具有最大概率的第二癌症信号；响应于确定第二癌症信号不满足准则，将第二样本与多个疾病状态的子集相关联，该子集对应于包括至少第二癌症信号的第二多个癌症信号的子集；以及提供对应于与第二样本相关联的第二多个癌症信号的子集的多个疾病状态的子集，呈现在客户端设备上以确定第二个体的第二诊断。

在另一方面，本公开提供了一种癌症信号定位方法，包括：接收样本的多个癌症信号，其中多个癌症信号中的每个癌症信号指示样本与多个疾病状态中的不同疾病状态相关联的概率；确定多个癌症信号中具有最大概率的第一癌症信号；基于确定第一癌症信号满足准则，将样本与对应于第一癌症信号的第一疾病状态相关联；基于确定第一癌症信号不满足准则：确定多个癌症信号中具有第二最大概率的第二癌症信号，并且将样本与对应于第一癌症信号的疾病状态和对应于第二癌症信号的第二疾病状态相关联。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括：基于确定第一癌症信号满足准则，提供第一癌症信号作为机器学习模型的输入，以确定样本中的癌症预测；以及基于确定第一癌症信号不满足准则：提供第一癌症信号和第二癌症信号作为机器学习模型的输入，以确定样本中的癌症预测。

在一些实施例中，本公开的方法、系统或非暂态计算机可读介质还包括：基于确定第一癌症信号满足准则，创建第一训练集以训练用于癌症信号定位的机器学习模型，第一训练集包括样本与对应于第一癌症信号的第一疾病状态的关联关系；以及基于确定第一癌症信号不满足准则：创建第二训练集以训练机器学习模型，第二训练集包括样本与对应于第一癌症信号的第一疾病状态和对应于第二癌症信号的第二疾病状态的关联关系。

在另一方面，本公开提供了一种癌症信号定位方法，包括：接收样本的多个癌症信号，其中多个癌症信号中的每个癌症信号指示样本与多个疾病状态中的不同疾病状态相关联的概率；假定多个癌症信号中除第一癌症信号外的其余癌症信号是不正确的，确定多个癌症信号中的第一癌症信号是真阳性的第一条件概率；响应于确定第一条件概率满足准则，将样本与至少对应于第一癌症信号的疾病状态相关联；确定不包括第一癌症信号的多个癌症信号的子集；假定多个癌症信号的子集中除第二癌症信号外的其余癌症信号是不正确的，确定多个癌症信号的子集中的第二癌症信号是真阳性的第二条件概率；以及响应于确定第二条件概率满足准则，将样本与至少对应于第二癌症信号的疾病状态相关联。

在各种实施例中，一种系统包括计算机处理器和存储器，存储器上存储计算机程序指令，当由计算机处理器执行时，该指令使得处理器执行本文描述的任一方法。在各种实施例中，非暂态计算机可读介质存储一个或多个程序，一个或多个程序包括指令，当由包括处理器的电子设备执行时，该指令使得设备执行本文描述的任一方法。

附图说明

图1A是根据各种实施例的癌症信号定位方法的流程图。

图1B是根据各种实施例的另一癌症信号定位方法的流程图。

图2A示出根据各种实施例的核酸样本测序系统。

图2B是根据各种实施例的癌症信号定位分析系统的框图。

图3是根据各种实施例的核酸测序过程的流程图。

图4示出根据一个实施例的癌症信号定位期间的真阳性和假阳性实验结果。

图5是根据各种实施例的基于条件概率的癌症信号定位方法的流程图。

图6示出根据一个实施例的癌症信号定位的实验结果。

图7示出根据一个实施例的基于条件返回的癌症信号定位的实验结果。

图8示出根据一个实施例的来自潜隐癌症样本的癌症信号定位的实验结果。

图9是根据一个实施例的癌症样本的子采样曲线图。

图10A和10B示出根据一个实施例的检测到的癌症样本，该样本经过子采样以匹配预期筛选癌症信号强度。

图11A和11B按照癌症类型示出根据一些实施例的子采样之前和之后的癌症信号强度。

图12按照癌症类型和阶段示出根据一些实施例的子采样之前和之后的癌症信号强度。

图13A和13B包括根据一些实施例的CSL调用概率分布条形图，诸如由第一、第二、第三和第四CSL调用捕捉到的CSL信号的比例。

图14A和14B包括根据一些实施例按照真实癌症类型的CSL调用概率分布条形图，诸如由第一、第二、第三和第四CSL调用捕捉到的CSL信号的比例。

图15A、15B和15C包括根据一些实施例被分成假阳性和真阳性的中值癌症得分条形图。

图16示出根据一些实施例的累积概率得分。

图17A和17B示出根据一些实施例的癌症信号定位的条件准确度。

图18A和18B示出根据一些实施例的固体和液体样本类型的癌症信号定位的条件准确度。

图19A和19B示出根据一些实施例的基于癌症阶段的癌症信号定位的条件准确度。

图20A和20B示出根据一些实施例的癌症信号定位的累积准确度。

图21A和21B示出根据一些实施例的假阳性癌症信号定位。

图22A和22B示出根据一些实施例的基于癌症类型的假阳性癌症信号定位。

具体实施方式

现在将详细地参考若干实施例，这些实施例的示例在附图中示出。应当注意，只要可行，相似或相同的附图标记可以在附图中使用，并且可以指示相似或相同的功能。还应注意，本文所引用的所有公开资料(专利申请、专利、论文、会议论文集等)的内容均整体以引用方式并入本文。

I.定义

除非另有明确说明，否则本文中使用的所有技术和科学术语具有本说明所属领域普通技术人员普遍理解的含义。如本文所使用的，下列术语具有下文中所赋予的含义。

术语“个体”是指人类个体。术语“健康个体”是指被认为没有癌症或疾病的个体。

术语“受试者”是指DNA正被分析的个体。受试者可以是测试受试者，如本文所述，测试受试者的DNA使用全基因组测序或靶向组来评估，以评估该人是否具有疾病状态(例如癌症、癌症类型或癌症起源组织)。受试者也可以是已知未患有癌症或其它疾病的对照组的一部分。受试者也可以是已知患有癌症或另一疾病的癌症或其它疾病组的一部分。对照组和癌症/疾病组可以用于帮助设计或验证靶向组。

术语“参考样本”是指从具有已知疾病状态的受试者获得的样本。

术语“训练样本”是指从已知疾病状态获得的能够用于生成序列读段的样本。训练样本可以应用于概率模型，以生成可以用于疾病状态分类的特征。

术语“检测样本”是指可能具有未知疾病状态的样本。

术语“序列读段”是指从来自个体的样本获得的核苷酸序列读段。序列读段可以由样本中的核酸片段生成。序列读段可以是由来自单个原始核酸分子的多个扩增子导出的多个序列读段生成的折叠序列读段。在一些实施例中，序列读段可以是去重复序列读段。序列读段可以通过本领域已知的多种方法获得。

术语“疾病状态”是指疾病存在或不存在、疾病类型和/或疾病起源组织。例如，在一个实施例中，本公开提供了用于检测癌症(即癌症存在或不存在)、癌症类型或癌症起源组织的方法、系统和非暂态计算机可读介质。

术语“起源组织”或“TOO”是指疾病状态可能出现或起源的器官、器官群、身体区域或细胞类型。例如，起源组织或癌细胞类型的识别通常允许识别适当的后续步骤以进一步诊断、分期和决定治疗。

本文所用的术语“甲基化”是指将甲基基团添加至DNA分子的化学过程。DNA的四个碱基中的两个，胞嘧啶(“C”)和腺嘌呤(“A”)可以被甲基化。例如，胞嘧啶碱基的嘧啶环上的氢原子可以被转化为甲基基团，形成5-甲基胞嘧啶。甲基化倾向于发生在胞嘧啶和鸟嘌呤的二核苷酸处，在本文中称为“CpG位点”。在其它情况下，甲基化可以发生在不是CpG位点一部分的胞嘧啶处，或者发生在不是胞嘧啶的另一个核苷酸处；然而，这些情况比较罕见。在本公开中，为了清楚起见，甲基化是参考CpG位点讨论的。然而，本文的原理同样适用于检测非CpG背景下的甲基化，包括非胞嘧啶甲基化。例如，虽然并未受到太多关注，但已经在细菌、植物和哺乳动物的DNA中观察到腺嘌呤甲基化。

在此类实施例中，用于检测甲基化的湿式实验室测定可以不同于本文所描述的本领域所熟知的那些。此外，甲基化状态向量可以包含一般是已经发生或尚未发生甲基化的位点向量的元素(即使那些位点不是CpG位点特异性的)。通过这种替换，本文描述的其余方法都是相同的，因此，本文描述的发明构思也适用于那些其它形式的甲基化。

术语“CpG位点”是指DNA分子中的一个区域，其中在碱基线性序列中沿5'到3'的方向，胞嘧啶核苷酸后面是鸟嘌呤核苷酸。“CpG”是5'-C-磷酸-G-3'的缩写，即胞嘧啶和鸟嘌呤仅由一个磷酸基团分开；磷酸将DNA中的任意两个核苷酸连接在一起。CpG二核苷酸中的胞嘧啶可以被甲基化以形成5-甲基胞嘧啶。

术语“无细胞脱氧核糖核酸”、“无细胞DNA”或“cfDNA”是指在如血液、汗液、尿液或唾液的体液中循环，并且起源于一个或多个健康细胞和/或来自一个或多个癌细胞的脱氧核糖核酸片段。

术语“循环肿瘤DNA”或“ctDNA”是指起源于肿瘤细胞或其它类型癌细胞的脱氧核糖核酸片段，其可以随着诸如濒死细胞的凋亡或坏死而释放到个体的体液(如血液、汗液、尿液或唾液)中，或由活肿瘤细胞主动释放。

II.定位方法概述

图1A是根据各种实施例的癌症信号定位方法100的流程图。图2B是根据各种实施例的癌症信号定位分析系统200的框图。在图2B所示的实施例中，分析系统200包括序列处理器210、机器学习引擎220、概率模型230、分类器240和定位引擎250。在各种实施例中，分析系统200执行本文描述的任一方法。方法100包括但不限于以下步骤。

步骤110，定位引擎250接收第一样本的第一癌症信号集。癌症信号也可以称为“概率得分”或“癌症得分”。第一癌症信号集中的每个癌症信号指示第一样本与疾病状态集中的不同疾病状态相关联的概率。每个癌症信号(的概率)可以在0％到100％、0到100、0到1的范围内。第一组中的癌症信号的总和可以是100％、100或1。

癌症信号可以由一个或多个分类器240生成。在各种实施例中，分类器240通过处理样本的序列读段生成癌症信号。序列处理器210可以生成样本的序列读段。在一些实施例中，信号与除癌症以外的疾病状态相关联。例如，疾病状态可以包括医学或生理状况、遗传病症、健康相关度量和其它类型的疾病。

在各种实施例中，分类器240生成一组22个癌症信号，包括21种不同癌症类型的癌症信号和一个非癌症信号。这21种不同癌症类型可以包括：肛门；膀胱和泌尿系；乳腺；宫颈；结肠直肠；头颈；肾；肝胆管；肺；肺或其它器官的神经内分泌细胞；淋巴系；黑素细胞系；骨髓系；卵巢；胰腺胆囊；浆细胞系；前列腺；骨和软组织；甲状腺；胃和食道；子宫。在其它实施例中，分类器生成包括其它不同数量的癌症信号的组，或包括与上述列表不同类型的疾病状态的组。

步骤120，定位引擎250确定第一癌症信号集中具有最大概率的第一癌症信号。步骤130，响应于确定第一癌症信号满足准则，定位引擎240将第一样本与至少对应于第一癌症信号的疾病状态相关联。例如，定位引擎250可以报告第一样本与具有由疾病状态指示的起源组织的癌症相关联的预测。在一些实施例中，定位引擎250仅报告对应于第一癌症信号的疾病状态；也就是说，定位引擎250不会报告对应于第一癌症信号集中的其它癌症信号的疾病状态的预测。在满足准则时仅报告一个疾病状态可以有助于降低由分析系统200提供的输出的复杂度，从而可以辅助医生的实践。

在各种实施例中，准则是阳性癌症得分概率阈值的90％。也就是说，定位引擎250确定分类器240是否将癌症信号起源组织得分的90％分配给(对应于疾病状态的)第一癌症信号。在如前所述的癌症信号组包括22种癌症类型的一些实施例中，概率阈值不用于说明一种非癌症信号；也就是说，定位引擎250确定分类器240是否将21个癌症信号中的癌症信号起源组织得分量的90％分配给第一癌症信号。在其它实施例中，除了指示存在癌症的癌症信号之外，概率阈值还用于说明一个非癌症信号。在其它实施例中，该准则可以是其它不同的预定概率阈值，例如88％、89％、91％、92％等。

在各种实施例中，定位引擎250基于癌症信号概率和假阳性的准确度来确定准则。选择使得正确检测到的真阳性级分增加的准则的概率阈值也可能会增加假阳性数量，即在实际上没有癌症存在的健康样本中错误地预测癌症存在。这种折衷在图4所示的曲线400中示出。在较低的概率阈值下，真阳性检测的边际效益较高。在超过90％的更大概率阈值处，由于假阳性的级分增加，真阳性检测的边际效益降低。在一个实施例中，定位引擎250通过确定真阳性检测与假阳性检测的对比图400上的曲线拐点来确定概率阈值。基于拐点，定位引擎250确定例如90％的概率阈值是最优的，因为使用该概率阈值确定癌症预测提高了真阳性检测的准确度，同时减少了假阳性检测的风险。该概率阈值提供了对进行真阳性预测时不考虑假阳性风险的常规方法的改进。具有高假阳性率的常规方法会导致总体预测准确度较低。因此，该概率阈值对于确定癌症预测的实际应用是有利的，特别是在非侵入性程序中，例如使用血液样本代替需要手术的组织活检。

步骤140，定位引擎250接收第二样本的第二癌症信号集。第一样本和第二样本可以来自两个不同的患者或来自同一患者。样本可以包括无细胞核酸样本(例如cfDNA)、实体瘤样本和/或其它类型的生物样本中的任意一种生物样本。第二癌症信号集中的每个癌症信号指示第二样本与疾病状态集中的不同疾病状态(例如与第一癌症信号集相同的集)相关联的概率。

步骤150，定位引擎250确定第二癌症信号集中具有最大概率的第二癌症信号。步骤160，响应于确定第二癌症信号不满足准则，定位引擎250将第二样本与疾病状态集的子集相关联，该子集对应于第二癌症信号集的子集。在一些实施例中，第二癌症信号集的子集可以包括第二癌症信号集中具有最大的两个概率的癌症信号。在其它实施例中，第二癌症信号集的子集可以包括不同数量的癌症信号，例如三个、四个、五个或更多个癌症信号。

在一些实施例中，定位引擎250确定第一癌症信号集中具有n个最大概率的第一癌症信号集中的n个癌症信号的子集。响应于确定第一癌症信号集的子集的至少阈值数目与疾病状态类别相关联，定位引擎250将第一样本与疾病状态类别中的每个疾病状态相关联。例如，疾病状态类别是人乳头状瘤病毒(HPV)癌。在另一不同示例中，疾病状态类别包括胃癌和肠癌。在其它实施例中，疾病状态类别可以包括一种或多种其它类型的癌症。

在一些实施例中，定位引擎250可以基于与样本相关联的当前癌症的残余风险(个体被诊断患有癌症的风险)来确定准则。例如，定位引擎250确定基于给定不正确的起源组织预测的癌症的条件概率来报告附加癌症信号，其中v是校准后的起源组织概率的排序向量：

v＝(a1，a2，a3，...，a21)

P(假阳性)＝1-v

P(TOO正确的真阳性)＝v*a1

P(TOO不正确的真阳性)＝v*(1-a1)

定位引擎250可以在癌症阳性测试中没有在第一起源组织处检测到癌症之后，确定个体患有癌症的概率；可以在第二或第三起源组织处检测到癌症。

定位引擎250可以向用户(诸如医生、内科医生或临床医生等其它类型的医疗服务人员)呈现疾病状态确定(例如癌症起源组织的定位)。例如，定位引擎250提供对应于与第一样本相关联的第一癌症信号的疾病状态，以在客户端设备上呈现给用户。定位引擎250可以提供对应于与第二样本相关联的疾病状态集的子集的每个疾病状态的图形比较。在各种实施例中，图形比较是基于第二癌症信号集的概率的条形图。通过呈现概率的视觉描绘，用户可以直观地解释由定位引擎250输出的信息。例如，图形比较可以表明用户对有更大概率是检测到的癌症的真正阳性起源组织的起源组织更加重视。

图1B是根据各种实施例的另一癌症信号定位方法170的流程图。方法170包括但不限于以下步骤。

步骤172，定位引擎250接收样本的癌症信号集。癌症信号集中的每个癌症信号指示样本与疾病状态集中的不同疾病状态相关联的概率。步骤174，定位引擎250确定癌症信号集中具有最大概率的第一癌症信号。

步骤176，基于确定第一癌症信号满足准则(诸如上文所述的任一准则)，定位引擎250将样本与对应于第一癌症信号的第一疾病状态相关联。

步骤178，基于确定第一癌症信号不满足准则，定位引擎250确定癌症信号集中具有第二最大概率的第二癌症信号；以及步骤180，定位引擎250将样本与对应于第一癌症信号的疾病状态和对应于第二癌症信号的第二疾病状态相关联。换言之，定位引擎250将样本与第二癌症信号集中具有最大的两个概率的癌症信号相关联。

图5是根据各种实施例的基于条件概率的癌症信号定位方法500的流程图。代替使用预定概率阈值，假定先前的n-1个癌症信号是不正确的，定位引擎250可以基于第n个癌症信号正确的条件概率来确定阈值。在这种情况下，只要P(第n个癌症信号正确|之前的n-1个癌症信号不正确)满足诸如超过阈值概率的准则，定位引擎250就可以继续返回癌症信号。方法500包括但不限于以下步骤。

步骤510，定位引擎250接收样本的癌症信号集。每个癌症信号指示样本与疾病状态集中的不同疾病状态相关联的概率。

步骤520，假定癌症信号集中的其余癌症信号是不正确的，定位引擎250确定癌症信号集中的第一癌症信号是真阳性的第一条件概率。步骤530，响应于确定第一条件概率满足准则，定位引擎250将样本与至少对应于第一癌症信号的疾病状态相关联。

步骤540，定位引擎确定不包括第一癌症信号的多个癌症信号的子集。步骤550，假定癌症信号子集中除第二癌症信号外的其余癌症信号是不正确的，定位引擎确定癌症信号子集中的第二癌症信号是真阳性的第二条件概率。步骤560，响应于确定第二条件概率满足准则，定位引擎250将样本与至少对应于第二癌症信号的疾病状态相关联。

II.A.测定协议

图3是根据实施例的核酸测序过程300的流程图。在一些实施例中，执行过程300以生成序列读段，该序列读段由分析系统200使用于执行本文所述的任一癌症信号定位方法。

在步骤310中，从受试者提取核酸样本(例如DNA或RNA)。在本公开中，除非另有说明，否则DNA和RNA可以互换使用。也就是说，本文描述的实施例可以应用于DNA和RNA两种类型的核酸序列。然而，为了清楚和解释的目的，本文描述的示例可以集中在DNA上。样本可以包括源自人类基因组的任何子集的核酸分子，包括全基因组。样本可以包括血液、血浆、血清、尿液、粪便、唾液、其它类型的体液或其任意组合。在一些实施例中，血液样本的抽取方法(例如注射器或手指穿刺)可以比可能需要手术以获得组织活检的程序侵入性更小。提取的样本可以包含cfDNA和/或ctDNA。如果受试者具有疾病状态，诸如癌症，则从受试者提取的样本中的无细胞核酸(例如cfDNA)一般包括可以用于评估疾病状态的可检测水平的核酸。

在步骤315中，对提取的核酸(例如包含cfDNA片段)进行处理，以将未甲基化的胞嘧啶转化为尿嘧啶。在一些实施例中，方法300对样本使用重亚硫酸盐处理，将未甲基化的胞嘧啶转化为尿嘧啶，但不转化甲基化的胞嘧啶。例如，使用商用试剂盒进行重亚硫酸盐转化，诸如EZ DNA Methylation^TM—Gold、EZ DNA Methylation^TM—Direct或EZ DNAMethylation^TM—Lightning试剂盒(可从Zymo Research Corp(Irvine，CA)购得)。在另一实施例中，未甲基化胞嘧啶向尿嘧啶的转化伴随着利用酶反应。例如，转化可以使用可商业购得的试剂盒将未甲基化胞嘧啶转化为尿嘧啶，例如APOBEC-seq(NEBiolabs，Ipswich，MA)。

在步骤320中，制备测序库。在一些实施例中，制备包括至少两个步骤。第一步，利用ssDNA连接反应将ssDNA接头加入重亚硫酸盐转化的ssDNA分子的3′-OH端。在一些实施例中，ssDNA连接反应利用CircLigase II(Epicentre)将ssDNA接头连接至重亚硫酸盐转化的ssDNA分子的3′-OH端，其中接头的5′-端被磷酸化，并且重亚硫酸盐转化的ssDNA已经被去磷酸化(即3′端具有羟基)。在另一实施例中，ssDNA连接反应利用热稳定的5′AppDNA/RNA连接酶(可从New England BioLabs(Ipswich，MA)获得)将ssDNA接头连接至重亚硫酸盐转化的ssDNA分子的3′-OH端。在该示例中，第一UMI接头在5′端被腺苷酸化，在3′端被阻断。在另一实施例中，ssDNA连接反应利用T4 RNA连接酶(可从New England BioLabs获得)将ssDNA接头连接至重亚硫酸盐转化的ssDNA分子的3′-OH端。

第二步，在延伸反应中合成第二链DNA。例如，在引物延伸反应中使用与包含在ssDNA接头中的引物序列杂交的延伸引物，形成双链重亚硫酸盐转化的DNA分子。可选地，在一些实施例中，延伸反应使用能够通读重亚硫酸盐转化的模板链中的尿嘧啶残基的酶。

可选地，在第三步中，将dsDNA接头添加至双链重亚硫酸盐转化的DNA分子。然后，双链重亚硫酸盐转化的DNA可以扩增以添加测序接头。例如，使用包括P5序列的正向引物和包括P7序列的反向引物的PCR扩增被用于将P5和P7序列添加至重亚硫酸盐转化的DNA。可选地，在库制备期间，可以通过接头连接将唯一分子标识符(UMI)添加至核酸分子(例如DNA分子)。UMI是在接头连接过程中添加至DNA片段末端的短核酸序列(例如4至10个碱基对)。在一些实施例中，UMI是简并碱基对，用作可以用于识别源自特定DNA片段的序列读段的独特标签。在接头连接后的PCR扩增期间，UMI与附接的DNA片段一起复制，从而提供在下游分析中识别来自相同原始片段的序列读段的方法。

在可选步骤325中，核酸(例如片段)可以杂交。杂交探针(本文也称为“探针”)可以用于靶向和下拉提供疾病状态信息的核酸片段。对于给定的工作流程，探针可以被设计为与DNA或RNA的靶(互补)链重组(或杂交)。靶链可以是“正”链(例如转录为mRNA，并且随后转译为蛋白质的链)或互补的“负”链。探针的长度范围可以是数十、数百或数千个碱基对。此外，探针可以覆盖目标区域的重叠部分。

在可选步骤330中，杂交的核酸片段被捕捉，并且可以例如利用PCR扩增而富集。在一些实施例中，靶DNA序列可以从库中富集。这种方法在例如对样本执行靶向组测定时使用。例如，可以使靶序列富集，以获得可以随后测序的富集序列。一般地，本领域任何已知的方法均可以用于探针杂交靶核酸的分离和富集。例如，如本领域所熟知的，可以将生物素部分添加至探针的5′-末端(即生物素化)，以便于使用链霉亲和素包被的表面(例如链霉亲和素包被的珠)分离与探针杂交的靶核酸。

在步骤335中，从核酸样本生成序列读段，例如富集序列。可以通过本领域已知的手段，从富集DNA序列中获取序列数据。例如，该方法可以包括下一代测序(NGS)技术，包括合成技术(Illumina)、焦磷酸测序(454Life Sciences)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)、通过连接测序(SOLiD测序)、纳米孔测序(Oxford Nanopore Technologies)或配对末端测序。在一些实施例中，使用利用可逆染料终止子的边合成边测序进行大规模平行测序。

II.B.示例性测序仪和分析系统

图2A示出根据各种实施例的核酸样本测序系统。该示意图包括诸如测序仪270和分析系统200的设备。测序仪270和分析系统200可以协力工作以执行本文所述过程中的一个或多个步骤。

在各种实施例中，测序仪270接收富集核酸样本260。如图2A所示，测序仪270可以包括图形用户界面275，图形用户界面275使得用户能够与特定任务(例如启动测序或终止测序)交互；以及一个或多个加载站280，加载站280用于加载包含富集片段样本的测序盒和/或加载用于执行测序分析所必需的缓冲液。因此，一旦测序仪270的用户向测序仪270的加载站280提供了必要的试剂和测序盒，用户就可以通过与测序仪270的图形用户界面275交互而发起测序。一旦启动，测序仪270就执行测序并输出来自核酸样本260的富集片段的序列读段。

在一些实施例中，测序仪270与分析系统200通信耦接。分析系统200包括一些计算设备，用于处理序列读段以用于各种应用，诸如评估一个或多个CpG位点的甲基化状态、变异识别或质量控制。测序仪270可以将BAM文件格式的序列读段提供给分析系统200。分析系统200可以通过无线、有线或无线与有线通信技术的组合通信耦接至测序仪270。一般地，分析系统200配置有处理器和存储有计算机指令的非瞬时计算机可读存储介质，当由处理器执行时，该计算机指令使得处理器处理序列读段或执行本文公开的任一方法或过程的一个或多个步骤。

在一些实施例中，可以使用本领域已知的方法将序列读段与参考基因组比对，以确定比对位置信息。比对位置可以大体描述参考基因组中对应于给定序列读段的起始核苷酸碱基和末端核苷酸碱基的起始位置和终止位置。对应于甲基化测序，比对位置信息可以概括为根据与参考基因组的比对，指示包含在序列读段中的第一个CpG位点和最后一个CpG位点。比对位置信息还可以指示给定序列读段中所有CpG位点的甲基化状态和位置。参考基因组中的区域可以与基因或基因片段相关联；因此，分析系统200可以利用与序列读段比对的一个或多个基因来标记序列读段。在一个实施例中，片段长度(或大小)由起始位置和终止位置位置确定。

在各种实施例中，例如当使用配对末端测序过程时，序列读段包括用R_1和R_2表示的读段对。例如，第一读段R_1可以从双链DNA(dsDNA)分子的第一末端测序，而第二读段R_2可以从双链DNA(dsDNA)的第二末端测序。因此，第一读段R_1和第二读段R_2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如以相反的取向)比对。从读段对R_1和R_2导出的比对位置信息可以包括参考基因组中对应于第一读段(例如R_1)末端的起始位置，以及参考基因组中对应于第二读段(例如R_2)末端的终止位置。换句话说，参考基因组中的起始位置和终止位置代表核酸片段所对应的参考基因组中的可能位置。在一个实施例中，读段对R_1和R_2可以组装成片段，并且该片段用于随后的分析和/或分类。可以生成并输出SAM(序列比对图)格式或BAM(二进制)格式的输出文件，以供进一步分析。

现在参考图2B，分析系统200实现用于分析DNA样本、序列读段或其它信息的一个或多个计算设备和/或一个或多个处理器。

在一些实施例中，序列处理器210为来自样本的片段生成甲基化状态向量。在片段上的每个CpG位点处，序列处理器210为指定片段在参考基因组中的位置、片段中的CpG位点数量的每个片段，以及片段中每个CpG位点(无论是甲基化的、未甲基化的还是不确定的)的甲基化状态生成甲基化状态向量。序列处理器210可以将片段的甲基化状态向量存储在序列数据库215中。序列数据库215中的数据可以被组织为使得来自样本的甲基化状态向量彼此相关联。

此外，多个不同的模型230可以存储在模型数据库225中或被检索以与检测样本一起使用。在一个示例中，模型是经训练的癌症分类器240，用于利用从异常片段导出的特征向量来确定检测样本的癌症预测。癌症分类器的训练和使用在本文的其它地方讨论。分析系统200可以训练一个或多个模型230和/或一个或多个分类器240，并将各种经训练的参数存储在参数数据库235中。分析系统200将模型230和/或分类器240连同函数一起存储在模型数据库225中。

在推断期间，机器学习引擎220使用一个或多个模型230和/或分类器240来返回输出。机器学习引擎访问模型数据库225中的模型230和/或分类器240，以及来自参数数据库235的经训练的参数。根据每个模型，机器学习引擎220接收用于该模型的适当输入，并且基于所接收的输入、参数以及涉及输入和输出的每个模型的函数来计算输出。在一些使用情况下，机器学习引擎220还计算与来自模型的计算输出的置信度相关的度量。在其它使用情况下，机器学习引擎220计算用于模型的其它中间值。

III.基于模型的特征工程和分类

III.A.基于模型的特征工程

根据一个实施例，本公开涉及基于模型的特征工程，用于导出对疾病状态分类有用的特征。如本文其它地方所描述的，疾病状态可以是疾病存在或不存在、疾病类型和/或疾病起源组织。例如，如本文所述，疾病状态可以是癌症存在或不存在、癌症类型和/或癌症起源组织。癌症类型和/或癌症起源组织可以选自以下组，包括：乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂尿路上皮癌、非尿路上皮癌的肾癌、前列腺癌、肛肠癌、结肠直肠癌、食道癌、胃癌、由肝细胞产生的肝胆癌、由非肝细胞产生的肝胆癌、胰腺癌、上胃肠道鳞状细胞癌、非鳞状细胞上胃肠道癌、头颈癌、肺癌(诸如肺腺癌、小细胞肺癌、鳞状细胞肺癌和非腺癌或小细胞肺癌的癌症)、神经内分泌癌、黑素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病，以及其它类型的癌症。

在一个过程中，如本文其它地方所描述的，从具有第一疾病状态的第一参考样本生成第一多个序列读段，并且从具有第二疾病状态的第二参考样本生成第二多个序列读段。第一多个序列读段和/或第二多个序列读段可以是多于10,000、多于50,000、多于100,000、多于200,000、多于500,000、多于1,000,000、多于2,000,000、多于5,000,000或多于10,000,000个序列读段。如本文所使用的“参考样本”是从具有已知疾病状态的受试者获得的样本。在一些实施例中，具有一个或多个已知疾病状态的一个或多个参考样本可以用于训练一个或多个概率模型，概率模型继而可以用于导出用于对未知检测样本的疾病状态进行分类的特征。样本可以是基因组DNA(gDNA)样本或无细胞DNA(cfDNA)样本。参考样本可以是血液、血浆、血清、尿液、粪便和唾液样本。备选地，参考样本可以是全血、血液级分、组织活检、胸腔积液、心包液、脑脊液和腹膜液。在一些实施例中，第一参考样本从已知患有癌症的受试者获得，并且第二参考样本从健康受试者或非癌症受试者获得。在一些实施例中，第一参考样本从已知患有第一类型的癌症(例如肺癌)的受试者获得，并且第二参考样本从已知患有第二类型的癌症(例如乳腺癌)的受试者获得。在其它实施例中，第一参考样本从已知具有第一疾病起源组织(例如肺病)的受试者获得，并且第二参考样本从第二疾病状态起源组织(例如肝病)获得。

继续该过程，机器学习引擎220分别从第一多个序列读段和第二多个序列读段训练第一概率模型230和第二概率模型230，每个概率模型与一个或多个可能的疾病状态中的不同疾病状态相关联。如前所述，疾病状态可以是癌症存在或不存在、癌症类型和/或癌症起源组织。在各种实施例中，训练数据被分成K个子集(折(fold))以用于K折交叉验证。折可以平衡为：癌症/非癌症状态、起源组织、癌症阶段、年龄(例如10年为一组)、性别、种族和吸烟状况以及其它因素。来自K-1个折的数据可以用作概率模型的训练数据，并且留存折可以用作测试数据。

通过将概率模型230中的每个模型分别拟合至第一多个序列读段和第二多个序列读段，机器学习引擎220分别训练针对第一疾病状态和第二疾病状态的第一和第二概率模型230。例如，在一个实施例中，使用从来自已知患有癌症的受试者的一个或多个样本导出的第一多个序列读段拟合第一概率模型，并且使用从来自健康受试者或非癌症受试者的一个或多个样本导出的第二多个序列读段拟合第二概率模型。在其它实施例中，可以针对第一类型的癌症或第一起源组织训练第一概率模型，并且可以针对第二类型的癌症或第二起源组织训练第二概率模型。如本领域技术人员将理解的，可以利用从来自具有多个可能疾病状态中的任一个疾病状态的受试者的一个或多个样本导出的序列读段，训练任何数量的疾病状态概率模型。例如，在一些实施例中，可以针对第三、第四、第五、第六、第七、第八、第九、第十个等(例如高达二十、三十或更多个)特定癌症类型训练额外的癌症特异性概率模型(即针对额外类型的癌症和/或起源组织模型)，并用于确定相比于另一种癌症类型(或癌症起源组织)，来自训练集或未知癌症类型的序列读段更可能源自某一种癌症类型(或起源癌症组织)的概率，如本文其它地方所描述的。

如本文所使用的“概率模型”是能够基于读段上一个或多个位点的甲基化状态，为序列读段分配概率的任何数学模型。在训练期间，机器学习引擎220拟合从来自患有已知疾病的受试者的一个或多个样本导出的序列读段，并且可以用于利用甲基化信息或甲基化状态向量，确定指示疾病状态的序列读段概率。特别地，在一个实施例中，机器学习引擎220确定观察到的序列读段内每个CpG位点的甲基化率。甲基化率代表CpG位点内甲基化的碱基对的级分或百分比。经训练的概率模型230可以通过甲基化率的乘积来参数化。一般地，可以使用用于将概率分配给来自样本的序列读段的任何已知的概率模型。例如，概率模型可以是二项式模型，其中核酸片段上的每个位点(例如CpG位点)都分配有甲基化概率，或者是独立的位点模型，其中每个CpG的甲基化都由不同的甲基化概率来指定，其中假定一个位点的甲基化独立于核酸片段上一个或多个其它位点的甲基化。

III.B.疾病状态起源组织分类

根据各种实施例，机器学习引擎220训练概率模型230，每个概率模型与多个疾病状态集中的不同疾病状态相关联。如前所述，在各种实施例中，疾病状态可以是癌症存在或不存在、癌症类型和/或癌症起源组织。另外，疾病状态可以与另一类型的疾病(不一定与癌症相关)或健康状态(不存在癌症或疾病)相关联。

机器学习引擎220使用一个或多个序列读段集训练概率模型230，其中一个或多个序列读段集中的每个序列读段集是从多个疾病状态集中的不同疾病状态生成的。疾病状态可以包括选自以下组的任何数量的癌症类型和/或癌症起源组织，包括：乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂尿路上皮癌、非尿路上皮癌的肾癌、前列腺癌、肛肠癌、结肠直肠癌、食道癌、胃癌、由肝细胞产生的肝胆癌、由非肝细胞产生的肝胆癌、胰腺癌、上胃肠道鳞状细胞癌、非鳞状细胞上胃肠道癌、头颈癌、肺癌(诸如肺腺癌、小细胞肺癌、鳞状细胞肺癌和非腺癌或小细胞肺癌的癌症)、神经内分泌癌、黑素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病，以及其它类型的癌症。

机器学习引擎220通过将概率模型230拟合至从对应于每个疾病状态的每个样本导出的序列读段，针对多个疾病状态中的每各疾病状态训练概率模型230。例如，在一些实施例中，可以针对特定类型的癌症训练概率模型。根据该实施例，可以针对第一、第二、第三等特定类型的癌症训练癌症特异性概率模型并用于评估癌症类型(例如未知检测样本的癌症类型)。例如，使用从与肺癌相关联的一个或多个样本导出的序列读段集来拟合肺癌特异性概率模型。作为另一示例，使用从与乳腺癌相关联的一个或多个样本导出的序列读段集来拟合乳腺癌特异性概率模型。在一些实施例中，可以针对第一、第二、第三等组织类型训练组织特异性概率模型并用于评估疾病状态起源组织。例如，可以使用从第一组织类型(例如从肺组织样本，诸如肺活检)导出的序列读段集来拟合第一起源组织概率模型，并且可以使用从第二组织类型(例如从肝脏组织样本，诸如肝脏活检)导出的序列读段集来拟合第二起源组织概率模型。备选地，在一些实施例中，使用从来自已知患有癌症的受试者的一个或多个样本导出的序列读段集来拟合癌症概率模型，并且使用从来自健康受试者或非癌症受试者的一个或多个样本导出的序列读段集来拟合非癌症特异性概率模型。如本领域技术人员将理解的，可以利用从来自具有多个可能疾病状态中的任一个疾病状态的受试者的一个或多个样本导出的序列读段，训练任何数量的疾病状态概率模型。例如，在一些实施例中，多个序列读段可以从3、4、5、6、7、8、9、10或更多个参考样本生成，每个参考样本从具有不同疾病状态(例如不同类型的癌症)的一个或多个受试者获得，并且多个序列读段可以用于训练3、4、5、6、7、8、9、10或更多个概率模型。

在训练期间，机器学习引擎220可以利用甲基化信息或甲基化状态向量基于指示疾病状态的序列读段进行训练。特别地，机器学习引擎220确定观察到的序列读段内每个CpG位点的甲基化率。甲基化率代表CpG位点内甲基化的碱基对的级分或百分比。经训练的概率模型230可以通过甲基化率的乘积来参数化。如前所述，可以使用用于将概率分配给来自样本的序列读段的任何已知的概率模型。例如，概率模型可以是二项式模型，其中核酸片段上的每个位点(例如CpG位点)都分配有甲基化概率，或者是独立的位点模型，其中每个CpG的甲基化都由不同的甲基化概率来指定，其中假定一个位点的甲基化独立于核酸片段上一个或多个其它位点的甲基化。

在一些实施例中，概率模型是Markov模型，其中每个CpG位点的甲基化概率取决于序列读段(或从中导出序列读段的核酸分子)中一些先前CpG位点的甲基化状态。参见例如2019年3月13日提交的题为“Anomalous Fragment Detection and Classification”的美国专利申请16/352,602号。

在一些实施例中，概率模型230是使用来自底层模型的组分混合物进行拟合的“混合模型”。例如，在一些实施例中，可以使用多个独立位点模型来确定混合物组分，其中假定每个CpG位点的甲基化(例如甲基化率)独立于其它CpG位点的甲基化。利用独立位点模型，分配给序列读段或从中导出序列读段的核酸分子的概率是序列读段甲基化的每个CpG位点的甲基化概率，与1减去序列读段未甲基化的每个CpG位点的甲基化概率后的乘积。根据该实施例，机器学习引擎220确定混合物组分中每个组分的甲基化率。混合物模型通过分别与甲基化率的乘积相关联的混合物组分的总和来参数化。n个混合物组分的概率模型Pr可以表示为：

对于输入片段，m_i∈{0，1}代表在参考基因组的位置i处观察到的片段的甲基化状态，其中0代表非甲基化，1代表甲基化。每个混合物组分k的级分赋值为f_k，其中f_k≥0并且f_k＝1。混合物组分k的CpG位点中的位置i处的甲基化概率为β_ki。因此，非甲基化概率是1-β_ki。混合物组分的数量n可以是1、2、3、4、5、6、7、8、9、10等。

在一些实施例中，机器学习引擎220使用最大似然估计拟合概率模型230，以识别经过以正则化强度r应用于每个甲基化概率的正则化惩罚，使得源自疾病状态的所有片段的对数似然最大化的参数集{β_ki，f_k}。N个总片段的最大化量可以表示为：

分析系统200应用概率模型230以计算第二序列读段集中每个序列读段的值。至少基于序列读段(和相应片段)源自与概率模型230的疾病状态相关联的样本的概率来计算上述值。分析系统200可以针对不同概率模型230中的每个概率模型重复该步骤。在一些实施例中，分析系统200使用对数似然比R和与某些疾病状态相关联的拟合概率模型来计算上述值。具体地，对数似然比可以使用观察到与疾病状态相关联的样本和健康样本的片段上的甲基化模式的概率Pr来计算：

在其它实施例中，分析系统200可以使用不同类型的比率或等式来计算上述值。机器学习引擎220可以基于针对各种疾病状态考虑的对数似然比中的至少一个是否高于阈值，确定指示疾病状态(例如癌症)的片段。

III.C.分类

在各种实施例中，分析系统200利用特征生成分类器240。分类器240被训练为针对来自测试受试者的检测样本的输入序列读段，预测与疾病状态相关联的起源组织。分析系统200可以例如基于互信息计算或其它计算度量，针对每对疾病状态选择预定数量的(例如1024个)最高排名特征，以用于训练分类器。预定数量可以被视为基于交叉验证表现而选择的超参数。分析系统200还可以从参考基因组的区域选择特征，参考基因组的区域被确定为在区分成对疾病状态方面更具信息性。在各种实施例中，针对每个区域和每对癌症类型(包括非癌症作为阴性类型)，分析系统200保持最佳性能层级。

在一些实施例中，分析系统200通过下述方式训练分类器240：将训练样本集及其特征向量输入分类器240中并调整分类参数，使得分类器240的功能准确地将训练特征向量与其对应标签相关联。分析系统200可以将训练样本分组为包括一个或多个训练样本的样本集，以用于分类器240的迭代分批训练。在输入包括训练特征向量的所有训练样本集并调整分类参数之后，分类器240可以被充分训练，以根据特征向量在一定误差范围内标记检测样本。分析系统200可以根据多种方法中的任一种来训练分类器240，例如，L1正则化逻辑回归或L2正则化逻辑回归(例如利用对数损失函数)、广义线性模型(GLM)、随机森林、多项式逻辑回归、多层感知器、支持向量机、神经网络或任何其它适当的机器学习技术。

在各种实施例中，分析系统200基于用于折的训练数据对多项逻辑回归分类器进行训练，并生成对留存数据的预测。对于K折中的每一折，分析系统200针对每种超参数组合训练一个逻辑回归。示例超参数是L2惩罚，即应用于逻辑回归的权重的正则化形式。另一示例性超参数是topK，即为每个组织类型对(包括非癌症)保留的高排名区域的数量。例如，在topK＝16的情况下，分析系统200保持通过本文描述的互信息程序排名的每个组织类型对的前16个区域。通过执行该程序，分析系统200可以针对训练集中的每个样本生成预测，同时确保分类器不是基于针对其生成预测的数据训练的。

在各种实施例中，对于每个超参数集，分析系统200评估对完整训练集的交叉验证预测表现，并且分析系统200选择表现最佳的超参数集，用于对完整训练集进行再训练。可以基于对数损失度量来确定表现。分析系统200可以取每个样本的正确标签预测的负对数，然后对样本求和，从而计算对数损失。例如，对于正确标签，1.0的完美预测将使得对数损失为0(越小越准确)。为了生成新样本的预测，分析系统200可以使用上述方法计算特征值，但是限于在所选择的topK值下选定的特征(区域/正类组合)。分析系统200可以利用生成的特征，使用经训练的逻辑回归模型创建预测。

在各种实施例中，分析系统200应用分类器240来预测检测样本的起源组织，其中起源组织与一个疾病状态相关联。在一些实施例中，分类器240可以返回多于一个疾病状态或起源组织的预测或可能性。例如，分类器240可以返回检测样本具有乳腺癌起源组织的可能性为65％、具有肺癌起源组织的可能性为25％，以及具有健康起源组织的可能性为10％的预测。分析系统200可以进一步处理预测值以生成单个疾病状态确定。

IV.示例

图6示出根据一个实施例的癌症信号定位(“CSL”)的实验结果。实验结果指示分析系统200报告一个癌症信号(即具有最高概率得分的癌症信号)、两个癌症信号(即具有两个最高概率得分的癌症信号)和三个癌症信号(即具有三个最高概率得分的癌症信号)时的癌症检测百分比。对于结果中包含的许多类型的癌症，当报告两种癌症信号而不是一种癌症信号时，检测百分比增大。

实验结果是基于一组450个样本。选择这些样本是为了反应隐匿癌症的癌症信号强度的预期分布。隐匿癌症是未确诊的临床前癌症。注意，一些癌症类型(诸如肛门和膀胱&尿路上皮)的子样本尺寸比其它癌症类型的子样本尺寸小。图6进一步证明了如果前两个CSL不正确，则第三个CSL在5％的情况下几乎没有可检测的益处。

图7示出根据一个实施例的基于条件返回的癌症信号定位的实验结果。这里，如果癌症信号的概率得分是阳性癌症信号量的90％或更高，则分析系统200返回一个癌症信号(最高得分癌症信号)。否则，分析系统200至多返回与两个最高概率得分相关联的前两个癌症信号。条形图示出在每种类型的癌症下返回一个和两个癌症信号的样本级分。例如，70％的乳腺癌样本有一个癌症信号返回，30％有两个癌症信号返回。作为另一示例，50％的卵巢癌样本有一个癌症信号返回，50％有两个癌症信号返回。

总之，实验结果表明，在大约90％的情况下，最高CSL是正确的，而在最高CSL不正确的情况下，第二个CSL在一半的情况下是正确的。在前两个CSL不正确的情况下，第三个CSL在大约80％的情况下是错误的，而且虽然高于随机猜测，但是在一些情况下，上报第三个CSL对于促进医生或其它医疗服务人员做出有效判断来说可能是无用的。因此，在一些实施例中，在开始其它诊断/分析方法(例如全身成像)之前，提供至多两次定位尝试。值得注意的是，结果表明，淋巴和骨髓CSL非常可靠地定位，并且大多数癌症在前两个CSL中定位。

使用确定的概率阈值上报最高癌症信号提供了对现有癌症诊断过程的改进，因为这向医疗服务人员呈现了一个或多个癌症信号的过滤子集。医疗服务人员可以更准确且快速地确定诊断，而不必解析可能包含可能不正确(例如假阳性)或不可靠的癌症信号定位的整个更大信号集合。如前所述，因为信息片段较少，肿瘤脱落(例如早期癌症)对于定位是有挑战性的。因此，用于非侵入性癌症预测的常规方法难以处理假阳性或不可靠的癌症信号。减少来自癌症信号的这种噪声降低了诊断过程的复杂性。癌症信号定位的准确度提高还减少了对具有癌症假阳性诊断的个体的不必要治疗。

在各种实施例中，使用概率阈值过滤癌症信号还改进了计算机功能，因为用于癌症诊断的方法在后续处理步骤中使用过滤后的癌症信号。例如，分析系统200使用过滤后的癌症信号(例如癌症信号子集)作为输出癌症预测的机器学习模型的输入。作为另一示例，分析系统200使用过滤后的癌症信号作为训练数据来训练机器学习模型以确定癌症预测，例如，如果在样本中检测到癌症存在，则确定起源组织。在这些示例中，使用过滤后的癌症信号减少了实现机器学习模型的计算机所需要的计算资源或处理时间。计算机通过处理最高癌症信号(例如通过使用概率阈值过滤而确定的子集中的一个或两个信号)而不是未过滤的癌症信号集，节约了计算时间。未过滤的癌症信号集可以包括10个或更多个癌症信号，如图7中所示的不同癌症类型所证明的。此外，未过滤的癌症信号集将随着额外的癌症信号随着时间的推移被识别而增加。在各种实施例中，分析系统200处理许多个体的癌症信号。在大规模层面上，对计算机功能的改进被放大，因为分析系统200必须处理大量数据以确定癌症预测。更有效且快速地确定癌症诊断允许更早地检测和治疗癌症，这对于个体的健康和预后来说可能是关键的。使用非侵入性方法实现有效且准确的癌症预测是更加有益的，因为这些方法可以使更大的个体群体能够进行癌症诊断。

图8示出根据一个实施例的来自潜隐癌症样本的癌症信号定位的实验结果。x轴表示第一起源组织概率，y轴表示第二起源组织概率。在从个体抽血期间，潜隐癌症样本中未诊断出癌症，但个体后来被诊断出癌症。因此，相对于来自已经被诊断的癌症样本的信号，来自潜隐癌症样本的癌症信号强度较弱。来自潜隐癌症样本的癌症信号强度在起源组织定位的准确度方面也具有更大的不确定性。

图10A和10B示出根据一个实施例的检测到的癌症样本(真阳性)，该样本经过子采样以匹配预期筛选癌症信号强度。子采样选择较少的iv期癌症和较多的i期和ii期癌症。此外，图10A和10B示出基于癌症阶段的癌症信号强度，并且示出随着癌症阶段从i期发展到iv期时，检测到的真阳性比例总体增加。然而，在两个个体之间的比较中，来自与i期癌症相关联的第一个体的样本的癌症信号强度可以比来自与iv期癌症相关联的第二个体的样本的癌症信号强度更大。

图11A和11B按照癌症类型示出根据一些实施例的子采样之前和之后的癌症信号强度。对于一些癌症类型(例如肺癌、结肠直肠癌和胰腺胆囊癌)，子采样后的真阳性检测百分比降低。而对于其它癌症类型(例如淋巴瘤、乳腺、子宫和前列腺)，子采样后的真阳性检测百分比增加。

图12按照癌症类型和阶段示出根据一些实施例的子采样之前和之后的癌症信号强度。如图12所示，变化最大的是iv期肺癌、胰腺_胆囊癌和结肠_直肠癌的减少，以及ii期乳房癌和i期子宫癌的增加。

图13A和13B包括根据一些实施例的CSL调用概率分布条形图，诸如由第一、第二、第三和第四CSL调用捕捉到的CSL信号的比例。具体地，图13A示出前四个癌症信号上的累积和边缘癌症得分分布总览图。累积条反映了前一、二、三和/或四个癌症信号的癌症得分总和。条是中值，具有10％的下误差和90％的上误差。

图13B示出不同癌症阶段的累积和边缘癌症得分分布图。条形图中的误差条指示第10和第90个百分位癌症得分。如图13A至13B所示，大约50-95％的信号被最高的CSL捕捉，中值位于大约90％处，并且早期阶段略低。

图14A和14B包括根据一些实施例按照真实癌症类型的CSL调用概率分布条形图，诸如由第一、第二、第三和第四CSL调用捕捉到的CSL信号的比例。如实验结果所示，HPV驱动的癌症(诸如肛门和阴部)样本的癌症得分比其它癌症类型的癌症得分低。

在一些实施例中，定位引擎250返回来自类别(例如HPV驱动的癌症)的多个癌症起源组织，即使类别本身内单个癌症类型的最高癌症得分不满足准则。例如，肛门样本的最高癌症信号的癌症得分为45％，而阴部样本的最高癌症得分的癌症得分为60％。尽管两个癌症得分均不满足90％的概率阈值，但是如果肛门和外阴癌症信号在具有最大信号强度的癌症信号集(例如前三个癌症信号)内，则定位引擎250可以确定返回肛门和外阴癌症信号。定位引擎250可以基于包括多种类型的癌症(例如胃癌和肠癌)的其它类别来调节癌症信号的返回。

图15A、15B和15C包括根据一些实施例被分成假阳性和真阳性的中值癌症得分条形图。图15A中所示的假阳性癌症得分量值低于图15B中所示的真阳性癌症得分量值。因此，对于假阳性，定位引擎250更频繁地返回两个或更多个癌症信号，因为最高癌症信号不太可能满足概率阈值(例如90％)。

图16示出根据一些实施例的累积概率得分。图16的图示出了需要由定位引擎250返回的癌症信号数量，这些癌症信号的累积概率得分达到阈值概率。例如，接近75％的真阳性样本将需要返回少于三个癌症信号(即返回一个或两个癌症信号)以累积90％的阈值概率。相反，低于50％的假阳性样本将需要返回少于三个癌症信号以累积90％的阈值概率。这些结果与图15A至15C中所示的结果一致，因为假阳性的癌症得分倾向于低于真阳性的癌症得分的量值。

图17A和17B示出根据一些实施例的癌症信号定位的条件准确度。如图17B所示，最高癌症信号(即具有最大概率得分的第1标签)在约90％的样本中是正确的。当最高癌症信号不正确时，第二癌症信号(即第2标签)在约50％的样本中是正确的。当前两个癌症信号不正确时，第三个癌症信号(即第3标签)在约20％的样本中是正确的。

图18A和18B示出根据一些实施例的固体和液体样本类型的癌症信号定位的条件准确度。图19A和19B示出根据一些实施例的基于癌症阶段的癌症信号定位的条件准确度。图18A中的结果显示，液体样本的癌症信号定位比固体样本的癌症信号定位更准确。与固体样本相比，对于更多数量的液体样本，定位引擎250返回了作为癌症起源组织的正确定位的最高癌症信号(即第1标签)。相反，固体样本的正确定位需要返回更多癌症信号(即第2、第3、第4、第5+标签)。

图20A和20B示出根据一些实施例的癌症信号定位的累积准确度。最高癌症信号是大约90％的样本中起源组织的精确定位。对于第二、第三和第四癌症信号定位，累积准确度分别增加至约94％、95％和96％。

图21A和21B示出根据一些实施例的假阳性癌症信号定位。图22A和22B示出根据一些实施例的基于癌症类型的假阳性癌症信号定位。图21A至21B所示的结果指示预测假阳性起源组织定位具有血液学(血液)起源还是固体(肿瘤)起源。假阳性主要被预测为固体定位。

V.癌症应用

在一些实施例中，本公开的方法、分析系统和/或分类器可以用于检测癌症存在(或不存在)、监测癌症进展或复发、监测治疗响应或有效性、确定存在或监测最小残留疾病(MRD)或其任意组合。在一些实施例中，分析系统和/或分类器可以用于识别癌症的起源组织。例如，系统和/或分类器可以用于将癌症识别为以下癌症类型中的任意一种：头颈癌、肝/胆管癌、上GI癌、胰腺/胆囊癌；结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴瘤、黑素瘤、肉瘤、乳腺癌和子宫癌。例如，如本文所述，分类器可以用于生成样本特征向量来自患有癌症的受试者的可能性或概率得分(例如从0％到100％，或从0到100)。

在一些实施例中，将概率得分与阈值概率进行比较，以确定受试者是否患有癌症。在其它实施例中，可以在不同的时间点(例如治疗之前或之后)评估该可能性或概率得分，以监测疾病进展或监测治疗有效性(例如治疗功效)。在其它实施例中，该可能性或概率得分可以用于做出或影响临床决策(例如癌症的诊断、治疗选择、治疗有效性评估等)。例如，在一个实施例中，如果可能性或概率得分超过阈值，则医生可以采用适当治疗。在一些实施例中，可以生成测试报告以向患者提供其测试结果，包括例如患者具有疾病状态(例如癌症)、疾病类型(例如癌症类型)和/或疾病起源组织(例如癌症起源组织)的概率得分。

V.A.癌症的早期检测

在一些实施例中，本公开的方法和/或分类器用于检测怀疑患有癌症的受试者体内是否存在癌症。例如，分类器(如本文所描述的)可以用于确定样本特征向量来自患有癌症的受试者的可能性或概率得分。

在一个实施例中，概率得分大于或等于60可以指示受试者患有癌症。在其它实施例中，概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90或大于或等于95指示受试者患有癌症。在其它实施例中，概率得分可以指示疾病的严重性。例如，与得分低于80(例如得分为70)相比，概率得分为80可以指示癌症的更严重的形式或更晚的阶段。类似地，概率得分随时间(例如在第二、更晚的时间点)增加可以指示疾病发展，或者概率得分随时间(例如在第二、更晚的时间点)减少可以指示治疗成功。

在另一实施例中，如本文所述，可以通过取患癌概率与非患癌概率(即1减去患癌概率)之比的对数来计算测试受试者的癌症对数优势比。根据该实施例，癌症对数优势比大于1可以指示受试者患有癌症。在其它实施例中，癌症对数优势比大于1.2、大于1.3、大于1.4、大于1.5、大于1.7、大于2、大于2.5、大于3、大于3.5或大于4指示受试者患有癌症。在其它实施例中，癌症对数优势比可以指示疾病的严重性。例如，与得分低于2(例如得分为1)相比，癌症对数优势比大于2可以指示更严重的癌症形式或更晚的阶段。类似地，癌症对数优势比随时间(例如在第二、较晚时间点)增加可以指示疾病发展，或者癌症对数优势比随时间(例如在第二、较晚时间点)减少可以指示治疗成功。

根据本公开的方面，本公开的方法和系统可以被训练以对多个癌症指标进行检测或分类。例如，本公开的方法、系统和分类器可以用于检测一种或多种、两种或更多种、三种或更多种、五种或更多种或十种或更多种不同类型的癌症的存在。

V.B.癌症和治疗监测

在某些实施例中，第一时间点在癌症治疗之前(例如切除手术或治疗干预之前)，第二时间点在癌症治疗之后(例如切除手术或治疗干预之后)，并且本方法用于监测治疗的有效性。例如，如果第二可能性或概率得分与第一可能性或概率得分相比减小，则认为治疗已经成功。然而，如果第二可能性或概率得分与第一可能性或概率得分相比增大，则认为治疗尚未成功。在其它实施例中，第一和第二时间点均在癌症治疗之前(例如切除手术或治疗干预之前)。在其它实施例中，第一和第二时间点均在癌症治疗之后(例如切除手术或治疗干预之前)，并且本方法用于监测治疗的有效性或治疗有效性的损失。在其它实施例中，cfDNA样本可以在第一和第二时间点从癌症患者获得并加以分析。例如以监测癌症进展、确定癌症是否缓解(例如治疗后)、监测或检测疾病残留或复发，或监测治疗(例如疗法)功效。

本领域技术人员将容易地理解，检测样本可以在任何期望的时间点集内从癌症患者获得，并且根据本公开的方法进行分析以监测患者的癌症状态。在一些实施例中，第一和第二时间点相隔的时间量在约15分钟至约30年的范围内，诸如约30分钟，诸如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时，诸如约1、2、3、4、5、10、15、20、25或约30天，或诸如约1、2、3、4、5、6、7、8、9、10、11或12个月，或诸如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其它实施例中，可以每隔3个月、每隔6个月、每隔1年、每隔2年、每隔3年、每隔4年或每隔5年从患者获取至少一次检测样本。

V.C.治疗

在又一实施例中，从本文所述的任何方法获得的信息(例如可能性或概率得分)可以用于做出或影响临床决策(例如癌症的诊断、治疗选择、治疗有效性评估等)。例如，在一个实施例中，如果可能性或概率得分超过阈值，则医生可以采用适当治疗(例如切除手术、放疗、化疗和/或免疫治疗)。在一些实施例中，可以将诸如可能性或概率得分的信息作为读出值提供给医生或受试者。

分类器(如本文所描述的)可以用于确定样本特征向量来自患有癌症的受试者的可能性或概率得分。在一个实施例中，当可能性或概率超过阈值时，采用适当的治疗(例如切除手术或疗法)。例如，在一个实施例中，如果可能性或概率得分大于或等于60，则采用一种或多种适当治疗。在另一实施例中，如果可能性或概率得分大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90或大于或等于95，则采用一种或多种适当治疗。在其它实施例中，癌症对数优势比可以指示癌症治疗的有效性。例如，癌症对数优势比随时间(例如在第二时间点、治疗之后)增加可以指示治疗没有效果。类似地，癌症对数优势比随时间(例如在第二时间点、治疗之后)减少可以指示治疗成功。在另一实施例中，如果癌症对数优势比大于1、大于1.5、大于2、大于2.5、大于3、大于3.5或大于4，则采用一种或多种适当治疗。

在一些实施例中，治疗是选自以下组中的一种或多种癌症治疗剂，包括：化疗治疗剂、靶向癌症治疗剂、分化治疗剂、激素治疗剂和免疫治疗剂。例如，治疗可以是选自以下组中的一种或多种化疗治疗剂，包括：烷化剂、抗代谢药物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(紫杉烷类)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、基于铂的药剂及其任意组合。在一些实施例中，治疗是选自以下组中的一种或多种靶向癌症治疗剂，包括：信号转导抑制剂(例如酪氨酸激酶和生长因子受体抑制剂)、组蛋白脱乙酰酶(HDAC)抑制剂、视黄酸受体激动剂、蛋白体抑制剂、血管生成抑制剂和单克隆抗体缀合物。在一些实施例中，治疗是一种或多种分化治疗剂，包括类维生素A，例如维甲酸、阿利维甲酸和贝沙罗汀。在一些实施例中，治疗是选自以下组中的一种或多种激素治疗剂，包括：抗雌激素、芳香酶抑制剂、孕激素、雌激素、抗雄激素和GnRH激动剂或类似物。在一个实施例中，治疗是选自以下组中的一种或多种免疫治疗剂，包括：诸如利妥昔单抗(RITUXAN)和阿仑单抗(CAMPATH)的单克隆抗体治疗、诸如BCG、白介素-2(IL-2)和干扰素-α的非特异性免疫治疗和佐剂、诸如沙利度胺和来那度胺(REVLIMID)的免疫调节药物。技术熟练的医生或肿瘤学家有能力基于诸如肿瘤类型、癌症阶段、先前暴露于癌症治疗或治疗剂的特征以及癌症的其它特征来选择适当的癌症治疗剂。

VI.其它考虑

已经出于说明目的呈现了本公开实施例的以上描述；其意图不在于穷举或将本发明限制为所公开的确切形式。相关领域的技术人员可以理解，根据上述公开，许多修改和变型是可能的。

本说明书的一些部分从对信息执行的操作的算法和符号表达方面描述了本公开的实施例。这些算法描述和表达通常由数据处理领域的技术人员用于向本领域的其它技术人员有效传达其工作的实质。虽然在功能上、计算上或逻辑上进行了描述，但是应当理解，这些操作通过计算机程序或等效电路、微代码等实现。此外，还已经证明，在不失一般性的情况下，有时将这些操作装置称为模块是方便的。所描述的操作及其相关模块可以用软件、固件、硬件或其任意组合来实现。

本文描述的任何步骤、操作或过程均可以利用一个或多个硬件或软件模块，单独地或与其它设备组合地执行或实现。在一些实施例中，软件模块利用计算机程序产品实现，该计算机程序产品包括含有计算机程序代码的计算机可读非暂态介质，该计算机程序代码可以由计算机处理器执行，以执行本文所述的任意或所有的步骤、操作或过程。

实施例还可以涉及由本文达到的计算过程产生的产品。此类产品可以包括从计算过程得到的信息，其中信息被存储在非瞬时有形计算机可读存储介质上，并且此类产品可以包括计算机程序产品的任何实施例或本文描述的其它数据组合。

最后，在说明书中使用的语言主要是出于可读性和指导性的目的而选择的，并且不能被选择以描绘或限制本发明的主题。因此，本发明的范围不受说明书的限制，而是由基于说明书的申请的任何权利要求来限制。因此，本文实施例的公开内容旨在说明本发明的范围而非限制本发明的范围，本发明的范围在所附权利要求中被阐述。

Claims

1.一种用于癌症诊断的方法，包括：

接收第一个体的第一样本的第一多个癌症信号，其中所述第一多个癌症信号中的每个癌症信号指示所述第一样本与多个疾病状态中的不同疾病状态相关联的概率；

确定所述第一多个癌症信号之中具有最大概率的第一癌症信号；

响应于确定所述第一癌症信号满足准则，而将所述第一样本与对应于所述第一癌症信号的疾病状态相关联；

提供对应于与所述第一样本相关联的所述第一癌症信号的所述疾病状态，用于呈现在客户端设备上以确定所述第一个体的第一诊断；

接收第二个体的第二样本的第二多个癌症信号，其中所述第二多个癌症信号中的每个癌症信号指示所述第二样本与所述多个疾病状态中的不同疾病状态相关联的概率；

确定所述第二多个癌症信号之中具有最大概率的第二癌症信号；

响应于确定所述第二癌症信号不满足所述准则，而将所述第二样本与所述多个疾病状态的子集相关联，所述子集对应于包括至少所述第二癌症信号的所述第二多个癌症信号的所述子集；以及

提供对应于与所述第二样本相关联的所述第二多个癌症信号的所述子集的所述多个疾病状态的所述子集，用于呈现在所述客户端设备上以确定所述第二个体的第二诊断。

2.根据权利要求1所述的方法，还包括：

确定所述第二多个癌症信号之中具有第二最大概率的第三癌症信号，其中所述第二多个癌症信号的所述子集还包括所述第三癌症信号。

3.根据权利要求1或2所述的方法，其中所述准则是概率阈值，并且其中确定所述第一癌症信号满足所述准则包括：

确定所述第一癌症信号的所述最大概率大于所述概率阈值。

4.根据权利要求3所述的方法，其中所述概率阈值至少为90％。

5.根据前述权利要求中任一项所述的方法，还包括：

基于癌症信号概率的准确度和假阳性来确定所述准则。

6.根据前述权利要求中任一项所述的方法，还包括：

基于与样本相关联的当前癌症的残余风险来确定所述准则。

7.根据前述权利要求中任一项所述的方法，还包括：

确定所述第一多个癌症信号之中具有n个最大概率的所述第一多个癌症信号中的n个癌症信号的所述子集；以及

响应于确定所述第一多个癌症信号中至少阈值数目的所述子集与疾病状态类别相关联，而将所述第一样本与所述疾病状态类别中的每个疾病状态关联。

8.根据权利要求7所述的方法，其中所述疾病状态类别是人乳头状瘤病毒(HPV)癌症。

9.根据权利要求7所述的方法，其中所述疾病状态类别包括胃癌和肠癌。

10.根据前述权利要求中任一项所述的方法，其中所述多个疾病状态包括非癌症状态。

11.根据前述权利要求中任一项所述的方法，其中所述多个疾病状态包括从以下组中选择的一种或多种类型的癌症，所述组包括：肛门癌、乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂和输尿管的尿路上皮癌、非尿路上皮癌的肾癌、前列腺癌、肛肠癌、结肠直肠癌、食道的鳞状细胞癌、非鳞状食道癌、胃癌、由肝细胞产生的肝胆癌、由非肝细胞产生的肝胆癌、胰腺癌、人乳头状瘤病毒相关联的头颈癌、非人乳头状瘤病毒相关联的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和非腺癌或小细胞肺癌的肺癌、神经内分泌癌、黑素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤、白血病、肾癌、肝癌、胆管癌、浆细胞瘤、上胃肠道癌、外阴癌和肺神经内分泌肿瘤、以及其它高级别神经内分泌肿瘤。

12.根据前述权利要求中任一项所述的方法，还包括：

提供对应于与所述第二样本相关联的所述多个疾病状态的所述子集的每个疾病状态的图形比较，用于在所述客户端设备上呈现。

13.根据权利要求12所述的方法，其中所述图形比较是基于所述第二多个癌症信号的所述概率的条形图。

14.一种用于癌症信号定位的方法，包括：

接收样本的多个癌症信号，其中所述多个癌症信号中的每个癌症信号指示所述样本与多个疾病状态中的不同疾病状态相关联的概率；

确定所述多个癌症信号之中具有最大概率的第一癌症信号；

基于所述第一癌症信号满足准则的确定，而将所述样本与对应于所述第一癌症信号的第一疾病状态相关联；

基于所述第一癌症信号不满足所述准则的确定：

确定所述多个癌症信号之中具有第二最大概率的第二癌症信号，并且

将所述样本与对应于所述第一癌症信号的所述第一疾病状态以及对应于所述第二癌症信号的所述第二疾病状态相关联。

15.根据权利要求14所述的方法，还包括:

基于所述第一癌症信号满足所述准则的确定，提供所述第一癌症信号作为机器学习模型的输入，以确定所述样本中的癌症预测；以及

基于所述第一癌症信号不满足所述准则的确定：提供所述第一癌症信号和所述第二癌症信号作为所述机器学习模型的输入，以确定所述样本中的所述癌症预测。

16.根据权利要求14所述的方法，还包括:

基于所述第一癌症信号满足所述准则的确定，创建第一训练集以训练用于癌症信号定位的机器学习模型，所述第一训练集包括所述样本与对应于所述第一癌症信号的所述第一疾病状态的关联关系；以及

基于所述第一癌症信号不满足所述准则的确定：创建第二训练集以训练所述机器学习模型，所述第二训练集包括所述样本与对应于所述第一癌症信号的所述第一疾病状态以及对应于所述第二癌症信号的所述第二疾病状态的关联关系。

17.根据权利要求14至16中任一项所述的方法，其中所述准则是概率阈值，并且其中所述第一癌症信号满足所述准则的确定包括：

确定所述第一癌症信号的所述最大概率大于所述概率阈值。

18.根据权利要求14至17中任一项所述的方法，还包括:

基于癌症信号概率的准确度和假阳性来确定所述准则。

19.根据权利要求14至18中任一项所述的方法，还包括:

基于与样本相关联的当前癌症的残余风险来确定所述准则。

20.根据权利要求14至19中任一项所述的方法，还包括:

确定所述多个癌症信号之中具有n个最大概率的所述多个癌症信号中的n个癌症信号的所述子集；以及

响应于确定所述多个癌症信号中至少阈值数目的所述子集与疾病状态类别相关联，而将所述样本与所述疾病状态类别中的每个疾病状态相关联。

21.根据权利要求20所述的方法，其中所述疾病状态类别是人乳头状瘤病毒(HPV)癌症。

22.根据权利要求20所述的方法，其中所述疾病状态类别包括胃癌和肠癌。

23.根据权利要求14至22中任一项所述的方法，其中所述多个疾病状态包括非癌症状态。

24.根据权利要求14至23中任一项所述的方法，其中所述多个疾病状态包括选自以下组中的一种或多种类型的癌症，包括：肛门癌、乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂和输尿管的尿路上皮癌、非尿路上皮癌的肾癌、前列腺癌、肛肠癌、结肠直肠癌、食道的鳞状细胞癌、非鳞状食道癌、胃癌、由肝细胞产生的肝胆癌、由非肝细胞产生的肝胆癌、胰腺癌、人乳头状瘤病毒相关联的头颈癌、非人乳头状瘤病毒相关联的头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和非腺癌或小细胞肺癌的肺癌、神经内分泌癌、黑素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤、白血病、肾癌、肝癌、胆管癌、浆细胞瘤、上胃肠道癌、外阴癌和肺神经内分泌肿瘤、以及其它高级别神经内分泌肿瘤。

25.根据权利要求14至24中任一项所述的方法，还包括:

提供对应于与所述第一样本相关联的所述第一癌症信号的所述疾病状态，用于呈现在客户端设备上以确定诊断。

26.根据权利要求14至25中任一项所述的方法，还包括:

提供对应于与所述第二样本相关联的所述多个疾病状态的所述子集的每个疾病状态的图形比较，用于在客户端设备上呈现以确定诊断。

27.根据权利要求26所述的方法，其中所述图形比较是基于所述第二多个癌症信号的所述概率的条形图。

28.一种用于癌症信号定位的方法，包括：

假定所述多个癌症信号的其余癌症信号是不正确的，确定所述多个癌症信号中的所述第一癌症信号为真阳性的第一条件概率；

响应于确定所述第一条件概率满足准则，而将所述样本与至少对应于所述第一癌症信号的疾病状态相关联；

确定不包括所述第一癌症信号的所述多个癌症信号的子集；

假定所述多个癌症信号的所述子集的其余癌症信号是不正确的，确定所述多个癌症信号的所述子集中的所述第二癌症信号为真阳性的第二条件概率；以及

响应于确定所述第二条件概率满足所述准则，而将所述样本与至少对应于所述第二癌症信号的疾病状态相关联。

29.一种系统，包括计算机处理器和存储器，所述存储器存储计算机程序指令，所述计算机程序指令在被所述计算机处理器执行时，使得所述处理器执行包括以下步骤的步骤：

30.一种包含指令的非暂态计算机可读介质，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

31.一种系统，包括计算机处理器和存储器，所述存储器上存储计算机程序指令，所述计算机程序指令在被所述计算机处理器执行时，使得所述处理器执行包括以下步骤的步骤：

确定所述多个癌症信号之中具有最大概率的第一癌症信号；

基于确定所述第一癌症信号满足准则，将所述样本与对应于所述第一癌症信号的第一疾病状态相关联；

基于确定所述第一癌症信号不满足所述准则：

将所述样本与对应于所述第一癌症信号的所述第一疾病状态和对应于所述第二癌症信号的所述第二疾病状态相关联。

32.一种包含指令的非暂态计算机可读介质，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

确定所述多个癌症信号之中具有最大概率的第一癌症信号；

基于确定所述第一癌症信号不满足所述准则：

33.一种系统，包括计算机处理器和存储器，所述存储器存储计算机程序指令，所述计算机程序指令在被所述计算机处理器执行时，使得所述处理器执行包括以下步骤的步骤：

假定所述多个癌症信号中的其余癌症信号不正确，确定所述多个癌症信号中的所述第一癌症信号为真阳性的第一条件概率；

确定不包括所述第一癌症信号的所述多个癌症信号的子集；

假定所述多个癌症信号的所述子集中的其余癌症信号不正确，确定所述多个癌症信号的所述子集中的第二癌症信号为真阳性的第二条件概率；以及

34.一种包含指令的非暂态计算机可读介质，所述指令在被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

假定所述多个癌症信号中的其余癌症信号不正确，确定所述多个癌症信号中的第一癌症信号为真阳性的第一条件概率；

确定不包括所述第一癌症信号的所述多个癌症信号的子集；