CN115398548A

CN115398548A - 疗法响应的机器学习预测

Info

Publication number: CN115398548A
Application number: CN202180025292.2A
Authority: CN
Inventors: E·伊斯勒; M·哈雷尔; C·拉哈夫; E·贾科伯; I·塞拉
Original assignee: Oncohorst Co
Current assignee: Oncohorst Co
Priority date: 2020-02-06
Filing date: 2021-02-07
Publication date: 2022-11-25
Also published as: IL295356A; EP4100955A4; EP4100955A1; CA3166539A1; WO2021156875A1; AU2021217241A1; JP2023512698A; US20230049979A1

Abstract

一种方法，其包括，对于患有特定类型疾病并且接受用于治疗该疾病的特定疗法的多个受试者中的每个，接收在治疗前获得的第一生物特征和在治疗中获得的第二生物特征；对于多个受试者中的每个，计算值集，该值集表示与相应受试者相关联的第一和第二生物特征之间的比率；在训练阶段，在训练集上训练机器学习模型，该训练集包括：(i)计算的值集，和(ii)与每个受试者中特定疗法的结果相关联的标签：以生成适合于预测目标患者对所述特定疗法的响应的分类器。

Description

疗法响应的机器学习预测

相关申请的交叉引用

本申请根据35 U.S.C.§119(e)要求2020年2月6日提交的美国临时申请号62/971,065、2020年5月11日提交的63/022,736和2020年10月8日提交的63/089,304的优选权的权益。上述申请的内容全部通过引用并入，如同在本文中完整阐述一样。

技术领域

本发明涉及机器学习领域。

背景技术

包括但不限于肿瘤在内的各种疾病中的主要并发症之一是对疗法的抗性。许多研究都集中于肿瘤细胞中的突变和表观遗传学变化与产生耐药性的关系。然而，近年来，研究已经表明肿瘤微环境对疗法抗性的贡献，并且响应于几乎任何类型的抗癌疗法，患者(即，宿主)可能产生可以抵消治疗效果的促肿瘤产生和促转移过程。

宿主对癌症治疗的响应是相对较新描述的现象，其在理解癌症进展和对疗法抗性方面发生了范式转变，并且在本发明中被建议用于早期鉴定无响应的患者，并且作为医疗干预的目标(例如，可以与标准护理共同施用以改善无响应患者的治疗结果的关键因子的选择性抑制剂)的发现工具。

因此，非常需要鉴定可以预测对疗法响应的生物标志物。

相关技术的前述实例和与其相关的限制旨在是说明性的而不是排他性的。在阅读说明书和研究附图后，相关技术的其他限制对于本领域技术人员将变得显而易见。

发明内容

结合系统、工具和方法来描述和说明以下实施方式及其方面，其旨在是示例性和说明性的而非限制范围的。

在一个实施方式中，提供了一种系统，其包括至少一个硬件处理器；以及其上存储有程序指令的非暂时性计算机可读存储介质，该程序指令可由至少一个硬件处理器执行以：对于患有特定类型疾病并且接受用于治疗该疾病的特定疗法的多个受试者中的每个，接收(a)与在相对于特定疗法的第一时间点收集的生物样品相关联的第一生物特征(signature)，和(b)与在相对于特定疗法的第二时间点收集的生物样品相关联的第二生物特征；对于多个受试者中的每个，计算表示与相应受试者相关联的第一和第二生物特征之间的关系的值集；和在训练阶段，在训练集上训练机器学习模型，该训练集包括：(i)计算的值集，和(ii)与受试者的每个中的特定疗法的结果相关联的标签，以生成适合于预测目标患者对所述特定疗法的响应的分类器(classifier)。

在一个实施方式中，还提供了一种方法，该方法包括：对于患有特定类型疾病并且接受用于治疗该疾病的特定疗法的多个受试者中的每个，接收(a)与在相对于特定疗法的第一时间点收集的生物样品相关联的第一生物特征，和(b)与在相对于特定疗法的第二时间点收集的生物样品相关联的第二生物特征；对于多个受试者中的每个，计算表示与相应对受试者相关联的第一和第二生物特征之间的关系的值集；和在训练阶段，在训练集上训练机器学习模型，该训练集包括(i)计算的值集，和(ii)与受试者的每个中的特定疗法的结果相关联的标签；从而生成适合于预测所述目标患者对所述特定疗法的响应的分类器。

在一个实施方式中，进一步提供了一种计算机程序产品，该计算机程序产品包括具有嵌入其中的程序指令的非暂时性计算机可读存储介质，该程序指令可由至少一个硬件处理器执行以：对于患有特定类型疾病并且接受特定疗法以治疗该疾病的多个受试者中的每个，接收(a)与在相对于特定疗法的第一时间点收集的生物样品相关联的第一生物特征，和(b)与在相对于特定疗法的第二时间点收集的生物样品相关联的第二生物特征；对于多个受试者中的每个，计算表示与相应受试者相关联的第一和第二生物特征之间的关系的值集；和在训练阶段，在训练集上训练机器学习模型，该训练集包括：(i)计算的值集，和(ii)与受试者的每个中的特定疗法的结果相关联的标签，以生成适合于预测所述目标患者对所述特定疗法的响应的分类器。

在一些实施方式中，第一和第二生物特征各自是以下中的一个：DNA图谱、RNA图谱、蛋白质图谱、代谢组学图谱、微生物组图谱、转录组学图谱、基因组学图谱、表观基因组学图谱、细胞图谱、基于翻译后修饰的图谱、基于单细胞的分析和调控RNA图谱。

在一些实施方式中，第一和第二生物特征各自是蛋白质表达图谱，并且值集各自包括，关于蛋白质表达图谱中的每种蛋白质，第一和第二生物特征中蛋白质表达水平之间的关系。

在一些实施方式中，蛋白质表达图谱包括至少两种蛋白质的表达值。

在一些实施方式中，该方法进一步包括进行，并且程序指令进一步可执行以进行，关于值集的降维阶段，以减少值集中的至少一个的变量数量。

在一些实施方式中，降维阶段鉴定值集的每个中的主要蛋白质的子集。在其他实施方式中，降维生成可以预测响应的新特征。

在一些实施方式中，降维涉及将所有或一些特征值视为向量分量并计算其范数。

在一些实施方式中，训练集仅包含值集的每个中的主要蛋白质的子集。

在一些实施方式中，值集被用标签标记。

在一些实施方式中，生物样品中的每个是以下中的一种：血浆、全血、血清、脑脊液(CSF)和外周血单核细胞(PBMC)。

在一些实施方式中，特定类型的疾病是特定类型的癌症。在一些实施方式中，癌症选自黑色素瘤、非小细胞肺癌(NSCLC)、小细胞肺癌(SCLC)、头颈癌和泌尿生殖系统癌。

在一些实施方式中，关于至少一些受试者，训练集进一步包括与临床数据相关联的标签。

在一些实施方式中，预测被表示为以下中的一种：二元值、连续值和一组离散值。

在一些实施方式中，预测包括在目标受试者中的次级效应的指示。

在一些实施方式中，该方法进一步包括在推理阶段，将所述分类器应用于与目标受试者相关联的所述值的目标集，从而预测所述目标受试者对所述特定疗法的响应。

在一些实施方式中，该方法进一步包括确定，并且程序指令进一步可执行以至少部分地基于该预测来确定以下中的至少一项：继续在目标受试者中的特定疗法，调整在目标受试者中的特定疗法，中止在目标受试者中的特定疗法，以及对目标受试者施用不同的疗法。

在一些实施方式中，特定疗法是免疫疗法。在一些实施方式中，特定疗法是免疫疗法和化学疗法的组合。在一些实施方式中，特定疗法是免疫疗法和靶向疗法的组合。在一些实施方式中，特定疗法是多于一种类型的免疫疗法的组合。在一些实施方式中，免疫疗法选自抗PD-1/PD-L1疗法、抗CTLA-4疗法和两者。

在本文提供的系统、计算机程序产品和方法的一些实施方式中，调整特定疗法或对所述目标受试者施用不同的疗法通过以下方法确定，其包括：(i)确定在响应者和无响应者之间的差异表达蛋白(DEP)；(ii)在从所述受试者获得的样品中确定选自所确定的DEP的一种或多种耐药性相关蛋白(RAP)；和(iii)选择适合于平衡所述受试者中的一种或多种RAP水平的疗法。

在一些实施方式中，确定一种或多种RAP是通过提供DEP表达水平与限定样品组的距离的概率测量。

在一些实施方式中，确定受试者中的一种或多种RAP是通过确定每种DEP在每个响应者和无响应者组中的表达分布，拟合每个组的概率密度函数，并且对于每个受试者并基于所述受试者的DEP表达计算与响应组中的一个相关联的DEP的概率。在具体实施方式中，确定受试者中的一种或多种RAP是通过确定与响应者分布相关联的每个DEP的概率。在其他实施方式中，确定受试者中的一种或多种RAP是通过确定与无响应者分布相关联的每个DEP的概率。

在一些实施方式中，用于平衡所述受试者中的一种或多种RAP水平的疗法选自一列批准药物或试验药物。

除了上述示例性方面和实施方式之外，通过参考附图并通过研究以下详细描述，进一步的方面和实施方式将变得显而易见。

附图说明

图1是根据本公开内容的一些实施方式的用于训练机器学习模型以预测患者对疗法的响应的方法中的功能步骤的流程图；

图2是根据本公开内容的一些实施方式的图1的工艺步骤的示意图；

图3是根据本公开内容的一些实施方式的基于检测限(LOD)阈值的质量控制过程的非限制性示意图；

图4、5A-5D、6A-6C和7A-7C示出了根据本公开内容的一些实施方式的实验结果(TP-真阳性；FN-假阴性；TN-真阴性；FP-假阳性，PPV-阳性预测值，NPV-阴性预测值)；

图8是根据本公开内容的一些实施方式的用于分析干预的个性化潜在目标的3个过滤器的流程图。实线和虚线分别表示对所检查问题的肯定和否定答案。在左侧，指示分析/数据处理步骤，然后是应用的过滤器。临床过滤器在流程图中出现了3次。F1指定基于群组的统计过滤器；F2指定个性化过滤器；F3指定临床过滤器；

图9是RAP得分计算的非限制性实例。该图中的实例显示了整个群组(n＝52)中R(浅蓝色)和NR(橙色)的示例性蛋白质(“蛋白质A”)的蛋白质分布。如基于NR和R分布中高于0.3的面积所计算(面积用填充颜色标记)，以虚线标记的蛋白A表达水平为0.3的患者的P(NR)/P(R)比率为8。在log2转换后，该特定患者中该蛋白质的RAP得分为3；

图10A-10B描绘了RAP得分方向性的非限制性实例。RAP得分计算的面积选择取决于R和NR分布的相对位置。A.如果给定差异表达蛋白(DEP)的NR分布的中值高于R分布的中值，则基于右尾计算等式1的面积。B.如果给定DEP的R分布的中值高于NR分布的中值，则等式1的面积基于左尾；以及

图11A-11C显示RAP得分分布可能取决于R和NR分布之间的差异。RAP得分在图上方指示。A.蛋白A表达水平的R和NR分布或T₁/T₀。B.蛋白B表达水平的R和NR分布或T₁/T₀。C.NR患者中蛋白B RAP得分的分布。

图11D显示RAP得分可以进一步用于鉴定共享相似RAP图谱(profile)的无响应者组。

图12A-12B显示了RAP扰动的模拟。(图12A)生成基于整个群组的一列RAP的预测特征。(图12B)对于给定的患者，特定的RAP(或多个RAP)受到干扰。接下来，将基线响应概率与扰动响应概率进行比较。

图13A-13B展示了基于本发明的分类器训练(图13A)和验证(图13B)以预测银屑病患者对治疗的响应。图13A：(左)SVM产生的AUC为0.77。(右)准确度＝0.7286，灵敏度＝0.75，特异性＝0.6818，PPV＝0.8372并且NPV＝0.5556。图13B：(左)SVM产生的AUC为0.751。(右)准确度＝0.6714，灵敏度＝0.6458，特异性＝0.7273，PPV＝0.8378并且NPV＝0.4848。TP-真阳性；FN-假阴性；TN-真阴性；FP-假阳性，PPV-阳性预测值，NPV-阴性预测值。

图14展示了差异网络分析。为每组分别构建相关数据网络。从这些组特异性图中，可以生成差异图以鉴定每个组中差异相关的蛋白质。

图15显示了基于NSCLC数据集的响应者和无响应者之间的差异网络的实例。

图16A-16B显示了基于蛋白质共变化的预测。作为非限制性实例，检查了显示在响应者和无响应者之间的差异相关倍数变化值的两种蛋白质。(16A)响应者和无响应者之间的相关性为正(R＝0.37)。虚线显示响应者值的线性拟合。(16B)计算两个蛋白质对的残差(即A中每个点与线性拟合的距离)并将其用作SVM分类器的输入。所得的预测器实现了0.77的ROC AUC。

图17.在n＝67NSCLC患者中使用初始预测器预测响应的初步结果。对于由n＝37响应者组成的训练集和包含n＝15响应者和n＝15无响应者的独立验证集，响应质量由接受者-操作者曲线(ROC)的曲线下面积(AUC)量化。AUC是针对1000个不同的训练集和验证集计算的，其中n＝37响应者训练集是从数据集中的总n＝52响应者中随机抽样的。所得的1000个AUC值以直方图显示，其中中值以灰色垂直实线显示。随机分类器AUC＝1/2的平均值由垂直虚线表示。为了进行比较，n＝15响应者和n＝15无响应者的随机分类器的AUC分布以白色阴影显示。

具体实施方式

公开了一种提供机器学习模型的系统、方法和计算机程序产品，该机器学习模型配置为预测患者对疗法的响应。进一步公开了指示合适的替代或伴随疗法以改善患者的治疗结果的系统、方法和计算机程序产品。

在一些实施方式中，本公开内容提供了使用训练数据集来训练机器学习模型，该训练数据集包括从多个受试者，例如，患有特定类型的疾病并接受特定类型的治疗(例如，与特定类型的疾病相关联的疗法)的群组或预定群体获得的生物样品和生物特征的生物图谱(例如，蛋白质表达图谱)。

在某些实施方式中，受试者的群组或预定群体基于或根据以下任何一项确定：疾病类型、疾病阶段、疾病疗法、治疗史、临床概况及其任何组合。

在一些实施方式中，本公开内容的经过训练的机器学习模型可以提供用于预测被诊断患有特定疾病的目标患者对相关联的特定治疗或疗法的响应。在一些实施方式中，本公开内容的机器学习模型可以根据来自患有特定疾病或疾病类型的受试者的群组或预定群体的数据进行训练，其中在相对于治疗的至少一个时间点，例如，在T₀(例如，治疗前)或T₁(例如，治疗期间、治疗中或治疗后)从至少一个群组参与者获得生物样品。

在一些实施方式中，本公开内容进一步提供了用于鉴定和表征宿主对特定疗法的响应的方法。在一些实施方式中，本公开内容至少部分基于鉴定相对于指定治疗在两个时间点不同的一种或多种生物特征，以便预测疗法有效性和结果。

在一些实施方式中，本公开内容的机器学习模型可以根据来自患有特定疾病或疾病类型的受试者的群组或预定群体的数据进行训练，其中在相对于治疗的两个时间点，例如，在T₀(例如，治疗前)和T₁(例如，治疗期间、治疗中或治疗后)从每个群组参与者获得至少两个生物样品。在一些实施方式中，对生物样品进行谱图分析以提取生物特征，例如，蛋白质表达图谱。

因此，在一些实施方式中，本公开内容提供(i)用于训练机器学习模型以预测患者响应的计算方法，以及(ii)用于选择其靶向性可提高疗法功效和/或对疗法响应的关键蛋白质的方法。

本公开内容将讨论与预测癌症患者的响应，例如宿主响应相关联的本发明的各方面。如本文所用，术语“宿主响应”是指一组患者驱动的因子，这些因子可能会限制或抵消应用于患者的一种或多种癌症治疗或治疗方式的有效性。然而，本方法在预测其他疾病或病症的情况下的治疗和/或疗法响应方面可能同样有效。进一步，本方法可能对患者群体富集有效，诸如用于临床试验。进一步地，本方法可有效地鉴定适合治疗受试者的新疗法组合。

在一些实施方式中，可以在疗法过程之前、期间和/或结束之后的特定时间从一患者群组中的每个受试者或从至少一些受试者获得生物样品。在一些实施方式中，可以在在疗法过程之前、期间和/或结束之后的特定的一个或多个阶段和/或点和/或步骤，例如治疗前、治疗中和/或治疗后，从每个受试者，或从至少一些受试者获得生物样品。

在一些实施方式中，可以从每个生物样品中获得生物特征(例如，蛋白质表达图谱)。在一些实施方式中，一组生物特征可以包括从经历特定疗法的受试者群组以多次(例如，T₀和T₁)获得的经过统计学检验的生物特征。在一些实施方式中，可以进行预处理阶段以预处理生物特征数据。在一些实施方式中，预处理阶段可以包括数据清理和标准化、特征选择、特征提取、降维和/或任何其他合适的预处理方法或技术中的至少一种。

在一些实施方式中，可以分析与每个受试者相关联的成对的生物特征，以确定每对内的差异表达，例如，与成对的生物特征中的差异表达因子(例如，蛋白质)相关联的值。在一些实施方式中，该分析提供了每个特征中至少一些蛋白质之间的关系的差异。在一些实施方式中，该分析提供了值集，该值集表示每个或至少一些受试者的成对的生物特征中至少一些因子(例如，蛋白质)的表达差异。在一些实施方式中，表示成对生物特征中的至少一些因子(例如，蛋白质)之间的关系的值集可以基于一个或多个数学方程，诸如表达值的乘积或表达值之间的关系的差异。在一些实施方式中，该比率在T₀和T₁处的生物特征之间。在一些实施方式中，该比率在T₁和T₀处的生物特征之间。如本文所用，术语“成对的生物特征”、“生物特征对”及其变体是指从在相对于特定疗法的多个时间点接收的多个(即，两个或更多个)生物样品获得的生物特征。因此，分析可以比较多个生物特征并提供特征随时间的模式。在一些实施方式中，监测患者疾病状态的进展可能需要对患者的生物特征进行多次采样。

因此，在一些实施方式中，用于本公开内容的机器学习模型的训练数据集可以包括多个值集，其与患有每种特定类型的疾病并接受与特定类型的疾病相关联的每种特定类型的治疗和/或疗法的受试者群组中的每个或至少一些的相关联的生物特征对中至少一些蛋白质表达的差异和/或比率相关联。

在一些实施方式中，成对的生物特征可以使用相同的因子(例如，相同的蛋白质)进行关联。在一些实施方式中，成对的生物特征可以在定义因子网络(例如，蛋白质网络)的多个因子(例如，各种蛋白质)下相关联。如下文所示(图14-16)，蛋白质的差异相关性还可以提供用于特征工程的工具，该工具可用于预测受试者对特定疗法的响应。作为非限制性实例，可以为每个生物特征定义蛋白质网络，并进行计算以定义每个群组的整体行为(例如，计算与相关性趋势线的距离，如图16A所示)。

在一些实施方式中，用于本公开内容的机器学习模型的训练数据集可以包括多个值集，其与患有特定类型的疾病并接受与特定类型的疾病相关联的特定类型的治疗和/或疗法的受试者群组中的每个或至少一些的相关联的生物特征中的至少一些因子(例如，蛋白质)表达的差异相关联，其中该值集中的至少一些可以用表示相应受试者中治疗的响应和/或结果的类别标签进行注释。

在一些实施方式中，本公开内容的机器学习模型的训练数据集包括，例如多个值集，其与患有特定类型的疾病并接受与特定类型的疾病相关联的特定类型的治疗和/或疗法的受试者群组中的每个或至少一些的相关联的生物特征中的至少一些因子(例如，蛋白质)表达的差异(例如，比率)相关联，其中该值集中的至少一些可以用表示相应受试者中的治疗的响应和/或结果的类别标签进行注释，其中注释可以是二元的(例如，正/负、响应/无响应)、连续和/或以例如1-5的任何数字标度(规模，scale)表达的，或完全响应、部分响应、总体响应、响应持续时间、无进展生存期、不良事件、稳定疾病或进行性疾病等。在一些实施方式中，可以采用附加和/或其他注释方案并将其用于训练数据集。在一些实施方式中，训练数据集可以用表示例如患者人口统计和/或临床数据的类别标签进行注释。

在一些实施方式中，本公开内容的经过训练的机器学习模型可以提供用于预测被诊断患有特定疾病的患者对相关联的特定治疗或疗法的响应。

在一些实施方式中，本公开内容的经过训练的机器学习模型提供以二元值预测患者对特定治疗或疗法的响应，例如‘是/否’、‘响应/不响应’或‘有利/不利响应’。在一些实施方式中，预测可以由指示响应概率的值(例如，在1-100％的标度下)表达。在一些实施方式中，预测可以以标度表达和/或与置信参数相关联。因此，在一些实施方式中，本公开内容的机器学习模型可以提供用于预测患者中特定治疗的响应率和/或成功率，例如，患者对特定治疗或疗法的有利响应的可能性。例如，在一些实施方式中，预测可以以离散类别和/或以包括例如‘完全响应’、‘部分响应’、‘稳定疾病’、‘进行性疾病’、‘假性进展’和‘超进展疾病’的标度来表达。在一些实施方式中，预测可指示不利或任何其他继发效应，例如，基于宿主响应的副作用。在一些实施方式中，预测可指示患者的响应是否与不利或任何其他继发效应相关联。在一些实施方式中，预测可以指示患者对特定治疗或疗法的总体响应。在一些实施方式中，预测可以指示在用特定治疗或疗法治疗患者之后的无进展存活率。在一些实施方式中，预测可以指示患者响应率的持续时间。在一些实施方式中，可以使用另外的和/或其他标度和/或阈值和/或响应标准，例如，1(无响应)到5(响应)的渐变标度。

在一些实施方式中，本公开内容还可以提供用于预测与目标患者的特定治疗或疗法相关联的不良事件。在一些实施方式中，本公开内容还可以提供用于预测目标患者中的转移、转移位置和/或肿瘤负荷。

在一些实施方式中，本公开内容可提供用于预测用特定治疗或疗法治疗的目标患者的总体响应、响应持续时间和无进展存活。

在癌症的上下文中，术语“疗法”是指治疗受试者中特定疾病的任何方法。在癌症的上下文中，如本文所用的术语“疗法”、“抗癌疗法”、“癌症疗法模式”、“治疗模式”、“癌症治疗”或“抗癌治疗”是指癌症患者的任何癌症治疗方法，其包括放射疗法；化学疗法；靶向疗法、免疫疗法(免疫检查点抑制剂、免疫检查点调节剂、过继细胞转移疗法、溶瘤病毒疗法、治疗疫苗、免疫系统调节剂和单克隆抗体)、激素疗法、抗血管生成疗法和光动力疗法；热疗和手术或其组合。在一些实施方式中，癌症疗法是免疫疗法。在一些实施方式中，免疫疗法包括免疫检查点调节。在一些实施方式中，免疫疗法包括免疫检查点抑制。在一些实施方式中，抑制包括施用免疫检查点抑制剂。在一些实施方式中，抑制剂是阻断抗体。在一些实施方式中，免疫疗法包括免疫检查点阻断。免疫检查点蛋白是本领域公知的，并且包括但不限于PD-1、PD-L1、PD-L2、CTLA-4(细胞毒性T-淋巴细胞相关蛋白4)；A2AR(腺苷A2A受体)，也称为ADORA2A；B7-H3，也称为CD276；B7-H4，也称为VTCN1；B7-H5；LAG-3(淋巴细胞激活基因-3)；BTLA(B和T淋巴细胞衰减因子)，也称为C272；TIM-3(T细胞免疫球蛋白结构域和粘蛋白结构域3)；IDO(吲哚胺2,3-双加氧酶)；TDO(色氨酸2,3-双加氧酶)；KIR(杀伤细胞免疫球蛋白样受体)；NOX2(烟酰胺腺嘌呤二核苷酸磷酸盐NADPH氧化酶同种型2)；SIGLEC7(唾液酸结合免疫球蛋白型凝集素7)，也称为CD328；SIGLEC9(唾液酸结合免疫球蛋白型凝集素9)，也称为CD329、TIGIT和VISTA(T细胞活化的V结构域Ig抑制因子)。在一些实施方式中，免疫疗法是抗PD-1疗法。在一些实施方式中，免疫疗法是抗PD-L1疗法。在一些实施方式中，免疫疗法是抗PD-L1/PD-L2疗法。在一些实施方式中，免疫疗法与另一种免疫疗法组合。在一些实施方式中，免疫疗法是抗PD-1和/或抗PD-L1疗法。在一些实施方式中，免疫疗法是抗CTLA-4疗法。在一些实施方式中，免疫疗法是抗PD-1和抗CTLA-4疗法。在一些实施方式中，免疫疗法是抗PD-L1和抗CTLA-4疗法。在一些实施方式中，免疫疗法与另一种治疗模式组合。在一些实施方式中，治疗模式是另一种抗癌治疗。其他抗癌治疗的实例包括但不限于化学疗法、放射疗法、手术和靶向疗法。可以组合任何其他抗癌治疗。在一些实施方式中，免疫疗法与化学疗法组合。在一些实施方式中，免疫疗法与靶向疗法组合。在一些实施方式中，免疫疗法与多于一种类型的另外的免疫疗法组合。在一些实施方式中，免疫疗法选自抗PD-1/PD-L1疗法、抗CTLA-4疗法和两者。

在一些实施方式中，另外的治疗模式是针对免疫疗法的副作用的治疗。一般地，抗癌疗法和免疫疗法的副作用是公知的。可以采用任何这种抗副作用治疗，其包括但不限于类固醇、叶酸等。

在某些实施方式中，术语“治疗”或“疗法”是指患者的一个或多个治疗过程。在具体实施方式中，术语“治疗前”是指特定治疗过程之前的时间点，而术语“治疗中”是指治疗过程之后和下一个治疗过程之前的时间点。在可选的具体实施方式中，术语“治疗中”是指第二和第三治疗过程之间的时间点；在第三和第四治疗过程之间的时间点；在第四和第五治疗过程之间的时间点等。在一些实施方式中，术语“治疗后”是指治疗完成后的时间点。在具体实施方式中，术语“治疗后”是指确定进展后的时间点。

在具体实施方式中，术语“治疗前”是指第一特定治疗过程之前的时间点，术语“治疗中”是指第一治疗过程之后和第二次治疗过程之前的时间点。

在一些实施方式中，本发明的方面进一步提供了随时间监测患者对疗法的响应性。在这种实施方式中，分析可提供治疗后两个或更多个时间点(例如，T₂和T₃等)之间每个特征中至少一些蛋白质之间的关系差异。T₁和T₀之间的关系差异仅出于说明目的而在本申请中呈现。其他差异或比率也适用，例如，T₂/T₁、T₃/T₂、T₄/T₃、T_n+1/T_n、T_n+x/T_n等，以及T₂/T₀、T₃/T₀、T₄/T₀、T_n/T₀。

在一些实施方式中，成对的T₀和T₁表达图谱可以对应于特定的一个治疗过程之前和之后，所述治疗过程可以是第一、第二、第三和/或另一个治疗过程。在这种情况下，第一表达图谱是指由在接受特定的一个治疗过程之前从受试者收集的生物样品中获得数据；并且第二表达图谱是指由在接受特定的一个治疗过程之后从受试者收集的生物样品中获得数据。

图1是根据本公开的一些实施方式的用于训练机器学习模型以预测患者对疗法的响应的方法中的功能步骤的流程图。图2是图1的工艺步骤的示意图。

在一些实施方式中，在步骤100，可以从受试者群组例如具有特定类型疾病的预定患者群体接收多个生物样品。在一些实施方式中，出于本公开内容的目的而组建的群组可以包括患有相同和/或相似和/或相关疾病和/或疾病类别和/或综合征和/或病症和/或相关疾病、综合征和/或病症的多个患者。在一些实施方式中，对于群组中的至少一些患者，特定疾病和/或病症可以处于不同阶段和/或与并存病和/或疾病组合。在一些实施方式中，本公开内容的特定疾病可以用宽泛的类别(例如，‘癌症’)、亚型(例如，黑色素瘤)和/或子类别(例如，特定类型的黑色素瘤)来表示。

在一些实施方式中，疾病是增殖性紊乱。在一些实施方式中，疾病是以增殖增加、细胞凋亡减少或两者为特征的疾病。在一些实施方式中，疾病是癌症。在一些实施方式中，癌症是实体癌。在一些实施方式中，癌症是造血癌。癌症的类型在本领域中是公知的，并且癌症类别的实例包括但不限于肉瘤、黑色素瘤、母细胞瘤、癌、白血病和淋巴瘤。癌症的类型也可以按起源的组织/细胞类型分类，并且包括例如脑癌、血癌、骨癌、脂肪癌、视网膜母细胞瘤、头颈癌、舌癌、鼻咽癌、咽癌、喉癌、食管癌、胃癌、胃肠癌、肠癌、肺癌、结肠癌、结直肠癌、肝癌、胰腺癌、胆囊癌、阴茎癌、胸腺癌、甲状腺癌、泌尿生殖癌、前列腺癌、肾癌、卵巢癌、宫颈癌、睾丸癌、皮肤癌、多形性胶质母细胞瘤(GBM)和子宫癌。在一些实施方式中，癌症是皮肤癌。在一些实施方式中，癌症是肺癌。在一些实施方式中，癌症是黑色素瘤。在一些实施方式中，癌症是小细胞肺癌(SCLC)或非小细胞肺癌(NSCLC)。在一些实施方式中，癌症是泌尿生殖系统癌。在一些实施方式中，癌症是头颈癌。在一些实施方式中，癌症是实体瘤。在一些实施方式中，癌症是可通过免疫疗法治疗的癌症。

在一些实施方式中，疾病是自身免疫性疾病。在一些实施方式中，自身免疫性疾病是银屑病。在一些实施方式中，疾病是遗传疾病。在一些实施方式中，疾病是传染病。在一些实施方式中，疾病是细菌、病毒或真菌感染。在一些实施方式中，疾病是炎性疾病。在一些实施方式中，疾病是呼吸系统疾病。在一些实施方式中，疾病是退行性疾病。在一些实施方式中，疾病是神经退行性疾病。在一些实施方式中，疾病是代谢疾病。在一些实施方式中，疾病是心血管疾病。在一些实施方式中，疾病是骨骼疾病。

在一些实施方式中，生物样品可以包括从个体获得的任何类型的生物样品，其包括身体组织、体液、身体排泄物、呼出的气或其他来源。在一些实施方式中，生物样品是肿瘤。在一些实施方式中，生物样品是非致瘤性样品。体液可以是新鲜的或冷冻的全血、血浆、血清、外周血单核细胞(PBMC)、淋巴、尿液、唾液、精液、滑液和脊髓液。在根据本发明的方法的某些实施方式中，生物样品(一种或多种)是血浆、全血、血清、脑脊液(CSF)或PBMC。在具体实施方式中，生物样品(一种或多种)是血浆。在可选的具体实施方式中，生物样品(一种或多种)是CSF。在一些实施方式中，生物样品(一种或多种)是PBMC样品。

在一些实施方式中，生物样品(一种或多种)是血液样品。

在一些实施方式中，本公开内容的群组包括一组具有相似表型并接受相似治疗的受试者。但是，群组定义可能会根据每个群组的分类和参与受试者的生物公分母(commondenominator)而变化。在一些实施方式中，本公开内容的群组可包括例如不同人口统计学(例如，性别、年龄、种族)、临床测量、疾病阶段、疾病史、疾病治疗史、一般病史(例如，包括吸烟史和饮酒习惯、背景疾病)、遗传信息、身体参数等的患者。

在一些实施方式中，群组中的患者可以经历和/或接受不同类型的治疗，例如，单一疗法、联合疗法、多阶段或多过程疗法和/或多模式疗法。

在一些实施方式中，可以在治疗过程之前、期间和/或完成之后的特定时间从群组中的每个受试者或从至少一些受试者获得生物样品。在一些实施方式中，可以在治疗过程之前、期间和/或结束之后的特定的一个或多个阶段和/或点和/或步骤，例如治疗前、治疗中和/或治疗后从每个受试者或从至少一些受试者获得生物样品。

在一些实施方式中，对于至少一些受试者，可以在治疗过程期间在两个或更多个不同点收集至少一对对应的T₀和T₁生物样品，例如：

·(i)治疗前，即，在治疗过程开始之前，和(ii)治疗后，即，在整个治疗过程结束之后；

·(i)治疗前，即，在治疗过程开始之前，和(ii)治疗中，即在治疗过程期间的特定时间点；

·在多阶段或多过程治疗的情况下，(i)治疗前，即，在治疗过程开始之前，和(ii)在多阶段或多过程治疗的特定阶段和/或过程结束之后；和/或

·在多模式疗法的情况下，(i)治疗前，即，在治疗过程开始之前，和(ii)在与多种治疗模式中的一种相关联的特定点和/或阶段；

·在多模式治疗的情况下，(i)治疗前，即，在每种治疗模式的治疗过程开始之前，和(ii)在与多个治疗模式中的一个相关联的特定点和/或阶段。

在一些实施方式中，在步骤102，可以分析生物样品中的每个或至少一些以鉴定多个生物标志物和/或提取生物特征。在一些实施方式中，分析获得例如包含每个样品的蛋白质表达的蛋白质组学图谱。在一些实施方式中，如此获得的蛋白质表达可以鉴定每个分析的生物样品中的蛋白质。在一些实施方式中，可以对生物样品进行另外的和/或其他分析，以获得，例如，一种或多种选自以下的谱图：DNA图谱；RNA图谱；循环DNA图谱、单细胞RNA测序；代谢组学；微生物组；转录组；基因组学；表观基因组学；细胞图谱分析(profiling)；基于单细胞的分析；和MicroRNA。在一些实施方式中，循环DNA图谱是循环肿瘤DNA图谱。在一些实施方式中，循环DNA图谱是甲基化循环DNA图谱。

在某些实施方式中，生物特征选自：蛋白质组图谱；DNA图谱；RNA图谱；代谢组学图谱(例如，糖组学、脂质组学)；微生物组图谱；基因组学图谱；表观基因组学图谱；细胞图谱；基于翻译后修饰的图谱；基于单细胞的分析；和调控RNA图谱。在一些实施方式中，表达是蛋白质表达。在一些实施方式中，表达是RNA表达。在一些实施方式中，RNA是mRNA。在一些实施方式中，RNA是调控RNA。在一些实施方式中，调控RNA是microRNA。在一些实施方式中，调控RNA是长的非编码RNA。在一些实施方式中，代谢组学图谱是脂质图谱。在一些实施方式中，代谢组学图谱是核酸图谱。在一些实施方式中，代谢组学图谱是糖图谱。在一些实施方式中，代谢组学图谱是维生素图谱。在一些实施方式中，代谢组学图谱是脂肪酸图谱。在一些实施方式中，代谢组学图谱是氨基酸图谱。在一些实施方式中，代谢组学图谱是酚类化合物图谱。在一些实施方式中，代谢组学图谱是生物碱图谱。在一些实施方式中，蛋白质表达是代谢蛋白质表达。在一些实施方式中，蛋白质表达是膜蛋白表达。在一些实施方式中，蛋白质表达是分泌的蛋白质表达。在一些实施方式中，蛋白质表达是细胞蛋白质表达。在一些实施方式中，生物特征是基因组的图谱。在一些实施方式中，生物特征是基因组的突变图谱。在一些实施方式中，生物特征是基因组的表观遗传学图谱。在一些实施方式中，生物特征是甲基化组图谱。在一些实施方式中，表观遗传学图谱是翻译后修饰(PTM)的图谱。在一些实施方式中，生物特征是关于蛋白质的PTM图谱。PTM在本领域中是公知的并且包括但不限于甲基化、乙酰化、磷酸化、糖基化、苏素化和泛素化。在一些实施方式中，生物特征是循环DNA图谱。在一些实施方式中，生物特征是循环肿瘤-DNA图谱。在一些实施方式中，生物特征是甲基化循环肿瘤DNA图谱。在一些实施方式中，生物特征是循环肿瘤DNA图谱的量。在一些实施方式中，生物特征是循环肿瘤DNA图谱中突变的基因分型。在一些实施方式中，生物特征是有机体(organismal)图谱。在一些实施方式中，生物特征是微生物组图谱。在一些实施方式中，生物特征是细胞外囊泡图谱(数量或含量)。在一些实施方式中，生物特征是微粒图谱(数量或含量)。在一些实施方式中，生物特征是外泌体图谱(数量或含量)。在一些实施方式中，生物特征是循环细胞图谱。在一些实施方式中，生物特征是循环肿瘤细胞图谱。在一些实施方式中，生物特征是循环免疫细胞图谱。如本文所用，术语“图谱(profile)”旨在涵盖所确定实体的任何变化，包括存在或不存在，以及表达的类型(例如，基因型)、量、百分比或差异，只要它适合于预测对疗法的响应即可。

进行表达图谱分析的方法是本领域公知的。RNA表达可通过任何已知方法测定，包括聚合酶链式反应(PCR)、实时PCR、定量PCR、数字PCR、微阵列、RNA印迹法和测序。在一些实施方式中，表达图谱分析包括PCR。在一些实施方式中，表达图谱分析包括与微阵列的杂交。在一些实施方式中，表达图谱分析包括测序。在一些实施方式中，测序是下一代测序。在一些实施方式中，测序是深度测序。在一些实施方式中，测序是大规模平行测序。测序方法在本领域中是公知的，并且用于测序的设备是可商购的。根据本发明的方法，可以使用任何已知的测序方法。

可以通过任何已知方法测定蛋白质表达，其包括免疫测定、免疫印迹、免疫组织化学、FACS、ELISA、Western印迹、蛋白质组学阵列、蛋白质组测序、基于邻近延伸测定(PEA)的测定、基于适体的测定、多重测定和质谱分析。在一些实施方式中，表达图谱分析包括与蛋白质组学阵列杂交。在一些实施方式中，蛋白质组学阵列是抗体阵列。在一些实施方式中，表达图谱分析包括全蛋白质组测序。在一些实施方式中，表达图谱分析包括靶向质谱分析。在一些实施方式中，表达图谱分析包括非靶向质谱分析。在一些实施方式中，表达图谱分析包括使用质谱分析的鸟枪法蛋白质组学。在一些实施方式中，表达图谱分析包括自上而下质谱分析。在一些实施方式中，表达图谱分析包括自下而上质谱分析。在一些实施方式中，表达图谱分析包括数据独立采集(DIA)质谱分析。在一些实施方式中，表达图谱分析包括数据依赖性采集(DDA)质谱分析。蛋白质组/蛋白质组学阵列在本领域是公知的并且是可商购的。蛋白质组学阵列的实例包括但不限于，R&D Systems的Proteome Profiler Array、Creative Proteomics的CP Human Proteome阵列、RPPA(反相蛋白质阵列)、RayBiotech的人类Kiloplex Quantitative Proteomics阵列、Olink Target 96、Olink Explore 96和Integral Molecular的Membrane Proteome Array(膜蛋白质组阵列)。

在一些实施方式中，在步骤104处，可以发生预处理阶段，其包括数据清理和标准化、数据质量控制和/或任何其他合适的预处理方法或技术中的至少一种。

源自临床样品的生物学数据可能会遭受变化，该变化因不同的样品收集或样品制备步骤、由于量化不准确、由于批次效应和/或由于分析中可能导致错误的任何其他技术偏差而产生。因此，在一些实施方式中，预处理可以包括质量控制步骤，其中可以至少部分地基于可测量性——在生物特征中表示的蛋白质参数来去除至少一些生物特征。

在一些实施方式中，质量控制和/或数据清理和/或数据标准化可以包括以下中的任何一项或多项：

·数据转换：例如，log2转换、Z得分转换、中值减法。

·统计检验：计算关键统计量度，诸如中值、平均值、数据集的第一个四分位数(Q1)、数据集的第三个四分位数(Q3)、方差、标准差或变异系数(cv)以便评估数据质量。

·数据可视化：能够更好地理解数据，无论数据是否呈正态分布，或者是否存在任何技术偏差、批次效应或任何与其他样本有显著差异的异常值(outlier)。

·数据质量评估：包括定义分析中应包含/去除/标准化哪些数据的步骤，从而生成仅包含所需和标准化结果的新输出。

·处理质量控制数据问题：在特定情况下，主要是由于技术偏差，考虑排除极其不同的样本。在由于技术原因导致的批次效应的情况下，可以应用批次效应去除算法和/或数据标准化。

·批次效应去除：可以用不同的方式完成。非限制性实例是：使用批次效应去除算法(例如，limma)；在主分量分析(PCA)中减去分量/多个分量；中值减法；Z得分；在不同批次中运行相同的参考样本(“桥接样本”)并根据它们的值进行校正。

·处理低于检测限(LOD)的数据：处理低于LOD水平的值的方法可以通过数据填补(data imputation)来完成：作为非限制性实例，低于LOD的T₀或T₁值可以被指定为所检查蛋白质的LOD水平。在两个时间点都被填补的情况下，T₁/T₀比率等于1，并且在log2变换后，其等于0；在一些数据分析中，代替地，可以将其指定为‘非数字’(NaN)值。也可以使用其他数据填补方法。图3是质量控制过程的示意图，其可用于评估低于检测限(LOD)阈值和/或高于最大阈值的测量值。

·缺失值或0值处理：过滤在少于0-100％样本中具有缺失(NaN)、低于LOD值或0值的蛋白质。可选地，可以通过任何其他填补方法来填补缺失(NaN)、低于LOD值或0值。在任何数据填补之后，可能会重复一些QC步骤。

数据标准化：如果需要，在生物信息学分析之前对数据进行标准化。数据标准化可以在任何水平例如蛋白质水平、批次水平等下进行。

在一些实施方式中，在步骤106，可以针对每对生物特征计算差异表达值。在一些实施方式中，对于为蛋白质表达图谱的生物特征的情况，本公开内容提供了计算这些关系(例如，与受试者相关联的一对特征中的每个生物特征之间的表达值的差异水平，例如，在相对于疗法的至少两个时间点的生物特征之间的表达值的差异和/或比率，例如，T₁/T₀比率)。在一些实施方式中，该分析不考虑蛋白质的任何生物功能和/或蛋白质之间的任何已知的相互作用。在一些实施方式中，T₁/T₀比率是通过计算治疗时和基线值(治疗前)的比率确定的数值。T₁/T₀比率可用于预测患者对癌症治疗的响应性或无响应性。

在一些实施方式中，可以计算与例如T_l/T₀特征之间的生物过程、临床数据和/或蛋白质相互作用驱动分析相关联的另外的、其他的和/或可选的值集。

在一些实施方式中，在步骤108，可以关于值集进行一个或多个特征选择、特征提取、集成过程和/或降维步骤。

在一些实施方式中，可以进行特征选择和/或降维步骤，以减少每个样本对中的变量数量和/或获得主变量集，例如，可能具有显著预测能力的那些变量，诸如蛋白质表达水平。因此，在一些实施方式中，特征选择和/或降维步骤可导致每个生物特征和/或值集中蛋白质的数量减少。在一些实施方式中，降维基于蛋白质相对于期望预测产生的响应预测能力水平选择主变量，例如，蛋白质。在一些实施方式中，降维生成可以预测响应的一个或多个新特征。在具体实施方式中，降维涉及将所有或一些特征值视为向量分量并计算其范数。

在一些实施方式中，可以采用任何合适的特征选择和/或降维方法或技术，诸如，但不限于：

·使用S₀参数的ANOVA：使用附加参数(S₀)进行方差分析，该参数基于结果检验p值和组平均值之间的差异控制特征的相对重要性(例如，参见Tusher,Tibshirani and Chu,PNAS 98,pp5116-21,2001)。

·可扩展的经验贝叶斯模型选择(SEMMS)：一种经验贝叶斯特征选择方法，其应用简约混合模型来鉴定重要的预测因子(例如，参见Bar,Booth,and Wells.A scalableempirical Bayes approach to variable selection in generalized linear models,2019)。

·L2N：一种使用三分量混合模型的差异表达分析方法。该模型由两个用于差异表达特征的对数正态分量(L2)(一个分量用于表达不足的特征，另一个分量用于过度表达的特征)和单个用于非差异表达特征的单一正态分量(N)组成(例如，参见Bar andSchifano.Differential variation and expression analysis.Stat 8,e237,doi:10.1002/sta4.237,2019)。

·遗传算法：一系列启发式优化算法，其采用例如随机突变、重组和自然选择等有机进化技术作为实现最佳配置的方法(例如，参见Popovic,Sifrim,Pavlopoulos,Moreau,and Bart De Moor.A Simple Genetic Algorithm for Biomarker Mining.2012)。

·朴素分类器：朴素分类器通过将维度降低到单个得分来评估响应得分。这是通过将所有特征(例如，特定图谱，诸如蛋白质表达水平)视为向量的分量并计算其范数来进行的。维度降低减少了过度拟合的可能风险。在一些实施方式中，向量分量根据属于同一响应组(例如，响应者)的患者之间的典型分量值进行标准化，使得标准化的范数量化了与典型的相应类别值的偏差量。在另外的实施方式中，朴素分类器能够使用仅属于部分响应组的受试者的数据进行训练。

在一些实施方式中，在步骤110，可以构建用于训练本公开内容的机器学习模型的训练数据集，其包括值集，该值集表示关于群组中的至少一些受试者在相对于疗法的多个时间点的生物特征的关系(例如，表达值的比率或差异)。

在一些实施方式中，本公开内容的训练数据集可以包括用于训练机器学习模型的附加信息，诸如关于群组中的至少一些受试者的临床、人口统计和/或身体信息。例如，在一些实施方式中，这种数据可以包括从患病组织本身(例如，从癌症患者的肿瘤)获得的特性。在一些实施方式中，这种数据可以包括但不限于：人口统计信息(例如，年龄、种族)；性能状态；血液学和化学测量；癌症病史，例如癌症诊断日期、原发癌症类型和分期、疾病生物标志物(例如，PD-L1)、疾病治疗史、组织学、TNM分期、可测量病变的评估、肿瘤进展时间、复发部位、拟议治疗；一般病史，包括吸烟史和饮酒习惯，背景疾病包括高血压、糖尿病、缺血性心脏病、肾功能不全、慢性阻塞性肺病、哮喘、肝功能不全、炎症性肠病、自身免疫性疾病、内分泌疾病等；家族病史；遗传信息，例如，突变、基因扩增等(例如EGFR、BRAF、HER2、KRAS、MAP2K1、MET、NRAS、NTRK1、PIK3CA、RET、ROS1、TP53、ALK、MYC、NOTCH、PTEN、RB1、CDKN2A、KIT、NF1)；物理参数，例如，温度、脉搏、身高、体重、BMI、血压、包括所有检查参数的全血细胞计数、肝功能、肾功能、电解质；药物(处方药和非处方药)；相对淋巴细胞计数；中性粒细胞与淋巴细胞比率；血浆中的基线蛋白质水平(例如LDH)；和/或标记物染色(例如，肿瘤或循环肿瘤细胞中的PD-L1)。在一些实施方式中，可以分析并提供上述信息中的一个或多个响应于特定疗法的变化，用于机器学习模型的训练。

在一些实施方式中，可以针对训练数据集采用一种或多种注释方案。因此，在一些实施方式中，本公开内容的机器学习模型的训练数据集可以包括关于群组中的至少一些受试者的多组T₁/T₀比率或表达值差异，其中这些值集中的至少一些可以用表示相应受试者中治疗的响应和/或结果的类别标签进行注释。在一些实施方式中，这种注释可以是二元的，例如，正/负，和/或以离散的类别表达，例如，以1-5的标度。在一些实施方式中，二元值类别标签可以表示为，例如，‘是/否’、‘响应/无响应’或‘有利/不利响应’。在一些实施方式中，离散类别标签和/或注释可以按标度表达，例如，“完全响应”、“部分响应”、“稳定疾病”、“进行性疾病”、“伪进展”和“超进展疾病”。在一些实施方式中，可以使用另外的和/或其他标度和/或阈值和/或响应标准，例如1(无响应)到5(响应)的渐变标度。在一些实施方式中，类别标签可以与患者的不利或任何其他次要效应或响应相关联，例如治疗副作用。

在一些实施方式中，可以采用另外的和/或其他注释方案。在一些实施方式中，训练数据集可以用，例如，上文详述的患者人口统计和/或临床数据来进行注释。在一些实施方式中，训练数据集可以用总体响应率进行注释。在一些实施方式中，训练数据集可以用无进展存活率来进行注释。在一些实施方式中，训练数据集可以用响应率的持续时间进行注释。

在一些实施方式中，在步骤112，可以在步骤110中构建的训练数据集上训练机器学习模型。在一些实施方式中，可以采用任何合适的机器学习算法或方法的组合，其包括但不限于：

·支持向量机(SVM)：一种非参数模型，其可找到区分不同类别的最佳分离超平面。它可以进行线性或非线性分类。

·惩罚逻辑回归(PLR)——一种回归逻辑模型，其施加惩罚以减少某些特征的影响。

·广义线性模型(GLM)：线性回归的概况，其统一了统计模型，例如线性回归、逻辑回归和泊松回归。GLM通过(1)支持具有除正态分布之外的误差分布的响应变量(2)预测因子和响应变量之间的非线性关系来扩展线性回归。

·随机森林(RF)：涉及生成多个决策树，这些决策树由蛋白质表达值的决策规则序列组成。为了避免过度拟合，可以修剪这些树。通过随机选择不同的样本来构建每棵树。

·极端梯度增强(XGB)：基于梯度增强决策树的分类和回归算法。一次构建一棵决策树，并且每棵新树都会纠正先前训练的决策树的错误。

在其他实施方式中，机器学习模型可以基于统计量度，即，方差、中值、均值、平均值等来训练。

在一些实施方式中，在步骤114，机器学习模型利用分类器得出T₁/T₀关系的目标集(例如，表达值的比率或差异)，该T₁/T₀关系的目标集适合于预测目标患者的响应并接受与患者群组相似的治疗。

在一些实施方式中，在推断步骤114，本公开内容的训练的机器学习模型可以应用于目标数据，例如，关于具有相似表型并接受与患者群组相似治疗的目标患者的T_l/T₀关系的目标集(例如，表达值的比率或差异)。在一些实施方式中，训练的机器学习模型对目标数据的推断产生治疗响应预测或响应概率。

在一些实施方式中，预测是针对副作用或不良事件。在一些实施方式中，预测是针对总体存活率。在一些实施方式中，预测是针对无进展存活率。在一些实施方式中，预测是响应率的持续时间。在一些实施方式中，预测是针对伪进展。在一些实施例中，预测是针对超进展。在一些实施方式中，预测是针对疾病的进展。在一些实施方式中，根据本公开内容的预测可以进一步得到差异表达蛋白鉴定和/或区分生物过程分析的支持和/或补充，如下文进一步详述。

在一些实施方式中，在步骤116，可以至少部分地基于推断步骤114来施用、调整和/或修改关于目标患者的疗法过程。在一些实施方式中，这种疗法调整可以包括为目标患者开出后续和/或补充疗法的处方。

差异表达蛋白鉴定

在富集分析中，包括富集分析，一些基于网络的分析，当关注特征的子集时，或为治疗干预提供个性化的潜在目标时，如下所定义，需要首先鉴定检查组之间的DEP(例如，响应者与无响应者)。

术语“差异表达蛋白”(DEP)是指如此蛋白质，其(在两个时间点(例如T₀和T₁)之间的表达水平或变化的)分布在响应者和无响应者(以及可能的其他组，例如，稳定的疾病患者)之间不同，包括通过数值量度(例如t检验、ANOVA、Kolmogorov-Smirnov检验)可检测到的任何分布差异。在某些情况下，DEP被定义为如此蛋白质，其中值、均值、方差或其他统计量度在响应者和无响应者之间不同。在一些情况下，DEP被定义为如此蛋白质，其分布在响应者和无响应者之间不同，而没有改变均值或中值，然而，这种差异可以通过统计测试来评估。在一些情况下，DEP被定义为如此蛋白质，其在至少一名患者中不遵循特定亚组(即，响应者或无响应者)中相应蛋白质分布。

鉴定DEP是一个任选步骤，因为一些工具不需要一列DEP，而是依赖于为蛋白质组图谱中的所有蛋白质计算的选定量度，诸如两个检查组(即，响应者和无响应者)之间的倍数变化，或t-检验的p值。

本文中可互换使用的术语“蛋白质图谱”、“蛋白质表达图谱”和“蛋白质组图谱”是指在某一时间点，蛋白质或一列蛋白质的表达水平，诸如细胞因子，生长因子和血浆、CSF或其他体液或组织中表达的其他蛋白质。测量的蛋白质数量可能在1到20,000之间变化。蛋白质图谱可用于诊断疾病、病症或综合征并确定治疗响应的几率。在一些实施方式中，该图谱包括至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、500、1000、2000、5000、7000或至少20000种蛋白质。每种可能性代表本发明的单独实施方式。在一些实施方式中，蛋白质图谱是绝对蛋白质表达。在其他实施方式中，蛋白质表达图谱是标准化的或相对表达图谱。

区分生物过程

区分生物过程可以通过使用DEP作为输入来破译。另一种方法是通过运行每个样本路径富集，然后聚集富集结果。

术语“区分生物过程”(DBP)是指在有响应的患者或无响应的患者中发生的生物过程。

可以基于不同的数据库提供区分生物学过程，诸如KEGG通路分析(https://www.genome.jp/kegg/)和基因本体(GO)分析(geneontology.org)。

通路富集分析

通路水平的蛋白质组学分析可能暗示受治疗影响的生物过程。此步骤的目的是将蛋白质表达水平的宿主响应相关变化转化为生物过程水平的变化。因此，所鉴定的DEP可用作通路富集分析的输入。

通路富集分析将蛋白质组学变化转化为一列估计的生物过程，其在体内响应于癌症疗法治疗而下调或上调。该分析可以鉴定DBP，它们是每个组中富集的生物过程。富集分析的输出是一列DBP以及它们中每一个所涉及的蛋白质。

网络分析

基于蛋白质组学数据的另外水平的分析涉及一起研究几种蛋白质的表达水平的共同变化；在其蛋白质组学图谱之间显示出相关性(负相关或正相关)的蛋白质可能指示潜在的有趣生物学关系。蛋白质之间的相关性可能由于各种原因而发生，诸如影响两种蛋白质的共同调节因子(例如，转录因子、磷酸酶等)或一种蛋白质是另一种蛋白质的调节因子。基于不同蛋白质表达水平之间的相关性，可以构建蛋白质网络。蛋白质网络在两种不同的情况(例如，响应者和无响应者)之间可能不同，因此研究这些差异网络(图14)可能会破译不同表型(例如，对疗法抗性)背后的生物学机制。图15显示了这种差异网络的实例。

检查响应者和无响应者之间的差异网络可以揭示与对疗法抗性相关联的新机制并且可以用于分类器训练。网络分析可有助于特征工程化。例如，这种分析可以帮助精确定位一起变化的特征；通过在两种或更多种蛋白质之间使用任何数学关系，可以预测捕获这种关系的工程化特征。图16展示了基于蛋白质对之间的相关性的预测因子的非限制性实例。检查了显示响应者和无响应者之间差异相关的倍数变化值的两种蛋白质。图16A-响应者(三角形)和无响应者(圆圈)之间的相关性为正(R＝0.37)。虚线显示响应者值的线性拟合。图16B-计算两个蛋白质对的残差(即，每个点与图16A中的线性拟合的距离)并将其用作基于SVM的分类器的输入。得到的预测值实现0.765的ROCAUC。此外，网络分析可以潜在地鉴定新的干预方法，这对制药公司来说可能非常有价值。

干预的个性化潜在目标

在另一方面，本发明使用三过滤器方法提供了对干预的个性化潜在目标的分析。三过滤器方法可以在类似决策树的流程图(图8)中可视化，该流程图从第一个过滤器开始，该过滤器利用群组强度，仅保留DEP。非DEP的蛋白质不会继续到下一个过滤器，并且被认为是不可作用的蛋白质。用于此分析的DEP可能与为训练机器学习模型提供的DEP相似或可能不同。第二个过滤器关注DEP的患者特异性蛋白质组学图谱，基于RAP得分仅保留患者的耐药性相关蛋白(RAP)(下文详细描述)。RAP得分低于阈值(例如，RAP得分为1)的DEP被认为与特定患者无关并被过滤掉。接下来，应用用于将RAP与药物或试验新药相关联的第三过滤器。第三过滤器可能包括两个选项；如果RAP具有批准的药物(例如，特定于感兴趣的适应症或不同的适应症)，则RAP被认为是可作用的蛋白质。可选地，如果存在将RAP和候选药物(例如，用于感兴趣的适应症)相关联的临床试验，则RAP也可被视为可作用的蛋白质。

本文提供的分析可进一步包括模拟步骤，其中将患者的RAP(或多个RAP)表达值朝向可遵循治疗干预的平衡值修改。接下来，进行另一个预测分析，旨在评估蛋白质表达值变化的影响。这可以帮助医生决定为患者选择哪种RAP(对于选定的患者，可以接收为干预的潜在目标的多个RAP)。图12展示了单个RAP扰动的非限制性模拟(尽管也可以进行多个RAP扰动的模拟)。首先生成基于整个群组的一列RAP的预测特征(图12A)。对于给定的患者，平衡特定的RAP或RAP组合，然后将基线响应概率与扰动响应概率进行比较(图12B)。

基于群组的统计过滤器

首先必须鉴定DEP。如本文所述，DEP是其水平在响应者和无响应者之间变化并且还可能在响应者和无响应者中的T₀和T₁之间变化的蛋白质。在一些情况下，DEP是在响应者和无响应者之间中值不同的蛋白质。在一些情况下，DEP是在响应者和无响应者之间方差不同的蛋白质。在其他情况下，DEP是在响应者和无响应者之间平均值不同的蛋白质。该分析缩小了蛋白质的数量，产生了一列蛋白质，这些蛋白质按群组展现了两个或更多个类别之间的差异，因此潜在地在对治疗的抗性或对治疗的响应中发挥作用。DEP可以相同或可以独立于为本发明的机器学习方面鉴定的DEP。

个性化过滤器

来自第一过滤器(基于群组的统计过滤器)的一列蛋白质使用个性化过滤器和耐药性相关蛋白(RAP)得分以患者特异性方式进行检查。

为每个患者定义RAP。在一些实施方式中，患者的RAP是一种蛋白质，其水平或倍数变化偏离响应组之一中的相应蛋白质分布。偏差可以通过数字方式——或者通过使用多个响应组(例如，响应者和无响应者)中的水平或者特定响应组(例如，响应者或无响应者或稳定疾病患者)之间的分布——来进行量化。对于非限制性实例，整个群组中每个DEP的表达分布可以根据响应类别进行检查(意味着分别生成响应者的分布和无响应者的分布)。在这种情况下，可以为每组分布提取概率密度分布，其中曲线下的总面积为1。对于每个患者，针对每个分布计算高于或低于DEP表达水平(例如，选择高于或低于可能取决于无响应者者和响应者中值的顺序(order)，如下文详细描述)的尾部的面积(或其他量度，诸如每个响应组分布中的高度)(附图)。接下来，可以根据每个患者的DEP计算RAP得分，诸如基于非限制性方程1：

其中P(NR)是蛋白质可归因于无响应者分布的概率，P(R)是蛋白质可归因于响应者分布的概率。该实例中的RAP是DEP表达水平与响应者组分布的距离的概率量度。高RAP得分表示蛋白质与无响应者分布而不是响应者分布相关联的概率很高。

RAP得分可以表示为

量度的简化形式，由此RAP得分可以使用5度以five-bin格式呈现，该5度表示几率的倍数增加。5分或更高的得分可以分组为称为5+的得分。

对于每位患者，检查第一过滤器之后的DEP，并根据每个DEP计算RAP得分。任选地，可以定义通过个性化过滤器的阈值(例如，高于1.0的RAP得分)。该列患者RAP继续到下一过滤器。

方向性计算

高于定义阈值的RAP得分可能表明该蛋白质可归因于无响应者分布(请注意，反向高RAP得分可分别将RAP归因于响应者分布)。在响应者和无响应者之间的中值存在差异的情况下，曲线下面积的尾部方向的选择可以基于分布中值的顺序。如果无响应者组的中值高于响应者组的中值，则选择用于计算的面积是患者DEP表达水平右侧的尾部(图10A)。如果无响应者组的中值低于响应者组的中值，则分布左尾下方的面积用于患者的DEP表达水平(图10B)。这样，更可能归因于无响应者分布的蛋白质的值高于1.0(log2标度)，无论群组中的DEP方向如何(响应者中较高或无响应者中较高)。更有可能归因于响应者组的DEP的RAP得分在0和1之间(log2标度)。在中值差异但分布的其他方面发生变化(即，方差或平均值)的情况下，也可以使用给定范围(不一定是尾部)的相对概率。

DEP统计对RAP得分分布的影响

由于RAP得分基于整个群组的响应者和无响应者分布，响应者和无响应者分布之间的差异影响RAP得分分布(图11A-11D)。响应者和无响应者之间差异较大的DEP显示RAP得分之间的差距较小，表明与响应者和无响应者之间差异较小的DEP相比，患者更有可能具有高RAP得分(图11A和图11B)，后者显示RAP得分之间的差距较大，表明患者不太可能具有高RAP得分(图11C)。

基于RAP的聚类

RAP得分可以进一步用于鉴定共享相似RAP图谱的无响应者组。对于这种分析，可以使用不同的聚类算法。一个非限制性实例是使用一致性聚类算法(consensusclustering algorithm)，该算法在多次聚类迭代之后发现最稳健的样本聚类。图11D中显示了其的一个实例。然后可以进一步表征不同的聚类以检查各种临床参数的富集。例如，聚类#5富含最近戒烟的患者(Fisher精确检验p值＝0.027)。

临床过滤器

在上述前两个过滤器之后，为患者生成一列个人RAP。在当前过滤器(图12A-B)中，鉴定了靶向患者RAP的潜在药物或试验新药(IND)。临床过滤器可以包括以下步骤。首先，在合适的数据库中搜索靶向每个RAP的药物/IND，并将其与RAP相关联。接下来，可以在数据收集和分析之后应用各种临床过滤器；这可能包括基于生物推理的检查层、作用模式相关层(诸如，直接/间接；特异性/非特异性；方向性匹配)和药物临床相关性相关层(诸如，药物开发状态/临床相关性)。基于应用的过滤器与药物/IND相关的RAP可被视为患者的潜在干预目标。可选地，它们可以被视为与制药公司潜在合作的基础。

实验结果

实施例1-黑色素瘤群组

本发明人进行了实验以测试本公开内容的机器学习模型的预测能力。

实验的训练数据集包括来自黑色素瘤患者的生物样品。基于实体瘤响应评估标准(RECIST)估计或临床效益评估确定每位患者对治疗的响应。患有进行性疾病(PD)的患者被归类为无响应者(NR)。表现出部分响应(PR)或完全响应(CR)的患者被归类为响应者(R)。稳定疾病(SD)状态的患者被归类为SD患者。

在生物信息学分析中，SD样品被排除，以便关注两个更极端和不同的响应者和无响应者组。排除SD组有时由其他研究组进行，因为其作用与R和NR组不同。最终，该数据集包括33个用于分析的样品。训练数据集的临床参数如图4所示。

对于每位患者，收集治疗前(T₀)和治疗早期(T₁)的血浆样品。使用RayBiotech的抗体阵列技术(参见Wilson,J.J.et al.Antibody arrays in biomarker discovery.AdvClin Chem 69,255-324,doi:10.1016/bs.acc.2015.01.002(2015))，图谱分析了在抗PD1或抗PD1联合抗CTLA4治疗期间的蛋白质组学变化。每个样品图谱分析了总共400种蛋白质。基于每种蛋白质的T₁/T₀比率的log2(log倍数变化)提取对治疗响应的预测性生物特征。

使用以下步骤处理数据。首先，将低于检测限(LOD)的T₀或T₁值指定为LOD值。在log2倍数变化转换后，具有T₀和T₁ LOD值的蛋白质的log2倍数变化值为0。对数据进行过滤以在小于50％的样品中保持具有0值的蛋白质(T₀和T₁值均低于检测限的蛋白质)。总的来说，该过滤步骤产生了330种用于下游分析的有效蛋白质。此外，在QC分析中，观察到样品之间存在较大差异，但并非所有样品都以0值为中心。因此，通过从每个样品中减去总中值来对数据进行标准化。

为了鉴定能够预测响应的蛋白质组特征，将具有相对较大或较小的总体变异性的患者从训练集中排除。因此，第一步由响应组(n＝5)和无响应组(n＝8)之间的差异表达(基于log2倍数变化值)分析组成。

为了鉴定响应预测蛋白，应用L2N方法来鉴定响应者和无响应者之间的差异表达蛋白(DEP)。使用这种差异表达方法来鉴定预测蛋白的一个优点是它依赖于连续数据的正常模型，这比二元分类方法更强大，因此需要更小的样本量来获得一组预测因子。使用这种方法的第二个优点是它减少了过度拟合的机会，因为它提供了两个步骤之间的分离，第一步是拟合模型以找到差异表达蛋白的过程，第二步涉及仅使用差异表达蛋白作为预测因子来拟合患者响应状态的逻辑模型。使用这种方法，鉴定了10种差异表达蛋白。基于临床益处(即，响应者或无响应者)确定对治疗的响应。

使用10种选定的蛋白质作为预测因子和真实响应状态作为因变量来生成逻辑回归模型(GLM)。在33名患者的整个数据集(图5A)的接受者操作特征(ROC)图中，曲线下面积(AUC)为0.84，获得了良好的预测，共有6次误分类。请注意，在第一步中使用的13个样本中，有3个被误分类的患者。这表明过度拟合的概率很低。在20名被排除在外的患者中，17名患者(85％)对治疗有响应的预测概率与其实际情况一致。ROC图中的一个点被选择为具有至少90％的灵敏度和在此水平上的最大特异性，这导致分别为0.93和0.79的灵敏度和特异性(图5B)。

使用对数倍数变化值基于宿主响应发现对治疗响应的预测特征的另一种方法是使用线性支持向量机(SVM)算法来完成。在这种方法中，对治疗的响应基于实体瘤响应评估标准(RECIST)估计来确定。使用这种方法，鉴定了几个单一的蛋白质预测因子，并且前25个蛋白质预测因子的AUC在0.7到0.822之间变化。为了用最少数量的蛋白质最大化预测ROCAUC，还生成了多种蛋白质的模型。最佳预测是在由3种蛋白质组成的模型中获得的，其产生0.88的ROC AUC(图5C-5D)。

为了验证单一蛋白和多蛋白分类器的结果，使用了不同的患者群组。该验证群组数据集由来自14名患者的生物样本组成，从其中收集了治疗前(T₀)和治疗早期(T₁)的血浆样本，并图谱分析了ICI治疗期间的蛋白质组学变化，如前所述。对先前在验证群组中获得的单一蛋白质分类器的验证表明，并非所有基于单一蛋白的模型都能用验证群组数据集很好地概括。对多蛋白分类器验证的进一步检查表明，3-蛋白模型显示出良好的预测结果，其中AUC为0.85。

富集分析

先前的研究表明，联合疗法提高了免疫疗法的响应率。在该黑色素瘤患者的群组中，通过分析构成这些治疗模式基础的主要生物学途径和蛋白质，并鉴定区分生物学过程，测试了抗PD1单一疗法与抗PD1和抗CTLA4联合疗法之间的差异。与不考虑为分类器一部分的蛋白质的生物学功能的分类器分析相比，该分析旨在在区分生物过程(DBP)的背景下表征宿主响应，这些生物过程在治疗后发生变化并且在响应者和无响应者之间是不同的。然后，这种探索可以用作鉴定驱动蛋白的基础，这些驱动蛋白可以为干预的潜在目标——作为与免疫疗法的联合疗法的一部分。为此，使用Clarivate Analytics的MetaCore工具分析蛋白质组学数据。使用此工具的较大优点是蛋白质图所基于的高度策划的(curated)数据库。

在进行可鉴定DBP的富集分析之前，应用统计测试来选择差异表达蛋白(DEP；其水平在响应者和无响应者之间和/或在响应者和无响应者中的T₀和T₁之间变化的蛋白质)，其可以作为富集分析的输入。

为了获得具有最高潜力捕获两组之间的生物学差异和疗法的宿主响应效应的最强蛋白质，集中在通过单样本t-检验(其鉴定在T₀和T₁之间变化的蛋白质)和双样本t-检验(其鉴定响应者和无响应者之间不同的蛋白质)的蛋白质。使用这种方法，鉴定了整个群组和两个患者子集(两种不同的治疗模式——抗PD1的单一疗法或抗PD1+抗CTLA4的联合疗法)中的DEP。整个群组的DEP显示了不同的功能组，其中MAPK信号传导通路或代谢相关蛋白存在差异。图6A说明了在血浆中鉴定的差异表达蛋白(DEP)。在Voronoi图中使用Proteomaps显示蛋白质，其中每个多边形指定DEP，并且大小与T₀到T₁的变化相关。DEP分为KEGG功能组。

接下来，在使用FDR调整的p-值<0.05的多重比较校正之后，使用具有DEP作为输入的MetaCore进行富集分析。整个群组的无响应者富集分析揭示了与免疫抑制相关的多种途径，诸如T调节细胞的参与，以及涉及癌症进展或皮肤致敏的途径(图6B)。后者可能是免疫疗法对患者的副作用的一部分。

对每种治疗模式(单一疗法与联合疗法)中的无响应者DEP的额外富集分析揭示了每种模式特有的过程。一些显著富集的途径涉及免疫抑制，并且可能是对免疫疗法的宿主响应的一部分，其减弱了对治疗的响应(图6C)。

实施例2-肺癌群组

组建了一个由33名用抗PD1(纳武单抗或派姆单抗)治疗的IV期NSCLC患者组成的群组；使用实体瘤响应评估标准(RECIST)1.1确定对治疗的响应，或者基于临床评估评估对治疗的响应。在33个样本中，15名患者被定义为响应者(包括：完全响应者，CR；部分响应者，PR；和稳定疾病，SD)，并且18名患者被定义为无响应者(包括进行性疾病，PD)。对于每位患者，收集治疗前(T₀)和治疗早期(T₁)的血浆样本，并确定抗-PD1治疗后的蛋白质组学变化。总计，每个样品评估了760种蛋白质。在数据标准化和质量控制之后，进行检查以鉴定技术偏差和技术异常值(在此分析中未去除任何异常值)。为了基于宿主响应相关变化提取对治疗响应的预测特征，检查了log2转换后每种蛋白质的T₁/T₀比率(倍数变化)。接下来，过滤掉低于检测限(LOD)值的蛋白质，总共留下418种蛋白质进行分析。

生物信息学分析以多层方法进行。在对数据进行质量检查和标准化之后，在两个平行的轨道上继续进行分析。一条轨道涉及分类，旨在生成分类器，该分类器能够基于宿主响应数据预测对治疗的响应，如通过测量T₀和T₁之间的变化所反映的。第二条轨道旨在鉴定驱动蛋白。它涉及通过应用先进的通路富集工具从功能组的角度检查蛋白质。通过因果推理的进一步分析能够鉴定可以启动分析中鉴定的富集过程的驱动蛋白。

接下来，基于宿主响应，支持向量机(SVM)算法用于发现响应的潜在预测特征。总体而言，针对接受抗-PD1治疗的NSCLC适应症鉴定了3-蛋白质特征。如接受者操作特征(ROC)图的曲线下面积(AUC)为0.89(图7A)所指示的，3-蛋白质特征具有很高的预测能力。混淆矩阵的结果显示在Sankey图中(图7B)。设定预测概率标度上的截止点(cut-offpoint)以便以93％的灵敏度鉴定响应者，这导致61％的特异性。设定灵敏度阈值为高于90％，以避免将响应者归类为无响应者。

为了验证独立群组的结果，组建了一个验证群组，该验证群组由来自接受抗-PDl治疗的IIIB-IV期NSCLC患者的54个样本组成，其中15个响应者和39个无响应者。在盲法试验中检查了3-蛋白质特征，即，没有指示任何样本的响应注释。验证集的ROC曲线的AUC为0.72，具有0.013的显著p值(图7C)。与在训练集性能分析中一样，我们设置了高灵敏度(高于90％)的截止值，以便以93％灵敏度鉴定响应者，从而导致26％的特异性。

富集分析

接下来，我们旨在在区分生物过程(DBP)的背景下表征宿主响应，这些生物过程在治疗时发生变化并且在响应者和无响应者之间是不同的。然后将该分析用作鉴定蛋白质的基础，本文称为“驱动蛋白”，这些蛋白质可以是干预的潜在目标，诸如与特定疗法的联合疗法的一部分。为此，可以使用蛋白质组学工具分析蛋白质组学数据，该蛋白质组学工具包括但不限于来自Clarivate Analytics的Key Pathway Advisor(KPA)商业工具。

在进行可鉴定DBP的富集分析之前，应用统计测试选择DEP，其水平在响应者和无响应者中的T₀和T₁之间变化。DEP作为富集分析的输入。为此，对每组进行了单独的单样本学生t-检验。总体而言，分别在无响应者和响应者组中鉴定了42种和40种DEP(p值<0.05)。

使用选定的DEPS作为输入，在富集分析和因果推理的p值阈值分别为0.05和0.01的默认设置下，使用KPA进行富集分析。总体而言，无响应者中有112个显著富集的途径，而响应者中有1个显著富集的途径。在112个无响应者富集途径中，21个途径基于因果推理预测了变化的方向(与T₀相比，T₁上调或下调)。在区分生物学途径中，可以找到与免疫响应相关的多种途径，涉及免疫细胞分化或白细胞介素相关的信号传导。此外，还有多个与细胞粘附和细胞外基质(ECM)调节相关的过程。另一方面，在响应者组中，只有一个途径被富集。

使用KPA因果推理，可以鉴定潜在地参与宿主响应相关DBP的驱动蛋白。在无响应者中，鉴定出979种驱动蛋白，而在响应者组中，鉴定出5种驱动蛋白。

实施例3-银屑病患者的预测响应

基于本文提出的算法的分类器被训练以预测银屑病患者对治疗的响应。用于该分析的数据获得自Lewis E.Tomalin et al.Early Quantification of SystemicInflammatory Proteins Predicts Long-Term Treatment Response to Tofacitiniband Etanercept,Journal of Investigative Dermatology(2020)140,1026-1034，其中从用詹纳斯激酶抑制化合物托法替尼(Xeljanz，每天2次，每次10毫克)治疗的140名中重度慢性斑块型银屑病患者(96名响应者和44名无响应者)中采集血液样本。就在治疗前(W0，基线)和治疗后4周(W4)采集的血液样本中，总共测定了92种炎症相关(INF)蛋白以及65种与心血管疾病(CVD)相关的蛋白。对治疗的响应基于PASI75(银屑病面积严重程度指数[PASI]在第12周时为75)，这是银屑病的经典疗效终点，如果在治疗12周后PASI下降>75％，则患者被视为响应者，否则为无响应者。使用本文描述的方法产生用于预测给定患者在治疗12周后是否将成为PASI-75响应者的分类器。

为此目的，源自托法替尼治疗银屑病的数据被随机分成两个大小相等的子集。第一个用于训练机器学习算法，并且第二个用于验证算法结果。鉴定出通过验证(图13B，AUCROC＝0.751)的预测特征(图13A，AUC ROC＝0.772)。这种预测特征限于三种蛋白质特征，以最小化过度拟合的概率。该特征结合了第4周(T₁)和倍数变化数据，表明本发明的系统和方法可用于确定银屑病的响应性(即，和除癌症以外的其他病症)。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质(或多个介质)，其上具有计算机可读程序指令，用于使处理器执行本发明的各方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是，例如，但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体实施例的非详尽列表包括以下内容：便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、具有记录在其上的指令的机械编码设备以及前述的任何适当组合。如本文所使用，计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、传播通过波导或其他传输介质的电磁波(例如，穿过光纤电缆的光脉冲)或传输通过电线的电信号。相反，计算机可读存储介质是非瞬态(即，非易失性)介质。

本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如，因特网、局域网、广域网和/或无线网，下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光纤传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令并且转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据或以一种或多种编程语言的任意组合编写的源代码或目标代码，其包括诸如Java、Smalltalk、C++等的面向对象的编程语言，以及诸如“C”编程语言、R、Python或其他编程语言等的常规过程编程语言。计算机可读程序指令可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上和部分在远程计算机上或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以使连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施方式中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令，以便执行本发明的各个方面。

本文参考根据本发明的实施方式的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解，流程图和/或框图的每个框，以及流程图和/或框图中的框的组合，可以通过计算机可读程序指令来实现。

可以将这些计算机可读程序指令提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得通过计算机的处理器或其他可编程数据处理设备执行的指令，创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中，该计算机可读存储介质可以指导计算机、可编程数据处理装置和/或其他设备以特定方式运行，使得其中存储有指令的计算机可读存储介质包括制品，该包含实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。

计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置或其他设备上，以使一系列操作步骤在计算机、其他可编程装置或其他设备上执行以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图说明了根据本发明的各种实施方式的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定逻辑功能(一个或多个)的一个或多个可执行指令。还应注意，框图和/或流程图的每个框，以及框图和/或流程图中的框的组合，可以由专用基于硬件的系统实现，该系统执行指定功能或动作，或执行专用硬件和计算机指令的组合。

数值范围的描述应该被认为已经具体公开了该范围内的所有可能的子范围以及单个数值。例如，对1至6的范围的描述应被视为具有具体公开的子范围，诸如，1至3、1至4、1至5、2至4、2至6、3至6等，以及该范围内的单个数字，例如1、2、3、4、5和6。无论范围的广度如何，这都适用。

本发明的各种实施方式的描述是为了说明的目的而呈现的，但并不旨在穷举或限于所公开的实施方式。在不脱离所述实施方式的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说将是显而易见的。选择本文使用的术语是为了最好地解释实施方式的原理、相对于市场上发现的技术的实际应用或技术改进，或者使本领域普通技术人员能够理解本文公开的实施方式。

Claims

1.一种系统，其包括：

至少一个硬件处理器；以及在其上存储有程序指令的非暂时性计算机可读存储介质，所述程序指令可由所述至少一个硬件处理器执行以：

对于患有特定类型疾病并接受用于治疗所述疾病的特定疗法的多个受试者中的每个，接收(a)与在相对于所述特定疗法的第一时间点收集的生物样品相关联的第一生物特征，和(b)与在相对于所述特定疗法的第二时间点收集的生物样品相关联的第二生物特征，

对于所述多个受试者中的每个，计算值集，所述值集表示与所述相应受试者相关联的所述第一生物特征和第二生物特征之间的关系，和

在训练阶段，在训练集上训练机器学习模型，所述训练集包括：

(i)所述计算的值集，和

(ii)与所述受试者的每个中的所述特定疗法的结果相关联的标签，

以生成适合于预测目标患者对所述特定疗法的响应的分类器。

2.根据权利要求1所述的系统，其中所述第一生物特征和第二生物特征各自是以下中的一种：DNA图谱、RNA图谱、蛋白质图谱、代谢组学图谱、微生物组图谱、转录组图谱、基因组学图谱、表观基因组学图谱、细胞图谱、基于翻译后修饰的图谱、基于单细胞的分析和调控RNA图谱。

3.根据权利要求1-2中任一项所述的系统，其中所述第一生物特征和第二生物特征各自是蛋白质表达图谱，并且所述值集各自包括，关于所述蛋白质表达图谱中的每种蛋白质，所述第一生物特征和第二生物特征中所述蛋白质的表达水平的比率或差异。

4.根据权利要求3所述的系统，其中所述蛋白质表达图谱包括至少两种蛋白质的表达值。

5.根据权利要求1-4中任一项所述的系统，其中所述程序指令进一步可执行以进行关于所述值集的降维阶段，以减少所述值集的每个中的变量数量。

6.根据权利要求5所述的系统，其中所述降维阶段鉴定所述值集的每个中的主要蛋白质的子集。

7.根据权利要求6所述的系统，其中所述训练集仅包括所述值集的每个中的所述主要蛋白质的子集。

8.根据权利要求1-7中任一项所述的系统，其中所述值集用所述标签来标记。

9.根据权利要求1-8中任一项所述的系统，其中所述生物样品中的每个是以下中的一种：血浆、全血、血清、脑脊液(CSF)和外周血单核细胞(PBMC)。

10.根据权利要求1-9中任一项所述的系统，其中所述特定类型的疾病是增殖性疾病。

11.根据权利要求10所述的系统，其中所述增殖性疾病是癌症。

12.根据权利要求1-11中任一项所述的系统，其中所述训练集进一步包括，关于至少一些所述受试者，与临床数据相关联的标签。

13.根据权利要求1-12中任一项所述的系统，其中所述预测表示为以下中的一种：二元值、连续值和一组离散值。

14.根据权利要求1-13中任一项所述的系统，其中所述预测包括在所述目标受试者中的次级效应的指示。

15.根据权利要求1-14中任一项所述的系统，其中所述程序指令进一步可执行以至少部分地基于所述预测来确定以下中的至少一项：继续在所述目标受试者中的所述特定疗法，调整在所述目标受试者中的所述特定疗法，中止在所述目标受试者中的所述特定疗法，以及对所述目标受试者施用不同的疗法。

16.根据权利要求1-15中任一项所述的系统，其中所述特定疗法是免疫疗法。

17.根据权利要求16所述的系统，其中所述免疫疗法选自抗PD-1/PD-L1疗法、抗CTLA-4疗法和两者。

18.一种用于预测目标患者对特定疗法的响应的方法，其包括：

对于患有特定类型疾病并接受用于治疗所述疾病的特定疗法的多个受试者中的每个，接收(a)与在相对于所述特定疗法的第一时间点收集的生物样品相关联的第一生物特征，和(b)与在相对于所特定疗法的第二时间点收集的生物样品相关联的第二生物特征；

对于所述多个受试者中的每个，计算值集，所述值集表示与所述相应受试者相关联的所述第一生物特征和第二生物特征之间的关系；和

(i)所述计算的值集，合

(ii)与所述受试者的每个中的所述特定疗法的结果相关联的标签；

从而生成适合于预测所述目标患者对所述特定疗法的响应的分类器。

19.根据权利要求18所述的方法，其中所述第一生物特征和第二生物特征各自是以下中的一种：DNA图谱、RNA图谱、蛋白质图谱、代谢组学图谱、微生物组图谱、基因组学图谱、转录组学图谱、细胞图谱、表观基因组学图谱、基于翻译后修饰的图谱、细胞图谱、基于单细胞的分析和调控RNA图谱。

20.根据权利要求18-19中任一项所述的方法，其中所述第一生物特征和第二生物特征各自是蛋白质表达图谱，并且所述值集各自包括，关于所述蛋白质表达图谱中的每种蛋白质，所述第一生物特征和第二生物特征中所述蛋白质的表达水平的比率。

21.根据权利要求20所述的方法，其中所述蛋白质表达图谱包括至少两种蛋白质的表达值。

22.根据权利要求18-21中任一项所述的方法，其进一步包括进行关于所述值集的降维阶段，以减少所述值集的每个中的变量数量。

23.根据权利要求22所述的方法，其中所述降维阶段鉴定所述值集的每个中的主要蛋白质的子集。

24.根据权利要求23所述的方法，其中所述训练集仅包括所述值集的每个中的所述主要蛋白质的子集。

25.根据权利要求18-24中任一项所述的方法，其中所述值集用所述标签来标记。

26.根据权利要求18-25中任一项所述的方法，其中所述生物样品中的每个是以下中的一种：血浆、全血、血清、脑脊液(CSF)和外周血单核细胞(PBMC)。

27.根据权利要求18-26中任一项所述的方法，其中所述特定类型的疾病是增殖性疾病。

28.根据权利要求27的方法，其中所述增殖性疾病是癌症。

29.根据权利要求18-28中任一项所述的方法，其中所述训练集进一步包括，关于所述受试者中的至少一些，与临床数据相关联的标签。

30.根据权利要求18-29中任一项所述的方法，其中所述预测表示为以下中的一种：二元值、连续值和一组离散值。

31.根据权利要求18-30中任一项所述的方法，其进一步包括在推理阶段，将所述分类器应用于与目标受试者相关联的所述值的目标集，从而预测所述目标受试者对所述特定疗法的响应。

32.根据权利要求18-31中任一项所述的方法，其进一步包括至少部分地基于所述预测来确定以下至少一项：继续在所述目标受试者中的所述特定疗法，调整在所述目标受试者中的所述特定疗法，中止在所述目标受试者中的所述特定疗法，以及对所述目标受试者施用不同的疗法。

33.根据权利要求18-32中任一项所述的方法，其中所述特定疗法是免疫疗法。

34.根据权利要求32所述的方法，其中调整所述特定疗法或对所述目标受试者施用不同疗法通过以下方法确定，所述方法包括：

确定响应者和无响应者之间的差异表达蛋白(DEP)；

在从所述受试者获得的样品中测定选自DEP的一种或多种耐药性相关蛋白(RAP)；和

鉴定适合于平衡所述受试者中所述一种或多种RAP水平的疗法。

35.根据权利要求32所述的方法，其中确定所述一种或多种RAP是通过提供DEP表达水平与选自所述响应者组或所述无响应者组的限定样品组的距离的概率测量。

36.根据权利要求32所述的方法，其中确定所述一种或多种RAP是通过确定每种DEP在每个所述响应者和所述无响应者组中的表达分布，拟合每个组的概率密度函数，并且针对每个受试者并基于所述受试者的所述DEP表达，计算与所述响应组中的一个相关联的DEP的概率。

37.一种计算机程序产品，其包括具有嵌入其中的程序指令的非暂时性计算机可读存储介质，所述程序指令可由至少一个硬件处理器执行以：

对于患有特定类型疾病并接受用于治疗所述疾病的特定疗法的多个受试者中的每个，接收(a)与在相对于所述特定疗法的第一时间点收集的生物样品相关联的第一生物特征，和(b)与在相对于所述特定疗法的第二时间点收集的生物样品相关联的第二生物特征；对于所述多个受试者中的每个，计算值集，所述值集表示与所述相应受试者相关联的所述第一生物特征和第二生物特征之间的关系，

(i)所述计算的值集，和

(ii)与在所述受试者的每个中的所述特定疗法的结果相关联的标签，