CN115699204A

CN115699204A - 基于多个机器学习模型的临床预测因子

Info

Publication number: CN115699204A
Application number: CN202180034445.XA
Authority: CN
Inventors: J·巴隆; M·D·L·希尼; M·普赖姆
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2020-05-11
Filing date: 2021-05-10
Publication date: 2023-02-03
Also published as: US11664126B2; JP2023526241A; EP4150639A1; US20210350930A1; WO2021231317A1

Abstract

一种方法，包括：接收与患者的多个数据类别相对应的数据；从多个经训练的机器学习模型中并基于多个数据类别选择第一机器学习模型和第二机器学习模型，该第一机器学习模型是使用多个数据类别的第一子集的第一数据进行训练的并具有指示第一性能度量值的第一权重，第二机器学习模型是使用多个数据类别的第二子集的第二数据进行训练的并具有指示第二性能度量值的第二权重；分别使用第一模型和第二模型生成第一预测结果和第二预测结果；以及基于第一预测结果、第二预测结果、第一权重和第二权重生成组合预测结果。

Description

基于多个机器学习模型的临床预测因子

相关专利申请的交叉引用

本申请要求于2020年5月11日提交的美国专利申请第16/871，933号的优先权权益，该专利申请通过引用被并入本文以用于所有目的。

背景技术

使用真实世界临床数据训练的预测机器学习模型提供用于为患者及其临床医生提供有关诊断、预后或最佳治疗过程的患者特定信息的巨大潜力。例如，可以训练机器学习模型来根据诊断(例如，晚期癌症)预测作为时间的函数的患者存活的可能性。也可以基于患者将接受的治疗对存活预测进行分层。随后医生可以部分地基于预测做出临床决策，诸如对患者施用的治疗(例如，医生通常将偏好具有最长预测存活期的治疗)。预后信息也可以被提供给患者，以例如提高患者规划其未来的能力，这可以改善患者的生活质量。

可以训练机器学习模型以基于包括多个数据类别的患者数据执行针对患者的预测。当患者数据中缺少某些数据类别时，机器学习模型在执行预测中的应用可受到限制。需要来自一个数据类别集合的预测因子(predictor)数据的机器学习模型可能无法使用仅包括所需类别的子集的真实患者数据执行预测。例如，基于血液学和分子实验室测试结果进行预测的模型可能无法对具有血液学数据但没有分子测试结果的患者进行预测。

发明内容

本文公开的是用于基于包括多个机器学习模型的元模型执行临床预测的技术。临床预测可以包括，例如，预测患者在自疾病诊断以来的一时间点处的存活率。每个机器学习模型可以使用不同的数据类别集合进行训练，该不同的数据类别集合包括例如，传记数据、医疗历史数据、实验室测试结果、生物标志物等。每个机器学习模型还可以与指示性能度量的权重相关联，该性能度量诸如，例如，机器学习模型的接收者操作特性(receiveroperating characteristic，ROC)曲线的曲线下面积(AUC)。

为了针对特定患者执行临床预测，可以基于患者数据中存在的数据类别标识多个机器学习模型。可以利用与患者数据中存在的数据类别的特定子集相关联的其他患者的临床数据来对所标识的机器学习模型中的每一个进行训练。可以提取与数据类别的子集相关联的患者数据的子集，并将该患者数据的子集输入到相关联的机器学习模型，以生成预测结果。来自机器学习模型的预测结果可以基于机器学习模型的权重进行组合，以针对患者生成组合预测结果。

在下面详细描述本发明的这些和其他实施例。例如，其他实施例涉及与本文所描述的方法相关联的系统、设备和计算机可读介质。

参考以下具体实施方式和附图，可以获得对本发明的实施例的本质和优点的更好的理解。

附图说明

参照附图阐述具体实施方式。

图1A和图1B示出了可以使用本公开中描述的技术执行的临床预测的示例。

图2A、图2B、图2C和图2D示出了根据本公开的某些方面的使用机器学习模型执行临床预测的示例。

图3A、图3B、图3C和图3D示出了根据本公开的某些方面的使用元模型执行临床预测的示例。

图4A、图4B、图4C、图4D和图4E示出了根据本公开的某些方面的使用元模型执行临床预测的实验结果的示例。

图5示出了根据本公开的某些方面的执行临床预测的方法。

图6示出了可用于实现本文公开的技术的示例计算机系统。

具体实施方式

根据本公开的实施例，可以训练机器学习模型以基于包括一组数据类别的患者数据来执行针对患者的临床预测。临床预测可包括，例如，预测患者的作为自诊断(例如，晚期癌症)以来的时间的函数的存活率。存活率的预测也可以针对不同类型的治疗做出。本公开的机器学习预测模型可以是一个非常强大的工具，用于执行临床预测和协助临床医生基于预测结果生成临床决策，因为该模型可以揭示要预测的临床参数(例如，存活率)与临床医生未考虑的患者数据的各种数据类别之间的隐藏关系。机器学习模型可以使用非常大的患者群体的数据进行训练，以学习临床参数与各种数据类别之间的各种关系，并且随后基于患者数据和模型通过训练已学习到的关系执行针对患者的预测。

尽管机器学习预测模型在执行临床预测和协助临床医生生成临床决策方面可能非常强大，但一些关键挑战限制了将基于机器学习的预测模型引入实际临床环境。一组挑战与数据可用性的患者间可变性有关。在大多数真实世界数据集中，许多患者将缺乏针对许多数据类别的记录结果。在另一方面，机器学习模型通常使用大的数据类别集合中的数据进行训练，以揭示要预测的参数与大的数据类别集合之间的更多隐藏链接。如果机器学习模型被训练以基于数据类别集合做出预测，但患者数据缺少来自该集合的一个或多个类别，则机器学习模型可能无法基于患者数据执行预测。

患者群组的数据中所包括的数据类别可能因各种原因而因不同患者而异，这导致大的数据异质性。例如，一些医院可具有实验室测试菜单，该实验室测试菜单包括超过1000个的独特的可订购测试。取决于患者的情况(例如，临床环境、临床状况和诊断、临床严重程度、合并症、所接收的治疗、年龄、性别、经济状况等)，大多数患者可能最多接受过这些可能的测试的一小部分，并且这些患者可能具有这些测试的不同部分。作为另一示例，不同的患者可能缺乏不同类别的非实验室临床数据，包括其他诊断研究、患者历史的要素、活检数据等。在考虑时间序列数据时，数据异质性的问题变得尤为重要；即使是具有类似诊断测试或身体检查操作的患者也可能是在不同的时间点进行的或以不同的间隔重复的。在所有这些情况下，由于患者的数据中各种缺少的数据类别，因此机器学习模型可能无法对大量患者执行预测，这限制了机器学习模型的使用。

克服由数据异质性对机器学习模型带来的挑战的一种方法是通过插补(imputation)过程，在插补过程中可以对患者的临床数据集合进行预处理，以便为缺失的数据类别创建附加的临床数据元素，使得患者数据(包括原始和插补的临床数据元素)可以包括完整的数据类别集合作为机器学习模型的输入。插补过程可以基于原始患者数据估计缺失的数据类别中的每个数据元素的分布或值。然而，插补过程可具有重大限制。具体来说，大多数插补算法假设数据“随机缺失”(MAR)，但MAR假设通常对大多数临床数据无效。这是因为生成临床数据的诊断研究是响应于临床环境选择和排序的，而不是随机的，因此患者数据中某个数据类别的存在(或不存在)也不是随机的。此外，插补可给预测带来附加的不确定性和不准确性，并且可掩盖预测参数与数据类别之间的一些隐藏关系。

本文公开的是用于使用包括多个机器学习模型的组合学习模型(以下称为“元模型”)执行临床预测的技术，以解决上述问题中的一些。元模型中的多个机器学习模型中的每一个是使用数据类别集合中的数据单独训练的，并且不同的机器学习模型是使用不同的数据类别集合中的数据进行训练的，但是不同的集合之间可能存在重叠的数据类别。在训练机器学习模型以预测患者的存活率的情况下，机器学习模型的训练可以基于例如将患者分类为群组，使得群组内的患者的存活统计数据的相似性得到最大化，同时最大化各群组之间的患者的存活统计数据的差异。多个机器学习模型中的每一个可以与性能度量相关联，该性能度量可以从经训练的机器学习模型的验证过程中获得。在训练机器学习模型以预测患者的存活率的情况下，性能度量可以测量模型输出的真阳性率和假阳性率之间的关系，该关系可以以接收者操作特性(ROC)曲线的形式表示。在一些示例中，性能度量可以基于模型的ROC曲线的曲线下面积(AUC)。

多个机器学习模型中的每一个可用于执行针对患者的临床预测。患者数据可以包括多个数据类别，这些数据类别可以被映射到多个机器学习模型的不同的数据类别集合。基于该映射，可以选择至少包含第一机器学习模型和第二机器学习模型的元模型，每个机器学习模型是使用患者数据中的数据类别的不同子集中的数据进行训练的。例如，第一机器学习模型使用多个数据类别的第一子集中的数据进行训练，而第二机器学习模型使用多个数据类别的第二子集中的数据进行训练。与多个数据类别的第一子集相对应的患者数据的第一子集可以被输入到第一机器学习模型以生成第一预测输出，而多个数据类别的第二子集可以被输入到第二机器学习模型以生成第二预测输出。随后元模型可以基于第一预测输出、第一性能度量、第二预测输出和第二个性能度量生成组合预测输出。随后可以基于组合预测输出做出临床预测。

在一些示例中，多个数据类别可以包括各种传记信息，诸如患者的年龄和性别，其中每个可以对应于一个数据类别。多个数据类别还可以包括患者的历史，诸如患者的治疗史(例如，患者接受了哪种(哪些)治疗)、患者的习惯(例如，患者是否吸烟)等。多个数据类别还可以包括患者的不同类别的实验室测试结果，诸如白细胞计数、血红蛋白计数、血小板计数、血细胞比容计数、红细胞计数、肌酐计数、淋巴细胞计数、蛋白质、胆红素、钙、钠、钾、葡萄糖测量等等，其中实验室测试结果的每个类别与数据类别相对应。多个数据类别还可以指示针对不同癌症类型的各种生物标志物的测量，诸如雌激素受体(ER)，孕激素受体(PR)，人表皮生长因子受体2(HER2)，针对乳腺癌的表皮生长因子受体(EGFR或HER1)，针对肺癌的ALK(间变性淋巴瘤激酶)，针对肺癌和结直肠癌的KRAS基因，针对结直肠癌BRAF基因等等。每个生物标志物测量也可以对应一个数据类别。多个机器学习模型中的每个机器学习模型可以使用多个数据类别的不同子集(例如，传记信息的不同子集、实验室测试结果的不同子集、生物标志物测量的不同子集等)进行训练以执行预测。

在一些示例中，可以训练多个机器学习模型来确定患者的作为时间的函数的存活率。存活率可以预测患者在患者被诊断出医疗状况(例如晚期癌症)后的预定时间(例如，500天、1000天、1500天等)处存活的可能性。相对于时间的存活率可用于针对患者生成患者特定的卡普兰-迈尔(Kaplan-Meier，KM)图。机器学习模型可以使用不同的技术(诸如随机森林模型、回归模型等)来实现。

具体地，随机森林模型可以包括多个决策树，其中每个决策树与不同的数据类别集合相关联。每个决策树可以包括多个终端节点，每个终端节点与累积危险函数(CHF)的值相关联，并表示数据类别集合的数据值的范围的特定组合。累积危险函数可以被解释为患者在自诊断以来的特定时间处的存活(或死亡)概率，假设患者至少存活到该特定时间。随机森林模型中的每个决策树可以基于患者的对应数据类别的值将患者分类到终端节点之一，并输出患者的累积危险函数的值。来自随机森林模型的决策树的值可以被平均为患者的累积危险函数输出，并且可以基于累积危险函数输出来计算患者的预测存活率。

另一方面，回归模型(诸如比例危险回归模型)可以包括参数集合，该参数集合可以与患者的数据值相结合，以计算患者的累积危险函数。可以提供多个随机森林模型和/或回归模型(每个模型与从做出诊断时起的特定时间相关联)，以输出累积危险函数的不同值，该不同的值可用于生成患者的作为时间的函数的预测存活率。

训练过程可以生成：(1)随机森林模型中的每个决策树，(2)被分配给每个决策树的数据类别，(3)决策树的每个父节点处的分类标准，以及(4)每个终端节点处的累积危险函数的值。训练过程可以使用数据类别集合中的患者数据，以及大的患者群体的存活统计数据。具体来说，训练过程可以从将数据类别的子集随机分配给决策树的根节点开始，并且可以将数据类别的不同子集分配给不同决策树的根节点。此外，在装袋过程中，每个决策树可以获得数据类别的分配子集中的患者数据的随机样本集合。随后可以在递归节点拆分过程中将根节点(以及此后的每个父节点)拆分为子节点。

在节点拆分过程中，表示患者集合的节点可以基于数据类别的子集的阈值而被拆分为两个子节点(每个子节点表示患者的子集)，其中数据类别的子集和阈值被选择为最大化两个子节点之间的存活患者/死亡的数量的差异。随后可以在子节点上重复该过程以生成附加的子节点，直到例如，在特定子节点中达到阈值最小数量的死亡/未存活患者，该附加的子节点随后可以成为终端节点。患者随后可以通过决策树根据其数据类别的子集的值被分类到终端节点中。可以用被分类到终端节点的存活患者的百分比来表示每个终端节点处的累积危险函数输出。

此外，还可以训练比例危险回归模型来执行预测。回归模型可以包括将患者的不同数据类别与在诊断后的预定时间处的存活概率(例如，累积危险函数)进行关联的系数。基于回归模型，以及作为输入的不同数据类别的患者的值，患者在预定时间处存活的概率也可以被计算为回归模型的输出。回归模型的参数也可以在训练过程中被确定，该训练过程包括回归模型在不同数据类别的患者数据以及大的患者群体的存活统计数据上的拟合。例如，基于存活统计数据，群组(其中群组大小相对于时间被调整以考虑死亡)中的在不同时间处的存活患者的百分比可以被确定为表示目标存活率。随后可以基于不同时间处的不同数据类别的患者的值确定回归模型参数，使得回归模型输出目标存活率。

如上所述，多个机器学习模型中的每一个可以与一个性能度量相关联，该性能度量可用于生成元模型的组合输出。性能度量可以指示特定机器学习模型生成正确预测的置信度。可以使用各种技术确定机器学习模型的性能度量，诸如确定机器学习模型的接收者操作特性(ROC)曲线下的面积。ROC曲线可以提供机器学习模型的对应真阳性率和假阳性率之间的图。ROC下的面积的为0.5的值(表示真阳性率和假阳性率在平均值上是相等的)可以指示机器学习模型无法区分并且是不期望的，而ROC下的较大面积(超过0.5)可以指示更高的预测置信度。可以基于机器学习模型的ROC的面积为机器学习模型分配权重，其中较大的权重被分配给具有较大的ROC的面积的机器学习模型，反之亦然。可以基于机器学习模型的预测输出的加权平均值生成组合预测输出，其中每个预测输出按机器学习模型的相应权重进行缩放。

在训练机器学习模型以输出患者的存活率的情况下，当机器学习模型输出患者在给定时间处的存活概率超过概率阈值并且患者在该给定时间处实际存活时，发生真阳性。当患者的存活概率超过概率阈值，但患者在该给定时间处没有存活时，发生假阳性。可以执行验证过程，其中将患者群组的数据输入到机器学习模型，以计算每个患者的存活率。为了确定性能度量，可以针对一系列概率阈值获得表示具有超过概率阈值的存活率且存活的患者的百分比的真阳性率，以及表示具有超过概率阈值的存活率且没有存活的患者的百分比的对应假阳性率。随后可以确定针对不同概率阈值的真阳性率和假阳性率的不同对以生成ROC图，并且可以确定机器学习模型的ROC下面积。在各种实现中，可以使用真阴性率和/或假阴性率来补充或代替真阳性率和/或假阳性率。

每个机器模型的训练，以及机器模型的性能度量的确定，可以在交叉验证过程中基于相同的患者群组的患者数据的不同子集而被执行。具体来说，从患者群组的患者数据中，可以标识具有包括机器学习模型所需的数据类别的数据的患者。所标识的患者可被分为两个子集。一个子集(例如，80％的患者的患者数据)可用于训练机器模型，而另一子集(例如，其余20％的患者的患者数据)可以被输入到经训练的机器模型中以生成ROC图并计算ROC下面积作为交叉验证过程的一部分。在一些示例中，可以针对每次迭代使用患者数据的不同子集(例如，患者的不同80％和20％部分)重复该训练和交叉验证，并且可以通过对来自多次迭代的ROC面积求平均来确定被分配给机器学习模型的权重。可以针对第二机器学习模型重复训练过程，以标识具有包括第二机器学习模型所需的数据类别的数据的患者为开始。利用训练和交叉验证的更多迭代，可以提高机器学习模型在生成正确预测方面的置信水平。

利用所公开的实施例，不是使用利用大的且固定的数据类别集合训练的单个机器学习模型来执行针对患者的临床预测，而是可以提供包括多个机器学习模型(每个机器学习模型是利用较小但不同的数据类别集合进行训练的)的元模型来执行针对患者的临床预测。可以基于与机器学习模型的数据类别匹配的患者数据的数据类别来选择元模型的机器学习模型，使得针对所选择的机器学习模型，患者数据中没有缺失的数据类别。这可以减少或消除用于机器学习模型的患者数据中插补数据元素的需要，以及由插补数据引起的预测的不确定性。被输入到机器学习模型的数据类别的数量减少也可以减少给机器学习模型的输入的可能排列的数量，这可以减少机器学习模型的训练时间(或至少使训练更易于管理)。此外，由于所选择的机器学习模型的预测输出被组合以生成组合预测输出，因此组合预测输出可以反映患者数据中存在的所有数据类别，同时该组合还反映了每个机器学习模型的置信水平。所有这些可以提高元模型产生的临床预测的置信水平。此外，在临床预测用于预测患者响应于治疗的存活率的情况下，还可以在患者旅程中更准确且更早地进行预测，并且还可以更早地执行纠正措施，诸如考虑其他治疗选择，可用的临床试验等。所有这些都能够增加患者恢复和存活的几率。

I.临床预测和应用的示例

图1A和图1B示出了可以通过本公开的示例提供的临床预测的示例。图1A示出了预测患者的相对于从做出癌症的诊断时起的时间的存活率的机制，而图1B示出了存活率预测的示例应用。参考图1A，图100示出了卡普兰-迈尔(K-M)图的示例，该卡普兰-迈尔(K-M)图提供了患有某种癌症(例如，肺癌)的患者的存活统计数据的研究。患者可接收特定的治疗。K-M图显示了患者群组的存活率相对于从患者被诊断出患有癌症时开始测量的时间的变化。在患者接收治疗的情况下，K-M图还显示了患者响应于治疗的存活率。随着时间的推移，一些患者可经历死亡，并且存活率下降。一些其他患者可能会由于与所研究的事件无关的其他事件而从该图中被删剪(删除)，并且那些不相关的事件由K-M图中的记号(tick)表示。每条水平线的长度表示该间隔的存活持续时间，并且到给定点的所有存活估计值表示存活到该时间的累积概率。

在图1A中，图100包括患者的不同队列A和B的存活率的两个K-M图。队列A和B可以包括，例如，具有不同特性、接收不同治疗等的患者的队列。根据图1A，队列A的中位存活期(将估计50％的患者存活)约为11个月，但队列B的中位存活期约为6.5个月。此外，由图的水平线指示的存活患者的百分比也可以提供队列中的患者相对于时间的存活率的预测。例如，在诊断后4个月处，队列A中的患者具有约为70％(0.7)的存活率，而队列B中的患者具有约为30％(0.3)的存活率。

虽然基于群体的存活统计数据可用于广泛的癌症类型和患者，但患者特定信息可能更难辨别。具体来说，虽然患有IV期结肠癌的患者的总体五年存活率相对较低(例如，根据国家癌症研究所(National Cancer Institute，NCI)的监测，流行病学和最终结果(Surveillance,Epidemiology,and End Results，SEER)统计数据，约为14％)，但一些个体患者将具有大大好于平均的存活率。因此，对于肿瘤学家来说，当看到个体患者时，关键问题不是群体存活率，而是个体患者的存活率预测是什么。

图1B示出了患者的存活率预测的示例应用。如图1B所示，表示患者的存活率预测的数据102(诸如图1A的K-M图)可以被输入到临床决策支持工具104。数据102可以包括未治疗患者的存活率预测和/或患者针对不同治疗的存活率预测。

临床决策支持工具104可以生成各种信息，以协助临床医生基于数据102对患者施用护理/治疗。例如，为了便于对患者的护理，临床决策支持工具104可以生成信息106，以允许临床医生更好地评估患者的预后，诸如将患者的预测存活率与其他患者的预测存活率、患者的预期寿命等进行比较等。信息106可以促进临床医生和患者之间关于患者预后的讨论，以及治疗选项的评估和患者对生活事件的计划。作为说明性示例，如果临床决策支持工具104预测患者具有相对长的剩余寿命(例如，5年)，则患者可决定接受对身体要求更高且具有更严重副作用的激进治疗。但是，如果临床决策支持工具104指示患者具有相对短的剩余寿命(例如，少于一年)，则患者可以决定放弃治疗或接受替代治疗，并计划患者余生中的护理和生活事件。

此外，在数据102包含患者针对不同治疗的存活率预测的情况下，临床决策支持工具104还可以输出信息108以促进为患者选择最佳治疗。例如，临床决策支持工具104可以基于数据102显示患者针对不同治疗的不同K-M图。随后临床医生可以选择治疗，以例如最大化患者在给定时间处的存活率，最大化患者的预期剩余寿命等。

II.使用机器学习模型的临床预测

可以训练机器学习预测模型以基于包括一组数据类别的患者数据执行针对患者的临床预测。机器学习预测模型可以是用于执行临床预测的非常强大的工具，因为该模型可以揭示要预测的临床参数(例如，存活率)与临床医生未考虑的患者数据的各种数据类别之间的隐藏关系。机器学习模型可以使用非常大的患者群体的数据进行训练，以学习临床参数与各种数据类别之间的各种关系，并且随后基于患者数据和模型通过训练已学习到的关系来执行针对患者的预测。

图2A示出了使用机器学习模型执行对患者在诊断癌症后的预定时间处的存活率的预测的示例。如图2A所示，机器学习预测模型200可以接收患者的各种类型的数据(包括例如传记数据202、医疗历史数据204、实验室测试结果206、生物标志物数据208等)作为输入，并基于该输入生成患者的存活率的预测结果210。存活率可以提供患者在患者被诊断出医疗状况(例如晚期癌症)后的预定时间(例如，500天、1000天、1500天等)处存活的可能性。相对于时间的存活率可用于针对患者生成患者特定的卡普兰-迈尔(KM)图。

图2B示出了表220，表220提供了传记数据202、医疗历史数据204、实验室测试结果206和生物标志物208的类别的示例。作为示例，传记数据202可以包括各种类别的信息，诸如年龄、性别、种族等。作为示例，历史数据204可以包括各种类别的信息，诸如诊断结果(例如，癌症的分期、结直肠癌(CRC)的部位等)、患者的习惯(例如，患者是否吸烟)、患者的治疗史(例如，患者接受了哪种(哪些)治疗)等。

作为示例，实验室测试结果206可以包括患者的不同类别的实验室测试结果，诸如白细胞计数、血红蛋白计数、血小板计数、血细胞比容计数、红细胞计数、肌酐计数、淋巴细胞计数、蛋白质、胆红素、钙、钠、钾、碱性磷酸酶、二氧化碳、单核细胞、氯化物、乳酸脱氢酶、葡萄糖等的测量。

作为示例，生物标志物数据208可以包括针对不同癌症类型的各种生物标志物的测量，诸如雌激素受体(ER)，孕激素受体(PR)，人表皮生长因子受体2(HER2)，针对乳腺癌的表皮生长因子受体(EGFR或HER1)，针对肺癌的ALK(间变性淋巴瘤激酶)，针对肺癌和结直肠癌的KRAS基因，针对结直肠癌BRAF基因等等。可以理解，图2B中未示出的其它类别的临床数据(诸如活检图像特征数据)也可以被输入到机器学习预测模型200中以执行临床预测。

A.随机森林

机器学习预测模型200可以使用各种技术(诸如随机森林树、回归模型等)来实现。图2C示出了可用于实现机器学习预测模型200的随机森林模型230的示例。如图2C所示，随机森林模型230可以包括多个决策树，包括例如决策树232和234。每个决策树可以包括多个节点，包括根节点(例如，决策树232的根节点232a、决策树234的根节点234a等)和子节点(例如，决策树232的子节点232b、232c、232d和232e，决策树234的子节点234b和234c等)。具有子节点的每个父节点(例如，节点232a、232b和234a)可以与预定分类标准相关联，以将患者分类为其子节点之一。没有子节点的子节点是终端节点，包括(决策树232的)节点232d和232e以及(决策树234的)节点234b和234c，每个终端节点被分配累积危险函数(CHF)的值。

CHF的值可以表示特定时间处的死亡风险(或存活率)。CHF表示危险函数h(t)的总和，h(t)表示特定时间t处的瞬时死亡风险，因此CHF本身也是时间的函数。每个决策树可以将患者分类到终端节点中的一个中，并输出CHF值，诸如来自决策树232的CHF值236和来自决策树234的CHF值238。可以对来自各个决策树中的每一个决策树的患者的CHF值求平均，以生成患者的总体CHF值240(CHF_组合)，以表示患者在特定时间t处的存活率。图2C所示的随机森林模型230可以被训练来预测特定时间的CHF值，并且多个随机森林模型230可以用来预测患者240在不同时间的总体CHF值240。

可以基于累积危险函数CHF_组合的指数函数(exp)根据以下等式计算患者在时间t处的存活率m(t)：

m(t)＝exp(-CHF_组合(t)) (等式1)

可以分配每个决策树来处理患者数据的数据类别的不同子集，以生成CHF值。例如，如图2C所示，患者数据242包括数据类别集合{S₀，S₁，S₂，S₃，S₄，...S_n}。决策树232可以被分配和训练用于处理数据类别S₀和S₁，并且决策树234可以被分配和训练用于处理数据类别S₂，而其他决策树可以被分配用于处理数据类别的其他子集。

决策树中的父节点随后可以将与所分配的数据类别中的一个或多个数据类别相对应的患者数据242的子集与一个或多个阈值进行比较，以将患者分类到其子节点之一。具体地，参考决策树232，如果数据类别S₀的患者数据超过阈值x0，则根节点232a可以将患者分类到子节点232b，否则可以将患者分类到终端节点232c。子节点232b可以基于数据类别S₁的患者数据进一步将患者分类为终端节点232d或232c之一。取决于患者基于数据类别S₀和S₁被分类到哪个终端节点，决策树232可以输出CHF₀、CHF₁或CHF₂的CHF值。此外，决策树234还可以输出CHF₃或CHF₄的CHF值，这取决于患者基于数据类别S₂被分类到哪个终端节点。

可以在训练过程中对数据类别集合中的患者数据以及大的患者群体的存活统计数据生成随机森林模型中的每个决策树。此外，训练过程可以确定被分配给每个决策树的数据类别的子集、决策树的每个父节点的分类标准、以及每个终端节点处的累积危险函数的值。具体来说，训练过程可以从将数据类别的子集随机分配给决策树的根节点开始，并且可以将数据类别的不同子集分配给不同决策树的根节点。可以重复生成树的过程，直到达到目标数量的决策树(可由训练过程的超参数定义)为止。此外，在装袋过程中，决策树的根节点可以被分配给数据类别的所分配的子集中的患者数据的随机样本集合以执行训练。

作为训练过程的一部分，根节点(以及此后的每个父节点)可以基于被分配给根节点的患者数据的随机样本集合，在递归节点拆分过程中被拆分为子节点。在节点拆分过程中，表示患者集合的节点可以基于数据类别的子集的阈值而被拆分为两个子节点(每个子节点表示患者的子集)，其中数据类别的子集和阈值被选择为最大化两个子节点之间的存活患者/死亡的数量的差异，使得在两个子节点中表示的患者具有尽可能相似的存活统计数据。例如，参考决策树232，在训练过程期间，可以确定，通过基于数据类别S₀和阈值x0将被分配给决策树232的患者数据的随机样本分为两个群组，相比于其他分类标准(例如，基于数据类别S1，针对S₀设置不同的阈值等)，两个群组中的存活患者的数量之间的差异可以被最大化。

随后可以在子节点上重复该过程以生成附加的子节点，直到例如，在特定子节点中达到阈值最小数量的死亡/未存活患者，该附加的子节点随后可以成为终端节点。例如，在被分类为终端节点232c、232d和232e的患者中，死亡/未存活患者的数量达到阈值最小数量，因此根拆分操作在这些节点处停止。可以用给定时间处的被分类到终端节点的存活患者的百分比来表示这些终端节点中的每个终端节点处的累积危险函数输出。例如，对于被分类到终端节点232c的20名患者，危险函数可以基于存活和未存活的患者的数量来在不同时间处被计算，直到达到特定时间(例如，4天)。随后可以基于对该特定时间的危险函数的求和来生成该特定时间处的CHF值。可以基于不同时间处的患者的存活统计数据来重复该训练，以生成不同的决策树和不同的阈值，以用于将患者分类到不同的子节点中，从而预测作为时间的函数的不同的CHF值。

B.数学模型

除了随机森林模型230之外，回归模型还可用于预测患者的作为时间的函数的存活率。图2D示出了回归模型250的示例。如图2D所示，回归模型250可以是用于预测患者的存活率的Cox比例危险模型。存活率函数m(t)可以用以下等式表示：

m(t)＝m₀(t)×(b₀S₀+b₁S₁+…+b_nS_n) (等式2)

在等式2中，m₀(t)可以表示基本危险，该基本危险可以通过使用患者的实际存活数据并进行审查(censor)来根据经验被计算，并且是时间t的函数。例如，如果已知20名患者要在第9天活着，并且这20名患者中有一名死亡，则第9天的基本危险为0.05(1/20)。在研究结束时失去随访或仍然活着的患者被审查，因此在审查时间过后的所有时间点处从分子和分母两者中被移除。例如，如果患者在研究结束时的第1400天还活着，则该患者将在第1400天之后的所有日期的危险计算中被排除在分子和分母之外。患者的存活率可以基于将基本危险乘以变量集合的线性函数来确定，每个变量表示一个数据类别，诸如S₀、S₁、S_n等。每个变量可以按线性函数中的对应系数进行缩放。例如，数据类别S₀的变量可以按对应系数b₀进行缩放，数据类别S₁的变量可以按对应系数b₁进行缩放等。每个系数可以反映数据类别对死亡风险的影响。存活率函数M(t)可以指示死亡风险随时间变化(增加)，如K-M图所指示的。

回归模型250的系数也可以在训练过程中被确定，该训练过程包括数学模型基于回归对不同数据类别的患者数据以及大的患者群体的存活统计数据的拟合。例如，基于患者的存活时间(在图2D中由P0、P1、P2等表示)，可以确定群组中的在不同时间处的存活患者的百分比的K-M图(其中群组大小相对于时间被调整以考虑死亡)，以表示不同时间处的目标存活率。可以通过从患者群组(包括患者P0、P1、P2等)计算的基本危险m₀(t)来表示目标存活率。随后可以基于不同时间处的不同数据类别的患者的值确定系数，以将回归模型250的输出与目标存活率进行拟合。

III.使用单个机器学习模型的临床预测

尽管机器学习预测模型在执行临床预测和协助临床医生生成临床决策方面可能非常强大，但关键挑战限制了将基于机器学习的预测模型引入实际临床环境。一组挑战与患者间数据可用性的可变性有关。在大多数真实世界数据集中，许多患者将缺乏针对许多数据类别的记录结果。在另一方面，机器学习模型通常使用大的数据类别集合中的数据进行训练，以揭示要预测的参数与大的数据类别集合之间的更多隐藏链接。例如，随机森林模型230和回归模型250可以基于来自表220中列出的那些数据类别的大量数据类别进行训练。如果机器学习模型被训练以基于数据类别集合做出预测，但患者数据缺少来自该集合的一个或多个类别，则机器学习模型可能无法基于患者数据执行预测。

患者群组的数据中所包括的数据类别可能因各种原因而因不同患者而异，这导致大的数据异质性。例如，一些医院可具有实验室测试菜单，该实验室测试菜单包括超过1000个的独特的可订购测试。取决于患者的情况(例如，临床环境、年龄、性别、经济状况等)，大多数患者将最多接受过这些可能的测试的一小部分，并且由于患者的不同情况，患者可具有这些测试的不同部分。作为另一示例，不同的患者可能缺乏不同类别的非实验室临床数据，包括其他诊断研究、患者历史的要素、活检数据等。在考虑时间序列数据时，数据异质性的问题变得尤为重要；即使是执行类似诊断测试或身体检查操作的患者也可能是在不同的时间点进行的或以不同的间隔重复的。在所有这些情况下，由于患者的数据中缺少各种数据类别，因此机器学习模型可能无法对大量患者执行预测，这限制了机器学习模型的使用。

克服由数据异质性对机器学习模型带来的挑战的一种方法是通过插补过程，在插补过程中可以对患者的临床数据集合进行预处理，以便为缺失的数据类别创建附加的临床数据元素，使得患者数据(包括原始和插补的临床数据元素)可以包括完整的数据类别集合作为机器学习模型的输入。插补过程可以基于原始患者数据估计缺失的数据类别中的每个数据元素的分布或值。然而，插补过程可具有重大限制。具体来说，大多数插补算法假设数据“随机缺失”(MAR)，但MAR假设通常对大多数临床数据无效。这是因为生成临床数据的诊断研究是响应于临床环境选择和排序的，而不是随机的，因此患者数据中某个数据类别的存在(或不存在)也不是随机的。此外，插补可给预测带来附加的不确定性和不准确性，并且可掩盖预测参数与数据类别之间的一些隐藏关系。

IV.使用机器学习模型的元模型的临床预测

机器学习(诸如随机森林决策树模型(如图2C所示)和回归模型(如图2D所示))可以使用表示患者的不同特征的大量数据类别进行训练，以提高预测的准确性。但患者的数据通常不具有所有这些数据类别。如在以上所解释的，插补缺失的数据类别允许机器学习模型用于做出针对患者的预测，但这种安排可能会引入错误和不确定性。

本文公开的是用于使用包括多个机器学习模型的组合学习模型(以下称为“元模型”)执行临床预测的技术，以解决上述问题中的一些。元模型中的多个机器学习模型中的每一个是使用数据类别集合中的数据被单独训练的，并被分配指示机器学习模型的性能的权重。为了执行针对患者的预测，可以选择利用患者数据中存在的数据类别进行训练的机器学习模型来生成预测结果。该预测结果可以基于所选择的机器学习模型的权重进行组合，以针对患者生成组合预测结果。

A.元模型

图3A、图3B和图3C示出了临床预测系统300的示例，临床预测系统300可以至少解决上述问题中的一些。如图3A所示，临床预测系统300包括机器学习模型数据库302、选择模块304和预测器模块306。在一些示例中，临床预测系统300的各个模块(包括选择模块304和预测器模块306)可以被实现为由硬件处理器可执行的软件指令，以执行下述功能。

选择模块304可以接受患者308的数据作为输入。基于数据308中所包括的数据类别，选择模块304可以从机器学习模型数据库302中选择多个机器学习模型以形成元模型，并将元模型提供给预测器模块306。预测器模块306随后可以使用被包括在元模型中的机器学习模型来处理数据308，以生成针对患者的预测输出(诸如，存活率310a和310b)，并组合来自机器学习模型的预测输出以生成组合预测输出，诸如，患者的组合存活率312。随后可以基于组合预测输出进行临床预测(例如，患者的作为时间和/或治疗的函数的存活率，患者的预期剩余寿命等)。

具体地，机器学习模型数据库302可以存储多个机器学习模型，包括模型304a、304b、304c等。每个机器学习模型可以包括，例如，随机森林模型(例如，图2C的随机森林模型230)、数学模型(例如，图2D的回归模型250)、或其他类型的机器学习模型，以执行预测(例如，存活率)。随机森林模型和数学模型可以包括子模型集合，每个子模型与相应的时间相关联，从而生成针对不同时间的不同存活率。机器学习模型数据库302中的每个机器学习模型是使用数据类别集合中的数据单独训练的，以执行预测，并且不同的机器学习模型是使用不同的数据类别集合中的数据进行训练的，但是不同的集合之间可能存在重叠的数据类别。例如，机器学习模型304a是使用数据类别S₀、S₁、S₂和S₃的集合进行训练的。此外，机器学习模型304b是使用数据类别S₂、S₄和S₅的集合进行训练的。此外，机器学习模型304c是使用数据类别S₀、S₈和S₉的集合进行训练的。机器学习模型数据库302还可以包括其他机器学习模型，该其他机器学习模型是使用用于训练机器学习模型304a-304c的数据类别的子集进行训练的。例如，机器学习模型数据库302可以包括使用数据类别S₄和S₅训练的机器学习模型。

此外，多个机器学习模型中的每一个可以与性能度量相关联。性能度量可以指示特定机器学习模型生成正确预测的置信度。例如，机器学习模型304a可以与性能度量值M_A相关联，机器学习模型304b可以与性能度量值M_B相关联，而学习模型304c可以与性能度量值M_C相关联。如将在以下所述的，可以在机器学习模型被训练之后从验证过程中获得性能度量值。

为了基于数据308执行针对患者的预测，选择模块308可以在机器学习模型数据库302中执行对接受数据308中存在的数据类别的子集(或全部数据类别)的机器学习模型的搜索。在一个示例中，选择模块308可以获得数据库中的每一个机器学习模型的必要数据类别(例如，用于机器学习模型304a的数据类别S₀、S₁、S₂和S₃，用于机器学习模型304b的数据类别S₂、S₄和S₅等等)，将数据类别与数据308的数据类别进行比较，并确定机器学习模型的必要数据类别是否表示数据308中的数据类别的子集(或全部数据类别)。如果是，则选择模块308可以选择机器学习模型来形成元模型。选择模块308随后可以将所选择的机器学习模型提供给预测器模块306。在图3A的示例中，数据308包括数据类别S₀、S₁、S₂、S₃、S₄和S₅。基于这些数据类别在数据308中的存在，选择模块304可以选择机器学习模型304a(机器学习模型304a是使用数据308中所包括的数据类别S₀、S₁、S₂和S₃的数据进行训练的)以及机器学习模型304b(机器学习模型304b是使用数据308中所包括的数据类别S₂、S₄和S₅的数据进行训练的，以作为元模型的一部分)，以及使用数据类别S₀、S₁、S₂、S₃、S₄和S₅的任何子集训练的(多个)其他机器学习模型。另一方面，选择模块304不选择机器学习模型304c，因为该模型是使用数据类别S₀、S₈和S₉的数据训练的，并且数据类别S₈和S₉不存在于数据308中。选择模块304随后可以将机器学习模型304a和304b以及它们相关的度量M_A和M_B获取到预测器模块306。

预测器模块306可以使用由选择模块304获取的机器学习模型304a和304b来执行预测。预测器模块306可以将与数据类别S₀、S₁、S₂和S₃相对应的数据308的第一子集输入到机器学习模型304a以生成存活率310a。预测器模块306还可以将与数据类别S₀、S₄和S₄相对应的数据308的第二子集输入到机器学习模型304b以生成存活率310b。

预测器模块306进一步包括组合模块320，以组合存活率310a和310b，以基于性能度量M_A和M_B生成组合存活率312。在一个示例中，组合模块320可以基于生成存活率的机器学习模型的性能度量为每个存活率关联一个权重，并且随后基于存活率的加权平均值(其中每个存活率可以按相关联的权重进行缩放)生成组合存活率312。可以生成权重以反映机器学习模型预测存活率的置信水平，如性能度量所反映的那样。例如，可以将较大的权重分配给来自具有较高置信水平的机器学习模型的存活率，而将较低的权重分配给来自具有较低置信水平的机器学习模型的存活率。组合存活率312随后可以被提供给临床决策支持工具(诸如，临床决策支持工具104)，以生成各种信息以支持临床决策，如上所述。

B.性能度量

如上所述，机器学习模型数据库302中的多个机器学习模型中的每一个可以与一个性能度量相关联，该性能度量可用于生成元模型的组合输出。性能度量可以指示特定机器学习模型生成正确预测的置信度。可以使用各种技术确定机器学习模型的性能度量，诸如确定机器学习模型的接收者操作特性(ROC)曲线下的面积。

图3B示出了机器学习预测模型的ROC曲线330的示例。如图3B所示，ROC曲线330提供了在执行预测时机器学习模型的对应真阳性率和假阳性率之间的图。真阳性率是指机器学习模型正确地预测事件发生的比率，而假阳性率是指机器学习模型预测事件发生但该事件未发生的比率。如由虚线表示的ROC的曲线下面积(AUC)的为0.5的值(表示真阳性率和假阳性率在平均值上是相等的)表示机器学习模型无法区分并且是不期望的，而由实线表示的超过0.5的较大AUC可以指示更高的预测置信度。可以基于机器学习模型的ROC的AUC为机器学习模型分配权重，其中较大的权重被分配给具有ROC的较大AUC的机器学习模型，反之亦然。

在训练机器学习模型以输出患者存活率的情况下，真阳性和假阳性的定义可以基于各种定义。在一个示例中，真阳性案例可以被定义为机器学习模型输出患者在给定时间处的存活概率超过概率阈值并且患者在该给定时间处实际存活，而假阳性案例可以被定义为患者的存活概率超过概率阈值但患者在该给定时间处没有存活。在另一示例中，真阳性案例可以被定义为机器学习模型输出患者在给定时间处的存活概率下降到概率阈值以下并且患者在该给定时间处实际没有存活，而假阳性案例可以被定义为患者的存活概率下降到概率阈值以下但患者在该给定时间处实际存活。

图3C示出了用于生成图3A中的机器学习模型的权重(例如，M_A、M_B等)的验证过程340。在此示例中，机器学习模型已被训练，以预测患者在诊断后的预定时间处的存活率。

在步骤342处，在预定时间处的存活统计数据是已知的患者群体的数据可以被输入到机器学习模型中，以预测该群组中的每个患者的存活率。数据对应于已针对其训练机器学习模型的类别。

在步骤344处，设置概率阈值。可以从用于测试机器学习模型的概率阈值集合中的一个中选择概率阈值。例如，概率阈值集合可以包括离散值集合(包括0.2、0.4、0.6和0.8)，并且可以从该集合中选择概率阈值。可以使用更细或更粗的梯度。并且值之间的差异不必是均匀的。

在步骤346处，基于将患者的预测存活率与概率阈值进行比较，可以将群组中的每个患者标记为存活或未存活。具体来说，如果预测存活率高于概率阈值，则可以将患者标记为存活患者，而如果预测存活率低于概率阈值，则可以将患者标记为未存活/死亡患者。

在步骤348处，对于被标记为存活的每个患者，基于存活统计数据做出该患者是否在预定时间处实际存活的确定。如果患者被标记为存活并在预定时间处实际存活，则在步骤350中可以将该患者计为真阳性案例。在其他方面，如果患者被标记为存活并在预定时间处没有存活，则在步骤352中可以将该患者计为假阳性案例。

在步骤354处，可以生成针对该概率阈值的真阳性率和假阳性率。可以通过确定数据中所表示的患者的数量中的真阳性案例的百分比来生成真阳性率，而可以通过确定数据中所表示的患者的数量中的假阳性案例的百分比来生成假阳性率。

在步骤354之后，随后可以针对从概率阈值集合中选择的不同概率阈值重复步骤344-352。因此，可以针对不同的概率阈值获得假阳性率和真阳性率对(pair)，并且可以绘制对应的假阳性率和真阳性率对，以针对机器学习模型生成ROC。

可以针对机器学习模型数据库302中的每个机器学习模型执行验证过程340，以确定每个模型的ROC的曲线下面积(AUC)。可以基于以下等式基于相应的ROC的AUC确定每个模型的权重：

权重＝(AUC-0.5)ⁿ (等式3)

在等式2中，模型的权重可以基于AUC与0.5之间的差异。如以上所解释的，0.5是指真阳性率和真阴性率相同的情况，这意味着机器学习模型输出是完全随机的且没有区别，并且这样的模型的权重应该接近于零。在其他方面，AUC大于0.5意味着模型可以区分，并且较大的AUC反映较高的置信水平，因此权重可以随着AUC的增加而增加。AUC和0.5之间的差异可以自乘(raise)大于或小于1的幂n次，以强调(或不强调)AUC对权重的影响。可以确定n的值以例如最大化元模型的AUC。例如，作为验证过程的一部分，可以针对n的不同值基于元模型中所包括的机器学习模型的存活率输出的加权平均值，确定元模型的组合存活率输出的ROC的AUC。最大化元模型的ROC的AUC的n的值随后可以在使用元模型计算新患者的组合存活率时被确定并被包括在权重的计算中。

除了AUC之外，还可以基于其他性能度量(诸如，Harrell的C-指数(也被称为一致性指数))来确定机器学习模型的权重。为了确定机器学习模型的Harrell的C-指数，该模型可用于计算其存活时间是已知的患者群组的存活率。可以标识一致的患者对和不一致的患者对。一致的患者对是指第一患者被预测具有比第二患者更高的存活率并且第一患者具有比第二名患者更长的存活时间的患者对。不一致的患者对是指第一患者被预测具有比第二患者更高的存活率但第一患者具有比第二名患者更短的存活时间的患者对。机器学习模型的Harrell的C-指数可以被如下地确定：

可以将更大的权重分配给具有较大的C-指数的机器学习模型，反之亦然。

在本公开的机器学习模型中，两个患者之间的一致性可以是部分地根据时间的，一致性的定义可以适应这种时间依赖性。在一个示例中，在给定时间点处的患者对(其中已知一个患者活着，而另一个患者死亡)，如果活着的患者在该时间点处具有较高的预测存活概率，则可以被定义为“一致”，而如果死亡患者在该时间点处具有较高的预测存活概率，则可以被定义为“不一致”。在一些示例中，可以使用自举(bootstrap)方法定义患者群组内的一致性/不一致性，在该自举方法中，对不同时间点处的随机患者对进行采样，并对一致和不一致的自举复制品进行计数，而将表示患者对时间点组合的复制品从计数中丢弃，在患者对时间点组合中，已知两名患者都活着，死亡，或者其中一名或两名患者具有未知的存活状态(例如，该患者将从K-M图中被审查)。

C.机器学习模型的训练和验证

在一些示例中，机器学习模型数据库302中的每个机器模型的训练以及每个机器模型的性能度量的确定可以在交叉验证过程中基于相同的患者群组的患者数据的不同子集而被执行。图3D示出了包括机器学习模型304a、304b等的机器学习模型数据库302的机器学习模型的训练过程360的示例。

如图3D所示，训练过程360可以接收训练数据362作为输入。训练数据362可以包括大的患者群体的患者数据。患者数据中所包括的数据类别可能在患者之间不同。可以针对每个机器学习模型标识具有机器学习模型的必要数据类别的患者群体的患者数据。例如，为了执行针对机器学习模型304a的训练，可以标识具有机器学习模型304a所需的数据类别S₀、S₁、S₂、S₃的第一患者群组的患者数据364a。此外，为了执行针对机器学习模型304b的训练，可以标识具有机器学习模型304b所需的数据类别S₂、S₄、S₅的第二患者群组的患者数据364b。

随后可以将针对每个训练模型标识的患者群组及其患者数据分为第一子集和第二子集。第一子集可以是(患者群组的)大约80％的患者数据，而第二子集可以是大约20％。患者群组的第一子集的患者数据可用于训练机器学习模型，而患者群组的第二子集的患者数据可用于生成经训练的机器学习模型的性能度量(例如ROC的AUC)。例如，如图3A所示，患者数据366a(它是患者数据364a的第一子集)可用于执行机器学习模型304a的训练过程368。如以上所解释的，在机器学习模型将患者分类为群组(例如，随机森林决策树)中的一个的情况下，训练可以基于例如，最大化群组内的患者存活统计数据的相似性，并最大化不同群组之间的患者的存活统计数据的差异。在机器学习模型包括回归模型的情况下，训练可以基于将回归模型的参数与患者的存活统计数据的拟合。

此外，患者数据366b(它是患者数据364a的第二子集)可以在验证过程370中被输入到经训练的机器学习模型304a，以确定性能度量(例如，AUC)，如图3C中所述。随后，在过程372处，可以使用性能度量确定机器学习模型304a的权重M_A(例如，基于上面的等式2)。

此外，患者数据376a(它是患者数据364b的第一子集)可用于执行机器学习模型304b的训练过程378，而患者数据376b(它是患者数据364b的第二子集)可以在验证过程380中被输入到经训练的机器学习模型304b以确定机器学习模型304b的性能度量(例如，AUC)，然后在过程382中确定机器学习模型304b的权重M_B(例如，基于上面的等式2)。在步骤368和378中生成的机器学习模型的模型参数(例如，图2C中的阈值x0、s1、s2、x5等，图2D中的回归参数b0、b1、bn等)，以及步骤370和380中生成的与机器学习模型相关联的权重，随后可以被存储在图3A的机器学习模型数据库302中，并且可以被捡取以构建如上所述的元模型。

在一些示例中，可以在多次迭代中重复机器学习模型的训练和交叉验证。针对每次迭代，可以选择患者数据的不同子集(例如，患者的不同80％和20％部分)来执行前述的训练和验证操作，并且可以通过对来自多次迭代的ROC面积求平均来确定机器学习模型的权重。利用训练和交叉验证的更多迭代，可以提高机器学习模型在生成正确预测方面的置信水平。

V.实验结果

A.实验方法的概述

使用来自Flatiron健康临床数据集市(DataMarts)的针对以下三种肿瘤类型的患者的临床患者数据对前述元模型技术进行测试：转移性结直肠癌、转移性乳腺癌和晚期肺癌。针对转移性结直肠癌、转移性乳腺癌和晚期肺癌，开发了个体预测模型集合，每个个体预测模型基于不同的数据类别集合对患者的存活率执行预测。在本实验中，针对转移性结直肠癌开发了8个个体预测模型，针对转移性乳腺癌开发了7个个体预测模型，而针对晚期肺癌开发了5个个体预测模型。使用具有该模型的所有必要数据类别的患者的临床患者数据对每个个体模型进行训练和测试。随后将每个肿瘤类型的个体预测模型进行组合并重新训练为针对每个肿瘤类型的元模型。基于性能度量AUC评估每个肿瘤类型的元模型及其组成的个体预测模型。

B.患者队列和数据类别

三个患者队列(针对转移性结直肠癌、转移性乳腺癌和晚期肺癌中的每一者对应一个队列)由以下三个Flatiron数据集市定义：转移性CRC(结直肠癌)；ii)晚期NSSLC(非小细胞肺癌)；iii)转移性乳腺癌。对于患者队列中的每个患者，提取患者的存活结果数据。患者的存活结果数据可以是死亡与晚期诊断日期之间的时间，或者如果没有列出的死亡日期，则为最后记录的就诊日期与晚期诊断日期之间的时间。

此外，提取每个患者的各种数据类别，该数据类别可以作为具有相同数据类别的另一患者的存活率的潜在预测因子。图4A示出了针对每个肿瘤类型选择并且输入到每个个体预测模型的的数据类别输入。数据类别可以包括实验室测试结果、传记数据、医疗历史数据、生物标志物等，如图2A所讨论的。

对于实验室测试结果(在图4A中被标记为“实验室”)，针对每个队列中的每个患者提取所选择的定量实验室测试的可用结果，以得到在晚期诊断的时间附近(在+/-90天内)收集的标本(specimen)。患者的最小和最大测试结果被提取并被转换为绝对中位数偏差(结果的绝对值减去群体中位数)，以供在模型中使用。在模型中使用绝对中位数偏差可以反映这样一种概念，即对于许多测试，高值或低值可以在诊断上提供信息。此外，还提取传记数据(诸如，年龄和性别)，以及医疗历史数据(诸如，癌症分期)。

还针对不同的癌症类型提取不同的生物标志物数据。例如，针对CRC队列，提取队列中的患者的KRAS和BRAF基因表达状态。针对乳腺癌队列，提取患者的ER、PR和HER2状态。此外，针对肺癌队列，提取ALK和EGFR突变状态。针对分子生物标志物(ER、PR、HER2、KRAS、BRAF、EGFR、ALK)，我们仅考虑了每个患者的每个标志物的在时间上最接近晚期诊断日期(例如，基于标本采集日期)的结果。随后将分子生物标志物结果分类为“阳性”、“阴性”或“其他”，其中“阳性”指示对应的标志物表达水平高于阈值，或存在突变。“阴性”分类指示标记物不存在或未观察到突变，并且“其他”指示模棱两可的结果，无法执行的测试或其他非确定性结果。

C.预测因子集合

很少有患者拥有如图4A所示的用于存活率预测的所有潜在预测因子(实验室测试、分子生物标志物和临床/人口统计学变量)的数据。在这个实验中，针对每各肿瘤类型开发了个体预测模型，其中每个个体预测模型都是使用潜在预测因子的子集构建和训练的。随后将个体预测模型组合成元模型。如图4A所示，针对转移性结直肠癌开发了七个个体预测模型(在图4A中被标记为CRC_A–CRC_G)，针对转移性乳腺癌开发了五个个体预测模型(在图4A中被标记为BC_A–BC_E)，而针对晚期肺癌开发了八个个体预测模型(在图4A中被标记为LC_A–LC_H)。每个个体预测模型接收由数据类别集合表示的预测因子集合作为输入，以执行预测。对于每个预测模型，被标记为“1”的数据类别指示数据类别用于训练预测模型，而被标记为“0”的数据类别指示数据类别不用于训练预测模型。例如，针对晚期肺癌的预测模型LC_A是基于患者的性别和种族数据进行训练的，并在图4A中将性别和种族的数据类别标记为“1”。此外，针对晚期肺癌的预测模型LC_B是基于年龄、组织学和吸烟状态进行训练的，并在图4A中将这些数据类别标记为“1”。

取决于由预测因子集合表示的数据类别(例如，数据类别的数量，数据类别在患者队列中的分布等)，可以使用包括数据类别的对应肿瘤类型的患者队列的不同比例的临床数据来训练每个个体预测模型。患者队列的不同部分可以重叠，以便相同患者可以在患者队列的多个部分中被表示，并且患者的临床数据用于为与患者队列相对应的肿瘤类型训练多个个体预测模型。

图4B示出了每个肿瘤类型的患者队列中具有每个个体预测模型的必要数据类别的部分。如图4B所示，基于对应患者队列的100％的临床数据训练针对转移性CRC的个体预测模型CRC_A。这可能是由于，例如，仅两个数据类别(性别和种族)被提供作为模型的输入，并且这两个数据类别是通用的，并且存在于所有患者的临床数据中。此外，出于类似的原因，针对转移性CR_C的个体预测模型CRC_B和CRC_C、个体预测模型BC_A-BC_D、以及针对晚期肺癌的个体预测模型LC_A-LC_C是基于对应患者队列的临床数据的相对大的部分(94％-100％)进行训练的。

相比之下，个体预测模型CRC_G是基于对应患者队列中仅15％的临床数据进行训练的。例如，这可能是由于将大量数据类别输入到模型，并且其中一些(例如，生物标志物)仅存在于患者队列的一小部分的临床数据中。此外，出于类似的原因，针对转移性CRC的个体预测模型CRC_D–CRC_G、个体预测模型BC_E、以及针对晚期肺癌的个体预测模型LC_D-LC_H是基于对应患者队列的临床数据的相对小的部分(2％-63％)进行训练的。

D.个体预测模型和元数据

临床数据的具有每个个体预测模型的必要数据类别的标识部分(如图4B所示)随后被用于构建和训练个体预测模型。在实验的第一部分中，每个个体预测模型都包括如图2C所述的随机森林模型。在实验的第二部分中，每个个体模型都包括如图2D所述的数学模型。临床数据的每个部分分别以大约75：25的比例被随机拆分为训练分区和测试分区。训练分区用于模型开发，而测试分区被搁置一旁以用于测试元模型，如将在以下所述的。

训练分区被进一步拆分为临床数据的第一子集以执行个体预测模型的训练，以及临床数据的第二子集以验证训练模型的性能，如图3D所述的。例如，训练分区的80％可用于训练，而训练分区的20％可用于验证。可以执行五种不同的拆分，以创建临床数据的五个不同的第一和第二子集。验证分区用于在交叉验证操作中计算训练模型的AUC，以得到诊断后第500天、第1000天和第1500天处的存活率，如图3C所示。利用不同的训练分区和验证分区执行五次训练和验证操作，以获得五个AUC值。随后基于从训练和验证操作中获得的五个AUC值的平均值确定每个个体预测模型的权重。

E.实验结果

随后使用测试分区测试针对每个肿瘤类型(转移性结直肠癌、转移性乳腺癌和晚期肺癌)的元模型。执行两个测试集合。第一测试包括使用元模型针对随机选择的患者执行患者特定的存活率预测，而第二测试包括确定元模型的AUC。

在第一测试中，从每个患者队列的测试分区中选择随机的患者群组。针对每个患者，患者具有必要数据类别的个体预测模型被标识并且使用与个体预测模型相关联的权重进行组合，以形成元模型，如图3A中所述。随后使用元模型确定在自诊断的时间以来的不同时间点处的存活率，针对患者生成K-M图。

图4C示出了来自转移性CRC的患者队列的12名患者(患者A–L)的元模型的K-M图(以实线表示)，以及患者队列的训练分区中所表示的患者的K-M图(用虚线表示)。图4C中的K-M图示出：特定患者的存活率可能与队列的存活率大不相同。如图4C所示，患者可以具有不同的适用个体预测模型集合。例如，患者A具有适用的预测模型CRC_A、CRC_B和CRC_C(在图4C中被表示为CRC_A–CRC_C)，而患者H具有适用的预测模型CRC_A、CRC_B、CRC_C、CRC_D、CRC _E、CRC_F和CRC_G(在图4C中被表示为CRC_A–CRC_G)。此外，除患者A外，其他患者的K-M图与患者队列的训练分区的K-M图不一致。这进一步强调了提供患者特定的存活预测而不是依赖于基于群体的存活统计数据的必要性。

在第二测试中，元模型的AUC被确定并与个体预测模型的AUC进行比较。具体地，参考图3C，针对训练分区中的每个患者，确定患者具有必要数据类别的个体预测模型，并通过将标识出的个体预测模型进行组合来获得元模型。使用元模型为患者确定患者的存活率，并将该存活率与概率阈值进行比较，以预测患者在诊断后的特定时间(例如，500天、1000天和1500天)处是否存活。将该患者的实际存活信息与存活预测进行比较，以将患者计为真阳性或假阳性。针对训练分区内的所有患者和不同的概率阈值执行分析，以生成元模型方法的AUC。

图4D示出了每个个体预测模型的AUC，以及第二测试中的转移性CRC患者队列的元模型。AUC图中所表示的元模型可以包括基于用于评估每个预测模型的患者数据中存在的数据类别的不同的预测模型集合。在图4D中，AUC被如下地计算：a)仅使用患者数据的具有必要数据类别的子集的预测模型；b)包括患者数据的子集具有必要的数据类别的所有预测模型的元模型；c)使用所有患者数据的预测模型，并且对于那些没有必要数据类别的患者数据，插补数据用于缺失的数据类别。

如图4D所示，与每个个体预测模型相比，元模型方法提供了改进的AUC。在个体预测模型仅接收小的数据类别集合作为输入(例如，仅使用性别和种族的预测模型CRC_A)的情况下，可以观察到AUC的实质性改进。例如，对于500天和1000天处的存活率预测，AUC从仅使用预测模型CRC_A的0.61提高到使用元模型方法的0.74。此外，对于1500天处的存活率预测，AUC从仅使用预测模型CRC_A的0.57提高到使用元模型方法的0.74。

即使对于接收大量数据类别作为输入的预测模型(例如，预测模型CRC_G)，AUC也有所改进。例如，对于500天处的存活率预测，AUC从仅使用预测模型CRC_G的0.81提高到使用元模型方法的0.84。此外，对于1000天处的存活率预测，AUC从仅使用预测模型CRC_G的0.78提高到使用元模型方法的0.79。此外，对于1500天处的存活率预测，AUC从仅使用预测模型CRC_G的0.73提高到使用元模型方法的0.75。

此外，元模型的AUC也高于针对所有预测模型使用插补数据的单个模型的AUC。这可能是由于插补数据是基于“随机缺失”假设生成的，但这不是临床数据中的有效假设，如在以上所解释的。

VI.方法

图5示出了执行针对患者的临床预测的方法500。临床预测可以包括，例如，患者在疾病诊断(例如，特定类型的癌症)后的特定时间处的存活率。可以通过临床预测系统300的各种组件来执行方法500。

在步骤502中，临床预测系统300(例如，选择模块304)接收与患者的多个数据类别相对应的数据308。多个数据类别可以包括例如传记数据、医疗历史数据、实验室测试结果、生物标志物等，如图4A所示的。

在步骤504中，临床预测系统(例如，选择模块304)从多个经训练的机器学习模型中并基于多个数据类别选择第一机器学习模型和第二机器学习模型，该第一机器学习模型是使用多个数据类别的第一子集的第一数据进行训练的并具有第一性能度量，第二机器学习模型是使用多个数据类别的第二子集的第二数据进行训练的并具有第二性能度量。可以从临床预测系统300的机器学习模型数据库302中选择机器学习模型。

具体地，临床预测系统300的机器学习模型数据库302可以存储多个机器学习模型，包括模型304a、304b、304c等。每个机器学习模型可以包括，例如，随机森林模型(例如，图2C的随机森林模型230)、回归模型(例如，图2D的回归模型250)、或其他类型的机器学习模型，以执行预测(例如，存活率)。机器学习模型数据库302中的每个机器学习模型是使用数据类别集合中的数据单独训练的，以执行预测，并且不同的机器学习模型是使用不同的数据类别集合中的数据进行训练的，但是不同的集合之间可能存在重叠的数据类别。例如，参考图3A，在数据308包括数据类别S₀、S₁、S₂、S₃、S₄和S₅的情况下，选择模块304可以标识利用数据类别S₀、S₁、S₂和S₃训练的第一机器学习模型304a，以及利用数据类别S₀、S₄、S₅训练的第二机器学习模型304b。

此外，多个机器学习模型中的每一个都可以与性能度量(诸如AUC，其可以以权重的形式表示)相关联。选择模块304可以在机器学习模型数据库302中执行对机器学习模型的搜索，并标识在步骤502中接收的数据包括必要数据类别的机器学习模型，并将所标识的机器学习模型及其相关联的性能度量(例如，权重)提供给预测器模块306。

返回参考图3A，选择模块308可以在机器学习模型数据库302中执行对接受数据308中存在的数据类别的子集(或全部数据类别)的机器学习模型的搜索。在一个示例中，选择模块308可以获得数据库中的每一个机器学习模型的必要数据类别(例如，用于机器学习模型304a的数据类别S₀、S₁、S₂和S₃，用于机器学习模型304b的数据类别S₂、S₄和S₅等等)，将数据类别与数据308的数据类别进行比较，并确定机器学习模型的必要数据类别是否表示数据308中的数据类别的子集(或全部数据类别)。如果是，则选择模块308可以选择机器学习模型来形成元模型。选择模块308随后可以将所选择的机器学习模型提供给预测器模块306。

在步骤506中，与多个类别的第一子集相对应的数据的第一子集被输入到第一机器学习模型以生成第一预测结果。参考图3A，预测器模块306可以将包括数据类别S₀、S₁、S₂和S₃的数据308的第一子集输入到第一机器学习模型304a。第一预测结果可以包括，例如，由第一机器学习模块304a针对患者预测的第一存活率。

在步骤508中，与多个类别的第二子集相对应的数据的第二子集被输入到第二机器学习模型以生成第二预测结果。参考图3A，预测器模块306可以将包括数据类别S₀、S₄、S₅的数据308的第二子集输入到第二机器学习模型304b。第二预测结果可以包括，例如，由第二机器学习模块304b针对患者预测的第二存活率。

在步骤510中，预测器模块306基于第一预测结果、第二预测结果、指示第一性能度量的第一权重、以及指示第二性能度量的第二权重生成组合预测结果。例如，预测器模块306可以基于第一存活率和第二存活率的基于第一权重和第二权重的加权平均值生成患者的组合存活率。第一权重可以反映第一机器学习模型304a的第一AUC，而第二权重可以反映第二机器学习模型304b的第二AUC。

在步骤512中，可以基于组合预测结果执行针对患者的临床预测。例如，组合存活率随后可以被提供给临床决策支持工具(诸如，临床决策支持工具104)，以生成各种信息以支持临床决策，如以上在图1B中所述的。例如，为了便于对患者的护理，临床决策支持工具104可以生成信息，以允许临床医生更好地评估患者的预后，诸如将患者的预测存活率与其他患者的预测存活率、患者的预期寿命等进行比较等。信息可以促进临床医生和患者之间关于患者预后的讨论，以及治疗选项的评估和患者对生活事件的计划。作为说明性示例，如果临床决策支持工具104预测患者具有相对长的剩余寿命(例如，5年)，则患者可决定接受对身体要求更高且具有更严重副作用的激进治疗。但是，如果临床决策支持工具104指示患者具有相对短的剩余寿命(例如，少于一年)，则患者可以决定放弃治疗或接受替代治疗，并计划患者余生中的护理和生活事件。

此外，临床决策支持工具104还可以输出信息，以促进针对患者选择最佳治疗。例如，临床决策支持工具104可以基于患者的数据显示患者针对不同治疗的不同K-M图。随后临床医生可以选择治疗，以例如最大化患者在给定时间处的存活率，最大化患者的预期剩余寿命等。

在所有这些示例中，针对患者做出的临床预测更有可能是准确的，或者至少与该患者更相关，因为临床预测是基于针对患者而不是患者队列而预测的存活率做出的。如图4D所示，患者特定的存活率预测可能与患者队列的存活率有很大不同。所公开的技术可以提高临床预测的准确性和相关性，同时避免在机器学习模型需要许多患者没有的数据类别的情况下的缺少数据类别的问题。

VII.计算机系统

本文提到的计算机系统中的任一个可利用任何合适数量的子系统。在图6中在计算机系统10示出这种子系统的示例。在一些实施例中，计算机系统包括单个计算机设备，其中子系统可以是计算机装置的组件。在其他实施例中，计算机系统可包括多个计算机装置，其中每一个计算机装置作为带有内部组件的子系统。计算机系统可以包括台式计算机和便携计算机、平板电脑、移动电话和其他移动设备。在一些实施例中，云基础设施(例如，亚马逊网络服务)、图形处理单元(GPU)等可用于实现所公开的技术。

图6所示的子系统是经由系统总线75互连的。示出了耦合到显示适配器82的附加子系统(诸如，打印机74、键盘78、(多个)存储设备79、监测器76)，以及其他子系统。可以通过任何数量的本领域中已知的装置(诸如，输入/输出(I/O)端口77(例如，USB、

))将耦合到I/O控制器71的外围设备和输入/输出(I/O)设备连接到计算机系统。例如，I/O端口77或外部接口81(例如，以太网、Wi-Fi等)可用于将计算机系统10连接到广域网，诸如，互联网、鼠标输入设备或扫描仪。经由系统总线75的互连允许中央处理器73：与每个子系统通信，并且控制来自系统存储器72或(多个)存储设备79(例如，固定硬盘，诸如硬盘驱动器、或光盘)的多个指令的执行、以及各子系统之间的信息交换。系统存储器72和/或(多个)存储设备79可以包含计算机可读介质。另一子系统是数据收集设备85，诸如相机、麦克风、加速度计等。本文提到的数据中的任何数据可以从一个组件输出到另一部件并且可以输出给用户。

计算机系统可包括多个相同的组件或子系统，这些多个相同的组件或子系统例如通过外部接口81或通过内部接口连接在一起。在一些实施例中，计算机系统、子系统或装置可以通过网络进行通信。在此类情况下，一个计算机可被视为客户端，并且另一计算机可被视为服务器，其中每一个计算机可以作为同一计算机系统的一部分。客户端和服务器可各自包括多个系统、子系统或组件。

可以使用硬件(例如，专用集成电路或现场可编程门阵列)和/或使用具有以模块或集成方式的一般可编程处理器的计算机软件以控制逻辑的形式来实现实施例的各方面。如本文所用，处理器包括单核处理器、在同一集成芯片上的多核处理器或单个电路板或网络上的多个处理单元。基于本公开以及本文所提供的教导，本领域的普通技术人员将知道和理解使用硬件以及硬件和软件的组合来实现本发明的实施例的其他方式和/或方法。

本申请中所描述的软件组件或功能中的任何一个都可以被实现为软件代码，这些软件代码由处理器使用任何合适的使用例如常规的或面向对象的技术的计算机语言(诸如，例如，Java、C、C++、C#、Objective-C、Swift、或诸如Perl或Python之类的脚本语言)来执行。软件代码可以作为一系列指令或命令存储在计算机可读介质上，以供存储和/或传输。合适的非瞬态计算机可读介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或诸如光盘(CD)或DVD(数字通用盘)之类的光学介质、和闪存等。计算机可读介质可以是此类存储或传输设备的任何组合。

也可使用针对经由有线、光、和/或符合各种协议的无线网络(包括互联网)传输而适配的载波信号对此类程序进行编码和传输。因此，可以使用利用这样的程序编码的数据信号来创建计算机可读介质。可使用兼容设备来封装使用该程序编码进行编码的计算机可读介质，或与其他设备分开地提供该计算机可读介质(例如，经由互联网下载)。任何此类计算机可读介质可驻留在单个计算机产品(例如，硬盘驱动、CD或整个计算机系统)之上或之内，并且可存在于系统或网络内的不同的计算机产品之上或之内。计算机系统可包括监测器、打印机或用于向用户提供本文提到的结果中的任一个的其他适合的显示器。

本文描述的方法中的任一个可以全部地或部分地使用包括一个或多个处理器的计算机系统执行，该一个或多个处理器可被配置成用于执行步骤。因此，实施例可以涉及被配置成用于执行本文描述的方法中的任何方法的步骤的计算机系统，潜在地用不同的组件执行相应的步骤或相应的步骤群组。尽管被呈现为编号步骤，但是可同时执行或以不同的顺序执行本文方法的步骤。附加地，这些步骤中的多个部分可与来自其他方法的其他步骤的多个部分一同使用。同样，步骤的全部或多个部分可以是可选的。附加地，任何方法的任何步骤可以利用模块、单元、电路或用于执行这些步骤的其他装置来执行。

可以以任何合适的方式组合具体实施例的特定细节，而不偏离本发明的实施例的精神和范围。然而，本发明的其他实施例可以涉及与每一个单独方面、或这些单独方面的特定组合相关的特定实施例。

本发明的示例实施例的以上描述出于说明和描述的目的而被呈现。其不旨在是穷尽的，也不旨在将本发明限制至所描述的精确形式，并且鉴于上文的教导，许多修改和变型是可能的。

除非特别指示为相反的情况，否则对“一(a、an)”或“所述(the)”的引用旨在表示“一个或多个”。使用“或”旨在表示“包容性的或”，而不是“排他性的或”，除非具体地指示为相反的情况。对“第一”组件的引用不一定要求提供第二组件。此外，对“第一”或“第二”组件的引用不会将所引用的组件限定在特定位置，除非明确说明。

本文中所提及的所有专利、专利申请、公开和描述通过引用以其整体被并入，以用于所有目的。其中任何内容均不被认为是现有技术。

Claims

1.一种执行临床预测的计算机实现的方法，包括：

接收与患者的多个数据类别相对应的数据；

从多个经训练的机器学习模型中并基于所述多个数据类别选择第一机器学习模型和第二机器学习模型，所述第一机器学习模型是使用所述多个数据类别的第一子集的第一数据进行训练的并具有第一性能度量值，所述第二机器学习模型是使用所述多个数据类别的第二子集的第二数据进行训练的并具有第二性能度量值，所述多个数据类别的所述第二子集不同于所述多个数据类别的所述第一子集；

将与所述多个类别的所述第一子集相对应的数据的第一子集输入到所述第一机器学习模型，以生成第一预测结果；

将与所述多个类别的所述第二子集相对应的数据的第二子集输入到所述第二机器学习模型，以生成第二预测结果；

基于所述第一预测结果、所述第二预测结果、指示所述第一性能度量值的第一权重、和指示所述第二性能度量值的第二权重生成组合预测结果，所述第二性能度量值不同于所述第一性能度量值；以及

基于所述组合预测结果执行针对所述患者的临床预测。

2.根据权利要求1所述的方法，其特征在于，所述多个数据类别的所述第一子集和所述多个数据类别的所述第二子集包括至少一个通用数据类别。

3.根据权利要求1或2所述的方法，其特征在于，所述数据类别包括以下各项中的至少一项：所述患者的传记数据、所述患者的一个或多个化学测试的结果、所述患者的活检图像数据、所述患者的分子生物标志物、所述患者的肿瘤部位、或所述患者的肿瘤分期。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述多个机器学习模型包括使用第三数据类别的第三数据进行训练的第三机器学习模型，所述第三数据类别不是所述多个数据类别的一部分；并且

其中，所述第三预测模型不是基于不存在于所述患者的所述多个数据类别中的所述第三数据类别针对所述患者选择的。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述临床预测包括预测所述患者在从所述患者被诊断为具有处于晚期的肿瘤时起的预定时间处的存活率。

6.根据权利要求5所述的方法，进一步包括基于所预测的存活率确定针对所述患者的治疗。

7.根据权利要求5或6所述的方法，其特征在于，所述多个数据类别包括与由所述患者接收的治疗有关的类别；并且

其中，所述临床预测包括预测所述患者响应于所述治疗在所述预定时间处的存活率。

8.根据权利要求5-7中任一项所述的方法，其特征在于，所述第一机器学习模型和所述第二机器学习模型包括以下各项中的至少一项：随机森林模型或危险函数。

9.根据权利要求8所述的方法，其特征在于，所述第一机器学习模型和所述第二机器学习模型包括随机森林模型，所述随机森林模型包括多个决策树，每个决策树被配置成用于处理数据的所述第一子集的子集，以生成累积危险函数(CHF)值；并且

其中，所述患者在所述预定时间处的存活率是基于由所述多个决策树输出的所述CHF值的平均值来确定的。

10.根据权利要求8或9所述的方法，其特征在于，所述第一机器学习模型包括危险函数，所述危险函数输出所述患者在所述预定时间处未存活的概率，所述危险函数是所述多个数据类别的所述第一子集的值的函数。

11.根据权利要求1-10中任一项所述的方法，其特征在于，所述第一性能度量值和所述第二性能度量值是指所述第一机器学习模型和所述第二机器学习模型针对患者群组在所述预定时间处的正确预测存活的比率和错误预测存活的比率。

12.根据权利要求10或11所述的方法，其特征在于，所述第一性能度量和所述第二性能度量分别基于所述第一机器学习模型和所述第二机器学习模型的接收者操作特性(ROC)曲线的曲线下面积(AUC)；

其中，所述第一权重基于所述第一机器学习模型的第一ROC曲线的第一AUC的面积测量；并且

其中，所述第二权重基于所述第一机器学习模型的第二ROC曲线的第二AUC的面积测量。

13.根据权利要求12所述的方法，其特征在于，所述组合预测结果表示按所述第一权重缩放的所述第一预测结果和按所述第二权重缩放的所述第二预测结果的线性组合。

14.根据权利要求1-13中任一项所述的方法，其特征在于，所述第一性能度量是基于所述第一数据确定的；并且

其中，所述第二性能度量是基于所述第二数据确定的。

15.根据权利要求14所述的方法，其特征在于：

所述第一机器学习模型是使用所述第一数据的第一子集进行训练的；

所述第一性能度量是基于经训练的第一机器学习模型在处理所述第一数据的第二子集时的输出确定的；

所述第二机器学习模型是使用所述第二数据的第三子集进行训练的；

所述第二性能度量是基于经训练的第二机器学习模型在处理所述第二数据的第四子集时的输出确定的。

16.根据权利要求15所述的方法，其特征在于：

所述第一机器学习模型是使用所述第一数据的不同的第一子集进行训练的；

所述第一性能度量是基于经训练的第一机器学习模型在处理所述第一数据的不同的第二子集时的输出确定的；

所述第二机器学习模型是使用所述第二数据的不同的第三子集进行训练的；并且

所述第二性能度量是基于经训练的第二机器学习模型在处理所述第二数据的不同的第四子集时的输出确定的。

17.一种计算机产品，包括存储多个指令的计算机可读介质，所述多个指令用于控制计算机系统执行上述方法中任一方法的操作。

18.一种系统，所述系统包括：

如权利要求17所述的计算机产品；以及

一个或多个处理器，用于执行存储在所述计算机可读介质上的指令。

19.一种系统，所述系统包括用于执行上述方法中任一方法的装置。

20.一种系统，所述系统被配置成用于执行上述方法中的任一方法。

21.一种系统，所述系统包括分别执行上述方法中的任一方法的各步骤的模块。