CN101443780A

CN101443780A - 用于开发和使用用于预测多种医学结果、评价介入策略以及同时验证生物标志物诱因的预测模型的方法、系统和计算机程序产品

Info

Publication number: CN101443780A
Application number: CNA2005800488620A
Authority: CN
Inventors: J·朗海尔; C·汉斯; C·卡瓦略; R·斯奈德曼
Original assignee: Proventys Inc
Current assignee: Proventys Inc
Priority date: 2004-12-30
Filing date: 2005-12-30
Publication date: 2009-05-27

Abstract

公开了用于开发和使用用于预测多种医学结果、评价介入策略以及同时验证生物标志物诱因的预测模型的方法、系统和计算机程序产品。根据一种方法，获得来自个体族群的不同来源的临床数据。临床数据可以包括关于个体的不同身体因素和人口统计学因素以及多种个体的不同结果。接收关于搜索空间的输入，搜索空间包括将因素的不同组合和至少一种结果链接的模型。响应于接收输入，基于模型关于结果的预测值，在搜索空间内对模型进行搜索。处理所识别的模型，以产生将所述因素组合中的一种链接到结果的最终模型。最终模型指示出具有在最终模型中的因素的个体出现该结果的可能性。

Description

用于开发和使用用于预测多种医学结果、评价介入策略以及同时验证生物标志物诱因的预测模型的方法、系统和计算机程序产品

相关申请

本申请要求2004年12月30日提交的No.60/640,371的美国临时专利申请和2005年7月13日提交的No.60/698,743的美国临时专利申请的权益，这两项美国临时专利申请中每一个所公开的内容以引用的方式全部并入本文中。

技术领域

在这里所描述的主题涉及生成预测模型并将其应用于医学结果。更具体地，在这里所描述的主题涉及用于开发和利用预测模型以预测多种医学结果和最优介入策略以及同时验证生物标志物诱因的方法、系统和计算机程序产品。

背景技术

预测模型通常用于预测医学结果。这种模型基于从被确认为出现或不出现特定医学结果的个体的族群中获得的统计数据。典型地，分析关于该个体的族群的数据以确认用于预测该结果的因素。这些因素可以组合成数学等式，或用于生成后验分布，以预测结果。为了预测个体是否出现特定结果，可以分析该个体以判定是否存在一种或多种因素(变量)。然后，可以将该模型应用于个体以判定该个体出现特定医学结果的可能性或存活时间。

在公布预测规则的医学文献中有一种方法，通过这种方法预测模型可供医生使用。预测规则可以是组合了这些因素以预测医学结果的等式或等式组。医生能够获得对于个体的测量值，并且利用公布的预测规则手动计算出该个体将会出现该特定结果的可能性。在一些情况下，通过使个体预测模型可经因特网获得或可以作为个体计算器的电子数据表的方式获得，已经使对个体预测模型的评分自动化。

传统的预测模型所具有的一个问题是，模型是静态的，并且不会基于新的因素的确认而改变。为了生成新的预测模型，必须进行统计学研究，研究必须经历长期的同行评审，然后通过出版物传播给用户。就自动检测新的因素并且基于该新因素自动更新模型而言，在当前的预测模型生成过程中并没有可供使用的标准方法。

传统的预测建模所具有的另一个问题是，预测模型典型地只考虑医学结果将会或不发生的可能性。当试图对那些模型评分以做出预测时，传统的预测模型未能考虑诸如获得特定模型所需要的数据的成本或风险的因素。例如，一种因素可能具有关于医学结果的高预测值。然而，该因素可以是非常昂贵或者很难获得的。当前的预测建模系统只考虑与预测该医学结果有关的因素，而不考虑获得或判定个体是否出现特定因素的成本或难度。

与传统的预测建模有关的另一个问题包括，不能验证生物标志物，并且不能基于新验证的生物标志物更新预测模型。如上所述，新因素的识别需要长期的同行评审，并且需要通过传统渠道传播。当前的预测建模系统不能快速验证新的生物标志物，并且不能基于新验证的生物标志物自动更新预测模型。

与传统的预测建模有关的再一个问题是，不能同时预测多于一个的结果，包括最初的医学问题、不同治疗的功效以及用于解决此问题的不同治疗策略的不良反应。例如，传统的预测建模系统典型地预测个体将出现特定结果(例如疾病)的可能性。对于个体，理想的是生成与不同结果有关的多个概率或可能性。另外，理想的是，评价不同治疗和测试策略以及这些策略对与不同结果有关的可能性的影响，并且推荐最优的族群策略或决策路径。当前的预测建模系统不能提供这种灵活性。

与传统的预测建模系统有关的其它问题是，它们不能与电子病历(EHR)集成，或者不能为医生或患者提供使用决策支持接口的简易性。如上所述，传统的预测建模系统包括公布的诊断规则集或者单一结果计算器，所述诊断规则集需要医生手动应用以判定个体出现或发展为特定结果的可能性。这种手动或单一结果系统不能自动合并EHR数据，或为个体提供用于查看和比较不同模型及结果的方便接口。

鉴于与用于决策支持的传统的预测建模和模型评分有关的这些和其它难点，存在对用于开发和使用预测模型来预测多种医学结果和最优介入策略并且同时验证生物标志物诱因的方法、系统和计算机程序产品的需要。

发明内容

根据一方面，在这里所描述的主题包括一种用于自动生成将用户所选择的因素链接到用户所选择的结果的预测模型的方法。该方法包括获得来自个体的族群的多个不同来源的临床数据。临床数据可以包括关于所述个体的不同身体因素和人口统计学因素以及所述个体的不同结果。可以接收关于搜索空间的输入，搜索空间包括将所述因素的不同组合链接到所述结果中的至少一个的模型。响应于接收所述输入，可以基于模型关于结果的预测值，在搜索空间内对模型进行搜索。可以处理该模型，以产生出将所述因素组合中的一个链接到所述结果的最终模型。最终模型可以指示具有在最终模型中的因素的个体出现该结果的可能性。

根据在这里所描述的主题的另一方面，一种用于生成模型体系结构从而为医学结果筛选个体的方法可以包括获得个体族群的临床数据。可以识别与族群有关的、指示医学结果的因素。基于这些因素，可以为预测医学结果而生成多种预测模型。基于相关的预测值和与将每种模型应用于个体有关的额外的度量中的至少一种，可以以分等级的方式排列这些模型。

根据又一方面，在这里所描述的主题包括一种用于生成将用户所选择的因素链接到用户所选择的结果的预测模型的系统。该系统可以包括用于获得来自个体族群的多个不同来源的临床数据的数据采集模块。临床数据可以包括多个关于个体的不同身体因素和人口统计学因素以及个体的不同结果。用户接口模块可以接收关于搜索空间的输入，搜索空间包括将所述因素的不同组合链接到至少一种结果的模型。响应于接收所述输入，基于模型关于结果的预测值，预测建模组件可以在搜索空间内对模型进行搜索。建模组件可以处理在搜索中识别的模型，并且产生将在搜索中识别的因素的组合中的一种链接到所选择的结果的最终模型。

根据另一方面，在这里所描述的主题包括一种用于同时评价个体对于多种临床结果的风险的系统。系统包括用于从关于个体族群的临床和分子数据中生成模型的预测建模组件，该模型将族群中的预测因素(预测因子)链接到临床结果。生物标志物诱因识别系统验证生物标志物。该系统还可以包括决策支持模块，用于接收关于个体所具有的因素的输入，用于接收关于个体治疗方案的输入，用于将预测建模组件生成的模型中的至少一种应用于输入，并且用于输出结果，该结果指示个体在给定所选择的治疗方案的情况下出现临床结果中的一种的风险。

在这里所描述的用于开发和使用预测模型的主题可以作为包括嵌入在计算机可读介质中的计算机可执行指令的计算机程序产品来实现。用于实现在这里所描述的主题的典型计算机可读介质包括芯片存储器设备、磁盘存储器设备、可编程逻辑器件、专用集成电路和可下载电信号。另外，实施在这里所描述的主题的计算机程序产品可以位于单一设备或计算平台上，也可以分布到多种设备或计算平台。

附图说明

现在，将参考以下附图来说明在这里所描述的主题的优选实施例：

图1是根据在这里所描述的主题的实施例、用于开发和使用预测模型的系统的方块图；

图2是根据在这里所描述的主题的实施例的预测建模组件(modeler)的方块图；

图3是示出根据在这里所描述的主题的实施例、用于生成预测模型的典型步骤的流程图；

图4是示出根据在这里所描述的主题的实施例、在使用贝叶斯马尔可夫链蒙特卡洛方法后实现模型的各种预测因子的链收敛的一组图；

图5是示出根据在这里所描述的主题的实施例、用于生成预测模型的体系结构的典型步骤的流程图；

图6是示出根据在这里所描述的主题的实施例、将预测模型的体系结构应用于个体的族群的示意图；

图7是示出根据在这里所描述的主题的实施例、生成用于个体的族群的预测模型的体系结构的示意图；

图8A-8C是示出预测模型的体系结构应用于的个体的族群的风险评分的示图；

图9A-9F是根据在这里所描述的主题的实施例、可以由化学疗法解决方案模块显示的计算机屏幕截图；

图10A和10B是根据在这里所描述的主题的实施例、可以由冠状动脉手术解决方案模块显示的计算机屏幕截图；

图11是示出根据在这里所描述的主题的实施例的生物标志物验证的方块图；以及

图12是示出根据在这里所描述的主题的实施例、使用模型输出评分来选择最优治疗方案的决策树的示意图。

具体实施方式

图1是示出根据在这里所描述的主题的实施例、用于开发和使用预测模型的系统的典型构造的方块图。参考图1，系统包括预测建模组件100、生物标志物诱因确认系统102、以及一个或多个决策支持模块104-110。基于存储在临床数据仓库112中的临床数据，以及基于由生物标志物诱因确认系统102所确认的新的因素，预测建模组件100可以生成预测模型。预测建模组件100所生成的模型可以存储在预测模型库114中。预测模型库114也可以存储由模型导入向导116导入的模型。模型导入向导116可以导入来自临床文献和合作者的现有模型。

生物标志物诱因确认系统102可以从临床文献中自动提取生物标志物，并且将此数据存储在临床数据仓库112中，以供预测建模组件100使用。决策支持模块104-110可以应用由预测建模组件100所生成的模型，以为个体预测临床或医学结果。在所示的例子中，冠状动脉手术解决方案模块106使用模型来预测涉及冠状动脉手术的结果。化学疗法解决方案模块108预测涉及化学疗法的结果。决策支持模块104和110是通用的以便指示可以将预测建模组件100生成的模型应用于任何适当的临床或医学解决方案。可以由外科医生、内科医生和个体使用模块104-110，来预测患者的医学结果。决策支持模块的例子在下文中将做详细描述。

在一种典型实现方式中，预测建模组件100可以从隐藏于数据仓库112中的、关于个体族群的临床和分子数据生成模型，从而将该族群中的预测因素(预测因子)链接于临床结果。并行地，作为对于新患者的数据采集过程的一部分，生物标志物诱因确认系统102可以验证所测量的额外的生物标志物，即使在考虑到与其它因素的混杂或与其它因素的共线性之后，这些生物标志物仍是真正的预测因子(truepredictor)。然后，能够使用新验证的生物标志物生成更好的预测模型和决策支持模块。预测模型库114可以存储由预测建模组件100所生成的预测模型，或者经由用于手动输入来自文献的模型的模型导入向导116导入的预测模型，或者从用预测模型标记语言编写的其它应用程序中导出的预测模型。能够绑定几组模型来针对关键的临床决策，此临床决策取决于多种结果，并且为了最优成本效率需要测试和筛选阶段。

作为给定临床解决方案的一部分，决策支持模块例如模块104-110中的一个接收来自个体和诊断团队的有关个体所具有的因素的输入和有关潜在介入(intervention)的输入，并且将在预测模型库114中的至少一种模型应用于该输入。给定了个体因素和所选择的介入策略，决策支持模块就输出指示个体出现临床结果之一的风险的结果。决策支持模块自动构建概率和成本效率决策树，此决策树允许用户快速选择可能最有益的介入策略或可能成本效率最高的介入策略。这种决策树的例子将在下文中参考图2做详细描述。

图2是示出预测建模组件100所使用的典型部件和数据的方块图。参考图2，预测建模组件100包括用于验证来自各种来源的临床数据的数据验证模块200。数据清理模块202清理来自各种来源的数据。数据聚类预处理模块204将数据处理成预测建模组件可使用的格式。在所示的例子中，将数据格式化成统一的数据矩阵206。在所示的例子中，将统一的数据矩阵206排列成其行与患者或样本对应并且其列与因素对应。基于用户所限定的因素，例如预测值和成本，模型选择和求平均模块208从多个模型中选择一个模型。模型选择和求平均的结果是一个或多个能够用于为患者预测医学结果的模型。模型选择和求平均模块208也可以接收关于定制数据群(tailored datacohort)210的数据，并且使用此数据更新一个或多个模型。仪表板和跟踪器212包括允许医生和/或患者访问模型并且使用模型预测医学结果的接口。

在图2所示的例子中，预测模型100接收来自多种不同来源的临床数据。在所示的例子中，这些来源包括来自临床数据群216的临床数据214、基因型和SNP 218、基因表达数据220、蛋白质组数据222、代谢数据224以及成像或电生理数据坐标226。这些坐标可以来自乳房X线摄影术、计算机轴向断层扫描、核磁共振成像、心电图、脑磁描记术、脑电图法和功能性核磁共振成像源。

图3是示出用于自动生成将用户选择的因素链接到用户选择的结果的预测模型的典型地族群步骤的流程图。参考图3，在步骤300中，从多种不同来源获得关于个体族群的临床数据。临床数据包括与这些个体有关的不同身体因素和人口统计学因素以及这些个体的多种不同结果。在步骤302中，接收有关搜索空间的用户输入，此搜索空间包括链接因素的不同组合和至少一种结果的模型。在步骤304中，基于这些模型的预测值，在搜索空间内执行对这些模型的关于结果的搜索。在步骤306中，对模型进行处理，以生成将所述因素的组合中的一种链接到所选择的结果的最终模型。最终模型指示具有最终模型中的因素的个体出现所述结果的可能性。

预测模型所预测的结果可以是涉及个体、个体的族群或健康护理提供者的任何适当的结果。例如，该结果可以是疾病结果、不良结果、临床试验结果或健康护理相关的商业结果。疾病结果的例子是关于个体是否患有特定疾病，或者是否有可能发展为所述疾病，和在给定治疗方案的情况下的存活时间的指示。不良结果的例子包括涉及手术(例如冠状动脉手术)或医学治疗(例如化学疗法)的不同并发症。临床试验结果的例子包括与服用新药有关的效果或不良反应。健康护理相关的商业结果的例子是为个体提供护理的成本。

一旦生成一个模型或一组模型，就可以处理此模型或此组模型，以减少对从中生成此模型或此组模型的个体族群的过拟合。例如，使用从超出最初的族群范围的个体采集的因素数据，可以评价和修正该模型。生成所修正的模型的过程可以类似于在这里所描述的用于生成所述最初的模型的那个过程。

正如在下文中所详细描述的，模型和结果可以用于提供健康护理相关的决策支持。例如，决策支持模块104可以输出与所提出的治疗方案有关的一组潜在的结果以及与每种结果有关的概率或风险评分。此组潜在的结果可以按疾病或治疗类别进行排序。可以由决策支持模块104生成的其它结果包括过去为所述患者分析的结果和治疗建议、新的结果和建议以及尚未分析过的结果。除了使用最终模型为个体预测结果之外，决策支持模块104可以生成整个亚群出现结果的风险与整个族群出现结果的风险的统计学比较。

数据准备和上传

预测建模组件100可以使用非标准化格式的临床数据以及标准化格式的临床数据，来生成预测模型。为了合并到预测建模组件100或其它任何类型的软件中，必须仍然审查存储在缺乏术语标准或XML输出的数据库中、excel电子数据表及纸质记录中的较旧数据集，以保证数据质量、一致性及标准的术语和格式。然而，一些数据集包含具有根据一体化医学语言系统(UMLS)编写的标准术语的数据，UMLS包括SNOMED，并且能够以预测模型标记语言(PMML，基于XML)和可扩展标记语言(XML)传输安全加密数据。以这种方式对所传送的数据进行标记，这允许基于新的因素(即，在然后对于SNP分析来自患者群体的血液样本的情况下)或新的患者数据(在2005年到2010年的期限中，进入到该群体中的10名新患者)，自动重新计算模型。

在对预测模型项目进行初始设置时，指导统计系统管理员或临床研究员可以选定在正在进行的动态建模过程中所要选择的因素和患者标准，并且可以自动生成数据库，以从数据集214-226提取该信息。此用户可以选定他/她是否希望在数据分析矩阵206中包括具有某种因素的缺失数据的患者。

为了使用预测建模组件100进行统计分析，将数据转换并重新组织成标准框架。准备好的输入是包含“n”行和“p”列的文本文件，在这里，n为患者的数量，而p为数据集中变量的总数。在该过程中，变量被重新标识并且转化成数值(例如，将性别重新编码为0/1以代替男/女)，而在审慎的地方实现数据转换(例如对诸如年龄的连续变量取自然对数)。在这个标准数据矩阵中，既分析连续数据集又分析离散数据集。

数据预处理(基因表达数据举例)

由于基因表达数据可能增加，将Affymetrix微阵列(microarray)描述文件上传到预测建模组件100中。利用.cel文件和特定芯片信息作为输入，预测建模组件100利用可在R(http://www.r-project.org/)bioconductor封装(http://www.bioconductor.org/)中得到的工具，使该数据转换为RMA或MAS 5.0表达水平(数值刻度)。然后，将数据变换成以2为底的对数刻度，其满足分位数标准化(quantilenormalization)。从数据集中过滤掉低水平表达和低水平变异的基因。在这点上，将基因表达数据展开成“n”乘“p”(患者乘基因)的矩阵。

仍然作为基因表达数据预处理的一部分，实现维度减少步骤。通过基因的线性组合建立基因组因素。首先，将基因聚类成(k均值聚类算法)“k”(k<p)组。从每个聚类提取第一主成分(first principalcomponent)(PCA)，对在此组中的基因活性的最重要特征进行总结。第一主成分是具有最大改变的线性组合。通过对表达水平的矩阵进行奇异值分解，获得该主成分，在这里，

X＝ADF

X是“n”乘“p”维的矩阵。F是具有X的主成分的矩阵。最后，建立“n”乘“k”(患者乘基因因素)的矩阵。使来自此矩阵的数据与已经预处理过的，或不需要数据减少步骤的其它因素“f”结合。从如下所描述的“n”乘“f”的最终矩阵中开发得到模型，此矩阵可以包括在“k”之中的复合基因表达因素，也可以不包括。在用于腺癌存活时间的一个典型模型中，复合基因表达因素350、59和44被包括作为在拟合过的模型中的关键因素。每种复合基因表达因素代表大约5种基因，能够通过将其Affymetrix、Agilent或其它探针识别数字关于基因和蛋白质名字链接到标准数据库来命名这些基因。

缺失数据准备

标准方法可用于缺失值的归因(imputation)。例如，可以进行完整的病例分析，其中，从该分析中删除对于特定变量带有缺失值的主题。可选择地，可以插入对于给定预测因子的所有其它主题值的平均值，用作该变量的缺失值；替代平均值的，可以使用基于利用其它值的预测值。对于分类变量(包括二进制因素)，能够将缺失值认为是额外的分类(如，男、女、缺失)。先前已经讨论了这些不同方法的优点和缺点。

时间序列预处理

标准概述方法可以用于对数据进行时间序列预处理。例如，能够使用纵向跨越所有结果轨迹的平均值。可选择地，根据先前对于纵向数据分析描述的方法，可以使用混合模型。

模型搜索

将探索可能模型的空间，可能模型将明确定义的不良结果链接到在数据集中可得到的变量。目标是发现具有很高预测能力的模型。在这个步骤中将使用两种不同技术，每种技术都与两种不同的选择准则配对。在一种典型实现方式中，对于数量足够小的可能预测变量(最多为15个)，使用枚举法比较所有2p个可能的模型。预测建模组件100列出所有可能的模型，并且对于它们中的每一种计算预测评分。当说明变量的数量增加时，枚举所有可能的模型是不可行的，并且需要搜索方法。

在大维度问题(大量的可能预测因子)中，预测建模组件100执行以向前/向后的方式搜索模型空间的逐步方法。从无效模型(没有预测变量的模型)开始，每一个步骤都将通过增加一个变量而生成的所有模型的预测评分与通过删除一个变量而生成的所有模型的预测评分相比较。例如，如果在数据集中有300个变量并且当前模型具有3个预测因子，那么下一个步骤将在297个具有一个以上变量的可能模型和3个具有一个以下变量的模型之中进行选定。搜索移动到该组中的最佳模型。通过数次地重复这个过程，比较许多组的模型。这是确定性的贪婪搜索(greedy search)，其中在每一个步骤中算法都移动到可能的最佳选项。可选择的随机搜索方法也是可用的。在这种情况下，在每一个步骤中，计算一组邻近模型，并且按与每一访问模型的预测评分成比的概率随机决定移动。能够以不同的开始点并行地实现在这里所描述的所有搜索方法，以改善对模型空间的探索。

最后，预测建模组件100输出一列模型和各自的预测评分。随后，以样本外预测、成本效益、特异性/选择性等为基础比较最佳的模型。

选择准则/预测评分评估：在上述的模型搜索方法中可以使用两种选择准则：Akaike信息准则(AIC)和贝叶斯信息准则(Bayesianinformation criteria，BIC)。根据如下计算这两种准则：

Score = - 2 Σ_{i = 1}^{N} \log (p (y_{i} | θ)) + Kp

即模型对于所有N个观测结果的对数似然值的负二倍加上K倍的模型中参数的数量(参数矢量θ的大小)。

在AIC选项中，罚值(penalty)K等于2，而在BIC中，其等于log(n)。BIC在维数方面强加了更高的罚值，因此选择了比AIC选项更节省的模型(parsimonious models)。在不偏离在这里所描述的主题的范围的情况下，预测建模组件100能够使用可选择的罚值。

模型拟合

对在先前所描述的步骤中所选择的模型进行贝叶斯估计。通过对参数利用标准的无信息先验，实现马尔可夫链蒙特卡尔(MCMC)方法，以探索模型中参数的后验分布。来自参数的联合后验分布的样本总结了所有可用的推论性信息，需要这些信息来建立点估计和置信区间。对于事件结果(生存模型)出现的时间，利用根据以下规范的Weibull生存模型对数据进行建模：

f(y|α，λ)＝αy^α-1exp(λ-exp(λ)y^α)

λ = Σ_{i = 1}^{p} β_{i} X_{i}

Y是事件出现的时间，α、λ和β是参数。

在疾病状态(二进制结果)的情况下，使用根据以下规范的对数模型：

p(y|θ)＝θ^y(1-θ)^(1-y)

\log (\frac{θ}{1 - θ}) = Σ_{i = 1}^{p} β_{i} X_{i}

其中Y是0/1的疾病状态，θ和β是模型的参数。

一个示例结果是包括以下因素的模型：

复合基因因素350、复合基因因素44、复合基因因素59、T(肿瘤大小)、N(有肿瘤的淋巴结数量)和K-ras(根据免疫组织化学染色对K-ras蛋白呈阳性的肿瘤细胞)。

数据质量检查

许多数据检查可以用于评定缺失数据、数据分布以及模型拟合的质量。后者的一个例子是链收敛，如相对于在最佳预测模型中的预测因素所显示的那样。利用贝叶斯MCMC方法，链收敛评定对于模型的参数估计是否适当。在图4中的图示出了参数估计值的分布(左侧)以及模型拟合步骤是否已经适当地收敛(右侧)。

预测的准确度

使用留一(leave-one-out)交叉验证法、测试和训练集以及自举法(bootstrapping法)检查所选择的模型中的每个的预测性能。在每一个步骤中，对于一个样本或部分样本不进行估计，并且在模型拟合之后对其进行预测。然后，可以通过生成受试者工作特征曲线(ROC)并且通过计算协同指标(concordance index)(c-指标)评价该预测算法。识别可能的敏感性最高(低假阴性)和特异性最高(高真阳性)的预测模型。

模型管理

●模型结果存储

○PMML或标准XML格式的自举法、留一交叉验证法和模型训练的输出

○将输入数据与通过数据库密钥链接的模型生成表格链接

■模型表格包括关于预测准确度的数据(c-指标、敏感性、特异性数字)、合计因素成本、获得评分(procurement score)的合计因素风险以及其它度量。

●等级评定和排序

○通过预测准确度的主要等级评定(c-统计)

○利用诸如成本、获得风险(诊断测试的风险)和其它的因素特点的值的次要等级评定。

预测建模组件100的特征

预测建模组件100可以作为正在进行的组装线自动处理临床数据，并且动态更新聚焦于最优预测的预测模型。已经仔细地研究了为建立预测模型而设置的这种“工厂线”数据分析的一些组成，例如基因表达分析、各种模型搜索和选择方法、贝叶斯模型拟合参数、模型求平均的正确性和有效性，然而，没有任何解决方案是可得到的，该解决方案：

●为决策支持工具自动生成模型，决策支持工具能够预测定时(在时间数据可用的时候)和具有置信区间的事件的概率，从而以定量而可说明的方式表示不确定性

●为了自动模型搜索将需要不同预处理步骤的异构数据集自动整合到因素数据矩阵中，例如

○人口统计学信息(年龄、性别)

○简单的实验室测试(如，胆固醇)

○传统的临床诊断和病史(如，医生的放射学解释、糖尿病的Dx等)

○SNP基因型数据(对显性-显性、显性-隐性、隐性-隐性和特定SNP亚型的按类别划分)

○对于稀有亚单位重复失调(如，亨廷顿舞蹈病)的亚单位重复的基因型数量；当预防性治疗可用于这种失调时，将使用这种工具

○基因表达数据、蛋白质组数据(包括抗体和细胞因子(cytokines))或代谢数据

■在去除低表达和未改变基因(non-varying gene)之前，利用MAS 5.0方法，即以2为底的对数变换和分位数标准化，准备大容量分子数据集，例如Affymetrix微阵列数据。通过在主成分分析(PCA)之前进行k均值聚类算法实现数据减少以允许有效的模型搜索。然后，沿着作为模型开发的一部分的给定结果的其它潜在预测因子比较这些复合因素

○通过自动峰值识别、与公知蛋白质库比较、聚类以及对这种蛋白质的主成分分析而获得的质谱学指纹和蛋白质数据

○心电图(EKG)数据，其中自动探测EKG特点，如ST段抬高(STE)、ST段下移(STD)、病理性Q波(PQW)以及T波倒置，并且它们的频率被总结并被评分，以用作预测因素(经常用于心脏病症，例如心绞痛)

○能够被总结并被评分用作预测因素的脑磁描记术(MEG)、脑电图法(EEG)和功能性核磁共振成像(fMRI)数据点(最常见的是用于脑部病症例如癫痫)

○也能够通过数值网格上的点来表示解剖学成像信息例如超声心动图、MRI、CAT扫描、乳房X线摄影术和X-射线，并且像差的大小和频率(如，在乳房中通过乳房X线摄影术探测到的钙化点)能够用作预测因素

○在模型搜索方法中的时间序列信息(即，每日葡萄糖读数或对在心肌梗塞后出现的肌酸激酶-MB、肌钙蛋白I、肌钙蛋白T和其它心肌标志物的短期测量或在多个时间点收集的以上类型的数据中的任何一种的时间序列)

○使患者家、工作以及其它常见场所与开放源数据集和其它已经使用全球信息系统地理编码(geocode)了这种因素的登记处中的各种环境风险因素相关的环境数据(即，你家中和工作地的铅水平)

●自动搜索和选择过程，其利用整合的数据和上传的结果，并且当通过与自动的样本之外的数据集进行比较(当数据可得到的时候)而避免过拟合时找到准确度最高的模型

●能够使用多种模型搜索技术(逐步式、有限变量的枚举法、使用并行计算的随机搜索法)和选择准则(Akaike信息准则或贝叶斯信息准则)，这些模型搜索技术和选择标准都可以同时运行，并且最终的目的都是为了找到最精确的预测模型。在得知不良结果时使用贝叶斯Weibull模型拟合方法，并且交叉验证法生成预测，以评估预测的准确度(在受试者工作特征曲线下的面积)、敏感性和特异性

●在各种设置下执行排序的时候，不但使用预测的准确度，而且使用上传的因素信息例如关于个体的因素测试的成本和风险，对模型进行多种排序；这就允许自动选择模型，其在将保险公司、医生和患者的成本减至最小，并将正在进行诊断的患者的风险减至最小的同时满足高准确度的特定Proventys标准阈值

●对预测准确度的自动基准分析，其利用样本外族群在更广泛的族群和特殊患者子群范围内(当数据可得到的时候)评估有效性

●决策树的建立，其利用贝叶斯拟合方法，根据每次一种因素的差异将患者分群；利用决策支持模块104，基于输入到系统中的各种新类型的新信息查询关于结果概率的问题，从而能够由医生或患者本人动态地实现这种决策树

●在没有手动预筛选的情况下，自动地合并用标记有标准XML字段名或PMML数据的新患者信息

●动态地合并新的数据，以在正在进行和实时的基础上，增加样本大小，以便提高模型质量和验证新的族群和子群的准确度

●使用标准的传输标准，其利用PMML和XML促进与其它软件包的通信以及与管理机构例如FDA的通信

●显示用于统计员系统管理员的“仪表板”，对于多种模型、多种疾病和多种场所，审查在一大组新患者数据和在实时和正在进行的基础上建立的新的模型上自动生成的质量控制检查点。在正在进行的基础上，仪表板有助于在使用改进的模型或以标准的格式传输到管理机构之前，使统计系统管理员的角色作为最终质量控制检查点

●预测建模链接到决策支持系统并且给其供电，其包括以下输出：

○对了患者分析和预测的一组结果

■列表显示出过去分析过的结果、这次分析的新结果以及未分析的结果；根据疾病和治疗分类来组织

○每种结果计算的日期和参与每种计算的因素数据及它们的取得日期(取得例如血液的日期样本或分析的日期样本)

○在固定的时段内发生并且具有置信区间的事件(该结果)的概率

○对于固定的发生概率具有置信区间的事件的定时

○在美国和/或地理和/或卫生系统和/或医疗中心和/或诊所中和/或在医生或卫生队的患者平台(patient panel)中，比较患者与该族群的其余部分和该族群的亚类(例如按照种族、性别等)的风险概率的图

○个性化健康计划

■显示了通过改变包含在模型中并显示出的各种因素能够减轻多少风险(能够减少不良结果的概率以及能够延长事件发生的时间)的图，其是患者能够改变的(例如直接的行为因素—如，吸烟或不吸烟，或间接的实验室值例如LDL胆固醇)

■给医生提供输送给患者的治疗建议

■直接用于患者的治疗建议

■显示出目标风险、目标定时，以及改善或改变消极因素以便这些消极因素不再显著地导致不良事件的概率的方法；也肯定积极因素的维持

■显示上述所有类型的信息随时间的情况。对于收集的具有不同频率的因素(例如基于每日的平均值的每月血糖，而不是每年的胆固醇)，保留最近的任何因素，并且重新计算；输送对于改善风险评分的肯定

■患者教育—描述预测事件和诊断出的疾病的潜在病因，并且利用文本和使用由NIH资助的可视人体解剖项目的映射进行显示

■能够经利用ASP的互联网显示；患者可以经过利用在线问卷的网络、可扫描的纸质记分卡和调查，或者电话输入新的数据，并且可以经在计算机、PDA、移动电话或其它可联网的装设备上的网页查看更新过的个性化健康计划和健康跟踪(数据随时间变化的情况)

○总结报告

■关于合计的患者平台的风险相对于族群和各种亚群对于各种结果的风险的总结统计

■在特定的一天增加新的患者后，更新模型参数和临床因素；突出新的因素作为对于疾病生理或卫生防护的潜在贡献因子(contributor)

■审查显示出对于各种结果落入低、中、高风险分类的患者平台，以及每位患者的上次和下次约见、当前的个性化健康计划建议及治疗和诊断监视方案。为了进一步审查，标记出还未查看的或没有适当介入的高风险患者

预测建模组件100和/或决策支持模块104可以执行以上所列出的功能中的任何一种。

生成用于预测医学结果的模型的体系结构

如以上在发明内容中所述，在这里所描述的主题的一方面包括生成用于预测医学结果的模型的体系结构。图5是示出可以用于生成用于预测医学结果的模型的体系结构的、由预测建模组件100所使用的典型步骤的流程图。参考图5，在步骤500中，获得对于个体族群的临床数据。在步骤502中，识别与族群有关的、指示结果的因素。在步骤504中，基于医学结果，生成多种预测模型。在步骤506中，基于相关的预测值和与将每种模型应用于个体有关的至少一种额外的度量，以分等级的方式排列模型。该额外的度量可以是用于判定个体是否具有特定因素的个体的或者组织的货币成本。在另一个例子中，该额外的度量可以是与进行测试以判定该个体是否具有该因素有关的个体的风险。该额外的度量可以是用于以分等级的方式排列和应用预测模型的除预测值之外的任何适当的因素。

图6是示出在临床风险评分中模型的体系结构的典型使用的示意图。在图6中，圆锥600表示可以由预测建模组件100生成的预测模型的体系结构。圆形602表示对于出现特定结果具有高、中和低风险的个体。在该体系结构中的第一级别604表示基线健康风险评估。预测建模组件100可以为这个级别生成模型，此模型具有低预测值，并且基于相对廉价或低风险获得的因素。应用基线健康风险评估的结果是缩小通到下一级别的个体的族群。级别606表示重新限定的风险评估，其具有与基线健康风险评估相比稍微多的预测值，以及稍微增加了与获得因素有关的成本或风险。在级别606应用模型的结果是得到族群的更小子集，对这些更小子集进行全面的风险评估。级别608表示全面的风险评估，其包含具有最高的预测值，但在获得这些因素时具有最高成本和风险的因素。应用全面的风险评估608的结果是在族群中识别出高风险的个体。

图7是示出使用多种模型用于分等级筛选以识别患有前列腺癌的个体的例子的示意图。再者，在图6中，圆形602表示个体的族群。在图7中，模型的体系结构以决策树的形式显示。更具体地，椭圆700表示基线风险评估模型，椭圆702表示精确的风险评估模型，而椭圆704表示全面的风险评估模型。如在图6中所示的例子，当达到体系结构的较低级别的时候，模型的预测值和成本都增加。

图8A-8C示出了在图6和7所示的基线风险评估模型、精确的风险评估模型和全面的风险评估模型之间的特异性差异。更具体地，图8A示出了基于基线风险评估的对于族群的风险评分的分布，图8B示出了对于重新限定的风险评估的风险评分的分布，而图8C示出了对于全面的风险评估的风险评分的分布。

如上所述，图1所示的系统可以包括决策支持模块，其应用预测模型，生成多种结果并且评价关于结果的不同治疗选项的功效。图9A-9F是根据在这里所描述的主题的实施例可以由决策支持模块提供的典型用户界面和功能的计算机屏幕截图。参考图9A，给出了用于化学疗法解决方案模块108的患者信息屏幕的计算机屏幕截图。化学疗法解决方案模块的用途是评价并且给出与特定化学疗法方案有关的结果。在图9A中，获得个体的年龄、人口统计学信息和实验室测试信息。个体还被提示关于个体是否愿意参加临床研究以帮助新的生物标志物的验证。如果个体选择了“是”，那么个体就可以得到用于参与生物标志物验证的适当的同意书，并且适当的命令将被发送到将执行生物标志物验证所需要的测试的实验室。

响应接收来自图9A的数据输入屏幕的“Next”按钮上的点击，如图9B所示，化学疗法解决方案模块108可以为用户提供命令并执行测试屏幕。在图9B中，命令和确认测试屏幕包括在图9A中命令的实验室测试和给患者的指示。当用户点击了“确认命令并且打印患者材料”时，化学疗法解决方案模块108命令来自实验室的所选择的测试。

如图9C所示，可以由化学疗法解决方案模块108提供的下一个屏幕是初始风险评估屏幕。在图9C中，初始风险评估屏幕显示个体的实验室数据。另外，风险评估屏幕包括临床决策仪表板，其指示个体发展为发热性嗜中性粒细胞减少症的风险作为化学疗法方案的结果。仪表板显示与化学疗法方案有关的药物和每种药物的剂量。药物和剂量可由用户修改。如果用户修改了药物或剂量，那么化学疗法解决方案模块108将自动对个体发展为发热性嗜中性粒细胞减少症的风险进行重新计算。另外，仪表板允许用户修改治疗命令或增加G-CSF药物。响应于这些动作中的每项，化学疗法解决方案模块108将重新计算个体发展为发热性嗜中性粒细胞减少症的风险。因而，图9C所示的仪表板为医生或患者提供了方便的用于评价不同结果和治疗选项的方法。

图9D示出了典型的修改治疗计划屏幕，如果用户修改了图9C所示的药物治疗中的任何一项，那么可以由化学疗法解决方案模块108显示此屏幕。在图9D中，可以看到的是，作为改变仪表板所显示的药物中的一些的剂量的结果，个体发展为发热性嗜中性粒细胞减少症的风险已经从27％降低到10％。

图9E示出了用于不同个体的修改治疗计划和风险屏幕的另一个例子，此屏幕可以由化学疗法解决方案模块108显示。在所示的例子中，对于给定的化学疗法方案，个体发展为发热性或重度嗜中性粒细胞减少症的风险低。因而，即使增加G-CSF药物将会减小个体发展为发热性或重度嗜中性粒细胞减少症的风险，假定这种药物是昂贵的，增加G-CSF药物的成本也不很划算。

从初始风险评估或修改治疗计划屏幕中，用户可以选择“使你的患者的风险评分相对模型族群可视化，关于用于生成风险评分的模型学习更多”，并且化学疗法解决方案模块108将显示个体的风险相对模型族群和模型细节的比较。图9F示出可以由化学疗法解决方案模块108显示的这种比较屏幕的例子。在图9F中，以图表或文本格式给出个体发展为发热性或重度嗜中性粒细胞减少症的风险相对于族群的比较。另外，显示了用于生成风险评分的模型的来源。

一旦用户从初始风险评估或修改治疗计划屏幕选择“确认治疗命令”按钮，如图9F所示，化学疗法解决方案模块108显示确认治疗命令屏幕。在图9F中，显示了医生所选择的药物和剂量。也显示了与所选择的方案有关的发展为发热性或重度嗜中性粒细胞减少症的风险。

如图1所示，可以由系统100提供的决策支持模块的另一个例子是冠状动脉手术解决方案模块106。冠状动脉手术解决方案模块106的用途是帮助个体评价不同的冠状动脉手术选项。图10A是根据在这里所描述的主题可以由冠状动脉解决方案模块106显示的典型的患者信息屏幕的计算机屏幕截图。参考图10A，患者信息屏幕包括用于接收关于患者的冠状动脉相关信息的输入字段。患者信息屏幕还包括允许用户将在输入字段中的信息与患者的EHR同步的按钮。一旦输入了所有信息，用户就可以选择“Next”，以选择需要命令的任何测试。然后，用户可以进入初始风险评估屏幕。这些屏幕可以显示类似于上述的用于化学疗法解决方案模块108的信息。因此，在这里将不重复以上的描述。

如同化学疗法解决方案模块106，冠状动脉手术解决方案模块108可以显示与不同治疗方案有关的风险评分，接收来自用户的输入以修改治疗方案，并且基于修改过的治疗方案自动更新风险评分。图10B是示出了可以由冠状动脉手术解决方案模块106显示的典型的修改治疗计划和风险屏幕的计算机屏幕截图。参考图10B，该屏幕包括与多种不同结果有关的风险评分和置信区间，所述结果与用于个体的冠状动脉旁路手术以及给定的药物治疗组有关。正如化学疗法解决方案模块，用户能够选择不同的治疗，并且冠状动脉手术解决方案模块106将自动更新各种结果的风险评分。这种工具允许医生和患者基于患者的风险容忍度选择最优治疗方案。

如上所述，图1所示的系统的一种功能是生物标志物诱因验证。图11是示出根据在这里所描述的主题的实施例的生物标志物验证的方块图。参考图11，生物标志物诱因验证系统102包括通过自动搜索科学文献和数据库接收潜在生物标志物的生物标志物诱因库。生物标志物诱因验证系统102还存储其诱因已经由预测模型生成组件100验证了的生物标志物。专家假定应该验证哪个潜在生物标志物。决策支持模块104获得患者的同意，并且命令用于判定患者是否具有潜在生物标志物的测试。在预处理之后，将潜在生物标志物提供给预测建模组件100。预测建模组件100通过生成包括新的生物标志物的模型并且判定生物标志物是否具有预测值，来验证生物标志物诱因。

可以分两个阶段—生物标志物识别和生物标志物验证进行生物标志物诱因验证。生物标志物识别可以包括从生物证据(生物医学和基础科学文献及生物信息学基因和神经传导疾病(pathway disease)库)自动提取潜在生物标志物，并且录入到生物标志物诱因库中，以便进行由临床专家委员会所批准的审查和临床测试。

可以在患者身上使用决策支持模块104进行生物标志物验证。通过嵌入在决策支持模块104中的工具，能够在临床护理系统中录入所批准的潜在生物标志物(新的诊断测试指导(lead))，以促进患者同意书(纸质的或电子的)的发送和检索，并且促进将标准的和秘密的实验室命令和结果发送到实验室和从实验室发送其(电子的和/或纸质的)。例如，在图10A中的“临床发现”实验室部分便于容易地立刻发命令给所有实验室。

一旦采集到潜在的生物标志物数据，就必须相对于预测值、成本等分析数据。可以由预测建模组件100执行这种功能。预测建模组件100所执行的数据分析可以包括新模型的构建，以验证作为关于感兴趣结果的预测因子的这些潜在生物标志物的统计学意义，在考虑到与其它因素混杂或与其它因素的共线性的情况下，数据分析还可以包括线性模型的预测因子和结果正态性的评估、剩余部分正态性的评估和局外部分以及自举的评估以帮助排除假阳性结果(验证过的诱因生物标志物、将具有临床和统计学意义的那些移动到生物标志物诱因库的已验证部分中；现在可以用于开发新的预测模型，或用作独立测试，并且能够用作用于开发新的分子治疗试剂的目标或指导，注意，也能够根据因素评估有效的修改)。

临床例子：化学疗法和嗜中性粒细胞减少症

1)生物标志物验证

生物标志物诱因验证系统102对于感兴趣的结果(如，贫血症、化学疗法)搜索医学文献(即，Medline)和基因组-疾病协会数据库(如，OMIM—在线人类孟德尔遗传数据库)，采集关于从分子信息数据库(如，基因、基因组、SNP等)中发现的潜在生物标志物的额外的数据，并且将数据存储在生物标志物诱因库的潜在生物标志物部分中。以下是可以由生物标志物诱因验证系统102识别的结果和潜在生物标志物的例子：

葡萄糖-6-磷酸脱氢酶；包括由于G6PD缺乏引起的G6PD贫血症、非血球型溶血

基因图位点(gene map locus)：Xq28

先天性的、血栓性血小板减少性紫癜；TTP

基因图位点：9q34

乳腺癌2基因；包括2型的BRCA2乳腺癌

基因图位点：13q12.3

包括Nijmegen破损综合征、Berlin破损综合征；包括BBS

基因图位点：8q21

X连锁淋巴组织增生综合征

基因图位点：Xq25

A组着色性干皮病；XPA XPA基因

基因图位点：9q22.3

一旦已经识别出潜在生物标志物，然后图11所示的临床专家委员会能够查看全部候选名单，并且选择一种或多种值得在验证阶段(在下文中的阶段2)中投入测试的生物标志物(分子因素：基因、蛋白质等)。对于这个例子，假设临床专家委员利用在使用了决策支持模块104的临床护理的上下文中的预期群体，选择G6PD突变作为值得验证的生物标志物；然后，将由于化学疗法可能导致贫血症的G6PD基因的变种移动到生物标志物诱因库的假设的生物标志物部分(这可以是对人的G6PD等位基因的基因型测试；在其它例子中，委员会可能需要基因表达测试、蛋白质组测试等)。

2)生物标志物验证

a)研究指导：生物标志物诱因验证系统102的用户获得机构审查委员会对正在进行护理/研究的机构的批准。医学助手/医生阐明在临床研究中的困难，以及关于外周血液/组织将如何用于评估这些当前做出临床决策所不需要但将来可以提高决策水平的额外的生物标志物的细节。系统102做出“临床发现”简单测试的命令(在化学疗法解决方案屏幕的右下方的方框)。在第三个屏幕上，系统102然后可以通过电子签名储存知情同意书的批准，或输出患者能够审查、签名或提交的PDF或纸质的知情同意书。实验室操作指南能够被打印和/或发电子邮件给患者(或者在其患者入口处审查)。实验室数据以电子的方式发给实验室或从实验室发出。

b)数据分析(生物标志物诱因数据分析)：构建新的模型以验证这些作为感兴趣的结果的预测因子的潜在生物标志物的统计学意义，在考虑到与其它因素混杂或与其它因素的共线性的情况下，对于线性模型评估预测因子和结果的正态性，评估剩余部分正态性，并且评估局外部分和自举，以帮助排除假阳性结果(验证过的诱因生物标志物、将具有临床和统计学意义的那些移动到生物标志物诱因库的已验证部分中；现在可以用于开发新的预测模型，或用作独立测试，并且能够用作用于开发新的分子治疗试剂的目标或指导，注意，也能够根据因素评估有效的修改)。

决策支持例子

如上所述，决策支持模块104可以自动地将来自多种模型的评分合并到决策树中，以使个体能够选择最优介入策略。图12示出了这种决策树的例子。在图12中，决策树包括对应与发热性嗜中性粒细胞减少症有关的结果的分支。在图12中的分支只是整个决策树的一部分，此部分涉及许多利用预测建模评价治疗策略的方法中的一种方法。为了简化，其它分支没有显示，例如对患者不测试并且不治疗的分支或对患者不测试但治疗的分支。在每个分支上的％符号相应于与每个分支有关的概率。#符号表示质量调整生命年。为了对每个分支评估总的受益和成本，就要将总的成本和总的受益乘以每个分支的概率。在每个分支中的圆形的意思是，对于子分支计算的值应该增加。通过所有成本除以所有受益，能够对于每个分支计算成本/受益比。然后，能够比较分支以决定最优介入策略。从决策支持模块104所使用的预测模型输出的概率可以自动地合并到决策树中，例如图12所示的那个决策树，以评价不同的结果和治疗策略。

应该理解的是，在不脱离本发明的范围的情况下，可以改变本发明的各种细节。此外，以上描述只是为了说明，而不是为了限制。

Claims

1、一种用于自动生成将用户所选择的因素链接到用户所选择的结果的预测模型的方法，所述方法包括：

(a)获得来自个体族群的多个不同来源的临床数据，所述临床数据包括关于所述个体的多个不同身体因素和人口统计学因素，以及所述个体的多个不同结果；

(b)接收关于搜索空间的输入，所述搜索空间包括将所述因素的不同组合和至少一个所述结果链接的若干个模型；以及

(c)响应于接收所述输入：

(i)基于所述模型关于所述结果的预测值，在所述搜索空间内对模型进行搜索；以及

(ii)处理在步骤(c)(i)中所识别的所述模型，以产生将所述因素组合中的一个链接到所述结果的最终模型，其中所述最终模型指示在所述最终模型中具有所述因素的个体将出现所述结果的可能性。

2、根据权利要求1所述的方法，其中，获得来自多个来源的临床数据的步骤包括获得以下项目中的至少两个：既往病史，社会和生活方式数据，体检信息，自己报告的人口统计学信息，通过环境全球信息系统数据库生成的人口统计学数据，基因型和SNP信息，基因表达信息，包括抗体或细胞因子数据中的至少一个的蛋白质组信息，代谢信息，质谱信息，来自X射线、乳房X线摄像术、计算机轴向断层扫描(CAT)、核磁共振成像(MRI)、心电图(EKG)信息、脑磁描记术(MEG)、脑电图法(EEG)和功能性核磁共振成像(fMRI)信息的成像坐标。

3、根据权利要求1所述的方法，其中，接收输入的步骤包括接收来自用户的输入。

4、根据权利要求1所述的方法，其中，接收输入的步骤包括经由至用户输入因素数据的计算机软件的直接链接来接收。

5、根据权利要求1所述的方法，其包括在执行所述搜索之前，预处理来自所述不同来源的所述临床数据。

6、根据权利要求5所述的方法，其中，预处理所述临床数据的步骤包括使所述临床数据标准化。

7、根据权利要求5所述的方法，其中，预处理所述临床数据的步骤包括从所述临床数据中去除未改变值。

8、根据权利要求5所述的方法，其中，预处理所述临床数据的步骤包括在所述临床数据中减少所述因素的数量。

9、根据权利要求8所述的方法，其中，在所述临床数据中减少所述因素数量的步骤包括利用k均值聚类识别因素值的聚类以及奇异值分解，从而选择每个聚类的主成分，所述主成分具有代表所述聚类的值。

10、根据权利要求1所述的方法，其中，对所述模型进行搜索的步骤包括利用所有可能模型的有限因素的枚举法。

11、根据权利要求1所述的方法，其中，对所述模型进行搜索的步骤包括利用逐步式搜索方法。

12、根据权利要求1所述的方法，其中，对所述模型进行搜索的步骤包括利用随机搜索方法。

13、根据权利要求1所述的方法，其中，对所述模型进行搜索的步骤包括利用Akaike信息准则来为每个所述模型选择并分配评分。

14、根据权利要求1所述的方法，其中，对所述模型进行搜索的步骤包括利用贝叶斯信息准则来为所述模型选择并分配评分。

15、根据权利要求1所述的方法，其中，处理所述模型的步骤包括利用受试者工作特征曲线(ROC)来评价所述模型的预测准确度。

16、根据权利要求15所述的方法，其中，利用受试者工作特征曲线来评价所述预测准确度的步骤包括利用在所述曲线下的面积、协同指标以及每个模型的敏感性和特异性来评价所述预测的准确度。

17、根据权利要求1所述的方法，其中，所述结果包括手术结果。

18、根据权利要求1所述的方法，其中，所述结果包括疾病结果。

19、根据权利要求1所述的方法，其中，所述结果包括与所述结果相关的定时。

20、根据权利要求1所述的方法，其中，所述结果包括个体对治疗学治疗的响应。

21、根据权利要求1所述的方法，其中，所述结果包括临床试验结果。

22、根据权利要求1所述的方法，其中，所述结果包括健康护理相关的商业结果。

23、根据权利要求1所述的方法，其包括利用对于所述个体族群获得的所述数据范围之外的至少一个数据集，来评价和修正所述最终模型，以减少所述最终模型对所述个体族群的过拟合。

24、根据权利要求1所述的方法，其包括基于除预测值之外的准则，相对于位于所述搜索中的其它模型对所述最终模型进行比较和评级。

25、根据权利要求24所述的方法，其中，所述除预测值之外的准则包括关于因素的特定信息。

26、根据权利要求25所述的方法，其中，所述关于因素的特定信息包括与获得用于每个所述模型中的特定类型的临床数据相关的成本。

27、根据权利要求25所述的方法，其中，所述关于因素的特定信息包括与获得用于每个所述模型中的特定类型的临床数据相关的风险。

28、根据权利要求25所述的方法，其中，所述关于因素的特定信息包括与患者经历与模型有关的诊断相关的风险。

29、根据权利要求1所述的方法，其包括基于所述最终模型产生决策树，从而按照与所述最终模型中的个体因素相关的所述患者的差异将患者分群。

30、根据权利要求1所述的方法，其包括响应于接收用于新个体组合的新临床数据，自动更新所述最终模型。

31、根据权利要求30所述的方法，其包括响应于接收所述新临床数据，为所述新个体组合建立定制的预测模型。

32、根据权利要求31所述的方法，其中，为所述新个体组合建立定制预测模型的步骤包括利用所述新临床数据建立所述预测模型。

33、根据权利要求1所述的方法，其中，步骤(a)-(c)可作为计算机程序产品来实现，所述计算机程序产品包含嵌入在计算机可读介质中的计算机可执行指令。

34、根据权利要求1所述的方法，其包括将来自多个预测模型的评分自动合并到决策树中，以选择用于治疗所述结果的最优介入。

35.根据权利要求1所述的方法，其包括利用所述最终模型作为患者的决策支持工具。

36、根据权利要求34所述的方法，其中，利用所述最终模型作为决策支持工具的步骤包括输出所述患者的一组结果。

37、根据权利要求35所述的方法，其中，输出所述患者的一组结果的步骤包括列出过去分析过的所述患者的结果和治疗建议、新的结果和建议，以及尚未分析过的结果。

38、根据权利要求36所述的方法，其中，输出一组结果的步骤包括按照疾病和治疗分类来组织所述结果。

39、根据权利要求1所述的方法，其包括利用所述最终模型为所述结果生成人的合计亚群的风险相对所述整个族群的风险的统计数字。

40、一种用于生成模型的体系结构以预测医学结果的方法，所述方法包括：

(a)获得个体族群的临床数据；

(b)识别与所述族群相关的，指示医学结果的因素；

(c)基于所述因素，生成多个预测模型，以预测所述医学结果；以及

(d)基于相关的预测值和与将每一模型应用于个体相关的至少一个额外的度量，以分等级的方式排列所述模型。

41、根据权利要求40所述的方法，其中，所述至少一个额外的度量包括进行测试以判定个体是否具有特定因素的成本。

42、根据权利要求40所述的方法，其中，所述至少一个额外的度量包括进行测试以判定个体是否具有特定因素的风险。

43、一种用于自动生成将用户所选择的因素链接到用户所选择的结果的预测模型的系统，所述系统包括：

(a)数据采集模块，用于获得来自个体族群的多个不同来源的临床数据，所述临床数据包括多个关于所述个体的不同身体因素和人口统计学因素以及多个所述个体的不同结果；

(b)用户接口模块，用于接收关于搜索空间的输入，所述搜索空间包括将所述因素的不同组合和至少一个所述结果链接的模型；以及

(c)预测建模组件，响应于接收所述输入，用于：

(ii)处理在所述搜索中识别的所述模型，以产生将在所述搜索中识别的所述因素组合中的至少一个链接到所选择的结果的最终模型。

44、根据权利要求43所述的系统，其中，所述结果包括个体的医学结果。

45、根据权利要求43所述的系统，其中，所述结果包括健康护理相关的商业结果。

46、一种用于评价个体关于临床结果的风险的系统，所述系统包括：

(a)预测建模组件，用于获得关于个体族群的临床数据，以及用于生成将与所述族群相关的因素链接到临床结果的模型；以及

(b)决策支持模块，用于接收关于个体所具有的因素的输入，用于接收关于所述个体的治疗方案的输入，用于将由所述预测建模组件生成的所述模型中的至少一个应用于所述输入，以及用于输出结果，所述结果指示在给定所选择的治疗方案的情况下所述个体出现所述临床结果中的一个的风险。

47、根据权利要求44所述的系统，其包括用于识别要由所述预测建模组件使用的新因素的生物标志物诱因识别模块，其中，所述生物标志物诱因识别模块适于查询医学文献，以在生成所述模型过程中识别要由所述预测建模组件使用的生物标志物。

48、根据权利要求46所述的系统，其中，所述决策支持模块包括用于输出与多个不同结果相关的风险评分的冠状动脉手术解决方案模块，所述多个不同结果与进行冠状动脉手术相关。

49、根据权利要求46所述的系统，其中，所述决策支持模块包括用于输出风险评分的化学疗法解决方案模块，所述风险评分指示所述个体对于化学疗法方案的不良反应的风险。

50、根据权利要求46所述的系统，其中，所述决策支持模块适于接收关于特定治疗的输入，并且响应于所述特定治疗，重新评价所述结果的所述概率。

51、一种包含嵌入在计算机可读介质中的计算机可执行指令的用于进行以下步骤的计算机程序产品：

(a)为用户提供用于采集关于要接受治疗方案的个体的临床信息的屏幕；

(b)接收来自所述用户的所述临床信息；

(c)应用预测模型，并且为所述用户提供用于显示所述治疗方案和与临床结果相关的风险评分的决策支持屏幕，所述临床结果与所述治疗方案相关；以及

(d)接收来自所述用户的输入，以修改所述治疗方案，并自动更新和显示与所述临床结果相关的所述风险评分。