CN107980162A

CN107980162A - 基于组合的研究建议系统和方法

Info

Publication number: CN107980162A
Application number: CN201680025643.9A
Authority: CN
Inventors: C·司徒
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2015-03-03
Filing date: 2016-03-03
Publication date: 2018-05-01
Also published as: AU2018200276A1; IL254279B; IL254279A0; AU2019208223A1; KR20190047108A; IL258482A; AU2016226162A1; JP6356359B2; AU2016226162B2; JP2018513461A; EP3265942A4; JP2018173969A; AU2018200276B2; EP3265942A1; WO2016141214A1; US20180039731A1; KR20180008403A; CA2978708A1; KR101974769B1

Abstract

展现机器学习引擎。所公开的推荐引擎生成训练的机器学习模型的集合，该模型在已知的基因组数据集和对应的已知临床结果数据集上被训练。每个模型可以根据其性能指标或描述训练模型性质的其他属性进行表征。模型的属性还可以涉及一个或多个潜在研究项目，可能包括药物反应研究/药物或复合研究/收集的数据类型或其他主题。潜在研究项目可以根据与潜在研究项目共享共同属性的模型的性能或特征指标进行排序。根据模型指标具有较高排序的项目被认为是可能最有见地的目标。

Description

基于组合的研究建议系统和方法

本申请要求于2015年3月3日提交的美国临时申请62/127546的优先权。该文献和所有其他参考文献全文参考。

技术领域

本发明的领域是基于组合的机器学习技术。

背景技术

背景描述包括可能有助于理解本发明主题的信息。不是承认本文提供的任何信息是现有技术或与当前要求保护的发明主题相关，或者任何具体或隐含参考的出版物是现有技术。

基于计算机的机器学习技术在过去几年中一直在增长，与“大数据”的兴趣并行，数据集远远超过了人类吸收的能力。机器学习算法允许研究人员在合理的时间内筛选数据集，以找到模式或建立能够进行预测的数字模型。通常，研究人员使用特定类型的算法来回答具体问题。这种方法对于特定任务非常有用，其中分析数据集的性质与算法固有的潜在数学假设吻合良好。例如，可以容易地分类为两类的大数据集可能由基于几何假设专门用于分类设计的支持向量机(SVM)来最好地分析。虽然特定的分析任务可以受益于特定的算法，但是将这样的算法应用于具有不太干净或与算法的基础数学假设较不一致的数据的更通用的项目可能是有问题的。

在更一般数据上使用特定算法的一个问题是算法的基础数学假设可能不利地影响将算法应用于数据而产生的结论。换句话说，即使应用于相同的数据集，来自不同类型的算法的结果将彼此不同。因此，算法的假设影响输出，如果数据的性质缺乏与算法的基本假设的理想对准，则可以导致研究者做出不确定或不太可信的结论。在这种情况下，研究人员需要技术来减轻由算法假设引起的不确定结论的风险。

即使假设研究人员能够减轻算法假设所带来的风险，研究可能遇到一个或多个首要问题，特别是在面对许多不同主题的许多数据集时，面临着有限的资源(例如，资金、时间、计算能力等)来研究的许多可能的方向。考虑一个研究人员可以访问与许多不同药物研究相关的数百种不同临床数据集的情况。假设研究人员的任务是根据可用数据确定哪种药物应该成为继续研究的目标。寻找推荐的行动方案可能是一个相当乏味的项目。研究人员可以检查每个药物研究的每个数据集，以确定哪种类型的机器学习算法最适合每个数据集。研究人员可以使用每个数据集来训练与数据集相对应的所选择的特定机器学习算法。因此，研究人员可以将所得到的训练模型的预测精度相互比较，并选择具有最准确的训练模型的药物。

不幸的是，每个训练的算法仍然受到与其自身假设相关的风险的影响。虽然研究人员尝试将最合适的算法与数据集进行匹配，但这种匹配很少是理想的，即使是无意的，仍然受到研究者的偏见的影响。另外，在训练的算法被过度训练的情况下，在单个数据集上训练的算法的准确性，即使是交叉折叠验证也是不能被依赖的。例如，一个训练的算法对于训练数据可能具有100％的准确度，但仍然可能无法准确反映现实。在有大量数据集和可能的重点方向的情况下，可以深入了解哪个方向将提供最大的潜在学习增益。更好的方法将减轻与算法假设相关的风险，同时也可以在选择算法使用时消除研究人员的可能偏差，并进一步考虑可能被过度训练的算法。

已经提出了一些努力来确定哪个模型可能提供关于特定主题的最佳信息。例如，Cesano等人2013年11月21日提交的U.S.专利申请2014/0199273，发明名称为“Methods forDiagnosis,Prognosis,and Methods of Treatment”讨论在医疗保健环境中预测或预后中使用的模型的选择。虽然Cesano讨论了从多个模型中选择一个模型，但Cesano无法提供洞察力如何利用模型来超越预测输出。

使用基于计算机的分子结构模型而不是预测模型似乎进一步取得进展，如Ramnarayan的美国专利申请2012/0010866to titled所述，发明名称为“Use ofComputationally Derived Protein Structures of Genetic Polymorphisms inPharmacogenomics for Drug Design and Clinical Applications”,2011年4月26日提交。Ramnarayan讨论产生蛋白质结构变体的3-D模型，并确定哪些药物可能令人满意地与变体对接。然后，这些模型可以用于根据药物模型停靠在蛋白质上的情况对潜在的候选药物进行排名。然而，Ramnarayan仍然关注3D模型本身及其使用，而不是创建可用于确定在哪里分配研究资源的预测结果模型。

Wei 2003年3月24日提交的美国专利申请2004/0193019，发明名称为“Method forPredicting an Individual’s Clinical Treatment Outcome from Sampling a Groupof Patient’s Biological Profiles”讨论了更为典型的结果模型的使用。Wei讨论了使用基于判别分析的模式识别来生成将生物概况信息与治疗结果信息相关联的模型。预测模型用于评估治疗的可能反应。Wei简单地建立预测结果模型，根据患者特定的个人资料信息对可能的结果进行评估。Wei也没有意识到这些模型有价值而不仅仅是它们的产出，并提供更多的洞察力，哪种类型的研究可能产生价值，而不仅仅是使用来自生成的模型的输出。

理想情况下，研究人员或其他利益相关者可以从集合预测模型(即经过训练的算法)获取额外的信息，这些信息可以改善模型的假设，同时还提供可能的方向可能提供最多回报的指示。因此，仍然需要机器学习系统，可以提供与许多数据集相关联的哪些研究项目可能基于从许多不同类型的预测模型生成的模型的集合的性质来产生大多数信息的洞察。

本文中确定的所有出版物通过引用并入本文，就像每个单独的出版物或专利申请被具体地和单独地指示通过引用并入本文中一样。凡和并参考文献中术语的定义或使用不一致或与本文中提供的术语的定义相违背时，本文中提供的术语的定义适用，该参考文献中该术语的定义不适用。

在一些实施方案中，用于描述和声称本发明主题的某些实施方案的成分数量，诸如浓度，反应条件等的性质的数字应理解为在某些情况下被术语“约”修饰。因此，在一些实施方案中，在书面描述和所附权利要求中阐述的数值参数是可以根据特定实施例寻求获得的期望特性而变化的近似值。在一些实施方案中，数值参数应根据报告的有效数字的数量和通过应用普通的舍入技术进行解释。尽管阐述本发明主题的一些实施方案的广泛范围的数值范围和参数是近似值，但是在具体实施例中阐述的数值尽可能精确地报告。在本发明主题的一些实施例中呈现的数值可能包含必须由其各自测试测量中发现的标准偏差导致的某些错误。

除非上下文相反，本文阐述的所有范围应被解释为包括其端点，而开放式范围应被解释为仅包括商业上实用的价值。类似地，除非上下文相反，否则所有值列表应被视为包含中间值。

如在本文的描述和整个权利要求中所使用的，除非上下文另有明确规定，否则“一”、“一个”的含义包括复数参考。此外，如本说明书中所使用的那样，“内”的含义包括“在”和“开”，除非上下文另有明确规定。

本文中值的范围的叙述仅仅意在作为简单地参考落在该范围内的每个单独值的简写方法。除非另有说明，否则将每个单独的值并入本说明书中，如同在本文中单独列举一样。本文所述的所有方法可以以任何合适的顺序进行，除非本文另有说明或以其他方式明确地与上下文相矛盾。对本文中某些实施例提供的任何和所有示例或示例性语言(例如“诸如”)的使用仅旨在更好地阐明本发明主题，并且对本发明主题的范围不构成限制。说明书中的任何语言都不应被解释为表明本发明主题的实践所必需的任何非要求声明的内容。

本文公开的发明主题的替代元件或实施例的分组不应被解释为限制。每个组成员可以单独地或与组中的其他成员或本文中找到的其他成分的任何组合一起被引用和要求。出于便利和/或专利性的原因，组中的一个或多个成员可以被包括在组中或从组中删除。当发生任何这种包含或缺失时，本说明书被认为包含经修改的组，从而满足所附权利要求中使用的所有马库什组的书面描述。

发明概述

本发明主题提供了设备、系统和方法，其中机器学习计算机系统能够基于产生的训练的机器学习模型的集合来产生潜在研究项目(例如药物分析等)的排序或建议。本发明主题的一个方面包括研究项目机器学习计算机系统(例如计算设备、协同工作的分布式计算设备等)，其包括至少一个非暂时性计算机可读储存器(例如闪存、RAM、HDD、SSD、RAID、SAN、NAS等)、至少一个处理器(例如CPU、GPU、 ASIC、FPGA等)、以及至少一个建模计算机或引擎。存储器被配置为存储表示与保健数据相关联的信息的一个或多个数据集。更具体地，数据集可以包括基因组数据集，其代表来自与队列患者群体相关联的一个或多个组织样本的基因组信息。因此，基因组数据集可以包括来自数百、数千或更多患者的基因组数据。数据集还可以包括表示队列治疗结果的一个或多个临床结果数据集。例如，临床结果数据集可包括基因组数据也存在于基因组数据集中的一个或多个患者的药物反应数据(例如IC₅₀、GI₅₀等)。数据集还可以包括描述与一个或多个潜在研究项目相关联的一个或多个方面的元数据或其他属性、分析研究的类型、收集的数据类型、预测研究、药物或其他目标研究课题。建模引擎或计算机被配置为根据存储器中存储的软件指令在处理器上执行，并且至少从基本组数据集和临床结果数据集建立预测模型的集合。建模引擎被配置为获得表示可能的机器学习算法(例如聚类算法、分类器算法、神经网络等)的实施的一个或多个预测模型模板。建模引擎或计算机通过使用基因组数据集和临床结果数据集作为预测模型模板的训练输入生成训练的临床结果预测模型的集合。在一些实施方案中，集合可以包括成千上万、甚至十几万个训练的模型。每个经过训练的模型可以包括表示一个或多个性能测量值或每个模型的其他属性的模型特征指标。模型特征指标可以被认为是描述其对应模型的性质。示例度量可以包括精确度、精确度增益、剪影系数或其他类型的性能度量。这样度量可以与输入数据集的性质或属性相关联。鉴于基因组数据集和临床结果数据集与潜在研究项目共享这些属性，可以使用模型中的度量来排列潜在的研究项目。根据模型特征度量，特别是综合度量，研究项目的排序可以指出哪些项目可能产生最有用的信息，如生成的模型所证明的那样。

本发明主题的各种目的、特征、方面和优点将从以下对优选实施例的详细描述以及附图中变得更加明显，其中相同的附图标记表示相同的部件。

附图简述

图1是研究项目推荐系统的综述。

图2描述结果预测模型的集合的产生。

图3A代表药物反应的可预测性，由许多药物的验证数据集产生的模型的平均精确度排列。

图3B代表图3A中药物反应的可预测性，由许多药物的验证数据集产生的模型的平均精确度增益重新排列，并表明达沙替尼将是有趣的研究目标。.

图4A代表与达沙替尼相关联的模型集合中的模型的平均精确度的直方图。

图4B代表图4A中的数据作为与达沙替尼相关联的模型集合中的模型的平均精度度增益的直方图。

图5A代表从直方图形式的精确度角度看基沙组数据类型集合对达沙替尼的可预测性。

图5B为了清楚起见以精确度条形图表示图5A中的数据。

图5C呈现图5A的数据，并以直方图形式表示基准组数据类型集相对于达沙替尼的可预测性。

图5D为了清楚起见以精确度增益条形图表示图5C中的数据。

发明详述

应该注意的是，应该读取指向计算机的任何语言，以包括计算设备的任何合适的组合，包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、模块或单独或集体运行的其他类型的计算设备。应该理解，计算设备包括至少一个处理器，被配置为执行存储在有形的、非暂时的计算机可读存储介质上的软件指令(例如硬盘，RAID、NAS、SAN、FPGA、PLA、固态硬盘、RAM、闪存、ROM等)。软件指令框图或以其他方式编程计算设备以提供以下关于所公开的设备所讨论的角色、职责或其他功能。另外，所公开的技术可以体现为计算机程序产品，其包括存储使处理器执行与基于计算机的算法、过程、方法或其他的实现相关联的所公开步骤的软件指令的非暂时性计算机可读介质说明。在一些实施方案中，各种服务器、系统、数据库或接口使用标准化协议或算法交换数据，可能基于HTTP、HTTPS、AES、公私密钥交换、Web服务API、已知金融交易协议或其他电子信息交换方式。设备之间的数据交换可以通过分组交换网络、因特网、LAN、WAN、VPN或其他类型的分组交换网络、电路交换网络、小区交换网络或其他类型的网络进行。

如在本文的描述和整个所附权利要求中所使用的，当系统、引擎、服务器、设备、模块或其他计算元件被描述为被配置为在存储器中的数据上执行或执行功能时，“被配置为”或“被编程为”的概念被定义为计算元件的一个或多个处理器或核心由存储在计算元件的储存器中的一组软件指令编程，以执行该组功能或对存储在存储器中的目标数据或数据对象进行操作。

以下讨论提供本发明主题的许多示例性实施例。虽然每个实施例都代表了创造性元素的单一组合，但本发明主题被认为包括所公开元素的所有可能的组合。因此，如果一个实施例包括元件A、B和C，并且第二实施例包括元件B和D，则本发明主题也被认为包括A、B、C或D的其他剩余组合，即使不是明确地披露。

如本文所用，除非另有说明，术语“耦合到”旨在包括直接耦合(其中彼此相互耦合的两个元件彼此接触)和间接耦合(其中至少一个附加元件位于两个元件之间)。因此，术语“耦合到”和“耦合”用于同义。另外，在网络计算设备的上下文中，术语“耦合到”和“耦合”是旨在表达设备能够通过它们的耦合进行通信(例如有线、无线等)。

应该理解，所公开的技术提供许多有利的技术效果，包括协调处理器以基于大量输入训练数据集生成训练预测结果模型。计算系统的储存器可以分布在多个设备上并被分区以存储输入训练数据集使得所有设备能够并行地生成模型集合。在一些实施方案中，本发明主题可以被认为是着重于构建能够允许多台计算机协调通信和努力来支持机器学习环境的分布式计算系统。本发明主题的技术效果进一步被认为包括将一个或多个训练模型的性能度量(包括训练模型的集合)与目标研究目标相关联。这种相关性被认为是增加这种目标成功的可能性，这是基于难以解释的数据以及计算机器学习模型类型中可能存在的固有偏差。

披露本发明主题的重点是使计算设备的构造或配置能够运行在大量的数字数据上，超越了人的能力。虽然数字数据可以代表机器训练的基因组和治疗结果的计算机模型，但应该理解，数字数据是一个或多个这样的真实世界项目的数字模型的表示，而不是实际项目。相反，通过适当地配置或编程本文所公开的设备，通过在计算设备的储存器中实例化这些数字模型，计算设备能够以超出人的能力的方式管理数字数据或模型。另外，计算设备在没有这种配置的情况下缺乏先验能力。创建所公开的基于计算机的工具的结果是，这些工具为用户在没有这样的工具的情况下为用户提供额外的效用，以获得基于证据的洞察可能产生有益见解的研究领域结果。

下面的公开内容描述了一种基于计算机的机器学习系统，其被配置或编程为实例化大量训练的模型，其表示在各种研究情况下可能的治疗结果的基因组数据的映射(例如药物反应，要收集的数据的类型等)。这些模型是经过大量数据的训练。例如，许多患者的基因组数据与同一患者的治疗结果相结合，以创建训练数据集。训练数据集被馈送到一个或多个模型模板中；机器学习算法的实现。机器学习系统由此创建相应的训练模型，可用于基于新的基因组数据预测可能的治疗结果。然而，本发明主题侧重于集合训练模型，而不是预测结果。除了预测可能的治疗结果外，应该理解的是，收集训练的模型，或者是训练模型的集合，可以提供对哪些研究情况或项目可能产生最有见地的信息的洞察，这些信息是由训练模型集合中测量的一个或多个模型性能度量或其他特征度量确定的。因此，所公开的系统能够提供关于哪些研究项目可能具有最大价值的建议，其基于关于模型集合的统计数据而不是模型的预测结果。

图1表示基于计算机的研究项目推荐系统100。尽管被示为包括单个储存器和单个处理器，但是应当理解，储存器120可以包括分布在多个计算设备上的分配储存器。储存器120的示例可以包括RAM、闪存、SSD、HDD、SAN、NAS、RAID、磁盘阵列或其他类型的非暂时计算机可读介质。类似地，尽管处理器150被示为单个单元，但处理器150委婉地表示包括单核、多核、处理器模块(例如服务器刀片等)或甚至联网的计算机处理器的其他处理器配置。系统100可以在分布式计算系统中实现，可能基于Hadoop。在这种系统中，支持Hadoop分布式文件系统(HDFS)的存储设备连同相关联的计算机的存储器将作为储存器120运行。另外，集群的计算机中的每个处理器将共同作为处理器150运行。鉴于所披露的系统处理的大量数据集可能相当大(例如大小超过100GB)，所公开的计算系统可以利用诸如GridEngine这样的工具，GridEngine是一种用于在多台计算机之间分配工作负载的开源分布式资源批处理系统。还应当理解，所公开的系统也可以以以云的方式实施的费用服务来运行。可以支持此类活动的示例基于云的基础设施包括AmazonAWS、MicrosoftAzure、GoogleCloud或其他类型的云计算系统。本文档中描述的示例是基于专有的工作负载管理器，基于Python实现的Pypeline，并利用了Slurm工作负载管理器(请参阅URLslurm.schedmd.com)。

储存器120被配置为作为多个数据集合的存储设施进行操作。应该理解，数据集可以存储在处理器150本地的存储设备上，或者可以存储在多个存储设备上，可能通过网络(未示出；例如LAN，WAN，VPN，因特网，内联网，等等。)。两个特别感兴趣的数据集包括基因组数据集123和临床结果数据集125。数据集合组合时，形成训练数据，将用于生成训练模型，如下所述。

基因组数据集123代表从队列中取代组织样本的基因组信息；以一组乳腺癌患者为例。基因组数据集123也可以包括基因组信息的不同方面。在一些实施方案中，基因组数据集123可以包括以下数据类型中的一个或多个：全基因组序列(WGS)、全外显子序列(WES)数据、微阵列表达数据、微阵列拷贝数数据、PARADIGM数据、SNP数据、RNA序列数据、蛋白质微阵列数据、外显序列数据、或其他类型的基因组数据。举个例子，基因组数据123可能包括来自超过100、1000或更多患者的乳腺癌肿瘤的WGS。基因组数据集123还可以包括与健康组织相关的基因组信息，因此基因组数据集123可以包括具有匹配正常的病变组织的信息。可以使用许多文件格式来存储包括VCF、SAM、BAM、GAR、BAMBAM在内的基因组数据集123。以下描述了PARADIGM和途径模型的创建和使用：Vaske等人2011年4月29日提交的美国专利申请公布US2012/0041683，发明名称为“Pathway Recognition Algorithm Using数据Integration on Genomic Models(PARADIGM)”；Vaske等人2011年10月26日提交的美国专利申请公布US2012/0158391，发明名称为“Pathway Recognition Algorithm Using数据Integration on Genomic Models(PARADIGM)”；以及Benz等人2014年5月28日提交的国际专利申请WO 2014/193982，发明名称为“PARADIGM药物反应Network”。BAMBAM技术在美国专利申请公布2012/0059670，发明名称为“BAMBAM:Parallel Comparative Analysis ofHigh-Throughput Sequencing数据”,2011年5月25日提交；以及2012/0066001，发明名称为“BAMBAM:Parallel Comparative Analysis of High-Throughput Sequencing数据”,2011年11月18日提交。

临床结果数据集125也与队列有关，代表了治疗后队列组织样本的临床预测结果；以在服用新药之后为例。临床结果数据集125还可以包括来自队列内的多个患者的数据，并且可以由患者标识符索引，以确保患者的结果在临床中结果数据集125与基因组数据集123中的同一患者的基因组数据正确同步。正如有许多不同类型的基因组数据可以组成基因组数据集123，还有许多类型的临床结果数据集。例如，临床结果数据集125可能包括药物反应数据、生存数据或其他类型的结果数据。在一些实施方案中，药物反应数据可能包括IC50数据、GI50数据、Amax数据、ACarea数据、过滤器ACarea数据、最大剂量数据或更多。另外，临床结果数据集可能包括来自100、150、200或更多药物的药物反应数据，其被应用于许多临床试验。作为更具体的例子，蛋白质数据可能包括来自MD Anderson的MDA RPPA核心平台。

数据集中的每一个，除了数据的其他方面，代表临床或研究项目的方面。对于基因组数据集123，收集的数据的性质或类型代表相应研究项目的参数。类似地，关于临床结果数据集125，相应的研究项目参数可以包括药物反应数据收集的类型(例如IC50、GI50等)，正在研究的药物或与相应研究项目相关的其他参数或属性。读者注意这些因素，因为这些因素成为未来焦点的可能领域。一旦产生了训练的模型的集合，就可以对集合统计分析这些因素，以便获得洞察哪些因素提供可能的机会。

在图1所示的示例中，存储器120中存储的研究项目150表示代表潜在研究方面的数据结构或记录对象。在一些实施方案中，研究项目150可以基于属性值对进行定义。属性值对可以遵守描述潜在研究项目的命名空间，并且与基因组数据集123或临床结果数据集125共享参数或属性。利用数据集中的公共命名空间，提供数据集之间的可能相关性。另外，研究项目150还可以包括可以被认为是元数据的属性值对，其不与所收集的数据的实际性质直接相关，而是更直接地涉及至少切向相关联的研究任务或预测任务数据集。研究任务元数据的示例可以包括收集数据、预测研究、研究者、授权信息或其他研究项目信息的成本。对于可以建立模型的预测研究，预测研究可以包括广泛的研究，包括药物反应研究，基因组表达研究，生存能力研究，亚型分析研究，亚型差异研究，分子亚型研究，疾病状态研究，或其他类型的研究。应当理解，所公开的方法通过其共享或桥接属性将输入训练数据的性质连接到潜在研究项目的性质。

储存器120或储存器120的一部分也可以包括预测模型模板140中的一个或多个。预测模型模板140代表未经训练或“空白”模型，其尚未具有特定特征并且表示相应算法的实现。模型模板的一个示例可以包括作为SVM库或可执行模块存储的Support VectorMachine(SVM)分类器。当系统100利用基因组数据集123和临床结果数据集125来训练SVM模型时，系统100可以被认为是基于已知的基因组数据集123和已知结果数据集125来实例化训练有素或甚至完全训练的SVM模型。作为训练模型的实例，完全训练的模型的配置参数然后可以存储在储存器120中。配置参数将因型号类型而异，但可视为因子权重的汇编。在一些实施方案中，预测模型模板140包括至少五种不同类型的模型、至少10种不同类型的模型、或甚至多于15种不同类型的模型。模型的示例类型可以包括线性回归模型模板、聚类模型模板、分类器模型、无监督模型模板、人工神经网络模板、甚至半监督模型模板。

预测模型模板140的至少一些来源包括通过scikit-learn(参见URL www.scikit-learn.org)可用的源，其包括许多不同的模型模板，包括各种分类器。分类器的类型也可以是相当的板，可以包括一个或多个线性分类器、基于NMF的分类器、基于图形的分类器、基于树的分类器、基于Bayesian的分类器、基于规则的分类器、基于网络的分类器、kNN分类器、或其他类型的分类器。更具体的例子包括NMFpredictor(linear)、SVMlight(linear)、SVMlight一阶多项式内核(degree-d polynomial)、SVMlight二阶多项式内核(degree-dpolynomial)、WEKA SMO(linear)、WEKA j48树(基于分布)、WEKA随机森林(以树为主)、WEKA天真贝叶斯(概率/贝叶斯)、WEKA JRip(基于规则)、glmnet套索(稀疏线性)、glmnet脊回归(稀疏线性)、glmnet弹性网(稀疏线性)、人工神经网络(例如ANN、RNN、CNN等)等。预测模型模板140的其他来源包括Microsoft的CNTK(参见URL github.com/Microsoft/cntk)、TensorFlow(见URL www.tensorflow.com)、PyBrain(参见URL pybrain.org)或其他来源。

应该理解，每种类型的模型都包含固有的偏差或假设，即使在相同的数据上进行训练时，它们可以影响所得到的训练模型相对于其他类型训练模型的运行方式。本发明人已经认识到，利用尽可能多的合理模型有助于减少对这种假设的暴露或在选择模型时的偏差。因此，本发明主题被认为包括使用十种或更多类型的模型模板，特别是对可能对模型模板假设敏感的研究主题。

储存器120或储存器120的一部分还可以包括代表建模引擎软件指令130，其代表可在一个或多个处理器150上执行的建模计算机或引擎135中的一个或多个。建模引擎135有责任从预测模型模板140生成许多训练的预测结果模型。作为一个基本例子，考虑一个预测模型模板包含两种模型的场景：SVM分类器和NMFpredictor(见2013年12月20日提交的美国临时申请61/919,289和相应的2014年5月28日提交的国际申请WO 2014/193982)。现在认为基因组数据集123和临床结果数据集125代表来自150种药物的数据。建模引擎135使用队列数据集为所有150种药物生成一组经过训练的SVM模型，以及一组训练的NMFpredictor模型，用于所有150种药物。因此，从两个模型模板，建模引擎135将生成或以其他方式实例化300个经过训练的预测模型。建模引擎135的一个示例包括2014年5月28日提交的国际公布专利申请WO 2014/193982，发明名称为“Paradigm药物反应Network”所述的这些。

建模引擎135将处理器150配置为用作模型生成器和分析系统。建模引擎135获得预测模型模板140中的一个或多个。在所示的示例中，预测模型模板140已经存在于储存器120中。然而，在其他实施例中，可以通过应用程序界面(API)获得预测模型模板140，通过应用程序界面(API)可以基于web服务访问对应的一组模块或库。在其他实施例中，用户可以将可用的预测模型模板140放置到建模引擎135可以通过读取或导入文件和/或查询数据库来访问模板的存储库(例如，数据库、文件系统、目录等)。这种方法被认为是有利的，因为随着时间的推移，它提供了越来越多的预测模型模板。另外，每个模板都可以用指示其基本性质的元数据来注释；由相应的算法、最佳用途、指令或其他数据做出的假设。模型模板可以根据其元数据进行索引，通过选择具有满足研究项目(例如回应研究，数据收集，预测任务等)选择标准的元数据的模型来选择哪些模型最适合他们的工作。通常，预计几乎所有(如果不是全部)模型模板将被用于构建集合。

建模引擎135进一步通过生成训练的临床结果预测模型的集合，由训练模型143A至143N表示，统称为训练模型143。每个模型还包括特征度量147A和147N，统称为度量147。建模引擎135通过使用预测模型模板140来实例化训练模型143，并且在基本组数据集123(例如初始已知数据)和临床结果数据集125(例如最终已知数据)上训练模板。受过训练的模型143代表预测模型，如果需要，可以通过经训练的模型运行特定患者的基因组数据来在个体化治疗或预测结果的临床环境中使用，以产生预测结果。但是，有两点要注意。首先，本文本发明主题的重点是整体模型的集合，而不仅仅是预测结果。第二，经过训练的模型143的集合可以包括仅仅是经过充分训练的模型的评估模型，其仅对数据集的一部分进行训练，而完整训练的模型将被训练在完整的数据集上。评估模型有助于指出一个经过充分训练的模型是否具有价值。在某种意义上，评估模型可以被认为是在交叉验证期间产生的部分训练模型。

虽然图1仅显示了两个受过训练的模型143，但应该明白，训练模型的数量可能包括超过10,000、100,000、200,000甚至超过1,000,000训练的型号。事实上，在一些实施中，集合已经包括超过2,000,000训练的模型。在一些实施方案中，根据数据集的性质，经过训练的模型143可以包括训练的临床结果模型145的集合，该模型具有如图2所讨论的超过200,000训练的模型。

每个经过训练的模型143还可以包括由度量147A和147N相对于它们相应的训练模型呈现的模型特征指标147。模型特征指标147表示对应训练模型143的性质或能力。示例特征度量可以包括精确度、精度度增益、性能度量或相应模型的其他度量。其他示例性能度量可以包括曲线下面积度量、R²、p-值度量、剪影系数、混淆矩阵或与模型的性质或其对应的模型模板相关的其他度量。例如，基于群集的模型模板可能具有剪影系数，而SVM分类器训练模型则不具有剪影系数。SVM分类器训练的模型可能会使用AUC或p-值。应该理解，特征度量147不被认为是模型本身的输出。相反，模型特征度量147表示训练模型的性质；基于训练数据集的预测的准确性如何。另外，模型特征指标147还可以包括超出性能度量的其他类型的属性和相关联的值。可以在与训练模型143有关的度量处使用的附加属性包括模型模板的来源、模型模板标识符、模型模板的假设、版本号、用户标识符、特征选择、基因组训练数据属性、患者标识符、药物信息、结果训练数据属性、时间戳或其他类型的属性。模型特征度量147可以表示为n元组或值的向量，以便于轻松移植、操作或其他类型的管理或分析，如下所述。因此，每个模型可以包括关于其来源的信息，并且因此可以包括与与基因组数据集123、临床结果数据集125和研究项目150相关联的相同命名空间相关联的属性。训练模型143和对应模型特征度量147可以作为最终训练的模型实例存储在储存器120上，可能基于JSON、YAML或XML格式。因此，训练后的模型可以在以后存档和检索。

建模引擎135不仅可以针对每个训练的模型143A至143N提供个人模型特征指标147，还可以生成表示经训练的临床结果模型集合的属性的综合度量149。综合度量149可以例如包括精确度分布或精确度增益分布在集合中的所有模型。此外，综合度量149可以包括集合、集合性能、集合所有者、集合中的哪些模型类型的分布、创建集合的功耗、每个模型的功耗、每个模型的成本或与集合有关的其他信息中的模型数量。

可以通过使用从已知基因组数据集和对应的已知临床结果数据集构建的评估模型，推导出模型的精确度。对于特定模型模板，建模引擎135可以建立一些针对输入已知数据集进行训练和验证的评估模型。例如，可以根据输入数据的80％来训练经过训练的评估模型。一旦对该评估模型进行了培训，剩下的20％的基因组数据就可以通过评估模型运行，看看它是否产生与已知临床结果数据的剩余20％相似或相似的预测数据。训练后的评估模型的精确度被认为是正确预测数与总结果数之比。可以使用一个或多个交叉验证技术来训练评估模型。

考虑基因组数据集123和临床结果数据集125代表500名患者的队列。建模引擎135可以将数据集划分为一组或多组评估训练集，其中包含400个患者样本。建模引擎创建了基于400个患者样本的受过训练的评估模型。然后可以通过对剩余的100名患者的基因组数据集执行训练评估模型来验证训练的评估模型，以产生100个预测结果。然后将100个预测结果与临床结果数据集125中患者数据的实际100个结果进行比较。训练的评估模型的精确度是相对于总结果数量的正确预测结果(即真阳性和真阴性)的数量。如果在100个预测结果中，训练的评估模型产生85个符合患者数据的实际或已知临床结果的正确结果，则训练评估模型的精确度被认为是85％。其余15个不正确的结果将被认为是假阳性和假阴性。

应该理解，建模引擎135可以简单地通过改变队列数据如何在训练样本和验证系统之间分配来生成针对队列数据和模型模板的特定实例的许多训练的评估模型。例如，一些实施例可以利用5×3交叉验证，这将导致15个评估模型。15个受过训练的评估模型中的每一个将具有自己的精确度量度(例如相对于总数的正确预测的数量)。假设评估模型的准确性表明模型的收集是有用的(例如上面的机会阈值，高于大多数分类器等)，可以基于数据的100％构建完全训练的模型。这意味着一个算法的模型的总收集将包括一个经过充分训练的模型和15个评估模型。经过充分训练的模型的精确度将被认为是其训练的评估模型的平均值。因此，经过充分训练的模型的精确度可以包括训练后的评估模型的统计学中的集合中的相应训练模型的平均值、扩展度、最大精确度、最小精确度或其他度量。研究项目可以根据相关训练的模型的精确度进行排名。

与精确度相关的另一个度量包括精确度增益。精确度增益可以定义为模型的精确度与“多数分类器”的精确度之间的算术差异。得到的度量可以是正或负。精确度增益可以被认为是与已知可能结果相对于机会的模型表现。模型的精度度增益越高(更积极)，能够从训练数据提供或学习的信息越多。模型的精确度增益越低(越负)，模型具有较少的相关性，因为它不能提供超越机会的见解。与精确度相似，精确度增益对于完全训练的模型可以包括评估模型中精确度增益的分布。因此，经过充分训练的模型的精确度增益可以包括平均值、差值、最小值、最大值或其他值。在统计意义上，一个非常有趣的研究项目很可能会有一个精确度增益在零以上的高精度度增益。

鉴于训练的临床结果模型集合145内的模型携带与用于创建模型或模型来源的数据的性质相关联的属性或度量信息，建模引擎135可以将集合的信息与具有相似属性的研究项目150相关联。因此，建模引擎135可以生成一个排序列表，排序的潜在的研究项目160中，例如根据排序标准，依赖于模型特征度量147甚至综合度量149的来自研究项目的潜在研究项目。考虑到集合包括训练的模型143，用于超过100种药物反应研究。建模引擎135可以通过每个研究对应模型的精确度或精确度增益对药物反应研究进行排序。排序列表可以包括药物反应、药物、基因组数据类型集合、药物反应数据收集的类型、预测任务、基因表达、临床问题(例如生存性等)、结果统计或其他类型的研究话题。

建模引擎135可以使设备(例如手机、平板电脑、计算机、Web服务器等)将排序列表呈现给利益相关者。排序列表基本上代表了关于哪些项目、任务、主题或领域被认为是最有见地的建议，这些建议是基于模型的性质或集体中的模型在哪里可以学习的。例如，集合的精确度增益可以被认为是衡量哪个模型区域提供最多信息的洞察力的量度。这些领域将被视为研究美元或诊断努力的候选者，如已知的现实基础组数据集123和相应的已知的真实临床结果数据集125所产生的训练模型所证明的。

图2提供了关于生成训练的临床结果预测模型245的附加细节。在所示的示例中，建模引擎获得由数据集220表示的包括已知基本组数据集225和已知临床结果数据集223的训练数据。在本例中，数据集220包括与单一药物相关联的药物反应研究的数据代表。然而，多种药物的数据集可以包括在训练数据集中；100多种药物、150种药物、200种药物或更多。另外，建模引擎可以获得代表未训练的机器学习模块的一个或多个预测模型模板240。利用多种类型的模型模板有助于减少暴露于每个单独模板的潜在假设，并有助于消除研究者偏见，因为使用了所有相关的模板或算法。

建模引擎使用训练数据集从模型模板240生成许多经过训练的模型，训练模型形成训练的临床结果预测模型245的集合。模型245的集合可以包括大量经过培训的模块。在所示示例中，考虑一个研究人员可以访问与200种药物相关的数据的场景。每种药物的训练数据可以包括六种已知的临床结果数据(例如IC50数据、GI50数据、Amax数据、ACarea数据、过滤的ACarea数据和最大剂量数据)，以及三种已知的基因组数据集例如WGS、RNAseq、蛋白质表达数据)。如果有四种特征选择方法和约14种不同类型的模型，则建模引擎可以在集合中创建超过20万个训练模型；每个可能的配置参数的一个模型。

模型245集合中的每个模型还包括描述模型性质的元数据。如前所述，元数据可以包括性能度量、用于训练模型的数据类型、用于训练模型的特征、或者可以被认为是研究项目命名空间中的属性和对应值的其他信息。这种方法提供了选择满足选择标准的模型组，这些选择标准取决于命名空间的属性。例如，可以选择根据收集的WGS数据训练的所有模型，或者针对与具体药物有关的数据训练的所有模型。个人模型可以存储在存储设备中，具体取决于其底层模板的性质；可能在JSON、YAML或XML文件中存储训练模型的系数或其他参数以及相关属性、性能度量或其他元数据的特定值。必要或需要时，可以通过简单地读取相应文件的模型训练值或权重来重新实例化模型，然后将相应的模板参数设置为读取值。

一旦模型245的集合形成或生成，性能度量或其他属性可用于生成潜在研究项目的排序列表。考虑到已经生成了超过20万个模型的场景。临床医生选择与特定药物的药物反应研究有关的模型，这可能会导致大约1000到5000个选定的模型。建模引擎可以使用所选模型的性能度量(例如精确度、精确度增益等)对基因组数据的类型进行排序(例如WGS、表达式、RNAseq等)。这将通过建模引擎根据收集的基因组数据类型将模型划分为结果集来实现。可以计算每个结果集的所选择的性能度量(或其他属性值)；以平均精确度增益为例。因此，每个结果集可以根据其对应的计算模型的性能度量进行排名。在当前的例子中，每个待收集的基因组数据类型可以根据相应模型的平均精确度增益进行排序。这样的排序提供了临床医生的洞察力，基因组数据类型可能最适合为给定指定药物的患者收集，因为模型的性质表明模型信息在哪里可能最有见地。在一些实施方案中，排序建议哪些待收集的基因组数据类型，可能包括微阵列表达数据、微阵列拷贝数数据、PARADIGM数据、SNP数据、全基因组测序(WGS)数据、全外显子序列数据、RNAseq数据、蛋白质微阵列数据或其他类型的数据。排序列表也可以通过二级或甚至三级度量来排序。数据类型的收集和/或时间处理相应的数据的成本将是两个例子。这种方法允许研究人员确定目标研究课题或项目的最佳行动方案，因为研究人员可以看到哪个主题或项目配置可能基于集合的度量提供最大的洞察力。

另一个例子可以包括按模型度量的排序药物反应。在这种情况下，排名的药物反应研究可以深入了解药物反应或化合物的哪些领域可能是最有意义的目标研究项目。仍然另外，排序可以建议哪种类型的临床结果数据要收集，可能包括IC50数据、GI50数据、Amax数据、ACarea数据、过滤的ACarea数据、最大剂量数据或其他类型的结果数据。然而，甚至另外，排序可以表明哪种类型的预测研究可能是最有意义的，可能包括一种或多种药物反应研究、基因组表达研究、生存能力研究、亚型分析研究、亚型差异研究、分子亚型研究、疾病状态研究或其他研究。

以下数字代表了基于从超过100,000个训练的模型的集合中获得实际、已知的基因组数据集及其相应的已知临床结果数据集的精确度或精确度增益性能度量的各种研究课题的排序。以下结果如下图所示：由Broad Institute's Cancer Cell LineEncyclopedia(CCLE；见URL www.broadinstitute.org/ccle/home)和Sanger Institute'sCancer Genome Project(CGP；见URL www.sanger.ac.uk/science/groups/cancer-genome-project)获得的基于实际数据的申请人生成的实例

图3A包括与许多药物反应研究相关联的真实数据，并且表示药物反应的可预测性，其由对应于药物的验证数据集产生的模型的平均精确度确定。基于精确度的数据表明，PHA-665752是一种小分子c-Met抑制剂，可能是进一步研究的候选者，因为模型的集合表明，与PHA-664752相关的数据有相当大的信息需要学习，因为所有经过训练的模型的平均精确度最高。追求这样的候选人的决定可以通过其他度量或因素，包括成本、精确度增益、时间或参数来平衡。应该明白，所显示的分布表示分布在许多完全训练的模型而不是评估模型中的精确度值。然而，研究人员可以与建模引擎进行交互，以深入研究一个或多个评估模型以及它们对应的度量或元数据(如果需要)。

读者注意力是达沙替尼，其在图3A中排名第七。图3B表示与图3A相同的数据。然而，这些药物已经被精确度增益排列。在这种情况下，PHA-665752下降到包的中间，平均精确度增益在零附近。然而，达沙替尼，一种酪氨酸激酶抑制剂，从第七位移至第一级，平均精度度增益大于零；大约15％。数据表明，达沙替尼可能是为进一步资源配置更好的候选人，鉴于模型的集合产生高精确度以及高精确度增益。

图4A提供了关于模型集合中的度量如何表现的进一步的清晰度。图4A是达沙替尼集合模型中模型的平均精确度的直方图。请注意，该模式相对较高，表明达沙替尼可能是应用其他资源的有利候选人。换句话说，与达沙替尼相关联的180个模型表明，总体模型平均学习得很好。

图4B以从图4A中的达沙替尼集合的平均精度度增益的直方图的形式示出了相同的数据。再次注意，模式相对较高，约为20％，少数模型低于零。根据模型度量，这种披露的排序药物反应研究或药物的方法被认为是有利的，因为它提供了一个基于证据的指示，表明制药公司应该根据数据可以如何利用学习来引导资源。

继续深入达沙替尼，图5A说明了基因组数据类型(例如PARADIGM、表达式、CNV-拷贝数变异等)对于模型精确度的预测。数据表明，PARADIGM和表达数据比CNV更有用。因此，临床医生可能会建议对于收集CNV的达沙替尼治疗的患者收集PARADIGM或表达数据更有意义；费用、时间或其他因素。

图5B以更紧凑的形式从图5A呈现与条形图相同的数据。该图表明，表达数据可能是收集数据的最佳类型，因为它产生高精确度和一致(即紧密传播)模型。

图5C示出了来自图5A的相同数据，除了关于直方图形式中的精确度增益。图5D提供了进一步的清晰度，其中精确度增益数据呈现在条形图中，这加强了表达数据可能是对达沙替尼最有用的数据收集。

上面提供的示例性实施例反映了数据表示初始状态(例如拷贝数变化、表达数据等)到最终状态(例如对药物的反应性)的特定药物研究的数据。在所提供的例子中，最后阶段保持不变；治疗结果。然而，应当理解，所公开的技术可以平等地应用于与患者数据相关联的任何两个不同状态，而不仅仅是治疗结果。例如，而不是训练WGS上的模型集合和治疗结果，可以训练WGS和中间生物过程状态或免疫状态的集合，例如蛋白质表达。因此，本发明主题也被认为包括反映更细的状态粒度的数据集的建模集合，而不仅仅是一个治疗结果。更具体地，代表众多生物状态的患者数据可以从实际的DNA序列通过宏观效果如治疗结果收集。考虑的生物状态信息可以包括基因序列、突变(例如单核苷酸多态性、拷贝数变异等)、RNAseq、RNA、mRNA、miRNA、siRNA、shRNA、tRNA、基因表达、杂合性丧失、蛋白质表达、甲基化、细胞间相互作用、细胞间活性、样品图像、受体活性、检查点活性、抑制剂活性、T细胞活性、B细胞活性、自然杀伤细胞活性、组织相互作用、肿瘤状态(例如尺寸减小、无变化、生长等)等。其中任何两个可以是训练数据集的基础。在一些实施方案中，当数据未能清理为明确定义的类时，可以利用半监督或无监督学习算法(例如k-均值聚类等)。数据的合适来源可以从The Cancer Genome Atlas获得(见URL tcga-data.nci.nih.gov/tcga)。

通过建立相应的模型集合，可以将来自每个生物状态(即初始状态)的数据与来自另一生物状态(即最终状态)的数据进行比较。这种方法被认为是有利的，因为它提供了更深入的了解因果效应可能引起观察到的相关性。另外，这样一个细粒度的方法还提供了基于集合学习观察来构建对哪个国家最适合研究的时间的理解。从不同的角度来看，建立任何两个州的模型集合可以被认为是提供发现的机会，通过对各州之间可能的相关性建立更高的可见性。应当理解，这种可见性不仅仅是观察相关性。相反，如前所述，可见性和/或发现由相应集合的性能度量证明。

考虑基因突变在治疗结果方面进行研究的情况。对于特定药物，与治疗结果相比，模型集合可能缺乏对特定基因的任何显著学习的证据。如果数据分析停止，那么没有进一步的洞察力。利用公开的细粒度方法，可以在许多不同的生物状态收集数据，可能包括蛋白质表达或T细胞检查点抑制剂活性。可以分析这两个状态以揭示当具体药物存在时，蛋白质表达和T细胞检查点抑制剂活性不仅与高精确度增益有关，而且还具有很高的修正能力。这样的洞察力将表明，关于这些相关性可能需要对基因突变的进一步研究。

对于本领域技术人员显而易见的是，除了已经描述的那些之外，除了本文的发明构思之外，还可以进行更多的修改。因此，本发明主题除了所附权利要求的精神外不受限制。此外，在解释说明书和权利要求书时，应当以与上下文一致的最广泛的方式来解释所有术语。特别地，术语“包括”和“包含”应被解释为以非排他性方式指代元素、组件或步骤，指示所引用的元件，组件或步骤可以存在或使用，或与未明确引用的其它元件、部件或步骤组合。凡说明书或权利要求书涉及从由A、B、C...N组成的组中选择的至少一种，文本应该被解释为只需要一个元素，而不是A加N或B加N等。

Claims

1.临床研究项目机器学习计算机系统，包括：

至少一个处理器；

至少一个存储器，耦合所述处理器并配置为存储：

代表来自队列的组织样本的基因组数据集；

临床结果数据集，与所述队列相关联并且代表治疗后组织样本的临床结果；和

其中所述基因组数据集和所述临床结果数据涉及多个潜在研究项目；和

至少一个建模引擎，根据存储在至少一个存储器中的软件指令在最后一个处理器上可执行，并将所述处理器配置为：

获得一组预测模型模板；

基于所述预测模型模板组并且作为基因组数据集和临床结果数据集的函数，产生训练的临床结果预测模型的集合，其中各训练的临床结果预测模型包括表示对应的训练的临床结果预测模型的属性的模型特征指标；

根据取决于多个训练的临床结果预测模型的预测模型特征指标的排序标准，产生选自多个潜在研究项目的潜在研究项目的排序列表；和

使装置呈现所述潜在研究项目的排序列表。

2.权利要求1所述的系统，其中所述预测模型模板组包括至少十种预测模型类型。

3.权利要求1所述的系统，其中所述预测模型模板组包括线性回归算法、聚类算法和人工神经网络的实现中的至少一种。

4.权利要求1所述的系统，其中所述预测模型模板组包括分类器算法的实现中的至少一种。

5.权利要求4所述的系统，其中分类器算法的实现中的至少一种代表半监督分类器。

6.权利要求4所述的系统，其中分类器算法的实施中的至少一种表示以下类型的分类器中的至少一种：线性分类器、基于NMF的分类器、基于图形的分类器、基于树的分类器、基于贝叶斯的分类器、基于规则的分类器、基于网络的分类器和kNN分类器。

7.权利要求1所述的系统，其中所述模型特征指标包括模型精度测量。

8.权利要求6所述的系统，其中所述模型精度测量包括模型精度增益。

9.权利要求1所述的系统，其中所述模型特征指标包括以下模型性能指标中的至少一种：曲线下面积(AUC)度量、R²度量、p-值和剪影系数。

10.权利要求1所述的系统，其中所述排序标准根据从所述模型特征指标衍生的综合度量定义。

11.权利要求1所述的系统，其中所述训练的临床结果预测模型的集合包括从基因组数据集和临床结果数据集中选出的完整队列数据集训练的至少一种完全训练的临床结果预测模型。

12.权利要求1所述的系统，其中所述临床结果数据包括药物反应结果数据。

13.权利要求12所述的系统，其中所述药物反应结果数据包括关于多种药物的以下至少之一：IC50数据、GI50数据、Amax数据、ACarea数据、过滤的ACarea数据和max剂量数据。

14.权利要求12所述的系统，其中所述药物反应结果数据包括至少100种药物的数据。

15.权利要求14所述的系统，其中所述药物反应结果数据包括至少150种药物的数据。

16.权利要求15所述的系统，其中所述药物反应结果数据包括至少200种药物的数据。

17.权利要求1所述的系统，其中所述基因组数据集包括以下中的至少一种：微阵列表达数据、微阵列拷贝数数据、PARADIGM数据、SNP数据、全基因组测序(WGS)数据、RNAseq数据和蛋白质微阵列数据。

18.权利要求1所述的系统，其中所述潜在研究项目包括涉及所述基因组数据集的待收集的基因组数据类型。

19.权利要求15所述的系统，其中所述待收集的基因组数据类型包括下列中的至少一种：微阵列表达数据、微阵列拷贝数数据、PARADIGM数据、SNP数据、全基因组测序(WGS)数据、全外显子序列数据、RNAseq数据和蛋白质微阵列数据。

20.权利要求1所述的系统，其中所述潜在研究项目包括涉及所述临床结果数据集的待收集的临床结果数据类型。

21.权利要求20所述的系统，其中所述待收集的临床结果数据类型包括：IC50数据、GI50数据、Amax数据、ACarea数据、过滤的ACarea数据和max剂量数据。

22.权利要求1所述的系统，其中所述潜在研究项目包括预测研究类型。

23.权利要求19所述的系统，其中所述预测研究类型包括下列中的至少一种：药物反应研究、基因组表达研究、生存能力研究、亚型分析研究、亚型差异研究、分子亚型研究和疾病状态研究。

24.权利要求1所述的系统，其中所述至少一个存储器包括磁盘阵列。

25.权利要求1所述的系统，其中所述至少一个处理器包括分布在网络上的多个处理器。

26.一种产生机器学习结果的方法，包括：

在非暂时性计算机可读存储器中存储训练数据集，包括：

a)代表来自队列的组织样本的基因组数据集，和

b)临床结果数据集，与所述队列相关联并且代表治疗后组织样本的临床结果，其中所述训练数据集涉及多个潜在研究项目；

通过建模计算机获得一组预测模型模板

通过所述建模计算机经过训练作为基因组数据集和临床结果数据集函数的预测模型模板，产生训练的临床结果预测模型的集合，其中各训练的临床结果预测模型包括表示对应的训练的临床结果预测模型的属性的模型特征指标；

通过所述建模计算机根据取决于多个训练的临床结果预测模型的预测模型特征指标的排序标准，产生选自多个潜在研究项目的潜在研究项目的排序列表；和

通过所述建模计算机使装置呈现所述潜在研究项目的排序列表。

27.权利要求26所述的方法，其中产生训练的临床结果预测模型的集合的步骤包括在基因组数据集和临床结果数据集上训练机器学习算法的多个实施。

28.权利要求27所述的方法，其中所述机器学习算法的多个实施包括至少十种不同类型的机器学习算法。

29.权利要求26所述的方法，其中所述预测模型特征指标包括以下性能度量中的至少一种：曲线下面积(AUC)度量、R²度量、p-值、精确度、精确度增益和剪影系数。

30.权利要求26所述的方法，其中所述预测模型特征指标包括综合度量。

31.权利要求30所述的方法，其中产生潜在研究项目的排序列表的步骤包括根据所述综合度量使所述潜在研究项目排序。