CN107092770A

CN107092770A - 医学分析系统

Info

Publication number: CN107092770A
Application number: CN201710073766.6A
Authority: CN
Inventors: A.J.贾尼夫斯基; N.迪米特罗瓦; S.卡马拉卡兰; Y.H.阿尔萨法迪; N.巴纳吉; A.I.D.布库尔; J.J.A.范利尤文; V.V.瓦拉丹
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-05-12
Filing date: 2009-05-06
Publication date: 2017-08-25
Also published as: US20180089392A1; WO2009138909A1; US9858392B2; US20200395128A1; RU2010150771A; JP2011520206A; RU2014129772A; EP2279478A1; CN102084366A; JP5464503B2; US20110077964A1

Abstract

本发明涉及患者的有效诊断以及治疗规划中的辅助临床医生。特别地，本发明提供了一种使得能够细化分子分类的医学分析系统。所述系统提供了一种分子谱化方案，其将允许改进的诊断、预后、应答预测从而提供正确的化疗，以及后续措施以监测癌症复发。

Description

医学分析系统

技术领域

本发明涉及一种医学分析系统。特别地，本发明涉及对应的方法和对应的计算机程序产品。

背景技术

乳腺癌是由多个分子改变的积累驱动的复杂遗传性疾病。最近的在高通量基因组、转录组学和表观基因组技术方面的分子进展已经使得能够集中于乳腺癌的分子复杂性并且帮助指导癌症预测和治疗预测。

Perou等人证实乳腺癌可以基于它们的基因表达谱分类成不同的组。雌激素受体阳性(ER+)组的特征在于典型地由乳腺腔上皮细胞表达的一组基因的较高表达(‘luminal’癌症)。ER分支包括三个肿瘤亚型：1)过表达ERBB2(HER2)；2)表达乳腺基底细胞特征性的基因(基底样癌症)；和3)正常样样品。临床重要性是ER+肿瘤典型地显示良好的预后和基底样和HER2肿瘤具有差的预后。

基因表达谱化也导致两种基因表达分析-Oncotype Dx和MammaPrint-的发展，其对于早期淋巴结阴性乳腺癌决定患者乳腺癌复发的风险。Oncotype Dx分析21个基因的表达并且计算复发分数以确定患者癌症复发的可能性和他们从化疗可能得到的益处的评估。MammaPrint分析70个基因的表达并且允许将具有早期乳腺癌的患者(<61岁)分类为具有高或低远处转移风险。高风险患者然后可以用更攻击性的治疗进行管理。

很多其它分子谱化(molecular profiling)技术被用于解决类似的临床问题。代表性寡聚核苷酸微阵列分析(ROMA)检测基因组增殖和删除并且已经使得能够检测某些拷贝数变异图案(copy number variation patterns)并测量它们与患者存活的相关性。

在癌症诊断例如乳腺癌和局部化的癌症的初步治疗之后，医生具有很多治疗选择。如何能够做出“正确的”治疗决定传统地，诊断成像通过表征肿瘤的位置、形态和扩散在癌症治疗选择中发挥了关键作用。癌症与DNA内的变化及其调控潜力相关，患者肿瘤细胞分子谱的特定特征能够将临床医生引导到“正确的”治疗。

今天，分子测试基于单基因测试如前述ER、PR和HER2基因表达分类患者。但是，对于使用DNA甲基化和基因表达的改进的测试，在具有类似临床分类和范围的肿瘤内仍然存在显著的治疗响应变化。DNA甲基化影响基因调节而没有遗传密码的改变。异常的DNA甲基化谱与疾病如癌症相关。基因表达谱化在整个基因组的水平评价基因活性。

数个小团体和大公司在分子治疗规划领域努力，例如Agendia(MammaPrint^TM是预后测试)和Genomic Health(Oncoype Dx)。这些公司的目标领域是对于乳腺癌患者的子集，化疗的患者分层(例如具有淋巴结阴性、ER阳性肿瘤的患者)。此外，是Adjuvant！，其致力于使用临床因素例如年龄、肿瘤大小、节状况、等级而提供决策支持和治疗规划服务。

但是，分子分类的进一步细化(refinement)能够导致不一致的临床意义。因此，存在对分子谱化方案的临床需要，其中该方案将提供改进的诊断、预后、响应预测以提供正确的化疗，以及后续措施(follow-up)来监控癌症复发。

因此，改进的医疗决策工具或系统将是有利的，并且特别地更有效和/或可靠的系统将是有利的。

发明内容

因此，本发明优选寻求单独地或以任何组合减轻、缓解或消除一个或多个上面提到的缺点。特别地，作为本发明的一个目标，可以看到提供一种医学分析系统，该系统解决了上面提到的现有技术中存在的问题，以快速和/或可靠的方式为一名或多名患者找出合适治疗。

因此，本发明的一个目标涉及患者的有效诊断和在治疗规划中辅助临床医生。特别地，本发明的一个目标是提供一种医学分析系统，该系统在实现该目标和其它目标时解决了上面提到的现有技术中存在的问题。

因此，本发明的第一方面涉及用于对从至少一名患者获得的数据进行临床前(pre-clinical)和/或临床分析的医学分析系统，该系统包括：

内部数据库(IDB)，该数据库包括数据、分析结果、流程定义(flow definitions)和工具定义(tool definitions)的集合，以及用于利用数据库仓库(database repository)的工具的其他相关数据，

数据库访问单元(database access unit，DA)，该单元适于提供对所述内部数据库的访问，

流程定义单元(flow definition unit，FD)，该单元提供可配置分析流程(configurable flow of analysis)的执行以及多个数据模态(data modalities)的可视化，所述多个数据模态包括：

第一生物分子模态，包括与所述患者有关的生物分子数据，和

第二临床模态，包括与所述患者有关的临床数据，

工具执行引擎(TEE)，具有所述系统的界面，以配置和启动(instantiate)工作于一个或多个所述数据模态的一个或多个工具，

工具仓库(tool repository)，该仓库包括所述系统被配置来执行的工具的集合，所述工具遵守一组规则以便使其能在图形用户界面(GUI)中可视化它们的执行，

一个或多个相关联的外部数据库(EDB)，所述一个或多个外部数据库代表存储在所述系统本身中的数据或存储在不同于所述内部数据库(IDB)的数据库中的数据，和

图形用户界面(GUI)，所述界面同时可视化数据、分析结果、和一个或多个工具执行的结果，并且其中所述界面进一步适于同时可视化：

1)所述第一生物分子模态的结果，和

2)所述第二临床模态的结果。

本发明特别地，但并非排他地，有利于获得用于设计个人化治疗的多模态方法(multimodal approach)。因此，本发明推动了完全集成的基因组设计和分析工具箱，其使得能够访问关于患者的临床信息以及有关的分子信息(例如，基因表达以及差异化DNA甲基化)。

此外，本发明推动了多种机器学习工具(machine learning tools)的集成，所述机器学习工具专用于a)基因表达谱化，b)DNA甲基化谱化，c)组合临床参数与分子水平信息，d)组合临床、生物学知识和分子数据，和/或d)通过统计工具集成分子模态。

本发明允许可配置的生物信息工具执行流程，便于使用先进方式分析多个模态的数据和浏览来自印鉴发现(signature-discovery)方法的数据和结果。其向新的和现有的工具的(动态组)提供精简接口(lightweight interface)并使它们能够在改变很少或不改变的情况下执行。

该方案的优点在于分析过程的快速实行和执行，并且容易将方法和结果传达给临床医生和其他感兴趣方。

根据第一方面的系统可应用在处于临床前情形的至少一个患者。一个优点是关于所述患者的数据和信息可被所述系统使用来发现生物分子印鉴。这样做的另一个优点是所述系统可在系统中集成所述患者的数据以扩展可用数据。

根据第一方面的系统还可被应用于一组患者。

根据第一方面的系统可应用于处于临床情形的一个患者。因此，所述系统使得医师能够鉴别出患者数据中的任何生物分子/临床印鉴，从而辅助对患者的诊断和进一步的治疗。

按照前述内容，根据第一方面的系统还可以作为临床决策支持系统(CDS)。

根据第一方面的系统还可被配置为使得所述第一生物分子模态和所述第二临床模态是可通过机器学习算法集成的，所述集成的结果在所述图形用户界面中是可视化的。这种设置的主要优点是其使得能够在非常大和复杂的数据收集中发现复杂的生物分子印鉴。

进一步地，根据第一方面的系统还可被配置成使得所述第一生物分子模态和所述第二临床模态是可通过统计算法集成的，所述集成的结果在所述图形用户界面中是可视化的。

根据第一方面的系统还可被配置为使得所述第一生物分子模态和所述第二临床模态是基于它们各自的基因组注释(genomic annotation)可集成的，所述集成的结果在所述图形用户界面中是可视化的。

在一个另外的实施方式中，根据第一方面的系统可被配置为使得所述第一生物分子模态是基于高通量数据采样模态的。所述系统因此使得能够在包括其他模态数据的环境中分析高通量的数据。

根据第一方面的系统可被配置为使得由所述高通量数据采样模态提供的样本包括关于至少100.000个参数/物种(species)的数据。

根据第一方面的系统还可被配置为使得所述第一生物分子模态选自于由高通量基因表达谱化、DNA甲基化状态谱化、比较基因组杂交分析所组成的组。这些模态生成大且复杂的数据集，其可被应用于所述系统并用来鉴别所述模态的生物分子印鉴。

在根据第一方面的系统的一个特定版本中，所述流程定义单元(FD)包括至少一个另外的生物分子模态。该版本的系统集成了更多的生物分子模态。

在根据第一方面的系统的一个另外的版本中，所述另外的生物分子模态选自于由高通量基因表达谱化、DNA甲基化状态谱化、比较基因组杂交分析、和SNP谱所组成的组。

在根据第一方面的系统中，所述患者可具有临床病症(clinical condition)，选自于由癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病所组成的组。该系统的一个优点是其使得能够使用所述系统来发现与具体病症相关的生物分子和临床印鉴，以及接着将所述系统和印鉴应用于临床设定中。

在第二方面中，本发明涉及用于发现与具体临床病症相关的生物分子或临床印鉴的方法，包括使用根据本发明第一方面的医学分析系统。

本发明特别地，但并非排他地，有利于用于发现与临床病症有关的生物分子或临床印鉴，所述临床病症选自于由癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病所组成的组。

更特别地，但并非排他地，有利的是本方法可以发现与乳腺癌或结肠癌有关的生物分子或临床印鉴。已知乳腺癌和结肠癌与异常的基因表达谱/DNA甲基化谱相关联。

进一步地，根据第二方面的方法可以用于发现印鉴，所述印鉴选自于由基因表达印鉴、DNA甲基化状态印鉴、比较基因组杂交印鉴、和SNP印鉴所组成的组。这些模态典型地生成大量数据，其需要高容量系统来显示任何生物分子存在。

在第三方面，本发明涉及用于临床决策支持的方法，包括使用根据本发明第一方面的医学分析系统。

本发明还提供了，患者数据被应用于所述系统用于鉴别与临床病症相关的生物分子或临床印鉴。该实施方式的优点是所述生物分子/临床印鉴的应用可被用来指示患者是否可能患上与所述印鉴相关的临床病症。

在第四方面，本发明涉及计算机程序产品，该计算机程序产品适于使得计算机系统能够控制根据本发明第二方面的分析方法，其中所述计算机系统包括至少一部具有与之相关的数据存储装置的计算机。

本发明的这一方面是特别地，但并非排他地，有利的，因为本发明可通过使得计算机系统能够实施本发明第二方面操作的计算机程序产品来实现。因此，设想的是一些已知的医学分析系统可通过在控制所述医学分析系统的计算机系统上安装计算机程序产品而变成根据本发明运行。这种计算机程序产品可以在任何种类的计算机可读介质上提供，例如，基于磁或光的介质，或是通过基于计算机的网络，如互联网提供。

本发明的第一、第二、第三和第四方面每个都可以与任何其他方面进行组合。本发明的这些及其他方面从后面描述的实施方案将来看将是显而易见的并且将参照后面描述的实施方式进行阐释。

附图说明

本发明现在将参考附图，仅以实施例的方式进行解释说明，其中：

图1显示出所述系统的体系结构。

图2显示出数据访问、分析、和临床决策的概念性流程方案(conceptual flowscenario)。

图3显示出所述系统关于分析环境(analysis context)和视觉显示的状态。

图4显示出本发明系统的主屏幕的一个实例。

图5显示出从数据库下载患者信息的一个实例。

图6显示出与组织病理模态(histopathological modality)有关的屏幕的一个实例。

图7显示出与比较基因组杂交(CGH)模态有关的屏幕的一个实例。

图8显示出与基因表达模态有关的屏幕的一个实例。

图9显示出与DNA甲基化模态有关的屏幕的一个实例。

图10显示出与两组基因表达印鉴探察有关的屏幕的一个实例，一个只使用基因表达数据，而另一个使用基因表达数据连同DNA甲基化数据。

图11显示出用于基因表达印鉴的特征浏览器的一个实例。

图12显示出用于基因表达印鉴的基因卡(Genecard)链接的一个实例。

图13显示出与DNA甲基化印鉴探察有关的屏幕的一个实例。

图14显示出用于DNA甲基化标志的特征浏览器的一个实例。

图15显示出用于甲基化印鉴的临床决策支持(CDS)屏幕的一个实例。

图16显示出与遗传算法概括工具 (genetic algorithm summary tool)有关的屏幕的一个实例。

图17显示出与两个遗传算法概括工具输出压缩有关的拆分屏幕的一个实例。

图18显示出与基因同时出现(co-occurrence)工具有关的屏幕的一个实例。

图19显示出与甲基结合位点工具有关的屏幕的一个实例。

图20显示出与从上到下分级分选(top down hierarchical sorting，TDHS)有关的屏幕的一个实例。

图21显示出与基因表达过滤工具有关的屏幕的一个实例。

图22显示出与多模态相关特征分析—图形输出有关的屏幕的一个实例。

图23和24显示出与多模态相关特征分析—文本输出有关的屏幕的一个实例。

图25显示出用于基因表达的CDS屏幕的一个实例。

图26显示出基于遗传算法(GA)工具的四种可能的输出，该工具被设计为自动演化(evolve)最佳预测样品的基础真实印鉴标记化(ground truth labeling)的特征子集。

图27显示出发现的所有候选特征子集与在后处理分析中发现有意义的特征子集的性能值的比较。

图28显示出可视化多个特征的基因表达印鉴的特征浏览器的一个实例。

图29显示出描述产生基因印鉴元数据(meta－data)可视化方法的流程图。

图30显示出呈现基因印鉴元数据分布的一个实例。

图31显示出从上到下分级分选(TDHS)的一个实例。

图32显示出基因表达和DNA甲基化数据的相关性的一个实例。

现在，本发明将在接下来进行更加详细地介绍。

具体实施方式

特别是在现今的癌症护理中，存在着对基于分子生物信息学的翻译临床工具(translational clinical tools)的需求。发明人利用本发明公开了一种用于临床决策的工具，使得临床决策依赖于基因组和表观基因组测量模态以及临床参数例如组织病理学结果和存活信息。

本发明的一个目标是促进发现临床病症的分子谱并使得它们能够用于临床设定中。本发明描述了新技术以从组织样品获得基因组信息并辅助诊断、决定适当疗法、及后续措施。

发明人的Physician Accessible Preclinical Analytics Application(PAPAyA)集成了强大的统计和机器学习工具组，其可以对不同模态间的连接起到杠杆作用。所述系统可容易地扩展和重新配置以支持将已有研究方法和工具集成在强大数据分析流水线中。PAPAyA使得能够对来自临床研究的数据进行分析，设计新的临床假设，并且通过为临床医生提炼分子谱而有助于临床决策支持。带有其关于乳腺癌分子谱的表现的实例的当前PAPAyA配置被用于呈现工作中的所述系统。

发明人提出一种用于设计个人化疗法的多模态分子方法。特别地，所述方法聚焦于肿瘤亚型化并且鉴别将最有可能响应化疗(如Herceptin)的患者亚群，产生预言性的诊断测试。

发明人提供了一种基因组设计和分析工具箱的原型，其改进表征乳房和卵巢癌症患者活组织检查样本的分子谱的临床前发现。发明人还提供了来自决策分析工具组的结果，其有助于患者分层并预测治疗响应。

本发明的系统提供了一种可配置平台，其使得能够基于高通量分子测量对临床研究结果进行分析和诠释。本发明的系统组合了生物信息学软件方法，以用于翻译研究、临床前，并部分用于临床应用。本发明的系统覆盖以下方面：

－多模态的集成分析以推断关于最重要的基因/位点(loci)的关联信息，其可能有助于结果和患者状态(并将被用于治疗应答)。除了临床参数，如组织等级、结(node)、ER/PR状态和结果外，发明人还提供了加入来自基因表达和DNA甲基化的患者信息。

－组合各种机器学习工具来分析该数据(在文献中对这些工具的介绍之外)

－使用这种集成的分析用于诊断、预后、治疗应答、及后续措施。

发明人提供了来自决策分析工具组的结果，以浏览患者信息和基因印鉴，并单独地分析基因表达谱以及差异化的DNA甲基化谱，并基于相关性和同时出现做出推论。这些工具依赖于高通量基因表达谱化以及基于患者信息比如肿瘤尺寸、激素和组织病理参数的其他临床预测和预后指数。

发明人使用基因组设计和分析工具箱(Genomic Design and Analysis Toolbox，GDAT)，称为Papaya，提供了这些工具和结果，其包含帮助乳腺癌和卵巢癌阶段临床前发现的方法。具体地，这些工具包括特征子集选择、分类、聚类(clustering)方法和从上到下分级分选以及决策分析，加入关于蛋白质-DNA相互作用、临床预后指数、DNA甲基化和基因表达谱化数据的生物学知识。我们呈现来自杠杆化多个分子模态，例如高通量基因表达谱化和DNA甲基化谱化的GDAT的结果，从而进一步改进诊断。

本发明的系统通过组合所发现的分子印鉴和成像及额外的临床信息提供了全面的视角。此外，所述系统可被用作形成诊断、选择治疗方向(例如，激素或化疗)并适当地监视疾病的发展和后续情况中的辅助工具。所述系统还可用于提供分子信息包(例如，组合的分子印鉴和对应的元数据)，作为对临床医生或第三方决策支持系统的服务。另外，所述系统可被用于开发和提供分子－药物－增强的临床指南，其可根据患者的分子谱进行定制。

高通量基因组数据分析的一些挑战在于与克服高测量和生物噪声，大量的特征和有限的患者样本。本发明提供利用多个分子模态和临床信息的统计学上严密的方法，这可能消除许多伪信号(spurious signals)，因此我们可以聚焦于疾病的根本生物学(underlying biology)。

将更多传统临床结果预测因子与从肿瘤本身得到的分子信息(例如，甲基化和基因表达)融合被认为是有用的，但是学习如何诠释概率信息并将结果与医师和患者交流是一个主要挑战。本发明提供了该问题的解决方案。本系统可辅助个人化医学在临床中的应用。

存在着对将患者的临床、组织病理、和分子谱考虑在内的集成决策支持系统的清晰临床需求。这样的系统将提供一站式解决方案，来帮助肿瘤会诊委员会(tumor board)(放射科医师、病理医师、外科医生、放射治疗医师和肿瘤医师)做出有足够信息的决策。

上面的介绍主要是用于临床研究的临床前实施方式。在另一实施方式中，本发明可以像临床应用那样类似地使用。

系统

本系统的结构体系具有以下组件，还可参照图1A；

GUI：图形用户界面组合了同步显示数据、分析结果、以及工具执行结果的组件。

数据访问(DA)：提供对研究信息、测量、和分析结果的数据库的访问。

流程定义(FD)：提供基因组数据分析和临床/分子数据浏览步骤的可配置流程的执行。

工具执行引擎(TEE)：提供应用界面，以无缝配置和启动来自各种平台的工具。这允许应用扩展，新工具容易地无需改动或改动很少增加到所述配置和流程中。

内部数据库(IDB)：研究数据、分析结果、流程和工具定义的集合，以及用于利用数据库仓库的外部工具的任何其他数据。

工具“仓库”(TR)：本申请被配置来执行的工具的集合。这些工具服从基础规则组以便可以可视化它们的执行。

外部数据库(EDB)：外部工具使用的所有数据及其他文件的集合，存储在文件系统的某些位置，或存储在不同于IDB的数据库中。

本发明系统的轻微改动的结构体系在图1B中示出，其中图1A的流程定义(FD)和数据访问(DA)被组合到图1B的流程控制中。类似地，通用用户界面(general userinterface，GUI)被细分成图1B中所示的用户界面、显示和操作模块。如图1B中所示，下方的结构也被小小地改动，其中数据库管理系统与模块“工具”和“外部数据”一起示出。

因此，本发明的一个方面涉及用于对从至少一名患者获得的数据进行临床前和/或临床分析的医学分析系统，该系统包括：

内部数据库(IDB)，该数据库包括数据、分析结果、流程定义和工具定义的集合，以及用于利用数据库仓库的工具的其他相关数据，

数据库访问单元(DA)，该单元适于提供对所述内部数据库的访问，

流程定义单元(FD)，该单元提供可配置分析流程的执行以及多个数据模态的可视化，所述多个数据模态包括：

第二临床模态，包括与所述患者有关的临床数据，

工具执行引擎(TEE)，具有所述系统的界面，以配置和启动工作于一个或多个所述数据模态的一个或多个工具，

工具仓库，该仓库包括所述系统被配置来执行的工具的集合，所述工具遵守一组规则以便使其能在图形用户界面(GUI)中可视化它们的执行，

1)所述第一生物分子模态的结果，和

2)所述第二临床模态的结果。

在一个实施方式中，该医学分析系统被应用于至少一个在临床前情形(pre-clinical situation)中的患者。在另一个实施方式中，该医学分析系统被应用于一组患者。在又一个实施方式中，该医学分析系统在临床情形中被应用于一个患者。在又一个实施方式中，该医学分析系统起临床决策支持系统(CDS)的作用。

在所述临床前情形中，患者数据可被应用于所述系统以扩展数据和/或用于鉴别与癌症、心血管疾病、代谢性疾病、胃肠疾病、或神经系统疾病范围中的临床病症相关的生物分子或临床印鉴。

在本发明的一个实施方式中，本发明的系统是作为辅助个人化疗法设计的多模态方法。

所述系统提供：

－完全集成的基因组设计和分析工具箱，其使得能够访问关于患者的临床信息以及关联的分子信息(例如，基因表达以及差异性DNA甲基化)

－多种机器学习工具的集成，所述机器学习工具专用于a)基因表达谱化，b)DNA甲基化谱化，c)组合临床参数与分子水平信息，d)组合临床、生物学知识和分子数据，d)通过统计工具集成分子模态。

本发明允许生物信息工具的可配置执行流程，便于以先进方式来浏览数据和来自印鉴发现过程的结果。

其向现有工具(的动态组)提供了精简接口并使它们能够改变很少或不改变而被执行。

模态

在本发明的一个实施方式中，根据在前权利要求任一项所述的医学分析系统，其中所述第一生物分子模态和所述第二临床模态是可通过机器学习算法集成的，所述集成的结果在图形用户界面中是可视化的。

在本发明的第二实施方式中，根据在前权利要求任一项所述的医学分析系统，其中所述第一生物分子模态和所述第二临床模态是可通过统计算法集成的，所述集成的结果在图形用户界面中是可视化的。

在本发明的第三实施方式中，根据在前权利要求任一项所述的医学分析系统，其中所述第一生物分子模态是基于高通量数据采样模态的。

在本发明情况下高通量分析指的是解决生物或临床问题的生物数据的大规模分析，在提交本申请的时候使用传统方法是难以实现的。高通量进一步由生成分析数据的模态限定。

高通量基因表达分析典型地涉及对表达谱的分析，包括每个样本数千表达产物的数据。来自单个微阵列实验的基因表达数据可追踪数量范围从几千到几十万的基因在几百种刺激下的活动。

高通量DNA甲基化状态谱化(比如高通量差异性甲基化杂交(DMH)微阵列或MOMA微阵列)包括每样本100,000个CpG位点/岛(sites/islands)的数据。

质谱蛋白质组学典型地涉及在测量装置(measurement setup)中同时测量蛋白质肽的100,000个质荷比(m/z)值，其包括一个或多个质谱仪和额外的步骤以聚焦生物样本中的一种特定蛋白质子集。

因此，在一个实施方式中，高通量被定义为在单个测量(例如，在微阵列上)中从100,000到几百万范围的这种测试。具体地，基因表达数据典型地测量10,000个基因表达谱，DNA甲基化测量CpG 岛中100,000个碎片的甲基化状态，质谱蛋白质组学典型地测量100,000个m/z值。

在另一实施方式中，高通量指的是适用于所有模态的区分水平，将是它们的使得数百万生化、遗传、或药理测试能够快速同步执行的性能。

在一个实施方式中，由所述高通量数据采样模态所提供的样本包括关于至少100.000个参数/物种的数据。

本发明的系统使得能够集成宽范围的模态，包括但不限于高通量模态。

在一个实施方式中，所述第一生物分子模态选自于由高通量基因表达谱化、DNA甲基化状态谱化、比较基因组杂交分析、质谱蛋白质组学、单核苷酸多态性(SNP)及其他全基因组测序模态所组成的组。

在另一实施方式中，第一生物分子模态选自于由组织学模态，比如免疫组织学、ELISA、酶活性、PCR如Q-PCR、RT-PCR所组成的组。

在一个实施方式中，第二临床模态包括与患者有关的临床数据，涉及的数据比如是年龄、性别、来自患者体检的信息以及其他由临床医生收集的信息(例如，来自询问患者的数据)。

除了第一生物分子模态，所述系统使得能够集成多个生物分子模态。因此，在一个另外的实施方式中，流程定义单元(FD)包括至少一个另外的生物分子模态。

所述额外的一个或多个生物分子模态或模态组可以是本文描述的任意生物分子模态。因此，在一个实施方式中，所述另外的生物分子模态选自于由高通量基因表达谱化、DNA甲基化状态谱化、比较基因组杂交分析、和SNP谱所组成的组。

在一个另外的实施方式中，第一生物分子模态和所述第二临床模态的集成是基于它们各自的基因组注释可集成的，其中所述集成的结果在图形用户界面中是可视化的。所述基因组注释可以是基因名称、功能、通路信息、Gene Ontology。

系统中的流程、状态和处理

图2提供了一种非限定性的概念性流程方案。为了实施该系统，在本实施方式中定义出五种屏幕类型：

患者屏幕：

目的：论证验证患者(样本)如何与印鉴数据库匹配。

数据：样本(包括甲基化/表达谱、和既往病史、临床指数)、印鉴。

工具：与印鉴匹配，有关的(匹配的)印鉴的概括。

控制：下载患者；扩展印鉴；选择印鉴概括(例如，基因等级、通路、……)；决策支持。

印鉴屏幕：

目的：示出印鉴的内容和性能(任选地在样品或一组印鉴的环境中)

数据：印鉴(一组或多组基因/位点)、注释(到额外资源的链接，如NCBI)。

工具：匹配、有关的(匹配的)印鉴的概括(统计数据概括)。

控制：导航到“分析”或导航到分析中的早期步骤，改变视图从而强调或去掉视觉元素(或甚至完全地改变视图—例如，从顺序的基因列表到热图)。

工具1对工具2屏幕：

目的：提供同时显示2个工具输出的方式，为对比目的和多模态数据集成具有从工具1“驱动”工具2的选项。

数据：任何数据—取决于工具

工具：任意工具。

实施例：1)工具1=分级聚类 vs. 工具2=从上到下的分级分选。实施例2)关于基因表达数据的工具1 vs. 关于甲基化数据的工具1。

控制：提供参数并驱动工具2。导航返回被调用的地方。

工具屏幕：

目的：在预定义的环境信息(例如，当前样品、当前印鉴、当前来自其他工具的输出)内执行工具

数据：任何数据—取决于工具

工具：任意工具。

控制：基础(Rudimentary)参数输入。应使用默认参数，并且如果需要的话可以在扉页(fly)上改变。为后续工具调用取得一些流程环境并更新环境。导航返回被调用的地方。导航到类似工具。导航到在线路中位于其前方的工具。

CDS屏幕：

目的：可视化关于如何可以将患者样本匹配结果翻译成CDS类输出的一种或多种想法。

数据：基于分析和注释的数据(Sata)

工具：无。仅给出信息。例如，临床指数、疗程规划

控制：一些数据可含有到外部资源的超链接(例如PubMed出版物、通路信息)。导航返回被调用的地方。

在本发明的一个实施方式中，所述流程是使用状态和可能的转换(动作)定义的，如图3中的实例中那样。每个状态还具有与之相关联的屏幕类型。为了实施允许的转换，在该实施方式中我们具体规定：

－来源状态：转换起源的状态

－到达状态：得到的状态

－介绍：动作的自定义文本(free-text description)介绍

－动作类型：工具调用(将调用外部工具)；常规(将执行内部定义的动作)；按钮(将从屏幕上提供的按钮调用外部工具)

－工具：如果可用的话，是对要调用的工具的介绍的指示器。

－现有限制(constraint)：需要通过先前的动作设置或解除记号(flag)以便允许该动作发生。

－设置限制：该动作将设置的记号。

－解除限制：该动作将解除的记号。

应用从初始状态开始。一旦输入状态，所述应用查询转换表并基于输入的状态以及系统中的设置和解除的限制编译所有可能的转换的子集。流程定义单元使用该规范在用户浏览数据和工具时维持系统的状态。

以下的数据结构定义了流程、链接到所述流程的工具以及其参数：

流程定义：

工具定义

工具参数定义

下面提供了基因工具的非穷举列表。根据应用和功能，所述工具被分成四组：

预处理：

i. 探针水平性能的分析

ii. scaling

iii. 归一化

生物标志发现：

i. 特征分级

ii. 存活分析

iii. 特征子集选择

iv. 过滤器

v. 封装器(wrappers)

跨模态工具：

i. 来自两个或更多个模态的数据的可视化

ii. 从一个模态到另一个模态的翻译

iii. 测量的模态和各自生物标志的关联

临床决策支持工具：

i. 基于一个或多个患者样本谱的印鉴表征

ii. 跨多个模态的一个或多个患者谱的可视化

iii. 关于患者谱仓库一个或多个患者谱的可视化。

系统的应用

本发明组合了将用于翻译研究、临床前和临床应用部分的生物信息学软件工具。

所述系统允许在系统处理线路中实施以患者为中心的分析和信息学辅助的发现，其能够为特定临床问题进行微调。例如，通过多模态回溯性(retrospective)乳腺癌数据集成分析的两用方案(two use scenarios)。

在已经选择了具体患者样本后，向用户呈现了以患者为中心的关于肿瘤的基础临床数据，例如肿瘤尺寸、阶段和等级，以及组织病理数据如激素受体状况(雌激素受体ER和孕酮受体PR)和ErbB2增殖。

此外，临床数据浏览器(Clinical Data Explorer)还提供了对从高通量基因表达、DNA甲基化和拷贝数测量得到的印鉴的访问。新的印鉴也可使用PAPAyA内部的发现算法从单个高通量测量或高通量测量的组合得到。这种印鉴满足了不同的临床需求——良性vs. 恶性、肿瘤亚型、和无复发存活。

从所述系统中的基因表达标签，用户可以访问从mRNA谱化得到的印鉴。例如，在图10中，在浏览印鉴列表时的所述系统界面的截屏将患者分类成属于管腔型或基底细胞型。这里，候选印鉴之一被扩展以获得对它们的成员基因(作为前三个基因包括GIMAP6、TBCC、CRABP2)的访问，采用对基因卡和特征浏览器的访问。可以利用特征浏览器工具(参见图11，和28)探究这些基因之一，所述工具将按临床参数分组的任何给定基因的表达值绘制成图。用户可观察到该基因的表达水平还与激素状况(激素阳性表达不足和激素阳性过度表达)及肿瘤等级(在I和II级中过度表达，和在III级中表达不足)相关联。该工具因此使得用户能够洞察在印鉴发现过程中没有使用的临床关联性。这可以被用来建立基因意义以及其中发现这些基因的印鉴的置信度(confidence)。

在另一使用方案中，所述系统被用来基于DNA甲基化微阵列测量探究分子印鉴(参见图13)。为了评估所述印鉴，使用了不同的工具，其对于基因组中的具体位点可视化甲基化状态(参见图14)。

因此，本发明的一个方面涉及用于发现与具体临床病症相关的生物分子或临床印鉴的方法，包括使用根据在前任一项权利要求所述的医学分析系统。

数据可以从患有任何临床病症的患者获得。在本发明的一个实施方式中，患者具有选自于由癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病组成的组的临床病症。

由所述系统发现的生物分子或临床印鉴可被应用于临床，例如，用于按临床病症将患者分层。

在一个实施方式中，所述临床病症选自于由癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病所组成的组。在一个特定实施方式中，癌症是乳腺癌或结肠癌。

所述印鉴可涉及本发明的系统所采用的任何模态或任何模态的组合。

因此，在一个实施方式中，所述印鉴是基因表达印鉴、DNA甲基化状态印鉴、比较基因组杂交印鉴、和SNP印鉴。

在一个实施方式中，所述系统提供了对从分子诊断和监视测试得到的复杂数据进行分析的手段。这些目标测试从诊断观点向治疗规划和向治疗的后续措施提供了患者疾病发展的分子视角。

在另一实施方式中，本发明的系统可被用于开发决策支持系统，其为临床医生贯穿整个照料周期提供帮助。这些系统通过将发现的分子印鉴与成像及治疗规划信息进行组合而提供全面的视角。这些系统可以建议疗法选择(例如，激素或化疗)和用于监视疾病发展的合适图像模态。

在第三实施方式中，所述系统被用于向临床医生或向第三方决策支持系统提供分子信息包(例如，带有相关元数据的分子印鉴)。

在又一实施方式中，所述系统被用于开发可根据患者分子谱定制的增强的临床准则。这种准则在分子医学中可能是有用的。

发明人进一步提供了以完全不同的方式用于临床设定中—因此，发明人已经提供了不同的方式来查看和呈现数据，因而允许临床决策支持(CDS)被应用于患者数据。PAPAyA的CDS部分参予对患者肿瘤概况的说明。其关于所选印鉴提供了个人化视角。

从所述发现方法得到的印鉴最终被用于分层患者样本，并关于数据库中所有患者可被用于基于印鉴的表现在分层中指定置信度。当前，PAPAyA系统的CDS模块包括基于支持向量机(Support Vector Machine)的分类器，用于使用基因表达或甲基化谱化数据预测肿瘤亚型。这些统计资料可向临床医生提供根据患者生理状态调整治疗的洞察力。乳腺癌临床预后指数比如Nottingham Prognostic Index和St. Gallen Consensus也可以容易地结合到患者评估中。另外，所述结构体系允许将第三方印鉴集成到所述系统中。

本发明的一个另外方面涉及用于临床决策支持的方法，包括使用根据在前任一项权利要求所述的医学分析系统。

所述方法反映了所述印鉴发现方法持续到所述系统和印鉴在临床应用中的应用中。

因此，在一个实施方式中，患者数据被应用到所述系统中用于鉴别与临床病症相关的生物分子或临床印鉴。

应当注意，在本发明的方面中的一个的上下文中所介绍的实施方式和特征也能应用于本发明的其他方面。

本申请中所引用的所有专利和非专利参考文献，都通过引用全文结合于此。

现在将在接下来的非限定性实施例中进一步详细介绍本发明。

实施例

实施例1

应用以具有下载的默认患者的分析屏幕开始(图4)。用户可以从该屏幕下载患者的信息并开始进行在基因组设计和分析工具箱(GDAT)中提供的不同种类的分析。所示的第一模态是组织学，此处可以看到在患者样本上实施的组织病理分析的概要。

从数据库下载患者信息

示出了来自数据库的总结的患者(样本)信息，并且应用允许选择(高亮)患者进行进一步分析(图5)。

实施例2

组织病理模态

在该屏幕中显示了给定患者的组织病理分析的概要，包括雌激素受体，孕酮(Progesteror)受体，由FISH导致的Her2过度表达和免疫组织化学的状态(图6)。

实施例3

CGH模态

与样本相关的比较基因组杂交(CGH)数据，如基因扩增、缺失数等，以及来自ROMA数据(代表性寡核苷酸微阵列分析)的样本Firestorm指数的概要。参见图7。

实施例4

基因表达模态

样本的基因表达数据的概要，允许进一步探究基因表达印鉴等(参见图8)。

实施例5

示出了通过样本的甲基化寡核苷酸微阵列分析(MOMA)所得到的差异性甲基化数据的概要。这也允许进一步探究潜在的基于甲基化的印鉴(参见图9)

实施例6

探究基因表达印鉴

该屏幕可通过点击基因表达模态屏幕右下角处的“印鉴”按钮获得(参见图10)。示出了通过单独使用基因表达数据鉴别的印鉴以及使用基因表达和甲基化数据分析发现的印鉴。示出了根据印鉴与特殊患者的统计关联性排序的最前面的印鉴。点击在屏幕左侧上的任何印鉴提供了包括在该印鉴中的所有基因的概述。设有到单独基因的外部数据资源的链接，比如“特征浏览器(FeatureBrowser)”和“基因卡(Genecard)”。

实施例7

基因表达印鉴的特征浏览器

当为特定基因调用特征浏览器时，该工具显示基因表达水平在根据不同临床注释分选的所有患者中的分布，所述注释比如是激素受体(HR)状态、Her2FISH状态和肿瘤等级状态(参见图11)。

实施例8

基因表达印鉴的基因卡链接

对于任意给定基因点击“Genecard”链接，打开互联网浏览器，其允许用户从外部资源得到公众能够得到的有关基因的信息(参见图12)。

实施例9

探究甲基化印鉴

与基因表达印鉴相似，用户可以选择在甲基化模态内探究DNA甲基化印鉴。这还允许使用特征浏览器链接进一步探究甲基化标志(markers)(参见图13和14)。

用于甲基化印鉴的CDS屏幕

在该屏幕中(参见图14)，甲基化印鉴被用于聚类患者，图中，当前患者被用’X’记号进行印鉴。这允许用户基于患者的甲基化谱查看患者临床注释。

左边的“聚类甲基化(Cluster Methylation)”按钮允许用户根据任何甲基化印鉴聚类患者，因而提供了对许多与此处所示的聚类输出相似的不同聚类输出的访问。

实施例10

发现部分

发现部分提供了对许多发现工具的访问，这些工具被用于生成所述印鉴。这里，我们包括统计方法和公共的以及私有的机器学习算法。单独的工具可使用左边的按钮进行访问(参见图16)。

实施例11

遗传算法概括工具(Genetic Algorithm Summary Tool)

该工具显示了基于遗传算法的印鉴发现工具的学习和验证表现的概要。该工具可被用于在单独的屏幕上或作为拆分屏幕显示学习和表现，如图16和17中所示。

实施例12

基因同时出现工具

该工具显示了由遗传算法发现的印鉴内的基因同时出现。所述工具可用来通过点击“GA Gene Nwks (EXP)”按钮来观看仅使用基因表达数据发现的印鉴的基因同时出现，或使用“GA Gene Nwks (EXP-MET)”按钮来观看通过利用基因表达和甲基化数据两者发现的印鉴的基因同时出现(参见图18)。

实施例13

甲基结合位点工具

该工具显示差异显著的甲基化探针(序列)的相关甲基结合位点，参见图19。

实施例14

从上到下分级分选工具

从上到下分级分选(TDHS)与聚类算法相似，但与其中两个图案显示总体类似性的分级聚类相反，其实施最相似图案(其中局部匹配度高)的分选(参见图20)。

实施例15

基因表达过滤工具

该工具允许用户基于n倍表达强度变化过滤基因表达数据(参见图21)。

实施例16

多模态关联特征分析—图形输出

该工具显示了基因表达数据和差异性DNA甲基化数据之间关联性的输出。所述关联性是基于患者结局测量的。样本需要在存活的(正面结局)类别里正相关，而在死亡的(负面结局)类别里负相关(参见图22)。多模态特征分析在图23和24中示出。

实施例17

临床决策支持部分

基因表达的CDS屏幕

从印鉴屏幕(参见图25)，用户可以选择特殊的印鉴并然后移动到临床决策支持(CDS)屏幕，其使用选出的印鉴给出了该特定患者的分层信息。

这还提供了关于给定患者的印鉴次序的信息、使用选择的印鉴进行分层预测的可能性，以及印鉴的长度f(印鉴中的特征数量)。

该屏幕允许临床专家(用户)返回印鉴屏幕或患者数据屏幕。

使用支持向量机分类器的遗传算法封装器的特征子集选择

基因表达数据分析的关键阶段是搜寻特征(基因)子集，所述子集本身可以关于患者样本的特定印鉴标记化描述整个数据集。发明人使用的是基于遗传算法(GA)的工具，该工具被设计为自动地演化最好地预测样本的基础真实印鉴标记化的特征子集。特别地，(过滤后的)基因表达数据集含有3,501基因表达探针和104个印鉴的患者样本，基于两个乳腺癌亚型组：Luminal和Basal。该工具在用于学习的78个样本和用于验证的26个样本的不同组合上运行100次。对其中患者样本标签也在100次运行的每一次中都重排的数据重复完全相同的设置。该数据以后被用于选择具有统计意义的子集。

在其他后处理任务中，发明人还估测了由我们的工具评价的数百万个子集中的整体错误分布。这为我们提供了对工具性能的粗略表征，以及对比明显不同的运行的方便方法。特别地，比较了研究工具的两种设置。在第一设置中，我们让GA封装器仅基于其在3,501×104个基因表达数据的分类来演化特征子集。在第二设置中，发明人使用来自基于DNA甲基化数据的独立分析的关于大约60%的所述样本的分类信息。在该设置中，发明人组合基因表达和DNA甲基化(错误)分类表现以提供研究中的额外指南。多模态方法的关键想法是甲基化数据充当额外(正交)信息源－限制，其将协助处于广阔研究空间中的研究。

图26显示了该工具中的四种可能的输出。每个图显示的是在两种设置中分类错误的分布。关键结论是：

对于患者的正式的或重排的印鉴标记化两者，具有和不具有添加的基于甲基化的限制，学习表现是相似的。这是少病例多特征(case-poor-feature-rich)数据(3,501个特征vs. 78个样本)的直接结果，这使得所述工具对于几乎任何印鉴标记化都能够匹配数据。

验证表现图证实了我们的工具实际上找出了有意义的特征子集。在仅有表达的分析中，验证表现(对于26个看不见的样本)与重排的标签的表现有相当的不同(中值3.5%错误vs. 41.3%错误)。

甲基化限制的运行中的验证表现也显示了正式的和重排的标签之间的同样的明显不同的验证错误分布(3.2% vs. 40.8%中值错误分类)，而且显示了在甲基化驱动的情况轻微的验证表现改进。

实施例18

使用学习表现的统计意义和预测的标签的概率预估表征印鉴

GA-SVM具有生成具有不同的学习数据表现程度的数千印鉴的能力。虽然GA本身具有选择具有较低的学习错误和较短的长度的印鉴的机制，但是GA-SVM的所得输出仍需要另外的表征。为了做到这一点，使用学习数据的结果标签的100个独立重排独立运行GA-SVM。使用重排实验的GA输出，所述工具使用学习错误在给定尺寸的所有印鉴中的分布来估计Gumbel(I型极值)分布的参数。因此，如果在GA运行中存在尺寸为10到45的印鉴，那么从每一个这些尺寸计算独立的EVD参数。使用GA在发现随机数据的表现良好印鉴中的表现作为背景分布，发明人现在能够鉴别由GA对实际数据鉴别的印鉴是否是具有统计意义的。此外，由于所述大量的基因印鉴，所述工具为多个对比进行调整，并仅选择那些在给定数据中达到了极不可能被偶然发现的学习表现的印鉴(p<0.05%)。在那些通过了该“p值过滤器”的印鉴之中，表现最佳的那些最可能是较大的印鉴。因此，所述工具从通过所述p值过滤器的子集池中选出100个最大的印鉴。

如可以从图27看出的那样，选出的印鉴(蓝色)与由GA-SVM工具生成的所有印鉴相比具有显著更好的验证表现。

最后，选出的基因表达印鉴基于它们的样本预测标签的置信度在每个样本的环境中排序。该置信量度是从由所述印鉴限定的超平面的样本距离的函数。

实施例19

在按临床注释分选的患者中可视化基因表达

一旦发现了在多个类别之间区分患者的基因印鉴，那么关键的是探究和表征所述基因，以便获得对疾病机理的洞察并获得关于它们功能关联性的置信度。乳腺癌微阵列基因表达数据通常提供患者的各种临床参数，比如肿瘤等级、激素受体状态等，其有助于临床医生选择适当的治疗规划。作为探索性的步骤，重要的是评价印鉴中的特定基因如何与临床注释关联起来。例如，人们可能问—辨别luminal和basal癌症亚型的基因—是否在临床注释(如激素受体状态)中显示出聚类如果答案是肯定的，那么激素受体状态(其通常指示疾病的侵略性)可被联系到特定亚型并且进而可生成关于机理的假设。我们的特征浏览器工具使用户能够将根据特定临床注释分选的患者中的基因的表达强度可视化。

所述工具的当前版本聚焦于三个临床注释：1)激素受体状态2)Her2FISH状态和3)肿瘤等级(参见图28)。发明人为这些注释中的每一个都提供了简介。激素受体状态测试显示雌激素和/或孕酮激素是否刺激所述肿瘤。与激素受体阴性(例如ER-)的癌症相比，对激素敏感(例如ER+)的癌症成长稍慢，并具有更好的响应激素抑制治疗的可能性。激素阴性癌症将会对其他种类的治疗产生响应，而激素抑制可能是不需要的。Her2FISH状态确定在乳腺癌组织中HER2蛋白的过度表达。这种表皮生长受体与侵略性乳腺癌(aggressive breastcancer)相关。HER2阳性患者是做Herceptin治疗的良好候选。肿瘤等级是用于癌细胞分类的系统，分类是就在显微镜下观察癌细胞看起来多么异常和肿瘤可能以多快的速度生长和扩散而言。基于癌细胞的显微外观，病理学者通常用四种严重程度来描述肿瘤等级：1、2、3、和4级。1级肿瘤细胞像正常的细胞，并且倾向于缓慢生长和增殖。1级肿瘤一般被认为是行为侵略性最小的。另一方面，3级或4级肿瘤的细胞看起来不像同类的正常细胞。3级和4级肿瘤倾向于迅速生长并且比低级肿瘤扩散得更快。

在本发明的基因表达印鉴发现方法中，将CRABP2(细胞视黄酸结合蛋白2)确定为主导辨别器(lead discriminator)。在图11中，特征浏览器工具显示该基因的表达根据多个临床注释进行聚类。激素受体阳性患者一般比激素受体阴性患者具有更高的CRABP2表达水平。从可视化，人们可能推测到CRABP2与疾病的激素受体通路有关。图28显示了在两种其他基因(其看起来并不遵循相同图案)环境中的CRABP2。快速文献检索披露了视黄酸通路在癌症发展中是重要的。

实施例20

用于基因印鉴的元数据可视化的工具

该工具的目的是提供与基因印鉴相关联的元数据的可视化。基因印鉴是可由统计方法，如遗传算法生成的基因子集。有关印鉴生成的进一步介绍包含在标题为“使用支持向量机分类器的遗传算法封装器的特征子集选择”的部分中。

元数据资源的一个实例是Gene Ontology(GO)。Gene Ontology是作为有向非循环图(acyclic directed graphs)组织的受控条目表。该ontology被分成三个相关ontologies，覆盖分子生物学的基本领域：基因产物的分子功能、它们在多步骤生物进程中的作用、和它们到细胞成分的定位。全世界的研究者使用来自ontology的条目来注释基因产物，即表征基因产物，并将它们提交到GO工程，以被包括在基因注释文件里。在基因注释文件中，每条注释都是单个基因产物与单个GO条目的联合。基因产物可通过条目进行注释，所述条目表明它所在的细胞成分、其分子功能、及其参与的生物过程。

印鉴中基因的注释(元数据)提供了对所述印鉴的生物学意义的理解，因为一些元数据可能比其他的更丰富。接下来的段介绍了生成基因印鉴元数据的可视化的方法。描述该方法的流程图在图29中示出。

1. 得到基因印鉴、期望的生物环境、及显示参数。所述基因印鉴可以是对含有基因子集的列表的索引(index)。用户限定要探究的生物学环境(context)。生物学环境的实例是细胞成分、分子功能、和生物过程。用户还可以限定呈现参数，如要呈现的项目的数量、以及全屏或半屏显示模式。

2. 得到与所述基因印鉴相关的元数据。例如，获得与印鉴中的基因相关的GeneOntology注释。此外，这些注释可被限制到由用户限定的生物学环境。

3. 计算所述元数据的分布。例如，其计算了先前收集的Gene Ontology注释的分布。

4. 按降序或升序分类所述分布。

5. 以视觉辅助方式(例如直方图)呈现前n个分布。该显示的一个实例在图30中示出。

实施例21

寻找甲基结合蛋白DNA结合位点

程序鉴别DNA序列中的甲基结合位点。所述工具已经被设计为采用微阵列探针工作并识别这些探针序列内的具体图案。

发明人将图案研究应用于差异性甲基化的序列。我们的CpG岛阵列含有全基因组(genome -wide)CpG岛。基于后面有统计分析的杂交实验，我们获得了被差异性甲基化的位点(探针/序列)集。这使得对结果的生物学诠释更容易。所述程序的输入包括：

1.索引文件—该文件含有与我们期望在其上进行分析的MspI片段对应的索引列表。索引文件的第一行被认为是标题信息，不进行处理。

2.微阵列探针注释文件—该文件含有探针ID、它们的序列、及其他相关信息。对于MOMA阵列，处理的信息包括：

a.MspFrag ID

b.序列

c.邻近的基因及它们到Msp片段的距离。这些值对于5’和3’方向以及有义链和反义链列出。

第一行被认为是标题信息，并不进行处理。所述程序的整个流程如下：

1. 向阵列中输入微阵列注释文件。

2. 针对索引文件中的每个索引，从注释文件阵列中提取对应的排。在索引文件中规定的索引号和对应Msp片段的排号之间存在直接的对应关系。

3. 将Msp片段排分成值的阵列。

4. 计算离所述Msp片段最近的基因。

5. 执行简单的规则表达匹配来核查所述Msp片段的序列上甲基结合位点的列表(通过其在排阵列中的位置访问)。

6. 将击中数(hits)与最接近基因和最小距离一起打印在文件中。

所述程序打印出文件，具有：

1. 鉴别的特定图案或甲基结合位点

2. MspFragID

3. 离Msp片段(基因符号)最近的基因

4. 离最近基因的距离。

样本打印输出：

实施例22：

从上到下分级分选(Top Down Hierarchical Sorting)

所述方法基于每一列中找出的值来分选所述排，并探测和分组那些在相同列中展示出一个或多个强图案(strong patterns)的排。采用这种分选方法，单独地分析了在不同列中的内容。由于在单独的列上搜寻图案，并且在所述列中无需计算整体量度(globalmetric)，因此我们的方法非常适合并行化，这与标准聚类算法相反。

在所述工具中，该方法被应用为分选(聚类)途径，以检测微阵列实验数据中的图案。微阵列数据的问题是存在探针(特征)数量vs.样本数量的巨大差异。通过聚焦于单个基因(或位点)，示出了单个基因对整个分类和子集选择问题的影响。通过聚焦于单个数据样本/患者，发明人可以对于每个样本/患者检测类似地表达的基因。

在提供的实例中，所述列呈现数据样本而排呈现该具体数据样本的微阵列中基因(位点)的甲基化水平。每个数据样本可来源于不同患者，或一个患者的不同组织。

该分选方法如下进行：

－获取每一列中值的直方图

－对于每一列基于直方图对比分选排。

建立直方图

对于每一列，将“相似的”值分组在一起，并建立显示落入每个仓(bin)中的值的数量的直方图。

分选

接下来，对于每一列，根据具体标准(例如，最大的仓)选择一个或多个直方图仓。基于所述直方图仓，随后根据所选的算法将域(domain)分成排(聚类)的组并且在每一个子域中重复所述选择过程直到达到停止标准。基于生成的聚类，相同的算法规定了所述排上所需的重排(分选)。

实施从上到下分级分析(TDHS)—图31

对于TDHS，首先计算任何列中最长的图案(即，与最大直方图仓对应的那个)。该最大的直方图仓提供了共享“相似”值的最大数量的排。一旦找到所有列中的所有直方图中的最大值(每一列存在单个直方图)，那么选择最大直方图的那列，并且将导致最长直方图仓(即最长图案)的排分组在一起。基于该最长图案，TDHS将排的域分成含有最长图案的那些和其余部分。排的整个域按这种方式被分成在那个列中共享相似性的组和其余部分，获得两个“聚类”(尽管在该单词严格意义上这不是聚类算法，但是我们仍然采用该术语)。在接下来的迭代中，数值的直方图被再次建立，或将计算的直方图更新以反映分成聚类的情况。在两个聚类的每一个中，选择(接下来的)最长的直方图仓并且域被再一次分成两个聚类。在最长直方图的尺寸低于预定阈值时，当达到用户定义的待提取的最长图案数量时，或当两个聚类中的每一个都包含单个排时，迭代停止。最终，我们将具有图案的分级结构(hierarchy ofpatterns)。我们可以选择在每一步骤显示两个聚类或仅显示具有最长图案的那一个。当图案在先前步骤中被分开的时候，这个策略可能遗漏图案(或其部分)。TDHS的一种变型是停止拆分树的一侧—已经含有最长图案的那一侧。这将导致单侧多叶二叉树(one-sidedmulti-leaved binary tree)。

实施例23

基因表达和DNA甲基化数据的关联(图32)

该工具使用基因表达特征和差异性DNA甲基化顺序之间的统计相关性来找出与其他模态中的位点强烈相关的基因(特征)。我们使用方法来将特征从一个模态(RNA和DNA甲基化)关联到另一个并找出最高相关和预测性的特征以便预测未知病例的结果。在一个指示(良性/存活)的的情况下我们选择相关度最好的一对特征，在相反指示(恶性/死亡)的情况下，选择另一对特征。生成了所述特征对的回归模型用于预测。基于该回归模型，我们预测未知病例的指示。在训练的时候，我们使用留一法(leave-one-out method)：除了一个以外所有患者病例都被用于训练，一个病例用于测试。

所述方法基于所提供的数据以两种可能模式使用：

1. 只有来自基因表达数据集的最佳表现印鉴vs.来自差异性DNA甲基化数据集的最佳表现印鉴。

2. 所有基因表达特征都被关联vs.所有差异性DNA甲基化位点。

实施例24

在由亚型分选出患者中可视化片段甲基化

在片段基础上探究和表征关于片段的疾病病理学中涉及的片段是关键的，以得到对它们的功能关联性的一些洞察。乳腺癌具有各种患者临床参数，例如肿瘤等级、激素受体状态等，并且所述癌症可被分组为不同类型。作为探究性步骤，重要的是评价印鉴中的特定片段如何与这些子组关联起来。

所述工具的当前版本绘制给定患者以及从数据库选出的患者组中的给定片段甲基化状态。所述患者根据它们的子组进行分组，患者甲基化状态在黑色长方形中被高亮显示。

实施例25

可视化根据分级聚类的患者的聚类树状图(dendrogram)

当获得印鉴时，重要的是看所述印鉴如何将患者分组为各个亚型。该类型的可视化对基因表达数据以及DNA甲基化数据两者都是可行的。然后我们可以看到不同的子组在临床设定中是否相关—比如关于结果、组织病理学、受体状态等。

对于给定的印鉴，我们使用Pearson相关作为距离量度(distance metric)实施分级聚类。然后使用临床参数比如ER状态，对树状图输出进行注释。所述聚类中给定的患者用X表示。然后，临床医生可以做出决定，判断患者是否被分类到具有高或低复发风险、ER状态等的组中。所述树状图还给出了患者如何可以属于非典型组的概念。有时候，临床参数可能指示患者可能对疗法产生响应并属于ER阳性子组。但在所述印鉴的环境中，所述患者可能被分类为属于具有坏预后的ER阴性组。在这里，临床医生可能必须根据所述子分组按照可能具有不好的风险概况来治疗该患者，尽管经典临床参数指示的是另外的情况。

在最后两个实施例中，描述了概念性系列步骤，包括本发明最关键的创新方面。所述系统被给予高通量(基因表达和DNA甲基化)和200名患者的临床数据，对于所有患者后续存活至少10年。所述数据被下载到内部数据库中，并且所述系统被构造成使用本发明正文中介绍的工具。

实施例26

在本实施例中，使用随着分析发展用户可获得的一系列工具分析基因表达数据。最初，用户选择过滤工具中的一种，并基于该选择，对于基因表达设定所述分析的环境，并且下一组可获得的工具例如是设计用于基因表达数据的分类器周围的遗传算法封装器。该分析的结果是研究人员可以在这个环境中基于额外的可获得的工具的应用进行分析和划分优选次序(prioritize)的候选印鉴集。这些工具中的一种是使用DNA甲基化测量作为用于特征子集选择的遗传算法的额外输入来再分析所述数据。其输出是另外的候选印鉴子集，研究人员同样可以使用系统中注册的更多工具来进行分析和划分优选次序。最后，如果选择这些印鉴，那么PAPAyA应用的一个或多个临床验证和研究部分是完全的。所述创新的这个方面的关键在于在分析环境中连续地为用户提供可应用的工具，所述分析环境包括选择的模态和线路中的阶段(例如，预处理、分析、或后处理)。

实施例27

在本实施例中，在本发明研究模式下发现的一个或多个候选印鉴已经被验证，并且分子诊断测试是临床可用的且是临床实践的一部分。本申请的临床决策支持模式允许临床查看患者的分子谱，但更重要的是，所述系统将基于环境提供对工具的访问，所述工具允许可视化并在其他临床研究的环境中处理患者数据。例如，临床医生可能希望查看最初临床研究环境中患者的概况，其决定了诊断测试所基于的印鉴。再次，所述系统维持了决策支持交互作用的当前环境，并提供给临床医生允许在分子模态和临床模态及其他相关数据资源之间切换的相关工具。

本发明可以以任何适合的形式实施，包括硬件、软件、固件或这些的任意组合。本发明或本发明的一些特征可以作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件实施。本发明实施方式的要素和组件可以以任意合适的方式物理地、功能性地和逻辑地实施。实际上，功能性可以在单个单元中、在多个单元中或作为其他功能单元的一部分实施。这样，本发明可以在单个单元中实施，或者可以物理地和功能性地分布在不同单元和处理器之间。

尽管本发明已经结合特定的实施方式进行介绍，但其并不是想要限于本文中提出的具体形式。相反，本发明的范围仅受所附权利要求的限制。在权利要求中，术语“包括(包含，含有)”并不排除其他要素或步骤的存在。另外，尽管单独的特征可被包括在不同权利要求中，但这些可以有利地组合，包含在不同权利要求中并不意味着特征的组合是不可行的和/或不利的。此外，单数的提及不排除复数形式。因此，提及“a”、“an”、“第一”、“第二”等并不排除复数形式。此外，权利要求中的附图印鉴不应解释为限制范围。

Claims

1.用于对从至少一名患者获得的数据进行临床前和/或临床分析的医学分析系统，该系统包括：

第二临床模态，包括与所述患者有关的临床数据，

1) 所述第一生物分子模态的结果，和

2) 所述第二临床模态的结果。

2.根据权利要求1所述的医学分析系统，其中所述的医学分析系统被应用于至少一名处于临床前情形的患者。

3.根据权利要求1所述的医学分析系统，其中所述的分析系统被应用于一组患者。

4.根据权利要求1所述的医学分析系统，其中所述的分析系统被应用于一名处在临床情形的患者。

5.根据权利要求1所述的医学分析系统，其中所述的医学分析系统作为临床决策支持系统(CDS)起作用。

6.根据权利要求1所述的医学分析系统，其中所述第一生物分子模态和所述第二临床模态是能够通过机器学习算法集成的，所述集成的结果能够在所述图形用户界面中可视化。

7.根据权利要求1所述的医学分析系统，其中所述第一生物分子模态和所述第二临床模态是能够通过统计算法集成的，所述集成的结果能够在所述图形用户界面中可视化。

8.根据权利要求1所述的医学分析系统，其中所述第一生物分子模态和所述第二临床模态是能够基于它们各自的基因组注释集成的，所述集成的结果能够在所述图形用户界面中可视化。

9.根据权利要求1所述的医学分析系统，其中所述第一生物分子模态基于高通量数据采样模态。

10.根据权利要求9所述的医学分析系统，其中由所述高通量数据采样模态提供的样本包括关于至少100.000个参数/物种的数据。

11.根据权利要求1所述的医学分析系统，其中所述第一生物分子模态选自于由高通量基因表达谱、DNA甲基化状态谱、比较基因组杂交分析所组成的组。

12.根据权利要求1所述的医学分析系统，其中所述流程定义单元(FD)包括至少一个另外的生物分子模态。

13.根据前述权利要求任一项所述的医学分析系统，其中所述另外的生物分子模态选自于由高通量基因表达谱、DNA甲基化状态谱、比较基因组杂交分析、和SNP谱所组成的组。

14.根据权利要求13所述的医学分析系统，其中所述患者具有选自癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病的临床病症。

15.用于发现与具体临床病症相关的生物分子或临床印鉴的方法，包括使用权利要求1所述的医学分析系统。

16.根据权利要求15所述的方法，其中所述临床病症选自于由癌症、心血管疾病、代谢性疾病、胃肠疾病、神经系统疾病所组成的组。

17.根据权利要求16所述的方法，其中所述癌症是乳腺癌或结肠癌。

18.根据权利要求15所述的方法，其中所述印鉴是基因表达印鉴、DNA甲基化状态印鉴、比较基因组杂交印鉴和SNP印鉴。

19.用于临床决策支持的方法，包括使用根据权利要求1所述的医学分析系统。

20.根据权利要求19所述的方法，其中患者的数据被应用于所述系统来鉴别与临床病症相关的生物分子或临床印鉴。