CN101989297A

CN101989297A - 用于计算机上的疾病基因相关药物发掘系统

Info

Publication number: CN101989297A
Application number: CN2010102406100A
Authority: CN
Inventors: 陈越
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-07-30
Filing date: 2010-07-30
Publication date: 2011-03-23

Abstract

一种基于计算机上与疾病基因相关的药物发掘系统的生成方法和系统。系统包括后端数据存贮服务器，可连接位于因特网或局域网上的生物医学文本数据库服务器，疾病相关基因数据库服务器，及基因或蛋白质相互作用关系数据库。后端数据存贮服务器连接前端的查询服务器，可对用户感兴趣的疾病在现有的数据库资料中进行查询和统计分析，并存储与疾病(致病或易感)基因最相关的蛋白质，与疾病基因最相关的生化药物，和与疾病基因最相关的蛋白质-生化药物连通图谱。所述系统可用于寻找与疾病诱导或治疗相关的生化药物。系统还可用来发现并比较设计药物分子机理或毒理，或辅助定向生成小分子化学药物筛选库。

Description

用于计算机上的疾病基因相关药物发掘系统

技术领域本发明涉及与疾病基因特异相关的蛋白-药物关联图的数据发掘方法及软件查询系统。

背景技术分子关联图的概念在正在系统生物学中流行。大量的基因组学和功能基因组信息已产生，这些信息包括：全基因组范围内的遗传变异、表观遗传修饰、mRNA表达谱、蛋白质表达谱、蛋白质翻译后修饰，以及细胞内的代谢谱变化。虽然在每种类型数据的管理和解释方面可能有所进展，但仍不确定如何开发统一的模式，整合在类似的生物条件下从不同的分子实体得到的基因组规模的测量信号。在现代药物的发现过程中，例如，针对不同药物化合物的干扰，或“药物/基因-蛋白关联谱”，基因或蛋白质表达水平在临床试验之前就可能提供有关药物分子潜在的治疗谱和毒理学谱有价值的信息。“级间”分子关联与“级内”分子关联(如：基因-基因相互作用、药物-药物相互作用，或蛋白-蛋白相互作用)有很大不同。

从药物和/或基因，以及特定的生物背景中广泛的级内分子关联概括出的蛋白-药物之间的关系可以用分子关联图来表示。分子关联图可以表示药物和多种分子(比如与许多疾病相关的基因、微小RNA、蛋白，以及代谢物)间的关联。药物与多种生物分子间的分子关联图可使研究人员同时比较多种候选药物的分子治疗谱或药物毒理学谱。目前生成分子关联图的方法昂贵且费时。

提供高质量的分子关联图(Cmaps)，协助研究人员比较多种候选药物或药物靶基因/蛋白的分子治疗谱或毒理学谱将是有益的。这将增加开发高品质药物的机会，减少药物开发时间。此外，为了取得更好的数据覆盖面和质量，开发一系列的统计学和计算方法可以克服生物网络和文献摘要中的高噪音的数据。

附图说明

图1是本发明生成分子关联图的信息示意图。

图2是一个疾病相关分子关联图的例子。

图3是本发明生成疾病相关分子关联图的一个流程示例。

图4是本发明生成疾病相关分子关联图的另一个流程示例。

图5是本发明实现基于的计算机结构图解。

图6是本发明实现基于的计算机功能模块关系图解。

图7是实现在计算机上的疾病基因相关药物发掘及相关分子关联图检索系统图解。

具体实施方式

下面的详细描述为附图提供了参考。附图中，相似的符号通常标识相似的组件，除非上下文另有说明。详细描述、图纸及新颖性要点中的说明并非限制。在不偏离这里主体精神和范围的情况下，其它表现形式和变化也可能被使用。作为一般性的描述和展示，这部分中的描述和的图片都是经过安排、取代、合并和许多不同的配置设计，所有这些都经过了仔细考虑。

本发明涉及生成分子关联图(Cmaps)所用的方法、系统、设备和/或仪器。具体而言，是关于疾病特异性的蛋白-药物关联作图所用的方法、系统、设备和/或仪器。

大规模的分子关联作图项目正在开发中。其中一个例子，包括一个采用基因-表达谱作为共同词汇来连接小分子、基因和疾病，构建分子关联图的系统方法。这些分子关联图是经过具有生物活性小分子处理的人培养细胞基因表达图谱的一个参考集。模式匹配软件可以帮助研究人员检索分子关联图数据。另一个例子包括使用UMLS(统一的医学语言系统)中的本体论和公开的基因表达数据，与“制高点”关联。(“制高点”一词是表型、疾病、环境和实验中用到的生物学术语)尽管这两个例子可以使人们能够平行观察分子关联图谱，但它们的覆盖面和质量受到质疑。第一个例子对每个化合物在每个生物条件下刺激的所有细胞系进行系统筛选，得到基因表达谱变化数据。这是一个昂贵费时的实验过程，在获得实际应用所需的足够数据覆盖度之前需要许多年时间和庞大的预算。第二个例子，主要依靠整合不同的生物样品，不同的实验平台，不同的实验室提供基因表达数据。这通常产生不兼容的结果，可能需要进行彻底深入的实验验证或知识维护。

如发明述所述，有可能建立高品质、低成本的分子关联图。要实现这一点，人们可以利用大量的生物医学文献，正在兴起的生物医学文献挖掘技术。目前在生物医药信息检索、基因/蛋白鉴定、信息提取、文本聚类和分类、结构化和文本数据整合技术方面的进展，使生物医学文献知识发现成为可行。有不少成功的例子。FACTA是一个生物医学文献搜索引擎，用于从PubMed摘要中鉴别生物医学概念(如：疾病，基因/蛋白，化学物质)。G2D是一个根据疾病名称推断关联逻辑链的工具，它还可以根据相似度打分，对基因与疾病的相关性排序。另一个例子已经鉴定出PubMed摘要中共同发生的疾病名称和组织名称，并将组织与候选疾病基因连系起来。另一个例子开发了一种方法，探讨药理学药物和疾病之间的隐含关系。根据指定的疾病名称和用户指定的词条，这些生物医学文献挖掘技术可按重要性排列出词条(例如，基因，组织和物质等)在疾病中的潜在作用。理论上，使用现有文献挖掘方法，通过搜索、收集，和对基因-疾病、疾病-药物和基因-药物词条同时出现的“三角化”构建出分子关联图。但一个挑战是，在发现已知药物新的治疗应用的同时，如何实现从疾病到药物满意的灵敏度和特异性。只报告蛋白、药物和疾病词条在同一文章中同时被引用的显著关联是不够的，因为没有提供分子与疾病关联新的知识。未找到许多药物(低灵敏度)或指示无关药物(低阳性预测值)同样可能发生，专家因此要进行沉重的手工知识验证。

本发明提出了生成高覆盖度疾病特异的药物蛋白分子关联图的方法、系统和/或计算框架。它是通过整合分子相互作用网络挖掘和文本挖掘技术来实现的。通过挖掘相关研究出版物中关于基因/蛋白、药物和疾病的上下文关联，揭示令人感兴趣的和非显而易见的模式。通过一个例子，展示所用方法、系统和/或计算框架具有如下特征：将用户输入的种子疾病特异性基因/蛋白与先验知识结合起来。每个种子列表由专家维护，该表是采用计算方法从大量的组学实验结果(例如，比较疾病样品与正常样品之间基因表达差异的芯片实验)中提取得到，或从特定疾病的基因/蛋白数据库中自动检索得到。虽然种子质量可能影响下游分析的质量，这些种子可以作为出发点，不必是完整的或优化的。通过对种子基因/蛋白进行扩大自动改善初始种子基因/蛋白的质量，并通过变更优先顺序根据功能对它们进行重排序。因此，用于建立分子关联图的基因/蛋白的最终名单可能与特异疾病高度相关。发现出现在多篇研究论文中跨越多个学科的药物。同时鉴定出对于某种疾病显著和隐含的蛋白-药物关联需要开发灵敏的药物词条统计方法，它不需要疾病词条同时出现在同一篇摘要中。将一种疾病广泛的分子关联数据归纳到一个二维矩阵中。二维矩阵可作为文献中所有蛋白和候选药物的知识图，每个单元格中包含一个统计可信度分值，表示文献中对于一种基因/蛋白和一种药物研究的程度。

在一个例子中，本发明不仅可以高灵敏度和特异性从医药文献中检索到疾病相关的药物，而且可能有机会发现老药物在治疗中的新用途。如果统计推论引擎在PubMed摘要中建立起药物和大部分疾病相关的基因或蛋白间的显著关联，那么一种药物可能在一种新的疾病背景中被重新发现。对每种药物的分子关联谱在特定疾病中的应用进行比较和分类，可为验证新假说提供证据。采用这种方法鉴别用已知药物治疗新疾病(通常称为药物再利用)，可开发非常令人感兴趣的分子关联图。

图1描述了一种开发疾病特定性分子关联图的系统。该框架可能包含至少三个组成部分：一个网络构建组分，一个文本检索和信息提取组分和一个分子关联性作图组分。图2是一个疾病相关分子关联图的实例。

为了简洁，本发明以阿尔茨海默氏病(AD)作为个案研究。阿尔茨海默氏病是一种神经退行性疾病，影响到450万美国人，其中多数是60岁以上，已成为老年人中普遍流行的疾病。应该指出的是，本发明中的方法，系统，设备和/或框架不仅限于这里讨论的阿尔茨海默氏病案例研究，它们可以适用于任何疾病或情况。例如，图3和图4是针对任意一种已知疾病生成相关分子关联图的两个流程示例。鉴定和筛选与阿尔茨海默氏病相关蛋白

生成分子关联图的一个先决条件是产生(或接收)一个疾病相关的蛋白质列表和一个疾病有关的药品列表，它们是蛋白-药物矩阵的两个属性维度。最终图的质量可能受到关于某一疾病的蛋白和药物总体相关性的影响。

基因和/或蛋白列表可能直接来自专家注释的数据。然而，对于复杂的疾病，许多疾病基因，特别是那些与增高疾病风险相关的基因，可能尚未全部被确定。此外，许多基因和蛋白质的表达水平仍在调查之中，它们作为“疾病的生物标志物”具有潜在价值。”研究人员可从不同的来源得到一张不完整的与疾病相关的种子基因或蛋白的“初始种子名单”。在其他情况下，研究人员可能完全依赖于已知的数据库，如OMIM(在线人类孟德尔遗传)数据库，产生一个初始的疾病基因名单。在构建的阿尔茨海默氏病分子关联图时，本发明中的方法假设一个用户事先已从OMIM中得到关于阿尔茨海默氏病不完全的知识(这个假设可能会放宽，如果用户向种子列表中增加基因/蛋白质)，并已从OMIM检索到49种阿尔茨海默氏病种子蛋白(对应49个基因)。这里还使用了OPHID数据库(在线预测人相互作用数据)中经过质量排序的蛋白相互作用数据，以及下文中描述的最近邻蛋白质相互作用扩展方法。在扩展的阿尔茨海默氏病蛋白相互作用网络中，包括了560个蛋白和771个蛋白相互作用，它们的可信度打分在0.30到1之间。全部560个蛋白的排序根据下述打分模型进行。打分模型根据蛋白排名分rp给560个蛋白中的每个蛋白一个阿尔茨海默氏病蛋白相关性分。

排名前30名的阿尔茨海默氏病蛋白根据蛋白排名分值按降序排列，蛋白排名分从阿尔茨海默氏病相关蛋白相互作用网络中得到。在排名前30的蛋白中，26种蛋白存在于最初的OMIM阿尔茨海默氏病种子蛋白表单中，四种例外蛋白是：APBBI-HUMAN，TAU-HUMAN，CTNBI-HUMAN和DABI-HUMAN。这四个蛋白中的两个，APBB1-HUMAN和TAU-HUMAN，存在于初始的种子基因表单中，但经过自动的基因到蛋白名称转换后便从种子蛋白表单中消失。这证实基于分子网络的基因排序方法(例如：CHI、ProteinRank，和/或CGI)可以帮助恢复最初的种子表单中的某些偏差。CTNBI-UMAN是一个已知的阿尔茨海默氏病蛋白，可特异性地调节PSEN1。PSEN1突变可引起β-淀粉样蛋白(A4-HUMAN)的积累增加，并导致早发家族性阿尔茨海默氏病。DAB1-HUMAN可结合A4-HUMAN蛋白的胞质结构域，引起A4-HUMAN蛋白在海马神经元中过量表达，这是A4-HUMAN蛋白在阿尔茨海默氏病中起关键作用的明显迹象。

基于疾病相互作用亚网络的蛋白排序结果与文献中这些基因的使用不存在强烈的相关。在这个例子中，只有80个蛋白同时存在于根据阿尔茨海默氏病网络得到的前500种蛋白和根据疾病特异性文本挖掘得到的前500种蛋白中。虽然A4_HUMAN，PSN1-HUMAN和PSN2HUMAN都在文献中被引用，并且在阿尔茨海默氏病相关的蛋白相互作用网络中提名在前，在阿尔茨海默氏病蛋白相互作用子网络中排名第四的PSN1-HUMAN在阿尔茨海默氏病文献中仅排名1638。这种不一致表明，目前研究的某些蛋白可能在未来仍有值得特别研究的机会。进一步的文献研究证实，PINY-HUMAN的WW结构域结合磷酸化的TAU-HUMAN蛋白，TAU-HUMAN在阿尔茨海默氏病中发生超磷酸化。对PubMed摘要进行更详细的语义分析需要得到一个可比较的高质量的阿尔茨海默氏病蛋白表单，这个表单不需挖掘分子相互作用网络中疾病相关蛋白的背景信息。最终被排序的蛋白与疾病的高相关度奠定了构建高品质分子关联图的基础。被统计富集的阿尔茨海默氏病相关药物词条

要建立阿尔茨海默氏病分子关联图的第二个维度，可以先利用前面得到的阿尔茨海默氏病相关的基因/蛋白表单检索阿尔茨海默氏病相关的PubMed文摘，然后在检索到的文章中找到药物词条。在阿尔茨海默氏病例子中，可以先不在PubMed摘要中检索“Alzheimer”(老年痴呆症)。相反，可以先对保括560个阿尔茨海默氏病相关的蛋白和它们的同义词对PubMed进行检索。这样的检索可能会得到222,609相关的摘要，没有明确的“老年痴呆症”上下文。采取这种策略的原因之一是可能改进找到阿尔茨海默氏病相关的文章。可想而知，不是PubMed所有涉及560种蛋白的研究都有阿尔茨海默氏病疾病的背景(或任何疾病背景)。例如，一个某种药物化合物对基因表达影响的生化研究可能不提及任何关于阿尔茨海默氏病信息(特别是在PubMed文摘中更是如此)。基于这些阿尔茨海默氏病相关蛋白进行检索建立一个初始的表单可以改善信息检索。

虽然可以建立一个关于阿尔茨海默氏病的目前所有实验性药物和批准药品的数据库，但新药开发研究人员对这样的数据库兴趣不大。因此，可以先集中鉴定阿尔茨海默氏病相关文献中被显著“富集”的药物，而不是从PubMed中检索出的所有药物。目前所有PubMed文摘中，有6543个“药物化合物”根据McSH词条注释被组织在一个等级结构中。根据560个阿尔茨海默氏病相关蛋白检索到222,609个阿尔茨海默氏病相关的PubMed摘要，涉及2,019种药物，其中1,279种药物被“富集”。所谓“被富集”是指通过统计学富集检验，低于预设的0.05假发现率(FDR)的结果，如下所述。同样，这些与“Alzheimer”(“阿尔茨海默病”)有关联的重要药物在检索时并不要求与“Alzheimer”同时出现，或与阿尔茨海默氏病基因或蛋白在摘要中同时出现。因此，这1,279种药物可能构成新的知识值得研究，并纳入到阿尔茨海默氏病分子关联图中。对新鉴定出的阿尔茨海默氏病药物进行评价

为了估算网络建设组件可能会影响文本检索和信息提取的组成部分，可以通过改变输入的阿尔茨海默氏病种子蛋白来评价阿尔茨海默氏病相关药物鉴定的执行情况。给定不同的初始种子蛋白，可以通过FDR计算出前N个药物的敏感性和特异性。举例子来说，将49个阿尔茨海默氏病种子蛋白分为8个大小不同的数据样本(即S5，S10，S15，S20，S25，S30，S35，S40(数字代表样本大小)和一个随机生成的含有50蛋白的种子集。当种子集从S5变化到S40时(总的特异性变异＜0.000021，敏感性变异＜0.00098)，总体特异性和灵敏度可保持不变。随机种子的表现可能明显低于任何种子化策略试验。这表明，在选择种子蛋白时的潜在偏差可能没有显着影响药物的鉴定。阿尔茨海默氏病分子关联图的创建和评估

利用从分子相互作用网络和生物医学文献中获得的与疾病相关的大量富集蛋白和药物，可生成一个具有一定质量和覆盖度的分子关联图。阿尔茨海默氏病分子关联图矩阵以蛋白作为行，药物作为列，可能还包括根据共引用调整对数随机值计算出的蛋白-药物连通度值，见下文。二维等级聚类可用于识别具有相似谱的蛋白/药物组。在阿尔茨海默氏病的分子关联图中，具有相似药物谱的蛋白可能被聚到一起，具有相似蛋白谱的药物可能被聚到一起。

为了评估蛋白-药物连接得分的生物显著性，可以将较阿尔茨海默氏病分子关联图中的高打分蛋白-药物对与DrugBank数据库(一个包括详细药物(即化学物质、药理和制药)数据和广泛药物靶(即序列，结构和代谢通路)信息的数据库)中所有已知的药物-靶标关系进行比较。由于这个例子中只包含DrugBank数据库报道的8个阿尔茨海默氏病药物中的6个，可从DrugBank数据库中收集6个药物的靶用于比较。可以使用“靶距离”的概念来度量创建的蛋白-药物分子关联图谱与真实的药物-靶知识。更确切地说，可以将靶距离定义为疾病特异的蛋白相互作用子网络中DrugBank中药物的靶蛋白与分子关联图中药物的连接蛋白之间的最短距离。靶距离为零是指分子关联图中的蛋白也是药物靶蛋白。Tacrine和Galantarnine直接靶向到他们的连接蛋白(ACES-HUMAN)，ACES-HUMAN涵盖四个蛋白(ACES-HUMAN，CATB-HUMAN，A4-HUMAN，EP300-HUMAN)。维生素E似乎包含几个长程连接到阿尔茨海默氏病蛋白，与靶的距离为2。Memantine似乎是已知蛋白与靶相互作用路径最远的例子，(靶距离＝3)。4个已知的阿尔茨海默氏病高度相关药物的靶距离都在3以内。探索阿尔茨海默氏病分子关联图

在阿尔茨海默氏病分子关联图中，166个药物和66靶之间的连接可在整体上被看到，或只看每个药物和蛋白/基因对。生物医学研究人员可从阿尔茨海默氏病分子关联图中获得许多有价值的信息。

在阿尔茨海默氏病分子关联图中，由于具有相似的蛋白-药物谱，相互作用的蛋白彼此聚在一起。例如，PSN1I-HUMAN，FLNA-HUMAN和CSEN-HUMAN之间具有非常相似蛋白-药物分子关联图谱。根据HPRD、PSN1HUMAN与CSEN-HUMAN和FLNA-HUMAN直接相互作用。这可能可以解释为什么干预PSNI_HUMAN的药物同样可以影响CSEN_HUMAN和FLNA_HUMA N。同样，药物Diazepam，Clonazepam，Flunitrazepam，Apomorphine，Diltiarem，Prazosin，和Quinidine也被聚在很近。当研究它们的化学结构时，人们可以发现他们都有双环结构。进一步发现，Diazepam，Clonazepam和Flunitrazepam还都含有苯二氮结构。对这类药物的另一组有趣的现象可能是他们有着相似的药理作用：Diazepam，Clonazepam和Flunitrazepam用于治疗焦虑症，Diltiarern和Prazosin用于治疗血管性高血压。这些发现表明，准确性已达到了一定程度，可以用于揭示所连接的分子间的生物学或化学机理。从阿尔茨海默氏病分子关联图探索候选药物的新用途

疾病特异的分子关联图可为实验药物的再开发提供新的见解，从起始的治疗领域转到一个新的疾病应用中。如上所述，Diliiazem，Prazosin和Quinidine可能由于具有相似的蛋白-药物分子关联图谱而被聚类到一起。这三种药物以前是用来治疗血管疾病的。其中，Diliiazem是一个抗高血压药物，由于它与细胞膜中的钙离子具有拮抗作用，因此具有扩张血管的功能。哌唑嗪是一种α-肾上腺素受体阻断剂，用于治疗心脏衰竭和高血压；奎尼丁是一种抗心律失常剂，在神经细胞膜上行使钠通道功能。最近的基于人口的流行病学研究表明，血管危险因素，如血管疾病基因ApoE，高血压，动脉硬化，心脏衰竭，可能损害认知功能，并关系到阿尔茨海默氏病的发展。随机和非随机的临床试验都表明，降低血压在预防阿尔茨海默氏病中起重要作用。进一步的试验还表明，抗高血压药物可降低中风患者和单纯收缩期高血压老年患者中痴呆发病率。此外，Valsadan，一种抗高血压化学物质，可以减少小鼠中阿尔茨海默氏病的症状。当查询临床试验数据库时，可以会发现目前正在进行一项利用哌唑嗪治疗阿尔茨海默氏病人焦虑和攻击性的双盲和安慰剂对照临床研究，而没有对地尔硫卓和奎尼丁进行任何有关阿尔茨海默氏病相关试验研究。在这个前提下，地尔硫卓和奎尼丁可能成为未来治疗阿尔茨海默氏病的新药物，因为分子关联图显示它们是值得研究候选药物。药物开发商现在可以假设这两个候选药物治疗价值(与阿尔茨海默氏病相关)。

有几个因素可能对分子关联图框架的有效性有贡献。首先，在所有生物医学文摘在PubMed中可作为数据源，因此可能涵盖所有已知的基因知识，蛋白质，药物和疾病。其次，人们可以申请一种分子网络挖掘方法来优先处理疾病特异的基因/蛋白质，主要是利用大量的在高通量相互作用组作图实验中产生的分子相互作用组信息，以补充从生物医学文献中提取知识。第三，可以使用疾病特异的基因/蛋白提取疾病和药物之间的间接关系，因此为发现现有药物新的治疗用途提供机会。第四，可以采用先进的统计技术(例如，使用词条频率统计方法，而不是传统的tf-idf方法来衡量词条频率的显著性，使用假发现率来筛选药物，使用对数随机函数为蛋白-药物关联打分)，这可能提高数据处理整体效率，减少错误率。

使用Web服务器，允许用户查询和探索采用这里所描述的方法建立的分子关联图。Web服务器的用户可以输入一个查询，例如疾病名称(如老年痴呆症)，在显示用户选定的疾病的分子关联图之前，Web服务器可能会建议进一步使用标准的MeSH疾病词条，如“阿尔茨海默病”或“老年痴呆症急性意识模糊”。分子关联图数据显示在一个HTML表格中，表中显示具有统计显著性的蛋白-药物关联对。用户可以浏览数据的超链接网页，访问到有关于蛋白的详细注释信息(如：″4-Human″)，药物实体(例如，“他克林”)和/或文献摘要，其中的蛋白和药物词条在摘要中可能被高亮显示。

正在开发的具有高覆盖率和可信度的分子关联图(尤其当被用于其他治疗疾病领域时)可能为生物医学研究人员提供新的机会，为今后的药物发现开展整合生物信息学和化学信息学研究。通过整合基因组学，功能基因组学，蛋白质组学和实验数据，可进一步改进分子关联图数据的准确性，建立更好的疾病种子基因/蛋白，整合多种类型的分子连接网络数据，收集文献全文而不只是摘要。未来研究者可探讨不同的这种图的转变趋势，它们可建立在不同的维度上，选用具有不同读者群和影响力的杂志，不同的实验条件。实验结果可整合基因表达或蛋白表达数据，随着这些数据的获得，将彻底改进蛋白-药物分子关联图中隐藏的关联类型关系的分类类型。连接蛋白和代谢物的分子关联图也将得到发展。模式生物中的蛋白-代谢物分子关联图将进一步方便分析比较基因组学数据。化学生物学家可能进一步整合共同的化学子结构和共同蛋白结构域之间的相互关系，用于药物化合物的优化。一个采用分子关联图概念的软件服务器也被建立起来，使用户能够获得蛋白-药物分子关联图谱的全面知识，基于化学物质的功能分子关联图谱的相似性对它们进行比较，并从PubMed文章中得到具体的细节。构建疾病相关的蛋白相互作用网络

在网络构建组成里，可以构建一个与疾病相关的蛋白质相互作用网络和疾病相关蛋白的排名表单。与疾病相关的种子/蛋白可能是由疾病生物学用户提供，或从任何已知的数据库中得到，如OMIM或OPHID。使用OPHID数据集时，可以采取一种类似于加权的方法，在计算蛋白的疾病相关评分时可采用一种类似的排名方法，可使用下列公式：

r_{p} = k * \ln (Σ_{q &Element; NET} conf (p, q)) - \ln (Σ_{q &Element; NET} N (p, q))

式中，p和q是疾病相关相互作用网络NET中蛋白的索引，k是一个经验常数，conf(q，p)是一个置信打分，是对蛋白p和q之间相互作用的打分。如果(p，q)∈{经验证的相互作用}，conf(p，q)＝0.9；如果(p，q)∈{根据哺乳动物预测的相互作用}，conf(p，q)＝0.5；如果(p，q)∈{根据非哺乳动物预测的相互作用}，conf(p，q)＝0.3。如果蛋白p与q相互作用，则N(p，q)的值为1。r_p分值用于对蛋白进行排序，并过滤掉由于文献中的噪音导致的蛋白-药物关联。确定和选择富集药物

在分析整个PubMed摘要时，使用词条频率统计方法要优于词条统计分布方法，在计算任何检索到的PubMed摘要中的每个词条的显著性P-值时也是如此。这样做的理由之一是为了控制被富集的词条中的假阳性。例如，从tf-idf统计方法观察到的异常高的词条使用频率可能导致错误的结论，认为该词条是被“富集”的，因为样本子集可能是偏离的，词条使用频率可能是内在变量。

在一个例子中，利用一个网络中包含所有蛋白的扩展表单{p₁，p₂，...，p_m}作为初始检索，可以得到所有PubMed摘要。利用字典和规则指令可以自动从摘要集T_NET中鉴定出药物{d₁，d₂，...，d_n}。这里假定零假设H₀是，在T_NET中药物d_j的文件频率来自于随机分布。药物d_j的t检验值Δj可以计算为：

Δ_{j} = \frac{(\overset{&OverBar;}{df (d_{j} | {T^{'}}_{NET})} - \overset{&OverBar;}{df (d_{j} | T_{Random})})}{\sqrt{\frac{Var (d_{j} | {T^{'}}_{NET})}{N_{NET}}} + \frac{Var (d_{j} | T_{Random})}{N_{Random}}}

这里，T′_NET＝{T′_NET1，T′_NET2，T′_NET3，...}通过从T_NET中抽样产生。是预先定义好的文件的数目，N_NET1＝|T′_NET|是每个样本的大小。T_random＝{T_Random1，R_random2，T_Random3，...}指通过从所有PubMed摘要中随机取样产生的一个随机样本，这个随机样本的大小为N_Random＝|T_Random|＝C(C等于1000，它与非随机样本的大小一致)。

和

指T′_NET和T_Random中dj的平均文件频率。(df(d_j|T′_NET)和df(d_j|T_Random)指T′_NET和T_Random中d_j的文件变异频率。p-值根据双尾P(|Z|＞|Δ|)计算，Z～N(0，1)，计算方法如下：p＝P(|Z|＞|Δ|)＝2P(Z＜-|Δ|)

微阵列分析采用标准的多项测试校正方法，从t-检验计算出一个药物的错误发现率(FDR)，然后转换为p-值。最后，被富集的药物{d₁，d₂，...，d_g}是那些满足经验阈值药物(词条频率＞4，FDR＜0.05)。特殊疾病的蛋白和药物连接

为每个可能的蛋白-药物对赋一个连通度打分值Θ。经排序的蛋白{p₁，p₂，...，p_k}由用户输入，被富集的药物{d₁，d₂，...，d_g}由一个正规化的对数随机函数产生。对数随机框架能够量化关联力度，尤其便于处理字词。在一个例子中，连通度打分是Θ_pd＝In(d_fpd＊N+λ)-In(df_p＊df_d+λ)。在这里，dfp和dfd是分别文件中蛋白p和药物d中提到的总数。dfpd是蛋白p和药物d在一个文件中同时被提到的总数。N是全部PubMed摘要的大小。K是一个小的常数(这里k＝1)，以防当dfp，dfd，或dfpd的值为0时发生溢出错误。当蛋白-药物对被富集时，Θ_pd的结果是正值，当蛋白-药物对未被富集时，Θ_pd的结果是负值。Θ_pd的值越高，关联的富集显著性越大。建立一个分子关联图需要计算k×g个连通度分值。阿尔茨海默氏病相关药物的评价

评价843个阿尔茨海默氏病相关药物的“金标准”是采用下面的标准之一：(1)在PubMed摘要中被同时引用：一个药物词条和所有它的变体与“阿尔茨海默氏病”至少在两篇PubMed摘要中同时出现。(换句话说，可以设想，一种药物应该与一种疾病相关如果它与这种疾病在一篇以上的文章中同时出现(在应用于其它疾病时可收紧或放松这个标准))。2)共同出现在GeneRIF句子中：一个药物词条和它的所有变体与“阿尔茨海默病”至少在EntrezGene数据库的GeneRIF注释中共同出现一次。当GeneRIF用于描述一个特定基因的功能时，假定GeneRIF含有比PubMed摘要质量更高的信息。

“黄金标准”不应该被误认为是“真正具有治疗或毒理价值的药物”。相反，黄金标准可以提供一个可执行的、平衡的和无偏差的与疾病相关的药物表单，它只用于评估目的。在上面的用于构建阿尔茨海默氏病“金标准”的自动方法中，可使用覆盖率和疾病的相关性作为最重要的标准，同时考虑同行评审的文章摘要和来自信誉良好的数据库的基因功能注释。

[0042]以下尺度涉及实验评价和比较：(1)灵敏度是被正确鉴定的阿尔茨海默氏病相关的药物的百分比；(2)特异性是被正确鉴定的与阿尔茨海默氏病无关的药物的百分比；(3)PPV(阳性预测值)是正确的阳性预测的概率；(4)F-值是灵敏度和PPV的调和平均数；(5)准确度是被正确预测的药物的百分比。这些度量值可被定义如下：

Sensitivity = \frac{TP}{TP + FN}

Specificity = \frac{TN}{TN + FP}

PPV = \frac{TP}{TP + FP}

FScore = \frac{2 * (PPV * Sensitivity)}{PPV + Sensitivity}

Accuracy = \frac{TP + TN}{TP +_TN + FP + FN}

疾病特异的分子关联图中蛋白或药物的聚类

[0043]在综合分析的组分中，蛋白-药物分子关联图的二维层次聚类可采取加权配对组的方法和算术平均法进行，用Tanimoto作为相似性度量。药物da和db之间的相似度可以利用下式计算：

sim (d_{a}, d_{b}) = \frac{Σ_{j = 1}^{k} (Θ_{p_{j} d_{a}} * Θ_{p_{j} d_{b}})}{Σ_{j = 1}^{k} {Θ^{2}}_{p_{j} d_{a}} + Σ_{j = 1}^{k} {Θ^{2}}_{p_{j} d_{b}} - Σ_{j = 1}^{k} (Θ_{p_{j} d_{a}} * Θ_{p_{j} d_{b}})}

式中

和

是细胞值，计算方法为：Θ_pd＝In(df_pd＊N+λ)-In(df_p＊df_d+λ)。蛋白之间的相似性计算方法为：

sim (d_{a}, d_{b}) = \frac{Σ_{j = 1}^{k} (Θ_{p_{j} d_{a}} * Θ_{p_{j} d_{b}})}{Σ_{j = 1}^{k} {Θ^{2}}_{p_{j} d_{a}} + Σ_{j = 1}^{k} {Θ^{2}}_{p_{j} d_{b}} - Σ_{j = 1}^{k} (Θ_{p_{j} d_{a}} * Θ_{p_{j} d_{b}})}

[0044]最终聚类属性沿药物维度(水平轴)和蛋白质维度(垂直轴)按平均价值排序，由大到小自左向右，自上向下。聚类可使用Spotfire Decisionsite浏览器8.2软件完成，该软件在生物信息学中被广泛使用。

为了提供有关本发明各方面的额外信息，以下讨论的目的是提供一个简短的，一般性的计算环境描述。尽管涉及到一台或多台计算机可执行的指令，本发明也需要与其他程序模块和/或作为硬件和软件的组合来使用。

一般来说，程序模块包括例程，程序，组件，数据结构等，它们用来执行特定任务或特定的抽象数据类型。此外，这些方法可能会与其他计算机系统配置一起使用，包括单处理器或多处理器的电脑系统，微型计算机，大型计算机，以及个人电脑，手持无线计算设备，微机或可编程电子消费品等，每个设备可与一个或多个相关设备配合使用。本发明在分布式计算环境中也是可行的。任务可利用远程处理设备通过通信网络连接的设备来完成。在分布式计算环境中，程序模块可能位于本地和远程内存存储设备中。

如图5所示，一台计算机包括多种计算机可读介质。计算机可读媒体可以是任何可访问的计算机。通过举例的方式，而不是限制，计算机可读媒体可能包括计算机存储介质及传播媒体。计算机存储介质，包括以任何方法或实施的信息存储技术，如电脑可读的指令，数据结构，程序模块或其他数据，可移动和不可移动媒体。计算机存储介质，包括但不限于，内存，光盘，包括EEPROM，闪存或其他存储技术，光盘，数字视频光盘(DVD)光盘或其他存储，磁磁带，磁带，磁盘或其他存储磁存储设备，或任何其他媒介，可以用来存储所需的信息和可能进入的计算机。

如图6所示，能够实施该发明的环境包括一台电脑，其中包括一个处理单元，系统内存和系统总线。系统总线将系统组件连接起来，包括但不限于将系统内存和处理单元连接起来。处理单元可以是任何商业用处理器。双微处理器和其他多处理器架构也可作为处理单元。

系统总线可能是任何一种类型的总线结构，从而可以进一步互连到内存总线(有或没有任何一个内存控制器)，一个外周总线，和一个局部总线。系统内存可包括只读存储器(ROM)和/或随机存取存储器(RAM)。一个基本的输入/输出系统(BIOS)被保存在一种非易失性内存中，如光盘，EPROM，EEPROM，BIOS包含基本的条例，帮助在计算机元件之间传输信息，例如在计算机启动过程中。RAM可能还包括一个高速RAM，例如静态RAM，用于缓存数据。

计算机可能进一步包括一个内置硬盘驱动器(HDD)(例如，EIDE，SATA接口)，一个磁性软盘驱动器(FDD)，(例如，读取或写入到一个可移动磁盘)和一个光盘驱动器(例如，读一个CD-ROM光盘，或DVD)。硬盘驱动器，磁盘驱动器和光盘驱动器可能分别被连接到系统总线的硬盘驱动器接口、磁盘驱动器接口和光盘驱动器接口。外部驱动器接口至少包含通用串行总线(USB)和IEEE 1394接口两者之一。

驱动器及其相关的计算机可读媒体提供非易失性数据存储，数据结构，计算机可执行指令，等等。对于电脑而言，驱动器和媒体适于保存任何一种适当的数字格式数据。虽然计算机可读媒体是指硬盘驱动器，可移动磁性软盘，可移动光学介质，如CD或DVD，其它的媒体类型，如Zip驱动器，磁性录音带计算机，快闪记忆卡，记忆盒等，也可以在运行环境中使用。

许多程序模块存储在硬盘和内存中，包括一个操作系统，一个或多个应用程序，其他程序模块和程序数据。全部或部分操作系统，应用程序，模块，和/或数据也可以保存在RAM缓存中。本发明可在各种商业操作系统或操作系统组合中执行。

用户可以通过一个或多个有线/无线输入设备输入命令或信息到计算机中，例如，触摸屏显示器，键盘和点击设备，如鼠标。其他输入设备可能包括一个麦克风(适当的语言处理功能/识别软件)，红外遥控器，操纵杆，游戏垫，手写笔等。这些及其他输入设备通常通过一个耦合到系统总线的输入设备接口连接到处理单元，如并行端口，IEEE 1394串行端口，游戏端口，USB接口，红外线接口等。

一个显示器或其它类型的显示设备也通过如视频适配器接口连接到系统总线。除了显示器，一台计算机可能还包括其他周边设备，如扬声器，打印机等。

计算机可能运行在网络环境中，通过使用有线和/或无线通信与一个或多个远程计算机联系。远程计算机可以是工作站，服务器计算机，路由器，个人电脑，便携式电脑，个人数字助理，移动设备，基于微处理器的娱乐设备等。逻辑连接包括有线/无线连接到一个局域网(LAN)和/或较大的网络，例如，广域网(WAN)。这样的局域网和广域网的网络环境在办公室是很常见的和公司，所有这些都可以连接互联网，如全球通讯网络。

计算机具有可操作性，可与任何无线设备进行通信，例如，打印机，扫描仪，台式机和/或便携式电脑，便携式数据助理，通信卫星，电话等。这至少包括Wi-Fi和蓝牙技术。因此，沟通可能是一个预定义的结构与传统网络之间或至少是两个设备之间的一个特设的沟通。

系统可能还包括一个或多个服务器。服务器也可能是硬件和/或软件(例如，线程，进程，计算机设备)。例如，这些服务器可容纳多个线程的执行。一个客户端和服务器之间的通信可能以数据包的形式在两个或多个的计算机进程中传输。这些数据包包括cookie和/或相关的背景信息。系统包括一个通信框架(例如，互联网的全球通讯网络)，用来方便客户和服务器间的通信。

根据以上说明，图7可以用作实现疾病基因特异相关的蛋白-药物关联图的数据发掘方法及软件查询系统。此系统包括通过因特网连接收集的公共数据库，例如：生物医学摘要及文本数据库，疾病相关基因公共数据库，和基因/蛋白质分子互作用关系数据库等。此系统的服务器包含位于防火墙内的局域网中的多种硬件和软件，例如：网关，网络防火墙，局域网，计算处理系统，分子关联图(Cmaps)专用的数据服务器，Cmaps专用的网络服务器等。公共数据库的数据经过系统软件处理，以数据包的形式在两个或多个的计算机进程中传输并整合进Cmaps数据服务器中。这些原始数据经过局域网内的计算处理系统系统，可以依据不同疾病，生成并存储与分子关联图有关的数据，例如：疾病基因相关的所有蛋白质，疾病基因相关的所有生化药物，疾病基因相关的所有蛋白质-生化药物连通关系等。此后，这些数据可以通过Cmaps网络服务器和互联网(或任何数据服务方式)向最终用户传递。用户可以通过网络浏览器和/或专用Cmaps用户软件，进行查询。在查询时，用户还可以对于产生分子关联图的方法进行参数设定或选取，从而得到最相关的结果，例如：选取OMIM作为疾病相关基因公共数据库，选取PubMed2000年之后的所有文章摘要作为文本数据，选取HAPPI数据库中打分)0.75的蛋白质互相作用网络，选取p-value＜0.05的生化药物作为最相关域值，等等。

根据以上描述和发明摘要，应该可以理解这个发明不仅限于上面示例中所描述的，在不背离发明范围的前提下可以做出改变。同样可以理解是，没有必要为了适应本发明的范围而满足任何或全部本发明优点或目标，因为本发明可能存在固有的和/或不可预见的优势，但在这里不便逐一地讨论。

Claims

1.一种药物-蛋白连接图作图系统，该系统包括：

(a)至少一个与疾病相关的蛋白质的数据库，每个与疾病相关的蛋白数据库中存储与疾病相关的蛋白数据；

(b)至少一个药物数据库，每个药物数据库存储药物相关数据；

(c)一个连接作图组件，用于分析疾病相关的蛋白数据和药物数据，并输出药物-蛋白连接图。

2.如权利要求1中所述的系统，药物-蛋白连接图至少与一种特定的疾病关联。

3.如权利要求2中所述的系统，疾病相关的蛋白数据至少来自一种特异疾病的基因/蛋白数据库。

4.如权利要求1所述的系统，药物-蛋白连接图包括一个二维表格，其中的内容是与疾病相关的蛋白和药物。

5.如权利要求4所述的系统，每个与疾病相关的蛋白和药物之间的关联和/或非关联以关联度打分来表示；二维表格中包括有颜色和/或带阴影的标有关联度打分的表格单元。

6.如权利要求5所述的系统，关联度打分包括一个统计置信度打分，它表示文献中关于疾病相关蛋白和药物的研究情况。

7.如权利要求1所述的系统，疾病相关的蛋白数据和/或药物数据来自对医学研究文件的数据挖掘。

8.如权利要求1所述的系统，药物数据来自对一个或多个PubMed数据库的数据挖掘。

9.一种生成疾病相关的连接图的方法包括：

(a)从至少一个人类蛋白相互作用数据库中得到蛋白列表，该列表包含疾病相关的蛋白数据；

(b)一个药物列表，数据至少来自一个医学研究文献数据库；

(c)为每个可能的与疾病相关的蛋白-药物组合生成一个连接度打分；

(d)一个药物-蛋白连接图。该图基于，至少部分基于，连接度打分。药物-蛋白连接图包括一个二维矩阵，其中含有带颜色和/或带阴影的标有关联度打分的单元格。

10.如权利要求9所述的方法，对药物-蛋白连接图进行过滤，只输出与疾病相关的蛋白-药物组合，这些组合至少与一种特异的疾病有关联。

11.如权利要求9所述的方法，连接度打分是反映医学研究文献中与疾病相关的蛋白和药物研究状况的指标。

12.如权利要求9所述的方法，接受来自至少一种人类蛋白相互作用数据库的疾病相关的蛋白列表，包括接受来自受维护资源中与疾病相关的蛋白列表。

13.如权利要求9所述的方法，接受来自至少一种人类蛋白相互作用数据库的疾病相关的蛋白列表，包括接受来自与某种特异疾病有关的资源中与疾病相关的蛋白列表。

14.如权利要求9所述的方法，进一步包括：生成一个与疾病相关蛋白质的列表；并将该表转递请求方。

15.一种产生药物-蛋白的连接图的方法，该方法包括：

(a)生成一个与疾病相关的蛋白质列表，疾病相关蛋白列表包括来自至少一个人类蛋白质相互作用数据库的数据，疾病相关蛋白列表包括有关疾病相关的蛋白数据：

(b)生成一个药物列表，药物列表包括来自至少一个医学研究文献数据库的数据；

(c)为每个可能的疾病相关的蛋白-药物组合生成一个连接度打分；

(d)构建一个药物-蛋白连接图，该图基于，至少部分基于，连接度打分。药物-蛋白连接图包括一个二维矩阵，其中含有带颜色和/或带阴影的标有关联度打分的单元格。

16.提供一个Web服务器，用于完成上述一个或多个权利要求所述的方案。

17.提供一个说明文件，用于完成上述一个或多个权利要求所述的方案。

18.提供一个软件，该软件用来执行上述一个或多个权利要求所述的方案。

19.可对上述权利要求的技术方案进行组合使用。