用于信息发现以及关联分析的计算机程序产 品、系统以及方法
相关申请
本申请案要求根据美国第35号法典第119(e)于2002年9月20日所提出的临时申请第60/412,398案的优先权,该临时申请的全部内容将一并作为本案参考。
政府授权
依据NIH基因研究国家中心的基因训练授权第T32-HG00038-06号,美国政府享有本发明的部分权利。
技术领域
本发明大致上涉及知识发现领域,特别是涉及通过关联分析作为链接先前未关联对象的方法用以识别并评估共享的关联。
背景技术
早期,识别介于独立的信息或数据片段(parcel)之间新的关联的方法依赖于会产生大量错误事实的无边际检索。不幸的是,尽管可用以探索的数据量(以及由数据所组成的对象)每天不断地扩展,然而每个用户通常受限于其能力而无法累积并使用这些不断扩展的数据来源。同等重要的是,用户还受限于理解新数据的许多涵义以及介于新旧数据之间的潜在关联。举例而言,在生物领域中,在过去的十年内数据的数量呈现爆炸性的增长。在2002年初期,DNA序列已累积超过117,764个种类且通过已识别的117,481种化合物的分子结构列出352,924种已知的化学化合物。此外,已识别出超过18,000个具有至少一个功能的人类基因位置。一个数据来源(数据库)包括至少13,034种人类疾病、健康状态或综合症。涵盖相关生物数据的最大文献数据来源是MEDLINE。在2002年初期,此数据来源包含大约一千二百万笔记录,并以每年500,000笔记录的比率持续增加。
随着数据量的持续扩展,现今所需要的不仅是提供数据的储藏室,而且还需要可通过检索、解释、链接以及关联数据对象来″了解″这些数据的管理者,特别是对于以前被视为无关联的数据对象。事实上,最经济的数据管理方法是有效地利用现有的数据而达到创新的解释。因此,知识发现必须同时依赖现存与新的对象;其必须自一个或多个已链接的或未链接的数据来源中检索出对象(包括新的与现有的对象),其必须检查可能在这些对象间共享的潜在的关联,针对这些对象提供新颖的功能与解释,并针对未来的操作及/或额外的分析储存这些新的关联、功能以及解释。
数据挖掘技术提供在现今的新信息年代中所要求的某些解释。ARROWSMITH是其中一种检索工具,其依赖一种通过″桥接(bridging)″两个确定的关注区域作为新信息检索的方法。不幸的是,此工具仅能在单一层级中搜索,因此只能单向地搜索,无法记录结果且仅提供有限深度的分析。OPUS是另一种搜索工具,其用以识别与现象相关的基因。尽管0PUS是一种有效的基因工具,但在其它信息领域中则有其限制。同样受到限制的还有Perez-Iratxeta及其同僚于2002年7月发行的第21卷Nature Genetics第316至319页中所描述的数据挖掘技术,该技术通过双位关联中的模糊逻辑将基因链接至基因遗传疾病。
发明内容
通过前述的说明可以证实,目前需要一种用以管理并分析大量无关联的数据与信息的符合成本效益的系统。该系统可应用于多个数据来源的系统,通过多层级的分析提供用户友好的格式,并提供通过现有的基于询问的方法或单一层级检索所无法实现的无关联内容的新发现。通过这种自动知识发现系统的操作,各用户与机构获得可以提升其对于现有可用数据的了解的基于知识的工具,而实现将先前不存在链接的数据处建立新的关联,且通过增加的经济利益,可实现符合社会利益的有效且可行的关键解释。
本发明披露了一种在对象间建立关联网络的自动知识发现系统,以识别、评估并记录新关联。此网络还可用以识别并评估在这些对象集合中共享的关联,并识别与评估仅凭借其共享的关联暗示得知的对象。该经过识别与评估的关联的记录也集成到本发明的系统中。本发明的系统可与其它用以研究、发现、筛选、诊断以及解释管理的索引共同或不共同使用。本发明并不限制用于商业机构或政府机构战略管理,用于群体(消费者、病人等等)行为的预测,用于环境影响预测,用于识别欺诈,用于识别资源利用的模式,以及用于如生物技术、化学、物理、工程、天文学、地质学、管理科学等科学的知识发现。
信息学方法必须管理大量的非结构化或结构化的数据,以识别介于数据中的对象间新的与共享的关联,并针对这些对象达成新的解释以及潜在的功能。信息学提供对象的逻辑解释并实现新关联的派生。
在一个方面,本发明提供一种在自动化的方式下通过自一个或多个数据来源提取信息以建立介于对象间的关联网络的系统。本发明的系统通过基于实体的网络的计算机筛选(in silico)结构以确定介于数据来源中的对象间隐含的关联。优选的是,该数据来源包含文本。更优选的是,该数据来源包含非结构化的任意文本。本发明的系统赋予各用户与机构输入关注的对象并检索关于其它包括不同关联强度的直接或间接相关联对象的信息。举例而言,当在一个或多个科学与技术领域中操作时,对象可包括基因(或其对偶基因、转录、片段或甲基化反应等形式),蛋白质(或其加工、未加工、改造或未改造的形式),化学化合物,疾病及/或临床显型(clinical phenotype)。
大体上而言,本发明的系统利用一个或多个数据来源以表示知识领域。多个数据来源可包括非结构化或结构化的数据。项目(以下称之为对象)通过系统予以评估并用以识别该数据来源中的数据,其中在该数据来源中项目的同现最终的识别对象间的潜在关联。该关联储存于本发明的系统的新创设或已存在的动态数据库中并用以产生用以进一步分析的关联的综合网络。
在一个方面,本发明还提供一种多重任务处理系统,其可执行一个或多个,且优选包括下列的所有任务:(a)取得所有资源(例如为知识领域或数据库)并解析该资源以精确地识别多个对象;(b)产生/编排代表性的数据库及/或项目;(c)处理无格式的文本(例如为ASCII);(d)处理数据,例如可通过针对公共的或未提供信息的单词或对象的筛选来减少下一步分析;(e)识别对象的大写要求以增加精确度与召回(recall);(f)解决首字母缩略字以增加精确度、已知信息对象的数量以及已识别对象的数量;(g)扩充同义词以增加召回;(h)利用内部或外部子例程以增强数据处理速度以及效率;(i)针对共享与隐含的关联的分析使用询问;(j)结合用户友好的界面来操作;(k)可与其它设计系统以及网络共同操作;(l)利用记录机制以提供输出关联的测量;(m)产生具有相关记录的输出档案;(n)执行单一或多个步骤的分析;及/或(o)针对大规模或总体分析而模型化为网络。
本发明的系统通过如对象关系数据库或称之为ORD(Object-Relationship Database)、具有与来自相同数据来源的其它对象直接与间接关联的集成的对象数据库(通常是文本格式)等以执行其功能(任务)。ORD还可利用于多个数据来源。数据来源通常由包含编码成记录的百万个对象的数据库或单一的项目。
本发明的系统针对(a)数据格式化;(b)数据处理;(c)自文本源的数据或信息的提取;(d)添加记录至ORD中;(e)数据来源参考;(f)用于品质检查的例程;(g)内部与外部数据库维护;(h)网络接口;(i)用户接口;(j)用于数据项、分析与输出的例程中的一个或多个提供主要的与支持的编码。额外的程序或例程也包含于本发明的系统的范围中。
在一实施例中本发明是一用以存取信息领域的系统以及用以发现两个或多个已识别、检索、分类、排列、过滤以及数值评估的对象间的关联的知识发现引擎,在该系统中的包括一个或多个信息领域的数据来源通过对象关系数据库予以存取以集成来自一个或多个信息领域的对象。正如此处所用的,对象可为任何关注的项目或信息(通常为文字上的,包括名词、动词、形容词、副词、词组、句子、符号、数字等等)。因此,对象是指任何可以形成关联以及任何可以自数据来源中取得、识别及/或检索的事物。该数据来源可为一个或多个具有文本的信息、数值的信息、符号的信息以及这些信息的结合的数据库或知识领域(其并不必须为数据库)。介于一个或多个对象间的关联可视为直接或间接,且甚至可依据介于直接或间接对象之间的关联的相对强度予以归类。可通过将关联排列到从由正向、负向、物理以及逻辑关联所组成的群组选出的分类中而将该关联予以分类。应用于本发明的信息领域可利用作为信息的数据片断可为文本、符号、数值以及前述内容的组合。在一个方面,本发明的系统系部分或全部的自动化。在另一方面,该知识发现引擎通过词汇处理以整理一个或多个对象。
在另一个方面,本发明的用以产生对象关系数据库的系统执行但不限于下列的功能:编辑一个或多个系统数据库对象、增加数据库对象的同义字、将关于一个或多个数据库中的对象间的关联的信息分组到对象关系数据库中、自该对象关系数据库中建构词汇变体的数据库、通过该词汇变体数据库扫描该对象关系数据库以减少重复部分并检查该对象关系数据库的错误。通过如给每一个对象分配唯一的数值识别码(如一长整数等)并通过最低识别码优先的方式储存无指向性(adirectional)关联等可增加本发明的系统的效率。
数据收集器或来源数据库可用作数据来源且通常用以编辑该系统数据库对象,该来源数据库可包括如化学化合物、小分子药物、ChemID、MeSH、以及FDA轨迹链接(locusLink)、GDB、HGNC、MeSH及OMIM等等数据库。筛选出常见单词并识别大写字体可通过存取单词数据库予以实现。可利用如同义字数据库或首字母缩略字分解算法等方法识别词汇变体。在一个方面,本发明的系统还在与该系统通讯的图形用户界面上提供单击询问钮或控制组件以供用户查看在该系统数据库中自该数据来源的文本所取得的对象。举例而言,用户可在图形用户界面上查看其所显示来自该数据来源的文本,标示该文本的一段落(如词组或摘要等),以及点击如按钮等的控制组件,该按钮在该词组中的一个或多个单词以对象储存于该系统数据库中时令该系统显示。如下所述,新对象可包括于系统数据库中。
在一个方面,本发明的系统包含对象关系数据库,该对象关系数据库通过输入来自数据来源的文本区段,自该数据来源提取如标题、摘要、日期以及期刊识别码(PMID)信息组信息等选择的信息以产生记录,将该记录解析转换成句子,将每一个句子解析转换成单词,产生一个或多个阵列以将单词与该对象关系数据库中的词组相比较,以及解析首字母缩略字等方式予以建构。文本区段可从由单词、词组、章节、书本、报纸、杂志、网页的部分以及表格所组成的群组选择。当信息来源被认为具有高于其它类似的来源的影响时,特定的文本区段会被分配较高的值,举例而言,来自″Science″或″New England Journalof Medicine″文献的摘要中的对象间的关联会赋予比″Journal ofIrreproducible Result″的摘要中的对象间的关联更高的权重。
本发明的另一实施例提供一种用以关联先前无关联的对象的系统。在一个方面,本发明的系统包括从具有一个或多个信息来源数据库的数据来源所产生的对象关系数据库以及可识别介于该对象关系数据库中的对象间有意义的关联的知识发现引擎。优选的是,该知识发现引擎识别在该数据来源中一个或多个对象的同现并产生关联的综合网络。在一个方面,识别出的关联储存于系统数据库中并通过一个或多个统计上有界的网络模型(如贝叶斯网络模型)以及允许用户从该知识发现引擎所识别出的关联识别出隐含关联的询问模块予以评估。
本发明可用作为一种用以识别如新疗法、新使用或适应症、禁忌症、副作用及/或现有药物的并发症以及药物相互影响、药物副作用与针对现有与候选药物的基因药理学影响等的系统。本发明的系统可通过询问数据来源以识别出与治疗剂相关的对象及/或通过询问数据来源以识别出与该疾病相关的对象而用以识别介于候选治疗剂(如药物、基因、核酸、反意义分子、配体(aptamer)等等)与疾病间的关联。在一个方面,本发明的系统提供现有药物(例如当前由FDA针对现有适应症所核准的药物)新适应症的预测。举例而言,本发明的系统可用以识别西地那非(sildenafil,viagra_的学名)的新用途。
在一个方面,本发明的系统由包含有一个或多个信息来源数据库的数据来源产生对象关系数据库并利用知识发现引擎,该知识发现引擎针对药物或治疗剂识别出于对象关系数据库中有意义的关联,以识别出在对象关系数据库中一个或多个的对象与该药物名称或其同义字的同现,并在该对象关系数据库中的数据与该药物间建立关联的综合网络。在一种优选的实施例中,本发明的系统利用统计上有界的网络模型来识别此关联网络。优选的是,本发明的系统在系统数据库中储存该共享与隐含的关联。该系统数据库是动态的数据库,因为当额外的已知或候选药物被评估时,储存于该系统数据库中的网络发展成包括与这些额外药物的相互影响。在另一方面,该来源数据库包括如患者医疗史、人口统计数据、家族医疗史、由患者及/或家族成员所取得的基因数据、供研究的排除或包含的标准、不良事件数据、功效数据、药物动力学数据等临床数据。在又一个方面,该数据包括经由纵向研究、追溯研究以及单个病人研究(例如本发明的系统可用于个性化医疗的领域中)所取得的数据。
本发明还提供一种用以识别该系统的关系数据库中的关联的方法。该方法包括以下步骤:在用户输入一个或多个用于分析的对象清单后识别出介于该对象间共享的关联,针对每一个对象从一个或多个清单编辑所有的关联,为了包含于单一清单,依据频率计算相关对象并计算期望值。在一个方面,具有低于y%的总体可能性关联(totalpossible connections)或低于y%的实际/期望比例(observed/expected ratio)的共享对象从该关系数据库排除。
在一个方面,识别出隐含关联的对象。可通过记录或排列该关联来评估该关联具有意义的可能性,例如通过确定直接实际与期望比例并将该值与通往隐含对象唯一路径之数相乘。
在另一方面,隐含关联可通过计算介于一个或多个第一、第二与第三对象间关联强度向量,针对第一、第二与第三对象从用于一个或多个对象的来源影响分数(impact score)的数据库中取得来源影响分数,以及针对第一、第二与第三对象中的一个或多个对象将该强度向量与该来源影响分数相乘予以识别。该来源影响分数可取决于以下非限制性的因素:(1)自其中取得一个或多个对象的出版物;(2)该一个或多个对象的来源已被另一个来源所引用的次数;(3)该一个或多个对象的来源已被论文、教科书、评论文章所引用及/或被刊于同级评鉴期刊中的次数。举例而言,较高评分的隐含关联可能依据该一个或多个对象来源被刊载英国刊物″Nature″的次数而给定较高的分数(亦即针对该关联具有高的来源影响分数)。当关联具有影响分数时,一般而言,对象将不会具有影响分数,其原因在于品质(如影响)会变化的是从数据来源得来的关联。另一方面,对象可通过产生对象的数据来源所达到的品质予以评分。该影响分数被给予重要性的评估,如此处所称的确定性或相关性的评估。
本发明还包括嵌入于计算机可读介质用以从一个或多个数据来源存取信息领域的计算机程序。在一个方面,该计算机程序包括用以容纳包含一个或多个信息领域的数据来源的程序代码区段,用以维持(如建立、维修、更新等)对象关系数据库以集成来自一个或多个信息领域的对象的程序代码区段以及用以容纳用以检索、分类、排列、过滤以及检索一个或多个对象间的关联的知识发现引擎的程序代码区段。
一种嵌入于计算机可读介质以产生对象关系数据库的计算机程序,其可包括用以编辑一个或多个数据库对象的程序代码区段,用以将在一个或多个数据库中的信息分组到对象关系数据库中的程序代码区段,用以将该对象关系数据库建构成词汇变体数据库的程序代码区段,用以采用该词汇变体数据库扫描该对象关系数据库以减少重复的程序代码区段,用以分配给每一个对象唯一的数值识别码(长整数)并通过最低识别码优先的方式储存单一(uni-)或无指向性关联的程序代码区段,以及用以检查对象关系数据库错误的程序代码区段。
本发明的另一实施例是一种用于新药物疗法的候选化合物清单,其通过包括以下步骤的方法所产生:存取包含一个或多个信息领域的数据来源,编辑信息领域至对象关系数据库已将一个或多个信息领域集成为对象;以及利用用以识别、检索、分组、排列、过滤以及数值评估两个或多个对象间的关联的知识发现引擎。该清单例如可以数据结构的形式存在而可与计算机程序交互以询问、组织、选择及/或管理该数据。
在此所揭露的本发明是一种针对现有化合物或药物识别出新疗法的方法,其可例如一种通过识别出需要心室肥大治疗的患者并为该患者提供利用本发明的系统所识别出的化合物有效用药量以治疗心室肥大的方法。举例而言,利用本发明的系统所识别出用以治疗心室肥大的化合物是″Chlorpromazine″。
利用本发明所确定的另一种通过识别出需要非胰岛素依存型糖尿病(NIDDM)治疗的患者并为该患者提供利用本发明的系统所识别出的化合物有效用药量以治疗非胰岛素依存型糖尿病的方法与机制。在一个方面,该化合物是增加细胞核酸的甲基化反应(methylation)的药物合成物,如DNA甲基化反应前导等。另一个发明则是针对具有非胰岛素依存型糖尿病风险的个人的营养供应,其包括具有可有效增加整体细胞的DNA甲基化反应的药量的一个或多个DNA甲基化反应前导。
本发明所提供的一种方法包括通过识别需要治疗头痛的患者,并提供该患者有效用药量的西地那非以治疗头痛的方法。作为另一种选择,提供一种治疗识别肌肉痉挛的方法,其包括识别出需要肌肉痉挛治疗的患者,并为该患者提供有效用药量的西地那非。
本发明还包括一种用以筛选的自动化系统,其包括前述的系统以识别用以筛选的目标基因,用以选择基因与核酸序列以产生筛选阵列的寡核苷酸选择模块,以及用以自该寡核苷酸选择模块接收核酸序列并在基底上产生核酸阵列的片上DNA(DNA-on-chip)组合装置,其中该核酸阵列可用于基因的筛选。在一实施例中该目标基因用以筛选NIDDM,然而本领域技术人员应该了解,其它具有已知或甚至未知基因关联的疾病均可用来准备本发明的筛选阵列。
附图说明
为更完整地了解本发明的特征与优点,参考以下的附图对本发明的内容做更详细的描述,在附图中:
图1描绘出根据本发明的呈指数的增长的数据,其包括(A)列于Genbank数据库中的核甘酸序列,(B)在Swissport数据库中的蛋白质,(C)3-D结构数据库PDB,(D)在Man的″Online Mendelian Inheritance″中编录的人类基因与基因失序,以及(E)列于MEDLINE中的文献;
图2描绘出具有某部分共同点的集合(如A与C),该共同点在任一方独立检查时无法显现;
图3描绘出利用关联但非交互的资源(文献)来检索的方法,其中(A)两个概念(A与C)假定有关联,但除了通过中介B之外没有支持的证据,以及(B)试图发现概念A的新关联,导致通过关联项目B的检索,接着进行另一个在C中项目的检索,该C中的项目在初始检索A时无法发现;
图4描绘出关键词与摘要之间的关联;
图5显示通用系统逻辑的流程图;
图6显示依据本发明的一个方面的系统的关键组件的流程图;
图7显示依据本发明的一个方面的系统编辑数据库对象的实施例的流程图;
图8显示根据本发明的一个方面的系统如何通过首次标示模糊首字母缩略字以精练数据库对象的流程图;
图9显示依据本发明的一个方面的系统针对现有同现的对象扫描来源以减少重复并产生关联的实施例的流程图;
图10显示根据本发明的一个方面的系统如何通过分配每一个对象唯一的数值识别码并通过最低识别码的方式储存无指向性关联以产生一个或多个关联的流程图;
图11显示系统如何在用户输入一个或多个用于分析的对象清单后识别出共享的关联的实施例的流程图;
图12显示系统从所输入的信息识别出隐含关联的流程图;
图13显示如何识别出共享的关联的流程图;
图14显示依据本发明的一个方面的系统操作的流程图;
图15显示氟西汀(Prozac_)通过评分的前6,000个隐含关联的图表;
图16A与图16B显示根据本发明的数据库中所具有的每一个对象的关联数量的分布(16A),以及隐含分布与直接关联分布(16B);
图17显示随机与主题集合间10个最高关联对象的平均实际一期望比例的比较,其中随机集合的n=10,并随着主题集合变化,n至少为5;
图18A与图18B显示与关联强度相互关联的关联对象的统计特性;其中20,000个关联对象随机地选自关系数据库且(18A)针对其所共享的整体已知关联的平均百分比予以分析以及(18B)其所共享的关联的平均强度;
图19显示针对心室肥大的发展的氯丙嗪的保护作用,其中心脏超音波用以在治疗的过程中评估多个不同心脏构造的重量与厚度的改变;
图20A与图20B显示与基因β连环素(beta-catenin)关联的对象与针对被视为有效的关联变化观察的最小数量的作用,其中(A)是整体关联数量增长与时间呈指数关系,以及(B)是回溯的观察在任何给定的时间点上有多少对象已知与β连环素间接地相关联;
图21A至图21D显示在时间上对象整体数量间接地与β连环素相关联的图表,其中(A)显示仅利用通过以关键词″β连环素″检索MEDLINE(1992至2002)所取得的1,270个摘要的主要领域分析(Primary Domain Analysis);(B)是包含wnt的额外的1,970个记录(自1989至2002),wnt是与β连环素紧密相关联的对象;(C)进一步增加与β连环素直接关联的其它额外的4,028个早期记录(1993年之前),其包括对象Wingless、alpha-catenin、armadillo、N-cadherin、E-cadherin、plakoglobin、uvomorulin与p120;以及(D)是从MeSH领域检索″magnesium″以及关键词″increase″所得的额外的9,490个记录;
图22显示通过依据本发明的一个方面的系统予以执行的知识发现方法。该系统通过如NIDDM等主要关注的对象(黑色节点)起始,并通过发现在MEDLINE中用以表示直接已知的关联的其它对象识别所有的共同引用或同现。该系统接着检查所有这些节点与其它并非已知与该主要对象有关联的对象(白色节点)的关联,识别隐含的关联对象。与该主要对象共享许多关联(例如从顶部计算的第三个节点)的隐含的关联对象被视为进一步分析的优先候选;
图23显示根据本发明的介于甲基化反应与NIDDM间重要共享的关联,其中介于该二者间全部1,287个共同引用对象被识别出来,其中被评估的959个对象表示非无效种类的实际关联;
图24显示通过依据本发明的一个方面的系统所确认的分数与西地那非(Viagra_)直接或隐含关联间的相互关系的图表;
图25为对象询问及其关联的图表,包括隐含关联、分数以及其它分析,其中的缩写包括:″Query object″,其指被询问隐含关联的对象,″shared rels″,其是查询对象与隐含共享的关联数量,″implicitrelationship″,其是指通过一组共享的中间关联与该询问对象隐含关联的对象,″Type″,其是指对象(药物、化学化合物、基因、显型等等)的类型,″Quality″,其是指依据每一个关联为真实的集合统计概率所评估可为真实的共享关联的数量,″AB_int_str″,其是指针对介于A与B间匹配关联通过曲线下面积所计算出的集成强度(亦即A所具有的全部关联中,与B匹配的总体关联强度(如总体的a%),且若所有的关联完全匹配时,该强度为1,而若存在许多不充分的关联匹配时,则该数值会很小),″BC_int_str″,C与B之间与前述相同的关系,″Inp_Int_str″,其是链接A与C之间最不充分的关联(隐含强度),″Imp_Int_Ver″,其是准确分数的曲线下面积且并非就关联的重要性测量关联的方式,而是评估其为真实的可能性,″Direct_Str″,其是指直接强度,在MEDLINE中发现的共同发现数量的函数且若为隐含时则为空白,″Expect″,其是指我们所期望在A与C之间有多少关联出现的可能性,″Obs/Exp″,其是评分的关键,是评估的″Quality″除以″Expect″值,″Score″,其是指″Quality/Expect″;
图26显示通过依据本发明的系统所执行的信息提取步骤的流程图;以及
图27-1至图27-45显示利用依据本发明的一个方面的系统通过微阵列分析而识别出的关联。
具体实施方式
下面将详细披露本发明的多种实施例的形成与使用,应该理解的是,本发明提供可在很大范围的具体内容中实现的许多可应用的创新概念。在此所揭露的具体实施例仅用以说明具体形成与使用本发明的方式,而并非用以限制本发明的范围。本领域技术人员在参考本说明书后可轻易了解所揭露的实施例的各种修饰与组合以及本发明的其它实施例。因此后附的权利要求将涵盖所有这些修饰或实施例。
定义
除非另做定义,在本文中所使用的所有技术与科学术语具有本领域技术人员通常理解的意义。为了促使对于本发明的了解,一些术语将定义如下。在此所定义的术语具有为本发明相关领域的技术人士所通常理解的意义。
如″一″或″该″等术语并非仅用以视为单一个体,而包括用于说明的具体实施例的普通种类。此处的专门术语用以说明本发明的具体实施例,然而其并非用以限制本发明,除非在权利要求中予以描述。
以下所述是应用于本发明的术语。
正如此处所用的,″对象″可为任何关注的项目或信息(通常为文字上的,包括名词、动词、形容词、副词、词组、句子、符号、数字等等)。因此,对象是指任何可以形成关联以及任何可以自数据来源中取得、识别及/或检索的事物。″对象″包括但不限于关注的实体,如基因、蛋白质、疾病、显型、机制、药物等等。如后所述,在某些方面,对象可为数据。
″关联″是指相同单元(如词组、句子、文本的二行或多行、段落、网页的部分、页面、杂志、报纸以及书本等等)中对象的同现。其可为文本、符号、数字及前述的组合。
″元数据内容″提供关于数据来源中文本组织的信息。元数据可包含标准元数据,如都柏林核心集(Dublin Core)元数据或特定集合(collection-specific)等。元数据格式的例示包括但不限定于,例如用于图书馆目录的机器可读目录(MARC)记录,资源描述格式(RDF)以及可扩展标记语言(XML)等。元对象可以手动方式或通过自动信息提取算法来产生。
正如此处所用的,″引擎″是为其它程序执行核心或必要的功能的程序。举例而言,引擎可以是在操作系统或应用程序中协调其它程序整体操作的中央程序。术语″引擎″还可指包含可变换算法的程序。举例而言,知识发现引擎可被设计成其识别关联的方法可被改变以反映识别或排列关联的新规则。
多种分析类型可用来评估数据。″拼字正确分析″是在由字符代码所组成的文本中有意义的单元的识别。在英文中,通常是通过白空格(空白、制表键、换行符等)来分离文本并接着将所产生的单元或记号(token)视为单词。针对缺乏文字边界的语言而言,一种通用的方式是利用滑动的窗口以形成交叠的n-字符序列,其通常被称之为″字符多连(n-grams)″或″多图(n-graphs)″。″语义分析″识别表示相同概念的单词间的关系,例如通过后缀移除或截断或者辞典的利用。″统计分析″是指依据每一个术语(单词、字根、词干、多连、词组等等)出现次数的计算的技术。在关于主题的无限制收集中,用于不同上下文的词组会代表不同的概念。词组同现的统计分析可有助于解决文字意义不明确。″句法分析″可通过词类分析用以进一步的减少不明确。正如此处所用的,前述的一个或多个分析可更一般地称作″词汇分析″。″人工智能″是指通过一种可令如计算机等无人装置执行人类会认为有意义或″智能″的任务的方法。例如识别图像、理解口语单词或书写文本以及解决问题。
正如此处所用的,术语″数据库″是用以包括用于原始或编辑后的数据的储存器,即便有多种的信息面(informational facet)均可建立于数据信息组中。数据库通常被组织过以使得其内容可被存取、管理与更新(如该数据库是动态的)。术语″数据库″与″来源″在本发明中还互换使用,因为主要的数据或信息来源是数据库。然而,一般而言,″来源数据库″或″来源数据″是指如非结构化及/或结构化的文本等输入至该系统以识别对象及确定关联的数据。来源数据库可为也可不为关系数据库。然而,系统数据库优选包含关系数据库或某些同类型的数据库以储存关于对象间关联的值。
正如此处所用的,″系统数据库″与″关系数据库″可互换使用。更具体而言,″关系数据库″是指组织成包含适于预设类型的数据的表格集合的数据收集。举例而言,数据库表格可包含一个或多个通过列所界定的类型(如属性等),而数据库的行可包含针对通过列所界定的类型的唯一对象。因此,如基因等对象可能会具有核甘酸序列、胺基酸序列、特定组织或细胞的表达、原始生命体(organism of origin)、与显型的关联等行。关系数据库的行也可称之为″集合″且通常通过其列的值予以界定。在关系数据库的环境中的″领域″是评估如列可包含的领域的有效范围。
正如此处所用的,″知识领域″是指本发明的系统在其上可操作的研究领域,举例而言,所有的生物医学数据等。须特别指出的是本发明具有结合几个领域的数据的优点,例如生物医学数据与工程学数据,对于这种不同分类的数据有时可以链接某些对象,这些对象无法被仅熟悉一种研究/学习的领域的正常人士结合在一起。
″分布式数据库″是可于网络的不同点中间散布或复制的数据库。
术语″数据″与″信息″通常可互换使用,如同″信息″与″知识″,因此,有必要了解这些术语间的区别。″数据″是最基本的单元,其包含经验上的测量或测量的集合。数据被编辑以为信息服务,但是其基本上与其独立。相比较而言,信息由关注的内容所取得。举例而言,为了寻找与心脏疾病风险相关联的变量,可以收集关于身高、体重、人种以及饮食的数据。但是相同的数据可用以研制处方(formula)或产生关于身高/体重或人种/饮食关联的信息。
当″信息″是指数据集合时包括数值、数值集合、或最终的结果或自数据集合所取得的结果。然后″信息″是测量或统计以及信息的基本单位。″信息″还可包括其它类型的数据,如单词、符号、文本(如非结构化不固定文本)、程序代码等等。″知识″较松散地定义为信息集合,其给出对系统的充分理解以模拟原因与结果。继续前面的例子,关于人种与饮食的信息可用以研究食品销售的区域行销策略,而关于身高/重量的比例可被医生用于饮食建议的指引。须特别说明的是在数据、信息以及知识间并没有严格的界线;这三种术语有时会被视为相等。一般而言,数据来自于调查,信息来自于关联,而知识来自于模型化。
正如此处所用的,″程序″或″计算机程序″通常是符合特定程序语言的规则的语法单元并由宣告与声明或指令组成,且可分割成需要解决或执行特定功能、任务或问题的″程序代码区段″。程序语言通常为用于表达程序的人工语言。
″系统″或″计算机系统″通常包括一个或多个用以执行数据处理的计算机、接口设备以及软件。″用户″或″系统操作员″通常包括为了数据处理与信息交换通过″用户装置″(如计算机、无线装置等等)而利用计算机网络存取的人。″计算机″通常是可执行大量计算的功能性单元,其包括大量算术运算以及逻辑运算而无须人为介入。
″应用软件″或″应用程序″通常是用于应用问题的解决的特定软件或程序。″应用问题″通常为终端用户所发出的问题并要求其解释的信息处理。
″自然语言″是一种语言,其规则是根据当前的文法而并未被具体规定。自然语言的例子可包括如英文、俄文或中文等。对比之下,″人工语言″是一种在使用前已明确建立其规则的语言。人工语言的例子可包括计算机程序语言,如C、Java、BASIC、FORTRAN或COBOL。
正如此处所用的,″实体关联″是指于数据来源的选定的部分(如词组、行、段、节、章或书)中对象的同现。
正如此处所用的,″逻辑关联″是指通过逻辑操作数如″非″、″包括″、″及″、″或″等链接的关联,其中连接词以特定方式使对象关联,举例而言,″我们研究基因XX、YY、ZZ,并发现它们与癌症无基因上的关联″,在此例中,XX、YY、ZZ仅可利用同现而被链接,但是从此句所余留的上下文的逻辑上,它们并未被链接。逻辑关联可为来自数据库的对象且已经明确的被链接或关联,如基因本质论(Genome Ontology)中的那些。
正如此处所用的,″关联的综合网络″是指尽可能完整的网络,其包括来自许多来源或知识领域的数据。优选的是,与该网络相关联的数据可在不受任何限制的情况下予以存取,这种限制可例如为″仅给我显示与Medline文本相关联而不包括由其它文献所产生的关联″。
正如此处所用的,″部分网络″是指仅计算来自有效数据来源的部分的网络(如在科学杂志中所发表的文章)。定义于一个数据来源中的部分网络可与定义于另一个数据来源中的部分网络相比较以确认关联。此术语还指仅使用任何预先计算网络的部分,举例而言,″仅给我显示来自于Medline的文献的连接″或″仅给我显示来自于Medline文献中讨论癌症的连接″。
正如此处所用的,″主题群组(topical cluster)″是指通过主题关联的对象群组,如″乳腺癌″或″当研究在心脏疾病与正常专利时这些具有可重制性差异表现的基因″或由任何用户所产生的对象的任意分组以产生额外的信息或针对其所给定的研究或假说而验证信息。
正如此处所用的,″统计的关联″是指扰乱(tousing)一个或多个排列配置(实际/期望比例,强度等等),其中若关联发生的频率明显大于随机偶然的预期则该关联会被确认具有统计的关联。
正如此处所用的,″解析″是指验证对象在对象关系数据库中并确保词汇变体与同义字等也包含于针对该对象的该对象关系数据库中。其也是指接着从文献中寻找对象以及任何该对象的变体,亦即成功从该文献中提取该对象及其变体。
正如此处所用的,″为关联分配属性″是指任何用以区别不同种类的关联的方法,且其可包括仅因为同现所产生的关联以及因为包含于特定对象种类(如药物、基因等等)所产生的关联。其还包括可揭露关于对象集合的某些方面的结果对象,如作为该集合的成员通常是″转录因子″并因此指示某种控制功能且可能包含DNA与某蛋白质间的相互作用。
知识发现
在某些技术中,如科学等,通过数据的收集来取得有关所关注的对象的信息及/或知识,但是其还可包含或产生其它关于起初并不想研究的对象的新信息。有许多轶闻关于科学上发现是通过意外所启发或在研究不相关的领域时意外顿悟所致。这些经验观察显示介于表面上无关联的对象间仍存在有潜在的关键性关联,并进而使这些对象集成至新的关联集合中。
信息通常是来自于特定的关注且大多数的数据的收集追求单一的关注,依据本发明的系统可在个体不需要增加额外的成本的前提下扩展个体的关注。因此,本发明的系统在不额外增加成本的前提下产生更多的知识。这种附加价值利益是无限制的且是本发明的系统在知识发现的角色的来源。
尽管个体擅长发现数据中的模式并阐释数据中的关联,但其会受限于消化新数据的数量和速度。另一方面,计算机则受限于其发现模式或理解关联的能力但却具有较快以及更全面的数据消化能力。为全面地检索各个模式的现有数据,必须利用计算机。依据本发明的系统实现多个用于数据的关联分析所需的任务,包括:(a)取得电子可读格式的知识领域;(b)利用软件来识别包含于该领域中的数据;(c)识别介于包含于其中的数据项之间的信息关联;(d)利用该关联以发现并识别新趋势、功能或解释。
无效率的知识发现方法
其中一种关注于追求科学与技术中的知识的数据来源是MEDLINE。在1986年,当时MEDLINE具有少于现在的数量一半的项目,研究者DonSwanson证明两个不具有已知链接的生物现象间可通过中间链接以半自动的方法产生关联。其概念在图2中揭露,其中介于A与B间的关联与介于B与C间的关联已被确认;然而,并未识别出A与C之间的关联。Swanson称这种关联为″非交互式文献″,并开发出一种在非交互式文献中操作的将来自MEDLINE记录的关键词配对以识别介于两个文献集合间的共同性。利用这种方法,其识别出介于雷诺氏症(Raynaud’sdisease,一种循环上的疾病)(文献A)与鱼油(文献C)间的关联,这是通过与这两种现象相关的血液与血管改变(文献B)来完成。因为这一识别,Swanson能够假设鱼油(一种增加许多有益的循环介质的物质)对于雷诺氏症的患者而言具有正面的功效。此方法被用来识别其它先前未知的关联,如镁的水平与偏头痛的关联以及精氨酸水平与等离子生长调节素的关联。
Swanson发布一种程序ARROWSMITH,其可让用户检索非交互式文献。图3A与图3B示例性显示ARROWSMITH如何操作。在图3A中显示在两个概念A与C之间直接检索的方法,其中A与C是以用于MEDLINE的主题检索的文本形式表现的所关注的一般概念。通过检索所取得的标题被解析成单个单词的集合。通过这一集合,不提供信息的单词被过滤掉而留下关键词的集合(在A之下未画阴影的部分)。具有不同主题检索的C并不知道与A有交叠。亦即,若用户就组合的集合″A以及C″检索MEDLINE时,用户将不会检索到任何东西,亦即没有建议关联的项目。通过利用ARROWSMITH发现在A与C二者中所共同发现的关键词集合用B表示。在此集合中可发现未记录的关联;然而,留给用户判断在B中的链接是否相关或重要。
图3B显示ARROWSMITH的非直接检索的结果。如果用户仅关注于简单地寻找与A相关联的新的或关注的链接,则可采用该方法。从由A的主题检索所取得的初始关键词集合,用户可根据该全部的关键词集合引导另一次独立检索。此结果被合并到另一个关键词集合B,且再一次由每一个关键词引导另一次检索。关联的这个第三份清单由检索B中的所有关键词的所取得,且可被处理成排除在初始集合A中已被发现的关联,并留下最后的集合C。
如同该方法的创造性一样,存在一些为何Swanson的方法极度无效率的原因。首先,ARROWSMITH仅利用文献的标题。并且,当通过减少用户必须进行分析关键词的数量而用于实际用途时,标题并不总是以专门术语描述其发现,同时也不会包括太多在该文献的其它部分(如摘要等)中可发现的关联信息。其次,仅利用关键词而非词组,造成关键部分缺乏区别。举例而言,″心脏″会收集到与″心脏麻痹″与″心脏发育″相关联的术语。再者,当称该方法为″自动″方法时事实上仅为半自动方法,因为其要求如输入的手动的记录编辑,且必须针对每一个匹配的关键词进行关联的另一次手动评估,而该评估通常要求所关注的特定领域中的专家来进行。然而,已有一群组利用标准化的关键词与关键词组出现的统计频率来尝试在检索的顶端标示最有关联的单词与词组。基于关键词的方法的缺点除限制数据池(data pool)外,还在于被分析领域的范围。如图3B所示,即便限制单词是经过筛选的,唯一关键词的数量仍然急剧地增长。因此,非直接的检索以及利用这种检索的方法在大量数据或要做分析时并无多大的优势。
单词配对及其限制
任何利用单词配对或术语的同现的知识发现系统受限于分析的规模。存在于单一来源的大规模数据的例示可通过查找数据库而发现。数据库被视为原始数据的仓库,即便在数据信息组中可发现不同的信息面。如先前所述,一种广泛的科学与技术知识的来源是MEDLINE,其以可扩展标记语言格式的电子文本形式使公众无须付费即可自国家医学图书馆(National Library of Medicine;NLM)取得。
在2002年初期,MEDLINE包含12,063,000笔记录,其中6,400,000笔有摘要。在解析后,发现这一千二百万笔记录包含超过4,400,000个唯一的单词。为说明来自关于共同主题的摘要集合的唯一单词如何的快速增长,通过关键词″wnt″的主题检索获得973笔MEDLINE记录的标题与摘要,并利用该系统的单词解析例程将该检索的内容处理成单个的单词。在全部191,165个单词中检索出来总共11,226笔唯一的单词。仅合并这些单词简单的字根变体(如将″bind″、″binds″以及″binding″视为同一单词)就将该清单减少到9,479个单词。接着通过过滤器排除220个不具意义的单词(如″hence″、″where″、″did″以及″at″等)以及可能的副词(单词后面为″ly″者)。最后的清单包含8,495个关键词。这些单词中的一部分是更复杂的字根变体(如bind/bound、cell/cellular)、特殊的名词(如″Beckham″、″Smith″)、数字或百分比、少数无法筛选的不具意义单词(如″hundred″、″liter″)。还有大量对于引导另一次检索帮助不高的单词(如″ararose″、″filter″)以及大量由于其表达较为宽广的概念(如″cell″、″development″、″Drosophila″)而无法确定其作用的单词。利用国家医学图书馆的PubMed Web网站渐增地通过该清单上最常见的关键词询问MEDLINE摘要(亦即一个单词,接着两个单词直至五十个单词)并计算其渐进线,估计有6,100,000笔MEDLINE文献在其摘要中包含一个或多个自该″wnt″清单中所取得的关键词。这表示将近百分之九十七的MEDLINE记录包含有摘要。因此,针对潜在的关联而检查隐含关联文献的领域等同于阅读一千二百万笔MEDLINE文献中大多数的文献。
这种类型系统非常无效率的进一步说明是,可通过观察从随机确认的记录所获得的关键词增长速度来示出。在图4中,由该″wnt″摘要所取得的唯一关键词的总体增长是依据相同数量的有效的随机摘要(利用关键词″result″自MEDLINE中所取得者)予以绘制。在该摘要中的所有单词被记录到数据库中,每一次发现新的单词时增加至累积总数。
如图4所示,一个相对小的100笔摘要的集合快速膨胀至4,000唯一单词。wnt关键词增长分析显示关于范围不小的起始领域的非直接检索快速地变成无效率与不切实际。因此,有效率的系统还能够从分析中减少无关联的关键词。本发明的系统即可实现这种功能。
利用基于文本的来源克服知识发现中的障碍
一种评估任何来源的非常实际的方法是通过回答以下三个问题:
(1)该来源的广泛性为何?;
(2)该来源的错误率为何?;以及
(3)识别新的但是有用的关联必须耗多少工?
假设当评估关联的有效性时,用户面对非常实际的时间与金钱的限制,本发明的系统被设计成限制仅对于特定关注的领域中已知所关心及/或关联的客体进行分析。举例而言,在生物技术中,当前所关注的领域通常是在基因、疾病、临床显型、蛋白质、小分子、作用机制、潜在新药物以及治疗化学化合物。依据本发明的系统还特别地设计成将分析限制在关注领域的来源。举例而言,利用MEDLINE作为来源,检索限制于标题与摘要。这主要因为这些领域涵盖适于新关联发现的最大量信息。
就利用具有大量文本的数据来源产生关联分析方面而论,其具有大量本质上的困难必须予以克服。最大的困难是在其放置的上下文中适当地分配并评估文本。人为的关联本质上可能仅存在于上下文中,这对于科学来源而言尤其重要。举例而言,摘要可识别根据测试条件的相互影响。包含有基因淘汰突变(knockout mutation)的动物血缘可被用来确定药物的功效且可建构介于药物及其功效间误导的关联,如″药物ABC会致命″。为克服信息的错误评估,在一个方面,本发明的系统包括对每一次识别出对象或关联进行计数的渐增计数器。若对象碰巧落入特别情况的分类中时,与对象出现次数之和相比,记录的关联应具有相称的小计数器。
另一个必须克服的问题是利用非标准标示来描述人为构造。以陈述″ABCΔ130-140蛋白质无法约束DEF″为例。从该陈述中可以理解二件事:ABC原则上拘束DEF(隐含的)以及没有胺基酸130-140ABC无法拘束DEF。若标示是标准则该标示可轻易地予以符合,但是有几种显示此删除的方法,包括ABCΔ1d(用于第一领域),ΔABC-2(用于第二删除构造)。ABC-DEFBR(不具有DEF拘束区域的ABC)或任何数量的关于何者被研究的方法。本发明的方法仅登记已识别的对象的关联。
另外两种类型的错误可能存在于数据来源中。举例而言,可教导本发明的系统以正确地识别对象/关联或该研究的结论/结果。依赖一个或多个计数器变量可执行更好的评估,其中该变量是计算介于两个对象间的关联被识别出的总次数并用以协助识别错误。该评估涉及提取在该对象关系数据库中项目的子集合,回复至原始的参考并评估有多少是精确的。该评估的精确性对于提供分数以排列潜在未记录的关联是关键的。因此,在此所述的系统设计成用来减少在建立对象关系数据库的过程中的系统错误。因为稀少或不足的语义学的语法所产生的其它类型的错误表现出更大的挑战。优选的是,本发明的系统强调精确性更胜于完全性,亦即本发明的系统可接受忽视极为罕见的关联有助于寻找识别正确的关联。
通过向被研究的对象提供一致且标准的分类,前述提及的大部分障碍可被克服。此外,如针对其多元主题词表(Metathesaurus)的美国国立医学图书馆的MetaMap等工具可首先通过包含于该多元主题词表中的概念而用来匹配词组与单词变体。一旦用户以手工的方法输入其一般关注对象,该多元主题词表帮助用户选择各种的主题领域。
新颖的知识发现系统
通过本发明所解决的问题是利用来源来广泛地识别关联并随后模型化这些关联,以在研究领域(如检索领域)中发现新的知识并识别出局部与整体的趋势。
在一个方面,本发明的系统包含用以储存可自其中挖掘信息的文件的存储器。另一种选择是,或可额外附加的是,本发明的系统包含可连接至网络的处理器,通过该网络可存取一个或多个文件的集合(总的来说,数据来源)。
优选的是,本发明的系统的处理器包含中央处理单元(CPU),其执行嵌入计算机可读介质的一个或多个程序(计算机程序产品)以执行后面披露的评估方法。计算机可读介质包括但不限于:硬盘、软盘、光盘、数字影像光盘、闪存、在线互联网网站、内联网网站;其它的光学、磁性或数字,易失性或非易失性储存介质类型。正如此处所用的,″计算机可读介质″包括合作的或互连的计算机可读介质。其可专属地存在于单一计算机系统中或者分布在多个本地或远程互连的计算机系统中。因此,在一个方面,该处理器执行接收并完成来自客户端(如计算机、工作站、便携式装置、如Dell 4600等多CPU服务器、膝上型计算机、办公助理、或其它可连接至网络的无线装置)请求的服务器程序以实现一个或多个系统功能。通过该服务器所执行的服务器程序可用来有规律地再计算对象关联的网络(容后详述),提供可接着被下载至客户端机器的网络数据库,在该客户端机器中用户可与其交互或询问。可替代的,该服务器计算机保留该网络数据库,而客户端/用户在不需要在客户端机器保存本地副本的情况下通过该服务器与该网络数据库交互。此架构提供容许数据库扩充的弹性,提供较客户端/用户机器中所取得的更多的磁盘空间与速度。
适合应用于本发明的系统的服务器端包括但不限于SQL服务器、Oracle以及Microsoft Access。
在一个优选的方面,本发明的系统还包括用以开发、部署以及管理企业数据库的应用程序(如Microsoft Access程序)。
在一个方面,本发明的系统包含引擎,该引擎用以监视网络数据库的再计算结果以识别可能突然通过新增的对象或来源数据而链接的对象群组,提供用以执行具有程序代码区段的程序的标识符或系统触发器,其中该程序代码区段包含用以审查结果的指令。以这种方式,本发明的系统识别可提供新发现机会的关联(例如通过识别后选药物目标)。因此,本发明的系统模型化典型的人类思想与科学方法,产生某些发现,然后本发明的系统利用此新发现以产生额外新的发现。
在此所述的计算机程序产品用以执行在通用计算机中操作的系统功能。计算机可包括独立单元或多个互连单元。功能性单元被视为具有完成特定目的能力的硬件实体或软件实体或二者兼具。硬件包括信息处理系统的全部或部分的物理组件,该处理系统例如计算机或外围装置。
优选的是,该系统还包括用以显示该数据评估方法的结果的用户接口。该用户接口可提供于客户端系统中,该客户端系统通过存取服务器的方式存取依据本发明的系统,或者该用户接口与系统可共同的包含于通用计算机中。依据被执行数据挖掘运算的类型可提供定制的窗口(如具有限定的边界的显示影像的一部分,其中在该边界中显示数据)。举例而言,可定制该窗口以在用户友好的图形格式下显示与基因、蛋白质、化学化合物、其功能及/或相互影响等相关联的数据。举例言之,该窗口可包括如标题栏、工具栏、下拉式选单以及如按钮或链接等控制组件等组件。
在一个方面,该用户接口包括但不限于用以接收由用户所输入与用户的关注内容(如询问)相关联的文本或与来自数据来源的数据相关联的输入(文本、数值、符号、化学方程式、数学方程式及其它类似者)的信息组,一个或多个用以接收来自远程计算机的输入的信息组,其中该远程计算机通过该系统响应该用户通过该接口的交互予以存取,该交互例如用户在控制组件(如按钮、下拉式选单、任务栏、链接等)上的选择或点击操作。该用户接口可被定制以反映用户的特定关注,例如包括链接至与用户的特定关注相关联的数据来源。
与来自数据来源相关联的输入可转换至简单的可互换格式,如利用标准文本或数据转换器的可扩展标记语言。因此,数据来源包含可被转换至如可扩展标记语言等格式的pdf、bmp、tiff格式、HTML、CHM、RTF、HLP、TXT(ANSI与Unicode)、DOC、XLS、MCW、WRI、WPD、WL4、WPS、SAM、RFT、WSD。在本发明的一个优选的方面中,本发明的系统的数据转换器功能被用来将数据转换至与诸如Medline等数据来源相似的格式。
依据本发明的一个示例性系统,利用例如具有256MB RDRAM与36GB SCSI硬盘驱动器的桌上型800MHz Pentium III以及具有1GB RDRAM、36GB SCSI硬盘驱动器与备用72GB SCSI硬盘驱动器的Pentium-4个人计算机来执行计算。在以下所述的实施例中,由于本地1.3太字节(terabyte)的集群是不稳定的,因此在本地将MEDLINE储存于72GB硬盘驱动器中。在一个方面,用于本发明的系统的程序代码用VisualBasic 6.0(VB 6)撰写;然而,通过本发明的揭露,本领域技术人员应该了解可利用多种程序语言中的任何一个来实现本发明。举例而言,本发明的系统可利用如开发式数据库互连(ODBC)扩展以从MicrosoftAccess 2000执行数据库存取。VB 6也可通过ODBC提供SQL服务器扩展,使其能够升级。
本发明的系统所执行的评估方法或数据挖掘操作大致上可划分成以下部分:
1.知识领域中的信息关联被消化。
2.有意义关联的识别(在知识领域中,如数据来源等)是根据主要领域以通用方式予以分类的假设,且这些分类充分重要以被包含于特定的数据库中。
3.在该知识领域中综合的关联识别是通过在知识领域的关键领域中对象的同现所产生。
4.关联的综合网络储存于数据库中并接着用以产生包含共享的关联及那些仅隐含地知悉的关联的询问。
5.共享与隐含的关联利用有界的网络模型予以统计上的评估。
6.该识别的关联通过将其应用到现有的问题来测试其精确性。
在知识领域中信息关联的消化通常以从数据来源向系统提供输入而开始。
例示的数据来源包括但不限于公开的研究报告(如ScienceCitation Index、Medline、BIOSIS)、公开的技术报告(如EngineeringCompendex)、会议公报记录、公开技术报告成果数据库(如NTIS)、专利数据库(可在
www.uspto.gov获得,以及诸如DERWENT、LEXIS、WESTLAW、DELPHION、MICROPATENT等数据库)、程序叙述数据库(如RADIUS)、管理机构网页(如FDA、NIH、USPTO、FTC、SEC网页)、信函、备忘录、白皮书、聊天室文本、法院判决、新闻报导、在百科全书中的文章、书籍、论文、名单、表格、目录、索引、市场分析、以及其它一般在线公布或以数字形式存在的数据。除互联网来源外,内联网来源及其它特定企业结构所特有的及/或该企业所有的可转换成数据来源的文件,其可包括但不限于备忘录、信函、企业计划、研究报告、授权提案、电子邮件、手册、指南、科学数据(包括已处理与未处理者)、顾客信息、竞争者信息等等。此外,教育或参考材料亦可包括在内,如书籍(如Physician’s Desk Reference,Merck Manual,:Goodmanand Gilman’s,The Phamacological Basis of Therapeutics,TenthEdition,A.Gilman,J.Hardman and L.Limbird,eds.,McGraw-HillPress,155-173,2001;在
http://onlinebooks.library.upenn.edu/new.html,http://www.bartleby.com/,
http://www.ipl.org/div/books/,
http://promo.net/pg/,
http://www.biblimania.com/,www.netlibrary.com.等可以获得的各种在线书籍)。
文件包括那些当前在线上以及那些随后转换至电子文件的文件,如通过光学字符识别(OCR)扫描。举例而言,不存在于线上的文件或历史文件可通过标准复印技术及/或扫描仪予以复制。
在一个方面,依据本发明的系统包含光学字符识别模块,该光学字符识别模块包含扫描仪以及与该扫描仪通讯的处理器,该处理器还与链接至该系统数据库的系统处理器相通讯。优选的是,该扫描仪用来取得数据来源(如书籍、杂志、信函、实验室笔记本等等)的影像且该处理器与该扫描仪通讯,而该系统将该文本从印刷格式转换至可用作为数据来源的文件。
该模块可用以一次扫描整页或二页(如利用平板扫描仪)或可以扫描一页中所选定的部分(如该扫描仪可为可携式装置的形式)。在一个方面,该扫描仪包含进纸系统用以扫描大量分离的文件,或可自用后即丢的书籍分离的纸张或者可沿着其书脊裁切以分离页面的书籍的纸张。
在一个方面,该数据来源文件是可编辑文本文件或图像,从其中可提取出相关联的数据。通过该系统所扫描的文件优选关联至与该文件的至少一关键特征相关联的至少一元对象。该文件与元对象的关联可要求与该系统的操作员交互,该操作员行使该扫描或转换方法的控制,使得不具有该至少一个元对象的文件不会转换成该系统数据来源的部分。在一个方面,产生暂时性数据库用以储存待审查与排除以作为数据来源或被编辑至摘要内容的文件。操作员可为专家或经过训练以检阅文档中一个或多个关键词的存在的个人。
在文件以声音形式储存或包含图像组件的情况中,可利用自该组件中提取文本化数据的方法(如语音转文字算法或光学字符识别算法)以产生额外的数据来源。提供至数据来源的该文件可储存在单一的内存或分散于许多连接至如全球网或互联网的服务器。该文件可通过该系统的处理器在后述的方法实施前或实施之中经由网络予以存取。可利用网络爬行器(web crawler)来产生通过该系统予以操作的文件集合。
来源的选择可取决于被评估的特定技术领域及/或被执行评估的目的(如药物发现与药物反效果的识别的比较,药物相互影响的识别,消费者趋势的识别等)。其它重要的标准包括但不限于数据来源的临时涵盖范围(如最近公开或选定的时间标记)以识别新兴的趋势,以及地理范围(如公开的位置)。
在一个方面,被评估的数据来源结合多个数据库,如涵盖相关联及/或相异的技术领域或多个知识领域的数据库。举例而言,相结合的数据库可包括药物与生物技术数据库,生物医药与工程数据库,生物技术与信息技术数据库等,此处仅列举几个结合。在某些方面,当数据来源被识别出以评估时,关于技术方面并不做任何限制。举例而言,DIALOG与STN数据来源包括来自相异技术领域的数据库,其可以相结合或相分离的方式评估。
在另一个方面,数据来源包含非结构化的文本数据(如来自科学文献的文本)以及结构化的数据。在一个方面,数据来源包含来自具有DNA序列同源数据、基因本体群体名称、蛋白质结构相似以及其它类似物的科学文献的数据收集的非结构化文本(如期刊文献、教科书、专利文件、网站数据)。
系统功能的综述
图5显示利用如MEDLINE等各种来源的一般系统逻辑的流程图的流程图。在方框53中,文本扫描该选定的来源,如线上科学文本50、MEDLINE摘要51或电子数据库52。此方法可完全被自动化或可用交互的方式执行。当多个文本集合被用作数据来源时,该数据可储存于单一的机器或客户端/服务器端架构中。特定集合(collection-specific)元对象可与每一个集合产生关联。
在方框53中,信息自选定的来源通过″推断提取″予以提取并馈至对象关系数据库54中。数据可自存在于不同格式的数据来源中提取,该格式例如文件目录、ASCII、DOC、PDF、数据库记录、平面文件(flatfile)等等。在一个方面,本发明的系统提供程序代码以转换储存于多种不同档案类型的数据至单一格式,例如以PDF、TIFF、Word、Text文件储存的非结构化的数据可转换至XML。
ORD 54馈入发现引擎55以执行关联网络分支检索与整理。该发现引擎55通过间接关联57及/或当前间接关联56的排列清单产生历史性发现。
图6显示本发明的系统的关键组件的流程图。一般而言,依据本发明的系统在方框60中编辑数据库对象,接着在方框61中提炼该数据库对象,在方框63中产生一个或多个关系数据库。该关系数据库63可在方框67中识别共享的关联,在方框64中识别隐含关联,及/或在方框65中识别共享的隐含关联。
在一个方面,本发明的系统如图7所示般编辑数据库对象。信息组是可被分组到相同群组的关注的范围以及涵盖相同信息群组而在需要时可独立于结合的使用的数据库。举例而言,三个在科学与技术中关注的信息组为:基因71(其中的数据库可包括locuslink 71a、GDB 71b以及HGNC 71c);化学化合物、小分子与药物72(其中的数据库可包括ChemID 72a、MeSH 72b以及FDA 72c);以及疾病与临床显型73(其中的数据库可为MeSH 73a以及OMIM 73b)。在方框74中接着将用于基因71、化学化合物、小分子与药物72以及疾病与临床显型73的数据库群组予以预先处理并格式化为数据库项目。在方框75中接着将项目予以分解并结合,并在方框76中检查错误。任何不期望或不具意义的项目可(自动化的或通过用户定义的)在方框77中予以删除。
在另一个方面,本发明的系统的用户检视来自数据来源(如线上或通过光学字符识别模块提供给该系统)的文本的显示并可选择与标记文本以将新单词增加至对象清单。优选的是,显示有文本的图形用户界面还包括显示在文本中被检视的单词中哪些当前存在于对象清单中。以此方式,文本可快速地被扫描以选择当前尚未被使用的重要的新对象。
该处理后的信息可与来自其它数据来源及/或自先前编辑与关联确认步骤所取得的信息相结合。在某些实施例中,该信息还可利用如集群、分类及预测模块化等传统数据挖掘技术予以评估。
如图8所示,在一个方面,为精练该数据库对象,在方框81中,本发明的系统首先标示模糊的首字母缩略字(利用如首字母缩略字-解析程序,容后详述)。在方框82中,共同单词利用另一单词数据库或如Merriam-Webster Database(M-W)等资源予以大致上的标示。此外,在方框83中,在大写模式重要的地方将项目予以标示(再次利用自动化系统、工具或如M-W等资源)。在方框84中,另一个提炼是利用如首字母缩略字-解析程序等寻找词汇变体并在区段85中利用如首字母缩略字-解析程序寻找额外的同义字。
如图9中所示,本发明的系统接着扫描所存在的同现对象的来源以减少冗余并产生关联。举例言之,在方框90中,文本块从诸如来源平坦线(flat-line)等的数据来源予以输入。在方框91中该系统接着自该来源提取信息片段。举例言之,利用MEDLINE作为来源,该系统可为每一笔记录提取包括标题、摘要、日期以及PMID信息组等信息。在方框92中本发明的系统可预先处理并格式化来自该来源的记录,在方框93中将该记录解析成句子,在方框94中将该句子解析成单词并在方框95终将该单词放置于一个或多个阵列中。此外,本发明的系统可依据词组针对匹配检索该对象数据库(其中一至五个集中的单词从任何阵列中形成词组。在方框97中接着决定是否存在如同确认的匹配。若存在匹配,在方框98中解析任何标示的首字母缩略字,若有标示时在方框99中检查大写字。若不存在匹配,则处理返回到方框94,其中新的单词集合从句子解析出来并继续先前所述流程。在方框100中任何依据确认匹配的新关联(在所有的标示均被检查与解析后)在方框102中以新关联被增加到数据库中)。然而,若没有发现新关联,则在方框101中增加共同观察计数器的值。
图10显示本发明的系统在方框105中如何通过分配每一个对象一个唯一的数值识别码(长整数)来产生一个或多个关联以及在方框106中通过低识别码优先的方式储存无指向性关联。
如图11所示,在方框110中本发明的系统在用户输入一个或多个用于分析的对象清单后识别共享的关联。从一个或多个输入清单,在方框112中每一个对象的所有关联被编辑至单一清单中,且在方框114中关联的对象根据频率予以计数并计算期望值。该期望值取决于等同于对象间非无意义关联的对象同现的可能性。
如图12所示,本发明的系统接着从所输入的信息中识别隐含的关联。如前所述,在方框120中,用户或自动化系统输入用于分析的对象,在方框122中,识别每一个对象所有的直接关联。在方框124中,与对象直接关联相关的所有对象被识别为隐含的关联,且在方框126中,如后详述,识别、计数与评分所有通往隐含的相关对象的路径。
共享的隐含关联系如图13所示被识别。在此,在方框130中用户或自动化系统输入一个或多个用于分析的对象列表。在方框132中,识别每一个对象所有的直接关联,接着在方框134中,排除低于总体可能关联的x%或低于实际/期望比例的y%的共享对象。在方框136中针对每一个共享的关联识别隐含的关联对象,在方框138中,通过直接实际/期望比例与通往隐含对象的唯一路径的数量相乘来评分隐含的关联对象。
图14显示本发明的系统操作中的流程图。在方框140中,如摘要等数据来源输入至数据库中,并在方框141中针对元对象予以扫描。若在方框141中未发现元对象则接着在方框142中针对关联扫描该数据来源140,然而,若在数据来源140中发现元对象则接着在方框146中将该元对象储存至对象表格中。接着在方框142针对关联扫描在方框146中所储存的对象。若在方框141中未发现元对象,则在方框142针对该关联扫描该数据来源140,若发现关联则接着在方框144针对对象扫描该元对象,若未发现关联则该系统接着返回以在方框140输入另一个如摘要等的数据来源。若在方框144的对象扫描成功,则接着在方框145到达决策树,其确认该知识引擎是否确定介于对象间的关联,若识别出关联则在方框149储存该关联,若未识别出关联则该系统返回到方框140以输入另一个摘要。
本发明的系统总结数据并显示识别出的关联的表示。一般采用图像(如可视的)呈现,然而在某些情况中包含其它感官(如听觉上的呈现)上的呈现是有益的。
图15显示根据本发明的一个方面的系统所识别出的分数所得的氟西汀(Prozac_)前6,000个隐含关联。直接强度由直接关联的数量来测量。强度是两个对象具有同现次数以及每一个同现表示非平凡的关联的可能性的函数。隐含的关联在图中以零来表示。
在本发明的一个实施例中,用户接口允许用户点选表示隐含的关联的图表中的区域及/或线条以浏览通过本发明的系统所发现的隐含关联的实际来源。可替代的,用户可选择指向在该表格中的位置甚至指向该隐含的关联被发现的原始来源数据中。为增进评分的效率,本发明的系统甚至可指向筛选出提供高直接强度关联的来源,以改变信噪比并增加隐含的关联分数。
本发明的系统还可用以筛选出不相关或负向的关联。在该图表的底部的分数显示该系统坐落的关联链接的数量,某种意义而言是指该关联向量的强度。在特定阈值之下(该阈值取决于该技术拥挤的程度、数据库的容量、来源的可靠性或影响力、转换至对象的文本大小等等),该评分很可能不相关,且因此该用户关注的焦点放在高于特定强度的分数阈值的隐含关联上。
处理
增加新对象至本发明的系统的数据库中会使检索时间按照反指数函数(1/n2,其中n>0)增加。全文扫描所增加的时间则呈线性增长。数据库的容量以及文本的数量二者均会持续的增加。
对象为基础的分析
大多数的来源包含结构上复杂的数据和信息,其具有不同的格式以及未明确定义的标准。另一方面,大多数的资源提供用于术语识别的良好介质。
在一个方面,系统例程撰写成用以处理一些不同文本的格式以将对象移入对象关系数据库中。在另一方面,依据本发明的系统提供一些用以识别在科学与技术中新关联的额外特性。举例言之,基因项目从涵盖公认基因命名标准的基因组数据库(Genome Data Base,GDB)与人类基因组命名委员会(the Human Genome Nomenclaturecommittee,HGNC)数据来源以及Locuslink所取得。产生出针对所有三个表格中的项目的超过13,104官方基因名称(包括官方名称)的超过35,579表列的同义名。关于遗传异常(以及潜在的异常)的OMIM项目针对超过7,290个项目编给超过13,068疾病名称且是合并的,且包括大多数的临床显型。超过7,713个来自MeSH的小标题当它们处于″D″主要类别时被合并且分类为小分子(药物、代谢物、化学制品、元素)。若该项目在MeSH″C″分类之下,则该项目被分类为疾病/显型。所使用的多个档案的互联网地址在表1中给出。MEDLINE是以可扩展标记语言格式从NLM取得,并在本地置于计算机的73GB硬盘中;副本则保存于可存取的网站。因此,本发明的系统可集成非结构化文本数据(例如来自科学期刊的文本)与结构化的数据(例如为序列信息;如由微阵列分析所取得的表现数据;与药物功效相关的数据,介于药物间的相互影响,关于药物与药物结合的功效及/或安全数据;及其它相类似者)二者的评估。
一些例示的生物技术的数据来源(如生物技术、生物医学)在下列的表1中列出。
表1.线上基于文本的来源的例示 |
名称 |
位置 |
数据 |
Human Gene Nomenclaturecommittee(HGNC)(人类基因组命名委员会) |
http://www.gene.ucl.uk/nomenclature/ |
官方(HUGO)基因名称 |
Genome Database(GDB)(基因组数据库)Online Mendelian Inheritance inMan(OMIM)(线上孟德尔人类遗传) |
http://gdbwww.gdb.org/gdb/advancedSearch.htmlftp://ncbi.nlm.nih.gov/repository/OMIM/ |
基因名称与同义字;疾病;细胞位置(cytolocs);人类疾病与显型 |
Medical Subject Headings(MeSH)(医学主体标题) |
http://www.nlm.nih.gov/mesh/filelist.html |
疾病、显型、化学物质、药物、组织、病原体 |
Center for Disease Control(CDC)(疾病控制中心) |
ftp://ftp.cdc.gov/pub/HealthStatistics/NCHS/Publications/ICD9-CM/2000/ |
引发疾病的病害与药物 |
Kyoto Encyclopedia of Genesand Genomes(KEGG)(京都基因与基因组百科全书) |
http://www.genome.ad.jp/kegg/ |
路径、基因、直向同源物(ortholog)、功能、酶与配合基 |
MEDLINE Plus |
http://www.nhn.nih.gov/MEDLINEplus/druginformation.html |
药物名称与同义字、显型(副作用) |
Locuslink |
http://www.ncbi.nlm.nih.gov/LocusLink/ |
基因名称、化名、OMIM链接、细胞位置、同源 |
Enzyme and co-factor database(酶与辅助因子数据库) |
ftp://ftp.expasy.ch/database/enzyme |
酶、辅助因子、疾病、代谢物关联 |
The University of MinnesotaBiocatalysis/BiodegradationDatabase(明尼苏达大学生物催化与生物分解数据库) |
http://www.labmed.umn.edu/umbbd/index.html |
路径、酶、代谢化合物 |
Swiss-Prot(瑞士蛋白数据库) |
ftp://expasy.cbr.nrc.ca/database/swiss-prot/ |
基因名称、蛋白质家族与成员 |
FlyBase(果蝇数据库) |
http://www.flybase.bio.indiana.edu/(果蝇基因同系物) |
果蝇同系物:其细胞位置与功能 |
Mouse Genome Database(鼠基因组数据库) |
http://www.informatics.jax.org/ |
鼠同系物与人类基因名称、基因组本体分类 |
Genome Ontology Project(基因组本体计划)Unified Medical LanguageSystem(UMLS)(联合医学语言系统) |
http://www.genome-www.stanford.edu/GO/http://www.umlsks.nlm.nih.gov/KSS/(仅用于查询;光盘包含实际的Metathesaurus) |
生物程序、分子功能与细胞成分首字母缩略字、药物名称、医学词汇、生物体 |
Structural Classification ofProteins(SCOP)(蛋白质结构分类) |
http://www.scop.mrc-hnb.cam.ac.uk/scop/data/scop.I.html |
蛋白质结构分类:折叠、家族、总科 |
Alliance For Cellular Signalling(AFCS)(细胞信息联盟) |
http://www.afcs.swmed.edu/ |
G-蛋白质耦合受体数据库 |
MaizeGDB:Maize genetics and |
http://www.maizegdb.org/ |
玉米基因 |
genomics database(玉米遗传与基因数据库) | | |
Wormbase(线虫数据库) |
http://www.wormbase.org/ |
基因、蛋白质序列、标示与基因图谱 |
The Arabidopsis InformationResource(阿布属信息资源) |
http://www.arabidopsis.org/ |
基因、蛋白质、标示、生态形、变种等等 |
ZFIN Zebrafish InformationNetwork(斑马鱼信息网络) |
http://zfin.org/cgi-bin/webdriver?MIval=aa-ZDB_home.apg |
突变体、基因、谱系(mapping panels) |
The Binding Database(基于实验数据的非共价键化合物数据库) |
http://www.bindingdb.org/bind/index.jsp |
生物分子的共价键化物同类的测量数据库 |
Stanford HIV Drug ResistanceDatabase(斯坦福人体免疫缺损药物抵抗数据库) |
http://hivdb.stanford.edu/ |
反向转录与蛋白酶序列;包括序列与药物抗性之间的关联 |
HIV molecular immunologydatabase(人体免疫缺损分子免疫学数据库) |
http://hiv-web.lanl.gov/content/immunology/maps/maps.html |
通过细胞毒素与辅助淋巴球识别的定位序列 |
HIV protease database(人体免疫缺损蛋白酶素数据库) |
http://mcll.ncifcrf.gov/hivdb/ |
蛋白质三维结构数据库 |
ChemIDPlus |
http://chem.sis.nlm.nih.gov/chemidplus/setupenv.html |
化学物质结构数据库 |
ChemFinder.com database |
http://www.chemfinder.cambridgesoft.com/ |
化学物质结构与物理性质 |
NIST Chemistry webbook(美国国家标准与技术研究院化学网络书籍) |
http://www.webbook.nist.gov/ |
化学物质性质数据库 |
CASREACT-ChemicalReactionns Database(化学反应数据库) |
http://www.cas.org/CASFILES/casreact.html |
化学物质反应与有机化合物 |
AGTSDR:Agency for ToxicSubstances and DiseaseRegistry database(美国毒性物质及疾病登记局数据库) |
http://www.atsdr.cdc.gov/toxpro2.html |
毒物学简介 |
The University of MinnesotaBiocatalysis/BiodegradationDatabase(明尼苏达大学生物催化与生物分解数据库) |
http://umbbd.ahc.umn.edu/ |
微生物催化物反应与主要用于异型生物质和化学化合物的生物降解路径 |
表1显示许多用以建构对象关系数据库的来源。此外,表1包含额外线上基于文本的来源,其可提供科学与技术的补充数据(如同义字或类型)。尽管表1显示出主要的生物或化学物质数据库,其它许多来自其它领域的数据库可作为如同前述般的数据来源。本发明的系统是动态的,因为新产生的数据库在其产生时可作为本发明的系统数据来源。同样的,数据来源可被更新以将加入现有数据库的新数据加以合并。
根据本发明的额外的数据来源包括从正在进行的实验中取得的数据集合,例如为高产量的筛选试验或微阵列数据。在一个方面,该数据来源包括如寡核苷酸阵列、表现的序列阵列、互补DNA阵列、单一核甘酸阵列、蛋白质或缩氨酸阵列、抗体阵列、糖蛋白阵列、组织阵列及其它相类似的生物分子阵列的表现数据。该数据来源可包括但不限于如基因名称、存取号码、核酸序列、胺基酸序列、细胞线号码(如美国标准菌种中心(ATCC)号码)、结合亲和力(binding affinity)、修改状态、Tm、表现模式、选择的对偶基因、微阵列的配位(coordinate)、以及与该阵列接触的样本相关的信息,例如从中取得该样本的有机体、细胞类型、组织类型、谱系、发展阶段、将该样本曝露至试剂、在该样本中的细胞的显型/型态、取自于如人类等哺乳动物的样本的患者信息及其它相类似的。自微阵列分析所取得的表现数据可予以定性(表现或非表现)或定量(关于表现的层级)。该数据可额外地与其它数据来源相关联或链接;例如涉及与疾病相关联的多态序列的数据可链接至这种数据,该数据涉及多种类型功能、药物与基因产品相互影响等、在MEDLINE中的信息及/或任何列于上述表1中的数据来源。
同样的,其它高产量的筛选方式也可提供数据来源,如来自依据质谱仪的系统的输出、基于细胞的试验、转录试验、键合试验、基于萤光共振能量移转(FRET)的试验等等可提供待本发明的系统评估的数据来源。
在一个方面,依据通过本发明的系统关于对象间新关联所做出的预测,所执行的实验以及由该实验所获得的数据被用作该系统所执行的方法的额外数据来源。
由于系统数据库中的项目针对文本匹配而不是分类,因此在系统数据库中的项目可要求额外的格式化。举例而言,如″盒,三磷酸腺接合(Cassette,ATP-Binding)″优选应该在摘要中将其写成″三磷酸腺接合盒(ATP-Binding Cassette)″。同样的,括号内的说明,如″色盲(x-linked)综合症″依据文本的输入可能不会匹配。这种格式问题有必要如后述般予以解决。
由于用于知识发现的基于关键词的方法当前尚不可行(在MEDLINE中有超过四百二十万个唯一的单词、单独以及仅有的单一关键词通常在操作上受限制),因此必须利用其它的方法。这种方法限制在不相关联的″the″与″what″术语上花费大量的计算能力。依据本发明的系统将分析集中在预先定义的对象上,使得可获得具有高度具有意义的可能性的关系。其它自然语言系统通常依据某些规则集合提取所有的单词,然而,由于真实语言是如此的复杂因此许多这些系统都已被淘汰。通过预先定义对象集合而非任由该系统无限制地选择对象,仅有来自对象清单数据库所编辑的实际关联对象或那些离开自动化提取系统而以手动的或由人工验证的对象将大幅减少通过无意义单词的链接所产生的错误正向关联。想象若单词″the″未予以排除的情况,则每一个对象均会链接至其它每个对象并产生不相关的关联。重要的是,本发明的系统并不需要尽可能地消化许多的对象,而是必须具有表示非常广泛与普及的使用/关注的范围或领域的对象集合。
利用同现的术语以彻底识别潜在的关联
依据本发明的系统被设计成识别尽可能多的关联,这通过当两个对象被观察到同现于相同的数据记录(如摘要)中时推定这两个对象间存在潜在的关联。同现在数据记录以及文本扩展(如句子)二者中予以计算,通过推定两个对象在相同的文本延伸中被提及更有可能表示非平凡的关联。集群同现的对象以识别其关联的频率可通过产生同现矩阵或通过显示词组如何与其它词组链接的树状图,或者其它公知的统计算法来实现。
为测试这种方法,随机选出一组25笔MEDLINE记录(标题与摘要)且在每一篇摘要中的对象同现被人工评估,以确立其是否共享非平凡的关联。其确认出两个对象在相同句子中共同被提及在非平凡的程度上,对比相同摘要中共同被提及的对象(58%)更具有与另一个对象相关联的可能性(83%)。然而,句子的共同提及具有相对高的假负向(false-negagive)率,错失在摘要中43%的非无意义关联。
观察到两种假正向(false-postive)错误的种类:亦即随机的与分类的。举例而言,当摘要中的对象是特定于例如实验而非研究(如钠,乙二胺四乙酸),当无关联存在时(例如″我们在A与B间未发现关联″),或当包括有推测信息时(如″我们假设在…中可能的角色″)等等时,随机假正向错误会发生。然而,随机假正向错误是可以预测的;在两个对象间所观察到的共同提及越多,则随机的错误来源变得越不重要,这是因为即便关联的数量是不精确的,但关联的存在是正确的。
然而,分类的假正向错误却是更有问题的;这些错误会使介于所观察到的共同提及间的关联无效化,而其几率自1%至100%均有可能。分类的错误主要发生在类同形异义字(homonym-like)以及类相似字(polynym-like)的术语上。同形异义字是指在拼写上相同但具有不同意义的单词;类同形异义字术语是指与不需要的单词相符合但是能够涵盖首字母缩略字或缩写字。相似字是相同拼写的首字母缩略字但是具有多重的定义;类相似字术语就其本身而言涵盖并非必需单词的首字母缩略字的符号,但是可用来指相同群组(如基因)中不同的对象。
首字母缩略字解析
增加精确与唤回(recall)的关键。首字母缩略字、缩写字以及其它形式的单词或词组缩写的格式(以下一并称之为″首字母缩略字″)有助于通讯时的效率,但是当首字母缩略字具有多重定义(亦即是相似字)时却混淆了文本挖掘软件。一些在数据来源MEDLINE中所发现的混淆的首字母缩略字的例子显示于表2中。当在文献中首字母缩略字具有不同的意义时,在该数据来源中每一个定义出现的频率可通过唯一首字母缩略字定义百分比(Defination Percentage of unique Acronym;DPA)分数予以评估。DPA是通过将用于唯一首字母缩略字的一个特殊定义的次数(#)除以用于该首字母缩略字的定义的总次数(#)来计算。
表2.于来源中混淆的首字母缩略字的例示
基因 |
定义 |
最常用的替代意义 |
DPA分数 |
GAS |
Gastrin |
Group A Streptococci,Global Assessment Scale |
3% |
NM |
Neutrophil Migration gene |
Nuclear Martrix,NodularMelanoma |
1% |
SD |
Segregation Distortion gene |
Standard Deviation,Sprague-Dawley |
<1% |
CT |
Cytidylyltransferase I |
Computed Tomography,Calcitonin |
<1% |
ACT |
Activator of CREM Testis |
Activated Clotting Time,Antichymotrypsin |
<1% |
在一种实施例中,为移除首字母缩略字的模糊不清,本发明的系统执行首字母缩略字解析程序代码。优选的是,该程序代码提供自动化的、精确的以及可扩展的方法以识别首字母缩略字定义配对已被开发。举例而言,可利用包含在″首字母缩略字解析总体试探″(AcronymResolving General Heuristic;ARGH)软件中的程序(Wren,J.与Garner,H.针对在文本中首字母缩略字定义模式的识别试探:关于全面的首字母缩略字定义字典的自动化结构。2000种医学信息的方法,参考以及关联部分将结合于此作为参考)。
首字母缩略字解析程序允许依据本发明的系统解析在文本中作者定义的首字母缩略字的功能。在一个方面,通过本发明的系统执行的首字母缩略字解析程序允许包含多个首字母缩略字定义。优选的是,该首字母缩略字解析程序允许针对可替代的首字母缩略字与定义以及针对唯一首字母缩略字定义配对的拼写、语法与用连字符号连接的变体进行关联频率的识别。试探的集合定位并精确地识别首字母缩略字定义配对的边界且精练来源记录子集合的精确度与唤回。这些子集合(称之为训练集合)的规模逐渐增加并接着通过试探再评估以确保可扩展性。本发明的系统的首字母缩略字解析组件可针对特定的来源进行订做,以提升精确度。
在一个方面,本发明的系统的首字母缩略字解析程序不同于线上首字母缩略字与缩写字定义数据库,其差异之处在于不要求手动的编辑与管理(curation)。优选的是,本发明的系统的首字母缩略字解析组件不具有狭窄的范围,且一般针对特定来源予以订做而不是如同其它程序般包含过多不同的来源。此外,由于依据本发明的系统必须″决定″哪一个首字母缩略字将要求解析,因此每当在关联建立之前首字母缩略字出现于文本中时,依据本发明的首字母缩略字解析系统标示在该对象关系数据库中的首字母缩略字,其主要意义由90%以下针对另外的首字母缩略字解析所识别出的定义所构成。
其它自动化的方法/程序预先定义首字母缩略字看起来应该像什么,接着针对其识别撰写规则。举例而言,其它的程序可能要求首字母缩略字以字母开头,且包含特定字符长度(如三至六个字符长度)。这种程序通常接着测量该预先定义的规则集合的精确度与唤回。优选的是,依据本发明的系统执行首字母缩略字解析程序以识别尽可能多的首字母缩略字以助于试探减少假正向的数量。在使用本发明的首字母缩略字解析程序几回合后,持续追踪假正向与假负向率,进一步精练首字母缩略字的解析且可用于如具有超过一千二百万笔摘要的MEDLINE等的极大数量的来源。
优选的是,通过本发明的系统所执行的首字母缩略字解析程序不会针对首字母缩略字定义配对预先定义模式。在一个方面,该程序由右自左的移动方式贯穿文本,将首字母缩略字中所发现的连续字母与首字母缩略字定义清单的定义中的字母相匹配,接着再利用试探集合以区别有效与无效模式匹配。此外,优选的是,该首字母缩略字解析程序关于定义与首字母缩略字的长度仅要求非常宽松的长度限制(如可到达255个字符长度),且为取代在匹配模式中使用要被跳过的″无关重要的单词(noise word)″清单,本发明的程序仅提供有限数量的非匹配中间单词(如″rats″用作″Sprague-Dawley rats(SD)″时则被跳过)。
表3显示在如MEDLINE等科学与技术来源中的首字母缩略字是如何予以构建的部分例示。在此,审查100篇摘要的样本并识别出多个首字母缩略字以及缩写字。这些字被识别为″术语″。术语接着被分类至一个或两个主要类型:类首字母缩略字(类型I)以及类缩写字(类型II)。每个类型还包含多个定义为子集合的变体。举例而言,类型IIa通过利用以非连续的顺序定义字母的方式脱离标准构建缩写字的方法。表3还显示每一种类型的关联频率。
类型 |
频率 |
术语 |
定义 |
备注 |
I |
38% |
AD |
Alzheimer
Disease |
连续的匹配每一个单词的大写的首字母缩略字的第一个字母 |
I |
1% |
Bpm |
bests
per
minute |
相应于定义的单词中第一个字母的首字母缩略字字母,大写是无关紧要的 |
I |
5% |
OTG7 |
Orchid
Transitional
Growthrelated gene
7 |
定义中的单词较首字母缩略字中的字母为多 |
I |
2% |
scFv |
Single-
chain
variablefragments |
首字母缩略字字母与定义中的大多数字母的顺序不相同 |
Ib |
2% |
TBK |
Total
Body
Potassium |
连续的第一个字母匹配,除替 |
|
|
|
|
代定义单词的符号 |
Ic |
4% |
EPNP |
1,2-
epoxy-3-(
p-
nitrophenoxy)-
propane |
第一个首字母缩略字字母并非在定义中的第一个单词字母 |
II |
9% |
TGFbeta |
Transforming
GrowthFactor
beta |
首字母缩略字混合有第一个字母大写以及详加说明的符号/单词 |
II |
14% |
GGA |
Geranyl
geranyl
acetone |
定义是多个单词串联,首字母缩略字字母对应于每一个单词 |
II |
22% |
MVA |
Me
valonic
acid |
部分首字母缩略字字母匹配在定义单词中的第一个字母,其它的是中介 |
|
1% |
|
Di
shevelled |
在最接近单词中的字母所组成的缩写字 |
II |
<1% |
Botox |
Botulinum
toxin |
缩写自相邻的单词的第一个字母的缩写字 |
II |
1% |
EcoRec |
Ecotropic retrovirusreceptor |
缩写自相分离的单词的第一个字母的缩写字 |
IIa |
1% |
EP |
Phospho
enzyme |
在相同单词中重新排列的首字母缩略字字母 |
在一个方面,首字母缩略字解析程序定义通过相应的定义将首字母缩略字定义为任何单词或词组的缩写,而不是实际上的纯粹符号。钾(K)与银(Ag)是纯粹符号的表示的例示,因为用来表示这些单词的这些符号并非取自该单词本身。从首字母缩略字本身所代表的单词与符号的参考相结合取得的首字母缩略字不视为有效的首字母缩略字(如triiodothyronine″T3″)。定义与首字母缩略字也不超过255个字符长度。此外,精确率和唤回率的分类精确率(真正向/(真正向+假正向)),分类唤回率(真正向/(真正向+假负向))以及每一个识别事件(per-identification-event)率被确定。
″分类率″是指数据库项目并反映来自来源(下称文献)中的集合的已编辑的首字母缩略字定义模式的精确程度与包含。每一个识别事件率是指该系统识别在文本中首字母缩略字定义模式的情况的能力。此二者并不相同,这是因为系统在相对小的文献集合中可具有惊人的98%的每一个识别事件精确度,因此其适用于自动化识别在文本处理中的术语,但可能无法胜任自动化的构建,其原因在于处理的文献越多,在数据库中的错误也不断累积。
被视为假正向的项目是指包含与首字母缩略字的定义无关联的单词。举例而言,针对首字母缩略字″IL-2″的定义″interleukin-2″(白细胞间介素-2)会被视为假正向错误。若试探增加排除此项目且该项目是唯一包含针对″IL-2″的定义″interleukin-2″,此排除会影响分类唤回。然而,如果该试探排除此项目但没有其它包含针对″IL-2″的有效的定义,其仅会降低每一个识别事件唤回。如针对″IL-2″的定义″interleukin-2 gene(基因)″将不会被视为错误,即便该单词″gene″并不由该首字母缩略字中的任何符号予以表示,其直接与何谓″IL-2″的描述关联且可被视为定义变体。最后,仅由软件识别错误所造成的项目被视为假正向。举例言之,针对″IL-2″的定义″interleukin-2″最可能为拼写错误,但其也可为有效的变体(如″armor″与″armour″的比较)。这种拼写变体在根据本发明的系统容许范围内。
依据本发明的一个方面,用于首字母缩略字解析程序中的试探集合在表4与5中总结。表4显示用以定位首字母缩略字定义配对及其界线的试探。在该表所示的实施例中,试探的集合累积地施加于记录的批次中(在此实施例中,是指MEDLINE标题与摘要)以识别首字母缩略字定义模式。当该数据库的容量增加时,在首字母缩略字定义模式被构建的方法中可观察到更多的变体,要求增加新的试探以提升整体精确度。额外规则的假负向会被报告成有多少额外有效的项目被排除于数据库外。
表4.用于定位首字母缩略字的基本试探
用于定位首字母缩略字与定义的基本试探(n=100) |
总体正向 |
真正向 |
假负向 |
分类精确度 |
每一个识别事件的唤回 |
分类唤回 |
包含于括号句中的术语 |
520 |
165 |
4 |
32% |
97.6% |
100% |
仅由一个单词所构成的术语 |
311 |
165 |
4 |
53% |
97.6% |
100% |
必需包含至少一个字母符号的术语 |
211 |
165 |
4 |
78% |
97.6% |
100% |
所有首字母缩略字字母也在定义中,以连续的顺序 |
162 |
159 |
10 |
97.9% |
94.1% |
93.8% |
允许非连续1″字母 |
163 |
160 |
9 |
97.9% |
94.7% |
93.9% |
在定义单词中匹配 | | | | | | |
用于边界定义的额外试探(n=1,000) | | | | |
评估 |
评估 |
无 |
1054 |
825 |
- |
78.3% |
94.7% |
93.9% |
要求1S’字母在缩写字类型的首字母缩略字方面匹配 |
1054 |
869 |
+0 |
82.4% |
94.7% |
93.9% |
将定义单词的数量限制为首字母缩略字中字母数量加2 |
876 |
867 |
+2 |
99.0% |
94.6% |
93.7% |
表5显示用以减少于大规模来源中错误率的试探,亦即该来源具有超过一百万个数据集合,如记录等。如表4所示当用于识别首字母缩略字定义模式的基本测试在较小的数据集合操作良好,当更多的文本被分析时,在构建这些模式中的变化性最终会降低该分类的精确度(正确项目的数量(#)/项目的总数量(#))。对表5而言,在1,000,000笔MEDLINE记录中识别出超过153,616个唯一首字母缩略字定义模式。发现大约133,031个唯一首字母缩略字定义模式是有效的项目。
表5.为减少错误率开发的试探
针对有效的首字母缩略字/定义模式的大规模试探(n=1,000,000) |
数据集合总项目 |
数据集合有效项目 |
项目匹配规则总体#* |
被抛弃的有效项目#(评估) |
分类精确度 |
分类唤回(评估) |
无 |
500 |
433 |
-- |
-- |
86.6% |
93.7% |
在定义中部分单词限制哪个首字母缩略字类型是有效的 |
468 |
433 |
7,950 |
809 |
92.5% |
93.1% |
仅允许在首字母缩略字与定义中部分标点符号 |
465 |
433 |
1,485 |
119 |
93.1% |
93.1% |
限制在定义中有效括号内文字的类型 |
458 |
433 |
3,616 |
217 |
94.5% |
92.9% |
限制首字母缩略字作为连续子字符串出现 |
450 |
433 |
7,999 |
80 |
96.2% |
92.8% |
首字母缩略字/定义比例限制 |
448 |
433 |
2,294 |
138 |
96.6% |
92.8% |
限制单位的自动延伸 |
445 |
433 |
164 |
0 |
96.6% |
92.8% |
针对″II″、″III″以及″OH″要求第一个字母匹配 |
443 |
433 |
2,312 |
0 |
97.7% |
92.8% |
所有经过MEDLINE处理(n=12,037,763) |
无 |
500 |
481 | | |
96.2% |
92.8% |
*部分项目匹配一个或多个规则;缩写字:def.=定义;#=数量;syst.=分类;est.=评估 |
表5还显示处理取自国家医学图书馆所有可扩展标记语言格式的记录的结果,表示更新至2002年2月的总数12,037,763笔的记录(37.3GB的大小)。由总数6,418,919篇摘要中,依据本发明的首字母缩略字处理模块识别出4,562,567个首字母缩略字定义模式,其中98.8%发现于形式定义(首字母缩略字)中而其它1.2%则发现于形式首字母缩略字(定义)中。从这些模式中产生出737,330笔记录的数据库,其包含174,940个唯一的首字母缩略字/缩写字(下称″首字母缩略字″)以及638,976个唯一的定义。在该唯一首字母缩略字中,63,440个(36%)首字母缩略字与超过一个定义产生关联,且62,974个定义(10%)与超过一个首字母缩略字产生关联。
为评估每一个数据库项目的总体精确度,500笔记录的3个随机子集合通过产生随机记录识别号码所选出。每一个子集合识别出分别为19,15或18个假正向错误。因此该总体分类精确率是每个项目96.5%±0.4%。通过观察排除的唯一首字母缩略字定义模式的数量,该分类唤回率评估为92.8%。为验证此评估的精确度,因此通过利用非主题关键词″determined″、″below″以及″set″检索PubMed收集到100篇随机摘要中额外的3个集合(不同于前面的集合)。针对每一个集合在标题与摘要中以任何方法所定义的首字母缩略字数量如同相应的首字母缩略字定义配对的存在般以人为方式予以确认。针对该集合的识别的/存在的首字母缩略字定义配对的比例分别为139/152(94.1%),101/105(96.1%)以及86/94(91.5%),产生的总体率为93.0±2.7%。
频率统计针对每一个在MEDLINE中所发现的首字母缩略字定义模式予以编辑;该统计用于线上接口以依据其相对多的数量排序首字母缩略字或定义。频率统计的使用允许用户在缺乏额外信息的情况中可快速的识别首字母缩略字/定义是更加共同的或可能是隐含的。频率排列还可用以识别优选的或″标准″的拼写、连字符连接或语法的变体。每一个首字母缩略字或定义最早出现的日期也包括于该数据库中(用于历史观察,数量或变体增长的分析)。
图16A与图16B显示对象与关联的分布。在该数据库中仅有相对小的对象部分是直接相关的,而大量的关联是隐含的(图16A)。实际上,在数据库中大多数的对象不是直接便是隐含地与其它对象相关联。这种本质上的特性突显需要一种方法来评分隐含关联并将其潜在关联予以排列。在原始文本中缺乏定义的情况下,首字母缩略字明确地与所期望的定义产生关联的机会很少。由于这种关联,因此知悉给定的首字母缩略字与特定定义产生关联的可能性是重要的,反之亦然。为产生这种关联,计算唯一首字母缩略字定义百分比以及唯一定义首字母缩略字百分比(Acronym Percentage of unique Definition;APD)在缺乏明确定义的情况下作为评估特定首字母缩略字与特定定义产生关联的可能性的方法。
表6显示具有大量的可替代定义的首字母缩略字,提供在数据库中两个最通常的定义及其唯一首字母缩略字定义百分比分数。如″CT″等部分的首字母缩略字显著地与一个定义(或其变体)产生关联,而其它如″PA″则非如此。如表6所示,该不明确性通过定义致使首字母缩略字的产生。在MEDLINE中,一些首字母缩略字具有许多不同的定义(相似字)。表6包括十个最不明确的首字母缩略字,其中的许多具有最少的字母结合数量以表示其本身。该唯一首字母缩略字定义百分比核心提供在缺乏定义的情况下量化的评估首字母缩略字特别与定义产生关联的可能性。
表6.具有相似字的首字母缩略字
首字母缩略字 |
#唯一定义 |
总#定义 |
最通常的定义 |
#发现次数 |
唯一首字母缩略字定义百分 |
| | | | |
比 |
CA |
1,206 |
6,857 |
Calcium CarbonicAnhydrase |
1,376598 |
20%9% |
PA |
1,084 |
6,466 |
PlasminogenActivatorPhosphatidic Acid |
745703 |
12%11% |
PC |
1,068 |
7,548 |
PhosphatidylcholinePhosphorylcholine |
2,741315 |
36%4% |
CS |
1,022 |
5,527 |
ConditionedStimulusCircumsporozoite |
566310 |
10%6% |
PS |
925 |
5,236 |
PhosphatidylserineParadoxical Sleep |
1,269409 |
24%8% |
PI |
921 |
9,419 |
PhosphatidylinositolInorganic Phosphate |
1,9781,010 |
21%11% |
SC |
887 |
4,810 |
Superior ColliculusSubcutaneous |
757548 |
16%11% |
AP |
879 |
7,026 |
AlkalinePhosphataseAction Potential |
1,120590 |
16%8% |
CP |
868 |
5,537 |
CyclophosphamideCerebral Palsy |
607462 |
11%8% |
CT |
866 |
25,899 |
ComputedTomographyComputedTomographic |
14,0333,414 |
54%13% |
表6显示多个首字母缩略字可针对在来源中一个唯一的定义而存在。首字母缩略字可用不同的方法通过定义予以产生,在首字母缩略字与定义产生唯一的关联的情况下增加不同种类的不确定性。表7显示十个具有最多数量的首字母缩略字及/或缩写字的定义及其唯一定义首字母缩略字百分比分数,提供对于一个特定的首字母缩略字用以表示一个唯一的定义的频率的评估。需注意的是唯一定义首字母缩略字百分比分数并不考虑在表示其它的定义的情况中的首字母缩略字的不明确性。举例而言,″BG″被定义为beta-glucuronidase 40次以及Blood-Glucose 199次。
表7.针对一个唯一定义的多个首字母缩略字的例示
定义 |
定义发现次数 |
不同首字母缩略字 |
最通常的首字母缩 |
首字母缩略字被使 |
APD |
| |
数 |
略字 |
用的次数 | |
Alkaline phosphatases |
3,227 |
38 |
ALPAP |
1,6241,120 |
50%35% |
Beta-glucurondase |
848 |
36 |
GUSBG |
65440 |
77%5% |
Glucose-6-phosphataDehydrogenase |
1,585 |
35 |
G6PDG-6-PD |
910262 |
57%17% |
Alpha-tocopherol |
246 |
29 |
alpha-TAT |
6338 |
26%15% |
Beta-endorphin-likeImmunoreactivityBeta-Endorphin |
113822 |
2725 |
Beta-END-LIBet-EIBeta-EPBeta-END |
2814349199 |
25%12%42%24% |
5’-nucleotidase |
194 |
25 |
5’-NY5,-Nase |
3729 |
19%15% |
Peripheral bloodmononuclear Cells |
6,953 |
25 |
PBMCPBMCs |
4,9331.370 |
71%20% |
Glyceraldehyde-3-phosphate Dehydrogenase |
650 |
25 |
GAPDHG3PDH |
47442 |
73%6% |
2-chloroadenosine |
172 |
24 |
2-CADOCADO |
3332 |
19%19% |
DPA分数。DPA有助于评估首字母缩略字有多少不明确性(在缺乏定义的情况下)。然而,当定义具有广泛的拼写、连字符连接模式或语法变体时该DPA分数是受限的。举例而言,在单一数据库中″JNK″具有77种不同的定义,但全部都是定义″c-Jun N-terminal kinase″方面的变体。对于这一首字母缩略字而言,针对最常见的定义具有41.6%的DPA分数会给予深刻的印象认为″JNK″具有可替代的定义,而事实上却不是如此。作为这一问题的部分解释,产生首字母缩略字解析数据库的″去梗(stemmed)″版本。这里多个字尾、空格以及标点符号均已移除。去梗法将唯一定义的数量减少至540,821个(原始数量的85%);对于如″JNK″的部分项目而言,其第二个最常见的定义是″c-JUNNH2-terminal kinase″,其并未减少该唯一定义的数量。之后遂开发出用以校准该定义并比较相似分数的例程,且发现一般来说是有用的(请参阅表8)。然而,该例程无法区别次要变体对于定义的意义有关键影响的情况(请参阅表9)。虽然如此,该例程通过其语义学上的变体匹配概念上相同的定义。该例程允许确认在单一连续的文本区段中是否存有差异且另外是否在与其长度给定的百分比相等。因此,关于相同意义的术语可被评估。
表8.用于校准定义的例程
首字母缩略字 |
定义 |
相似处 |
DMH |
Dimethylhydrazine1,2-Dimethylhydrazine----++++++++++++++++ |
81% |
12-HETE |
12-hydroxy eicosatetraenoic acid12-hydroxy-5,8,10,14-eicosatetraenoic acid+++++++++-----------+++++++++++++++++++++ |
73% |
ABP |
Androgen binding proteinAuxin binding protein-------+++++++++++++++++ |
71% |
AD |
Alzheimer’s disease geneAujesky’s disease gene---------+++++++++++++ |
63% |
ACG |
AcetylgalactosamineAcetylgluc osamine+++++++-----+++++++ |
74% |
文本要求以及筛选无意义的单词
当处理直接文本的比较时,文本单词的大写模式是重要的。举例而言,在科学及技术数据库中,并非所有的基因名称均为大写(如alpha-2-microglobulin);然而,若该文本单词是句子的起始则会被强制地予以大写。此外,部分大写模式在通过数据库所提供的对象与呈现于文本中的对象间是不一致的。因此,在一个方面,依据本发明的系统在小写的情况中处理所有的单词比较。
在表10中所示是五个匹配通用单词的基因名称,且是具有通过PubMed询问所响应的最多项目的基因。这五个基因单词与常见单词共享相同的拼写。在文本扫描期间,这种类型的错误可通过检查大写型态予以修正。
表10.基因名称与单词的匹配
基因符号 |
完整名称 |
术语频率 |
LARGE |
Like-acetylglycosyltransferase |
346,940 |
MICE |
MHC class I polypeptide-related E |
252,904 |
END |
Endoglin |
194,157 |
LIGHT |
Ligand invasive growth herpes transmembrane |
177,995 |
SEX |
Sex chromosome X(Plexin A3) |
127,176 |
为确认该大写模式是否存在于单词中,可自古腾堡电子书计划(Project Gutenberg)中消化韦氏(Merriam-Webster;MW)字典。尽管任何文本单词的来源(如国际性杂志)均可操作,但是以电子形式存在的来源更有助益。将在对象关系数据库中与来自韦氏字典的项目匹配的单词予以标示,使得当在文本中被识别出来时,其大写模式会通过在对象关系数据库中的单词予以检查。在少数的情况中,本发明的方法仍然会产生重复/不规则(表11)。就一般而言,本发明的方法显示与″共同″单词(如通过韦氏字典所定义者)相同的术语的数量如表12所示随着每一个来源而变化。
表11.对象关系数据库匹配
缩写字 |
完整名称 |
For |
Formate,forssman,antigen |
As |
Arsenic,anti-sense,Aspermia |
And |
Androstenedione |
If- |
Fetal insulin,Free inhibitor |
But |
Butanol,Butirosin |
表12.来自不同来源的常见单词
数据库 |
单一的数量 |
项目匹配 |
OHIM |
15,859 |
580(3.6%) |
HGNC/GDB |
24,736 |
604(2.4%) |
Locuslink Human |
16,767 |
342(2%) |
Locuslink Mouse |
16,102 |
563(3.5%) |
Locuslink Drosophila |
6,249 |
1,163(18.6%) |
SGD |
6,626 |
9(1.0%) |
在韦氏字典中所发现的全部150,922个单词被消化至数据库中,并与表12中所使用的来源中每一个单一的单词项目相比较。通过处理该比较,那些要求大写检查的项目被视为有效且可发现那些不顾大写而具有与常见单词相混淆的高可能性的项目。
术语变化与识别
如前所述,许多在来源中或来源间具有多种的拼写方式。此外,部分术语被指定仍然被识别/用作其它术语的首字母缩略字或缩写字的官方缩写字或符号。举例言之,人类基因组命名委员会(HGNC)为每一个基因指定官方的名称以避免符号的重复;然而,许多″符号″在一个或多个记录中仍然具有同义字或与其它用于/输入至数据库中的通用缩写字、符号、首字母缩略字同义者(请参阅表13)。
表13.同时作为主要名称的符号
基因符号 |
基因名称 |
P40 |
Nucleolar protein p40Laminin receptorI(别名)Proteasome 26S subunit(别名) |
TPO |
Thyroid PeroxidaseThrombopoietin(别名) |
RSS |
Russel-Silver Syndrome geneRigid Spine Muscular Dystrophy(别名) |
MCD |
Malonyl CoA DecarboxylaseMedullary Cystic Kidney Disease(别名) |
符号(如缩写字、首字母缩略字、官方名称)随着时间改变或发展并非罕见;然而,较早的记录并未针对这些发展更新为″正确″。此会证明在术语的正确识别中产生问题。如表14所示的是在MEDLINE中所观察到与特定定义相关联的特定″符号″的次数。对如″TNFR2″等首字母缩略字而言,副本还可通过在比较产生前扩展交叠的首字母缩略字(如TNF)至整个定义中并确认是否有两个定义相等的方式而予以部分地解决。若两个术语仍然不相同,例如具有定义″TNF-receptor type 2″的情况,一种不完整的解决方式是如同前述般″校准″该不同的定义。
表14.符号与定义的关联
符号 |
定义 |
观察到的次数 |
JNK |
c-Jun N-terminal kinasec-Jun NH2-terminal kinasec-Jun amino-terminal kinase |
53815058 |
TNFR2 |
Tumor Necrosis Factor Receptor 2TNF receptor 2TNF-receptor type 2 |
1371 |
TIF2 |
Transcriptional Intermediary Factor 2Transcription Intermediary Factor 2 |
76 |
|
Transcriptional Intermediate Factor 2 |
2 |
利用MEDLINE作为知识来源的分析
在一实施例中,依据本发明的系统被用来处理来自MEDLINE(下称″来源″;从1967年至2002年一月的记录)的12,037,763笔文本记录并用以产生介于数据库中的对象间3,482,204个唯一关联的网络。在该数据库中大约2/3的对象发现精确的文字匹配,在该数据库中33,539个唯一的对象(当包括同义字时总术语为85,234个)中的22,482个识别出至少一个关联。
作为对象识别基础的项目
在一个方面,系统的唤回率通过选取自MEDLINE的记录集合(亦即,检阅文献)予以评估。从本发明的系统的关联对象数据库中所随机选出四个对象表示每一种对象类型的一种,其选择的规则是至少两个MEDLINE记录(检阅文献)在最近三年中关于该对象。接着选择2至3个检阅文献记录的集合,以及编辑所有其它对象的清单,其中该清单具有任何与原始询问对象非平凡的关联。仅有相同类型如同那些在集中的数据库中的对象般的对象会被计算在内(如基因、疾病、显型以及小分子)。检阅文献记录针对CTLA-4(基因)、Fragile-X Syndrome(疾病)、cachexia(临床显型)以及dynorphin(小分子)予以选择。由每一个记录集合所产生的清单接着与通过本发明的系统在处理所有的MEDLINE之后所识别出的关联相比较。
如表15所示,包含在该关联系统数据库中的对象显示在前述所选出的记录中所发现的这些类型的对象的总数的78%(141/181)。在此,在该MEDLINE记录中的关联与选定的记录中的对象间相关关联比较。在文献中提及但未在数据库中发现的40个对象中,是2个疾病、9个显型、7基因以及22个小分子。该2个疾病名称(Graves’Opthalamopathy以及Relapsing-remitting ExperimentalAutoimmune Encephalomyelitis)及9个显型则未在OMIM中提及。这些显型中的其中三个证明是介于该OMIM与MEDLINE间语义学上差异的结果(亦即″rocking″与″body-rocking″;″greater interoculardistance″与″increased interocular distance″以及″fetalakinesia″与″akinesia″)。有趣的是,就小分子分类而言,在MEDLINE中提及的许多的化学物质与药物(如DAMGO、DADLE、isoprenaline)并未在其MeSH树状数据库中发现。
表15.通过本发明的系统用以识别相关关联的数据库对象
名称(检阅的数量) |
分类 |
MEDLINE记录的总数量 |
在记录中的总体关联 |
在DB中所发现的总体关联 |
在DB中不具有关联的对象 |
在记录中的对象;不存在于DB中 |
CTLA-4(3) |
基因 |
1,191 |
44 |
37 |
2 |
5 |
Dynorphin(2) |
分子 |
2,647 |
40 |
23 |
4 |
13 |
Fragile-X(3) |
疾病 |
2,141 |
35 |
22 |
6 |
7 |
Cachexia(3) |
显型 |
2,933 |
62 |
42 |
5 |
15 |
总计 | | |
181 |
124 |
17 |
40 |
在2002年1月23日挑选。此分析是在所有的MEDLINE记录处理后予以处理。缩写DB=该系统之识别后的关系数据库 |
进一步的分析显示在该MEDLINE记录中所引用的141笔数据库对象中与集中询问对象之一相关联的17笔未在与该询问对象相关的任何MEDLINE标题或摘要中被提及。其中的9个因为拼写/语法上的差异而无关联,其中的1个因为被标示为含糊不清的首字母缩略字且未定义于记录中(PKI),其中的1个因为该文献检阅记录使用的名称(NFAT)并未用于MEDLINE摘要中,其余的6个无关联对象显示在检阅文献记录的标题/摘要中未提及的关联。从138个在MEDLINE(亦即标题与摘要)中所提及的相关关联,依据本发明的一个方面的系统识别出其中的127个,证明关于识别在文本的输入中的数据库对象的概念上的出现具有92%的唤回率。
就识别在MEDLINE中不同对象类型间有意义的关联而论,本发明的系统以70%(127/181)评估唤回率(识别于领域中相关的关联)的识别出这些视为相关关联中的78%(141/181)。
该FNs(亦即于文本中未识别出的对象)通常被发现有分类错误(如MeSH项目5,8,11,14,17-Eicosapentaenoic Acid在MEDLINE中几乎总是被简化视为eicosapentaenoic acid)。失败在其比率上有所变化。举例言之,JNK有81种不同的拼写方式,包括″c-Jun N-terminalkinase″(605次)、″c-Jun NH2-terminal kinase″(154次)以及″c-Junamino-terminal kinase″(62次)。
评分
评分机制依据在网络中关联的统计特性予以发展。如图所述,每一个对象所识别出的关联数量按照指数递减分布(图16A),指示出在来源中对象术语高度不平衡的分布。以MEDLINE来源作为示例,钠被发现是被提及最多的对象。发现到至少一次在相同摘要中具有8,868个其它对象(所有识别出的对象的-40%)。利用其作为关联网络,可呈现出每一个对象直接关联数量与纯粹间接(隐含的)关联的数量的比较(图16B)。所呈现的特性显示当该直接关联数量增加时,隐含关联的数量快速地接近理论上的极大值,亦即在该网络中节点的总数量。即使具有相对少数的直接关联的对象仍然会与网络中绝大多数的对象产生隐含关联。当这种高程度的隐含关联至少就某种程度上而言归结于部分如钠等的对象与极大量的术语产生关联时,这种情况也显示出隐含关联实际上是如何的无价值。
因此,在识别具有潜在价值的新关联中最重要的挑战依赖于关联以及对每一个隐含关联的关联指定。此外,本发明的系统必须能够确认在网络的上下文中共享关联的相关性(作为唯一性的测量)以及其连接的特性。
就两个对象间直接的关联而言,有一个简单的方法依据所评估的错误率以及同现的频率指定强度分数给每一个关联。同现的出现愈频繁的术语更有可能表示有效的关联;因此,对象关联依据所观察到的共同提及类型与数量(亦即摘要与句子相比)及其相应的错误率来指定分数。
套用改编自图论的术语,对象可被视为″节点″而关联(共同引用或同现)则被视为″连接″,亦如同所知的介于节点间的″边″。隐含的关联节点(C)被定义为与询问节点(A)无直接关联,也连接至一个或多个同时连接至A的中间节点(B)。为评估隐含的关联节点的潜在重要性,由询问节点A与隐含节点C二者所共享的i节点(Bi)集合可与随机网络模型进行比较。因为节点A是被关注的且与A相关的文献与集合Bi中的所有节点有所关联,可确认介于Bi与C间偶然出现的关联的数量。举例而言,若C与1000个节点的网络中每一个节点均有关联且A在此网络中具有100个连接,则其所有的联接与C共享,此是可以期待的且因此不容许有例外的。因此,将所观察到介于Bi与C间连接的数量(Obs)除以期望偶然产生的连接数量(Exp)提供反映出共享的连接在统计上的重要性的数值。
该数值允许确认连接集合的潜在关联的评估。举例而言,若链接疾病(A)至化学物质(C)的连接集合包含高度常见的节点,如″钠″与″症状″,无论真实与否,这些充分模糊的连接类型对于科学人士假设A与C如何通过此中介而具有令人关注与特定的连接方面无多大的助益。若该共享的连接包含特定的转运体或基因,且其不会如此频繁的在文献中被提及,则假设(C)的特定作用是如何产生(A)会变得更容易。
在A与B间的关联是错误的几率以两个对象共同提及的次数n以及与用以建立该关联的共同提及相关的随机错误率r的函数来表示,该函数系:
P(错误)=rn (1)
因此,该关联有效的几率可表示为:
P(有效)=1-rn (2)
关联的强度可被看作所观察到的次数以及每一个观察为错误的集合几率的函数。因为两个不同关联测量计算如下:句子共同提及(Cs),以及摘要共同提及(Ca),总体关联强度分数(S)分别取决于各自的错误率,rs(17%假正向)以及ra(42%假正向),而成为以下的公式:
S=Cs×(1-rs)+Ca×(1-ra) (3)
就隐含关联而言其不具有明确的与表示有效关联的几率有关联的统计参数;然而,可以假设隐含关联(A-B-C)有效的几率不会大于链接其的两个独立关联(A-B或B-C)的最低可能性。因此,符号″_″定义为介于两个对象间无指向性关联的存在,其被评估如下:
P(A_C)≤P(A_B)*P(B_C) (4)
提供针对关联与隐含关联的集合的控制以确认对象的分组是否有意义是重要的。尽管证明部分强有力的隐含关联,如观察到具有共同对象″癌″的许多共享关联并不具有意义很困难,唯一性的测量仍可依据在该网络中每一个对象所具有的关联总数量指派给该关联。假设一些对象如图16A中所示在具有相同关联的网络中随机地连接,可计算出任两个对象具有隐含关联的几率以及该对象期望共享多少中间关联。在网络中两个对象A与B相互间具有关联的几率,假设随机的分布,假设在包含总数Nt个节点的网络中已知每一个对象分别与KA与KB对象的总数相关,则假定的公式如下:
将每一个独立关联的几率相加,可扩展该公式以评估在集合中的对象B与另一个对象A关联所期望的次数n,其等式如下:
公式(5)能用来预测两个对象关联的几率,假定随机的连接网络,通过分配随机的关联数量(1至10,000)给10,000个节点网络中两个对象并确认这些关联的其中之一是否与该两个对象相关联来确认。其可允许重复10,000次的执行并与关联的期望数量相比较。当该集合的大小增加时,其结果是实际/期望比例向1.0收敛,证明公式(5)精确地预测在这种类型的网络中的行为。这可针对本发明的系统的自文献取得的网络重复执行,随机地选取两个对象,每一个对象具有至少一个在网络中的关联,并执行10,000次,则实际与期望关联的比例确认为0.40。小于1的比例与其关联性并非随机的网络相一致。
为证实公式(6)有助于数量上评估关联分组,自该数据库中随机产生的对象集合与期望分享共同组件的对象集合(利用来自基因组本体数据库中特别的本体分类中的基因来取得)相比较。利用公式(6)计算在对象间前十个最频繁的共享关联的平均实际-期望比例,如图17所示针对主题集合或集群的比例一贯高于针对随机集合的比例。
通过两个对象的共享的关联评估该两个对象的关联性
在一个方面,公式(6)被用来评估隐含关联具有多少的特殊性,假定在网络中两个对象的每一个对象具有相对多数的隐含关联。此评分方法评估潜在的一种对象的集合中共享的关联或特性的几率,在评估隐含的关联时,通常必须确认介于如A与C间的特定关联如何相关。依据本发明的系统允许关联是主观质量(subjective quality)。因此,介于A与C间的关联具有多少的重要性取决于分析、条件、研究等等。通过评估已知相关的关联的定量的统计特性,其可与被怀疑具有隐含关联的对象的相同特性相比较。
如图18A所示,在一些特性中,介于两个对象间的关联强度愈大,其倾向于共享的关联愈多,且如图18B所示,这些倾向共享的关联的强度愈强。据此,两个对象共享的关联数量愈多且这些共享的关联强度愈强,则此两个对象愈有可能有所关联。定量的评估两个对象如何相关联可通过计算交叠关联的百分比来获得。
本发明的系统可评估重要关联共享的比例为何。当对象A与另一个对象C间通过一些中介B而具有隐含的关联,若A与C所共享的是强有力而非微弱的关联,则可预测介于A与C间具有关联的几率较大。通过将所有共享关联的总强度除以所有关联的总强度,可以评估重要关联所共享的比例。在曲线下的区域可如同该关联的总体强度的积分方式进行计算,借此提供总体强度数值或向量。该总体强度数值可针对由A或C所共享的关联来计算,在某种程度上反映出该关联的指向性。举例而言,心室肥大的发展与原发性高血压的存在非常高的关联。许多与心室肥大共享的关联已知会促成原发性高血压(如基因或显型)。然而,原发性高血压与其它人类状况亦有所关联,如糖尿病、中风与肥胖等。与心室肥大共享的关联强度则相应地降低。
这种指数加权配置的缺点在于高优先级给予少数包含该曲线最左部分的关联,其中许多的关联大致上已经是理解的或已经被考虑的,因此不是新颖的。如前所述,就某种程度而言,同现的高频率可以作为关联已知悉多长的时间的功能。新的、重要的关联可能不会有足够的时间去累积高频率的同现。为克服这一缺点,该曲线可通过关联的强度转换成线性的关联排列,以降低且未排除将次数的相对重要性视为因素的影响。举例言之,生物介质钙调磷酸酶素(calcineurin)是相对新且重要的负责转导由分子所组成的讯号的因子且其会导致心室肥大的发展。在指数加权配置下,钙调磷酸酶素的相对贡献在曲线下的面积为″X″。利用线性排列则提升其相对贡献成为″Y″。
一些额外的因素可用以排列关联。举例而言,额外用以排列结果的项目可包括:链接对象的信息的影响因子或重要性(例如给予来自″Science″文献的摘要中所形成的对象间的连接高于来自″Journal ofIrreproducible Result″的文献的权重),文献发表的日期,给予近期连接对象的文献优先性,关联的强度-以至于若对象A链接至进一步链接至对象C的对象B且每一个链接的强度非常强,则其排名会较A-B-D间(其中B-D的关联薄弱)的关联为高。强度是依据出现的数量以及出现的期望数量。其它的因素还包括但不限于:以作者的可信度或作者所在的机构作为排列该作品重要性的方法;由于两个分离的文献集合(如Medline摘要与书籍)中出现而作关联有效的认定。此外,可依据标准化到在网络(文献数据库)中任何对象与其它对象间关联数量的对象间关联数量而定。因为关联是重要的,且可能比网络(文献)中所出现的对象(单词)的次数更为重要。在所选定的例示中,本发明的系统会依据标准化至B连接至所有其它对象的次数的连接至B以及从B所连接的实际数量计算其排名。举例而言,对象″cancer″出现于所有Medline摘要的其中20%篇摘要中,其可用以依据对象的使用计算该实际/期望比例,但该对象可连接至Medline中所有不同对象中的27%,且因此可产生依据该关联数量的实际/期望比例。当然,当项目在10项以上时,所有后续的项目,包括其本身在内形成由包含所有不同的经过适当加权的标准的代数排列值所构成的基准。
在一个方面,关联利用通过本发明的系统所执行的模糊集合程序来识别及排列。传统上,集合由其成员定义。一个对象可具有一个针对该集合的隶属度(μ),若该隶属度等于1(μ=1)亦即其是该集合的成员或该隶属度等于零(μ=0),亦即其不是该集合的成员。模糊集合理论可就某些程度(该隶属度可介于零与一之间(亦即0≤μ≤1))识别任何可为该集合的对象,亦即,模糊集合理论识别在不是总明确界定的集合中的隶属关系。
通过处理包含多个知识领域的数据来源,产生暂时性关联的综合网络允许该对象集合的关联性可依据其所共享的关联予以评估。指定″聚合″的测量给集合的标准允许研究者推测实验的分组是有意义的(假设经过分组的对象适当地出现在文献中)。聚合依据集合的平均实际/期望分数高于随机平均值多少予以确定。当用以分析由对象的集合所共享的关联时,一般的″主题″可伴随着在清单(如影响基因群组活动的药物)中统计上的特殊分类予以识别(如癌、细胞凋亡(Apoptosis)、糖尿病)。此外,其提供通过这些成员与该群组总体的关联性以识别集合中的″遗失成员″的方法。
在一个方面,本发明的系统执行其本身的评分功能以评估微阵列数据。举例而言,本发明的系统提供一种确认转录响应者集合是否包含具有档案化关联的成员的方法。在此方法中,研究者可决定该实验是否测量到特定的反应,提供该可能性以识别何时转录反应的结果系缺乏令人信服的杂化条件或如交叉杂化(cross hybridization)的错误。重要的是,本发明的系统提供一种联系来自微阵列实验而待识别与排列的非基因因子的途径。
真实分数
在某些情况中,关联强度未必如同其实际般重要。举例而言,若两个对象共享关联的子集合且其关联至与特定生物过程(如急性阶段免疫响应、细胞分裂、微管形成等)相关联的对象,这种关联的相对强度并不必然如同共享的关联般重要。在此情况下,优选评估该共同提及是否表示实际的关联。假设一次共同提及是假正向错误的几率为50%,利用该真实的分数,则二次同现为错误的几率则为50%×50%=25%或0.25。该针对任何给定关联的真实分数的范围通常从针对同现所测量出最低可能性的假正向率到1。共享的关联就整体真实分数而论也可被标绘。
系统逻辑:元关联(meta-relationship)、语义解析、信息提取
在一种用以检索研究关注的项目(例如利用PubMed所执行的检索)的标准基于询问的方法中,时常会取得无关联的结果。尽管通过图形用户接口可让用户简单且直觉式地与PubMed交互,但是可用的信息越多,会使得寻找关注的项目越困难。
举例而言,研究者关注导致镁程度增加的现象可在检索中利用单词″magnesium″与″increase″或是这些单词的变体。以词组为基础的检索允许用户利用连接的术语,如″increases magnesium 1evels″。然而,连接的术语具有大量的排列数量,如″found to increase magnesiumconcentration″或″observed elevated intracellular levels ofmagnesium″,″demonstrated higher magnesium 1evels″等等。标准的基于询问的方法利用布尔运算检索研究关注的项目。然而,这种询问的限制存在于因果关系的连锁中-针对″‘magnesium’and(和)‘increase’″实施布尔检索所回复的结果可能难以解释。举例而言,其对于所回复的结果是否关于镁增加的效果,何者会增加镁,镁是如何增加的、什么会影响镁的增加等等是不明确的。此外,该结果可能包括一些假正向,该假正向包含与选定的检索单词匹配的词组,该词组例如″…can cause intracellular magnesium depletion and anincrease in intracellular calcium″。因为用户可能同时想确认并未遗漏如″increasing″以及″increased″的单词字根变体,用户可利用如″increas*″的通配符号。通配符号可有助于检索更为广泛,但是也急剧增加了假正向的数量。更糟的是,描述相同现象的同义字,如″Mg2+″、″elevation″、″rise″″higher levels of″等不会被包括于该检索中。
部分的来源通过提供一种针对信息分类将单词映射到受控制词表的方法以解决这些多个变体。MEDLINE利用MeSH来将单词或词组映射到主题(主体标题)检索,其有助于在检索中涵盖同义字并提供寻找文件的功能,该文件一般使用与研究有关的关键词但却未被涵盖于标题或摘要中。MeSH允许将单词或词组映射到主题(主体标题)检索,即便并非所有生物医学相关的同义字都被映射,当检索信息或独立的主题时MeSH操作的相当好,甚至允许子标题的选择。然而,MeSH主要限定在名词的检索且无法提供名词可能所具有的相互作用类型。其既不提供上下文内容也不提供说明介于所关注的项目间的关联的有效方法。表16.显示通过MEDLINE检索所返回的结果中关键词变化。
表16.依据询问的构建变化的结果的例示*
Magnesium |
58,011 |
Mg2+ |
22,141 |
Magnesium(MeSH:所有子标题) |
46,151 |
Increase* |
1,396,427 |
Magnesium and increase |
5,773 |
Magnesium and increases |
2,171 |
Magnesium and increased |
7,936 |
Magnesium and increasing |
2,241 |
Magnesium and(increase or increases or increased or increasing) |
13,291 |
″increases magnesium″ |
13 |
″elevates magnesium″ |
0 |
″higher magnesium concentration″ |
5 |
(MeSH:Magnesium)and increas* |
9,490 |
*结果是利用Ovid检索引擎取自于2000年11月21日的所有MEDLINE记录 |
具有惊人数量的数据与信息存在于检索结果中,讽刺的是,这样使得寻找相关信息更加困难。科学家利用多种的捷径来帮助此任务的执行,例如将他们所阅读的杂志范围缩小到其所认为关注以及高品质,并期待将会发行的相关信息以及出席国家会议以保持与其领域中的同行和当前研究联系。尽管这种方法提供某种程度上的帮助,但是他们必须倚赖其它人,而这些人受限于其本身所仅能提供的信息覆盖与筛选。并且不幸的是,即便这些策略有助于保持人们消息灵通,但却无法将其置于知识的前沿。如果不能提供其它的功效,则由于有太多的假正向结果,因此明显需要一种针对关注的现象检索文献的更有效方法。
为减少假正向结果的数量,依据本发明的系统提供一种推论提取引擎,其接收关于数据分数的输入(如文本及/或数据)并以对象形式提供输出。本发明的系统接着确认是否有样本(例如,在摘要中同现的对象;在句子中同现的对象)存在于输出中,以确认介于对象间的关联并识别主题集群(topical cluster)。正如此处所用的,″主题集群″或″主题集合(topical set)″可以互换使用,且是指关注(作为术语、词组、分类)的信息(数据)的群组(grouping)。当对象同现于主题集群中时,其存在有对象与主题集群相关联的机会。主题单元也可是通过来源所定义的群组,而每一个来源可具有不同的群组。举例而言,在MEDLINE(作为来源)中,该主题集群可为摘要。在另一来源中,该主题集群可为段落、页、电子表格,而该群组可为数字的、文字的、符号的或前述的组合等。
此外,本发明的系统可利用其它连接以及归纳/演绎的逻辑以假设当假定于其它相同对象中相同的关联集合时对象应该具有如何的特性或行为的分类(sort)。在一个方面,本发明的系统依赖于共同引用以建立实际上单向性的关联。在另一个方面,本发明的系统当该关联的种类未知时(如检索反对或互补现象)可完成不同类型的分析,以使该关联的种类可被识别。此规则确认该推论提取引擎的功能,该功能可用于分类关联,例如后述般识别元关联。
元关联
一个对象可具有许多的同义字,无论是单词或词组,其会导致″多对一″的映射。同样的,作用、反应、交换、变化或任何其它类型等对象可能具有与其它对象间的关联可以许多不同的方式来描述。针对关联确认同义字是不充分的,因为其是一般类型的关联或表示所关注的不同的同义字的分类。这种包含多种相互影响的一般类型的关联,或分类集群,在此被称之为″元关联″。
举例而言,可观察到关于两个蛋白质的相互影响以及利用如″asociate″、″dissociate″、″adhere″或″bind″等术语来描述。鉴于″asociate″与″bind″在意义上具有微妙的差异,将相互影响分类至如″physical association″的一般术语下而不是将其分类于每一个独立的标题并非完全的错误。这种分类集群方式的一例示可见于NCI’sMedMiner中,其试图将包含检索关键词的句子分类至一般类目中,但是一种更精确的比较是HIN’s UMLS系统所称的″语义的关联″且同样包含大量的的术语。
在一个方面,本发明的系统识别四种基本类型的元关联:正面影响(增加)、负面影响(减少)、实体关联以及逻辑关联。用以表示该关联的关键词的字根形式显示于以下的表17中,其用以显示这些单词或其字根形式变体出现于MEDLINE的频率。已针对每一个单词检查单词拼写变体(如″releaser″与″releasor″,″disassociate″与″dissociate″)且将不会包括在内,其原因在于其仅包含其所使用的少部分(通常<2%)。
表17.2000年12月18日在MEDLINE中的字根元关联关键词
增加Activat*(415,310)Enabl*(53,244)Induc*(905,161)Increas*(1,396,427)Upregulat*(13,369)Up-regulat*(379,907)Rais*(98,364)Elevat*(209,038)+Enhanc*(296,430)+Releas*(275,316)Stabiliz*(54,136)Higher(518,292)Agonist*(103,108) |
减少Degard*(86,234)Ubiquitiant*(1,244)Inactivat*(77,008)Deactivat*(3,877)Block*(271,393)+Repress*(28,562)Suppress*(172,959)Decreas*(686,727)Downregulat*(8,636)Down-regulat*(24,282)Depress*(182,205)Reduc*(769,287)Inhibit*(743,450)Sequest*(12,092)Destabiliz*(5,965)Lower(410,993)Antagonist*(167,073) |
实体关联Bind(519,336)Cleav*(63,683)Cataly*(98,809)Interact*(321,075)Dissociat*(62,378)Heterodimer*(10,190)Complex*(356,990)+Associat*(879,398)+Symptom*(267,651)Abnormal*(283,924)Deficien*(153,465) |
逻辑关联Modif*(245,349)Regulat*(382,435)Acetylat*(12,142)PhosPhorylat*(78,924)Mediat*(323,761)+Control*(935,431)+Affect/s(187,119)Effect*(1,872,664)Correlat*(475,991) |
星号(*)表示通配符号。(+)是动词的名词形式或单词的替代使用舍弃精确的总体评估(如"blocks of time"、"elevator accidents"、"enhancer element"、"complex behavior""experimental control"、"mediated discussion groups") |
这些特定的元关联是针对后端利用之目的予以选择,亦即并非仅定义关注的对象,同时也特性化这些对象。一般关联以及分类有助于多种用途以及取得量上而非质上的改变,以允许本发明的系统检索互补与反面的现象。已知该疾病的显型与其它产生相同显型与相对显型的现象可有助于确认该疾病的起源以及潜在疗法的检索。
举例而言,医疗状况会导致乙醇脱氢酶(ADH)的减少。这种量化的显型将会是本发明的系统所关注的,其原因在于处理此症状的方式将会涉及ADH水平的增加。相同的状况可能具有另一个肝毒显型,但是毒性的相对面难以定义,即便可以想象到可能的反对单词如″恢复″、″再生″或″增长″等。毒性是相对的基因术语,性质上用于描述现象且难以定义其反面或互补的术语为何。然而,当用户处理因不明原因遭受肝毒的患者时,其对于理解是有用的。
量上的关联是指在其中如″increase″、″upregulates″或″elevates the levels of″的动词与动词词组被用来描述这些关联。质上的关联是指那些可被量化评估的,并被加进具有更多或更少的特性的广义术语。其通过如″hypertrophic″、″hypoplasia″或″megalencephaly″等形容词或名词予以指出。在一种优选的方面,在本发明的系统中该推论提取引擎包括额外的语言能力以包含链接至当前对象的术语(如动词、副词、形容词)的关联分析,例如在生物医学领域中所通用的(如″increase″、″binds″、″regulates″)以及否定的术语(如″Does not″、″not″或″inversely″)。
如图26所示,在一个方面,本发明的系统的推论提取引擎针对待分类至对象表格(″tblObjectSynonyms″)的元对象扫描由摘要(如取自MEDLINE或其它来源)所取得的句子。接着针对用以指示可能的关联的元关联关键词扫描文本。若发现关联,则本发明的系统接着针对对象扫描句子。若所发现的对象少于两个时,扫描下一句子。若发现关联以及两个对象时,本发明的系统传送该句子至文法解析器接着至推论提取规则确认集合,以尝试适当地将该关联予以分类。若发现良好的匹配,则将其储存至系统数据库中。
关联:链接A至B
如下表所示,对象之间的关联就其所具有的元关联予以储存,但是相同类型的关联可通过多种不同的文法结构而表达于文献中。优选的是,依据本发明的系统可从数据来源中提取这些关联(亦即确认相应于元关联的″inhibit″,″decrease″)及其对象(″wnt″,″the quaternarycomplex″)。下表显示用以表达概念的不同的文法结构,″wnt signalingsomehow inhibits the kinase activity of the quaternary complex″。
表18.多种用以表示该基因wnt关于四基复合物的激酶素活动
词组 |
动词″to inhibit″的形式 |
Wnt signaling acts to inhibit the kinase activity… |
动词(字根形式) |
Wnt signaling somehow inhibit the kinase activity… |
动词(第三人称单数现在式) |
QC kinase activity is somehow inhibited by wnt… |
动词(过去式) |
Wnt signaling somehow inhibiting kinase activity… |
动词(现在分词) |
Wnt signaling somehow leads to inhibition of kinase activity… |
名词形式(动名词) |
Wnt signaling somehow acts as an inhibitor of kinase activity… |
名词形式(单数) |
Wnt signaling is one of the inhibitor of kinase activity… |
名词形式(复数) |
…study the QC inhibition.It is somehow due to wnt signaling… |
指示代名词 |
Wnt signaling somehow has inhibitory effects upon the QC… |
形容词 |
Wnt signaling somehow becomes inhibitive towards the kinase… |
形容词 |
包括于元关联中的术语以及词组可根据需要来增加或修改。部分的元关联例子及其如何使用显示于表19中。
表19.当元对象增加时元关联的例示
元关联 |
关键词/样本 |
用法 |
子集合.家族(Subset.family) |
The*family; |
相同家族的成员可假设为具有相似的特性 |
相似.连续(Similarity.sequence) |
Homologous;orthologous;paralogous |
相同物将会被假设为具有相同的角色及其在其它种类中相同物的关联 |
相似.结构(Sumolarity.structure) |
Domain is similar to;hasa conserved fold |
结构上的相似可能表示功能上的相似。若一领域与一功能相关联且蛋白质具有该领域,则该蛋白质被假设具有该功能。 |
位置.细胞(Location.cellular) |
Localiz*;found in;located in;membrane-spanning;transmembrane |
关联/排除的研究 |
位置.系统的(Location.systemic) |
Expressed in;found in*tissues,found in*cytes |
当其它一切均欠缺时,其可有助于查看仅表现于特定关注的组织中的所有已知的ESTs的清单并依据功能领域相似性建议其中之一。 |
逻辑门(Logic gate) |
And;along with;inaddtion to;or;but not; |
逻辑门是复合反应的核心 |
|
without;in the absenceof; | |
子集合(Subset) |
Part of the;belongs tothe;is within the;is a; |
关联的逻辑一致性检查 |
变体(Variation) |
Varies/vary in/with x; |
关联可用来预测、关联或诊断以及潜在转换成因果关系的范围(window) |
对象关系数据库
本发明的系统所利用的对象关系数据库(ORD)是其主要的功能。部分表格与询问的构建与布局显示于表20中。
表20.对象关系数据库的布局
表格 |
信息组 |
描述 |
TblMetaObject |
CategorySubcategory |
元对象的名称(针对关注的一般术语的类目)子类目 |
|
Keywords |
用以指示某些目标是此元对象的一部分的关键单词 |
TbiMetaRelationship |
Type |
关联的一般类型(如关联、增加、子集合等等) |
|
Subtype |
关联子类型(如关联.实体、位置.细胞、识别码.Genbank等等) |
|
WordForm |
动词合乎文法的形式 |
|
Keywork |
用以指示关联的关键词 |
ThlObjectProperties |
Name |
对象名称(公认的符号) |
|
Category |
对象的一般类目 |
|
Subcategory |
对象的子类目 |
|
Value |
对象的值 |
|
SourceID |
此信息的来源 |
TblObjRel |
Object1 |
一号对象 |
|
Relationship |
具有此关联 |
|
Object2 |
二号对象 |
|
Source |
此信息的来源 |
|
SentenceNum |
发现此关联的句子号码 |
|
DateObserved |
此关联被浏览的最近日期(yyyymmdd)此关联被观察到的次数 |
TblObjectSynonyms |
Name |
对象的官方(最短的)名称 |
|
Synonym |
针对该对象所发现的所有同义字 |
|
Num Words |
描述中单词的数量 |
该对象关系数据库是动态者,正如同提供输入至本发明的系统的数据来源是动态的一样。在一个方面,本发明的系统在与该系统通讯的图形用户界面(如按钮或下拉式选单)上提供控制组件以允许用户查看在系统数据库中取自数据来源的文本的对象。举例而言,用户可在图形用户界面上查看来自数据来源的显示文本,标示该文本的一部分(如词组或摘要),以及点选如按钮等使得该系统显示该词组中的一个或多个单词是否作为对象而储存于系统数据库中的控制组件。新对象可包括于系统数据库中(如下面进一步讨论的对象关系数据库等)。这有助于用户通过扫描文献以识别并标示新对象,以编辑这些对象来增加至对象清单,以供用以评估连接的网络的下一次编辑使用。
语义解析以及信息提取
输入并解析如具有一个或多个单词的记录或摘要等的文本信息。适当的解析器包括但不限于dparser、Essens、Gary、opars、ipars、lfg、Olex、Parsec、SPARK Scanning、Parsing and Rewriting Kit、T-Gen T-Gen-The Parser Generator(针对Visualworks、ftp、aSmallTal的解析器产生器)、TGrep2(下一代解析树的检索引擎)等等。
若该记录包括句子,则这些句子经过逐句解析,并针对元对象以及元关联检查。在图14中显示了通过本发明的系统所执行的信息提取步骤的流程。信息提取还可包括解析非文本或结构化数据的信息。举例而言,信息提取可包含扫描高密度阵列,该高密度阵列包含化学或生物数据(如核酸探针、寡核苷酸、蛋白质、多肽、有机或无机分子/化合物等等)。可利用包含超过65,000个信息部分(如探针、分子、化学物质等等)的阵列,如利用公知的光刻法所制造的阵列。可利用更传统的技术或化学物质将分子或化学物质附着至基底的表面,且依据该基底的种类、该待附着的分子/化学物质与其它因素对于化学附着与合成技术领域的技术人员而言是可以理解的。生物阵列用于基因分析、筛选、诊断等等。部分阵列具有至少20微米的小特征尺寸。
举例而言,在基底表面上的核酸结构可能提供信息提取的数据来源。统计上相关的表现分析可针对表现序列标示的cDNA序列数据库通过序列相似检索所有询问开放读取框架或基因序列予以完成。包括美国国家卫生研究院癌症研究所(NIH-NCI)在内的基因网络研究计划特别适宜采用本发明的系统。
本发明的系统提供一种工具,用以在任何研究领域中针对当前所识别出的问题识别出一个或多个新的影响或的潜在的解释。本发明的系统可以符合成本效益的方式识别出一个或多个介于对象间的未知关联。如下面例1进一步讨论的,本发明的系统识别出已知药物氯丙嗪的新治疗应用,亦即,其用作为心室肥大(一种具有严重且令人衰弱的后果的疾病)治疗的治疗剂。在其它情况中,本发明的系统还识别出非胰岛素依存型糖尿病(non-insulin dependent diabetes mellitus;NIDDM)的潜在的病因来源是起源于后天的。
在一个方面,本发明的系统连接至自动筛选系统。利用该系统以扫描关于非胰岛素依存型糖尿病基因的文献,目标基因针对甲基化反应筛选予以识别。本发明的系统检索并下载该目标序列,设计可在如筛选阵列上的作为探针的寡核苷酸。该筛选阵列利用如数字光学化学作用甚或麻烦的光刻DNA芯片方式予以组合并用以筛选、诊断与追踪可能的或当前的非胰岛素依存型糖尿病患者的甲基化反应状态。在一个方面,该阵列的设计连接至线上订购单,因此用户可与本发明的系统交互,直至完成包含适当序列的阵列的制造订单。该图形用户接口可显示该阵列的描画。在一个方面,移动光标至阵列上特定的坐标集合,可使得本发明的系统显示位于该坐标的探针的信息(如核甘酸序列、基因名称、已知的表现轮廓、功能等等)。
例示
本发明将进一步伴随着以下的例示予以说明。应该理解的是,以下的说明仅作为例示之用,并可在本发明所涵盖的保护范围进行修改。
例示1.系统的确认:用以治疗心室肥大的药剂
本发明的系统可针对心室肥大识别出新的且有用的隐含关联的能力利用MEDLINE作为来源予以执行,心室肥大是一种具有许多已知且公认的关联的症状。分析的目标是识别出先前不具关联的化合物与心室肥大及潜在治疗效果的隐含的关联。
系统的新关联发现
心室肥大是一种会使心脏中的细胞的体积扩大的病症,最后会导致心脏供血功能的降低。这种情况已被广泛的研究,这点从MEDLINE中有超过3,654篇文献包含有″心室肥大″的词组即可得知。通过这些文献,依据本发明的系统识别出与心室肥大有隐含关联的至少大约2,102个对象以及至少大约19,718个唯一对象;使用1,841,599个不同的路径。利用本发明的系统的评分配置,编辑与心室肥大间具有隐含的关联的小分子(如药物、新陈代谢、以及化学物质化合物)排名清单,其中的二十笔在表21中显示。该评分是每一个关联独立有效的几率、每一个对象期待所具有的关联数量(已知其在网络中的相对数量),以及每一个连接关联的隐含强度等的复合函数。介于心室肥大与隐含的关联对象间共享的关联数量以″唯一路径(Unique Paths)″表示。这些唯一路径有多少表示有效关联的统计评估以″品质评估(QualityEstimate)″表示。在网络中每一个隐含的对象的频率以″关联的数量(Number of Relationship;Number of Rel.)″表示,以及给定每一个对象的相关频率时期待偶然出现的关联数量(已知每一个对象的相对数量)以″期望(Expect)″表示。
表21.与心室肥大与小分子间隐含关联的排名
排名 |
隐含关联 |
Unique |
Number |
Quality | |
Obs/ | |
1 |
Endotoxins |
1301 |
3280 |
1025.2 |
307 |
4.24 |
1004.8 |
2 |
Progesterone |
1448 |
4190 |
1131.8 |
392 |
3.70 |
966.6 |
3 |
Morphine |
1217 |
3029 |
939.3 |
283 |
4.30 |
932.6 |
4 |
Bromide |
1368 |
4079 |
1048.2 |
381 |
3.59 |
868.7 |
5 |
Concanvalin A |
1317 |
3802 |
1002.3 |
355 |
3.70 |
857.9 |
6 |
Globulin |
1130 |
2836 |
849.7 |
265 |
4.26 |
836.6 |
7 |
Chlorpromazine |
1089 |
2691 |
524.5 |
252 |
4.33 |
824.5 |
8 |
PolyethyleneGlycol |
1153 |
2986 |
862.7 |
279 |
4.13 |
823.2 |
9 |
Cisplatin |
1129 |
2932 |
862.0 |
274 |
4.12 |
820.2 |
10 |
Methotrexate |
1190 |
3297 |
897.1 |
308 |
3.86 |
800.1 |
11 |
Esterase |
1197 |
3394 |
907.6 |
317 |
3.77 |
791.0 |
12 |
Neomycin |
1105 |
2908 |
841.5 |
272 |
4.06 |
790.1 |
13 |
Casein |
1165 |
3289 |
894.9 |
308 |
3.79 |
783.3 |
14 |
Phytohemagglutinin |
1099 |
2848 |
807.3 |
266 |
4.13 |
769.8 |
15 |
Isoleucine |
1142 |
3134 |
852.2 |
293 |
3.90 |
767.3 |
16 |
Methanol |
1221 |
3781 |
930.5 |
354 |
3.45 |
742.5 |
17 |
Galactose |
1104 |
3040 |
826.3 |
284 |
3.88 |
741.5 |
18 |
Polysacharide |
1092 |
3160 |
829.4 |
295 |
3.70 |
708.2 |
19 |
Acetone |
1075 |
3045 |
804.2 |
285 |
3.78 |
701.5 |
20 |
Tetracycline |
1066 |
3022 |
799.9 |
283 |
3.77 |
697.2 |
缩写:Rel.:关联;Obs=实际;Rxp=期望 |
从该排名清单中选出一个分子″氯丙嗪(Chlorpromazine)″用于进一步的分析。氯丙嗪是一种脂肪族的硫代二苯胺化合物,主要用于抗精神疾病或止吐剂。其显示一些具有多个小分子的目标的生理作用。一个已知的功能是作为甲型肾上腺素阻断剂(alpha-Adrenergicblockers)。利用依据本发明的系统,发现到未知的关联,亦即,氯丙嗪是通过促效剂使甲型肾上腺素接收体过度刺激而与心室肥大产生关联且其影响可通过甲型肾上腺素阻断剂予以阻断。因此,依据本发明的系统发现介于氯丙嗪与心室肥大间在先前所未知的关联。
此分析通过直接检索MEDLINE而并未显示二者间有任何直接关联被建立而可证明具有新颖性。
证实系统的新发现
介于氯丙嗪与心室肥大间相对关联的确认是通过一系列老鼠的实验室研究,其包括将已知的乙型肾上腺素促效剂(同时已知会导致肥大)、异丙肾上腺素以及异丙肾上腺素添加氯丙嗪相比较。
简而言之,该研究包括二组八只安装渗透性注射泵的老鼠。其中一组持续的给予每天每公斤20毫克的异丙肾上腺素剂量而另一组则给予每天每公斤20毫克的异丙肾上腺素加上每天每公斤10毫克的氯丙嗪。在较大的氯丙嗪剂量之前选择较小的氯丙嗪剂量以缩小喂食反应的变化。此外,其缩小介于氯丙嗪与麻醉剂″阿佛丁(三溴乙醇)″间不利的影响。在治疗前与开始注射后的七天进行心脏超音波检查。将这些老鼠处死并称量其心脏的重量。
图19与表22总结该研究的发现。大体而言,心室肥大(通过心脏超音波检查评估)在以氯丙嗪添加异丙肾上腺素治疗的老鼠中是减少的。图19显示氯丙嗪保护老鼠抵抗心室肥大的形成。心脏超音波检查用以评估在治疗过程中一些心脏的结构重量或厚度的改变。就图19而言,十只老鼠接受异丙肾上腺素而八只接受异丙肾上腺素与氯丙嗪(CPZ+ISO),其中LVW=左心室重量(CPZ+ISO 11±27%,ISO 51±43%,P<0.02);LVMI=左心室的质量指数(CPZ+ISO 11±28%,ISO 50±52%,P<0.04);PWT=后壁厚度(CPZ+ISO 16±16%,ISO 36±27%,P<0.05);IVSWT=室内隔膜壁厚度(CPZ+ISO 19±18%,ISO 31±20%,P<0.12)。
表22.在氯丙嗪(CPZ+ISO)对抗异丙肾上腺素后心室肥大的形成
群组 |
LLVW |
OLVMI |
OPWT |
DIVSWT |
CPZ+ISO |
11%±29% |
11%±30% |
16%±17% |
19%±19% |
ISO |
53%±45% |
50%±55% |
36%±28% |
31%±21% |
t-检验(t-test) |
0.02 |
0.04 |
0.05 |
0.12 |
利用本发明的系统在计算机中所识别出的额外的治疗剂包括″Rofecoxib″、″Naproxen″、″Prostaglandin″、″Melatonin″、″Naloxone″以及″Naltrexone″。″Naloxone″作为治疗剂的功效通过在确认前述心室肥大的老鼠模型中药物的功效予以证实。依据与其相似的药理学效果,″Naloxone″在活体中也可能有效果且由于″Naloxone″的优越的药物动力学特性(如其较长的半衰期),因此其可作为较好的药物。
依据本发明的系统额外的识别出其它用于治疗其它种类心肌症状的候选药物。提供先前并未被识别出可作为这种状况的治疗剂的后选药物清单,本发明的系统在依据与该心脏疾病直接或间接的药理学联系(如先前所确认作为肌肉细胞保护剂的药物)而初步地选择后,可排列出可能影响心肌症的候选药物。此分析的结果将进一步的讨论于后,其中等级为″5″是最高的分数且指示该药物在活体实验中成功的可能性极大。等级″3″以及更高者用以识别出作为治疗心肌症的候选药物的化合物。
三碘甲状腺氨酸(T3):3
T3与甲状腺素(T4)构成有效的甲状腺荷尔蒙。甲状腺荷尔蒙,特别是T3,已经被证实可提升心脏肌细胞质膜离子输送单元。临床研究显示心肌症患者存在不期望的高风险的甲状腺机能衰退以及低T3并发症。尽管T3潜在的有利于心血管疾病的功效,然而仅有少数评估其在心血管疾病功效的研究。迄今仍然没有对于具有心血管疾病的患者严格的临床调查,其留给T3令人关注但却未过度曝光的药物测试。
氯压定:4
交感神经系统在血压的调节以及心脏功能中扮演重要的角色。仿交感神经作用剂的效果是通过包括甲型与乙型子类型的肾上腺素受体予以传达。氯压定是一种甲二型肾上腺素受体促效剂。其作用于中枢交感神经,强调其″sympathoinbibitory″功能,因此导致正肾上腺素释放以及交感神经活动的减少并进而减少交感神经状况的降低。当前通过乙型受体阻断剂治疗心肌的扩大与肥大,然而甲型阻断剂的使用并未在先前被揭露。氯压定被导入作为抗高血压交感神经系统的抑制剂已有35年但仅至现今才针对其它治疗方法予以调查。举例而言,氯压定显示其对于心肌局部缺血与放血的心脏衰弱的治疗有其功效。介于氯压定与其它肾上腺素受体药剂间的差异在于其中枢系统作用的位置,这可提供潜在的广泛用途。
雌激素:3
心血管疾病显示出明显的以性别为基础的差异。雌激素在心脏疾病发病中扮演重要的角色且可控制疾病的发展。关注雌激素正面影响的焦点逐渐从血管系统移转至心肌。功能性雌激素受体的存在已经获得证实。在啮齿目动物的左心室肥大的模型中,雌激素的补充减缓左右心室肥大的发展。雌激素还使用于心肌衰弱缺血中以提供广泛的心肌保护。剂量范围对于雌激素而言非常重要。不同的剂量会具有实质上不同的影响。举例而言,每日0.625毫克的雌激素用于更年期,而每日20~35微克则用于口服避孕。
它莫西芬:3
它莫西芬是一种临床使用活化雌激素受体的化合物。其对于心血管系统具有类似雌激素的功效。
秋水仙素:3
秋水仙素是有效且快速的嗜中性白血球的抑制剂,可减少炎发性的白血球增多,防止缺血后心肌衰弱嗜中性白血球的累积并保护心肌。尽管只完成少数针对秋水仙素对于心血管的影响的研究,然而其中的部分显示具有正面的影响(减弱心室肥大的发展)。
缓激肽:4
缓激肽是新的且有可能的心脏肌肉细胞保护者。激肽释放酶-激肽(kallikrein-kinin)系统是一种血压调节系统。如同重要的激肽释放酶-激肽一样,缓激肽除已知多年的可扩展冠状动脉与血管床等功效外还具有其它的功能。在近期的研究中,缓激肽显示出可增强心脏血管缺血的耐受性。由于局部缺血是导致扩展心肌症的原因且心肌衰弱缺血在扩展与肥大的心肌症中均为常见,因此缓激肽是治疗心肌症的候选药物。
Omapatrilat:4
缓激肽通过一些酶素有效且快速地被降解,特别是血管收缩素转化酶素(ACE)以及中性肽链内切酶(NEP)。因此,作为具有阻止血管收缩素转化酶素以及中性肽链内切酶二者的新化合物的″omapatrilat″将逻辑上的具有如同缓激肽的效果。″Omapatrilat″现正实验性用于慢性心脏衰弱的临床上。
Apstatin:4
尽管血管收缩素转化酶素以及中性内肽酶素在缓激肽分解作用中似乎扮演重要的角色,近期的报告意味着″氨肽酶P(aminopeptidaseP)″可能为内生的缓激肽翻转的重要促成因素。作为氨肽酶抑制剂的″apstatin″是肌肉细胞保护的候选药物。
COX-2选择性抑制剂(Celecoxib):3
此化合物对于心血管的影响是复杂的。一方面,此药物的使用会减少造成血管损害与动脉粥样化血栓的炎症性因素。另一方面,由于其减少″vasodilatory″与″antiaggregatory″趋血栓阻塞性形成(prothrombotic production),因此服用此药物会导致血压上升以及趋血栓阻塞性活动。因此见到从不同实验所得的所有相互对立的结果并不令人惊讶。由于其在计算机筛选中的排名,″Celecoxib″是用于测试其在活体中对于心室肥大的影响的候选药物。
5-LOX抑制剂(Licofelone):4
5-LOX抑制剂象征一种具有抗血小板、抗白血球以及抗炎症性的特性却不具有Cox-1对于胃的副作用以及Cox-2的血栓形成风险的新化合物。″Licofelone″现已针对骨关节炎进行到第三阶段的临床研究。
血栓素A2受体对抗药(thromboxane A2 Receptor Antagonist)(Sultroban):3
TXA2是一种有效的血管收缩剂以及血小板聚集与释放的强力诱导物。其与前列腺素相比具有调节血小板的相对机制。相对于在正常的心脏中,血栓素受体密度在受损的心脏中显著的增加,其暗示出血栓素受体代表显著的治疗目标。TXA2酶素抑制剂或TXA2受体抑制剂可能对于心肌症的患者有所助益。
褪黑激素(Melatonin):2
褪黑激素是最为著名的脑部松果体生成物。其它所为人熟知的角色是用作直接影响昼夜节律的抗氧化剂,其在人体中扮演相当角色。由近十年所得的证据显示出褪黑激素影响心血管系统。动脉与心室受体的存在已被证明。褪黑激素还可促成心脏衰弱缺血后的心脏保护作用。依据已完成少数关于褪黑激素的安全性、副作用、与药物的相互影响以及长期效果的研究,褪黑激素当前在一定程度上并被视为药物。
下面的其它候选化合物是利用依据本发明的系统识别出来的。
吗啡:
吗啡是一种鸦片缩氨酸(opioid peptide),其可发挥重要的心血管功效。特定鸦片受体的作用导致有效的心脏保护作用,以减少实验动物的梗塞的范围并减少在孤立的心肌细胞中的细胞死亡。此药物可能被限制于短期间或紧急使用。
那诺松(Naloxone):
那诺松是一种鸦片类对抗药(opioid antagonist)。在正常情况下,除非预先已控制鸦片否则其将产生少量的效果。然而,内生的鸦片系统在如在心肌衰弱的梗塞或扩展的心肌症等特定形式的压力下会被活化,那诺松会阻止吗啡系统的心脏保护作用。其对于疾病具有负面的影响。如前所述,那诺松在计算机筛选中所预测的正面效果已在活体中予以证实。
华法令/肝素(Warfarin/Heparin):
此两种药物阻止作用的凝血因子,而因此具有抗凝血的效果。由于心肌症患者具有血栓性栓塞症的风险,warfarin以及heparin是用于预防中风与末梢栓塞的候选药物。这两种药物已被报导对于扩展的心肌症有所帮助,特别是伴随心房纤维颤动(atrial fibrillation)。
皮质醇(Cortisol):
皮质醇是在人体中主要的糖皮质激素。皮质类固醇具有多种且广泛的效果。在心血管系统中,皮质醇的的攻击效果是用以诱导高血压以及高血压的心肌症,尽管其基础机制是未知的。皮质醇是一种抗炎症性以及抑制免疫力剂,其可以抑制淋巴球进入造成心肌症的第二期。然而,当前许多的临床对于糖皮质激素的使用是依据经验方法,而不是依据对于该药物作用机制的详细理解。皮质醇在先前已被提出关于扩展的心肌症的治疗。此疗法并未显现出具有临床上的重要效果且与重大的并发症有所关联。针对其目前的应用,当前并不建议作为例行的临床使用,但是针对新的功效,伴随新的剂量疗法,此化合物的使用是可能恢复的。
例示2.评估连接:间接连接与β连环素(beta-catenin)
本发明的系统所欲达成的另一个任务是显示现今有多少介于对象间直接与相关的关联曾经是间接的关联。可以想象可通过两种方法发现知识:(1)重新发现;或(2)依靠先前的知识。重要的是,重新发现可能是偶然的或可能在经过结构化的随机测试方法而达到并非所期望的连接时出现。同样的,先前的知识导致明确的假设(如A与C相互影响)或隐含的假设(如一个具有特定特征/特性的目标与多个可在测试所有的候选药物后被发现的可能的候选对抗药相互影响)。
从历史角度观之,知识发现已由两种类型发现予以构成。通过以知识为推论所达成的发现可通过将一对象与它对象间的关联分类予以评估。在任何假设的时间点,一个对象应该具有一些与其它对象间的直接关联以及一些与其它潜在对象之间接关联。若假设某些数量的间接关联会如同直接关联般的被发现,接着下一步骤则是测量与评估有多少在历史上的间接连接最终变成直接连接。
举例言之,假设在1995年时,A(基因)被发现到与B(疾病)产生关联。在此时已知B与C(显型)有所关联。可以依据该关联的种类合理地推测介于A与C之间有所连接。或许该显型见诸于其它的疾病而该疾病是A所直接或间接导致的。因此,该A至C的连接可通过额外的分析或研究而明显与确认。另一方面,该关联可能并不明显(如该关联在该时期并未呈现相关性)。这就是本发明的系统所关注的方面。
本发明的系统将通过如下所述的另一种分析提出测试。
利用关键词″beta-catenin″自MEDLINE来源下载至少大约1,270篇摘要的群组。″beta-catenin(β连接素)″是有关于哺乳动物上皮中黏着接合的组成且其基因位于人类染色体3p21,该区域具有多个至肿瘤形成的链接。就此分析而言,对象为″n″而与该对象直接相关联的对象为″n+1″。直接与″n+1″对象相关联但与n隐含的关联称之为″n+2″。图20A显示总关联数在时间上如何成指数方式的增加;图20B显示有多少在现今观察具有直接关联的对象在较早的几年中仅具有间接的关联,可能是通过中介(不同中间物的数量并未显示)。因为部分连接可能是假的,因此建立下游连接所需的最小观察数量在1至3间变化。介于n与n+1间的最小关联数量保持为1,以增加对于新发现的敏感性并允许可能建立的下游连接的发现。当放宽最小观察要求时,对象的总数量会增加。通过利用现今的直接连接来评估有多少在较早时期所存在的未发现的间接连接,当该区线愈接近现今时该区线必然地降至零。
从中完成测试集合分析的数据集合(如文献)被称之为主要领域分析(PDA)。该主要领域分析集中在一个基于关键词的主题(一般是文本);当利用主要领域分析时,所有间接与未发现的关联独自地从该数据集合中取得。任何的关键词通常会落入三种一般类目其中之一,该三种一般类目包括:(a)是该数据或记录的主要特征/对象;(b)是该数据或记录的次要因素;及/或(c)与该数据或记录保持略为触及的关联。在图20A与图20B中显示的作用会依据对象被发现时已知的连接数量而改变。当检索超越主要领域分析时该间接连接的数量会增加(如通过结合大量在主要领域分析外的现有知识、信息及/或数据)。如图21A至图21D所示,与现今关联的间接连接的百分比随着时间而降低。所观察到的降低其原因可能是没有足够已过去的时间来显示关联或是因为最早的直接关联是最强的。在图21A至图21D的图表中还显示通过仅增加少数的间接连接,则总连接的数量即大幅的增加。在此的增加,接着会增加针对识别下游连接的严格度而大幅的影响之后发现成为直接连接的间接连接的数量。
为分析在连接频率中的改变,所有具有之后会变成与β连接素产生直接连接的初始间接关联的对象均会被检查。对象包括那些具有n+3的网络距离以及存在于1997年之前的数据库中的对象。通过本发明的系统所检索出的对象清单通过至β连接素的唯一路径以及用以确认连接所必要的最小观察数量(亦即在相同句子中该对象的同现)而列于表23中。此分析利用在图21A至图21D中同样的最小数量观察参数。
表23.在1997年与β连接素间接连接及在2001年直接连接的对象
的子集合
对象名称 |
对象 |
唯一路径 |
唯一路径 |
唯一路径 |
EGFR |
G |
29 |
36 |
58 |
Pemphigus |
D |
25 |
29 |
48 |
Vanadate |
SM |
21 |
25 |
41 |
PTPRU |
G |
21 |
25 |
90 |
Oxide |
SM |
21 |
25 |
72 |
Adhesions* |
D |
21 |
29 |
36 |
Frizzled |
G |
15 |
17 |
29 |
TCF7 |
G |
5 |
5 |
5 |
Lithium |
SM |
4 |
5 |
20 |
Hh |
G |
4 |
4 |
4 |
Glycogen Synthase | |
3 |
8 |
11 |
Guanine |
SM |
1 |
1 |
1 |
Connexin |
G |
1 |
4 |
39 |
Sarcoma | | |
44 |
66 |
IVL |
G | |
36 |
43 |
Recurrence* |
D | |
36 |
43 |
ES |
D | |
36 |
99 |
Phorbol |
SM | |
36 |
82 |
Complement |
SM | |
29 |
51 |
Collagen |
SM | |
16 |
74 |
Death* |
D | |
12 |
22 |
Ester |
SM | |
1 |
82 |
Phosphoserine |
SM | | |
77 |
SDS |
G | | |
75 |
Adenocarcinoma |
D | | |
48 |
ERBB2 |
G | | |
43 |
Keratin |
SM | | |
43 |
PKC |
G | | |
41 |
Plasmid |
SM | | |
40 |
HCCS |
G | | |
32 |
Neuroblastoma |
D | | |
21 |
p105-Rb |
D | | |
21 |
NODAL |
G | | |
15 |
Cytokine |
SM | | |
15 |
CINND1 |
G | | |
14 |
ASK* |
G/D | | |
9 |
Acetate |
SM | | |
5 |
Progesterone |
SM | | |
5 |
SEA |
G/D | | |
5 |
N* |
G | | |
4 |
Bp* |
D | | |
3 |
IGF1 |
G | | |
3 |
Epitope* |
SM | | |
1 |
HCC |
D | | | |
*=不确定值的项目原因在于其表示具有与所使用的常见单词相同名称的对象或是其在范围或种类上非常广泛(如death,adhesions) |
检阅表23,发现EGFR(表皮细胞生长因子受体)是在1997年以前与β连接素之间具有间接连接数量最多的三个对象之一。在该连接链中,时间回到1992年发现E黏着蛋白(E-cadherin)具有与β连接素相当强的关联。而β连接素与E黏着蛋白间具有分子的关联,通过与肌动蛋白细胞骨架(actin cytoskeleton)以及E黏着蛋白的相互影响,当暴露于表皮细胞生长因子受体中时其会自细胞外矩阵脱离。因此,该29个唯一路径中的每一个路径通过该经由不同中介所产生的表皮细胞生长因子受体与E黏着蛋白间的关联而具有间接的β连接素与E黏着蛋白间的分支。本发明的系统显示当表皮细胞生长因子受体被发现磷酸化(phosphorylate)β连接素时,第一次表皮细胞生长因子受体与β连接素相互间产生直接的关联是在1997年7月。有趣的是,在此日期之前,有一笔链接表皮细胞生长因子受体至β连接素的记录,然而,其是通过表皮细胞生长因子而非表皮细胞生长因子受体。该系统从报告中识别出表皮细胞生长因子与β连接素间的连接,但不理解介于表皮细胞生长因子与表皮细胞生长因子受体间的关联。该系统所识别出并分类于对象关系数据库中的β连接素与表皮细胞生长因子受体间的连接显示于表24。为确保没有任何在1997年之前建立连接的指示代名词,MEDLINE针对关键词″beta-catenin″以及″EGFR″予以检索
表24.与″beta-catenin″关联的间接对象的目录
″beta-catenin″以及″EGFR″ |
<UID=99061547><date=19981200> |
Focal adhesion kinase was tyrosinephosphorylated more by basolateral than by apicalegfr;however,beta-catenin was tyrosinephosphorylated to a much greater degreefollowing the activation of mislocalized apicalegfr. |
<UID=98316577><date=19980000> |
To assess the specificity of this expression,124 ofthe 228 lines were crossed to strains containingeither an activated form of armadillo,thedrosophila homolog of beta-catenin,or anactivated form of torpedo/egfr,the drosophilahomolog of the epidermal growth factor receptor,under the control of gal4 target sites. |
<UID=97377008><date=19970703> |
Tyrosine phosphorylation of beta-catenin wasconcomitantly induced with association ofbeta-catenin with egf receptor(egfr)whenquiescent cells at confluence were dissociated intosingle cells by tryptic digestion,beingaccompanied by dissociation of alpha-cateninfrom e-cadherin.( …)Both tyrosinephosphorylation and association of beta-cateninwith egfr were inhibited by tyrphostin,a specificinhibitor of the egfr tyrosine kinase,whereas |
|
dissociation of alpha-catenin from e-cadherin wasnot.{…}The results suggest that tyrosinephosphorylation of beta-catenin is achieved byegft upon tryptic digestion of cells and concurrentwith but independent of dissociation ofalpha-catenin fr om e-cadherin. |
Beta-catenin以及pemphigus |
<UID=981Ta80797<date=19980200> |
Ultrastructural localization of cell junctionalcomponents(desmoglein,plakoglobin,e-cadherin,and beta-catenin)in hailey-haileydisease,darier′s disease,and pemphigus vulgaris. |
<UID=98180797><date=19980200> |
The distribution of desmoglein,plakoglobin,e-cadherin,and beta-catenin in the peri-lesionaland lesional skin of hailey-hailey disease,darier′sdisease,and pemphigus vulgaris was examined byimmunoelectron microscopy. |
Beta-catenin以及vanadate |
<UID=98076315><date=19971000> |
The concomitant administration of na vanadate,an inhibitor of tyrosine dephosphorylase,inhibitedboth the atra-induced clustering and thedephosphorylation of beta-catenin tyrosine. |
<UID=97465729><date=19971000> |
Inhibition of dephosphorylation of beta-catenin inearly passage cells by vanadate,an inhibitor ofprotein tyrosine phosphatases,caused overgrowthof cells beyond the saturation density and loss ofalpha-catenin from the e cadherin-beta-catenincomplex. |
Beta-catenin以及frizzled(仅显示最早出现的三个共同提及) |
<UID=98374323><date′19980818> |
A novel frzzled gene identified in humanesophageal carcinoma mediates apc/beta-cateninsignals. |
<UID=98263950><date=19980507> |
Frizzled receptors transduce a signal todishevelled,leading to inactivation of glycogensynthase kinase 3(gsk3)and regulation of geneexpression by the complex of beta-catenin withlef/tcf(lymphocyte enhancer factor/t-cell factor)transcription factors. |
<UID=97433081><date=19970822> |
elegans genes described here are related townt/wingless,porcupine,frizzled,beta-catenin/armadillo,and the humanadenomatous polyposis coli gene,apc. |
左手边的信息组包含通过程序附属至每一个摘要的标签以追踪来源以及日期;UID=唯一识别码。 |
第二个连接最常见的对象而与β连接素产生间接关联的是″pemphigus vulgaris″(慢性天疱疮),一种罕见,会影响皮肤与黏膜的起泡的自我免疫疾病(参见OMIM记录169610)。如同间接的″EGFR″连接,大多数中间连接共享一个常见的中介路径黏着蛋白与慢性天疱疮,第一个连接由1994年的记录建立。依据本发明的系统发现该关联直至1998年2月之前并未被建立。1994年的文献提及β连接素与天疱疮之间的关联;然而,该两个对象并未包括于相同的句子中,且是使用该疾病的缩写″PVA″而不是使用适当的单词。因此,由于假设是按照分析,因此该系统并未识别出该关联。
本发明的系统还发现″vanadate″(钒酸盐)与″Beta-catenin″之间的关联。钒酸盐是用于多种生物路径中的微小过度金属氧负离子(transition metal oxyanion),通常是酪氨酸磷酸酶的抑制剂。介于该二对象间的强有力的连接通过介于酪氨酸与钒酸盐间的中间关联予已发现。该中间关联是在1995年2月第一次被提及且之后又被提及几次。介于β连接素与酪氨酸的连接也在早于1992年12月即频繁的被观察到。此外,直到1997年10月β连接素与酪氨酸才被第一次提及。
″PTPRU″是U型蛋白质酪氨酸磷酸酶受体的缩写,在″HGNC″数据库中,缩写字″PTP″以″PTPRU″的同义字被列出,其可能不是完全的精确,因为″PTP″或″Protein Tyrosine Phosphatases″(蛋白质酪氨酸磷酸酶)与″PTPRU″虽有关联但却是截然不同的对象。因此,本发明的系统实际上在先前所建立与钒酸盐的中间关联中已识别出介于β连接素与″PTP″间的关联,亦即与酪氨酸共同操作的蛋白质。
β连接素具有与″wnt″间的强关联且因此与″wnt″相关联的基因与β连接素共同被提及并不令人意外。β连接素与″gene frizzled″(基因卷曲)间的间接关联通过″wnt″与″wingless″二者展开且该基因直接与″LEF-1″、″APC″、″JUP″以及″dsh″相关联。介于β连接素与″wnt″间的连接早在1993年10月的文献中即被提及。介于″wnt″与″frizzled″间的连接则更早被知悉,但其却是在1996年(记录中未给出月份,因此本发明的系统采取较为妥当的方式将日期预设为一月一日)的此摘要集合中被第一次提及。
″Beta-catenin″与″frizzled″是在1997年八月第一次被共同提及,但仅是在与研究线虫(C.elegans)相同的关于基因的清单中。直至下一篇共同提及,这二者的摘要在1998年5月发布时其功能性的关联始变得显著。针对这两个术语的摘要检索确认在1997年前不具有直接关联。
必须强调的是,依据本发明的系统数据库可持续地被精练。举例而言,在诸如刚才的分析执行之后,多余的关联可从该数据库中移除。
例示3.系统的确认:糖尿病与非遗传性
显然的,已显示出依据本发明的系统在疾病、基因、显型以及化学物质化合物(统称为″对象″)的名称与同义字出现在如MEDLINE等来源的标题与摘要中时可识别出该名称与同义字。本发明的系统还可解析缩写字以避免术语的混淆。
在另一例示中,所有的MEDLINE记录(在2002年1月的至少大约12,063,817笔记录)通过本发明的系统予以处理以构成广泛的对象关联网络。接着评估对象集合中共享的关联,其中包括介于两个其它非已知具有关联的对象间所共享的关联。这些隐含的关联用以识别新的关联。举例而言,在科学与技术中,该新关联有助于理解疾病病原学的机制、药物作用、新疗法、诊断方法以及可作为用以筛选一个或多个对象的符合成本效益的方法,特别是介于疾病成因与疗法间相关的关联。
非胰岛素依存型糖尿病(NIDDM)是一种全球逐渐普遍的疾病,特别是在美国,其中在1991年至2000年间新患者数量增长49%。NIDDM的经济成本是非常巨大的,在1997年评估为980亿美元且影响美国6%的人口。NIDDM主要的特征在于胰岛素抵抗以及高血液葡萄糖浓度且经常与葡萄糖耐受不良(Glucose intolerance)、高胰岛素症(hyperinsulinemia)、高胆固醇症(hypercholesterolemia)以及高脂血症(hyperlipidemia)有关。许多与NIDDM形成的风险相关的因素已被识别出来,但是因果关系被证明是难以理解的。NIDDM因此被称之为″综合性″失序症(″complex″disorder),被认为介于环境影响与基因背景间综合性相互影响的结果。迄今,并未有报告指出介于NIDDM的病原与如DNA甲基化反应状态改变或核染色质缩短等外遗传改变间有所关联。
DNA甲基化反应是在真核生物(eukaryotes)中基础的重要现象,其用作区别主体DNA与外来DNA的机制,以确认哪个DNA的组成部分是新复制者并用以提供核染色质缩短的讯号以至于可钝化转录程序,其是在正常形成过程中特别重要的方法。随着在某些肿瘤中已知一些基因因为甲基化反应的丧失而难以控制,在控制的DNA区域中甲基化反应的丧失已成为癌症中积极研究的领域。尽管DNA甲基化反应的丧失可由化学的方式(如通过5aza-2’-deoxycytidine)引起,但是存在于环境中的何种因素会具有相似的效果仍不明确。
系统识别与NIDDM的新关联
本发明的系统用以识别并排列在MEDLINE中与第二型糖尿病(亦称之为非胰岛素依存型糖尿病(NIDDM))相关的对象。NIDDM被发现与数据库中两个特定的对象(″甲基化反应″以及″核染色质″(表25))共享许多关联。
表25.排名领先的具有与NIDDM共享关联的对象
| | | | |
观察到的 |
-- |
2105 |
NIDDM |
1421 |
329 |
4.32 |
1 |
1361 |
Endotoxin |
1054 |
308 |
3.42 |
2 |
1312 |
Hydrocortisone |
991 |
296 |
3.35 |
3 |
1301 |
Neuroblastoma |
975 |
339 |
2.88 |
4 |
1287 |
Methylation |
959 |
346 |
2.77 |
5 |
1256 |
Chromatin |
938 |
339 |
2.77 |
表25显示与NIDDM(显示在顶端作为针对询问的正向控制)间具有隐含的关联的前五个对象(基因、疾病、显型以及小分子)。这些对象并非已知(在MEDLINE中)与NIDDM间具有直接的关联且通过许多共享关联的功效而与之具有隐含的关联(请参阅图22)。每一个隐含关联的种类将会变化且必须通过中间连接的审查予以确认。″Expect″是期望值且表示有多少共享的关联是被期望的,且假定具有相同特性的随机连接的关联网络是以文献取得为基础。″Quality″是分数以及依据同现对象的频率在统计上表示实际关联的共同提及的数量的评估。″Implicit Relationship″可依据最多共享的关联(在此所处理的是用以识别广泛与重要的趋势)、依据任何给定的关联集合的期望程度(依据实际/期望分数的排列)或是依据前述二者的结合(未示出)而予以优先化。
科学人员在假设介于对象间的新关联时所面对的首要阻碍是常见关联的察觉。认为存在有用以假设介于外遗传改变与NIDDM间的新关联的推论,仍然必须阅读与识别24,752篇关于NIDDM的文献以及25,338篇关于甲基化反应的文献以识别常见性(该数量是在2002年7月通过MEDLINE关键词询问所确认)。需要一种用以收集如此规模的数据的信息方法。
通过确认与NIDDM相关的MEDLINE文献的整体,本发明的系统通过NIDDM与其它对象在相同期刊摘要中的同现识别出NIDDM与其它对象间所有的隐含关联。在文本中本发明的系统可识别出的33,534个唯一对象中,总数2,105个对象被发现与NIDDM有直接关联。本发明的系统接着针对与该2,105个对象有直接关联的所有对象分析MEDLINE,移除那些已经列于直接关联清单的。产生出的清单包含已知的仅为隐含的关联,其用以说明在MEDLINE标题与摘要的主体中并未发现介于两个对象间的关联。这些隐含的关联接着通过本发明的系统依据其相互间所共享的关联数量、每一个关联的相对强度、关联的品质(每一个关联有效的统计上的几率)以及该两个对象偶然的共享关联集合的可能性予以评估,已知在网络中两个对象的相对数量及其共享的中介。
并未在″methylation″和NIDDM间共享的所有1,287关联都需要因果关系,相关性或甚至有意义,但是很多是这样。总的来说,这些关联提供证明在外遗传控制与NIDDM之间存在关联,这然后被用来发展一种关于NIDDM的外遗传病因学和发病机理的更综合的理论。
NIDDM共享关联
如图23所示,本发明的系统识别出一些发作的常见显型以及还与和甲基化反应状态相关的疾病共享的NIDDM病理。这些共享的关联提供关于一些不容易通过环境或基因突变模型予以解释的NIDDM令人困惑的特性的观察。举例而言,NIDDM是一种具有可变与晚发性、通过如X链接基因的异常表现等DNA去甲基化反应(hypomethylation)链接至某些外遗传失序的显型、杭丁顿氏症的发作以及肿瘤的生成等的疾病。并非所有晚发性的疾病均起因于外遗传的改变,但多数其它共享的显型异常是该疾病所独有的,如在帕金森氏症中阿兹罕莫与列维体中淀粉前驱蛋白质(amyloid precursor protein)的累积。NIDDM与肥胖以及前行性糖化终产物(advanced glycosylation end product;AGEs)有高度的关联但既非其形成的要件亦非该疾病所独有者。NIDDM的严重性会产生变化,通常随着时间而增加。其严重性的增加与某些在激活子序列(promoter sequence)经过甲基化反应改变的肿瘤所共享的显型,进而导致更高的基因表现与更具侵略性的显型。另一个关于NIDDM有趣的观察是在母性效果(maternal effect)中NIDDM患者描述到母系方面具有糖尿病的历史的频率较高。
这种影响当在形成期间DNA序列的重新甲基化反应是由于母系的影响时可予以解释。这种显型,事实上已在老鼠身上观察到。
本发明的系统还识别出一些新陈代谢在主体甲基化与NIDDM存在或易患NIDDM相关的DNA的能力上有所改变。举例言之,已发现在NIDDM患者高半胱胺酸(homocysteine)的程度会提高,并与由死亡率所界定的疾病严重性的增加相关联。高半胱胺酸细关键的新陈代谢中介负责执行甲基化反应,且其免疫血清程度的提升还与DNA去甲基化反应相关。也有报告指出缺硫(sulfur-poor)的饮食会迫使通过蛋氨酸所产生的半胱氨酸合成使个体在生命后期也产生第二型糖尿病。由于蛋氨酸会影响″S-二磷酸腺苷(SAM)″,SAM用于新合成DNA的甲基化反应的甲基供体,这些个体随着重新建立DNA甲基化反应样本能力的减弱而形成。导致甲基化反应路径不足的基因因子还显示在易形成NIDDM的个体上。已知在甲烯基四氢叶酸还原脢(methylenetetrahydrofolatereductase;MTHFR)中的多态现象(polymorphism)(C677T)会降低其本身的效果,导致整体的DNA去甲基化反应。具有这种突变的个体也容易形成NIDDM以及其它新陈代谢综合症状的并发症。
已显示出异常的甲基化反应样本会导致另一种糖尿病型态的糖尿病症状,暂时性新生儿糖尿病(Transient Neonatal DiabetesMellitus;TNDM),其是基因印痕的结果。相同的印痕区域是TNDM产生的原因,然而,并不知道NIDDM产生的原因。若外遗传改变是NIDDM产生的原因,接着自然会产生三个问题:首先,哪一个未知的因素是NIDDM显型产生的原因?其次,哪一个导致NIDDM显型的组织类型是表现出该因素的原因?再者,哪一个环境因素会导致甲基化反应的丧失并进而造成该未知的因素的失调?
观察到针对第一个问题的答案来自表25中系统清单上评分最高的隐含关联对象,亦即″内毒素″(endotoxin)。尽管不知道内毒素与NIDDM有关联或会导致NIDDM,其已显示出会导致肥胖与胰岛素抵抗。多数介于NIDDM与内毒素间所共享的关联是影响或涉及免疫反应的对象,特别是细胞激素与炎症性因素。前炎症性细胞激素程度的提升已在NIDDM患者中发现,与肥胖具有正向关联,如″TNF alpha″等的某些因素发现会导致胰岛素抵抗。更确切而言,证明细胞激素,更具体而言是前炎症性细胞激素产生NIDDM显型的原因的主体不断的增加。举例而言,已观察到NIDDM症状的反转可通过高剂量的阿司匹林将炎症性予以分解而实现。″Troglitazone″是用于治疗NIDDM的药物,也已发现具有抗炎症性的特性,且依据运动与饮食等生活方式的改变而改变对于NIDDM患者的处方已成功的反转NIDDM显型且也与炎症性细胞激素的减少有关联。
由于有证据显示前炎症性细胞激素是导致NIDDM的因素,因此识别其来源是令人关注。除B细胞(B-cell)与T(T-cell)细胞外,脂肪细胞(adipocytes)与内皮(endothelial)细胞是已知仅有的其它种类的可正常产生细胞激素者。在T细胞中,细胞激素表现通过DNA甲基化反应样本予以确认且可以脱甲基剂代替。由于T细胞与B细胞在其新的或因经验而造成的不停的行为修正(memory)的形式中并不太进行代谢活动且其较活跃的分化形式是相对短暂的,因此这二者不太可能成为候选药物。然而,脂肪细胞主要的脂质储存单元并产生与如其体积或周围的肥胖程度等因素成比例的细胞激素。有趣的是,研究显示短链脂肪酸(short-chain fatty acids;SCFAs)提升活跃的转录区域的甲基化反应。短链脂肪酸还通过阻止HDAC影响核染色质结构,导致组织蛋白的高度乙醯化(hyperacetylation)并令DNA区域更易受转录因子的影响。在脂肪细胞中短链脂肪酸通常不会呈现高浓度,但通常是储存于脂肪细胞中的长链脂肪酸的代谢副产品。在脂肪细胞中较高数量的短链脂肪酸代谢可能提供可能出现DNA甲基化反应丧失的环境,且与活跃的转录活动相结合会导致去甲基化反应并进而造成导致NIDDM形成的细胞激素或类细胞激素因子的失调。在胃束带外科手术执行前与执行一年后观察二十名女性的IL-6与TNF-alpha的程度。在此,其它造成肥胖的的因素如C反应蛋白的程度会降低,但IL-6与TNF-alpha的程度却不会降低。
在提出的模型中,在脂肪细胞中NIDDM病因的出现,意味着在由脂肪细胞所正常分泌的细胞激素或类细胞激素的激活子(promoter)周围DNA甲基化反应逐渐的丧失。甲基化反应的丧失在肥胖所造成的环境下是有利的且是通过转录的活动而产生。随之而来的甲基化反应丧失导致这些因素的失调,并产生在通过脂肪细胞所产生的细胞激素中构成分子的增加。负向调节因素可减少这些因素的表现,使NIDDM显型的管理成为可能,但只要它们存在。
用于本发明的总体细胞试验的例示可为以下的一个或多个基因(包括GenBank参考识别符):FIZZ?(NM.sub.--020415);IL-6(NM.sub.--000600);TNF-alpha(NM.sub.--000594);Leptin(NM.sub.--000230);IL1beta(NM.sub.--000576);IFN-gamma(NM.sub.--000619);L-4(NM.sub.--000589);PPAR-gamma(NM.sub.--005037);STAT3(NM.sub.--003150);NF-KappaB(NM.sub.--003998);IL-8(NM.sub.--000584);IKK-beta(XM.sub.--032491)。利用甲基化反应阵列通过监视这些基因的一个或多个甲基化反应,可评估包含一个或多个甲基化反应前导的营养补充剂的效果以显示个体在NIDDM或细胞的对位性基因体甲基化反应样本的提升的风险上的影响。
NIDDM的病因模型
这一新提出的模型是以三个现存针对NIDDM的病因与发病的模型为背景予以检视,该三个模型是:基因、环境以及这两个因素的复合的相互影响。
基因研究已显示遗传在确认个体形成NIDDM的风险中扮演一定的角色。尽管投入大量的人力,且在连锁研究中已描绘出一些潜在易受影响的区域,但仍然无法成功地识别出造成最普遍的NIDDM形式的特定的基因或基因集合。介于肥胖与NIDDM间已知的关联还指出环境的变量影响NIDDM的显型。然而,环境的变量是有关联的而非成因。主要的理论认为NIDDM的发作是由一个或多个环境的变量在具有许多促成基因的基因背景中作用所导致者。此理论解释NIDDM是如何受到如人种等基因背景以及如饮食与运动等环境的变量所影响。其它关于NIDDM种类的观察显示该复合的模型不能解释但外遗传模型可以解释:考虑时间因素以及系统记忆。
即便当环境的变量呈现于易受影响的基因背景中,该NIDDM的发作仍然考虑时间因素。亦即,形成NIDDM的风险与年龄确实具有关联。除非在假设迄今为止仍未知的触发事件(如感染)的情况下是很难通过复合的疾病模型予以解释。即便其为真实,仍然无法解释NIDDM在发作后持续的现象。NIDDM通过患者所遭受的胰岛素抵抗以及葡萄糖耐受不良的程度予以诊断,该程度可通过生活方式的显著改变而转换成前期糖尿病程度。然而,NIDDM是无法反转的。现有的模型中不具有造成主体可″记忆″其状态的机制者。然而,基因的甲基化反应状态被视为相对的持续现象,并用以使细胞进入分化(differentiated)状态。已知DNA甲基化反应与年龄相关,则位于基因组中的甲基化的数量由遗传所决定,且甲基化反应的丧失会受到环境变量的影响,似乎所提出的外遗传模型应予以认真的考虑。
与以突变为中心的模型相反,其假设依据在DNA中的细胞体或遗传的突变其中之一而改变功能或活动,外遗传模型包含单一基因或基因集合的失调。由这些基因的表现所导致的显型在其它的生理状况下会符合生物学上的意义。当考虑免疫系统功能的背景通过诱导胰岛素抵抗以防止能量进入细胞内是合理的。如先前所讨论者,细胞激素的表现会诱导NIDDM症状,特别是前炎症细胞激素,如IL-6、TNF-alpha以及IL-1b等。在病原体能复制的期间以B-细胞成熟为形式的后天性免疫以及抗体生成要耗费时间。一部分的早期抗体反应包含在循环的血液流动中前炎症细胞激素存在的增加。这些早期反应的其中一个功能会阻止如同葡萄糖进入细胞中般的物质的进入以防止其为无效的病原体利用是合理的。由于脂肪细胞包含大量的能量储存单元,这会使其成为无效的病原体的理想目标且会迫使其超越其它细胞体的细胞在对抗感染上更为积极。
最后,若为正确,则此理论将提供我们诊断患者当前外遗传朝向NIDDM进展的程度并提供以突变为中心的模型所无法轻易提供的NIDDM治疗的希望。虽然就特定区域甲基化反应如何能够再被诱导至受影响的区域仍不明确,但是由于在形成的过程中重新甲基化反应是正常的程序,则理所当然的是该机制如此的操作已经是适当的。
例示4.利用系统来识别西地那非(VIAGRA_)的新的治疗应用
利用本发明的系统,执行西地那非(VIAGRA_)的关联分析。在一种实施例中,此分析识别出介于大约1,000篇与西地那非相关的以电子档案形式存在于MEDLINE摘要中的关联。此外,依据该药物与对象(如其它的化学物质、基因、药物、显型及/或疾病)的关联针对该药物的新用法予以评分与评估。仅审查前50高分的关联,本发明的系统识别出多个该药物潜在的替代用法。如所预期的,最高分的关联是那些已在先前提出与抗高血压药物有关的。
与气喘的关联(278个共享的关联)
在系统的前20个识别出与西地那非的关联中,有多个关联与气喘以及用以治疗气喘的化合物(亦即肾上腺素以及茶碱)。有趣的是,cGMP-5是一种在肺脏及阴茎组织中大量存在的酶素。此外,已观察到使用西地那非可改善具有慢性阻塞性肺部疾病(Chronic ObstructivePulmonary Disease;COPD)的患者的呼吸。本发明的系统已发现如同血管扩展剂般,西地那非可降低与肺泡压缩有关的症状的潜在关联。其它的证据(如在肺部组织中目标酶素″PDE5″的控制地位)支持此识别出的关联以及此药物用于额外的治疗(且尽管其效果尚未被确认,在个体患者中所存在的某些生理状况可能会排斥其它药物的使用,其中西地那非可能会呈现优选的治疗效果)。
与动脉硬化的关联(268个共享的关联)
本发明的系统还识别出与动脉硬化的潜在关联。在此,有多个由西地那非所诱导的血管改变及其针对动脉硬化风险因子的潜在治疗用法之间的关联。其中一个风险因子为高血压。尽管利用西地那非治疗是不切实际的,但其确可暂时性地缓解高血压(如增加末梢血管的血液流量),且因此该风险因子与动脉硬化产生关联。
与偏头痛的关联(216个共享的关联)
介于西地那非与偏头痛间的关联是不甚明确的。多个具有选择性的血管收缩特性的制剂,如″triptans″(经由″5-HTlb″受体的腊粉(Sumatriptan)),是用以治疗偏头痛;然而,其它的抗偏头痛制剂并非通过血管收缩操作(血管收缩可能有关联或为其成因)。尽管头痛是西地那非(以及其它血管舒张继)常见的副作用,偏头痛(一种唯一且特定的头痛类型)通常并非被归类为此药物的经常性副作用。可能是西地那非的低血压效果实际上抵消在偏头痛背后未知的机制。本发明的系统识别出介于持续的偏头痛与同时存在的高血压间的候选关联。
与痉孪的关联(220个共享的关联)
本发明的系统识别出介于西地那非与痉孪一般的关联(并未使用过滤机制以区别痉孪的不同的临床类型,如平滑、骨骼以及心脏肌肉或微巨血管(microor macrovasculature)等)。同样的,存在有介于西地那非以及所识别出的肌肉群组的突发焦点收缩间的关联。有趣的是,西地那非起初针对利用增加至心脏的血液流量的冠状动脉心绞痛治疗予以评估。分析提供西地那非作为控制痉孪的作用的假设。先前假设该药物通过限制血液流量(通过伤害、局部缺血或痉孪)影响心绞痛。
因此,本发明的系统专注于针对识别多个且先前未知的对象使用的研究并提供更有效率的技术与财务资源利用。其还可识别出该先前未知的对象可相互影响的潜在机制。
通过本发明的系统所进行的分析通过改变中间(共享的)关联的数量而产生与西地那非相关联的一些对象。关联通过直接强度分数予以识别。图24是简化所识别出的纯粹的隐含关联的图表,其中其以图表中较小或不存在的长条予以显示。已知的关联包括本发明的系统所识别出的相关关联以提供用户信心的评估,以及何对象可在如MEDLINE等来源中予以识别的概念。本发明的系统自通过实际文献的强度对于共享关联的分析所取得的分数关联从表列与标绘在评分图表的评分矩阵中予以取得。如图24所示,该最强的已知关联(勃起障碍是偏离图表左边的刻度)与本发明的系统仅利用该共享关联所指派的分数相关联。缺口指示隐含关联的存在。通过本发明的系统所产生的最后输出的″共享关联″包含许多连接西地那非与先前所提及的对象的关联的清单。介于如有助于治疗病理状况的药物等对象间额外的共享与隐含的关联系显示于图25中。图25中识别出许多针对多个询问的对象在先前不相关的新的隐含关联。该询问对象包括经过美国联邦核准适应症治疗一种或多种人类的病理状况的药剂。该药剂包括″alendronate″、″atorvastatin″、″celecoxib″、″finasteride″、″fluoxetine″、″gemcitabine″、″indinavir″、″losartin″、″olanzapine、″omeprazole″、″pioglitazone″、″rofecoxib″、″sertraline″、″simvistatin″以及″tirofiban″。图25显示依据本发明的系统可轻易地识别出这些药剂新的用法,以针对这些药剂建立新的适应症与用法。
例示5作为对象群组的结合分析的例示的与乳癌相关联的基因的识别
取自乳癌微阵列的基因群组通过依据本发明的系统予以取得与处理,以确认基因常见分享的生物医学对象为何。这种类型的分析可有助于确认存在在基因集合中常见的主题或组件并引起对于特别异常的关注,此分析也可称之为结合分析(cohesion analysis)。在通过品质分数(是该对象被观察到与该集合的成员有关联的次数与针对每一个特定的观察的总体统计的错误率相乘之积)所排列的集合中,当涉及肌动蛋白重塑(actin remodeling)与转录程序的起始时本发明的系统识别出这些基因的一部分。请参阅图27。再者,这些基因的部分具有反复的序列、暗示多态现象的几率以及择一的衔接位置,在择一的衔接位置的不同的衔接类型会导致乳癌或与乳癌有关联。在该清单中部分项目的关联可能并不显著,如蛋氨酸等,其可能与常见胺基酸间形成假性的关联,但移转性的乳癌肿瘤高度依存这种胺基酸且其耗尽会导致肿瘤专一性生长抑止(PMID 97194776)。这些基因的部分涉及蛋氨酸新陈代谢/分配且因此是候选药物目标。
当此清单通过实际/期望比例重新排列,本发明的系统以远大于基因在文献中的相对数量的比例识别出一些与该基因清单相关联暗示高度相关关联的基因。举例而言,ERBB4与3是可在正常与转化细胞的增长/变异中作用的细胞膜间酪氨酸激脢(transmembrane tyrosinekinases)且是表皮细胞生长因子受体家族的成员。若这些基因中的部分与ERBB3/4相关联,则将会高度暗示其在乳房组织的致癌基因转化中扮演重要的角色。此角色可能是非转录型的,且其是此微阵列分析在此分析阶段所不会侦测的。然而,微阵列数据可与取自其它数据来源(如Medline)的数据相结合以识别额外功能性的关联。
尽管本发明已参照说明性实施例予以揭露,但本说明书并非用以限制本发明解释的范围。本领域技术人员参考本说明书后,本发明的用以说明的实施例的不同修饰与结合以及其它实施例将变得显而易见。因此所附的权利要求将包含任何修饰或实施例。