CN101681351A - 用于知识导航和发现的维基化内容的系统和方法 - Google Patents

用于知识导航和发现的维基化内容的系统和方法 Download PDF

Info

Publication number
CN101681351A
CN101681351A CN200880017989A CN200880017989A CN101681351A CN 101681351 A CN101681351 A CN 101681351A CN 200880017989 A CN200880017989 A CN 200880017989A CN 200880017989 A CN200880017989 A CN 200880017989A CN 101681351 A CN101681351 A CN 101681351A
Authority
CN
China
Prior art keywords
computer
notion
relation
title
info
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880017989A
Other languages
English (en)
Inventor
克里斯廷·奇切斯特
艾伯特·蒙斯
尼古拉斯·巴里斯
巴兰德·蒙斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knewco Inc
Original Assignee
Knewco Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knewco Inc filed Critical Knewco Inc
Publication of CN101681351A publication Critical patent/CN101681351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本文公开了用于在知识发现过程中导航概念的系统、方法和计算机程序产品,该概念由知识分子在数据中发现。本发明利用数据源和工具来使得基于社区的贡献能用于识别知识分子所公开的概念之间的关联。本发明的方法使得概念映射到作者,以及获得了用于将相关的概念与知识分子和/或投稿人团体联系起来的工具。

Description

用于知识导航和发现的维基化内容的系统和方法
相关申请的交叉引用
本申请涉及下列申请人的共同未决申请,并要求下列申请的权益:
美国临时专利申请号为61/064345,在2008年2月28日提交的名称为“用于知识导航和发现的增强型系统和方法”;
美国临时专利申请号为61/064211,在2008年2月21日提交的名称为“用于知识导航和发现的系统和方法”;
美国临时专利申请号为____,在2008年3月19日提交的名称为“用于知识导航和发现的增强型系统和方法”;
美国临时专利申请号为____,在2008年3月26日提交的名称为“用于经由知识网络而进行的知识导航和发现的系统和方法”;
美国临时专利申请号为60/909072,在2007年3月30日提交的名称为“用于知识发现的方法和目标”;
美国非临时专利申请号为____,在2008年3月31日提交的名称为“数据结构,用于知识导航和发现的增强型系统和方法”;以上所述的申请原文通过参考而合并到本文。
技术领域
总的来说,本发明涉及用于知识网络的系统和方法,尤其是涉及用于在大量知识数据中发现的概念中进行导航的系统和方法,以方便知识发现过程。
背景技术
在当今的信息时代,信息正以惊人的步伐被创建着。例如,据估计在全球,公共互联网已经超过五百亿页信息,分布在超过1亿个网站上,并且每天都在增长。这样的增长不仅来自于网站操作者“正式”发布的新闻报道、科学研究、网络日志(或博客)等等,而且还来自于数量众多的公众。也就是说,互联网的海量数据的网页是由于各种“维基(Wiki)”类网站增长的结果,这些典型的协作式网站使得用户可以轻松地、通常没有太多限制的进行修改。(一个维基网站允许任何人使用一网页浏览器来编辑、删除或修改已经被放置在网站上的内容,该内容包括其他作者的作品。)
由于信息正以惊人的速度被创建,互联网服务中数据存储的一个合适的例子就是,定位和分析某些信息的相关部分从来没有像现在这样成为与人类社会的所有方面都相关的重要任务,尽管其仍是一个劳动密集型任务。由于大量信息已经被编码为自然语言文本,在大量文本库中发现相关信息的“金块”通常被称为“文本挖掘”。两个进行文本挖掘的主要方法最终发展成为——信息检索(IR)和信息提取(IE)。
信息检索:找到文档
信息检索问题与图书馆和档案馆的起源一样古老。一旦书籍或其它包含信息的媒介被存储,它们就必须被找到。目录和索引是用于访问大量收藏的通用工具。在计算机时代,很多文本被数字化,计算机工具被开发来在大量收藏中索引和检索文档。这些工具的使用者通常使用“关键字”或句子来查询数据库,传统的结果是被认为与查询相关的出版物的一个清单。例如,查询“查找讨论肺癌的新疗法的文件”将可能返回描述用于治疗肺癌的药物的临床试验的文件出处。
使用计算机用于信息检索的研究和发展可以追溯到19世纪50年代。多种算法和应用程序被开发出来,科学研究者每天使用信息检索工具,因为许多书籍目录和其他信息源可以在线使用。例如,使用Google或者yahoo!搜索网站就是典型的信息检索(IR)任务。从方法的角度来看,信息检索可以被分类为三种不同方法:布尔搜索法、概率搜索法和向量空间搜索法。
最广泛使用的一个生物医学书籍目录数据库是PubMed,该数据库使用布尔模型。例如,上述的查询将会被转换为类似于“肺癌AND疗法”的搜索。尽管PubMed对使用关键词检索提供了许多改进,但是它仍然受到布尔搜索的典型缺点的局限:非常具体的查询如“论文AND讨论AND新疗法AND肺癌”可能通常返回很少结果甚至于没有返回结果。而且,结果依赖于所基于的词和布尔查询,对结果基于相关性进行排序通常不可能。
概率搜索法和向量空间搜索法都提供了用来处理精确查询一个更复杂的工具。对于向量空间检索法,收藏的文档和查询都以在文本中最重要的词(即关键词)的一个向量来代表。例如,向量{论文,讨论,新疗法,肺癌}代表上述查询。数值代表分配的重要性。在文档和查询被转换为向量后,通常计算在查询向量和文档向量之间的角度。两个向量之间的角度越小,向量就越相似,或者,换句话说,这些文档越与查询相似或相关。向量空间查询的结果是在向量空间上与查询相似的一组文档清单。相对于布尔查询系统,第一个主要改进就是结果能够被排序。第二个主要改进是即使如果所有查询的词不都在任何一篇文档中,在大多数情况下系统可以仍然返回相关的结果。一般的,查询越精确或全面,结果就越精确。
信息提取:找到事实
当信息检索查询获得了一个与用户的查询潜在相关的出版物的清单时,用户仍然必需通过阅读获得的文献以提取相关信息。例如,回到上文查询的例子,用户可能不会感兴趣于简单的看到描述用于肺癌的新疗法的论文清单,而是可能更加愿意看到这些新疗法的实际清单。因此,投入了相当大的努力来研究信息提取的方法。
信息提取(IE)的一个重要方法是预定义某个事实或事实组合的模板。例如,一个生化反应不仅包括不同的反应物,还通常包括媒介分子(即催化剂)。此外,这种反应通常位于特定细胞上,甚至位于细胞的特定部分上。提取算法将首先搜索文本中提及一个或多个反应物的部分,然后例如通过将细胞类型的名称解释为反应位置,来试图填写模板。在许多情况下,需要使用高级自然语言处理(NLP)技术,因为不互换主题和目标是非常重要的。同时,还需要语义分析以提取需要的实际含义。句子“服用顺铂的肺癌患者显示出一些好转”并不意味着该药物顺铂是用于治疗肺癌的。有关顺铂是一种药物、以及肺癌是一种疾病的知识,将极大的有利于计算“顺铂治疗肺癌”的关系。对这种解释的计算工作量远远超过一般的信息检索(IR)的工作量,这就解释了为什么对信息提取(IE)的研究和发展仅仅是近年来在特定系统中才产生了足够精确的结果。
挖掘之外:发现
虽然数字记录信息的爆炸使得存储和检索让人畏惧,但同时也打开了用于知识发现的兴趣途径。贯穿人类历史,研究人员结合现有资料与预感制订假设,并随后进行检验。人类吸收信息的能力是有限的,但是,通过处理大量的信息以产生假设的计算工具在研究中非常有前景。这一领域中两种主要的方式方法被开发出来,即,相关发现和关联发现。
相关发现
Don Swanson教授的先驱研究获得了已通过实验证明的新的科学假设。参见Swanson,D.R.“Undiscovered public knowledge”,Library Quarterly,1986;56:103-118,其全部内容通过参考而合并入本文。Swanson的假设是如果一篇科学论文提及了A和B之间的关系,并且另一篇论文指出了B和C之间的关系,然后假设,A和C是相关的,这并不需要必须存在这种关系的实际记录。由于目前的科学是高度专业化和细分化,指出A-B关系的论文可能是专攻于C的研究者未知和不能理解的。例如,Swanson的第一个发现,爱斯基摩人的饮食中鱼类较多,摄入鱼油(A)中的脂肪酸被认为能降低血小板聚集和血液黏度(B)。爱斯基摩人因此有关心脏疾病的发病率较低。在一个不相关的研究雷诺氏疾病(C)的医学训练中,结果发现这类疾病的病人的血液黏度增高并且血小板聚集(B)。参见Swanson D.R.“Fish oil,Raynaud’s Syndrome,andUndiscovered publicKnowledge”,Perspectives in Biology and Medicine,1986;30:7-18,其全部内容通过参考而并入本文。鱼油可以改善雷诺氏疾病病人容易出现的症状的递推关系,在Swanson通过结合在两篇无相关性的科学成果中公开的信息用公式证明几年后,被得到了证实。在过去的几年中,不同的基于文献的利用相关性发现原理的发现工具被开发出来。然而,到目前为止,它们都处于实验阶段,用户友好性不强。
关联发现
另一个从现有数据推测新关系的方法是采用标准的信息检索工具。这种方法的关键问题是需要从一个文档世界到一个“目标”世界的转换。一个目标可以是代表一个概念或现实实体的任何事物。例如,描述某种疾病的文档可以合并或集合成对于这种疾病的典型格式。例如,向量空间模型可以很容易地适应这种转换。描述这种疾病的文档向量可以被合并为一个代表这种疾病的向量。在这种方式中,文档的集合可以转换为疾病、药物、基因、蛋白质等等的集合。使用这种方法,发现包括在向量空间中查找与查询目标相关联的目标。例如,如果查询目标是“肺癌”,并且这种查询是在药物目标的集合中进行的,查询的排序结果将不仅包括其中与肺癌一起提及的药物,还包括从未在这种疾病背景下研究过的药物,这种药物有可能假设用于肺癌的新疗法。类似的,在存储化学品和药品的目标数据库中使用代表雷诺氏疾病的向量进行的一个查询将可能获得现有疗法和潜在的新疗法(诸如鱼油)。这种“目标”方法的一个重要方面是可以进行任一种目标的搜索,并且可以在任何其他类型的目标中进行查询。
研究者的需求
科学家——只是大量数据库的用户的一种,大量数据库例如为互联网——研究的一个最常见的动机是理解为何事物会以它们所工作的方式来工作。研究开发多种实验以复制某些情况并研究它们为何会发生。进行实验往往又是研究者的另一个主要动机。
科学项目的生命周期起源于一个或多个科学家的一个创意的诞生,这可能是一个明确的假设或者只是一种预感。这个创意往往是根据先前的实验结果,该实验结果是报道的知识和新假设的结合。现在海量的数据和知识的挑战是将信息和知识的范围众多的来源最理想的结合起来以选择最有前途的假设。
此外,研究人员不断地扫描科学雷达以发现信息。当前的自动增加要被阅读的论文堆的电子工具应该一些工具所代替,这些工具被用来整理大部分信息的工具,并且只有真正感兴趣的知识刚被发现或即将被发现时才发出警告。
之前给出的大量数据库和传统文本挖掘局限性的问题的解决需要的是用于知识导航和发现的数据结构、系统、方法和计算机程序产品。这样的数据结构、系统、方法和计算机程序产品应该允许能够对大量数据进行语义搜索、导航、压缩和存储,以便于进行相关的、关联的和/或其他类型的知识发现。
发明内容
本发明的各方面是为了满足上述的需要,通过提供增强的系统、方法和计算机程序产品,以用于知识导航和发现,尤其是在知识网络站点背景内的知识导航和发现。
基于概念或是思想单元而不是文字,用于便利知识导航和发现的数据结构、系统、方法和计算机程序产品独立于语言选择和其他概念表达。对于学习或从事的所在领域,每个主题词表或本体论中的概念、或一个概念的集合被分配一个独特的标识符。概念的两个基本类型定义如下:(a)源概念,对应于一个查询;和(b)目标概念,对应于一个与源概念具有某些关联的概念。通过自身独特的标识符所标记的每一个概念,被分配最小的三个属性:(1)实际值;(2)共现值;和(3)关联值。源概念与所有与源概念的一个或多个属性相关的关联概念(目标概念)存储在一个新的数据结构中,被称为“KnowletTM”。(相关领域的技术人员所认识的,数据结构是在计算机中存储数据的一种方式以便能更有效率的利用数据。通常一个精心选择的数据结构将使得能使用更有效率的算法。一个设计良好的数据结构允许能实现多种临界操作,尽可能在执行时间和存储空间上使用更少的资源。数据结构通过使用数据类型来实现,通过程序语言来关联和操作。)
实际值属性,F,是一个概念是否被权威数据库(即,被给定科学领域/或或人类努力的其他领域的科学团体视为权威的数据库或者其他信息库)提及的指示。实际值属性本身不是源概念和目标概念关联性的逻辑值真或假的指示。
共现值属性,C,是一个源概念与目标概念在不被认为是权威性的数据库或者其他数据库或者知识库内的一个文本单元中是否一起被提及的指示(例如,在同一个句子中,在同一个段落中,在同一个摘要中等等)。同样,共现值属性本身不是源概念和目标概念的关联性的逻辑值真或假的指示。
关联值属性,A,是这两个概念在概念上的重叠的指示。
具有F、C和A三个属性的Knowlet代表一个“概念云”。当在所有被识别的概念的概念云中创建了相互关系时,一个“概念空间”被创建。应当指出,如同数据库和数据的其他信息库被新信息补充一样,Knowlet和它们各自的F、C和A属性定期被更新(并且可能被改变)。然后Knowlet和它们各自的F、C和A属性的集合则被存储在知识数据库中。
在本发明的一个方面,用于知识导航和发现的数据结构、系统、方法和计算机程序产品利用一个索引器使用一个主题词表来索引一个所给的知识源(例如,文本文字)(也称为“实时高亮显示(hightlighting onthe fly)”)。然后使用一个匹配引擎来为每个Knowlet创建F、C和A属性。一数据库存储Knowlet空间。每对Knowlets/概念之间的语义关联是基于给定概念空间的F、C和A属性计算得出的。通过显示先前未探索过的概念之间的可能关联性,使用Knowlet矩阵和语义距离来进行知识的整个领域的综合分析。
本发明的一个有利方面是能够提供一种网络或者专利搜索引擎、互联网浏览器插件、维基、或代理服务器形式的搜索工具。
本发明的另一个有利方面是不仅允许用户使用概念做出新的(相关的和关联的)发现,还允许这些用户使用数据库中的作者关系信息找到与概念相关的专家。
本发明的另一个有利方面是它使用新的被称之为“Knowlet”的数据结构,该数据结构允许科学家使用概念(并且它们自动包括同义字)从一个数据库和一个相关(例如生物医学)本体或主题词表中做出新(相关的和关联的)发现。
本发明的另一个有利方面是Knowlet使得能够进行精确的信息检索和提取,以及相关的和关联的发现,knowlet能够应用于在科学说明和解释的任何级别的任何学科中的任何内容的集合中。
本发明的又一有利方面是可从万维网或其他任何数据库中移除冗余重复而不丢失特有的信息比特,从而获得网页的压缩或“压缩(zipped)”版本以更容易存储、搜索和共享。
本发明的又一有利方面是在概念浏览期间,它允许自动建立比人手工更加复杂(和彻底)的互联网搜索查询。
本发明的又一有利方面是它允许通过私人数据库和本体或主题词表来扩充公共数据库和权威本体或主题词表,从而构成一个更加完整的概念空间,以具有更好的知识导航和发现能力。
本发明的又一有利方面是它允许用户更加容易识别涉及用于协力研究目的的与特定概念相关的专家。
本发明的各方面的进一步的特点和优势,以及本发明这些不同方面的结构和操作,将以参考附图和计算机附录清单的方式在下文中详细描述。
附图说明
本发明的特点和优势将在下文以与附图相结合的方式进行详细描述后,变得显而易见,其中类似的附图标记代表相同的或在功能上类似的组成部分。此外,附图标记最左边的数字指的是附图图号,在该附图中,该附图标记第一次出现。
图1是本发明的一个方面的可被执行的示例环境的系统图。
图2是用于实现本发明的示例计算机系统的框图。
图3是根据本发明的一个方面的描述一个示例Knowlet空间的创建和导航过程的流程图。
图4是根据本发明的一个方面的描述Knowlet数据结构的示例组合的框图。
图5A和5B是根据本发明的一个方面的描述示例登陆过程的流程图。
图6是根据本发明的一个方面的描述示例Wikifier功能的流程图。
图7是根据本发明的一个方面的描述示例点击和连接功能的流程图。
图8A和8B是根据本发明的一个方面的描述示例Wikifier功能的流程图。
图9-28是本发明的图形用户界面的各方面所产生的示例的Windows窗口或图形用户界面(GUI)屏幕。
具体实施方式
概述
本发明的各方面致力于用于在知识网络站点的背景下进行知识导航和发现的系统、方法和计算机程序产品。
在本发明的一个方面,提供给例如为生化研究科学家的用户一个自动化工具,允许他们在一个大型数据库中导航、搜索和进行知识发现,数据库例如为PubMed——最广泛使用的医药生物数据库之一,由美国国家医药图书馆(US.National Library ofMedicine)提供和维护,PubMed包括追溯到1950年代的超过1700万篇医药生物文献的摘要和引文。在这一方面,本发明并非只是简单的允许医药生物研究者使用关键词来实现布尔搜索以找到相关的文献。本发明的一个方面是使用一个全新的数据结构,本文中也称为“Knowlet”,允许科学家从一个数据库和一个相关(例如医药生物)本体或主题词表中做出新的相关性、关联性和/或使用概念或思想单元(其将自动包括在特定的语言中的该概念的所有的同义词)的其他发现,该相关本体或主题词表例如为美国国家医药图书馆的统一医学语言系
Figure G200880017989XD00081
(UMLS)数据库(United StatesNational Library of Medicine’s Unified Medical Language),该数据库中包括了有关医药生物和健康相关概念的信息。
本发明的各个方面现将在此根据上文示例的医药生物研究者使用PubMed数据库和医药生物本体进行更加详尽的描述。这个描述只是提供了方便,并非用于限制本发明的应用。在阅读了此处的描述后,本领域的技术人员可以理解如何实现本发明各个方面。例如,本发明可以应用于任何下列领域中,特别是其中具有大型数据库、一个相关的本体/主题词表、以及用于知识导航和(相关性、关联性、和/或其他)知识发现的需求:
■情报机构可受益于本发明,在一个方面,例如,通过挖掘大量截取的不同语言的电子邮件和/或其他信息,建议可疑的Knowlet和关联性,并挖掘文档的大部分看似无关的事实。
■金融组织可能受益本发明,在一个方面,通过创建涉及到金融交易结构的文档,例如,特别是包括业绩趋势、管理和SEC文档的Knowlet。
■法律组织可能受益于本发明,在一个方面,例如,通过分析所有案件和相关的判决,以及通过创建机会,不仅找到相关文档、专家和判决,并挖掘与一个特定案件相关大量文档中的概念间的潜在的关系。
■商业组织可能受益于本发明,在一个方面,例如,通过挖掘本公司拥有的专利和专利申请的数据库,来找到与在此所披露的类似的、潜在的有可能对许可技术感兴趣的公司,以及通过创建与合并或者收购活动有关的公司的知识地图。
■健康保健组织可能受益于本发明,在一个方面,例如,通过具有科学文献的相关的病人数据库,将允许病人来创建在线“病人Knowlet”,并密切注意对于特殊疾病的新的相关信息或能够用于该疾病的新药物;这种病人Knowlet同时还可以服务于罕见疾病的基础研究。
术语“用户”,“最终用户”,“研究者”,“客户”,“专家”,“作者”,“科学家”,“公众”和/或这些术语的复合形式在本文中可替换的使用,用来指那些为了知识导航和发现目的,能够利用、使用本发明所提供的工具的人或主体、被本发明所提供的工具所影响的人或主体、和/或受益于本发明所提供的工具的人或主体。
系统
图1所示为根据本发明的一个方面的多个硬件组成部分和其他特征的示例系统图100。如图1所示,本发明的一个方面,用户101通过终端102输入用于在该系统中使用的数据和其他信息和服务,终端102例如为一台个人计算机(PC)、微型电脑、膝上型电脑、掌上电脑、计算机主机、微机、电话设备、移动设备、个人数字助理(PDA)或其他具有处理器和输入及显示能力的设备。终端102通过网络104和通过通信连接103和105连接到服务器106,服务器106例如为一台PC、微型电脑、计算机主机、微机或其它具有处理器和数据库或连接到数据库的设备,网络104例如为互联网。
本领域技术人员在阅读了此处的说明书之后就能认识到,在这一方面,服务提供者可以允许在免费注册、付费用户和/或使用付费的基础上,通过在互联网104上的万维网(WWW)站点使用知识导航和发现工具。因此,系统100是可扩展的,以便多个用户、实体或组织可以订阅和利用,以使得它们的用户101(即那些愿意进行研究的科学家、研究者、作者和/或大量公众)来搜索、提交查询、查看结果、以及通常地操作与系统100关联的数据库和工具。
相关领域技术人员同样可以理解的是,本发明的可选的方面可以包括提供用于知识导航和发现的工具作为单机系统(例如装载入一台PC中)或作为一个企业级系统,其系统100的所有组成部分通过安全的企业广域网(WAN)或局域网(LAN)来进行连接和通信,而并非如图1中所示的Web网络服务。
相关领域技术人员同样可以理解的是,在一个方面,图形用户接口(GUI)屏幕可以通过服务器106产生,以响应从用户101基于互联网104的输入。也就是说,在这一个方面,服务器106是一个典型的Web网络服务器,运行一个在网站上的服务程序,其发出网页以响应从用户使用的远程浏览器超文本传输协议(HTTP)或安全的超文本传输协议(HTTPS)的请求。因此,服务器106(在执行下文所述的进程300的任何步骤时)能够以网页的形式为系统100的用户提供一个GUI。这些网页发送到用户的PC、膝上型电脑、移动设备、PDA或者类似的设备102上,并以GUI屏幕的结果呈现(例如,附图9-28中的屏幕)。
Knowlet
在本发明的各方面,使用一种被称为“Knowlet”的新的数据元素或数据结构来实现轻快存储、精确的信息检索和提取、以及相关性、关联性和/或其他发现。也就是说,一个相关的本体或主题词表中的每个概念(在科学解释的任何级别的任何学科中)可以通过一个Knowlet来表示,这样,其为在概念空间上通过实际值信息提取、基于关系和关联的共现(例如向量式的)的组合而获得的概念的语义表现。在所讨论的概念与相关的本体或主题词表中的所有其他概念之间的关于一个或多个相关的数据库的实际值(F)、文本共现值(C)、以及关联值(A)属性或值被存储在每个单独的概念的Knowlet中。
在一个方面,Knowlet可以采用Zope的形式(一种开源、面向对象的网络应用服务,由Python程序语言写成,该程序语言由弗吉尼亚州的弗雷德里克斯堡的Zope公司在Zope公共许可条款之下发布)数据元素,其存储源概念和它的所有目标概念之间的关系的所有形式,包括对这些目标概念的语义关联的值。
如将被在下文中更详细说明的,使用这样的Knowlet,可以计算一个“语义距离”(或“语义相关性”)值并显示给用户。语义距离是在一个已定义的向量空间中的两个概念之间的距离或接近度,其能够基于用来创建概念空间的数据库或数据信息库(即文档的集合)而不同,还可以基于用来定义两个概念之间的匹配的匹配控制逻辑、和给实际值(F)、共现值(C)、和关联值(A)属性的相对权重而不同。这种方法的目的是为了复制人类大脑联想推理功能的关键要素。正如人类使用关联矩阵的概念“他们知道(they know about)”来阅读和理解一个文本,本发明的各方面就是寻求将人类思想这种巨大的和多样化的力量应用于数据存储或者数据的收藏。以上所给出的,本发明的各方面能够在给定文本中“覆盖”概念,例如用实际值、共现值和关联值属性。然而,本领域普通技术人员应该认识到,可以使用任何数量的属性,只要这些属性代表了可以连接一个给定的概念和另一个概念相关性。
计算机程序附录清单1提供了一个根据本发明的一个方面示例Knowlet的现有XML表示。在本发明的这样一个方面中,Knowlet能够输出到标准本体和Web语言中,例如资源描述框架(RDF)和网络本体语言(OWL)。因此,使用这些语言的任何应用程序可以能够使用本发明的Knowlet结果,以便使用例如为SPARQL协议和RDF查询语言的程序来进行推理和查询。
方法
在本发明的一个方面,提供给用户101一个搜索工具用于知识导航和发现。在这样一个示例方面中,提供给用户一个自动化工具来允许他们在一个例如为PubMed的大型数据库中导航、搜索和进行知识发现,该用户例如为医药生物研究科学家。
参考图3,所示流程图描述了一个根据本发明的一个方面的自动化工具的Knowlet空间创建和导航进程300。进程300开始于步骤302并在控制下立即转到步骤304。
在本发明的这一个方面,步骤304将系统100连接到一个或多个数据库(例如PubMed),该数据库包含用户寻求导航、搜索和发现的知识。
在本发明的这一个方面,步骤306将系统连接到一个或多个与数据库相关的本体或主题词表。因此,例如,若数据库是一个医药生物摘要库,本体可能是一个或多个下列本体,特别是:UMLS(截止2006年,UMLS包含了超过了1,300,00个概念);UniProtKB/Swiss-Prot蛋白质知识库,建立于1986年的一个具有注释的蛋白质序列数据库;IntAct,一个可自由使用的、开源数据库系统,从数据保藏的文献和直接用户提交得到的蛋白质相互作用数据;Gene Ontology(GO)数据库,一种以非物种方式按照他们关联的生化过程、细胞组成和分子功能描述的一个基因产品的本体;等等。
在阅读了此处的说明书之后,相关领域技术人员应该理解的是,本发明的各方面不依赖于语言,并且每一个概念被给予一个唯一的数字标识,并且该概念的同义词(无论是在相同的自然语言、术语中还是不同的语言中)也将被给予相同的数字标识。这有助于用户以非特定(或依赖)语言方式导航、搜索和进行发现活动。
在本发明的这一个方面,步骤308检查数据库的每一条记录(例如检查PubMed数据库的每一条摘要),标记出现在每一条记录中的来自于本体(例如,ULMS)的概念,并建立一个索引,以记录在每一条记录(例如,在PubMed中的每一条摘要)发现的每一个概念的位置。在一个方面,在步骤308中建立的索引是通过利用一个索引器(有时称为标注器)来完成的,这是本领域中所熟知的。在这样一个方面,索引器为命名实体识别(NER)索引器(其利用一个或多个与在步骤306中载入的与数据库相关的本体或主题词表),例如由Biosemantics Group,医学信息部,荷兰鹿特丹的伊拉斯姆斯大学医学中心开发的Peregrine索引器;文献Schuemie M.,Jelier R.,Kors J.,“Peregrine:Lightweight Gene Name Normalization by Dictionary Lookup”,Proceedings ofBiocreative 2中对该索引器进行了描述,本文在此通过参考并入其全部内容。其他的NER索引器的例子包括:ClearForest Tagging Engine,由马萨诸塞州的Waltham大学的Rueters/ClearForest提供;GENIA Tagger,由东京大学科技学院科学信息部提供;iHOP服务,由http:www.ihop-net.org提供;IPA由加州雷德伍德城的Ingenutity Systems提供;Insight DiscovererTM Extractor,由法国巴黎的Temis S.A.提供;等等。
在本发明的一个方面,步骤310为本体中每个概念创建一个Knowlet,其“记录”该概念和概念空间中所有其他概念之间的相关性(例如语义距离/关联性)。在这样的一个方面,由于在步骤306中载入了概念,可以使用一个搜索引擎,例如Lucene Search Engine,用于搜索数据库,并使用在步骤308中创建的索引来确定概念之间的相关性。在这个例子中使用的Lucene SearchEngine,由Apache软件基金会提供,其具有以Java语言写成高性能、全功能的文本搜索引擎库,并适合于几乎任何需要全文本(特别是跨平台)搜索的应用。
在本发明的这样一个方面,步骤312创建并在系统中存储(例如,存储在与服务器106相关联的数据库中)一个“Knowlet空间”(或是概念空间),该“Knowlet空间”是在步骤310中创建的所有Knowlet的一个集合,因此形成一个更大的、动态的本体。因此,如果本体包含有N个概念,Knowlet空间可以是(最多是)一个[N]×[N-1]×[3]矩阵,具体以实际值(F)、共现值(C)和关联值(A)的方式,描述了这N个概念中的每个概念与其他N-1个概念之间的关系。在本发明的这样一个方面,步骤312包括为每个概念对计算F、C和A属性(或值)的步骤。因此,Knowlet空间是一个基于所有Knowlet的虚拟概念空间,其中每个概念是其自身Knowlet的一个源概念,同时也是所有其他Knowlet的一个目标概念。(当对于一个特定的源/目标概念组合,F、C或A值在Knowlet内是非零时,本文中分别表示为F+、C+或A+状态。并且,当它们的值是小于或者等于零时,分别表示为F-、C-或A-。)
在阅读了此处的说明书之后,相关领域中的技术人员可以理解的是,在本发明的这个方面,若本体是UMLS,N可以在数量级上超过1,000,000。
然而,如上所述,本发明的一个方面致力于任何数量属性的使用。因此,在这样一个方面,Knowlet空间可以表示为[N]×[N-1]×[Z]矩阵,具体描述了N个概念中的每个概念与所有其他N-1个概念之间关于Z个属性中的每个属性的关系。在本发明的这样一个方面,步骤312可能包括用于为每个概念对计算Z个属性(值)的步骤。
在阅读了此处的说明书之后,相关领域中的技术人员可以理解的是,在本发明这一方面中,Knowlet空间可以通过减少Knowlet的[N-1]部分,而被构建得比[N]×[N-1]×[Z]矩阵更小(并因此对计算机内存和处理进程而更加优化)。这是这样实现的,每个概念是其自身的Knowlet的源概念,源概念的Knowlet中的目标概念仅包括任一Z属性值为正的N-1目标概念子集。
在本发明的这一方面,其中步骤312包括为每个概念对计算F、C和A属性(或值)的步骤,例如,F值可以通过两个概念之间的实际相关性确定,该实际相关性的确定通过分析数据库而获得。在本发明的一个方面,检查<名词><动词><名词>(或者<概念><关系><概念>)三元组以推导出实际相关性(例如,“疟疾”,“传播”和“蚊子”)。因此F值可能是,例如,零(没有实际相关性)或一(具有实际相关性),这取决于对在步骤304装载的一个或多个数据库的搜索。
在本发明的一个方面,尽管实际F值是零或一,本领域的普通技术人员仍应认识到,实际属性F可能会考虑到一个或多个权重因数的影响,例如由主题词表定义的概念的语义类型。例如,<基因>和<疾病>比<基因>和<铅笔>,更具有意义相关性,这将反过来影响F值。在这个例子中,F值取决于在本领域科学界所接受的权威数据源中,例如为PubMed中,的实际相关性的存在(或不存在)。然而,对于本领域普通技术人员显而易见的是,F值并非是概念或者相关性的正确性或真实性的指示,其可能取决于其他因素。此外,数据库中,因素的重复对于单独文本(例如论文)的可读性是很大的值,但是因素本身是信息的一个单独单元,并且不需要在Knowlet空间重复。在数据库的“原始文献”中的因素重复水平和因素为“真”的可能性之间具有一个直观关系,但是即使多次重复并不能保证一个因素真的为真。因此,本发明的一个方面,假定超出了一个预定的阈值后,因素的更多重复并不增加实际表现为真的可能性。
C值是通过两个概念之间的共现的相关性来决定的,通过它们是否出现在同一个文本组(例如,每一句,每一段,或者每x个字)中来决定的。在本发明的一个方面,C值的范围由零到0.5,基于在数据库中发现两个概念共现的次数数量。共现可能会考虑一个或多个权重因数而决定,例如在数据库中概念的语义类型。C值可能因此而受影响于,一个或多个权重。也就是,如果考虑到<药>和<疾病>同时出现在一个相同的文本组(例如,句子)中,这是事实上的共现。但是,如果<药>和<城市>,同时出现在一个相同的句子中,根据本发明的一个方面,共现的相关性就有着比较小的指示。
A值取决于两个概念之间的关联相关性。在一个例子中,A值范围可能由零到0.4,取决于概念串的多维排列处理结果(即n维空间),其探究两个概念之间在数据库中的相似或非相似。A值是两个概念在概念上的重叠的指示。在一个例子中,两个概念在多维概念串中越接近,它们之间的关联值A越高。如果在概念上重叠的很小或没有,关联值A就将接近零。
两个概念之间的间接关联是基于匹配它们单独的“概念配置文件”而计算得出的。一个概念配置文件构造如下:对于在装载到系统100的数据库中建立的每一个概念,与特定概念具有显著关联的许多记录被检索出来。在某些方面,高精度有利于作为付费信息检索的回应。因此,构建一个概念的最低限度清单,但是上至一个预订阈值(例如250),在数据库中选择与源概念“相关”的记录(例如在PubMed的摘要中)。通过所有返回的记录基于术语学的概念指数(例如一个PubMed的摘要)构建一个排序的概念清单,随后由加权聚合到概念的一个清单。在这个清单中列出的概念与源概念高度关联。这个清单现在可以表示成在多维空间的向量,并且计算出每个向量对的关联度(A)。这个关联度被记录为在Knowlet中的A值,介于0和1之间。因此,即使对于这些概念之间的F和C参数是负的,正的关联度A超过了统计定义的阈值,这可能指示在他们各自的概念配置文件上具有显著的概念上的重叠,而提出一个至今不明确的相关性。阈值可以通过比较某些语义类型的非相关概念的概念配置文件与那些被认为相互作用的概念配置匹配计算得出。(例如,在Swiss-Prot和IntAct中不被认为相互作用的所有蛋白质与被认为相互作用的所有蛋白质的比较)。
在本发明的一个方面中,对于一个给定概念对,其F值不为正值,C值也不为正值的情况,仍然可能存在概念之间对于有意义的相关性的间接证据,即使其关联性仅仅是隐含的。这种关联性关系在Knowlet中被取值作为第三个参数,A。在本发明的一个方面,参数A代表了Knowlet最被关注的一个方面(例如,当在下文中以“发现”模式使用系统100时)。当因数由C+和F-状态转变为F+状态时,在系统100中装载的数据库变得更加实际一致。但是,把一个概念组合由F-、C-和A+状态转到F+状态将使得既产生新共现和因数的缺失,更加重要的是,还可能通过计算机模拟(in silico)推理而实际上成为知识发现进程中的一部分。(以及潜在的,后来通过实验室的实验证实的基于文献的假设)。
在阅读了说明书之后,相关领域技术人员可以理解的是,步骤304到312可能周期性的重复,以便获得对于数据库(例如,PubMed中的新摘要)和/或本体(即,新概念)的更新。
在本发明的一个方面,步骤314接收来自于一个用户由一个或多个源概念组成的搜索查询。(即,一个选定的概念,作为在概念空间内用于知识导航和发现的开始点)。
在本发明的一个方面,步骤316执行在Knowlet空间内查找并计算对于所有N-1个潜在的与源概念相关的目标概念的语义距离(SD),并产生一组目标概念(即,在概念空间中和源概念具有相关性的概念)。在一个方面,例如,系统可能返回一组在Knowlet空间中计算出的SD值最高的50个目标概念。
在这样的一方面,语义距离可由下列公式计算:
SD=w1F+w2C+w3A;
其中w1、w2和w3是分别分配给F、C和A值的权重。在阅读了说明书之后,相关领域的技术人员可以理解的是,用户可能会在不同的模式下查询系统,其将自动调整w1、w2和w3值。例如,在“背景”模式下,用户只想要简单的实际值,背景技术信息,w1、w2和w3可以被分别设定为1.0、0.0和0.0。在另一个例子中,在“发现”模式下,用户只想要高度的关联性关系,w1、w2和w3可以被分别设定为1.0、0.5和2.0。在本发明的其他方面,F、C和A值可以在不同的模式下,通过不同的因数或特性(例如,通过语义类型)被乘以权重。因此,SD(语义关联性)是基于权重实际值、共现值和关联值信息的在一个源概念和目标概念之间计算出来的语义相关性。
在本发明的一个方面,步骤318通过GUI将目标概念呈现给用户,这样一来用户可以查看源概念、目标概念组(依据F、C、A和/或SD值进行彩色编码)和在数据库(即PubMed摘要)中的对于SD计算得出的相关性为基础的记录清单。然后进程300如步骤320中所示终止。
参考图4,其为根据本发明的一个方面描述的由进程300产生的Knowlet数据结构400的组成部分的示例框图。
在本发明的一个方面,其中提供给例如为生物医药研究科学家的用户一个自动工具,以允许他们导航、搜索和执行知识发现,在生物医药文献中的任何概念,例如为蛋白质或疾病,能够被当作一个源概念来处理(在图4中描述为蓝色的球)。在权威数据库中,例如UMLS或者UniProtKB/Swiss-Prot中,可能有关于概念和其与其他概念的实际相关性信息。获得了这个信息,与源概念具有一个“实际”相关性的在任何多方数据库中的所有概念因此也包括在了该概念的Knowlet中。这种“实际关联的概念”在附图4的可视化的Knowlet中以实心绿色球表示。
另外,源概念可能在文献中在一个和相同的句子中与其他概念一起被提及。在那种情况下,特别是当两个概念共同出现在多个句子中,对于两个概念之间的相关性具有很大意义的可能性,或者甚至是因果关系。大多数具有的实际相关性的概念可能在大量文献中被一个或多个句子提及,但是作为进程300可能仅仅在一个数据库中挖掘(例如PubMed),这其中的许多实际关联性可能不容易从这样的单独的数据库中找到。例如,许多在UniProtKB/Swiss-Prot中描述的蛋白质-蛋白质之间的相互作用并不能在PubMed中被作为共同出现而发现。目标概念其在同一个句子中和源概念共同最少出现一次,在附图4的可视化Knowlet中被描绘为绿色的环。
最后一类概念是由数据库中的索引记录中那些没有同时出现的每单位文本所形成(例如,一个句子),但是有足够多的概念与它们自己的Knowlet中与源概念具有相同的潜在关系。这些概念在图4中被描述为黄色的环并表示隐含的关联。每一个源概念与其它的(目标)概念有不同的关系,每一个这样的距离被指定一个表示实际值(F)、共现(C)和关联值(A)因素的值。基于这些值来计算确定每一个概念对之间的语意关联性(或者SD值)。
在本发明的另一个方面,用户可以输入两个或更多的源概念。在这样一个方面,系统生成一套与所有源概念相关的目标概念。在阅读这里的说明之后,相关领域的技术人员能够认识到,这样的方面可以作为更好的IR或者搜索引擎。即,在步骤304加载入系统的一个或多个数据库中源概念A和B可能没有实际值(F)或者共现(C)关系。这样,执行一个传统的布尔/关键词搜索时传统的搜索引擎可能返回空的结果。但是如果利用Knowlet空间,本发明能够获得可将源概念A和B相关联的链接起来的目标概念。
在本发明的另一个方面,上面描述的步骤308和310能够通过索引数据库中记录的作者来扩展(例如,摘要出现在PubMed中的出版物的作者)。在本发明这样的一个方面,不仅是N个概念在Knowlet空间中互相映射而且M个作者的整体也唯一的映射到N个概念,从而Knowlet空间是[N+M]x[N+M-l]x3的矩阵(即,概念空间中每一个概念有一个Knowlet,每一个作者也有一个Knowlet)。在阅读这里的说明之后相关领域的技术人员能够认识到,这样的方面将允许用户为了合作研究的目的很容易的识别与特定概念相关的专家。
在阅读这里的说明之后相关领域的技术人员能够认识到,在本发明的这些方面中M个作者的整体也唯一的映射到N个概念,从而Knowlet空间是[N+M]x[N+M-l]x 3的矩阵(假设Z属性值是3),系统100中的用户可以使用许多有用的工具。在这样的一个方面,可以对出现在步骤304所载入的系统中的数据库中的M个作者中的每一个计算各种贡献因素。贡献因素将那些仅仅多产的作者(例如,拥有大量的出版物)与那些具有“创新”的作者(即,那些作者的工作使得两个概念在Knowlet空间中第一次共现)区别开来。在阅读这里的说明之后相关领域的技术人员能够认识到,给定Knowlet空间和存储在其中的F、C、A参数,可以用很多种方法计算贡献因素(例如,贡献因素可以基于每个句子、每篇文章、或者其它基础)。一般来说贡献因素也可基于一个句子、多个句子、一个摘要或者文档、或者一个出版物。
在本发明的另一个方面,在阅读这里的说明之后相关领域的技术人员能够认识到,在步骤304载入到系统中的数据库中发现的任何图片(例如,在数据库中的文章中发现的图片)或者任何其它图片知识库中发现的图片,可能与步骤308中的N个概念中的任一个相关。然后这些图片在Knowlet空间中可以被索引或者引用,并用作另一个数据点(或者域),通过这些数据点(或者域)可以运行本文中所描述的用于导航、搜索和执行发现活动的工具。
在本发明的另一个方面,在阅读这里的说明之后相关领域的技术人员能够认识到,由上面描述的步骤304-312的并行产生的两个独立的Knowlet(或概念)空间可以被比较或者搜索以帮助知识导航和发现过程。即,一个使用来自第一研究域的数据库和知识本体创建的Knowlet空间可以与一个使用来自第二(例如,相关的)研究域的数据库和知识本体创建的Knowlet空间相比较。在一个方面,如果在一个本体或资源上的查询不能返回结果,本发明可以提供一个指示,基于Knowlet空间,可以从来自于另一个知识本体和主题词表的Knowlet空间中发现一个或多个相关结果。
在本发明的其他方面,用于导航、搜索和执行发现活动的工具可以用企业模式提供以使经授权的一批用户使用(例如,在营利性实体的R&D部门中的研究科学家、在大学中的研究科学家等等)。在这样一个方面,载入系统的一个或多个(公共)数据库能够通过一个或者多个私有数据库(例如,内部的、不公开的R&D)扩展和/或载入系统的一个或多个(公共)知识本体和主题词表可以通过一个或者多个私有知识本体和主题词表扩展。在这样一个方面,公共的和私有的数据混合体提供更完整的(以及,如果需要的话,私有的)概念空间和更好的知识导航和发现能力。在这样一个方面,载入系统的一个或多个私有数据库可以是企业中作者未公开的文章。例如,这允许企业中的作者在文章公开出版之前捕获和识别Knowlet空间中新的共现性。
在本发明的其它方面,用于导航、搜索和执行发现活动的工具可以为用户提供一个或多个安全选项。例如,在本发明的一个方面,在步骤312一个通过使用私有数据库(例如,内部的,不公开的R&D)和/或一个或多个私有知识本体或主题词表创建的Knowlet空间可以以加密方式存储在系统100中。在本发明的这样一个方面中,在阅读这里的说明之后相关领域的技术人员能够认识到,一个加密过程可以应用到Knowlet空间以便只有那些拥有解码密钥的人(例如,授权用户)可以解密Knowlet空间。
在本发明的另一个方面,用于导航、搜索和执行发现活动的工具可以对互联网搜索引擎“实时(on the fly)”输出进行选择和/或分类。例如,搜索引擎的输出可以被存储和按照URL进行分类到数据库中的文件夹中,例如在它自己的插件中。在存储到这样的文件夹中文档的基础上和/或已经被接受为文本的概念的基础上,本发明可以创建一个用户的兴趣配置文件。
如上所提到的,在步骤318通过GUI对用户显示目标概念以便用户能够看见源概念、一个包括源概念的定义的维基和一组目标概念。这样,在本发明的这些方面,用户可以在一个或多个显示的维基词条(基于他们对目标概念的观察和在数据库中的记录列表,这些形成了用于SD计算的关系基础)中编辑源概念的定义。
在本发明的另一个方面,若用于导航、搜索和执行发现活动的工具以互联网浏览器插件或扩展的方式提供,可以将一个工具栏上或下拉菜单的按钮用作一个“新指示器(newness indicator)”。即,当用户浏览互联网并碰到感兴趣的网页时,用户可以点击本发明提供的工具栏或下拉菜单上的一个“新(newness)”按钮,然后通过解析当前“实时(on the fly)”网页的HTML代码,并灰化(例如,以灰色显示)所有在用户的个人Knowlet空间中发现的概念。在这样的方面中,用户的注意力将集中在网页上的文本,这些文本实际上代表了与用户相关的“新”知识(例如,由用户已读文档获得的知识将以灰色或者其它期望的颜色显示,相对于用户已读文档,剩下的文本的颜色和其它属性不会被改变)。
在本发明的另一个方面,用于导航、搜索和执行发现活动的工具可以通过代理服务器提供以便提前解析用户的“收藏”和“加上书签”的网站。在这样一个方面,用户的浏览器将高亮显示(例如,以黄色显示)所有的在上面步骤306加载的一个或多个知识本体和主题词表中发现的概念,而不需要任何手动干涉(即,不需要激活一个“wikifier”按钮或者菜单选项)。
在本发明的其它方面,用于导航、搜索和执行发现活动的工具可以以一个字处理/文本编辑插件或扩展的方式提供。即,当用户编辑与目标概念(如上所述)或用户的新论文一起显示的的wiki词条时,可以周期性的查阅在上面步骤306载入系统的Knowlet空间的相关的一个或多个知识本体或者主题词表。当用户输入N个概念中的任意一个时,这样的插件或扩展将识别它们,然后作出其同义词、同音异意词、翻译和/或连接的概念的“实时(on the fly)”建议,这样起到″您的意思是[建议的概念的列表]!(Do you mean[list ofsuggested concepts]!)″工具的作用。进一步的,插件或扩展可以允许实时显示和/或改变概念的状态。例如,在其他因素中,可以提供一个指示,该指示关于是否一个概念被合适的定义和是否它被翻译成一个或多个语言,这样就能提供一个在线的“实时(on the fly)”概念状态报告。
概念网络
在相关领域中,“web 1.0”指的是大约1994年至2004年之间的万维网的状态。这样的状态是“只读”状态,其中绝大多数站点是单向的、发布媒体(即,文本和图片),术语“web 2.0”是形成于大约2004年(这是一个定义非常松散的界限),指的是网络的发展到了“读和写”的状态。即,web 2.0反映了基于网络的社区和主机服务,例如社区网络站点、维基、博客和分众分类,其目标是为了方便用户间的创造、协作和共享。
现在,本发明的各方面使得“语义网络”(即,web 3.0状态)更加便利,其中概念的动态地、交互式网络(或“概念网络”)和它们的关系来自于万维网和离线资源,并消除了重复和模糊。
概念网络的第一个前提是执行互联网搜索的用户/研究人员的兴趣不在于数据和信息本身,而在于这些“积木”的合成转变为他们能对其作用的可执行知识。这个假设抓住了所有通往高度复杂的生物学路径的道路。例如,当用户正在寻找“阿姆斯特丹最好的旅馆”时,这样的用户对阿姆斯特丹所有旅馆的所有信息并不感兴趣,也不会阅读在假设的路径上所有引用了所有50个因子的5000篇论文。相反地,用户实际上的真实兴趣在于决定待在阿姆斯特丹的哪里或者假定哪一个因子导致了混乱。根据本发明的各方面,概念网络使得能够获得期望的结果,而将阅读和分析的中间需求缩减到最小的程度,同时也不会失去关键信息和可信度。
但是概念网络的障碍包括模糊和尺寸的问题。关于互联网文本页(或任何其它数据库)的“模糊问题”指的是特定内容中的单词、术语、批注、标记、符号和概念不明确、不确定、多含义或者没有明确的定义,这样就会产生误解、或不清楚的含义。关于互联网(或任何其它数据库)文本页的“尺寸问题”指的是最近(2007)估计互联网网页有大约5000亿个,分布在超过1亿个网络站点上。
在阅读这里的说明之后相关领域的技术人员能够认识到,相关领域的现状是非常不确定的术语和记号,例如带有很多含义的基因符号,可以通过高级消歧算法来解析,其典型的在80%的检索率上有80%的精确度。因此,本发明的各方面可以进一步包括新兴的消歧技术来最大限度的消除模糊。
在阅读这里的说明之后相关领域的技术人员能够认识到,关于互联网文本页(或任何其它数据仓库)的“尺寸问题”部分地是由于冗余重复带来的。将科学文献作为一般出版材料的代表,大量的句子包括此前至少被声明过一次的事实陈述。在许多情况下,通常为了单个文献的可读性,不断重复一般事实。
例如,一个多世纪以来所熟知的“疟疾”是通过“蚊子”来“传播”。例如,PubMed的数目数据库(超过17,000,000个摘要)包括5618个这种共现的实例。在第一次声明之后超过5000个副本的增加值使声明事实的再确认(逐渐固化),以及随同有关疟疾及其传播的文章的可读性和在单个文献中连同其它事实一起被扩散而增长。在本发明的一个方面,利用Knowlets组合用于概念之间关系的多重属性和值以便包括许多事实陈述的重复的科学文本导致两个概念间的关系仅仅记录一次。关系的属性和值基于增加共现和关联的事实陈述的多种实例来改变。与文本空间相比,这种方法导致概念空间的最小增长。这样,在本发明的各方面,可实现“网络压缩”(即,一种压缩)。
如前所述,由上述步骤304-312的并行集产生的两个独立的Knowlets(或概念)空间可以被比较或者搜索以帮助知识导航和发现过程。即,一个使用来自第一研究域的数据库和知识本体创建的Knowlet空间可以与一个使用来自第二(例如,相关的)研究域的数据库和知识本体创建的Knowlet空间相比较。同样地,上述实现“网络压缩”的本发明的各方面,可以在概念层次上被用于比较两个或多个压缩数据库。
知识网络
在上述讨论中,本发明公开的一个方面不仅是N个概念在Knowlet空间中被互相映射,而且M个作者的整体也唯一的映射到N个概念,从而Knowlet空间是[N+M]x[N+M-l]x 3的矩阵(即,概念空间中每一个概念有一个Knowlet,每一个作者也有一个Knowlet)。在阅读这里的说明之后相关领域的技术人员能够认识到,本发明这样一个方面允许用户为了合作研究的目的很容易的识别与特定概念相关的专家。
在本发明另一个方面是提供一个带有附加功能的知识网络站点以进一步帮助知识导航和发现过程。
参考图5A和5B,显示了根据本发明一个方面的描述一个示范性的登陆和选择过程500的流程图。过程500在步骤502开始,在控制下立即转到步骤504。
在这样一个方面,步骤504给兴趣领域中的每一个人(例如,在步骤304载入系统100的一个或多个数据仓库,例如PubMed,中的M个作者的每一个)一个静态的、唯一的标志符——WikiID。,在步骤506中为每一个WikiID在知识网络站点社区中创建一个个人网页(或者“主页”)。主页包括作者的(或专家的)姓名,包括可选的拼写或者他们名字常见的错误拼写,和与简历相关的信息(例如,联系信息、个人信息、工作经历、教育、出版物、职业资格、奖励、专业团体会员资格、参与的会议、兴趣、进行的项目、专利等等)并在步骤508仅能由专家或他/她的授权者(例如,个人助手)通过登陆/密码方式所确定进入编辑模式。进一步的,在步骤510,专家能够选择他们愿意在知识网络化站点的其它专家“公开”(即供浏览)的“主页”的一个或多个部分。
在这样一个方面,WikiID(和他到其它用户主页的链接)可以在相关知识网络社区中用于管理性目的(例如,会议注册、提交论文、采用建议和报告等等),从而在当前进行这些活动时消除手动填表的需要。
与上述“wikifier”按钮类似,该“wikufier”按钮不需要任何手动干涉,用户的浏览器就能高亮(例如,以黄色显示)显示在步骤512浏览的网页上发现的所有的在步骤306载入系统100的一个或多个知识本体和主题词表中的概念,在这样一个方面这里提供了一个按钮作为浏览器插件或扩展,以便用户能够在步骤514点击按钮来链接(提交)任何当前被他们浏览的页面中的URL到他们在知识网络站点的主页上。点击按钮不仅能够保存用户感兴趣的与他们搜索概念相关的(静态)URL。而且,点击URL也能加标签于用户感兴趣的显示在URL指定的页面上的概念,因此扩展了用户的个人Knowlet空间(即,除了上述方法中在步骤304载入系统100的一个或多个数据库之外,扩展了能够据此计算F、C和A属性值的知识基础)。
因此,在步骤516中能够利用显示在点击的URL所指向的网页上的概念和在过程300的步骤304载入系统100的一个或多个数据仓库(例如,PubMed)中的文档中所显示的概念,以用于上文所描述的知识发现(例如,背景模式搜索,发现模式搜索等等)。
在这样一个方面,在步骤520用户可以将在他们主页上的“点击”的URL组织到文件夹或者任何其他组中,为每一个“点击”的URL命名等等。在这样一个方面,用户在步骤522也能查看自己的主页,高亮显示那一刻他们感兴趣的概念(例如,来自于他们自己的简历),然后以高亮或者以其它区别于与选择概念不相关的那些URL的方式来显示与选择概念相关的点击URL。
在这样一个方面,在步骤524知识网络站点社区的用户可以容易的识别其它与特定的基于由用户点击的URL的概念相关的专家以便于合作性研究目的。如所示的那样然后过程500在步骤526结束。
在阅读这里的说明之后相关领域的技术人员能够认识到,知识网络站点社区可以使用维基站点的方式,这样就允许与维基站点典型相关的协作努力和其它用户/社区特征。
上面讨论的本发明的一个方面可以用于创建一个“WikiPeople”知识网络站点以使知识导航和发现活动更加便利。在这样一个方面,WikiPeople站点的益处包括:对基于知识发现的文献进行自动警示;将WikiID用于资助、出版和会议;对用户简历用所有主要语言进行匹配;和提供工作的可能性等等。
图6描述了根据本发明一个方面的Wikifier过程600用于使用工具进行导航、搜索和执行知识发现的流程图。这个工具可用作互联网浏览器的插件或扩展。过程600在步骤602开始,在控制下立即转到步骤604。
当用户在步骤604浏览网页和在步骤606来到感兴趣的网页时,用户可以在步骤608点击由本发明提供的工具栏上的或下拉菜单中的“Wikifier”按钮,其然后将在步骤610解析活动网页“(实时)on the fly”的HTML代码,并在步骤612高亮(例如,以彩色显示)显示所有在一个或多个在上述步骤306预先载入系统的知识本体和主题词表中发现的概念。这将允许用户高亮显示一个或多个感兴趣的概念以在步骤614本发明的系统内执行一个搜索,其使用一个互联网搜索引擎,例如Yahoo!,Google等,或者在特定wiki内执行一个搜索。本发明这样一个方面的有利之处在于它能够建立比人工建立的查询更复杂的(和彻底的)国际搜索查询(即,布尔“AND”查询)。这是由于载入的带有唯一的数字标识符和同义词(无论是否是同一语言或不同语言)的知识本体或主题词表。
在阅读这里的说明之后相关领域的技术人员能够认识到,“Wikifier”按钮或菜单选项能够用于网页上,其自身代表互联网搜索引擎的结果(或输出),这样在步骤616高亮“(实时)on the fly”显示所有在一个或多个在上述步骤306预先载入系统的知识本体和主题词表中发现的概念。可以在wiki中建立一个与高亮显示相关的条目。这个条目此后可以被系统的同一或其他用户所编辑。在这样一个方面,在步骤618被选择的和被编辑的wiki条目可以是用户的本地拷贝或者企业的(即,社区的)全球拷贝。进一步的,在这样一个方面,一个on-the-fly“编辑”按钮可以用作网页浏览器插件或扩展的一部分以便它能够在步骤620立即将页面的HTML输出的被选的部分制作成“可拷贝”的给定概念的wiki页面,这样就避免了从一个网站引入大量数据到另一个网站。本发明这个方面的结果是在概念层次上联合(federate)分布式站点(可以是不同的自然语言)并把他们引入一个公共的GUI(在阅读这里的说明之后相关领域的技术人员能够认识到,“联合(federating)”指转换一个查询并传入一组完全不同的数据库,合并结果并以一种简洁、统一的格式显示并允许存储结果)。然后在决定步骤622中用户选择进一步的浏览选项(此时过程600返回到步骤604)或结束会话(如所示的步骤624)。
图7所示为根据本发明的一个方面的过程700的用于实现“点击”功能的流程图。过程700在步骤702开始,在控制下立即转到步骤704。
在这个方面,“点击”按钮的特征是一个用户在浏览时可首先去“wikifier”环境中的任意一个页面,如在步骤704,并在步骤706点击两个或更多个在他们看来确实相关的概念。然后在步骤708,wikifier以弹出窗口显示是否概念确实在概念空间中相互关联。如果用户希望在步骤710中给社区分配“实际值”,用户可以仅仅选择文本中的概念并按下“点击”按钮。这个动作将导致“点击”按钮在步骤712插入到所选择概念的每个单独wiki页面。这将告诉那些页面的后来的用户所述按钮包括一个新的那个概念到其它概念的链接。因此它用作关系收集器以作为wiki中的注解。当任何用户提交两个概念之间确实的关联时,在步骤714它在Knowlet中以可视化的方式显示,如一个“wiki”球。过程700然后如所示的那样在步骤720结束。
在这样一个方面,Wikifier的模式可以包括:探险模式:(当前的弹出窗口);标签模式:允许用户选择标签、察看选择的标签和存储在“专家配置文件”、“兴趣配置文件”和“活动配置文件”中;翻译模式:(源语言/目标语言)在一个(下拉菜单)中显示一个或多个语言的定义;点击模式:提示用户接受以顺序表形式显示(连接到标签模式)的被点击页面中的概念;专家定位模式:显示智能匹配(能被用于寻找同伴、审核人、专家等等);词库模式:缺省显示“其它”和显示页面中的潜在概念(简单NLP和双三线形等等)。
在这样一个方面,社区中的管理者和出版者可以将带有更多细节信息的内部数据库给予作为评论者、受让人等等的用户,其将通过他们的WikiID被链接到每一个用户的WikiPeople主页。
GUI
在本发明的其它方面,用于导航、搜索和执行发现活动的工具可以提供给用户以便执行和提供一个允许用户创建“(实时)on the fly”连接到可编辑环境的网页的工具,例如wiki。
参见图8A-8B,根据本发明的一个方面显示了描述过程800用于使用Wifier功能的流程图。过程800在步骤802开始,在控制下立即转到步骤804。
在这样一个方面,在步骤804用户登录到系统或进入概念网络入口,显示图9中所示的GUI屏幕。如步骤806所示图9的GUI屏幕将使用户输入一个概念。用户也能在步骤808选择功能(即,或者是Wikifier,或者是概念网络导航器)。在选择功能之后,服务器106在步骤810启动选择的功能,并在步骤812提示用户选择一个数据源。数据源选择可以显示为一个如图10所示的下拉屏幕。显示的示范性数据源包括PubMed、BioMedCentral、Google、Google Scholar和Pub Repository。一旦用户在步骤812选择了数据源,然后在步骤814根据本发明的系统经由Wiki代理服务器访问和通过所选的数据源,然后在步骤816高亮显示数据源网站中的概念。不同数据源的示范性显示如图15-22所示。
接着,在步骤818用户可以利用不同的Wikifier搜索功能和能力,例如获得一个概念的定义、链接概念到概念网、获得搜索其它带有概念的站点的方法等等,如图23所示。如图24所示,在步骤820,用户进一步的看到高亮显示概念目录,其中高亮显示概念将取决于用户从浏览器顶部所示的工具栏所选择的目录。如图25所示,在步骤822得到提示后Wikifier搜索功能列出查询概念并提供一个存在的可用于搜索的站点列表。图26显示了一个示范性的GUI屏幕,其在步骤822当选择Google进行搜索时显示出来。
如图27所示,在合适的站点上,查询扩展可以用于改善用户的查询,在查询过程中,决定步骤824确定用户是否碰到一个未识别的概念。如果不是,过程800进入步骤830。如果用户在步骤824(如图28所示)碰到一个未识别的概念,在决定步骤826,对用户显示一个创建新wiki页面的选项或者仅仅输入另一个概念。如果用户输入另一个概念,过程800进入步骤806。如果用户决定创建一个新的wiki页面,在步骤828创建一个,在这之后对用户显示一个输入另一个概念的选项(步骤830)或者结束过程800(如步骤832所指示的那样)。
实现示例
本发明的各方面,本文描述的方法或者其任何部分和功能可以使用硬件,软件或者它们的混合体实现,并可以用一个或多个计算机系统或其他处理系统来实现。但是,由本发明执行的操作通常涉及的术语,例如增加或者比较,其一般与人类操作员执行的智力操作相关。在大多数情况下,以及在这里描述的任何一个形成本发明一部分的操作中,人类操作员的这样的能力并不是必须的、或者期望的。更确切的说,操作是机器操作。执行本发明操作的有用的机器包括通用目的的数字计算机或相似装置。
事实上,在一个方面,本发明指的是一个或多个能够执行本文所描述的功能的一个和多个计算机系统。一个计算机系统200的例子如图2所示。
计算机系统200包括一个或多个处理器,例如处理器204。处理器204连接到通信基础设施206(例如,通信总线,交叉杆,或者网络)。根据这个示范性计算机系统描述各个不同的软件方面。在阅读说明书之后,对相关领域技术人员来说怎样使用其他计算机系统和/或架构实现本发明是很显然的。
计算机系统200可包括显示接口202,可将图片、文本和其它来自通讯基础设施206(或者来自未示出的帧缓存)的数据送去显示在显示单元230上。
计算机系统200也包括主存储器208,优选的是随机存取存储器(RAM),也可以包括第二存储器210。例如,第二存储器210可以包括一个硬盘驱动器212和/或可移除存储驱动器214,表示为软盘驱动器、磁带驱动器、光盘存储器等等。可移除存储驱动器214以公知的方式读取和/或写入可移除存储单元218。被可移除存储驱动器214读取和写入的可移除存储单元218表示软盘、磁带、光盘等等。可以理解的是,可移除存储单元218包括计算机可用的具有存储在其上的软件和/或数据的存储媒体。
在可选地方面,第二存储器210可以包括其他类似的装置以允许计算机程序或其它指令载入计算机系统200。例如,这样的装置可以包括可移除存储单元222和接口220。这样的例子可以包括程序盒式存储器和盒式存储器接口(例如在视频游戏装置中的那种)、可移除存储器芯片(例如可擦写可编程的只读存储器(EPROM)、或者可编程只读存储器(PROM))和相关的插座、和其它可移除存储单元222和接口220,以允许软件和数据从可移除存储单元222传送到计算机系统200。
计算机系统200还可以包括一个通信接口224。通信接口224允许软件和数据在计算机系统200和外部设备之间传输。通信接口224的例子包括调制解调器、网络接口(例如,以太网卡)、通信端口、个人计算机内存卡国际联合会(PCMCIA)插槽和卡等等。通过通信接口224传输的软件和数据是以信号228的形式,其可以是电的、电磁的、光学的或其他能够被通信接口224接收的信号。这些信号228通过通信路径(例如,通道)226提供给通信接口224。这个通道226传输信号228,可以使用电线或线缆、光纤、电话线、蜂窝链路、无线频率(RF)链路和其它通信通道实现。
在这个文档中,术语“计算机程序媒体”和“计算机可用媒体”通常指的是,例如可移除存储驱动器214、安装在硬盘驱动器212上的硬盘和信号228。这些计算机程序产品提供软件给计算机系统200。本发明即是针对这样的计算机程序产品。
计算机程序(也也表示为计算机控制逻辑)存储在主存储器208和/或第二存储器210中。计算机程序也可以通过通信接口224接收,所述计算机程序被执行时,能使得计算机系统200执行本文所讨论的本发明的特征。特别地,计算机程序在执行时使得处理器204完成本发明的特征。因此,这样的程序产品代表计算机系统200的控制器。
在本发明使用软件实现的这个方面,软件可以存储在计算机程序产品中并使用可移除存储驱动器214、硬盘驱动器212或通信接口224载入到计算机系统200。控制逻辑(软件)由处理器204执行时,使得处理器204完成本文描述的本发明的功能。
在另一个方面,本发明主要以硬件实现,例如使用硬件组件,如专用集成电路(ASICs)。用来执行本文描述的功能的硬件状态机的实现对相关领域的技术人员来说是显然的。
在另一个方面,本发明使用软件和硬件的结合来实现。
结论
因为本发明的各个方面都在上面进行了描述,容易理解的是他们用举例的方式表示,但并不用于限制。对相关领域的技术人员来说显然的是可以作出各种形式的改变和细节而不脱离本发明的精神和范围。因此,本发明不受任何上述示例所限制,仅根据随后的权利要求及其等同的方式所定义。
另外,容易理解的是附件中显示的可以突出本发明优势和功能的附图仅仅是为了说明性目的。本发明的结构非常灵活和可配置以致于它可以通过除了显示在相关附图中方式的其它方式被使用(被导航)。
进一步的,前述摘要的目的一般是为了使美国专利和商标局和公众,尤其是不熟悉专利或法律条款或措辞的科学家、工程师、相关领域从业者快速判断出本技术公开的粗略查看的性质和本质。摘要并非是要将本发明的范围限制为任一方式。
计算机程序列表附录1
当结合所附的计算机程序列表附录1来阅读上文的详细描述时,本发明的优势和特征将变得更清楚。本专利文档公开的这个部分包括受版权保护的内容。当它出现在专利和商标局的专利文件或记录中时,版权拥有者并不反对任何人的对专利文档或专利的公开内容的复制,但在别的情况下保留所有的版权权利。
[00146]   <?xml version=′1.0′encoding=′UTF-8′?>
[00147]   <knowlets>
[00148]    <info>
[00149]     <import id=′new′/>
[00150]     <creation-date>2006-09-3008:27:52.509000</creation-date>
[00151]     <application_domain id=′lifesciences′/>
[00152]     <author>create_semantic_network.py</author>
[00153]     <sources>
[00154]      <source id=′knewco′title=′KnewCo Mined′type=′mined′/>
[00155]      <source id=′um ls′title=′UMLS semantic network′type=′factual′/>
[00156]     </sources>
[00157]     <relations-info>
[00158]      <relation-info id=′11′title=′CHD′type=′factual′/>
[00159]      <relation-info id=′12′title=′DEL′type=′factual′/>
[00160]      <relation-info id=′13′title=′PAR′type=′factual′/>
[00161]      <relation-info id=′14′title=′QB′type=′factual′/>
[00162]      <relation-info id=′15′title=′RB′type=′factual′/>
[00163]    <relation-info id=′16′title=′RL′type=′factual′/>
[00164]    <relation-info id=′17′title=′RN′type=′factual′/>
[00165]    <relation-info id=′18′title=′RO′type=′factual′/>
[00166]    <relation-info id=′19′title=′RQ′type=′factual′/>
[00167]    <relation-info id=′20′title=′RU′type=′factual′/>
[00168]    <relation-info id=′100′title=′access_instrument_of′type=′factual′/>
[00169]    <relation-info id=′101′title=′access_of′type=′factual′/>
[00170]    <relation-info id=′102′title=′active_ingredient_of′type=′factual′/>
[00171]    <relation-info id=′103′title=′actual_outcome_of′type=′factual′/>
[00172]    <relation-info id=′104′title=′adjectival_form_of′type=′factual′/>
[00173]    <relation-info id=′105′title=′adjustment_of′type=′factual′/>
[00174]    <relation-info id=′106′title=′affected_by′type=′factual′/>
[00175]    <relation-info id=′107′title=′atfects′type=′factual′/>
[00176]    <relation-info id=′108′title=′analyzed_by′type=′factual′/>
[00177]    <relation-info id=′109′title=′analyzes′type=′factual′/>
[00178]    <relation-info id=′110′title=′approach_of′type=′factual′/>
[00179]    <relation-info id=′111′title=′associated_disease′type=′factual′/>
[00180]    <relation-info id=′112′title=′associated_finding_of′type=′factual′/>
[00181]    <relation-info id=′113′title=′associated_genetic_condition′type=′factual′/>
[00182]    <relation-info id=′114′title=′associated_morphology_of′type=′factual′/>
[00183]    <relation-info id=′115′title=′associated_procedure_of=′type=′factual′/>
[00184]    <relation-info id=′116′title=′associated_with′type=′factual′/>
[00185]    <relation-info id=′117′title=′branch_of′type=′factual′/>
[00186]    <relation-info id=′119′title=′causative_agent_of′type=′factual′/>
[00187]    <relation-info id=′120′title=′cause_of=′type=′factual′/>
[00188]    <relation-info id=′121′title=′challenge_of′type=′factual′/>
[00189]    <relation-info id=′122′title=′classified_as′type=′factual′/>
[00190]    <relation-info id=′123′title=′classifies′type=′factual′/>
[00191]    <relation-info id=′124′title=′clinically_associated_with′type=′factual/>
[00192]    <relation-info id=′125′title=′clinically_similar′type=′factual′/>
[00193]    <relation-info id=′126′title=′co-occurs_with′type=′factual′/>
[00194]    <relation-info id=′127′title=′component_of′type=′factual′/>
[00195]    <relation-info id=′128′title=′conceptual_part_of′type=′factual′/>
[00196]    <relation-info id=′129′title=′consists_of′type=′factual′/>
[00197]    <relation-info id=′130′title=′constitutes′type=′factual′/>
[00198]    <relation-info id=′131′title=′contained_in′type=′factual′/>
[00199]    <relation-info id=′132′title=′contains′type=′factual′/>
[00200]    <relation-info id=′133′title=′contraindicated_with′type=′factual′/>
[00201]    <relation-info id=′134′title=′course_of′type=′factual′/>
[00202]    <relation-info id=′138′title=′definitional_manifestation_of′type=′factual′/>
[00203]    <relation-info id=′139′title=′degree_of′type=′factual′/>
[00204]    <relation-info id=′140′title=′diagnosed_by′type=′factual′/>
[00205]    <relation-info id=′141′title=′diagnoses′type=′factual′/>
[00206]    <relation-info id=′142′title=′direct_device_of′type=′factual′/>
[00207]    <relation-info id=′143′title=′direct_morphology_of′type=′factual′/>
[00208]    <relation-info id=′144′title=′direct_procedure_site_of′type=′factual′/>
[00209]    <relation-info id=′145′title=′direct_substance_of′type=′factual′/>
[00210]    <relation-info id=′146′title=′divisor_of′type=′factual/>
[00211]    <relation-info id=′147′title=′dose_form_of′type=′factual′/>
[00212]    <relation-info id=′148′title=′drug_contraindicated_for′type=′factual′/>
[00213]    <relation-info id=′149′title=′due_to′type=′factual′/>
[00214]    <relation-info id=′150′title=′encoded_by_gene′type=′factual′/>
[00215]    <relation-info id=′151′title=′encodes_gene_product′type=′factual′/>
[00216]    <relation-info id=′152′title=′episodicity_of′type=′factual′/>
[00217]    <relation-info id=′153′title=′evaluation_of′type=′factual′/>
[00218]    <relation-info id=′154′title=′exhibited_by′type=′factual′/>
[00219]    <relation-info id=′155′title=′exhibits′type=′factual′/>
[00220]    <relation-info id=′156′title=′expanded_form_of′type=′factual′/>
[00221]    <relation-info id=′157′title=′expected_outcome_of′type=′factual′/>
[00222]    <relation-info id=′158′title=′finding_context_of′type=′factual′/>
[00223]    <relation-info id=′159′title=′finding_site_of′type=′factual′/>
[00224]    <relation-info id=′160′title=′focus_of′type=′factual′/>
[00225]    <relation-info id=′161′title=′form_of′type=′factual′/>
[00226]    <relation-info id=′162′title=′has_access_instrument′type=′factual′/>
[00227]    <relation-info id=′163′title=′has_access′type=′factual′/>
[00228]    <relation-info id=′164′title=′has_active_ingredient′type=′factual′/>
[00229]    <relation-info id=′165′title=′has_actual_outcome′type=′factual′/>
[00230]    <relation-info id=′166′title=′has_adjustment′type=′factual′/>
[00231]    <relation-info id=′167′title=′has_approach′type=′factual′/>
[00232]    <relation-info id=′168′title=′has_associated_finding′type=′factual′/>
[00233]    <relation-info id=′169′title=′has_associated_morphology′type=′factual′/>
[00234]    <relation-info id=′170′title=′has_associated_procedure′type=′factual′/>
[00235]    <relation-info id=′171′title=′has_branch′type=′factual′/>
[00236]    <relation-info id=′173′title=′has_causative_agent′type=′factual′/>
[00237]    <relation-info id=′174′title=′has_challenge′type=′factual′/>
[00238]            <relation-info id=′175′title=′has_component′type=′factual′/>
[00239]            <relation-info id=′176′title=′has_conceptual_part′type=′factual′/>
[00240]            <relation-info id=′177′title=′has_contraindicated_drug′type=′factual′/>
[00241]            <relation-info id=′178′title=′has_contraindication′type=′factual′/>
[00242]            <relation-info id=′179′title=′has_course′type=′factual′/>
[00243]            <relation-info          id=′180′        title=′has_definitional_manifestation′
type=′factual′/>
[00244]            <relation-info id=′181′title=′has_degree′type=′factual′/>
[00245]            <relation-info id=′182′title=′has_direct_device′type=′factual′/>
[00246]            <relation-info id=′183′title=′has_direct_morphology′type=′factual′/>
[00247]            <relation-info id=′184′title=′has_direct_procedure_site′type=′factual′/>
[00248]            <relation-info id=′185′title=′has_direct_substance′type=′factual′/>
[00249]            <relation-info id=′186′title=′has_divisor′type=′factual′/>
[00250]            <relation-info id=′187′title=′has_dose_form′type=′factual′/>
[00251]            <relation-info id=′188′title=′has_episodicity′type=′factual′/>
[00252]            <relation-info id=′189′title=′has_evaluation′fype=′factual′/>
[00253]            <relation-info id=′190′title=′has_expanded_form′type=′factual′/>
[00254]            <relation-info id=′191′title=′has_expected_outcome′type=′factual′/>
[00255]            <relation-info id=′192′title=′has_finding_context′type=′factual′/>
[00256]            <relation-info id=′193′title=′has_finding_site′type=′factual′/>
[00257]            <relation-info id=′194′title=′has_focus′type=′factual′/>
[00258]            <relation-info id=′195′title=′has_form′type=′factual′/>
[00259]            <relation-info id=′196′title=′has_indirect_device′type=′factual′/>
[00260]            <relation-info id=′197′title=′has_indirect_morphology′type=′factual′/>
[00261]            <relation-info id=′198′title=′has_indirect_procedure_site′type=′factual′/>
[00262]    <relation-info id=′199′title=′has_ingredient′type=′factual′/>
[00263]    <relation-info id=′200′title=′has_intent′type=′factual′/>
[00264]    <relation-info id=′201′title=′has_interpretation′type=′factual′/>
[00265]    <relation-info id=′202′title=′has_laterality′type=′factual′/>
[00266]    <relation-info id=′203′title=′has_location′type=′factual′/>
[00267]    <relation-info id=′204′title=′has_manifestation′type=′factual′/>
[00268]    <relation-info id=′205′title=′has_measurement_metho d′type=′factual′/>
[00269]    <relation-info id=′206′title=′has_mechanism_of_action′type=′factual′/>
[00270]    <relation-info id=′207′title=′has_member′type=′factual′/>
[00271]    <relation-info id=′208′title=′has_method′type=′factual′/>
[00272]    <relation-info id=′209′title=′has_multi_level_category′type=′factual′/>
[00273]    <relation-info id=′210′title=′has_occurrence′type=′factual′/>
[00274]    <relation-info id=′211′title=′has_onset′type=′factual′/>
[00275]    <relation-info id=′212′title=′has_outcome′type=′factual′/>
[00276]    <relation-info id=′213′title=′has_part′type=′factual′/>
[00277]    <relation-info id=′214′title=′has_pathological_process′type=′factual′/>
[00278]    <relation-info id=′215′title=′has_permuted_term′type=′factual′/>
[00279]    <relation-info id=′216′title=′has_pharmacokinetics′type=′factual′/>
[00280]    <relation-info id=′217′title=′has_physiologic_effect′type=′factual′/>
[00281]    <relation-info id=′218′title=′has_plain_text_form′type=′factual′/>
[00282]    <relation-info id=′219′title=′has_precise_ingredient′type=′factual′/>
[00283]    <relation-info id=′220′title=′has_priority′type=′factual′/>
[00284]    <relation-info id=′221′title=′has_procedure_context′type=′factual′/>
[00285]    <relation-info id=′222′title=′has_procedure_device′type=′factual′/>
[00286]    <relation-info id=′223′title=′has_procedure_morphology′type=′factual′/>
[00287]            <relation-info id=′224′title=′has_procedure_site′type=′factual′/>
[00288]            <relation-info id=′225′title=′has_process′type=′factual′/>
[00289]            <relation-info id=′226′title=′has_property′type=′factual′/>
[00290]            <relation-info id=′227′title=′has_recipient_category′type=′factual′/>
[00291]            <relation-info id=′228′title=′has_result′type=′factual′/>
[00292]            <relation-info id=′229′title=′has_revision_status′type=′factual′>
[00293]            <relation-info id=′230′title=′has_scale_type′type=′factual′/>
[00294]            <relation-info id=′231′title=′has_scale′type=′factual′/>
[00295]            <relation-info id=′232′title=′has_severity′type=′factual′/>
[00296]            <relation-info id=′233′title=′has_single_level_category′type=′factual′/>
[00297]            <relation-info id=′234′title=′has_specimen_procedure′type=′factual′/>
[00298]            <relation-info          id=′235′        title=′has_specimen_source_identity′
type=′factual′/>
[00299]            <relation-info id=′236′title=′has_specimen_source_morphology′
type=′factual′/>
[00300]            <relation-info          id=′237′title=′has_specimen_source_topography′
type=′factual′/>
[00301]            <relation-info id=′238′title=′has_specimen_substance′type=′factual′/>
[00302]            <relation-info id=′239′title=′has_specimen′type=′factual′/>
[00303]            <relation-info          id=′240′title=′has_subject_relationship_context′
type=′factual′/>
[00304]            <relation-info id=′241′title=′has_suffix′type=′factual′/>
[00305]            <relation-info id=′242′title=′has_supersystem′type=′factual′/>
[00306]            <relation-info id=′243′title=′has_system′type=′factual′/>
[00307]            <relation-info id=′244′title=′has_temporal_context′type=′factual′/>
[00308]    <relation-info id=′245′title=′has_time_aspect′type=′factual′/>
[00309]    <relation-info id=′246′title=′has_tradename′type=′factual′/>
[00310]    <relation-info id=′247′title=′has_translation′type=′factual′/>
[00311]    <relation-info id=′248′title=′has_tributary′type=′factual′/>
[00312]    <relation-info id=′249′title=′has_version′type=′factual′/>
[00313]    <relation-info id=′253′title=′indicated_by′type=′factual′/>
[00314]    <relation-info id=′254′title=′indicates′type=′factual′/>
[00315]    <relation-info id=′255′title=′indirect_device_of′type=′factual′/>
[00316]    <relation-info id=′256′title=′indirect_morphology_of′type=′factual′/>
[00317]    <relation-info id=′257′title=′indirect_procedure_site_of′type=′factual′/>
[00318]    <relation-info id=′258′title=′induced_by′type=′factual′/>
[00319]    <relation-info id=′259′title=′induces′type=′factual′/>
[00320]    <relation-info id=′260′title=′ingredient_of′type=′factual′/>
[00321]    <relation-info id=′261′title=′intent_of′type=′factual′/>
[00322]    <relation-info id=′262′title=′interpretation_of′type=′factual′/>
[00323]    <relation-info id=′263′title=′interprets′type=′factual′/>
[00324]    <relation-info id=′264′title=′inverse_isa′type=′factual′/>
[00325]    <relation-info id=′265′title=′inverse_may_be_a′type=′factual′/>
[00326]    <relation-info id=′266′title=′inverse_was_a′type=′factual′/>
[00327]    <relation-info id=′267′title=′is_interpreted_by′type=′factual′/>
[00328]    <relation-info id=′268′title=′isa′type=′factual′/>
[00329]    <relation-info id=′269′title=′larger_than′type=′factual′/>
[00330]    <relation-info id=′270′title=′laterality_of′type=′factual′/>
[00331]    <relation-info id=′271′title=′location_of′type=′factual′/>
[00332]    <relation-info id=′272′title=′manifestation_of type=′factual′/>
[00333]    <relation-info id=′275′title=′may_be_a′type=′factual′/>
[00334]    <relation-info id=′276′title=′may_be_diagnosed_by′type=′factual′/>
[00335]    <relation-info id=′277′title=′may_be_prevented_by′type=′factual′/>
[00336]    <relation-info id=′278′title=′may_be_treated_by′type=′factual′/>
[00337]    <relation-info id=′279′title=′may_diagnose′type=′factual′/>
[00338]    <relation-info id=′280′title=′may_prevent′type=′factual′/>
[00339]    <relation-info id=′281′title=′may_treat′type=′factual′/>
[00340]    <relation-info id=′282′title=′measured_by′type=′factual′/>
[00341]    <relation-info id=′283′title=′measurement_method_of′type=′factual′/>
[00342]    <relation-info id=′284′title=′measures′type=′factual′/>
[00343]    <relation-info id=′285′title=′mechanism_of_action_of′type=′factual′/>
[00344]    <relation-info id=′286′title=′member_of_cluster′type=′factual′/>
[00345]    <relation-info id=′287′title=′metabolic_site_of′type=′factual′/>
[00346]    <relation-info id=′288′title=′metabolized_by′type=′factual′/>
[00347]    <relation-info id=′289′title=′metabolizes′type=′factual′/>
[00348]    <relation-info id=′290′title=′method_of′type=′factual′/>
[00349]    <relation-info id=′291′title=′modified_by′type=′factual′/>
[00350]    <relation-info id=′292′title=′modifies′type=′factual′/>
[00351]    <relation-info id=′293′title=′moved_from′type=′factual′/>
[00352]    <relation-info id=′294′title=′moved_to′type=′factual′/>
[00353]    <relation-info id=′298′title=′mth_has_expanded_form′type=′factual′/>
[00354]    <relation-info id=′301′title=′mth_plain_text_form_of′type=′factual′/>
[00355]    <relation-info id=′306′title=′occurs_after′type=′factual′/>
[00356]    <relation-info id=′307′title=′occurs_before′type=′factual′/>
[00357]    <relation-info id=′308′title=′occurs_in′type=′factual′/>
[00358]    <relation-info id=′309′title=′onset_of′type=′factual′/>
[00359]    <relation-info id=′312′title=′outcome_of′type=′factual′/>
[00360]    <relation-info id=′313′title=′part_of′type=′factual′/>
[00361]    <relation-info id=′314′title=′pathologica!_process_of′type=′factual′/>
[00362]    <relation-info id=′316′title=′pharmacokinetics_of′type=′factual′/>
[00363]    <relation-info id=′317′title=′physiologic_effect_of′type=′factual′/>
[00364]    <relation-info id=′319′title=′precise_ingredient_of′type=′factual′/>
[00365]    <relation-info id=′322′title=′priority_of′type=′factual′/>
[00366]    <relation-info id=′323′title=′procedure_context_of′type=′factual′/>
[00367]    <relation-info id=′324′title=′procedure_device_of′type=′factual′/>
[00368]    <relation-info id=′325′title=′procedure_morphology_of′type=′factual′/>
[00369]    <relation-info id=′326′title=′procedure_site_of′type=′factual′/>
[00370]    <relation-info id=′327′title=′process_of′type=′factual′/>
[00371]    <relation-info id=′328′title=′property_of′type=′factual′/>
[00372]    <relation-info id=′329′title=′recipient_category_of′type=′factual′/>
[00373]    <relation-info id=′330′title=′replaced_by′type=′factual′/>
[00374]    <relation-info id=′331′title=′replaces′type=′factual′/>
[00375]    <relation-info id=′332′title=′result_of′type=′factual′/>
[00376]    <relation-info id=′333′title=′revision_status_of′type=′factual′/>
[00377]    <relation-info id=′334′title=′same_as′type=′factual′/>
[00378]    <relation-info id=′335′title=′scale_of′type=′factual′/>
[00379]    <relation-info id=′336′title=′scale_type_of′type=′factual′/>
[00380]    <relation-info id=′339′title=′severity_of′type=′factual′/>
[00381]    <relation-info id=′340′title=′sib_in_branch_of′type=′factual′/>
[00382]    <relation-info id=′341′title=′sib_in_isa′type=′factual′/>
[00383]              <relation-info id=′342′title=′sib_in_part_of′type=′factual′/>
[00384]              <relation-info id=′343′title=′sib_in_tributary_of′type=′factual′/>
[00385]              <relation-info id=′344′title=′site_of_metabolism′type=′factual′/>
[00386]              <relation-info id=′345′title=′smaller_than′type=′factual′/>
[00387]              <relation-info id=′346′title=′specimen_of′type=′factual′/>
[00388]              <relation-info id=′347′title=′specimen_procedure_of′type=′factual′/>
[00389]              <relation-info id=′348′title=′specimen_source_identity_of′type=′factual′/>
[00390]              <relation-info    id=′349′title=′specimen_source_morphology_of′
type=′factual′/>
[00391]              <relation-info    id=′350′title=′specimen_source_topography_of′
type=′factual′/>
[00392]              <relation-info id=′351′title=′specimen_substance_of′type=′factual′/>
[00393]              <relation-info id=′352′title=′ssc′type=′factual′/>
[00394]              <relation-info    id=′353′title=′subject_relationship_context_of′
type=′factual′/>
[00395]              <relation-info id=′354′title=′suffix_of′type=′factual′/>
[00396]              <relation-info id=′355′title=′supersystem_of′type=′factual′/>
[00397]              <relation-info id=′356′title=′system_of′type=′factual′/>
[00398]              <relation-info id=′357′title=′temporal_context_of′type=′factual′/>
[00399]              <relation-info id=′358′title=′time_aspect_of′type=′factual′/>
[00400]              <relation-info id=′359′title=′tradename_of′type=′factual′/>
[00401]              <relation-info id=′360′title=′translation_of′type=′factual′/>
[00402]              <relation-info id=′361′title=′treated_by′type=′factual′/>
[00403]              <relation-info id=′362′title=′treats′type=′factual′/>
[00404]              <relation-info id=′363′title=′tributary_of′type=′factual′/>
[00405]              <relation-info id=′364′title=′uniquely_mapped_from′type=′factual′/>
[00406]              <relation-info id=′365′title=′uniquely_mapped_to′type=′facrual′/>
[00407]              <relation-info id=′366′title=′used_by′type=′factual′/>
[00408]              <relation-info id=′367′title=′used_for′type=′factual′/>
[00409]              <relation-info id=′368′title=′uses′type=′factual′/>
[00410]              <relation-info id=′369′title=′use′type=′factual′/>
[00411]              <relation-info id=′370′title=′version_of′type=′factual′/>
[00412]              <relation-info id=′371′title=′was_a′type=′factual′/>
[00413]            </relations-info>
[00414]           </info>
[00415]           <knowlet  id=′Amino  Acid,Peptide,or  Protein/(131)I-Macroaggregated
Albumin′title=′(131)I-Macroaggregated Albumin′>
[00416]            <semantic-types>
[00417]             <semantic-type id=′116′label=′Amino Acid,Peptide,or Protein′/>
[00418]             <semantic-type id=′121′label=′Pharmacologic Substance′/>
[00419]             <semantic-type id=′130′label=′Indicator,Reagent,or Diagnostic Aid′/>
[00420]            </semantic-types>
[00421]            <relations>
[00422]             <relation id=′15′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/Serum Albumin,Radio-Iodinated′/>
[00423]           </relations>
[00424]          </knowlet>
[00425]          <knowlet    id=′Lipid/1,2-Dipalmitoylphosphatidylcholine′      title=′1,2-
Dipalmitoylphosphatidylcholine′>
[00426]           <semantic-types>
[00427]     <semantic-type id=′119′label=′Lipid′/>
[00428]     <semantic-type id=′121′label=′Pharmacologic Substance′/>
[00429]    </semantic-types>
[00430]    <relations>
[00431]     <relation id=′13′strength=′1.0′source=′umls′knowlet-id=′Lipid/Lecithin′/>
[00432]     <relation  id=′215′strength=′1.0′source=′umls′knowlet-id=′Lipid/1,2-
Dipalmitoylphosphatidylcholine′/>
[00433]     <relation   id=′284′strength=′1.0′source=′umls′knowlet-id=′Clinical
Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS
CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE′/>
[00434]     <relation  id=′215′strength=′1.0′source=′uml s′knowlet-id=′Lipid/1,2-
Dipalmitoylphosphatidylcholine′/>
[00435]     <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Lipid/1,2-
Dipalmitoylphosphatidylcholine′/>
[00436]     <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Lipid/1,2-
Dipalmitoylphosphatidylcholine′/>
[00437]     <relation       id=′268′ strength=′1.0′   source=′umls′      knowlet-
id=′Lipid/colfosceril palmitate′/>
[00438]     <relation       id=′264′ strength=′1.0′   source=′umls′      knowlet-
id=′Lipid/Lecithin′/>
[00439]     <relation       id=′264′ strength=′1.0′   source=′umls′      knowlet-
id=′Lipid/Pulmonary Surfactants′/>
[00440]     <relation  id=′264′      strength=′1.0′   source=′umls′      knowlet-
id=′Lipid/Lecithin′/>
[00441]            <relation  id=′264′strength=′1.0′source=′umls′knowlet-
id=′Lipid/Pulmonart Surfactants′/>
[00442]            <relation  id=′268′strength=′1.0′source=′umls′knowlet-
id=′Lipid/colfosceril palmitate′/>
[00443]            <relation  id=′175′strength=′1.0′source=′umls′knowlet-id=′Clinical
Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS
CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE′/>
[00444]     <relation id=′18′strength=′1.0′source=′umls′knowlet-id=′Lipid/colfosceril
palmitate′/>
[00445]          <relation   id=′18′  strength=′1.0′   source=′umls′ knowlet-id=′Clinical
Attribute/DIPALMITOYLPHOSPHATIDYLCHOLINE:MASS
CONCENTRATION:POINT IN TIME:SERUM:QUANTITATIVE′/>
[00446]          </relations>
[00447]         </knowlet>
[00448]         <knowlet id=′Amino Acid,Peptide,or Protein/1,4-alpha-Glucan Branching
Enzyme′title=′1,4-alpha-Glucan Branching Enzyme′>
[00449]             <semantic-types>
[00450]              <semantic-type id=′116′label=′Amino Acid,Peptide,or Protein′/>
[00451]              <semantic-type id=′126′label=′Enzyme′/>
[00452]             </semantic-types>
[00453]             <relations>
[00454]              <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00455]              <relation id=′13′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/Glucosyltransferases′/>
[00456]             <relation id=′17′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/Glycogen Branching Enzyme′/>
[00457]             <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00458]             <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00459]             <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Ami no Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00460]             <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00461]             <relation  id=′284′strength=′1.0′source=′umls′knowlet-id=′Clinical
Attribute/1,4-ALPHA          GLUCAN          BRANCHING                ENZYME:CATALYTIC
CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE′/>
[00462]          <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00463]             <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1,4-alpha-Glucan Branching Enzyme′/>
[00464]             <relation  id=′175′strength=′1.0′source=′umls′knowlet-id=′Clinical
Attribute/1,4-ALPHA          GLUCAN          BRANCHING               ENZYME:CATALYTIC
CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE′/>
[00465]     <relation   id=′18′  strength=′1.0′source=′umls′knowlet-
id=′Carbohydrate/1,4-glucan′/>
[00466]     <relation  id=′18′strength=′1.0′source=′umls′knowlet-id=′Clinical
Attribute/1,4-ALPHA    GLUCAN         BRANCHING                ENZYME:CATALYTIC
CONCENTRATION:POINT IN TIME:LEUKOCYTES:QUANTITATIVE′/>
[00467]       <relation id=′18′strength=′1.0′source=′umls′knowlet-id=′Gene or
Genome/GBE1 gene′/>
[00468]       </relations>
[00469]      </knowlet>
[00470]      <knowlet   id=′Lipid/1-Alkyl-2-Acylphosphatidates′title=′1-Alkyl-2-
Acylphosphatidates′>
[00471]       <semantic-types>
[00472]        <semantic-type id=′119′label=′Lipid′/>
[00473]       </semantic-types>
[00474]       <relations>
[00475]        <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Lipid/1-Alkyl-
2-Acylphosphatidates′/>
[00476]        <relation        id=′15′       strength=′1.0′   source=′umls′   knowlet-
id=′Lipid/Phospholipid Ethers′/>
[00477]       </relations>
[00478]      </knowlet>
[00479]      <knowlet id=′Amino Acid,Peptide,or Protein/1-Carboxyglutamic Acid′
title=′1-Carboxyglutamic Acid′>
[00480]       <semantic-types>
[00481]        <semantic-type id=′116′label=′Amino Acid,Peptide,or Protein′/>
[00482]        <semantic-type id=′123′label=′Biologically Active Substance′/>
[00483]       </semantic-types>
[00484]       <relations>
[00485]        <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/1-Carboxyglutamic Acid′/>
[00486]          <relation id=′13′strength=′1.0′source=′umls′knowlet-id=′Organic
Chemical/Tricarboxylic Acids′/>
[00487]          <relation id=′13′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/Glutamic Acid′/>
[00488]          <relation id=′17′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/gamma-Carboxyglutamate′/>
[00489]          <relation id=′215′strength=′1.0′source=′umls′knowlet-id=′Amino Acid,
Peptide,or Protein/l-Carboxyglutamic Acid′/>
[00490]         </relations>
[00491]        </knowlet>
[00492]        …
[00493]      <knowlets>

Claims (42)

1、一种利用知识网络站点使得知识导航和发现更加便利的方法,包括:
a.识别所述知识网络站点的一个用户;
b.在所述知识网络站点内为所述用户建立一个网页;
c.确定所述用户网页要公布在所述知识网络站点上的部分;
d.创建一个到被浏览网页的URL的链接,所述被浏览网页包括被所述用户识别出来的概念;以及
e.在所述用户的网页上公布所述被浏览网页的URL。
2、如权利要求1所述的方法,进一步包括确定要公布在所述知识网络站点上的URL。
3、如权利要求1所述的方法,进一步包括为所述用户创建一个概念数据库。
4、如权利要求1所述的方法,进一步包括整理所述被公布的URL。
5、如权利要求1所述的方法,进一步包括高亮显示与所述用户识别的概念相关的被公布的URL。
6、如权利要求1所述的方法,进一步包括识别与所述被识别的概念相关的个体。
7、一种利用知识网络站点使得知识导航和发现更加便利的方法,包括:
a.将至少一个数据库载入到计算机存储器中,该至少一个数据库包括与一领域相关的多个记录;
b.加载至少一个主题词表到所述计算机存储器,其中所述至少一个主题词表包括N个与所述领域相关的概念;
c.解析一活动网页的HTML代码;
d.在所述网页上高亮显示在所述主题词表中发现的至少一个概念;和
e.将所述HTML代码的包括所述高亮显示的至少一个概念的部分拷贝到一个维基。
8、如权利要求7所述的方法,进一步包括识别至少一个不在所述至少一个主题词表中的概念。
9、如权利要求8所述的方法,进一步包括为所述至少一个概念创建一个维基页面。
10、如权利要求7所述的方法,进一步包括基于所述高亮显示的至少一个概念搜索所述知识网络站点。
11、如权利要求7所述的方法,进一步包括基于所述高亮显示的至少一个概念搜索一个选择的维基页面。
12、如权利要求7所述的方法,进一步包括在一数据库内编译与所述高亮显示的至少一个概念相关的信息。
13、如权利要求12所述的方法,进一步包括以统一的格式表示所述信息。
14、如权利要求7所述的方法,进一步包括输入对所述高亮显示的至少一个概念的评论。
15、如权利要求14所述的方法,进一步包括对所述高亮显示的至少一个概念的评论进行编辑。
16、一种利用知识网络站点使得知识导航和发现更加便利的方法,包括:
a.在一个网页内选择两个或更多个概念;
b.提出所述概念之间实际的关系;
c.在每个所述概念的单个维基页面上创建所述概念之间的一个联系。
17、如权利要求16所述的方法,进一步包括:
a.搜索包括预先确定的实际的关系的一个数据库;和
b.显示所述被选概念之间的预先记录的实际的关系。
18、如权利要求16所述的方法,进一步包括显示所述被选概念的定义。
19、如权利要求16所述的方法,进一步包括以排序列表方式显示所述被选概念。
20、如权利要求16所述的方法,进一步包括定位与所述被选概念相关的个体。
21、如权利要求16所述的方法,进一步包括将所述提出的实际的关系公布到所述知识网络站点上。
22、一种计算机程序产品,包括一计算机可用媒介,在该计算机可用媒介中存储有控制逻辑,用于使得计算机利用知识网络站点使得知识导航和发现更加便利,所述控制逻辑包括:
a.第一计算机可读程序代码装置,用于使得计算机识别一个所述知识网络站点的用户;
b.第二计算机可读程序代码装置,用于使得计算机在所述知识网络站点内为所述用户建立一个网页;
c.第三计算机可读程序代码装置,用于使得计算机确定要公布在所述知识网络站点上的所述用户网页的部分;
d.第四计算机可读程序代码装置,用于使得计算机创建一个到被浏览网页的URL的链接,该网页包括被所述用户识别的概念;和
e.第五计算机可读程序代码装置,用于使得计算机将所述被浏览网页的URL公布到所述用户的网页。
23、如权利要求22所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机确定要公布在所述知识网络站点上的URL。
24、如权利要求22所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机为所述用户创建一个概念数据库。
25、如权利要求22所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机整理所述被公布的URL。
26、如权利要求22所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机高亮显示与所述用户识别的概念相关的被公布的URL。
27、如权利要求22所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机识别与所述被识别的概念相关的个体。
28、一种计算机程序产品,包括一计算机可用媒介,在该计算机可用媒介中存储有控制逻辑,用于使得计算机利用知识网络站点使得知识导航和发现更加便利,所述控制逻辑包括:
a.第一计算机可读程序代码装置,用于使得计算机加载至少一个数据库到计算机存储器中,该至少一个数据库包括与一领域相关的多个记录;
b.第二计算机可读程序代码装置,用于使得计算机加载至少一个主题词表到所述计算机存储器,其中所述至少一个主题词表包括N个与所述领域相关的概念;
c.第三计算机可读程序代码装置,用于使得计算机解析一个活动网页的HTML代码;
d.第四计算机可读程序代码装置,用于使得计算机在所述网页上高亮显示在所述至少一个主题词表中发现的至少一个概念;和
e.第五计算机可读程序代码装置,用于使得计算机拷贝所述HTML代码的包括所述高亮显示的至少一个概念的部分到一个维基。
29、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机识别不在所述至少一个主题词表中的至少一个概念。
30、如权利要求29所述的计算机程序产品,进一步包括第七计算机可读程序代码装置,用于使得计算机为所述至少一个概念创建一个维基页面。
31、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机基于所述高亮显示的至少一个概念搜索所述知识网络站点。
32、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机基于所述高亮显示的至少一个概念搜索一个被选择的维基页面。
33、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机在数据库内编译与所述高亮显示的至少一个概念相关的信息。
34、如权利要求33所述的计算机程序产品,进一步包括第七计算机可读程序代码装置,用于使得计算机以统一的格式表示所述信息。
35、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机接受对所述高亮显示的至少一个概念的评论。
36、如权利要求28所述的计算机程序产品,进一步包括第六计算机可读程序代码装置,用于使得计算机能够对所述高亮显示的至少一个概念的评论进行编辑。
37、一种计算机程序产品,包括一计算机可用媒介,在该计算机可用媒介上存储有控制逻辑,用于使得计算机利用知识网络站点使得知识导航和发现更加便利,所述控制逻辑包括:
a.第一计算机可读程序代码装置,用于使得计算机接受在一个网页内对两个或更多个概念的选择;
b.第二计算机可读程序代码装置,用于使得计算机接受在所属概念之间提出的实际的关系;
c.第三计算机可读程序代码装置,用于使得计算机在所述概念的每个单个维基页面上创建所述概念之间的一个链接。
38、如权利要求37所述的计算机程序产品,进一步包括:
a.第四计算机可读程序代码装置,用于使得计算机搜索一数据库,该数据库包括在概念间预先确定的实际的关系;
b.第五计算机可读程序代码装置,用于使得计算机显示所述被选概念之间的预先记录的实际的关系。
39、如权利要求37所述的计算机程序产品,进一步包括第四计算机可读程序代码装置,用于使得计算机显示所述被选概念的定义。
40、如权利要求37所述的计算机程序产品,进一步包括第四计算机可读程序代码装置,用于使得计算机以排序列表的方式显示所述被选概念。
41、如权利要求37所述的计算机程序产品,进一步包括第四计算机可读程序代码装置,用于使得计算机定位与所述被选概念相关的个体。
42、如权利要求37所述的计算机程序产品,进一步包括第四计算机可读程序代码装置,用于使得计算机在所述知识网络站点上公布所述被提出的实际的关系。
CN200880017989A 2007-03-30 2008-03-31 用于知识导航和发现的维基化内容的系统和方法 Pending CN101681351A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US90907207P 2007-03-30 2007-03-30
US60/909,072 2007-03-30
US6421108P 2008-02-21 2008-02-21
US61/064,211 2008-02-21
US6434508P 2008-02-29 2008-02-29
US61/064,345 2008-02-29
US6467008P 2008-03-19 2008-03-19
US61/064,670 2008-03-19
US6478008P 2008-03-26 2008-03-26
US61/064,780 2008-03-26
PCT/US2008/004151 WO2008121377A2 (en) 2007-03-30 2008-03-31 System and method for wikifying content for knowledge navigation and discovery

Publications (1)

Publication Number Publication Date
CN101681351A true CN101681351A (zh) 2010-03-24

Family

ID=39808609

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200880018134A Pending CN101681353A (zh) 2007-03-30 2008-03-31 用于知识导航和发现的数据结构、系统和方法
CN200880017989A Pending CN101681351A (zh) 2007-03-30 2008-03-31 用于知识导航和发现的维基化内容的系统和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN200880018134A Pending CN101681353A (zh) 2007-03-30 2008-03-31 用于知识导航和发现的数据结构、系统和方法

Country Status (9)

Country Link
US (2) US20100174675A1 (zh)
EP (2) EP2143011A4 (zh)
JP (2) JP2010529518A (zh)
CN (2) CN101681353A (zh)
AU (2) AU2008233083A1 (zh)
BR (1) BRPI0811415A2 (zh)
CA (2) CA2682582A1 (zh)
IL (2) IL201232A0 (zh)
WO (2) WO2008121377A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750392A (zh) * 2012-07-09 2012-10-24 浙江省公众信息产业有限公司 Web主题信息提取方法及系统
CN111737407A (zh) * 2020-08-25 2020-10-02 成都数联铭品科技有限公司 基于事件消歧的事件唯一id构建方法

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8103947B2 (en) * 2006-04-20 2012-01-24 Timecove Corporation Collaborative system and method for generating biographical accounts
US8793579B2 (en) 2006-04-20 2014-07-29 Google Inc. Graphical user interfaces for supporting collaborative generation of life stories
US8689098B2 (en) 2006-04-20 2014-04-01 Google Inc. System and method for organizing recorded events using character tags
US7991733B2 (en) * 2007-03-30 2011-08-02 Knewco, Inc. Data structure, system and method for knowledge navigation and discovery
US20100114902A1 (en) * 2008-11-04 2010-05-06 Brigham Young University Hidden-web table interpretation, conceptulization and semantic annotation
US8365079B2 (en) * 2008-12-31 2013-01-29 International Business Machines Corporation Collaborative development of visualization dashboards
US20110179026A1 (en) * 2010-01-21 2011-07-21 Erik Van Mulligen Related Concept Selection Using Semantic and Contextual Relationships
US9514202B2 (en) * 2010-02-26 2016-12-06 Rakuten, Inc. Information processing apparatus, information processing method, program for information processing apparatus and recording medium
US8666785B2 (en) * 2010-07-28 2014-03-04 Wairever Inc. Method and system for semantically coding data providing authoritative terminology with semantic document map
US9208223B1 (en) * 2010-08-17 2015-12-08 Semantifi, Inc. Method and apparatus for indexing and querying knowledge models
JP5148683B2 (ja) * 2010-12-21 2013-02-20 株式会社東芝 映像表示装置
JP6058554B2 (ja) * 2011-01-07 2017-01-11 アイエックスリビール インコーポレイテッド 概念及びリンク発見システム
CN102087669B (zh) * 2011-03-11 2013-01-02 北京汇智卓成科技有限公司 基于语义关联的智能搜索引擎系统
US8671111B2 (en) * 2011-05-31 2014-03-11 International Business Machines Corporation Determination of rules by providing data records in columnar data structures
US8843543B2 (en) 2011-11-15 2014-09-23 Livefyre, Inc. Source attribution of embedded content
US8935230B2 (en) * 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
KR101143466B1 (ko) * 2011-09-26 2012-05-10 한국과학기술정보연구원 연구 연관도 서비스 제공 방법 및 시스템
US8386079B1 (en) 2011-10-28 2013-02-26 Google Inc. Systems and methods for determining semantic information associated with objects
KR101137973B1 (ko) * 2011-11-02 2012-04-20 한국과학기술정보연구원 연관기술 서비스 제공 방법 및 시스템
USD703686S1 (en) * 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
USD705790S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD706793S1 (en) 2011-12-28 2014-06-10 Target Brands, Inc. Display screen with graphical user interface
USD703687S1 (en) 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
USD705791S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD705792S1 (en) 2011-12-28 2014-05-27 Target Brands, Inc. Display screen with graphical user interface
USD715818S1 (en) 2011-12-28 2014-10-21 Target Brands, Inc. Display screen with graphical user interface
USD711399S1 (en) 2011-12-28 2014-08-19 Target Brands, Inc. Display screen with graphical user interface
USD706794S1 (en) 2011-12-28 2014-06-10 Target Brands, Inc. Display screen with graphical user interface
USD711400S1 (en) 2011-12-28 2014-08-19 Target Brands, Inc. Display screen with graphical user interface
USD703685S1 (en) * 2011-12-28 2014-04-29 Target Brands, Inc. Display screen with graphical user interface
US8577824B2 (en) * 2012-01-10 2013-11-05 Siemens Aktiengesellschaft Method and a programmable device for calculating at least one relationship metric of a relationship between objects
CN102779143B (zh) * 2012-01-31 2014-08-27 中国科学院自动化研究所 知识谱系的可视化方法
US8762324B2 (en) * 2012-03-23 2014-06-24 Sap Ag Multi-dimensional query expansion employing semantics and usage statistics
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US9575954B2 (en) 2012-11-05 2017-02-21 Unified Compliance Framework (Network Frontiers) Structured dictionary
CN103701469B (zh) * 2013-12-26 2016-08-31 华中科技大学 一种大规模图数据的压缩存储方法
WO2015129044A1 (ja) * 2014-02-28 2015-09-03 楽天株式会社 情報処理システム、情報処理方法、および情報処理プログラム
CN104331473A (zh) * 2014-11-03 2015-02-04 同方知网(北京)技术有限公司 一种基于知网节的学术知识获取方法及系统
WO2016171927A1 (en) * 2015-04-20 2016-10-27 Unified Compliance Framework (Network Frontiers) Structured dictionary
US10198471B2 (en) * 2015-05-31 2019-02-05 Microsoft Technology Licensing, Llc Joining semantically-related data using big table corpora
US20170116196A1 (en) * 2015-10-23 2017-04-27 Lunatech, Llc Methods And Systems For Searching Using A Progress Engine
WO2017214266A1 (en) * 2016-06-07 2017-12-14 Panoramix Solutions Systems and methods for identifying and classifying text
US11275794B1 (en) * 2017-02-14 2022-03-15 Casepoint LLC CaseAssist story designer
US11158012B1 (en) 2017-02-14 2021-10-26 Casepoint LLC Customizing a data discovery user interface based on artificial intelligence
US10740557B1 (en) 2017-02-14 2020-08-11 Casepoint LLC Technology platform for data discovery
CN111259161B (zh) * 2018-11-30 2022-02-08 杭州海康威视数字技术股份有限公司 本体建立方法、装置及存储介质
US11960518B2 (en) 2019-06-07 2024-04-16 Leica Microsystems Cms Gmbh System and method for processing biology-related data, a system and method for controlling a microscope and a microscope
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10824817B1 (en) 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
WO2022000089A1 (en) * 2020-06-30 2022-01-06 National Research Council Of Canada Vector space model for form data extraction
CA3191100A1 (en) 2020-08-27 2022-03-03 Dorian J. Cougias Automatically identifying multi-word expressions
US11954605B2 (en) * 2020-09-25 2024-04-09 Sap Se Systems and methods for intelligent labeling of instance data clusters based on knowledge graph
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JPH1097533A (ja) * 1996-09-24 1998-04-14 Mitsubishi Electric Corp 言語処理装置
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US6804659B1 (en) * 2000-01-14 2004-10-12 Ricoh Company Ltd. Content based web advertising
US6567814B1 (en) * 1998-08-26 2003-05-20 Thinkanalytics Ltd Method and apparatus for knowledge discovery in databases
US8051104B2 (en) * 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
WO2003073374A2 (en) * 2002-02-27 2003-09-04 Brands Michael Rik Frans A data integration and knowledge management solution
WO2004027706A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
WO2004042493A2 (en) * 2002-10-24 2004-05-21 Agency For Science, Technology And Research Method and system for discovering knowledge from text documents
JP4144388B2 (ja) * 2003-03-13 2008-09-03 日本電気株式会社 知識リンク提供プログラム、知能マップ生成プログラム、知能レイヤー管理プログラム、管理装置及び管理方法
US7433876B2 (en) * 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US7584268B2 (en) * 2005-02-01 2009-09-01 Google Inc. Collaborative web page authoring
RU2406129C2 (ru) * 2005-04-25 2010-12-10 Майкрософт Корпорейшн Ассоциирование информации с электронным документом
US20070130206A1 (en) * 2005-08-05 2007-06-07 Siemens Corporate Research Inc System and Method For Integrating Heterogeneous Biomedical Information
WO2007106185A2 (en) * 2005-11-22 2007-09-20 Mashlogic, Inc. Personalized content control
WO2007106858A2 (en) * 2006-03-15 2007-09-20 Araicom Research Llc System, method, and computer program product for data mining and automatically generating hypotheses from data repositories
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
JP2007012100A (ja) * 2006-10-23 2007-01-18 Hitachi Ltd 人物情報に基づく検索方法および検索装置、あるいは情報提供システム
US7991733B2 (en) * 2007-03-30 2011-08-02 Knewco, Inc. Data structure, system and method for knowledge navigation and discovery

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750392A (zh) * 2012-07-09 2012-10-24 浙江省公众信息产业有限公司 Web主题信息提取方法及系统
CN102750392B (zh) * 2012-07-09 2014-07-16 浙江省公众信息产业有限公司 Web主题信息提取方法及系统
CN111737407A (zh) * 2020-08-25 2020-10-02 成都数联铭品科技有限公司 基于事件消歧的事件唯一id构建方法

Also Published As

Publication number Publication date
WO2008121377A3 (en) 2008-12-18
JP2010529518A (ja) 2010-08-26
BRPI0811415A2 (pt) 2017-05-02
EP2143011A4 (en) 2012-06-27
WO2008121382A1 (en) 2008-10-09
IL201232A0 (en) 2010-05-31
CA2682582A1 (en) 2008-10-09
CA2682602A1 (en) 2008-10-09
AU2008233078A1 (en) 2008-10-09
EP2143012A2 (en) 2010-01-13
JP2010532506A (ja) 2010-10-07
EP2143011A1 (en) 2010-01-13
WO2008121377A2 (en) 2008-10-09
CN101681353A (zh) 2010-03-24
AU2008233083A1 (en) 2008-10-09
IL201230A0 (en) 2010-05-31
US20100174675A1 (en) 2010-07-08
US20100174739A1 (en) 2010-07-08
EP2143012A4 (en) 2011-07-27

Similar Documents

Publication Publication Date Title
CN101681351A (zh) 用于知识导航和发现的维基化内容的系统和方法
Esteva et al. COVID-19 information retrieval with deep-learning based semantic search, question answering, and abstractive summarization
Patterson et al. Names are key to the big new biology
Poelmans et al. Formal concept analysis in knowledge processing: A survey on applications
Moya‐Anegón et al. Visualizing the marrow of science
Small et al. Review of information extraction technologies and applications
US20080306918A1 (en) System and method for wikifying content for knowledge navigation and discovery
US20090217179A1 (en) System and method for knowledge navigation and discovery utilizing a graphical user interface
Kokla et al. A review of geospatial semantic information modeling and elicitation approaches
Ma et al. Ontology-aided annotation, visualization, and generalization of geological time-scale information from online geological map services
Binding et al. A study of semantic integration across archaeological data and reports in different languages
Gauthier et al. The computational thematic analysis toolkit
Martins et al. Information organization and representation in digital cultural heritage in Brazil: Systematic mapping of information infrastructure in digital collections for data science applications
Sellami et al. Keyword-based faceted search interface for knowledge graph construction and exploration
Aracri et al. Integrated use of KOS and deep learning for data set annotation in tourism domain
Houssein et al. Semantic protocol and resource description framework query language: a comprehensive review
Bukhari Semantic enrichment and similarity approximation for biomedical sequence images
Mahdi et al. Comprehensive review and future research directions on dynamic faceted search
Liu et al. Complura: Exploring and leveraging a large-scale multilingual visual sentiment ontology
Gabriel Artificial intelligence in scholarly communications: An elsevier case study
Ingwersen et al. Scientometric Indicators and Webometrics--and the Polyrepresentation Principle Information Retrieval
Chansanam et al. Culture knowledge graph construction techniques
Jonquet Ontology Repository and Ontology-Based Services–Challenges, contributions and applications to biomedicine & agronomy
Prokosch Navigation in medical Internet image databases
Griazev et al. Multi-purpose dataset of webpages and its content blocks: design and structure validation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100324