CN101295303A - 基于智能本体的知识搜索引擎及其实现方法 - Google Patents

基于智能本体的知识搜索引擎及其实现方法 Download PDF

Info

Publication number
CN101295303A
CN101295303A CNA2007101029613A CN200710102961A CN101295303A CN 101295303 A CN101295303 A CN 101295303A CN A2007101029613 A CNA2007101029613 A CN A2007101029613A CN 200710102961 A CN200710102961 A CN 200710102961A CN 101295303 A CN101295303 A CN 101295303A
Authority
CN
China
Prior art keywords
article
module
knowledge
semantic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101029613A
Other languages
English (en)
Other versions
CN100592293C (zh
Inventor
李树德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200710102961A priority Critical patent/CN100592293C/zh
Priority to HK07104904A priority patent/HK1102465A2/xx
Priority to PCT/CN2007/002145 priority patent/WO2008131607A1/en
Priority to US11/942,408 priority patent/US20080270384A1/en
Publication of CN101295303A publication Critical patent/CN101295303A/zh
Application granted granted Critical
Publication of CN100592293C publication Critical patent/CN100592293C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于智能本体的知识搜索引擎,本发明所述的“IATOPIAKnowledgeSeeker”,是一个基于智能本体的系统,该系统用于帮助网页用户去查找、获取和分析任何网页信息,例如互联网中的消息文章,并在语义网页中提供该消息文章的内容。本发明介绍了利用本体去分析中文文本语义的好处,并且也介绍了利用语义网页去组织语义信息的优点,同时也论证了利用本体去识别主题的优点,并通过使用中文语料库去评价,与其它方法比较得出测试结果发现:识别中文网页文章的主题的准确性高于87%。也论证了每篇文章的快速处理速度少于1秒,而且也可以灵活地组织内容和准确地理解知识,不像利用现有流行的搜索引擎的传统文本分类系统,例如Google和Yahoo。

Description

基于智能本体的知识搜索引擎及其实现方法
技术领域
本发明涉及网页搜索引擎,更具体地说,涉及一种基于智能本体的知识搜索引擎及其实现方法。
背景技术
万维网(World Wide Web,简称WWW)提供了大量可利用的信息。很多网页站点以不同的格式发表许多不同种类的信息。但是,万维网存在两个明显的不足:(1)计算机不能理解网页内容的语义;(2)网上有用信息难找,即使借助功能强大的搜索引擎,查准率也比较低,它在帮助网民得到成批相关网页的同时,也夹杂了许多用户不需要的信息垃圾。因此,对于用户来说,查找自己想要的信息是一件相当困难而且花时间的任务。
目前,许多网页站点利用搜索引擎去帮助用户查找信息,但是这些搜索引擎常常不返回与用户需求相关的搜索结果。这是因为大多数流行的搜索引擎,例如Google和Yahoo,都是基于关键字(keywords),需要将文本的上下文和语义都考虑进去,结果必然会引起曲解的。文本语义是机器学习中面临的主要挑战,因为他们是通过自然语言所产生,而不能被机器可理解的。
基于传统网页的信息报告系统的另一个问题就是缺乏自动地为用户提供信息这个智能特征。例如,大多数传统的报告系统是基于拉动(pull-based)的方式,要求用户对信息建造一个特殊的请求。
而与本发明相关联的两个发明:(1)“智能电子导游系统及方法(申请号:200610060707.7)已于2006年5月19日向国家专利局提出专利申请;(2)“基于智能代理的开发平台”(申请号:200610061542.5)已于2006年7月5日向国家专利局提出专利申请。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于智能本体的知识搜索引擎,可以自动地寻找与用户相关的信息,并且告诉用户这些信息是怎样相关的。
本发明解决其技术问题所采用的技术方案是:构造一种基于智能本体(agent ontology)的知识搜索引擎,包括:
本体模块(Ontology Module),用于对网页文章进行分析和注释处理;
智能特征模块(Intelligent Features Module),用于将从互联网中获取到的信息进行智能特征处理;
语义网页模块(Semantic Web Module),用于将机器的可读数据增加到网页上。
本发明中,所述本体模块具体包括:
文章本体(Article-ontology),包括文章数据和语义数据,用于以机器可理解的格式对文章进行注释处理;
主题本体(Topic-ontology),用于以等级关系揭示主题范围,并用于识别文正主题;
词汇本体(Lexicon-ontology),用于通过知网的方式分析中文文本文章并以中文自然语言文本形式去理解语义。
本发明中,所述本体模块还包括:
特征选择模块,用于选择相应义素,并表示在主题本体中所定义的主题类;
特征向量处理模块,用于将主题实体映射到义素中;
特征权重模块,用于根据特征因素产生算法计算义素的权重,并获得所有主题类的向量。
本发明中,所述智能特征模块具体包括:
获取信息模块,用于获取互联网中的信息源中有用的文章;
信息分析处理模块,用于查找、分析和理解搜索来自网页站点的文章的语义内容;
信息注释处理模块,用于将信息内容注释到基于语义本体格式,所述基于本体的格式为RDF格式;
信息推荐处理模块,用于提供相关的或有兴趣的文章给用户,包括提供个性化内容和类似消息文章内容给用户。
本发明中,所述信息分析处理模块具体包括:
文本分析模块,用于对文本进行分割,并通过预设算法匹配到所述分割出的单词;
义素摘录模块,用于从文章单词中摘录相关义素清单;
实体本体匹配模块,用于进行义素匹配并映射到摘录内容;
义素权重模块,用于根据文本计算义素的权重;
主题识别模块,用于找出一组与文章相关的主题。
本发明中,还包括:
新闻阅读器(IATo News),用于提供基于本体、基于个性化的RSS新闻阅读平台。
本发明中,所述新闻阅读器具体包括:
本体概念树(ontology tree),其包含了超过20000个中文概念和知识点(IATOLOGY-20000),用于提供给新闻阅读器使用;
5维知识轮(5-D Knowledge Wheel),用于提供人物、组织、事件、对象以及地方的知识搜查功能;
多级文章分析器(Multi-level Article Analyzer),用于根据消息文章的分类为用户提供了链接到更远的相关文章的搜索;
个性化处理模块(Personalized IATo KnowledgeSeeker),用于为用户从两个方面将自己的新闻阅读器在阅读和搜索平台上变得个性化,具体包括个性化消息分类配置和优先消息和自动分类配置。
本发明还同时公开了一种基于智能本体的知识搜索引擎的实现方法,包括以下步骤:
a.获取HTML格式的网页来源,并从所述HTML网页上摘录语义内容;
b.通过使用本体知识获取文本语义对所述语义内容作进一步的分析,并将所述语义内容以RDF格式进行注释,并通过网页界面想用户进行显示。
本发明中,所述步骤b具体包括:
b1.获取信息过程的步骤;
b2.信息分析处理的步骤;
b3.信息注释处理的步骤;
b4.信息推荐处理的步骤。
本发明所述基于智能本体的知识搜索引擎(IATOPIA KnowledgeSeeker)提供了适合查找自己想要的信息的解决方案,帮助用户准确地查找网页站点信息,使所收集到的信息更完整,并且将其报告和推荐给用户。同时,通过使用各种机器智能技术去获取、处理、分析和推荐基于网页的文章。尤其是,重点在于信息领域的中文网页消息文章。为了应用于中文本体,本发明包含了超过20000个中文概念和知识的本体树,也就是所谓的“IATOLOGY-20000”,解决了互联网上中文文章和信息的复杂语义和知识搜索的问题。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明所述基于智能本体的知识搜索引擎的系统结构示意图;
图2是本发明所述文章本体分类的本体表示的示意图;
图3是本发明以HowNet方式揭示中文单词语义关系的示意图;
图4是本发明主题实体映射到义素的示意图;
图5是本发明在不同子过程之间的信息流的示意图;
图6是本发明适合信息分析子系统的文本分析处理的主要处理流程图;
图7是本发明在文章文本与词汇本体之间的链接的示意图;
图8是本发明RDF存储和注释数据的示意图;
图9是本发明IATo News的示意图;
图10是本发明的IATOLOGY-20000最初两层的示意图;
图11是本发明的5-D Knowledge Wheel的示意图;
图12是本发明具有5-D Knowledge Wheel的IATo News的示意图;
图13是本发明多级文章分析器的示意图;
图14是本发明具有多级文章分析器的IATo News的示意图;
图15是本发明IATo News中个性化消息推荐的示意图。
具体实施方式
1.本发明技术
本发明通过使用本体方法去执行信息搜索任务。本段描述了基于智能本体的知识搜索引擎(IATOPIA KnowledgeSeeker)的结构设计,所述本体包括被定义的、不同智能特征的详细执行设计以及语义网页界面。IATOPIAKnowledgeSeeker主要包括三个模块:本体模块(ontology module)、智能特征模块(intelligent features module)以及语义网页模块(semantic web module)。
1.1.系统结构
IATOPIA KnowledgeSeeker的系统结构示意图如图1所示。系统首先获取HTML格式的网页来源,然后从该HTML网页摘录语义内容。此后,通过使用本体知识获取文本语义对所述语义内容作进一步分析,所述语义内容以RDF格式进行注释,所述RDF为知识存储的本体数据格式。语义网页与文章数据建立在这些注释数据上,并且通过网页界面向用户显示内容。以下将对所述本体作进一步的详细说明。
1.2.知识表示的本体模块
系统主要定义了三个本体模块去分析和注释网页文章(例如:新闻,文章)。它们是:文章本体、主题本体以及词汇本体。
1.2.1.文章本体(Article-ontology)
本体分类用于文章注释处理。每篇文章作为分类文章的实例以机器可理解的格式通过注释表示其语义内容。图2是文章本体分类的本体表示的示意图,如图所示。本体属性主要包括两种类型:文章数据和语义数据。文章数据表示关于文章的基本文本内容,例如标题,摘要以及正文等等。而语义数据表示包含在文章文本中的语义内容和知识,可称为语义实体。本发明优选实施例定义了6个能够覆盖文本中所有语义内容的语义实体,即主题,人物,组织,事件,地方以及对象。
1.2.2.主题本体(Topic-ontology)
主题本体用于以等级关系揭示主题范围,并且用于识别文章主题。主题分类的实例是一组便于机器处理、共享和交换的控制词汇。分类由等级语义关系来定义,有点像主题分类层次,只不过以详细点、可理解点来定义并保持语义关系。
1.2.3.词汇本体(Lexicon-ontology)
词汇本体产生和来源于知网(HowNet),是一本中、英双语词典。HowNet揭示概念与概念之间以及中文术语之间的关系,并且也定义了属性与属性之间的关系。IATOPIA KnowledgeSeeker通过自身的结构去分析中文文本文章并以中文自然语言文本形式去理解语义。HowNet定义词汇本体的主要部分是义素定义。义素通过描述他们的物理、精神、理论或者抽象的含义揭示中文术语的概念。图3示出的是以HowNet方式揭示中文单词语义关系的示意图。
1.2.4.利用本体特征选择处理来识别主题
特征选择模块用于选择相应义素,能够典型地表示在主题本体中所定义的主题类。每个主题类选择少量义素(通常2-10),表示主题类的每个义素都分配有一个权重,用来描述在表示该主题实体时该义素有多重要。
1.2.5.产生特征向量的处理(特征向量feature vectors处理模块)
在主题本体中的每个主题类是由一组术语或短语组成的。类进一步与少量义素链接形成特征向量。由于义素网络中的义素不断增加,主题和文章分析都依赖于义素网络,而不是直接的术语匹配。因此,少量的特征向量充分表示了主题类的意思。图4示出的是主题实体映射到义素的示意图。
1.2.6.特征权重(特征权重feature weighting模块)
特征向量中的义素入口是根据主题节点特征的重要程度作进一步衡量的。在信息查找系统中,以类似于使用tfidf权重算法的方式来实现的。首先,语料库(即人工处理好的文字数据库)包括N个文档,该文档作为训练例子能够覆盖已获取到的所有义素。然后,文档中的术语通过HowNet中的义素网络进行摘录并链接到其它义素。此后,义素频率(fj)视为术语频率(tfj),并且也能够获得文档频率(dfj)。最后,权重si,j定义为:
w i , j = f i , j Σ j f i , j × log 2 ( N df j ) - - - ( 1 )
特征因素产生算法:
假设一组主题类为:{c1,c2,c3......cn}
i从1到n
义素ci的摘录清单:(s1,f1),(s2,f2)......(sk,fk)
j从1到K
标准化:nfj=fj/sum(f1 to fk)
权重:wfj=fj×weight(sj)
返回特征向量ci:vi=<(s1,wf1),(s2,wf2)......(sk,wfk)>
获得所有主题类的向量:{v1,v2,v3......vn}
1.3.智能特征模块(Intelligent Components Module)
本发明优选实施例中定义了不同的子过程(子模块)来处理不同的任务。
图5示出的是在不同子过程之间的信息流的示意图。
1.3.1.获取信息过程(获取信息Info-Retrieval模块)
获取信息过程就是将互联网中的信息聚集到一起处理。通过连接到互联网获取网页,从而获得信息源中有用的文章。这些文章主要来自热点国际新闻发布的网页站点,例如BBC,CNN等。这是使用在本发明的一个消息来源。
1.3.2.信息分析处理(信息分析Info-Analysis处理模块)
信息分析子系统查找、分析和理解搜集来自网页站点的文章的语义内容。由于所有文章都是以自然语言的中文文本格式,因此使用有效和准确的文本分析方法是有必要的。本体方法也使用了一个开发的算法去处理主题识别过程。图6示出的是适合信息分析子系统的文本分析处理的主要处理流程。
文本分析模块(Textual Analysis Module)
文本分析模块的首要任务就是文本分割。适合分析处理的文本分割器使用的是最大匹配算法这个版本。当查找到已分割的单词时,该算法尽可能地匹配到最长的单词,这是简单有效的分割算法。
义素摘录模块(Sememe Extraction Module)
义素摘录模块的目的在于从文章单词中摘录相关义素清单。义素是摘录词汇本体中有用部分。每个单词能够映射到基于HowNet定义的一个或多个义素。在义素摘录处理之后,文章文本在内容上和语义上链接到HowNet词汇。该链接是文章文本与HowNet词汇本体之间的语义桥,而该语义桥是由一组相关的义素来定义,如图7所示。
实体本体匹配模块(Entity Ontology Matching Module)
义素匹配并映射到摘录内容。在实体本体中定义了摘录内容。使用和匹配五种不同类型的摘要内容,即人物、组织、地方、事件以及对象。如果超过预设阈值,就会计算摘要内容的频率。这步骤进一步对该义素进行处理以便于找出其相关的内容。
义素权重模块(Sememe Weighting Module)
根据文本计算义素的权重。义素包含5个向量以及每个向量包括一列具有相应权重的义素实体。语义匹配能够用来形成文章语义实例表示。文章语义表示是定义在本体模块中的文章本体实例。
主题识别模块(Topic Identification Module)
主题识别模块的主要处理就是找出一组与文章相关的主题。这些主题能够作为本章的分类,但是识别复杂的主题优于仅仅在正常分类处理中的对一个分类进行分类。被识别的主题术语受限于主题本体结构中的主题类。识别相关主题的处理包括对主题本体树的每个主题节点进行计算并给出一个得分(或者权重)。
得分处理是主题识别的主要部分。首先,从文章的语义表示摘录出义素。其次,将所述义素匹配到主题本体中相应的每个主题节点的每个特征向量。在前面步骤中文章的义素已进行过权重处理,但是在特征选择步骤中特征向量需进行权重处理,因此在计算中有两种权重得分都可以用来表示。
假设一组本体主题节点是{c1,c2,c1......cn},不考虑等级水平的关系。然后获得特征向量{v1,v2,v1......vn},对于每个类ci,有vi=<(s1,wf1),(s2,wf2)......(sk,wfk)>当wfi,j是在向量vi中义素sj的权重得分。然后,文章的义素序列定义为vm=<(s1,wf1),(s2,wf2)......(sk,wfk)>文章m,并且wfm,n是在向量vm中义素sn的权重得分。对于文章am的类ci的得分定义为:
Score(am,ci)=∑wfi,j·wfm,n for every j=n        (2)
提取每个类的等级得分是有可能的。通过简单的相加将父级的主题得分乘以子级的主题。
如果Score(am,ci)>0,那么
Score(am,ci)=∑wi,j·wfm,n+Score(am,parent(cx))  (3)
1.3.3.信息注释处理(信息注释Info-Annotation处理模块)
信息注释处理将信息内容注释到基于语义本体格式。基于本体的格式使用RDF,也就是本体模块定义和构造的方案(schema)。
RDF注释也能够对语义网页中的语义进行查询。语义查询是用于构造对以RDF格式存储的信息进行查询。通过查询基于以RDFS或者存储在RDF(S)输入本体所定义的类、特征以及属性以提高了语义搜索速度。图8示出的是RDF存储和注释数据的示意图。
1.3.4.信息推荐处理(信息推荐Info-Recommendation处理模块)
IATOPIA KnowledgeSeeker采用基于开发推荐处理的推荐的本体。推荐系统的目标是提供相关的或有兴趣的文章给用户。这里有两种不同类型的推荐处理。第一种类型就是基于推荐的个性化内容,该推荐是基于用户的优先选择。当用户在线时,其提供一系列个性化的文章给用户。第二种类型就是类似内容推荐,即推荐类似消息文章内容的推荐。它会马上向用户推荐基于当前用户浏览得文章的相关文章。
基于推荐的个性化内容(Personalized Content-based Recommendation)
推荐处理能够记录读行为或基于用户读历史和目前浏览行为的习惯。基于用户的模板(profile)为目标用户保留本体,然后尽量查找出对用户有用的相关主题和消息内容。然后分析所有与用户阅读有用的类似消息内容,以便于能够将潜在的有用信息推荐并反映给目标用户。
推荐处理为用户保留了基于Profile的本体内容,有效函数u(c,s)定义了向用户c查找内容s的得分:
up(c,s)=score(OntologyContentBasedProfile(c),Content(s))  (4)
通过使用Profile向量,系统即可计算出用户c的Profile和内容s之间的类似本体:
u p ( c , s ) = similarity ( w c → , w s → ) = Σ wf c , j · wf s , n for every j = n - - - ( 5 )
类似内容推荐(Similar Content Recommendation)
推荐处理的第二种类型就是类似于基于推荐的内容。当用户浏览特殊新闻文章时候使用的,同时系统能够通过衡量语义实体(例如主题、人物、地方、事件)的类似之处查找与当前文章类似内容的新文章。
计算得分的实体函数的目标是识别内容m和内容n的类似程度,定义为: U c ( m , n ) = similarity ( w m → , w n → ) . 特殊语义实体可以要求不同的权重。例如,在查找语义类似内容方面,主题可以是最关键的。然而,它可以基于不同用户的解释有所变化,并且也可以来自不同文章内容而有所变化。
1.4.语义网页模块(Semantic Web Module)
语义网页模块是指用户的界面设计和以语义方式表示信息的版面。这是用户浏览所有从系统模块获得的信息的主要界面。服务器从系统处理收集响应信息,包括网页中的结果和显示信息。
语义网页模块是根据W3C语义网页(Semantic Web)架构的数据层进行开发的。创建这个语义网页的目的在于将机器的可读数据增加到网页内容以便于机器理解。此外,语义网页上的内容得到数据层所要求的巨大的本体词汇的支持。这也提供了利用语义关系组织信息的能力,以及这也是开发语义网页模块的主要原因。
2.应用程序(新闻阅读器“IATo News”)
基于上述IATOPIA KnowledgeSeeker主要模块和技术的描述,首先,基于最重要的智能本体RSS新闻阅读器之一是“IATo News”,它提供了一个完全自动、基于本体、基于个性化的RSS消息阅读平台。图9示出的是IATo News的实例。
新闻阅读器(IATo News)的核心功能和特征包括:
(1)本体概念树(IATOLOGY-20000);
(2)5维知识轮(5-D KnowledgeWheel);
(3)多级文章分析器(Multi-level Article Analyzer);
(4)个性化IATo News。
2.1.IATOLOGY-20000
IATOLOGY-20000是一棵可理解的中国本体树,包含了超过20000个中文概念和知识点。IATOLOGY-20000的第一层(核心层)包含17个多数是流行的有趣主题,这些主题作为IATo News中的基本种类。实际上,那些种类的编排可以根据用户的偏爱而改变,在以下那段将会描述个性化IATo News的编排。
图10描述IATOLOGY-20000使用在IATo News的最初两层,其将消息文章中的主要种类使用在IATo News中。
2.2.5-D KnowledgeWheel
5-D KnowledgeWheel通过采用上述的多本体分类技术提供5维知识搜查功能。在IATo News中,这5-D KnowledgeWheel包括:人物、组织、事件、对象以及地方(如图11、12所示)。换句话说,根据这5种不同的角度将每篇消息文章进行分类。用户跟踪任何这5种不同的目标就能够进一步搜索相关的文章,而不是扩充猜测相关关键词来做进一步搜索。
2.3.多级文章分析器(Multi-level Article Analyzer)
随着IATOLOGY-20000和智能知识分析技术的结合,IATo News提供一个消息文章的深入分析,称为多级文章分析器。图13描述关于Saddam Hussein的审判的典型的国际消息分析,属于主要的本体有:“罪行,法律和司法”;具有子分类:审判(90%),监狱(70%),司法(69%),法律(65%)以及国际法(61%)。更重要的是,该分析工具根据这些子分类为用户提供了链接到更远的相关文章的搜索。图14提供原始消息文章和多级文章分析器以及5-DKnowledgeWheel的截屏。
2.4.个性化IATo News(个性化Personalization处理模块)
随着采用ONTOLOGY-20000和智能文章分类以及分析技术,IATo News提供了一个创新并突破了文章搜索的阅读平台,该阅读平台允许用户从两个方面将自己的IATo News阅读和搜索平台变得个性化:
a.个性化消息分类配置(Personalized News Categorization Scheme,“PNCS”);
b.优先消息和自动分类配置(Personalized News and AutomaticCategorization Scheme,“PNACS”)。
除了标准消息分类配置(根据IATOLOGY-20000本体)之外,PNCS允许用户通过增加任何有趣的消息主题(Topics of Interests,“Tols”)来定义自己的分类配置。更重要的是,所有消息输入分类和分析都是根据这些Tols。而且,IATo News中消息文章的特殊Tols的阅读习惯能够将新的Tols自动地增加到个性化IATo消息主页。
此外,通过采用模糊逻辑,PNACS允许用户将其喜欢的消息文章(以及Tols)的阅读程度进行排序。然后,IATo News将优先搜索并提供所有相关的、更喜欢的消息。图15描述个性化IATo News的截屏。
3.系统性能
3.1.主题识别准确
主题识别处理通过使用中国文本语料库进行评价。该语料库分类成5个主题,因此在主题本体中的这相应的5个一级的主题分类被选作为评价。平均主题识别准确率大约为87%。对于文本分类系统这是一个较高的可接收的比率。衡量有效的目标是衡量主题识别处理的速度。在文本分类中存在许多种算法,例如人工神经网络(ANNs)和Rocchio-TFIDF。来自其它研究人员的在先结果表明TFIDF算法的执行速度比ANN算法的快,并且相比于许多其它的算法对于文本分类这是一个十分快的算法。因此,该测试的重点在于比较IATOPIAKnowledgeSeeker的识别主题的速度和传统Rocchio-TFIDF算法。
3.2.主题识别处理速度
该测试由在测试文档语料库中选择的三个不同文档装置来处理。每个文档包含写进中文文本具有类似数量特征的3000篇文章。结果(见表1)表示IATOPIA KnowledgeSeeker的速度比TFIDF方法的速度更快,平均花费小于一秒的时间去处理文档。而且,多重主题在花费的时间内已被识别完毕。
表1树形文档装置的识别主题的花费时间比较
    TFIDF   IAtopIA KnowledgeSeeker
文档装置1     1561秒   202秒
文档装置2     1692秒   232秒
文档装置3     1564秒   206秒
平均     1606秒   213秒
3.3.比较其它算法
除了上述讨论的时间和速度因素,IATOPIA KnowledgeSeeker(见表2)还具有其它不同的执行效果。
表2在不同算法中比较
  ANN     TFIDF   IAtopIAKnowledgeSeeker
分类速度   高     中等   快
语料库   要求     要求   不要求
语料库时间   中等     中等   没有
分类灵活性   低     低   高
语义可理解性   中等     中等   高
分类的准确性   低     高   高
4.结论和潜在的应用程序难度
IATOPIA KnowledgeSeeker为用户有效地实现知识搜索任务。通过使用不同的本体,系统能够更准确地理解文章的内容和识别每篇文章相关的主题。语义注释用于从产生推荐内容的大量文本语料库中提供语义类似文章快速查找的有利条件。这些基于类似语义的语义关系以一种许多现有系统不能够做的方式自动产生。使用个性化文件能够保持对用户有趣的事情进行跟踪,意味着用户不要求意识到他们感兴趣的东西。这种关系能够委托给系统,由系统自动进行处理。这对用户来说是有效的,因为他们不必要得知他们近来已经阅读过那些类型的主题,就能够自动发现那些有趣的主题范围。因此,用户基于其个性化的文件能够获取所有推荐文章。
从应用程序这点来看,本发明详细描述了IATOPIA KnowledgeSeeker技术的最重要的应用程序,即“IATo News”,一个基于智能本体的创新RSS消息搜索和阅读平台,具有多级消息分析器,5-D KnowledgeWheel,IATOLOGY-20000和基于用户界面的个性化技术。
实际上,IATOPIA KnowledgeSeeker能够应用到许多其它领域,例如(但不限于):
1)基于本体内容管理系统(Content Management Systems,“IATo CMS”)及知识搜寻器(KnowledgeSeeker),例如(但不限于):
-健康知识网及知识搜寻系统(IATo Health)
-医疗知识网及知识搜寻系统(IATo Medical)
-财经知识网及知识搜寻系统(IATo Finance)
-法律知识网及知识搜寻系统(IATo Law)
-旅游知识网及知识搜寻系统(IATo Travel)
-音乐知识网及知识搜寻系统(IATo Music)
-科学知识网及知识搜寻系统(IATo Science)
-艺术知识网及知识搜寻系统(IATo Arts)
-生活知识网及知识搜寻系统(IATo Living)
-美容知识网及知识搜寻系统(IATo Beauty)
-体育运动知识网及知识搜寻系统(IATo Sports)
-职位空缺网及知识搜寻系统(IATo JobSeeker)
-电影信息网及知识搜寻系统(IATo Movie)
-天气信息网及知识搜寻系统(IATo Weather)
-购物信息网及知识搜寻系统(IATo Shopping)
-饮食信息网及知识搜寻系统(IATo Food)
2)基于智能本体广播系统及知识搜寻系统(IATo Broadcaster);
3)基于智能本体电子杂志阅读器及知识搜寻系统(IATo Magazine)。

Claims (9)

1、一种基于智能本体的知识搜索引擎,其特征在于,包括:
本体模块,用于对网页文章进行分析和注释处理;
智能特征模块,用于将从互联网中获取到的信息进行智能特征处理;
语义网页模块,用于将机器的可读数据增加到网页上。
2、根据权利要求1所述的基于智能本体的知识搜索引擎,其特征在于,所述本体模块具体包括:
文章本体Article-ontology,包括文章数据和语义数据,用于以机器可理解的格式对文章进行注释处理;
主题本体Topic-ontology,用于以等级关系揭示主题范围,并用于识别文正主题;
词汇本体Lexicon-ontology,用于通过知网的方式分析中文文本文章并以中文自然语言文本形式去理解语义。
3、根据权利要求2所述的基于智能本体的知识搜索引擎,其特征在于,所述本体模块还包括:
特征选择模块,用于选择相应义素,并表示在主题本体中所定义的主题类;
特征向量处理模块,用于将主题实体映射到义素中;
特征权重模块,用于根据特征因素产生算法计算义素的权重,并获得所有主题类的向量。
4、根据权利要求1所述的基于智能本体的知识搜索引擎,其特征在于,所述智能特征模块具体包括:
获取信息模块,用于获取互联网中的信息源中有用的文章;
信息分析处理模块,用于查找、分析和理解搜索来自网页站点的文章的语义内容;
信息注释处理模块,用于将信息内容注释到基于语义本体格式,所述基于本体的格式为RDF格式;
信息推荐处理模块,用于提供相关的或有兴趣的文章给用户,包括提供个性化内容和类似消息文章内容给用户。
5、根据权利要求4所述的基于智能本体的知识搜索引擎,其特征在于,所述信息分析处理模块具体包括:
文本分析模块,用于对文本进行分割,并通过预设算法匹配到所述分割出的单词;
义素摘录模块,用于从文章单词中摘录相关义素清单;
实体本体匹配模块,用于进行义素匹配并映射到摘录内容;
义素权重模块,用于根据文本计算义素的权重;
主题识别模块,用于找出一组与文章相关的主题。
6、根据权利要求1-5任一项所述的基于智能本体的知识搜索引擎,其特征在于,还包括:
新闻阅读器,用于提供基于本体、基于个性化的RSS新闻阅读平台。
7、根据权利要求6所述的基于智能本体的知识搜索引擎,其特征在于,所述新闻阅读器具体包括:
本体概念树,其包含了超过20000个中文概念和知识点IATOLOGY-20000,用于提供给新闻阅读器使用;
5维知识轮,用于提供人物、组织、事件、对象以及地方的知识搜查功能;
多级文章分析器,用于根据消息文章的分类为用户提供了链接到更远的相关文章的搜索;
个性化处理模块,用于为用户从两个方面将自己的新闻阅读器在阅读和搜索平台上变得个性化,具体包括个性化消息分类配置和优先消息和自动分类配置。
8、一种基于智能本体的知识搜索引擎的实现方法,其特征在于,包括以下步骤:
a.获取HTML格式的网页来源,并从所述HTML网页上摘录语义内容;
b.通过使用本体知识获取文本语义对所述语义内容作进一步的分析,并将所述语义内容以RDF格式进行注释,并通过网页界面想用户进行显示。
9、根据权利要求8所述的一种基于智能本体的知识搜索引擎的实现方法,其特征在于,所述步骤b具体包括:
b1.获取信息过程的步骤;
b2.信息分析处理的步骤;
b3.信息注释处理的步骤;
b4.信息推荐处理的步骤。
CN200710102961A 2007-04-28 2007-04-28 基于智能本体的知识搜索引擎及其实现方法 Expired - Fee Related CN100592293C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200710102961A CN100592293C (zh) 2007-04-28 2007-04-28 基于智能本体的知识搜索引擎及其实现方法
HK07104904A HK1102465A2 (en) 2007-04-28 2007-05-08 An intelligent ontology-based knowledge search engine and its method
PCT/CN2007/002145 WO2008131607A1 (en) 2007-04-28 2007-07-21 A system and method for intelligent ontology based knowledge search engine
US11/942,408 US20080270384A1 (en) 2007-04-28 2007-11-19 System and method for intelligent ontology based knowledge search engine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710102961A CN100592293C (zh) 2007-04-28 2007-04-28 基于智能本体的知识搜索引擎及其实现方法

Publications (2)

Publication Number Publication Date
CN101295303A true CN101295303A (zh) 2008-10-29
CN100592293C CN100592293C (zh) 2010-02-24

Family

ID=38722696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710102961A Expired - Fee Related CN100592293C (zh) 2007-04-28 2007-04-28 基于智能本体的知识搜索引擎及其实现方法

Country Status (4)

Country Link
US (1) US20080270384A1 (zh)
CN (1) CN100592293C (zh)
HK (1) HK1102465A2 (zh)
WO (1) WO2008131607A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930030A (zh) * 2012-11-08 2013-02-13 苏州两江科技有限公司 基于本体的智能语义文献检索推理系统
CN103150667A (zh) * 2013-03-14 2013-06-12 北京大学 一种基于本体结构的个性化推荐方法
CN103164439A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103577487A (zh) * 2012-08-07 2014-02-12 亿赞普(北京)科技有限公司 一种搜索引擎索引功能的测试方法和装置
CN103605724A (zh) * 2013-11-15 2014-02-26 清华大学 基于网页文本语义特征的在线零售额计算方法
CN104866582A (zh) * 2015-05-26 2015-08-26 安一恒通(北京)科技有限公司 显示页面信息的方法和装置
CN105786817A (zh) * 2014-12-18 2016-07-20 中国科学院深圳先进技术研究院 基于查询重构图推荐高效用的搜索引擎查询方法
CN106021306A (zh) * 2016-05-05 2016-10-12 上海交通大学 基于本体匹配的案例搜索系统
CN109977198A (zh) * 2019-04-01 2019-07-05 北京百度网讯科技有限公司 建立映射关系的方法和装置、硬件设备、计算机可读介质
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949215B2 (en) * 2007-02-28 2015-02-03 Microsoft Corporation GUI based web search
TWI393107B (zh) * 2008-07-02 2013-04-11 Au Optronics Corp 液晶顯示裝置
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
US20110022426A1 (en) * 2009-07-22 2011-01-27 Eijdenberg Adam Graphical user interface based airline travel planning
US20110035418A1 (en) * 2009-08-06 2011-02-10 Raytheon Company Object-Knowledge Mapping Method
US20110035349A1 (en) * 2009-08-07 2011-02-10 Raytheon Company Knowledge Management Environment
US8260664B2 (en) * 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US20110307819A1 (en) * 2010-06-09 2011-12-15 Microsoft Corporation Navigating dominant concepts extracted from multiple sources
AU2011301787B2 (en) * 2010-09-17 2016-05-26 Commonwealth Scientific And Industrial Research Organisation Ontology-driven complex event processing
EP2506162A1 (en) * 2011-03-31 2012-10-03 Itsystems AG Finding a data item of a plurality of data items stored in a digital data storage
US8655882B2 (en) 2011-08-31 2014-02-18 Raytheon Company Method and system for ontology candidate selection, comparison, and alignment
US9009148B2 (en) * 2011-12-19 2015-04-14 Microsoft Technology Licensing, Llc Clickthrough-based latent semantic model
US8510287B1 (en) * 2012-04-08 2013-08-13 Microsoft Corporation Annotating personalized recommendations
CA2873210A1 (en) 2012-04-09 2013-10-17 Vivek Ventures, LLC Clustered information processing and searching with structured-unstructured database bridge
US20130332240A1 (en) * 2012-06-08 2013-12-12 University Of Southern California System for integrating event-driven information in the oil and gas fields
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
CN103149840B (zh) * 2013-02-01 2015-03-04 西北工业大学 一种基于动态规划的语义服务组合方法
US10235681B2 (en) 2013-10-15 2019-03-19 Adobe Inc. Text extraction module for contextual analysis engine
US10430806B2 (en) 2013-10-15 2019-10-01 Adobe Inc. Input/output interface for contextual analysis engine
US9990422B2 (en) * 2013-10-15 2018-06-05 Adobe Systems Incorporated Contextual analysis engine
CN104915327B (zh) * 2014-03-14 2019-01-29 腾讯科技(深圳)有限公司 一种文本信息的处理方法及装置
CN103838886A (zh) * 2014-03-31 2014-06-04 辽宁四维科技发展有限公司 基于代表词知识库的文本内容分类方法
CN103902703B (zh) * 2014-03-31 2016-02-10 郭磊 基于移动互联网访问的文本内容分类方法
CN103942279B (zh) * 2014-04-01 2018-07-10 百度(中国)有限公司 搜索结果的展现方法和装置
US9892101B1 (en) * 2014-09-19 2018-02-13 Amazon Technologies, Inc. Author overlay for electronic work
CN106815263B (zh) * 2015-12-01 2019-04-12 北京国双科技有限公司 法律条文的搜索方法及装置
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法
US10956824B2 (en) 2016-12-08 2021-03-23 International Business Machines Corporation Performance of time intensive question processing in a cognitive system
CN107832312B (zh) * 2017-01-03 2023-10-10 北京工业大学 一种基于深度语义辨析的文本推荐方法
US11170167B2 (en) * 2019-03-26 2021-11-09 Tencent America LLC Automatic lexical sememe prediction system using lexical dictionaries
CN110110228A (zh) * 2019-04-22 2019-08-09 南京工业大学 基于互联网与词袋的专业文献智能即时推荐方法及系统
DE102019212421A1 (de) 2019-08-20 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Ermittlung ähnlicher Dokumente
CN110888991B (zh) * 2019-11-28 2023-12-01 哈尔滨工程大学 一种弱标注环境下的分段式语义标注方法
CN110909132B (zh) * 2019-11-30 2023-10-20 南京森林警察学院 一种基于语义分析的警务学习内容分析划归方法
CN111324828B (zh) * 2020-02-21 2023-04-28 上海软中信息技术有限公司 一种科技新闻大数据可视化互动式显示系统及方法
CN111832282B (zh) * 2020-07-16 2023-04-14 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112132444B (zh) * 2020-09-18 2023-05-12 北京信息科技大学 一种互联网+环境下文化创新企业知识缺口的识别方法
CN113094512B (zh) * 2021-04-08 2024-05-24 达观数据有限公司 一种工业生产制造中故障分析系统及方法
CN113010662B (zh) * 2021-04-23 2022-09-27 中国科学院深圳先进技术研究院 一种层次化会话式机器阅读理解系统和方法
CN113139667B (zh) * 2021-05-07 2024-02-20 深圳他米科技有限公司 基于人工智能的酒店房间推荐方法、装置、设备及存储介质
CN113468884B (zh) * 2021-06-10 2023-06-16 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN116244306B (zh) * 2023-01-10 2023-11-03 江苏理工学院 基于知识组织语义关系的学术论文引文推荐方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
JP2006011739A (ja) * 2004-06-24 2006-01-12 Internatl Business Mach Corp <Ibm> オントロジを利用する装置、コンピュータシステムおよびデータ処理方法
CN100361126C (zh) * 2004-09-24 2008-01-09 北京亿维讯科技有限公司 使用本体论和用户查询处理技术解决问题的方法
US7853618B2 (en) * 2005-07-21 2010-12-14 The Boeing Company Methods and apparatus for generic semantic access to information systems
JP4427500B2 (ja) * 2005-09-29 2010-03-10 株式会社東芝 意味解析装置、意味解析方法および意味解析プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164439A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103164439B (zh) * 2011-12-14 2016-11-09 中国电信股份有限公司 业务信息动态显示方法、服务器及在线文档浏览终端
CN103577487A (zh) * 2012-08-07 2014-02-12 亿赞普(北京)科技有限公司 一种搜索引擎索引功能的测试方法和装置
CN102930030A (zh) * 2012-11-08 2013-02-13 苏州两江科技有限公司 基于本体的智能语义文献检索推理系统
CN103150667B (zh) * 2013-03-14 2016-06-15 北京大学 一种基于本体结构的个性化推荐方法
CN103150667A (zh) * 2013-03-14 2013-06-12 北京大学 一种基于本体结构的个性化推荐方法
CN103605724A (zh) * 2013-11-15 2014-02-26 清华大学 基于网页文本语义特征的在线零售额计算方法
CN105786817A (zh) * 2014-12-18 2016-07-20 中国科学院深圳先进技术研究院 基于查询重构图推荐高效用的搜索引擎查询方法
CN104866582A (zh) * 2015-05-26 2015-08-26 安一恒通(北京)科技有限公司 显示页面信息的方法和装置
CN106021306A (zh) * 2016-05-05 2016-10-12 上海交通大学 基于本体匹配的案例搜索系统
CN106021306B (zh) * 2016-05-05 2019-03-15 上海交通大学 基于本体匹配的案例搜索系统
CN109977198A (zh) * 2019-04-01 2019-07-05 北京百度网讯科技有限公司 建立映射关系的方法和装置、硬件设备、计算机可读介质
CN111858901A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种基于语义相似的文本推荐方法及系统

Also Published As

Publication number Publication date
US20080270384A1 (en) 2008-10-30
WO2008131607A1 (en) 2008-11-06
CN100592293C (zh) 2010-02-24
HK1102465A2 (en) 2007-11-23

Similar Documents

Publication Publication Date Title
CN100592293C (zh) 基于智能本体的知识搜索引擎及其实现方法
Papagiannopoulou et al. Local word vectors guiding keyphrase extraction
Adhikari Nlp based machine learning approaches for text summarization
Hao et al. Knowledge map-based method for domain knowledge browsing
CN109960756B (zh) 新闻事件信息归纳方法
CN112861990A (zh) 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
Phan et al. Ontology-based heuristic patent search
Godoy et al. Leveraging semantic similarity for folksonomy-based recommendation
Timonen Term weighting in short documents for document categorization, keyword extraction and query expansion
Al_Janabi et al. Pragmatic text mining method to find the topics of citation network
Yang et al. EFS: Expert finding system based on Wikipedia link pattern analysis
Sharma et al. Review of features and machine learning techniques for web searching
Segev et al. Context recognition using internet as a knowledge base
Kawamura et al. Science graph for characterizing the recent scientific landscape using paragraph vectors
Tran et al. User interest analysis with hidden topic in news recommendation system
Volkov et al. Data Driven Detection of Technological Trajectories
Kuzár Clustering on social web
da Costa Semantic Enrichment of Knowledge Sources Supported by Domain Ontologies
Li et al. A Method of Interest Degree Mining Based on Behavior Data Analysis
Ojo et al. Knowledge discovery in academic electronic resources using text mining
Amalia Analyzing Characteristics and Implementing Machine Learning Algorithms for Internet Search
Lim et al. KnowledgeSeeker—An ontological agent-based system for retrieving and analyzing Chinese Web articles
Momeni et al. Which of the book recommendation sections is the most similar to the user selections in LibraryThing?
Röder et al. A Topic Model for the Data Web
Prasath Learning age and gender using co-occurrence of non-dictionary words from stylistic variations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100224

Termination date: 20130428