CN102609449A - 一种基于维基百科构建概念型知识地图的方法 - Google Patents

一种基于维基百科构建概念型知识地图的方法 Download PDF

Info

Publication number
CN102609449A
CN102609449A CN2012100061576A CN201210006157A CN102609449A CN 102609449 A CN102609449 A CN 102609449A CN 2012100061576 A CN2012100061576 A CN 2012100061576A CN 201210006157 A CN201210006157 A CN 201210006157A CN 102609449 A CN102609449 A CN 102609449A
Authority
CN
China
Prior art keywords
knowledge
document
classification
label
notion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100061576A
Other languages
English (en)
Other versions
CN102609449B (zh
Inventor
金海�
赵峰
袁平鹏
方飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201210006157.6A priority Critical patent/CN102609449B/zh
Publication of CN102609449A publication Critical patent/CN102609449A/zh
Application granted granted Critical
Publication of CN102609449B publication Critical patent/CN102609449B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种使用维基百科构建概念型知识地图的方法,步骤为:①从维基百科全文数据中抽取知识文档,将抽取的文档分类并存储;②从知识文档中获取知识信息,分析每篇知识文档获取知识信息并存入数据库;③以知识节点格式描述库中的规范为基础,将知识信息转化为相应的概念知识节点和类别知识节点,并以文件格式存储至本地;④建立索引以提供使用关键字对知识信息进行检索的功能,并将检索返回的结果进行显示。利用本发明构建的知识地图不仅可以适用于多个领域,而且其中的知识信息可以和维基百科一起更新,同时知识源的获取容易,知识信息全面,采用可扩展标记语言对知识节点信息进行描述,因此可扩展性强并且可以在多平台上使用。

Description

一种基于维基百科构建概念型知识地图的方法
技术领域
本发明属于知识管理领域,具体涉及一种使用维基百科构建概念型知识地图的方法。
背景技术
20世纪90年代以来,随着现代信息技术的高速发展,人类已进入知识经济时代,一方面知识总量在快速地增加,知识资源日益丰富,另一方面随着人类文明的不断进步,知识的价值也随之不断提升。知识管理的出现正是为了将这些飞速增长的海量知识进行有效组织和管理,发挥出知识巨大的力量,并使其能够创造出更大价值。
知识管理是将智力资本转化为价值的一系列过程,包括知识的获取、组织、传递、共享、传播、应用和创新等过程。其目的是在整个知识管理过程中将最恰当的知识在最恰当的时间传递给最恰当的人,以便其能够利用这些知识做出最恰当的决策。
随着知识管理研究的兴起,知识地图作为一种组织和管理知识的重要工具得到了人们的普遍认可,目前正受到越来越多的来自企业和学者的关注。知识地图是一种智能化的知识管理工具,提供了知识导航的能力,并且能够在语义层面上描述知识的内在关系,能够根据人们的需要快速有效地定位知识的位置,提高知识利用率,实现知识的组织、查找、共享和创新。
知识导航功能是知识地图最根本的作用。知识地图是一个向导,它本身并不是一个知识的集合,而是关于知识源的知识,知识地图指向的是知识源。通过对知识信息的分析,知识地图还能有效地揭示知识节点之间的关系,如相关关系、因果关系、逻辑关系、评价关系等等。知识地图也可以挖掘隐性知识。隐性知识是很难用语言、文字、符号等表述的知识,它存在人脑中,知识地图可以帮助使用者找到所需要的隐性知识,在这个过程中,那些存在于人脑中的隐性知识将被逐渐显性化,并被提炼出来最后转化成为组织中原本不具备的显性知识,从而有助于知识资源的共享、传播和创造。根据使用对象的不同,知识地图可以划分为概念型知识地图、流程型知识地图和能力型知识地图。
虽然知识地图已经成为知识管理的研究热点,但传统的知识地图往往都是为某一个专门领域中某一特定目的而人工制作的,这类知识地图的适用范围非常有限,导致对不同的应用领域需要重新开发新的系统,通用性不强,而且由于知识源的信息也不易获取,使得开发效率很低,同时这些知识地图中的知识都是静态的,无法反映最新的知识变化,尽管近些年有一些研究者利用数据挖掘和自然语言处理的算法实现动态知识地图的构建方法,但因其算法理解的难度和改进的复杂性阻碍了知识地图构建的实现。
发明内容
本发明的目的是提供一种使用维基百科构建概念型知识地图的方法,该方法能够根据维基百科建立一个概念型的知识地图,知识源的获取容易,知识信息全面且可以动态扩展,知识内容可以及时更新,同时可适用于多个领域,具有知识信息全面,可扩展性强,能实时更新以及适用范围广的特点。
本发明提供的一种基于维基百科构建概念型知识地图的方法,该方法包括下述步骤:
第1步、抽取知识文档:从维基百科全文数据中抽取出知识文档,然后将抽取的文档分为概念知识文档和类别知识文档,最后将知识文档存储;
第2步、获取知识信息:分析所有存储的知识文档,获取各知识文档中所包含的知识信息,包括概念、类别的基本知识信息,概念与类别之间的关联信息以及概念与概念之间的关联信息,并将所有获取的知识信息存入数据库;
第3步、知识信息转化为知识节点:以知识节点格式描述库中的规范为基础,将获取的知识信息按照统一的描述格式转化为知识节点,然后将知识节点以文件形式存储到本地;
第4步、使用知识信息:对知识节点中的知识信息建立索引,以提供通过关键词对知识信息进行检索的功能,并将检索结果以概念知识地图的方式进行显示。
针对传统知识地图适用范围的局限性以及无法反映最新的知识变化的静态性,本发明提供一种使用维基百科构建概念型知识地图的方法,首先从维基百科全文数据中抽取知识文档,然后从知识文档中获取知识信息,接着将获取的知识信息转化为知识节点,最后将这些知识信息供用户使用。具体而言,本发明的主要特点为:
(1)知识信息全面并且可实时性更新
本发明基于维基百科建立,维基百科上的知识由全世界的人所贡献,知识覆盖面广,知识信息全面。维基百科的信息每两周更新一次,只要将维基百科更新的文件处理一次,即可实现知识地图知识信息的实时更新。
(2)可扩展性强
本发明使用可扩展标记语言对知识节点及知识节点之间的知识信息进行描述,因此从任何资源抽取的知识信息,只要转换成符合本发明知识描述格式,则均可将相关的知识添加到知识地图中,系统可扩展性强。
(3)通用性强
本发明实现的知识地图不仅包含显性的知识节点信息,还包含知识节点之间的语义关联信息,所有这些信息能够广泛的应用于知识管理,信息检索,数据挖掘以及自然语言处理等领域。
附图说明
图1为本发明方法的整体流程图;
图2为本发明抽取维基百科知识文档的流程图;
图3为本发明获取知识信息的流程图;
图4为本发明分析知识文档的流程图;
图5为标题为“Green computing”的概念知识节点;
图6为标题为“Category:Computers and the environment”的类别知识节点。
具体实施方式
如图1所示,本发明提供的基于维基百科构建概念型知识地图的方法,主要包括从维基百科全文数据抽取知识文档,从知识文档获取知识信息,将知识信息转化为知识节点和使用知识信息四个步骤。下面具体说明如下:
第一步、抽取知识文档:从维基百科中抽取出知识文档,然后将知识文档分为概念型和类别型知识文档,最后将知识文档以文件形式存储至本地,构成知识文档集。该过程分为两步:抽取知识文档和知识文档分类与存储。
(a)知识文档抽取,从维基百科的全文数据抽取知识文档,流程图如图2所示,抽取步骤如下:
(1)首先从维基百科官方网站下载其全文数据文件data.xml;
(2)读取标签,直到data.xml开始标签,接下来以知识文档为单位对该文件进行解析;
(3)新建知识文档,读取<id>标签内容作为文档编号,<title>标签内容作为文档标题,<text>标签内容作为文档内容;
(4)以文档编号为文件名保存知识文档。继续读取标签,若当前读取标签为data.xml结束标签,则执行(5),否则执行(3)。
(5)抽取结束。
(b)知识文档分类与存储:将抽取的知识文档分为概念型和类别型知识文档,并将知识文档以文件形式存储至本地。维基百科标题是按照一定规则进行命名的,可以以标题为特征对知识文档进行分类。如果知识文档标题严格以字符串“Category:”开头,则表明该文档是类别知识文档,否则就是概念型知识文档,依据文档的分类结果将知识文档分别储存到两个目录下,使用文档编号作为文件名,以方便直接定位知识文档存储位置,所有的类别知识文档和概念型知识文档构成知识文档集。
第二步、获取知识信息:使用知识文档分析器分析知识文档集中的所有知识文档,获取各知识文档中所包含的知识信息,包括概念、类别的基本知识信息,概念与类别的关联知识信息以及概念与概念的关联知识信息,最后将所有获取的知识信息存入数据库。
每篇知识文档可以看成是由多个文档片段组成,其中每个文档片段包含两个属性:文档片段名称和知识概念集。知识文档分析器提取出每个文档片段的片段名称以及知识概念集,这样就使得后续步骤可以方便地获取知识文档中指定文档片段中的知识概念。
有了知识文档分析器为基础,获取知识信息和存储的流程图如图3所示,主要步骤如下:
(1)初始,建立数据库,并从知识文档集中读取一份文档;
建立名称为维基百科wikipedia的数据库,然后在该数据库中建立五个表,分别用来存储相应的知识信息,具体如下:
概念基本知识信息表:存储概念的基本知识信息,包括概念编号和概念标题两个字段;概念关联知识信息表:存储概念与概念之间的知识信息,包括当前概念和关联概念两个字段;类别基本知识信息表:存储类别的基本知识信息,包括类别编号和类别标题两个字段;类别关联知识信息表:存储类别与类别之间的关联信息,包括当前类别和子类别两个字段;类别与概念关联知识信息表:存储类别与概念之间的关联信息,包括类别和类别概念两个字段。
(2)使用知识文档分析器分析该文档,如果文档是概念知识文档执行步骤(3),否则转步骤(5)执行;
知识文档分析器的工作流程图如图4,分析步骤如下:
①初始,设置空的集合作为知识概念集,并根据文档编号,查找到对应的知识文档;
②读取当前行,若到达文件末,则转步骤④;
③如果当前行以字符串“==”开头,则表明新的文档片段开始,此时保存上一个文档片段的名称和知识概念集,然后从当前行中匹配出下一个文档片段名称,并清空知识概念集合,再转步骤②执行;如果当前行不以字符串“==”开头,则从当前行中用正则表达式匹配出知识概念,并将其加入到知识概念集中,转步骤②执行;
④文档分析结束。
(3)获取概念基本知识信息,以文档标题作为概念名称,文档编号作为概念编号,存入数据库的概念基本知识信息表中;
(4)获取概念与概念之间的知识信息,将名称为“See also”的文档片段对应的概念集提取出来作为当前概念的关联概念,存入数据库的概念关联知识信息表中,然后转步骤(8)执行;
(5)获取类别基本知识信息,以文档标题作为类别名称,文档编号作为类别编号,存入数据库的类别基本知识信息表中;
(6)获取类别与类别之间的知识信息,将名称为“Subcategories”的文档片段对应的概念集提取出来作为当前类别的子类别,存入数据库的类别关联知识信息表中;
(7)获取类别与概念之间的知识信息,将名称为“Pages in category”的文档片段对应的概念集提取出来作为当前类别的关联概念,存入数据库的类别与概念关联知识信息表中,然后转步骤(8)执行;
(8)判断知识文档集是否读取完毕,如果是,结束,否则读取下一篇知识文档,然后转入步骤(2)。
第三步、知识信息转化为知识节点
该步骤主要依据知识节点格式描述库中的描述规范将第二步中存储的知识信息转化为对应的知识节点,并将每个知识节点以文件形式存储到本地。该步骤主要包括建立知识节点格式描述库,概念知识节点转化和类别知识节点转化三个部分。
(a)建立知识节点格式描述库
以可扩展标记语言(XML)为基础,制定一个统一规范的格式对知识节点及知识节点之间的关系进行描述,这样既提高了系统的可扩展性,也使得知识信息可以跨平台使用。
知识节点描述中各标签含义如下:
<Item>标签,表示一个知识结点,其子标签都是关于该知识节点的信息;
<Id>标签,表示知识文档编号,即知识节点编号;
<Title>标签,表示知识文档标题,即知识节点标题;
<Type>标签,表示知识节点类型:取值为1或者2,1表示概念知识节点,2表示类别知识节点;
<Links>标签,表示知识源链接,知识地图指向的是知识源,该标签的每个子标签<link>对应一个当前知识节点对应的一个知识源;
<Categories>标签,表示当前概念所属的类别,每个子标签<C>对应一个类别;
<RelConcepts>标签,概念知识节点专属,表示当前概念知识节点的关联概念,该标签的每一个子标签<RC>表示一个当前概念的关联概念;
<Subcategories>标签,类别知识节点专属,表示当前类别的子类别,该标签的每一个子标签<SC>表示一个当前类别的子类别;
<IncludeConcepts>标签,类别知识节点专属,表示当前类别包含的概念,该标签的每一个子标签<IC>表示当前类别所包含的一个概念。
(b)概念知识节点转化
依据知识节点格式描述库,将第二步中存储的概念知识信息转化为概念知识节点,并以XML文件格式存储至本地。主要步骤如下:
(1)读取概念基本知识信息表的一条记录,得到概念编号和概念标题;
(2)以概念编号为文件名建立一个新的知识节点XML文件,在该文件中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>,<Links>,<Categories>,<RelConcepts>;
(3)使用概念编号填充Id标签,概念标题填充Title标签,Type标签内容为1;
(4)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该概念的维基百科网站链接,一个指向该概念对应知识文档的本地存储路径;
(5)根据概念的标题从类别与概念关联知识信息表中获取概念所属的类别集合,对其中的每一个类别,在<Categories>标签下新建一个子标签<C>,标签内容用类别名称填充;
(6)根据概念的标题从概念关联知识信息表中获取概念的关联概念集合,对其中的每一个关联概念,在<RelConcepts>标签下新建一个子标签<RC>,标签内容用概念名称填充;
(7)一个概念知识节点建立完成,将其对应的文件存储至本地。
(c)类别知识节点转化
依据知识节点格式描述库,对第二步中存储的类别知识信息转化为类别知识节点,并以XML文件格式存储至本地。主要步骤如下:
(1)读取类别基本知识信息表的一条记录,得到类别编号和类别标题;
(2)以类别编号为文件名建立一个新的知识节点XML文件,在该文件中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>,<Links>,<Categories>,<Subcategories>,<IncludeConcepts>;
(3)使用类别编号填充Id标签,类别标题填充Title标签,Type标签内容为2;
(4)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该类别的维基百科网站链接,一个指向该类别对应知识文档的本地存储路径;
(5)从类别关联知识信息表中找到该类别所属的类别集合,对其中每一个类别,在<Categories>标签下新建一个子标签<C>,标签内容用类别名称填充;
(6)从类别关联知识信息表中找到该类别的子类别集合,对其中的每一个类别,在<Subcategories>标签下新建一个子标签<SC>,标签内容用类别名称填充;
(7)从类别与概念关联知识信息表中找到该类别下的概念集合,对其中的每一个概念,在<IncludeConcepts>标签下新建一个子标签<IC>,标签内容用概念名称填充;
(8)一个类别知识节点建立完成,将其对应的文件存储至本地。
第四步、使用知识节点
在知识信息转化为知识节点完成后,接下来对知识节点中的知识信息建立索引,以提供通过关键词对知识进行检索的功能,并将检索结果以概念知识地图的方式进行显示。
(a)知识节点的索引与检索
对第三步中存储的知识节点的文件进行索引,遍历所有的知识节点文件,获取每个知识节点文件的路径以及文件中的<Id>标签中的编号和<Title>标签中的标题,然后对这三个字段进行索引。
索引建立完成后,可以对知识信息进行检索。首先输入关键字,然后依据索引中的标题字段检索,通过检索返回结果中的路径字段可以定位到知识节点文件的存储位置,然后将知识节点文件中的知识信息进行显示。
(b)知识节点的显示
知识地图中,除了显示基本的知识节点信息外,还要显示出知识节点的关联信息。在显示知识节点的信息时,主要是通过颜色来对概念和类别知识节点以及知识节点之间的关联信息进行区别,类别的层次信息使用单向箭头来表示,具体如下:
(1)概念和类别知识节点通过节点颜色来区分,概念知识节点的颜色为蓝色,类别知识节点的颜色为橙色;
(2)知识节点关联信息通过节点连线颜色进行区分,概念与概念知识节点之间连线的颜色为蓝色,概念与类别知识节点之间连线的颜色为红色;
(3)类别与类别之间的关系使用单向箭头表示,箭头颜色为橙色,箭头方向由当前类别指向其子类。
实例:
下面以标题为“Green computing”的概念知识节点和标题为“Category:Computers and the environment”的类别知识节点的构建过程和使用为例对本发明的基本步骤作进一步的说明:
第一步,抽取知识文档:从维基百科的全文数据中解析所有知识文档,标题为“Green computing”的概念知识文档对应的文档编号为189234,存储到本地目录“D:\wikidocs\concepts”下,存储的文件名为189234,标题为“Category:Computers and the environment”的类别知识文档对应的文档编号为721259,存储到本地目录“D:\wikidocs\categories”下,存储的文件名为721259;
第二步,获取知识信息:通过对知识文档进行分析,从概念知识文档189234中获取“Green computing”的基本知识信息以及与“Green computing”概念的关联概念知识信息,如“Desktop virtualization”“Data migration”“Energy Efficient Ethernet”“Power usage effectiveness”等,从类别知识文档721259中获取类别“Category:Computers and the environment”的基本知识信息,相关的类别知识信息“Category:Computer recycling”以及与类别“Category:Computers and the environment”相关的概念知识信息,如“Greencomputing”,“The Green Grid”,“PC power management”“IT energymanagement”,“PowerTOP”等,然后将所有获取的知识信息存入数据库相应的表中;
第三步,知识信息转化为知识节点:以知识节点格式描述库中的规范为基础,将获取的知识信息按照统一的描述格式转化为知识节点,概念“Green computing”转化后的概念知识节点如图5,将转化后的知识节点存入目录“D:\wikidocs\konwledge”下,文件名为189234,类别“Category:Computers and the environment”转化后的类别知识节点如图6,将转化后的知识节点存入目录“D:\wikidocs\konwledge”下,文件名为721259;
第四步,使用知识信息:对知识节点中的知识信息建立索引,通过关键词“Green computing”可以查找到对应的概念知识节点,通过关键词“Computers and the environment”可以找到对应的类别知识节点,找到相应的知识节点后,然后将知识节点中的信息进行显示。
本发明不仅仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护的范围。

Claims (8)

1.一种基于维基百科构建概念型知识地图的方法,其特征在于,该方法包括下述步骤:
第1步、抽取知识文档:从维基百科全文数据中抽取出知识文档,然后将抽取的文档分为概念知识文档和类别知识文档,最后将知识文档存储;
第2步、获取知识信息:分析所有存储的知识文档,获取各知识文档中所包含的知识信息,包括概念、类别的基本知识信息,概念与类别之间的关联信息以及概念与概念之间的关联信息,并将所有获取的知识信息存入数据库;
第3步、知识信息转化为知识节点:以知识节点格式描述库中的规范为基础,将获取的知识信息按照统一的描述格式转化为知识节点,然后将知识节点以文件形式存储到本地;
第4步、使用知识信息:对知识节点中的知识信息建立索引,以提供通过关键词对知识信息进行检索的功能,并将检索结果以概念知识地图的方式进行显示。
2.根据权利要求1所述的基于维基百科构建概念型知识地图的方法,其特征在于,第1步具体包括下述过程:
(a1)首先从维基百科官方网站下载其全文数据文件;
(a2)读取标签,直到全文数据文件开始标签,接下来以知识文档为单位对该文件进行解析;
(a3)新建知识文档,读取<id>标签内容作为文档编号,<title>标签内容作为文档标题,<text>标签内容作为文档内容;
(a4)以文档编号为文件名保存知识文档;继续读取标签,若当前读取标签为全文数据文件结束标签,则执行步骤(a5),否则执行步骤(a3);
(a5)判断该知识文档标题是否以字符串“Category:”开头,如果是,表明该文档是类别知识文档,否则就是概念型知识文档;
(a6)依据知识文档的分类结果将知识文档分别储存到两个目录下,以文档编号作为文件名。
3.根据权利要求1所述的基于维基百科构建概念型知识地图的方法,其特征在于,第2步具体包括下述过程:
(b1)初始,建立数据库,并从知识文档集中读取一份文档;
所建立的数据库中包括五个表:概念基本知识信息表,概念关联知识信息表,类别基本知识信息表,类别关联知识信息表以及类别与概念关联知识信息表;
(b2)对知识文档进行分析,如果文档是概念知识文档执行步骤(b3),否则转步骤(b5)执行;
(b3)获取概念基本知识信息,以文档标题作为概念名称,文档编号作为概念编号,存入数据库的概念基本知识信息表中;
(b4)获取概念与概念之间的知识信息,将名称为“See also”的文档片段对应的概念集提取出来作为当前概念的关联概念,存入数据库的概念关联知识信息表中,然后转步骤(b8)执行;
(b5)获取类别基本知识信息,以文档标题作为类别名称,文档编号作为类别编号,存入数据库的类别基本知识信息表中;
(b6)获取类别与类别之间的知识信息,将名称为“Subcategories”的文档片段对应的概念集提取出来作为当前类别的子类别,存入数据库的类别关联知识信息表中;
(b7)获取类别与概念之间的知识信息,将名称为“Pages in category”的文档片段对应的概念集提取出来作为当前类别的关联概念,存入数据库的类别与概念关联知识信息表中,然后转步骤(b8)执行;
(b8)判断知识文档集是否读取完毕,如果是,结束,否则读取下一篇知识文档,然后转入步骤(b2)。
4.根据权利要求3所述的基于维基百科构建概念型知识地图的方法,其特征在于,步骤(b2)中,对知识文档进行分析的过程如下:
①初始,设置空的集合作为知识概念集,并根据文档编号,查找到对应的知识文档;
②读取当前行,若到达文件末,则转步骤④;
③如果当前行以字符串“==”开头,则表明新的文档片段开始,此时保存上一个文档片段的名称和知识概念集,然后从当前行中匹配出下一个文档片段名称,并清空知识概念集合,再转步骤②执行;如果当前行不以字符串“==”开头,则从当前行中用正则表达式匹配出知识概念,并将其加入到知识概念集中,转步骤②执行;
④文档分析结束。
5.根据权利要求1至4中任一所述的基于维基百科构建概念型知识地图的方法,其特征在于,第3步具体包括下述过程:
(c1)建立知识节点格式描述库:以可扩展标记语言XML为基础,制定一个统一规范的格式对知识节点及知识节点之间的关系进行描述;
(c2)概念知识节点转化:依据知识节点格式描述库,将第二步中存储的概念知识信息转化为概念知识节点,并以XML文件格式存储至本地;
(c3)类别知识节点转化:依据知识节点格式描述库,将第二步中存储的类别知识信息转化为类别知识节点,并以XML文件格式存储至本地。
6.根据权利要求5所述的基于维基百科构建概念型知识地图的方法,其特征在于,步骤(c1)中,知识节点描述的规范如下:
<Item>标签,表示一个知识结点,其子标签是关于该知识节点的信息;
<Id>标签,表示知识文档编号,即知识节点编号;
<Title>标签,表示知识文档标题,即知识节点标题;
<Type>标签,表示知识节点类型:取值为1或者2,分别表示概念知识节点或类别知识节点;
<Links>标签,表示知识源链接,知识地图指向的是知识源,该标签的每个子标签<link>对应一个当前知识节点对应的一个知识源;
<Categories>标签,表示当前概念所属的类别,每个子标签<C>对应一个类别;
<RelConcepts>标签,概念知识节点专属,表示当前概念知识节点的关联概念,该标签的每一个子标签<RC>表示一个当前概念的关联概念;
<Subcategories>标签,类别知识节点专属,表示当前类别的子类别,该标签的每一个子标签<SC>表示一个当前类别的子类别;
<IncludeConcepts>标签,类别知识节点专属,表示当前类别包含的概念,该标签的每一个子标签<IC>表示当前类别所包含的一个概念。
7.根据权利要求5所述的基于维基百科构建概念型知识地图的方法,其特征在于,步骤(c2)具体包括下述过程
(c21)读取概念基本知识信息表的一条记录,得到概念编号和概念标题;
(c22)以概念编号为文件名建立一个新的知识节点XML文件,在该文件中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>,<Links>,<Categories>,<RelConcepts>;
(c23)使用概念编号填充Id标签,概念标题填充Title标签,Type标签内容为1;
(c24)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该概念的维基百科网站链接,一个指向该概念对应知识文档的本地存储路径;
(c25)根据概念的标题从类别与概念关联知识信息表中获取概念所属的类别集合,对其中的每一个类别,在<Categories>标签下新建一个子标签<C>,标签内容用类别名称填充;
(c26)根据概念的标题从概念关联知识信息表中获取概念的关联概念集合,对其中的每一个关联概念,在<RelConcepts>标签下新建一个子标签<RC>,标签内容用概念名称填充;
(c27)一个概念知识节点建立完成,将其对应的文件存储至本地。
8.根据权利要求5所述的基于维基百科构建概念型知识地图的方法,其特征在于,步骤(c3)具体包括下述过程:
(c31)读取类别基本知识信息表的一条记录,得到类别编号和类别标题;
(c32)以类别编号为文件名建立一个新的知识节点XML文件,在该文件中新建Item标签,Item的直接子标签包括<Id>,<Title>,<Type>,<Links>,
<Categories>,<Subcategories>,<IncludeConcepts>;
(c33)使用类别编号填充Id标签,类别标题填充Title标签,Type标签内容为2;
(c34)知识源链接标签<Links>包含两个<link>子标签,一个指向描述该类别的维基百科网站链接,一个指向该类别对应知识文档的本地存储路径;
(c35)从类别关联知识信息表中找到该类别所属的类别集合,对其中每一个类别,在<Categories>标签下新建一个子标签<C>,标签内容用类别名称填充;
(c36)从类别关联知识信息表中找到该类别的子类别集合,对其中的每一个类别,在<Subcategories>标签下新建一个子标签<SC>,标签内容用类别名称填充;
(c37)从类别与概念关联知识信息表中找到该类别下的概念集合,对其中的每一个概念,在<IncludeConcepts>标签下新建一个子标签<IC>,标签内容用概念名称填充;
(c38)一个类别知识节点建立完成,将其对应的文件存储至本地。
CN201210006157.6A 2012-01-06 2012-01-06 一种基于维基百科构建概念型知识地图的方法 Expired - Fee Related CN102609449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210006157.6A CN102609449B (zh) 2012-01-06 2012-01-06 一种基于维基百科构建概念型知识地图的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210006157.6A CN102609449B (zh) 2012-01-06 2012-01-06 一种基于维基百科构建概念型知识地图的方法

Publications (2)

Publication Number Publication Date
CN102609449A true CN102609449A (zh) 2012-07-25
CN102609449B CN102609449B (zh) 2014-05-07

Family

ID=46526821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210006157.6A Expired - Fee Related CN102609449B (zh) 2012-01-06 2012-01-06 一种基于维基百科构建概念型知识地图的方法

Country Status (1)

Country Link
CN (1) CN102609449B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390058A (zh) * 2013-07-29 2013-11-13 北京理工大学 基于知识地图的领域知识浏览方法
CN103914486A (zh) * 2013-01-08 2014-07-09 邓寅生 文档的搜索及展现的系统
CN103995847A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN104933185A (zh) * 2015-07-03 2015-09-23 武汉商学院 维基百科条目质量评价方法
CN105243111A (zh) * 2015-09-25 2016-01-13 常熟商数信息技术有限公司 基于层次关系组织的多语种词库管理方法
CN105843973A (zh) * 2015-01-13 2016-08-10 北京仿真中心 一种基于案例的设计知识的描述方法及系统
CN108647244A (zh) * 2018-04-13 2018-10-12 广东技术师范学院 思维导图形式的主题教学资源集成方法、网络存储系统
CN109471939A (zh) * 2018-10-24 2019-03-15 山东职业学院 一种知识分类及隐性知识显性化的系统
CN112765288A (zh) * 2021-02-05 2021-05-07 新华智云科技有限公司 知识图谱的构建方法及系统、信息查询方法及系统
CN114168075A (zh) * 2021-11-29 2022-03-11 华中科技大学 基于数据关联性提升负载访问性能的方法、设备及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444181B (zh) * 2020-03-20 2021-05-11 腾讯科技(深圳)有限公司 知识图谱更新方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1448863A (zh) * 2002-04-04 2003-10-15 迪吉科技有限公司 知识地图的建立、编辑、检索与对应网络上信息内容的编辑方法
CN102184194A (zh) * 2011-04-20 2011-09-14 上海交通大学 基于本体的知识地图绘制系统
WO2011153392A2 (en) * 2010-06-03 2011-12-08 Thomson Licensing Semantic enrichment by exploiting top-k processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1448863A (zh) * 2002-04-04 2003-10-15 迪吉科技有限公司 知识地图的建立、编辑、检索与对应网络上信息内容的编辑方法
WO2011153392A2 (en) * 2010-06-03 2011-12-08 Thomson Licensing Semantic enrichment by exploiting top-k processing
CN102184194A (zh) * 2011-04-20 2011-09-14 上海交通大学 基于本体的知识地图绘制系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭亮: "《基于知识单元的语义wiki知识库》", 《西安电子科技大学硕士学位论文》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914486A (zh) * 2013-01-08 2014-07-09 邓寅生 文档的搜索及展现的系统
CN103914486B (zh) * 2013-01-08 2017-02-15 邓寅生 文档的搜索及展现的系统
CN103390058A (zh) * 2013-07-29 2013-11-13 北京理工大学 基于知识地图的领域知识浏览方法
CN103390058B (zh) * 2013-07-29 2016-04-27 北京理工大学 基于知识地图的领域知识浏览方法
CN103995847A (zh) * 2014-05-06 2014-08-20 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
CN103995847B (zh) * 2014-05-06 2017-08-18 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
US10083228B2 (en) 2014-05-06 2018-09-25 Baidu Online Network Technology (Beijing) Co., Ltd. Searching method and apparatus
CN104133916A (zh) * 2014-08-14 2014-11-05 百度在线网络技术(北京)有限公司 搜索结果信息组织方法和装置
CN105843973A (zh) * 2015-01-13 2016-08-10 北京仿真中心 一种基于案例的设计知识的描述方法及系统
CN105843973B (zh) * 2015-01-13 2018-12-14 北京仿真中心 一种基于案例的设计知识的描述方法及系统
CN104933185B (zh) * 2015-07-03 2018-12-04 武汉商学院 维基百科条目质量评价方法
CN104933185A (zh) * 2015-07-03 2015-09-23 武汉商学院 维基百科条目质量评价方法
CN105243111A (zh) * 2015-09-25 2016-01-13 常熟商数信息技术有限公司 基于层次关系组织的多语种词库管理方法
CN108647244A (zh) * 2018-04-13 2018-10-12 广东技术师范学院 思维导图形式的主题教学资源集成方法、网络存储系统
CN108647244B (zh) * 2018-04-13 2021-08-24 广东技术师范学院 思维导图形式的主题教学资源集成方法、网络存储系统
CN109471939A (zh) * 2018-10-24 2019-03-15 山东职业学院 一种知识分类及隐性知识显性化的系统
CN109471939B (zh) * 2018-10-24 2021-05-11 山东职业学院 一种知识分类及隐性知识显性化的系统
CN112765288A (zh) * 2021-02-05 2021-05-07 新华智云科技有限公司 知识图谱的构建方法及系统、信息查询方法及系统
CN114168075A (zh) * 2021-11-29 2022-03-11 华中科技大学 基于数据关联性提升负载访问性能的方法、设备及系统
CN114168075B (zh) * 2021-11-29 2024-05-14 华中科技大学 基于数据关联性提升负载访问性能的方法、设备及系统

Also Published As

Publication number Publication date
CN102609449B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN102609449B (zh) 一种基于维基百科构建概念型知识地图的方法
Wei et al. A survey of faceted search
US7555480B2 (en) Comparatively crawling web page data records relative to a template
US10929439B2 (en) Taxonomic tree generation
CN106528648B (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
WO2022174552A1 (zh) 获取poi状态信息的方法及装置
Richards et al. The Archaeology Data Service and the Archaeotools project: faceted classification and natural language processing
Xu et al. Novel approach of semantic annotation by fuzzy ontology based on variable precision rough set and concept lattice
Furche et al. Real understanding of real estate forms
CN110717014B (zh) 一种本体知识库动态构建方法
CN110263178B (zh) 一种WordNet到Neo4J的映射方法、语义检测方法及语义计算扩展接口生成方法
Mabanza et al. Performance evaluation of open source native xml databases-a case study
Pu et al. A vision-based approach for deep web form extraction
Ahmed et al. Web to Semantic Web & Role of Ontology
CN1326078C (zh) 包装器的生成方法
Xu et al. Semantic annotation of ontology by using rough concept lattice isomorphic model
Lam et al. Web information extraction
Gao et al. BIMTag: semantic annotation of web BIM product resources based on IFC ontology
Kásler et al. Framework for semi automatically generating topic maps
Kolkur et al. Web Data Extraction Using Tree Structure Algorithms-A Comparison
KR100555982B1 (ko) 확장 마크업 언어로 작성된 문서를 위한 정보검색 시스템및 그 방법과 그 방법을 실행시키기 위한 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체
Deshmukh et al. An improved approach for deep web data extraction
Gupta et al. Data acquisition based web scrapping algorithm for extraction of data sets from patent portal
Chobe et al. Extraction of Meaningful Information from the Web: a Brief Survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140507

Termination date: 20210106