CN107239481A - 一种面向多源网络百科的知识库构建方法 - Google Patents

一种面向多源网络百科的知识库构建方法 Download PDF

Info

Publication number
CN107239481A
CN107239481A CN201710236165.2A CN201710236165A CN107239481A CN 107239481 A CN107239481 A CN 107239481A CN 201710236165 A CN201710236165 A CN 201710236165A CN 107239481 A CN107239481 A CN 107239481A
Authority
CN
China
Prior art keywords
page
classification
information
triple
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710236165.2A
Other languages
English (en)
Other versions
CN107239481B (zh
Inventor
韩喆
冯岩松
贾爱霞
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710236165.2A priority Critical patent/CN107239481B/zh
Publication of CN107239481A publication Critical patent/CN107239481A/zh
Application granted granted Critical
Publication of CN107239481B publication Critical patent/CN107239481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向多源网络百科的知识库构建方法。本方法为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,得到知识库的概念集合;4)从页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立知识库。本发明不仅可以输出实体的类别体系,还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。

Description

一种面向多源网络百科的知识库构建方法
技术领域
本发明主要涉及互联网领域,特别涉及开放领域和全领域的知识库构建,提出了一种全新的自动构建方法,适用于基于网络百科的知识库自动构建,属于知识库构建领域。
背景技术
随着互联网和信息技术的不断发展,越来越多的知识通过人们的编辑、修改等方式被放到网上,网络逐渐成为人们快速获取新知识的第一途径。如何在海量的网络数据中剔除垃圾信息、提取有用的信息、生成可以批量存储和查询的结构化信息,是信息抽取领域的一个重要任务,也是构建知识库的出发点。
知识库一般以(主语,谓词,客体)的三元组形式抽取和存储。比如(e.刘翔,p.出生地,e.上海)这条三元组就描述了前田径运动员刘翔的出生地点信息,这里面“刘翔”和“上海”都是知识库里的实体(或者叫“概念”)。知识库可以类比成以实体为点,通过不同类别的关系连接的有向图。
常见的知识库构建方法主要分为两大类,基于网络百科的全领域知识库和基于特定领域的专家知识库。前者著名的知识库有DBpedia、Freebase,他们基于英文维基百科;后者则主要基于专家知识,往往采用手工构建的方式,可扩展性较低。英文网络百科由于编辑质量高,很容易从信息框(或者叫infobox)中提取结构化的实体间关系信息。目前中文的开放领域知识库还处于空白,主要是由于中文网络百科编辑标准不规范、编辑者能力不足而导致的半结构化信息(信息框信息)未链接、缺少类别体系等原因。
发明内容
本发明的目的是提供一种从多种网络百科来源中自动生成知识库的解决方法。使用该方法生成的知识库不仅可以输出实体的类别体系(taxonomy),还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。
首先通过构造网络爬虫抓取多个网络百科的所有页面;然后抽取每个页面的类别信息;接着根据抽取的类别信息自动构建类别树,并将类别信息对应到类别树上,形成知识库的taxonomy;然后通过收集的类别信息、信息框中的别名信息(别名指的是实体的所有名字,比如我们熟悉的前NBA运动员“姚明”的别名有“姚明,小巨人,中国长城”)、页面HTML中的锚文本来找出可能指代同一概念的页面,通过文本特征和类别信息来去除重复页面;之后从页面的信息框和正文中抽取三元组信息,使用类别信息、页面的别名信息、文本信息等来对三元组客体进行链接,最后生成包含taxonomy信息的标准化知识库。该知识库不仅包含taxonomy信息,其中的三元组的实体链接程度和准确性都很高。
为了达到上述目的,本发明的技术方案包括:一种基于自动构建的类别体系、面向多源网络百科的知识库构建方法,包括如下步骤:
(1)构造网络爬虫从多源网络百科抓取页面。
(2)从页面摘要和词条标签等多种来源抽取页面中的类别信息。
(3)基于类别信息自动构建类别树,并将类别信息和类别树对应,形成知识库的类别体系(taxonomy)。类别体系的结构一般是类别的上下级关系,是一种树结构,内容是不固定的,常见的类别比如“人物”,“组织机构”,“地点”等等。
(4)基于类别信息等文本特性对多源百科页面进行去重,剩下无重复的页面集合组成知识库的概念(实体)集合。
(5)从页面信息框和正文中抽取三元组信息。
(6)构造处理时间类客体的转换器、处理常见单位客体、处理纯文本类客体、处理实体类客体等多种类别标准化转换器,将三元组中的客体通过转换器转换成标准格式输出,其中处理实体类客体的标准化转换器基于类别信息等文本信息对客体进行链接和标准化转化。
(7)按照RDF格式输出上一步得到的标准化三元组,类别信息也由RDF格式输出。
在步骤(1)中,为了保证能抓取到所有的实体页面,爬虫应该支持挖掘页面中的内链,递归的抓取页面。不同的网络百科可以分开抓取,互相没有影响。具体是对1个还是多个网络百科执行方案,对生成的知识库质量没有明显的差别。另外,如果只是在单一知识库上执行该方案,显然也能得到高质量的知识库。
在步骤(2)中,本发明从页面下方的词条标签和正文前几段(即摘要部分)抽取页面的类别信息。如果页面含有更多的类别信息可以抽取(比如半结构化的信息框中含有类别信息),也可以将其加入类别抽取结果中,对最终的抽取效果有提升。需要注意的是在抽取类别的时候本发明需要对文本中的类别单词、短语进行语义层面的自动分析(句法分析),来保证文本中的类别单词是修饰当前页面对应的实体的。
在步骤(3)中,上一步抽取的类别信息Ci是否被加入类别树中由评分函数决定,如下式所示:
ConfCi)=Freq(Ci)*Std(Ci)
其中Freq(Ci),Std(Ci)分别表示类别的频率分数和标准化程度分数,计算方法如下:
表示i在所有页面抽取结果中的出现频率,k=10
WCnt(Ci)表示Ci分词之后的单词数量
其中Suf(Ci)表示Ci分词之后的连续后缀集合;xij是Ci分词之后的一连续后缀,WCnt(xij)表示xij分词之后的单词数量。
其中Freq(Ci)表示Ci在所有页面类别信息中的出现频率,频率越高,Freq(Ci)越大;Std(Ci)表示Ci的标准化程度。Wikipedia等网络百科本身有自己的类别标签集合,如果Ci在这些类别标签集合中,Std(Ci)越大;Ci分词之后的连续后缀属于这些类别标签中,Std(Ci)越大。比如,“20世纪美国篮球运动员”这个类别信息不在网络百科的类别标签集合中,但是其分词(“20世纪/美国/篮球/运动员”)中的连续后缀“篮球运动员”属于,则其Std(Ci)值应该处于中等水平,“上海出生”既不属于类别标签,其后缀“出生”也不属于类别标签,则其Std(Ci)值应该较低。
本发明通过Conf(Ci)来对类别信息Ci排序,从而得到一个大小可控(通过限制阈值大小)的类别集合。如果类别信息Ci在网络百科的类别有向图中是类别信息Cj的祖先类别,则本发明在类别树上将Ci标记为Cj的祖先类别,这样本发明可以从零开始依次将类别信息加入类别树,生成类别树。同时,如果类别信息不在维基百科的类别体系中,通过类别信息分词后取最长连续后缀的方法将其映射到本发明的类别树上,从而生成知识库的类别体系(taxonomy)。
在步骤(4)中,本发明首先构造一个概念词典,类似于在中英文字典中输入中文单词会显示可能对应的所有英文单词(比如输入“人”显示“human”,“person”等)。本发明从页面的标题、HTML超链接的锚文本、信息框和摘要中抽取的别名,建立自然语言文本到候选概念的映射词典,映射词典的形式如下所示。
对任意2个有某个相同自然语言形式的候选页面Di,Dj进行相似度判断,计算的公式如下:
isDup(Di,Dj)=α*ContextSim(Di,Dj)+(1-α)*CateSim(Di,Dj)
比较2个页面正文的相似度以及他们含有的类别信息的相似度。需要注意的是,如果他们共有的类别在类别树上层数越高(类别越细致),则CateSim值越高。如果2个页面Di,Dj相似度大于阈值,则删除页面信息较少者(类别数量少、外链少、文本少),最后得到一个没有重复条目的概念词典(实体集合)。
在步骤(5)中,本发明进行最终的三元组抽取。这里主要抽取信息框中的(属性名,属性值)对,加上页面对应的实体作为主语,就生成了一个主体链接过的三元组,这里三元组的主体即是页面对应的实体,已经完全链接过了,而属性名(对应三元组的谓词)和属性值(对应三元组的客体)则还是普通的文本,并没有链接。
在步骤(6)中,发明会构造一些客体正规化转换器(比如处理时间类客体的转换器、处理长度类客体、处理实体类客体等)对于上面抽到的每条三元组,匹配每个转换器,然后进入相应的转换器进行标准化输出。但是如果对于某一条三元组,所有的匹配器都不能匹配或者有多个转换器匹配,则将其抛入预训练好的SVM分类器进行预测,输出的结果就是其应该使用的转换器。SVM分类器的分类候选对应每个转换器。在分类器训练模型和测试的时候特征向量构造如下:抽取esubj包含的类别、esubj的特征向量(可参考Tomas Mikolov,Distributed Representations of Sentences and Documents)、p分词后的词性分布(148维的one-hot向量)、p分词之后每个单词词向量的平均向量(词向量基于百科正文使用Word2Vec预训练好)、客体字符串o的6维的one-hot特征向量(是否含有{数字、标点符号、单位、年月日标记、非数字类型的实体名})拼接成的特征向量。
如果判断是实体类三元组(或者没有被其他转换器匹配到),先通过概念词典找到客体oi可能的实体候选集合然后判断每个实体候选的分数。如果都低于阈值,则说明实体不在知识库里(无法联机),不将其加入最终标准化的三元组中;否则,取分数最高的实体作为标准的客体进行链接。其中实体和三元组的相似度的分数如下式所示
其中ContextRel描述主体和候选客体实体之间的相互链接关系以及文本、内链的重合度;CateRel衡量候选客体实体的类别是否满足谓词p的要求。其公式如下所示:
l和h为平滑参数,此处取值为2, KWd表示页面d根据tf-idf提取的关键词列表;γ和β这里都取0.5,表示页面内部超链接链接的url集合。
表示页面的类别集合
与现有技术相比,本发明的积极效果为:
1)可以基于信息抽取自动的构建类别体系,并在页面与类别体系间构建了丰富的关联。2)通过自动构建的别名词典(概念词典)大幅度的减少需要判断重复页面候选,大幅提升算法复杂度。3)通过类别体系和文本信息来对三元组的客体进行实体链接,提高了实体链接的准确性。4)适用于多个网络百科融合生成一个知识库的需求。
附图说明
图1为本发明实施例中的整体框架图示;
图2为本发明实施例中的整体流程图示。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实例基于维基数据和百度百科这两个开放的网络百科平台。本领域技术人员应该清楚地明白,在具体实施过程中也可以加入/替换为例如互动百科等百科知识平台。
本发明以“wiki:姚明”“bd∶阿里巴巴集团”分别代表中文维基百科中页面标题为“姚明”的页面和百度百科中页面标题为“阿里巴巴集团”的页面;“entity:中国”表示页面去重后对应的标题为“中国”的页面。Cwiki:姚明表示从维基百科“姚明”对应的页面中抽取的类别集合,Ti表示生成的类别体系中的某个类别节点。通过爬虫抓取不同百科的所有页面中,本发明先是通过抓取页面中的类别信息,从中自动构建类别树,进而生成知识库的类别体系;然后通过类别信息、自动抽取的概念词典以及页面的文本信息去除重复页面,生成知识库的概念集合;最后将文本信息中抽取的三元组放入标准化转化器和本发明构造的实体链接器来生成标准化的三元组。使用该方法生成的知识库不仅可以输出实体的类别体系(taxonomy),还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。
如图2所示,是本发明实例中的流程图,包括如下步骤:
①构造网络爬虫抓取多源网络百科的所有页面;
②从页面摘要和词条标签等多种来源抽取页面中的类别信息;
③基于类别信息自动构建类别树;
④将类别信息和类别树对应;
⑤对每个百科,通过收集内部的跳转信息、文本中的别名信息来分别构建各自的概念词典;
⑥基于类别信息等文本特性对多源百科页面进行去重,剩下无重复的页面集合组成知识库的概念(实体)集合;
⑦从页面信息框和正文中抽取三元组信息;
⑧构造多种类别标准化转换器,将客体转换成标准类别,并基于类别信息等文本信息对客体是实体的情况进行链接和标准化转化;
⑨输出标准化的三元组;
⑩输出知识库的类别体系。
步骤①:构造网络爬虫抓取多源网络百科的所有页面
本实例的爬虫按照百度百科的默认url格式baike.baidu.com/view/XXX.htm遍历页面,其中XXX从1开始遍历到2500万。爬虫会挖掘页面中的内链,递归的抓取页面。不同的网络百科分开抓取。
步骤②:从页面摘要和词条标签等多种来源抽取页面中的类别信息
本发明从页面下方的词条标签和正文前几段(即摘要部分)抽取页面的类别信息。在从正文中抽取类别信息的时候本发明需要对文本中的类别单词、短语进行句法分析来抽取摘要中的名词短语,另外本发明只保留修饰当前页面的名词短语,忽略掉摘要中描述其他事物的名词短语。
步骤③:基于类别信息自动构建类别树
在这一步骤中,本发明首先删除低频的类别信息(小于10次),然后使用下面的方法计算每个类别信息的分数,取分数最高的5万个类别标签生成类别树。类别信息Ci的分数为
Conf(Ci)=Freq(Ci)*Std(Ci)
其中Freq(Ci),Std(Ci)分别表示类别的频率分数和标准化程度分数,计算方法如下:
表示Ci的出现频率,k=10
WCnt(Ci)表示分词之后的单词数量
其中Suf(Ci)表示Ci分词之后的连续后缀集合
比如,“20世纪美国篮球运动员”这个类别信息不在网络百科的类别列表中,但是其分词(“20世纪/美国/篮球/运动员”)中的连续后缀为“20世纪美国篮球运动员,美国篮球运动员,篮球运动员,运动员”
取Conf(Ci)分数最高的5万个类别作为类别树的节点候选。如果类别信息Ci在维基百科的类别体系(本身是一个有向有环图)中是类别信息Cj的祖先类别,则本发明在类别树上将Ci标记为Cj的祖先类别,按照Conf(Ci)的分数将候选节点加入类别树中,同时保持树结构,最后生成自己的类别树。同时,如果类别信息不在维基百科的类别体系中,本发明通过类别信息分词后取在维基百科类别体系中且最长的连续后缀的方法将其映射到本发明的类别树上(比如将“现役中国篮球运动员”映射为“篮球运动员”加入类别树中),从而生成知识库的类别体系(taxonomy)。
步骤④:将类别信息和类别树对应
对于每个页面的类别信息,本发明将其映射到上一步构造的类别树上。例如“20世纪美国篮球运动员”这个类别信息,本发明先对其分词,得到“20世纪/美国/篮球/运动员”,然后依次查找“20世纪美国篮球运动员”,“美国篮球运动员”,“篮球运动员”,“运动员”是否在类别树上,直到第一次找到后停止。这样就得到了页面到类别树的多对多映射。
步骤⑤:对每个百科,通过收集内部的跳转信息、文本中的别名信息来分别构建各自的概念词典
本发明查找所有页面的内链、信息框中的别名信息、摘要中的别名信息来收集每个页面的所有可能的名字。比如在NBA的页面中出现了超链接指向页面“勒布朗·詹姆斯”,超链接的文本是“小皇帝”,则小皇帝是页面“勒布朗·詹姆斯”的一个别名。收集完所有页面,则构造一个概念词典,类似于属于在中英文字典中输入中文单词会显示可能对应的所有英文单词(比如输入“人”显示“human”,“person”等)。比如可以得到所有可能叫“小皇帝”的页面列表。他们之间很可能有一些是重复的页面。
步骤⑥:基于类别信息等文本特性对多源百科页面进行去重,剩下无重复的页面集合就是知识库的概念(实体)集合
对于上一步的概念词典中可能包含某个相同别名的任意2个页面,本发明都计算一下他们的相似度。虽然不同的url可能对应同一个页面,但是因为爬虫抓取非瞬时,所以可能同样的一个页面在2次访问(不同的url指向同一个页面)的间隔,页面可能被编辑者修改而导致不同,而且网络百科中本身就存在描述相同实体但是内容有差别的页面,所以不能简单通过页面正文哈希值来判断是否是同一页面。对任意2个有某个相同自然语言形式的候选页面Di,Dj进行相似度判断,计算的公式如下:
isDup(Di,Dj)=α*ContextSim(Di,Dj)+(1-α)*CateSim(Di,Dj)
其中:γ这里取0.5
KWd表示页面d根据tf-idf提取的关键词列表
depthT(t)表示类别t在taxonomy中的深度,Ti表示页面Di的类别集合
如果有2个页面相似度大于阈值,则删除页面信息较少者(类别数量少、外链少、文本少),最后得到一个没有重复条目的概念词典(实体集合)。
步骤⑦:从页面信息框和正文中抽取三元组信息
这里主要抽取信息框中的(属性名,属性值)对,加上页面对应的实体作为主语,就生成了一个主体链接过的三元组。另外我们收集前一个方法中收集到的高频的属性名,并在每个页面中收集含有这些属性名的句子,通过句法分析挖掘其中的三元组。同样的程序要求在摘要中的属性名必须是直接关联页面实体的。通过上面两种方式抽取三元组。
步骤⑧:构造多种类别标准化转换器,将客体转换成标准类别,并基于类别信息等文本信息对客体是实体的情况进行链接和标准化转化
这里构造了一些客体正规化转换器(处理时间类客体的转换器、处理常见单位客体、处理纯文本类客体、处理实体类客体等)对于上面抽到的每条三元组,匹配每个转换器,然后进入相应的转换器进行标准化输出。
对于上一步抽取的某一条三元组<esubj,p,o>,其具体进入哪一个转换器处理由一个复合型分类器处理。其基于手工规则加机器学习自动分类的复合模型。首先每个转换器会有一个默认的规则匹配器,比如时间类转换器TimeConverter的匹配器为匹配谓词p是否以“日期”、“时间”、或者“成立”结尾、数字类转换器NumberConverter的匹配函数为匹配谓词p是否以“数”或者“数量”结尾。默认的匹配器能覆盖大部分常见形式,但是如果对于某一条三元组,所有的匹配器都不能匹配或者有多个转换器匹配,则将其抛入预训练好的SVM分类器进行预测,输出的结果就是其应该使用的转换器。SVM分类器的分类候选对应每个转换器。在分类器训练模型和测试的时候特征向量构造如下:抽取esubj包含的类别、esubj的特征向量(可参考Tomas Mikolov,Distributed Representations of Sentences andDocuments)、p分词后的词性分布(148维的one-hot向量)、p分词之后每个单词词向量的平均向量(词向量基于百科正文使用Word2Vec预训练好)、客体字符串o的6维的one-hot特征向量(是否含有{数字、标点符号、单位、年月日标记、非数字类型的实体名})拼接成的特征向量。
如果判断是实体类三元组(或者没有被其他转换器匹配到),先通过概念词典找到客体oi可能的实体候选集合然后判断每个实体候选的分数。如果都低于阈值,则说明实体不在知识库里(无法链接),否则,取分数最高的实体链接。其中实体和三元组的相似度的分数如下式所示
其中ContextRel描述主体和候选客体实体之间的相互链接关系以及文本、内链的重合度,CαteRel衡量候选客体实体的类别是否满足谓词p的要求,具体的公式为
l和h为平滑参数,这里都取2,见步骤⑥,用来衡量页面间的相似度;linkOverlap用来衡量2个页面间内链的相似度;
β这里都取0.5。
KW定义见步骤⑥,表示页面内部超链接链接的url集合
T定义见步骤⑥。
步骤⑨:输出标准化的三元组
我们按照RDF形式输出三元组信息,当然也可以采用其他的格式(如mysql表等形式),可以根据自由定义输出格式。
步骤⑩:输出知识库的类别体系
和步骤⑨类似,可以自定义输出格式,可以以RDF形式输出三元组信息,当然也可以采用其他的格式。
综上所述,本发明实施例中,以维基百科和百度百科为依托,自动构建了一个含义标准类别体系(taxonomy)的全领域知识库。使用该方法生成的知识库不仅可以输出实体的类别体系(taxonomy),还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向多源网络百科的知识库构建方法,其步骤为:
1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;
2)基于所述类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;
3)对抓取的页面进行去重,将得到的无重复的页面集合作为知识库的概念集合;
4)从所述页面集合中每一页面的页面信息框和正文中抽取三元组信息;
5)将所述三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立面向多源网络百科的知识库。
2.如权利要求1所述的方法,其特征在于,生成所述类别体系的方法为:
21)计算每一类别信息的分数,取分数靠前或大于设定阈值的多个类别信息构成一类别集合;
22)对于该类别集合中的每一类别信息,根据类别信息Ci在网络百科的类别有向图中与类别信息Cj的上下级关系,在类别信息Ci的类别树上对Ci、Cj进行标记,生成所述类别树;如果类别信息Ci不在网络百科的类别有向图中,则对类别信息Ci进行分词后取最长连续后缀并将其映射到所述类别树上,生成知识库的类别体系。
3.如权利要求2所述的方法,其特征在于,所述类别信息Ci的分数为Conf(Ci)=Freq(Ci)*Std(Ci);其中,Freq(Ci),Std(Ci)分别表示类别信息Ci的频率分数和标准化程度分数;Cnt(Ci)表示Ci在所有页面抽取结果中的出现频率,k为一设定平滑参数值;如果Ci是维基百科的类别名字,则isCate(Ci)为1,否则为0;WCnt(Ci)表示Ci分词之后的单词数量,其中Suf(Ci)表示Ci分词之后的连续后缀集合,xij是Ci分词之后的一连续后缀,WCct(xij)表示xij分词之后的单词数量。
4.如权利要求1或2或3所述的方法,其特征在于,对抓取的页面进行去重的方法为:从同一概念词典中选取两个具有相同别名信息的页面Di,Dj,并计算二者相似度;如果相似度大于设定阈值,则删除页面信息较少者。
5.如权利要求4所述的方法,其特征在于,计算所述相似度的公式为:isDup(Di,Dj)=α*ContextSim(Di,Dj)+(1-α)*CateSim(Di,Dj);其中, α,γ为比例系数,表示页面Di的关键词列表,表示页面Dj的关键词列表,depthT(t)表示类别t在所述类别体系中的深度,Ti表示页面Di的类别集合,Tj表示页面Dj的类别集合。
6.如权利要求1或2或3所述的方法,其特征在于,所述三元组包括页面信息框中的(属性名,属性值)对和页面对应的实体,该实体为三元组的主语。
7.如权利要求1或2或3所述的方法,其特征在于,将所述三元组中的客体转换成标准格式的方法为:构造多种类别标准化转换器,对于每一三元组,匹配查找对应类别标准化转换器,将其转换成标准化格式;如果该三元组为实体类三元组或者没有对应类别标准化转换器,则先通过概念词典找到该三元组的客体oi的实体候选集合然后计算实体候选集合中每个实体候选的相似度,如果相似度都低于设定阈值,则不对该三元组进行标准化转换,否则,取相似度最高的实体链接。
8.如权利要求7所述的方法,其特征在于,计算实体候选集合中每个实体候选的相似度的公式为:其中,描述主体esubj和候选客体实体之间的相互链接关系以及文本、内链的重合度,衡量候选客体实体的类别是否满足谓词p的要求;%是类别谓词且p对应类别不在中,则否则 表示页面的类别集合。
9.如权利要求8所述的方法,其特征在于,所述重合度其中, 其中β,γ为比例系数,ContextSim为页面间的相似度,linkOverlap为两页面间内链的相似度。
10.如权利要求1或2或3所述的方法,其特征在于,从页面的词条标签和摘要部分抽取该页面的类别信息,以及从页面的半结构化的信息框中抽取的类别信息;所述别名信息包括页面内链中的别名信息、信息框中的别名信息以及摘要中的别名信息。
CN201710236165.2A 2017-04-12 2017-04-12 一种面向多源网络百科的知识库构建方法 Active CN107239481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710236165.2A CN107239481B (zh) 2017-04-12 2017-04-12 一种面向多源网络百科的知识库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710236165.2A CN107239481B (zh) 2017-04-12 2017-04-12 一种面向多源网络百科的知识库构建方法

Publications (2)

Publication Number Publication Date
CN107239481A true CN107239481A (zh) 2017-10-10
CN107239481B CN107239481B (zh) 2021-03-12

Family

ID=59984047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710236165.2A Active CN107239481B (zh) 2017-04-12 2017-04-12 一种面向多源网络百科的知识库构建方法

Country Status (1)

Country Link
CN (1) CN107239481B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN109977198A (zh) * 2019-04-01 2019-07-05 北京百度网讯科技有限公司 建立映射关系的方法和装置、硬件设备、计算机可读介质
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置
CN111339214A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种知识库自动构建方法与系统
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111563375A (zh) * 2020-05-07 2020-08-21 北京捷通华声科技股份有限公司 一种文本生成方法和装置
CN111797945A (zh) * 2020-08-21 2020-10-20 成都数联铭品科技有限公司 一种文本分类方法
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377225A (zh) * 2012-04-25 2013-10-30 腾讯科技(深圳)有限公司 知识库系统的构建方法和设备
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
US20150019541A1 (en) * 2013-07-08 2015-01-15 Information Extraction Systems, Inc. Apparatus, System and Method for a Semantic Editor and Search Engine
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377225A (zh) * 2012-04-25 2013-10-30 腾讯科技(深圳)有限公司 知识库系统的构建方法和设备
US20150019541A1 (en) * 2013-07-08 2015-01-15 Information Extraction Systems, Inc. Apparatus, System and Method for a Semantic Editor and Search Engine
CN103646025A (zh) * 2013-10-24 2014-03-19 三星电子(中国)研发中心 一种基于推理的层级知识库构建系统和方法
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI SHEN 等: "Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions", 《IEEE》 *
姚静: "基于百科的中文知识搜索系统的设计与实现", 《中国优秀硕士学位论文全文数据库》 *
盛晓昌: "面向互动百科的知识抽取和知识库构建方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153851B (zh) * 2017-12-21 2021-06-18 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN108520065B (zh) * 2018-04-12 2022-04-12 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108763353B (zh) * 2018-05-14 2022-03-15 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN109977198A (zh) * 2019-04-01 2019-07-05 北京百度网讯科技有限公司 建立映射关系的方法和装置、硬件设备、计算机可读介质
CN110377747A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向百科网站的知识库融合方法
CN110377747B (zh) * 2019-06-10 2021-12-07 河海大学 一种面向百科网站的知识库融合方法
CN110704613A (zh) * 2019-08-23 2020-01-17 上海科技发展有限公司 词汇数据库构建及查询方法、数据库系统、设备及介质
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置
CN111126065B (zh) * 2019-12-02 2024-03-15 医渡云(北京)技术有限公司 一种自然语言文本的信息提取方法及装置
CN111339214A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种知识库自动构建方法与系统
CN111339214B (zh) * 2020-02-18 2023-09-15 北京航空航天大学 一种知识库自动构建方法与系统
CN111368092B (zh) * 2020-02-21 2020-12-04 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
CN111368092A (zh) * 2020-02-21 2020-07-03 中国科学院电子学研究所苏州研究院 一种基于可信网页资源的知识图谱构建方法
US20230140938A1 (en) * 2020-04-10 2023-05-11 Nippon Telegraph And Telephone Corporation Sentence data analysis information generation device using ontology, sentence data analysis information generation method, and sentence data analysis information generation program
CN111563375A (zh) * 2020-05-07 2020-08-21 北京捷通华声科技股份有限公司 一种文本生成方法和装置
CN111797945A (zh) * 2020-08-21 2020-10-20 成都数联铭品科技有限公司 一种文本分类方法
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
CN113688256A (zh) * 2021-10-27 2021-11-23 上海柯林布瑞信息技术有限公司 临床知识库的构建方法、装置
CN114818720A (zh) * 2022-06-23 2022-07-29 北京惠每云科技有限公司 一种专病数据集构建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107239481B (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN107239481A (zh) 一种面向多源网络百科的知识库构建方法
CN104462066B (zh) 语义角色标注方法及装置
CN109948911A (zh) 一种计算网络产品信息安全风险的评估方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN110532348B (zh) 问答对数据的生成方法、装置及电子设备
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106484664A (zh) 一种短文本间相似度计算方法
CN104679825B (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
CN103313248B (zh) 一种识别垃圾信息的方法和装置
CN107704558A (zh) 一种用户意见抽取方法及系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN107463658A (zh) 文本分类方法及装置
CN109344187B (zh) 一种司法判决书案情信息结构化处理系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN104331523B (zh) 一种基于概念对象模型的问句检索方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN105930509A (zh) 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN109635107A (zh) 多数据源的语义智能分析及事件场景还原的方法及装置
CN107797994A (zh) 基于约束条件随机场的越南语名词组块识别方法
CN110659392B (zh) 检索方法及装置、存储介质
CN109460477A (zh) 信息收集分类系统和方法及其检索和集成方法
CN105869058A (zh) 一种多层潜变量模型用户画像提取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant