CN106874378B

CN106874378B - 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Info

Publication number: CN106874378B
Application number: CN201710006826.2A
Authority: CN
Inventors: 段大高; 赵宁; 韩忠明
Original assignee: Beijing Technology and Business University
Current assignee: Hunan Zhongke Youxin Technology Co ltd
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2020-06-02
Anticipated expiration: 2037-01-05
Also published as: CN106874378A

Abstract

本发明涉及一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，步骤一:爬取目标领域的百科知识库数据，并定义食品类、农药类、营养类、病虫害类字典，便于规则挖掘；步骤二:对百科类数据进行去HTML标签化，获取中文文本并获取URL链接，便于后续处理；步骤三:通过加入人工标注的关系属性信息，来获取更全的实体属性信息；步骤四:对事件的获取以及图谱关系建立。本发明将文本信息转换成词向量数学信息，然后进行向量相似度比较，并根据数字间的关系，来标注实体间的关系，为用户展现出该领域的核心知识库，并提高优化搜索质量，实现了从简单字符串到实体理解的过程。

Description

基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

技术领域

本发明涉及一种知识图谱构建方法，具体涉及一种基于规则模型的实体提取与关系挖掘构建知识图谱的方法，属于自然语言处理中的数据挖掘的技术领域。

背景技术

近两年来，随着Linking Open Data1等项目的全面展开，语义Web数据源的数量激增，大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(DataWeb)。

在这个背景下，Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱，分别为Knowledge Graph、知心和知立方，来改进搜索质量，从而拉开了语义搜索的序幕。知识图谱旨在描述真实世界中存在的各种实体或概念。

其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个属性-值对(attribute-value pair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。

正是由于巨大的数据量，无法知道这些数据之间的关系，以及主要是做什么的，知识图谱得以快速发展，最主要的是简化搜索问答，领域知识图谱能够快速带入你了解该领域，知识图谱上的推理，预测等，可以挖掘出潜在的信息价值。

现有技术的实体识别以及关系抽取主要针对时间、地点、人物、机构等七大类抽取效果较好，准确率不是很高，构建图谱周期较长。对特定领域的实体抽取与关系挖掘起不到好的效果，本发明为了解决现有技术缺陷提出了基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。能够快速构建特定领域的知识图谱，准确率高。

发明内容

本发明目的是提供一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，在拥有大量的文本信息后，通过构建一定规则能够快速、有效地建立该领域的知识图谱，进而有助于其它部门的下一步工作，如在图谱上的潜在信息挖掘。

本发明的原理：构建知识图谱的过程分为四个阶段：

第一个阶段：目标领域知识库获取。

第二个阶段：对目标领域的实体进行定义，实体识别，实体抽取。具体步骤包括：对于第一阶段的知识库，进行实体识别，具体就是定义几种实体，目前大众的实体识别都是识别出文本的人名、地名、机构名等，本发明采用自定义字典规则的方法进行实体识别，并获取相应词向量，效果明显。

第三个阶段：实体事件的获取，实体事件获取难度大，采用实体关系词对相关新闻进行抽取，进而提取事件名称，对识别出的实体进行特定关系的抽取，需要结合领域知识。对实体的属性打标签，进而获取目标实体的属性，目的是构建实体之间的关系网络形成图谱。

第四步:实体融合主要就是简称与全称的融合，以及知识图谱的融合。

本发明的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，如图1所示，包括下列步骤：

步骤一:爬取目标领域的百科知识库数据，并定义食品类、农药类、营养类、病虫害类等字典，便于规则挖掘；

步骤二:对百科类数据进行去HTML标签化，获取中文文本并获取URL链接，便于后续处理。

具体步骤如下：

2.1.将文档转化成UTF-8编码；

2.2.去除文档中的标点符号并正则解析，记录URL数；

2.3.对文档进行分词处理；

2.4.获得文档词的词向量；

2.5.对获取的词向量进行相似计算，并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值，取TOP3在通过word2vec的向量运算后，得到向量E₁(w₁,w₂,w₃,w₄,…,w_n),E₂(w₁,w₂,w₃,w₄,…,w_n),…,E_n(w₁,w₂,w₃,w₄,…,w_n),其中E_i表示文档实体，w_i表示向量所在维数的值，进而计算目标词与目标词文档中的其他词的相似度，该相似度用来表示目标词与目标词文档中的其他词具有相关性，并作为图谱中的连接关系，取TOP3，其中相似度的计算采用常用的N维向量相似度计算:

公式说明:

Distance(A,B)：表示函数处理A,B两者之间的余弦夹角，返回夹角值，便于排序；

A:表示当前文档的实体名，如处理西瓜文档时，当前A就表示西瓜的词向量；

B:表示当前文档的其他词向量；

A_i,B_i:表示对应词的词向量；

步骤三:通过加入人工标注的关系属性信息，来获取更全的实体属性信息，具体步骤如下：

3.1.定义可能的关系信息，可能的关系信息越多则获取的属性信息有可能更多；

3.2.关联过后进行部分人工较对；

步骤四:对事件的获取以及图谱关系建立，具体步骤如下：

4.1.假设实体词有{E₁,E₂,...,E_n},接下来进行相关事件的爬取工作,采用关键词爬取相关事件HTML，进行解析，获取事件。

4.2对于实体属性图谱获取，以及事件获取，需要实体间的消岐以及融合，说明如下:

4.2.1目前所做的是简称以及全称的实体融合(即实体名称的简称与全称建立映射关系)。在图谱中只存在一种实体名称(简称或全称)，根据映射关系对图谱数据融合时，进行实体的消岐(即图谱中实体名称的统一)。外部访问时，通过关系映射，获取实体的图谱信息(意思就是外部不论输入简称还是全称，其返回的图谱是不变的，因为有映射关系的存在)例如：如西瓜的喷洒农药有：甲草胺，灭草胺，拉索，通过百科数据可知，灭草胺，拉索也是甲草胺，只是存在名称不一样；建立灭草胺，拉索、甲草胺的映射关系，图谱中只存在甲草胺，但外部即使访问到灭草胺，也能获得甲草胺的图谱信息。

本发明的一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，其优点及功效在于：本发明旨在构造特定领域的知识图谱，将文本信息转换成词向量数学信息，然后进行向量相似度比较，并根据数字间的关系，来标注实体间的关系，为用户展现出该领域的核心知识库，并提高优化搜索质量，实现了从简单字符串到实体理解的过程。

附图说明

图1所示为本发明方法的整体流程图。

图2所示为本发明实施例步骤2.2中网页的文本信息存入到指定文档中的示意图。

图3所示为本发明实施例步骤2.3中文档分词结果示意图。

图4所示为本发明实施例步骤2.4中将训练文档中词的词向量保存成文本文件的示意图。

图5所示为本发明实施例步骤2.5计算与西瓜实体词向量最相似的词作为西瓜的外链接的计算结果。

图6所示为本发明实施例步骤三处理结果。

图7所示为本发明实施例步骤4.1对进行实体与事件的抽取结果。

图8所示为本发明实施例步骤4.2对获取与目标实体更近的实体的处理结果。

图9所示为本发明实施例步骤4.3对实体的简称与全称的映射关系抽取结果。

具体实施方式

下面结合附图和具体实施例，对本发明的技术方案做进一步的说明。

本发明一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，具体实施步骤如下(以食品安全知识图谱构建为例)：

步骤一:爬取目标领域的百科知识库数据，并定义食品类、农药类、营养类、病虫害类等字典，便于规则挖掘:

(1)根据国家食品标准分类，农药分类、以及营养物质、果蔬所可能的病虫害，爬取相关百科数据以及人工参与来构建字典，并建立部分简称与全称的映射关系。

(2)根据目标字典，定向爬取食品的实体百科数据，提供知识图谱数据支撑。

步骤二:对百科类数据处理，获取中文文本信息并计算URL的个数，便于后续处理。具体步骤如下：

2.1对选取的网页进行URL个数统计，采用正则表达式进行匹配URL，并写入到文本中，旨在展示该实体的外链接数，建立更多链接信息；

2.2统计完URL后，对网页源代码标签进行过滤，即网页的文本信息保留下来，就像我们浏览网页时看到的网页信息，存入到指定文档中，如图2所示；

2.3对文档采用分词工具进行分词，分词工具采用开源的解霸工具以及加入特定领域字典(食品、农药、营养、病虫害)的方式进行分词，文档分词结果如图3所示；

2.4对于分好词的文档，采用word2vec词向量训练工具，训练文档中词的词向量，并保存成文本文件，结果如图4所示；

2.5根据所训练出来的词向量，计算与西瓜实体词向量最相似的词作为西瓜的外链接，以丰富知识图谱，计算结果如图5所示；

步骤三:通过加入人工标注的关系属性信息，来获取更全的实体属性信息，本发明主要考虑食品安全问题，故对食品(主要指植物如:水果、蔬菜)所存在的病虫害、食品(主要指植物如:水果、蔬菜)所喷洒的农药、食品中含有的营养物质，进行人工加入字典，便于分词以及正则匹配，以获取更多的实体间属性关系。

处理后结果如图6所示；

步骤四:对事件的获取以及图谱关系建立:

4.1对于食品事件的获取采用爬取最近食品安全新闻，结合步骤一的食品字典，进行实体与事件的抽取，抽取结果如图7所示；

4.2对于前期获取的URL数据，进行处理，获取与目标实体更近的实体，处理结果如图8所示；

说明:对于每个事物只提取排序后的前三个按从大到小，举例说明：西瓜(143)表示西瓜网页中有143个链接，木瓜(105)表示木瓜网页中有105个链接，而15表示西瓜与木瓜共有15个链接相同的URL。

4.3根据定义的关系进行实体与属性的关联，实体的简称与全称的映射关系抽取结果如图9所示:

实体之间的联系是通过属性进行相关的，通过以上步骤的处理，即可构建知识图谱，本发明所定义:食品与食品之间有营养物质属性，以及所发生病虫害属性，食品与安全事件之间是发生关系，食品与农药之间是喷洒关系。具体三元组关系(实体，关系，实体)定义如下:

(食品，营养，营养元素)

(食品，病虫害，病虫害)

(食品，安全事件，事件)

(食品(部分食品)，喷洒，农药)

(食品，所属，食品分类)

(农药，所属，农药分类)

本发明的优点是算法具有高效性，计算成本相对较低，准确性非常高，并且能够提高使用者快速了解特定领域的知识库，减少用户的信息负担，在知识图谱建立的基础上进行相关信息的挖掘，将有助于我们对事件的发生进行相关控制，也更容易获取知识(通过问答)。

Claims

1.一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法，特征在于：该方法包括下列步骤：

步骤一:爬取目标领域的百科知识库数据，并定义食品类、农药类、营养类、病虫害类字典，便于规则挖掘；

步骤二:对百科类数据进行去HTML标签化，获取中文文本并获取URL链接，便于后续处理；其中所述步骤二具体如下：

2.1.将文档转化成UTF-8编码；

2.2.去除文档中的标点符号并正则解析，记录URL数；

2.3.对文档进行分词处理；

2.4.获得文档词的词向量；

2.5.对获取的词向量进行相似计算，并绑定对应文档的URL集合、后续关系融合以及关系获取提供权值，取TOP3在通过word2vec的向量运算后，得到向量E₁(w₁,w₂,w₃，w₄,…,w_n),E₂(w₁,w₂,w₃,w₄,…,w_n),…,E_n(w₁,w₂,w₃,w₄,…,w_n),其中E_i表示文档实体，w_i表示向量所在维数的值，进而计算目标词与目标词文档中的其他词的相似度，该相似度用来表示目标词与目标词文档中的其他词具有相关性，并作为图谱中的连接关系，取TOP3，其中相似度的计算采用常用的N维向量相似度计算:

公式说明:

B:表示当前文档的其他词向量；

A_i,B_i:表示对应词的词向量；

步骤三:通过加入人工标注的关系属性信息，来获取更全的实体属性信息；其中所述步骤三具体如下：

3.2.关联过后进行部分人工较对；

步骤四:对事件的获取以及图谱关系建立；其中所述步骤四具体如下：

4.1.假设实体词有{E₁,E₂,...,E_n},接下来进行相关事件的爬取工作,采用关键词爬取相关事件HTML，进行解析，获取事件；

4.2.1目前所做的是简称以及全称的实体融合，即实体名称的简称与全称建立映射关系；在图谱中只存在一种实体名称，即简称或全称；根据映射关系对图谱数据融合时，进行实体的消岐，即图谱中实体名称的统一；外部访问时，通过关系映射，获取实体的图谱信息。