CN106168965A

CN106168965A - 知识图谱构建系统

Info

Publication number: CN106168965A
Application number: CN201610512976.6A
Authority: CN
Inventors: 刘涛; 祖佺
Original assignee: Intelligent Technology (shanghai) Co Ltd
Current assignee: Intelligent Technology (shanghai) Co Ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-11-30
Anticipated expiration: 2036-07-01
Also published as: CN106168965B

Abstract

本发明属于大规模数据挖掘技术领域，具体涉及一种知识图谱构建系统。本发明知识图谱构建系统，包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库；该爬虫集群用于根据种子地址，抓取网页数据，并将网页数据存储在网页HBase表中；自然语言处理集群用于从该Hadoop分布式存储集群中获取该网页HBase表，生成原始知识信息，并将该原始知识信息存储在原始知识HBase表中；该Mahout知识挖掘模块用于对该原始知识信息进行知识挖掘，生成非结构化数据，并将该非结构化数据存储在非结构化数据HBase表中；知识数据库用于根据经过人工审核的该非结构化数据构建知识图谱。

Description

知识图谱构建系统

技术领域

本发明属于大规模数据挖掘技术领域，具体涉及一种知识图谱构建系统。

背景技术

知识图谱的构建对于智能对话知识性问题的理解与准确回答有着极大的作用；因此对于对话系统的后台，如何快速有效的从大量的规则和不规则数据中挖掘出有价值的知识信息，成为构建知识图谱的关键。这其中需要通过爬虫进行海量相关数据的抓取和存储；对后台抓取的数据进行数据处理，提取相关的信息；对于提取的信息，结构化的数据可以以相对简单的方式处理入库。对于非结构化的信息，要通过分词，命名实体识别，文本聚类，文本分类等算法进一步做数据处理；最后通过一系列的数据挖掘算法挖掘诸如频繁项的挖掘等，以一定的方式进入后台的审核系统，在通过人工审核后，入库。

目前的工程应用中，或者不存在知识发现到入库这一完整的知识图谱全生命周期系统设计；或者已有的系统设计在处理海量数据时效率偏低，难以满足大规模知识挖掘和知识发现的应用需求。

发明内容

针对现有的大规模知识挖掘和知识发现应用中系统设计不佳导致的效率偏低问题，本发明提出一种知识图谱构建系统。本发明提出的知识图谱构建系统可以快速构建知识发现和知识入库的体系架构。

本发明提出的知识图谱构建系统，包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库；该爬虫集群用于根据种子地址，抓取网页数据，并将该网页数据存储在网页HBase表中，该网页HBase表存储在该Hadoop分布式存储集群中；该自然语言处理集群用于从该Hadoop分布式存储集群中获取该网页HBase表，生成原始知识信息，并将该原始知识信息存储在原始知识HBase表中，该原始知识HBase表存储在该Hadoop分布式存储集群中；该Mahout知识挖掘模块用于对该原始知识信息进行知识挖掘，生成非结构化数据，并将该非结构化数据存储在非结构化数据HBase表中，该非结构化数据HBase表存储在该Hadoop分布式存储集群中；该知识数据库用于根据经过人工审核的该非结构化数据构建知识图谱。

进一步地，本发明提出的知识图谱构建系统，还包括知识审核模块；该知识审核模块用于获取该非结构化数据，并获取对应于该非结构化数据的人工审核信息，并在人工审核信息为审核通过时，将该非结构化数据发送给该知识数据库。

进一步地，本发明提出的知识图谱构建系统，还包括结构化数据处理模块；该结构化处理模块用于利用Jsoup工具从该网页数据中提取结构化数据，并发送给该知识数据库；该知识数据库还用于根据该结构化数据构建该知识图谱。

进一步地，本发明提出的知识图谱构建系统，该爬虫集群包括多个爬虫服务器节点；该Hadoop分布式存储集群还用于存储HBase逻辑分表；每个该爬虫服务器节点用于根据从该HBase逻辑分表获取的第一组种子表抓取网页数据，并将该网页数据存储在该网页HBase表中；该第一组种子表中包括多个待抓取的URL；该HBase逻辑分表中包括该多个爬虫服务器节点待抓取的URL的总和。

进一步地，本发明提出的知识图谱构建系统，每个该爬虫服务器节点还用于在完成该第一组种子表后，根据从该HBase逻辑分表获取的第二组种子表抓取网页数据；该HBase逻辑分表在检测到该第一组种子表完成后立即被更新。

进一步地，本发明提出的知识图谱构建系统，该爬虫集群还包括一个安装有Ansible的运维服务器节点；该运维服务器节点与该多个爬虫服务器节点连接。

进一步地，本发明提出的知识图谱构建系统，该Hadoop分布式存储集群还包括Map/Reduce运算模块；该Map/Reduce运算模块用于对该种子表，该HBase逻辑分表和/或该网页HBase表进行统计和更新。

进一步地，本发明提出的知识图谱构建系统，该自然语言处理集群包括至少一个自然语言处理服务器节点，该自然语言处理服务器节点配置有HanNLP工具。

进一步地，本发明提出的知识图谱构建系统，该知识数据库为配置有Jena图关系数据库的Hadoop集群。

本发明提出的知识图谱构建系统基于Hadoop平台，应用HBase数据库、Mahout知识挖掘算法实现了从大数据抓取、大数据挖掘到人工审核知识入库的整个系统构建。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明实施例知识图谱构建系统的组成示意图；

图2示出了本发明实施例知识图谱构建系统实现知识审核时的组成示意图；

图3示出了本发明实施例知识图谱构建系统处理结构化数据时的组成示意图；

图4示出了本发明实施例知识图谱构建系统设置有运维工具和统计工具时的组成示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

需要说明的是，Hadoop平台、Mahout算法、Jsoup工具、HanNLP工具、Jena图关系数据库、HBase数据库支持的各HBase表；Map/Reduce并行运算框架、Ansible运维工具、LNMP分别具有本发明所属领域技术人员所理解的通常意义，这里不再赘述。

实施例

如图1所示，本实施例知识图谱构建系统，包括爬虫集群10、Hadoop分布式存储集群20、自然语言处理集群50、Mahout知识挖掘模块30和知识数据库40；爬虫集群10用于根据种子地址，抓取网页数据，并将网页数据存储在网页HBase表中，网页HBase表存储在Hadoop分布式存储集群中；自然语言处理集群50用于从Hadoop分布式存储集群中获取网页HBase表，生成原始知识信息，并将原始知识信息存储在原始知识HBase表中，原始知识HBase表存储在Hadoop分布式存储集群中；Mahout知识挖掘模块30用于对原始知识信息进行知识挖掘，生成非结构化数据，并将非结构化数据存储在非结构化数据HBase表中，非结构化数据HBase表存储在Hadoop分布式存储集群中；知识数据库40用于根据经过人工审核的非结构化数据构建知识图谱。

需要说明的是，每个爬虫节点会根据自己的机器名在hbase中生成属于自己的独一无二的url种子表和对应的存放抓取网页的表，也即url种子表是由爬虫节点自行生成的，而不是由统一的爬虫集群管理工具根据每个爬虫集群的机器名为之统一分配的。

对应的存放抓取网页的表是由爬虫节点自行生成的，并存储在Hadoop分布式存储集群中。

需要说明的是，具体实施时，本实施例知识图谱构建系统中的Mahout知识挖掘模块30和知识数据库40，可以分别单独设置，也可以设置在Hadoop分布式存储集群20中，也可以组合实施并完成组合后的功能。但是，Mahout知识挖掘模块30和知识数据库40目前都是基于Hadoop平台的，以实现较好的兼容性。

需要说明的是，Mahout算法工具是基于hadoop平台的一个算法包Mahout算法工具应用与自然语言处理集群是分开的，可以应用在知识挖掘模块及应用在频繁规则发现的算法。

本实施例知识图谱构建系统基于Hadoop平台，应用HBase数据库、Mahout知识挖掘算法实现了从大数据抓取、大数据挖掘到人工审核知识入库的整个系统构建。

如图2所示，具体应用时，本实施例知识图谱构建系统，还可以包括知识审核模块60；知识审核模块60用于获取非结构化数据，并获取对应于非结构化数据的人工审核信息，并在人工审核信息为审核通过时，将非结构化数据发送给知识数据库40。

需要说明的是，知识审核模块和知识数据库是两个独立的模块，知识审核模块的输入数据是mahout处理爬虫数据后产生的待审核数据知识审核模块对待审核数据进行审核，审核通过就会通过审核模块程序写入知识数据库40中。

其中，Mahout知识挖掘模块利用Mahout算法包处理非结构化数据，运用频繁规则发现等算法发现知识。

本实施例知识图谱构建系统给出了针对非结构化数据进行知识审核的方法。

如图3所示，具体应用时，本实施例知识图谱构建系统，还可以包括结构化数据处理模块70；结构化处理模块用于利用Jsoup工具从网页数据中提取结构化数据，并发送给知识数据库；知识数据库还用于根据结构化数据构建知识图谱。

需要说明的是，具体实施时，本实施例知识图谱构建系统中的结构化数据处理模块70可以分别单独设置，也可以设置在Hadoop分布式存储集群20中，也可以设置在知识数据库40中。

本实施例知识图谱构建系统给出了针对结构化数据进行处理的方法。

如图4所示，具体应用时，本实施例知识图谱构建系统，爬虫集群还可以包括多个爬虫服务器节点11；Hadoop分布式存储集群还用于存储HBase逻辑分表；每个爬虫服务器节点用于根据从HBase逻辑分表获取的第一组种子表抓取网页数据，并将网页数据存储在网页HBase表中；种子表中包括多个待抓取的URL；HBase逻辑分表中包括多个爬虫服务器节点待抓取的URL的总和。

具体应用时，本实施例知识图谱构建系统，每个爬虫服务器节点还可以用于在完成第一组种子表后，根据从HBase逻辑分表获取第二组种子表抓取网页数据；HBase逻辑分表在检测到第一组种子表完成后立即被更新。

需要说明的是，种子地址和抓取地址指的都是url,种子地址指的是爬虫系统每个爬虫节点起始的抓取地址，比如抓取新浪一般是从新浪的首页抓取，那么新浪首页就是种子地址。一般种子地址是手动配置，等爬虫开抓以后就会源源不断产生新的抓取地址。

也即种子地址url可以衍生出抓取地址url。不同爬虫节点之间自动负载平衡时，在完成为自己指定的任务之后，分担的其他爬虫节点的任务时，可能分担的是其他爬虫节点的种子地址url，也可能是衍生出的抓取地址url。

本实施例知识图谱构建系统给出了爬虫集群的组成及各爬虫服务器节点的工作方式。

如图4所示，具体应用时，本实施例知识图谱构建系统，爬虫集群还包括一个安装有Ansible的运维服务器节点12；运维服务器节点12与多个爬虫服务器节点11连接。

本实施例知识图谱构建系统利用安装有Ansible的运维服务器节点对爬虫集群进行管理。

如图4所示，具体应用时，本实施例知识图谱构建系统，Hadoop分布式存储集群还包括Map/Reduce运算模块21；Map/Reduce运算模块21用于对种子表，HBase逻辑分表和/或网页HBase表进行统计和更新。

本实施例知识图谱构建系统利用Map/Reduce运算模块进行业务统计和更新。

具体应用时，本实施例知识图谱构建系统，自然语言处理集群包括至少一个自然语言处理服务器节点，自然语言处理服务器节点配置有HanNLP工具。

具体应用时，本实施例知识图谱构建系统，知识数据库为配置有Jena图关系数据库的Hadoop集群。

以下对知识图谱构建系统进行具体说明。

爬虫服务器节点服务器抓取到的网页数据和待爬取的种子地址分别采用HBase表存储于基于Hadoop的分布式文件存储平台，优选地，为Hadoop分布式存储集群。

爬虫集群工作时，首先将要抓取的地址放在HBase逻辑分表，每个爬虫服务器节点负责抓取自己的种子表，当自己的种子表完成后，以预先设定的策略去分担其他任务负载比较重的爬虫服务器节点的种子表内的部分任务；这时，这两个爬虫服务器节点的种子表及HBase逻辑分表都将动态更新为最新的任务分配状态。

网页HBase表记录一条网页的基本信息，其字段包括：网页地址，网页源码，网页抓取时间等。

爬虫集群通过配置文件实现爬虫服务器节点与HBase逻辑分表中的种子表，网页HBase表，以及种子分发表等实现逻辑对应关系。逻辑对应关系主要指创建的HBase逻辑分表可以表明网页HBase表是依靠不同的爬虫服务器节点完成的；种子地址表的表名以爬虫服务器节点的机器名为唯一标识，每个爬虫服务器节点有唯一的种子表名与之对应。

爬虫集群的部署、运行和维护由Ansible运维工具进行控制。Ansible运维工具是一个对多个节点服务器进行统一命令执行的工具。通过编写安装脚本，在一台Ansible机器上执行安装脚本，就能够实现在多个服务器节点上无差异地安装某种软件。Ansible运维工具能够极大地提高爬虫集群的运维效率。

Hadoop分布式存储集群还包括Map/Reduce运算模块；爬虫集群还与Map/Reduce运算模块协同工作。Map/Reduce运算模块用于对种子表，HBase逻辑分表和/或网页HBase表进行统计和更新。

具体地，Map/Reduce是基于Hadoop平台的并行计算框架，Map/Reduce运算模块主要对种子表，抓取页面的表(是指网页HBase表)进行一系列的计算，如对爬虫已经抓取和将要抓取的存储在HBase表里的数据进行统计，比如统计抓取总数，每天数据增加量等。另外，还包括爬虫种子均衡分发控制等。

与现有技术相比，综合应用了Map/Reduce并行计算框架、Hadoop平台及HBase数据库及Ansible运维工具，本实施例知识图谱构建系统由爬虫集群实现的知识抓取步骤，是一整套的完整解决方案，在商业中得到了成熟运用，能够支持亿级数据的抓取和处理。

Hadoop分布式存储集群为知识图谱构建系统后台处理数据的存储模块，其中爬虫集群抓取的网页数据以及经过自然语言处理后的原始知识信息分别存储在对应的HBase表中，即网页HBase表、原始知识HBase表、非结构化数据HBase表；最终获得的知识图谱数据存储于Jena图关系数据库中。

在Hadoop平台上配置HBase数据库，有着很高的可靠性、兼容性和稳定性。

目前分布式Spark在处理速度上优于Hadoop，但鉴于Spark的稳定性不如Hadoop，及知识图谱数据属于后台数据，实时性要求并不是第一优先需要保证的，相对而言，对其稳定性要求的优先级更高，所以选择Hadoop分布式存储集群作为整个系统的存储和并行计算处理平台。

优选地，从成本、可兼容性、安全性角度考虑，Hadoop分布式存储集群的操作系统无关一般采用Linux。

与现有技术相比，综合应用了Hadoop平台、HBase数据库及Jena图关系数据库，本实施例知识图谱构建系统的存储集群采用业界主流技术，通用性好，有着很高的可靠性、兼容性和稳定性。

由于数据处理压力较大，自然语言处理集群部署在多台自然语言处理服务器节点上。这多台自然语言处理服务器的配置、功能是等同的，可以相互替换，并可以多台协同工作。在具体应用时，随机选择一个或多个自然语言处理服务器节点进行数据处理。

自然语言处理可以认为是对抓取的数据进行预处理。自然语言处理用于对抓取的数据进行分词、句法分析等基本的语义理解。

本实施例知识图谱构建系统的自然语言处理服务器节点申请配置有HanNLP工具，并进行了二次开发，从而在现有的基础上进行功能强化，如：分词功能中加入大量的词典。词典主要是用户词典，添加一系列需要关注的各行业关键词，比如人名、地名等。强化分词功能可以更准确地更好挖掘人物之间的关系

进一步地，利用Mahout知识挖掘模块进行知识挖掘，采用关联规则等算法进行实体识别和多实体关系识别。Mahout知识挖掘模块也配置有HanNLP工具。如命名实体识别中针对人名和地名在现有HanNLP基础上增加人名地名的正则表达式，从而降低Mahout算法识别人名地名时候的错误率，提高命名实体的识别正确率。语料是指大量出现人名的资料，比如人民日报的语料中间会大量出现国家领导人的姓名，那么基于这些语料就可以用概率算法计算一些字组合的凝聚度，从而计算出疑似人名。进一步地，基于大量的语料使用n-gram分割算法，对于大量的词频进行计算，可以进行疑似新词发现。

综上所述，本实施例知识图谱构建系统的自然语言处理及知识挖掘都基于HanNLP工具进行了二次开发，包括分词，关键词提取，句法分析，命名实体识别等，从而提高了Mahout算法的正确率。

Mahout算法运行在Hadoop平台，也是Hadoop平台生态的一系列机器学习算法包。这系列算法运行完成后会生成原始知识信息。

生成的原始知识信息属于非结构化数据，存储在在非结构化数据HBase表中，非结构化数据HBase表则存储在所述Hadoop分布式存储集群中。

本实施例知识图谱构建系统，还包括结构化数据处理模块；结构化处理模块用于利用Jsoup工具从网页数据中提取结构化数据，并发送给知识数据库；知识数据库还用于根据结构化数据构建知识图谱。

相比于非结构化数据，结构化数据的处理较为简单。本实施例知识图谱构建系统利用Jsoup工具从爬虫集群抓取的网页数据中提取出结构化数据，并发送给知识数据库，用于构建知识图谱。

本实施例知识图谱构建系统还包括知识审核模块；知识审核模块用于获取非结构化数据，并获取对应于非结构化数据的人工审核信息，并在人工审核信息为审核通过时，将非结构化数据发送给知识数据库。

知识审核模块用于对前述产生的非结构化数据中表征的知识请求人工审核，人工审核合格就进入Jena数据库，正式作为知识图谱中的有效知识。

知识审核模块配置有Mahout算法工具，用于对得到的非结构化数据中表征的知识进行人工审核。可以支持批量审核和单条审核。知识审核模块基于LNMP开发，可以做成网页访问的形式，并通过普通的台式机进行访问。

人工审核通过的知识数据根据知识类别进入Jena图关系数据库，从而完成后台知识的挖掘生成工作。其中，知识类别包括人物类，地理类等。优选地，知识类别的划分基于Mahout算法工具进行。

本实施例知识图谱构建系统设置有大规模分布式数据抓取和存储架构，包括定时增量抓取，后台监控统计等模块的设计，实现从海量网页数据中提取结构化和非结构化数据。对于非结构化数据进行数据处理，包括文本分类，聚类，自然语言处理(分词，句法分析等)，从中发现命名实体，命名实体属性和多个命名实体之间的关系。还设置有人工审核环节，并将通过审核的规则自动导入Jena图关系数据库，实现了整个知识图谱构件系统的稳定架构设计。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种知识图谱构建系统，其特征在于，包括爬虫集群、Hadoop分布式存储集群、自然语言处理集群、Mahout知识挖掘模块和知识数据库；

所述爬虫集群用于根据种子地址，抓取网页数据，并将所述网页数据存储在网页HBase表中，所述网页HBase表存储在所述Hadoop分布式存储集群中；

所述自然语言处理集群用于从所述Hadoop分布式存储集群中获取所述网页HBase表，生成原始知识信息，并将所述原始知识信息存储在原始知识HBase表中，所述原始知识HBase表存储在所述Hadoop分布式存储集群中；

所述Mahout知识挖掘模块用于对所述原始知识信息进行知识挖掘，生成非结构化数据，并将所述非结构化数据存储在非结构化数据HBase表中，所述非结构化数据HBase表存储在所述Hadoop分布式存储集群中；

所述知识数据库用于根据经过人工审核的所述非结构化数据构建知识图谱。

2.根据权利要求1所述的知识图谱构建系统，其特征在于，还包括知识审核模块；所述知识审核模块用于获取所述非结构化数据，并获取对应于所述非结构化数据的人工审核信息，并在人工审核信息为审核通过时，将所述非结构化数据发送给所述知识数据库。

3.根据权利要求1所述的知识图谱构建系统，其特征在于，还包括结构化数据处理模块；所述结构化处理模块用于利用Jsoup工具从所述网页数据中提取结构化数据，并发送给所述知识数据库；所述知识数据库还用于根据所述结构化数据构建所述知识图谱。

4.根据权利要求1所述的知识图谱构建系统，其特征在于，所述爬虫集群包括多个爬虫服务器节点；所述Hadoop分布式存储集群还用于存储HBase逻辑分表；每个所述爬虫服务器节点用于根据从所述HBase逻辑分表获取的第一组种子表抓取网页数据，并将所述网页数据存储在所述网页HBase表中；所述第一组种子表中包括多个待抓取的URL；所述HBase逻辑分表中包括所述多个爬虫服务器节点待抓取的URL的总和。

5.根据权利要求4所述的知识图谱构建系统，其特征在于，每个所述爬虫服务器节点还用于在完成所述第一组种子表后，根据从所述HBase逻辑分表获取的第二组种子表抓取网页数据；所述HBase逻辑分表在检测到所述第一组种子表完成后立即被更新。

6.根据权利要求4所述的知识图谱构建系统，其特征在于，所述爬虫集群还包括一个安装有Ansible的运维服务器节点；所述运维服务器节点与所述多个爬虫服务器节点连接。

7.根据权利要求1所述的知识图谱构建系统，其特征在于，所述Hadoop分布式存储集群还包括Map/Reduce运算模块；所述Map/Reduce运算模块用于对所述种子表，所述HBase逻辑分表和/或所述网页HBase表进行统计和更新。

8.根据权利要求1所述的知识图谱构建系统，其特征在于，所述自然语言处理集群包括至少一个自然语言处理服务器节点，所述自然语言处理服务器节点配置有HanNLP工具和Mahout自然语言处理模块。

9.根据权利要求1所述的知识图谱构建系统，其特征在于，所述知识数据库为配置有Jena图关系数据库的Hadoop集群。