CN110442730A

CN110442730A - 一种基于deepdive的知识图谱构建方法

Info

Publication number: CN110442730A
Application number: CN201910648500.9A
Authority: CN
Inventors: 葛庆环; 赵勇
Original assignee: Beijing MetarNet Technologies Co Ltd
Current assignee: Beijing MetarNet Technologies Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-12

Abstract

本发明涉及基于deepdive的知识图谱构建方法。本申请的一个实施例公开了：一种基于deepdive的知识图谱构建方法，其包括：对采集的文本数据进行样本标注，其中经标注的样本数据用于关系抽取训练；对所述文本数据进行基于deepdive的神经语言程序学NPL处理；抽取所述文本数据中的左实体及右实体两种实体类型的数据以产生候选实体对；提取所述文本数据的特征；对所述候选实体对进行打标；将所述候选实体对与特征表通过特征因子连接起来以构建因子图并导出关系三元组；以及将导出的关系三元组导入图数据库，并按照图谱关系网展示所述关系三元组。

Description

一种基于deepdive的知识图谱构建方法

技术领域

本申请涉及在大数据下利用神经语言程序学(Natural Language Processing,NLP)技术从海量文本数据中抽取关系三元组，具体来说：涉及NLP技术的使用与改进。

背景技术

在当代社会中存在海量的非结构化的文本数据，这些数据包含很多潜在且有价值的信息和知识，但由于结构复杂、机器不能理解而导致利用率极低，因此如何将海量的非结构化文本数据转化成机器可以理解、结构化的、有价值的知识成为一项重要的研究领域。

发明内容

本申请的一个实施例公开了：一种基于deepdive的知识图谱构建方法，其包括：对采集的文本数据进行样本标注，其中经标注的样本数据用于关系抽取训练；对所述文本数据进行基于deepdive的神经语言程序学NPL处理；抽取所述文本数据中的左实体及右实体两种实体类型的数据以产生候选实体对；提取所述文本数据的特征；对所述候选实体对进行打标；将所述候选实体对与特征表通过特征因子连接起来以构建因子图并导出关系三元组；以及将导出的关系三元组导入图数据库，并按照图谱关系网展示所述关系三元组。

附图说明

图1展示了根据本申请的知识图谱构建的流程图。

具体实施方式

为了解决上述技术问题，本申请从海量非结构化文本数据中，利用deepdive技术抽取出实体-关系-实体结构的关系三元组数据，从而构建知识图谱，并进行可视化，提高了文本数据的利用率及转化率。

本申请基于计算机科学及信息检索的行业知识图谱构建方法，依靠实体语义关系结构实现网络信息资源的语义搜索，数据来源及适用对象是网络信息资源，依托语义关联来实现实体及属性的可视化，从大量的、不完整的、有噪声的、模糊的和随机的数据中，提取隐含在其中的、人们事先不知道的、但可信的、潜在的和有价值的信息和知识。

图1展示了根据本申请的知识图谱构建的流程图。首先需要对文本数据进行采集。通过分布式爬虫服务，对行业文献，例如：论文、标准、专利等、微博、论坛、博客、新闻、文本文件以及各种在线数据库实时采集。

采集了文本数据之后，需要进行对这些文本数据进行样本标注。在本申请中，对文本数据的标注格式为：左实体-关系-右实体。例如：“智慧黄河”项目-人物相关-何兴照、央广网：山东开始-机构相关-山东河务局，等等。标注的样本数据主要用来关系抽取训练，标注样本分为正样本，也即：是该关系；以及负样本，也即：不是该关系。

本申请的deepdive默认采用standford core NLP对文本进行处理。文本数据输入后，NLP模块以句子为单位，返回每句的分词、单词位置、实体识别和句法分析的结果，为后续特征抽取做准备。

接着，本申请的方法抽取实体并产生候选实体对。具体地，针对特定关系，需要抽取文本数据中左实体及右实体两种实体类型，当左右实体相同时，仅需抽取一种。抽取的实体包含实体单词、实体类型、实体在文本中的起始位置以及文本ID。然后将抽取的实体按照左右实体顺序两两生成候选实体对，也即：对实体表做笛卡尔积，为后续关系抽取做准备。

本申请的方法进一步对文本数据的特征进行提取。文本挖掘、信息检索的一个基本问题就是文本的表示及其特征项的选取。它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据，要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，进而提高文本处理的速度和效率。

接着，本申请对候选实体对标出一部分的正负例。本申请利用两种方法：1、利用已知的实体对和候选实体对关联；2、利用规则打部分正负标签。

先验数据一般由人工标注，准确性比较高，可以具有较高的权重。例如：首先定义好实体字典、关系字典，在此基础上，按照指定关系给标注工人分配语料，在标注语料时，首先根据现有实体模型进行实体预提取，标注工人只需选择对应关系的正样本实体和负样本实体即可。

如果只利用已知的实体对，可能和未知文本中提取的实体对重合度较小，不利于特征参数推导。因此可以通过一些逻辑规则，对未知文本进行预标记。在一些情况下，这步骤也可以省略。不同的规则可能覆盖了相同的实体对，甚至给出不同甚至相反的权重标签，为了统一实体对间的权重标签，利用权重求和，在多条规则和知识库标记的结果中，为每对实体做权重加和，计算出最终权重标签值。

本申请的方法进一步构建因子图。如上所述，特征将候选实体对和特征表连接起来，通过特征因子的连接，全局学习这些特征的权重。本申请还可以指定实体对间遵守的规则，并分配权重给这个规则。比如A和B有一种特定关系，可以推出B和A也有这种特定关系。这种推断可信度很高，因此具有较高权重。因子图构建成功后，关系三元组就已经抽取成功了。

将抽取的关系三元组导入图数据库，按照图谱关系网进行展示及分析。图谱就完成了可视化。

在图谱的可视化之前，还可以对知识进行融合。由于某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等，所以多源知识需要对其进行整合，以消除矛盾和歧义知识融合主要是指实体消岐和共指消解，其中实体消岐用来解决同名实体产生歧义问题的技术，通过实体消歧，就可以根据当前的语境，准确建立实体链接，实体消歧主要采用聚类法。共指消解用于解决多个指称对应同一实体对象的问题。在一次会话中，多个指称可能指向的是同一实体对象。利用共指消解技术，可以将这些指称项关联(合并)到正确的实体对象。共指消解还有一些其他的名字，比如对象对齐、实体匹配和实体同义。

对于经过融合的新知识，需要经过质量评估之后，例如，由专家进行评估、数据纠错及补全，才能将合格的部分加入到知识库中，以确保知识库的质量。

将抽取的关系三元组知识数据导入图数据库，以界面方式展现，图谱就完成了可视化。本申请的可视化的图谱具有如下功能：提供图谱节点的模糊查询功能；提供按分组查看实体模型列表功能；提供按实体模型查询相关关系功能；提供节点以及节点关系的方式呈现数据；可对节点数据进行二次拖拽布局；支持节点相关连线与节点高亮功能；支持按选择高亮关系线的功能；支持背景切换；支持节点按模型类型置灰、高亮过滤；支持显示/隐藏关系连线文字功能；支持固定/接触所有节点位置；支持显示/隐藏头尾功能；支持全屏/恢复功能；支持缩小、放大、恢复默认功能；支持双击向下展开节点功能；支持焦点转换功能，切换角度，从某个节点重新开始分析；支持单个节点固定/解除位置功能；支持两个节点的最短路径分析，分析两个节点之间关系经过的最小路径；支持两个节点的所有路径分析；以及分析两个节点之间关系经过的所有路径。

虽然本文中描述的实施例可具有各种修改及替代形式，但是特定实施例已在图式中通过实例展示且已在本文中予以详细描述。本发明并不限于所揭示的特定形式。本发明涵盖落于如由权利要求书定义的本发明的精神及范围内的所有修改、等效物及替代。

Claims

1.一种基于deepdive的知识图谱构建方法，其包括：

对采集的文本数据进行样本标注，其中经标注的样本数据用于关系抽取训练；

对所述文本数据进行基于deepdive的神经语言程序学NPL处理；

抽取所述文本数据中的左实体及右实体两种实体类型的数据以产生候选实体对；

提取所述文本数据的特征；

对所述候选实体对进行打标；

将所述候选实体对与特征表通过特征因子连接起来以构建因子图并导出关系三元组；以及

将导出的关系三元组导入图数据库，并按照图谱关系网展示所述关系三元组。

2.根据权利要求1所述的方法，进一步包括：

对所构建的因子图进行整合以产生更新的关系三元组。

3.根据权利要求2所述的方法，进一步包括：

对经更新的关系三元组进行审核。

4.根据权利要求1所述的方法，其中所述经标注的样本数据包括正样本和负样本。

5.根据权利要求1所述的方法，其中提取所述文本数据的特征包括将所述文本数据转化为可处理的结构化形式。

6.根据权利要求1所述的方法，其中对所述候选实体对进行打标包括使用人工标注的样本数据。

7.根据权利要求1所述的方法，其中所述特征因子具有权重。