CN110866125A

CN110866125A - 基于bert算法模型的知识图谱构建系统

Info

Publication number: CN110866125A
Application number: CN201911113554.1A
Authority: CN
Inventors: 牛志超; 马语菡; 南海涛; 刘林; 王俊; 费廷伟; 刘戎; 徐永伟
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-06

Abstract

本发明属于知识图谱技术领域，具体涉及一种基于bert算法模型的知识图谱构建系统。与现有技术相比较，本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取；利用句法依存关系对关系提取，并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联，形成归零文档的知识体系和知识图谱。与现有技术相比，本发明提出的技术方案，实现了军工集团归零文档知识的体系化、结构化和知识化等，同时，基于bert‑bilstm‑crf中文命名识别算法模型，也保证了段落实体提取的快速性和精准性。

Description

基于bert算法模型的知识图谱构建系统

技术领域

本发明属于知识图谱技术领域，具体涉及一种基于bert算法模型的知识图谱构建系统。

背景技术

在军工集团，每年会产生大量的归零文档，但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中，缺乏有效的处理手段对归零文档的知识进行进一步的处理，而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括：基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征，利用七条启发规则来抽取实体；基于特征向量法是将实体抽取问题转化为实体分类问题，常用的特征包括：上下文特征、动词特征、距离特征等；基于bilstm-crf中文命名识别方法是一种端到端的过程，不依赖特征工程，是一种数据驱动方法。

面对大量的非结构化文本，进行图谱实体提取时大多数算法都能提取文档中实体，但是都存在精确度低、速度慢、消耗人力的特点。其中，基于语义序列核方法，在构建规则的过程往往需要大量的语言学知识，不同的语言规则不尽相同，而且很难处理规则之间的冲突，同时构建规则的过程费时费力、可移植性不还；基于特征向量的实体提取方法适合于包含两个句子的关系抽取；基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据，如何形成知识图谱和知识体系，方便相关人员快速理解归零文档知识和全面的了解归零文档体系，为军工集团相关应用提供基础的数据支撑。

(二)技术方案

为解决上述技术问题，本发明提供一种基于bert算法模型的知识图谱构建系统，所述系统包括：

领域数据预处理模块，其用于对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集；

实体识别模型生成模块，其用于利用标注数据集训练bert-bilstm-crf中文命名识别算法模型，得到归零文档实体识别模型；

文档预处理模块，其用于读入归零文档，对归零文档做预处理，降低异常值和冗余数据的干扰，得到低噪声的文本数据；

文本切分模块，其用于将低噪声的文本数据按照章节目录结构进行切分，切成与章节目录对应的段落，使每个章节目录与段落一一映射，形成若干个有章节目录的段落；

实体提取模块，其用于利用归零文档实体识别模型对有章节目录的段落数据进行实体提取；

实体关系提取模块，其用于利用句法依存关系算法提取实体与实体之间的关系，将提取的关系与提取到的实体一一连接，形成知识图谱的三元组；

整合模块，其用于利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通，形成整体归零文档知识图谱三元组；

知识图谱生成模块，其用于将最终生成的整体归零文档知识图谱三元组存储在图数据库中，形成知识图谱，为后续的相关应用提供基础的数据支撑。

其中，在整合模块进行整合之前，由于归零文档本身知识体系的不完善性，还可以结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善，使实体和关系更加完善充实，最终形成单文档的知识图谱三元组。

其中，所述公开的领域词典包括来自清华的领域词典。

其中，所述公开的领域词典包括来自百度的领域词典。

其中，所述步骤5中，所述图数据库为neo4j图数据库。

其中，所述步骤5中，所述图数据库为JanusGraph图数据库。

(三)有益效果

与现有技术相比较，本发明通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取；利用句法依存关系对关系提取，并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联，形成归零文档的知识体系和知识图谱。与现有技术相比，本发明提出的技术方案，实现了军工集团归零文档知识的体系化、结构化和知识化等，同时，基于bert-bilstm-crf中文命名识别算法模型，也保证了段落实体提取的快速性和精准性。

附图说明

图1为基于bert算法模型的知识图谱构建流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

其中，所述公开的领域词典包括来自清华的领域词典。

其中，所述公开的领域词典包括来自百度的领域词典。

其中，所述步骤5中，所述图数据库为neo4j图数据库。

其中，所述步骤5中，所述图数据库为JanusGraph图数据库。

此外，本发明还提供一种基于bert算法模型的知识图谱构建方法，如图1所示，所述方法包括如下步骤：

步骤1：对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集；利用标注数据集训练bert-bilstm-crf中文命名识别算法模型，得到归零文档实体识别模型；

步骤2：读入归零文档，对归零文档做预处理，降低异常值和冗余数据的干扰，得到低噪声的文本数据；将低噪声的文本数据按照章节目录结构进行切分，切成与章节目录对应的段落，使每个章节目录与段落一一映射，形成若干个有章节目录的段落；

步骤3：利用归零文档实体识别模型对有章节目录的段落数据进行实体提取；同时利用句法依存关系算法提取实体与实体之间的关系，将提取的关系与提取到的实体一一连接，形成知识图谱的三元组；

步骤4：在处理归零文档的时候发现，不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等，因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通，形成整体归零文档知识图谱三元组；

步骤5：将最终生成的整体归零文档知识图谱三元组存储在neo4j、JanusGraph等图数据库中，形成知识图谱，为后续的相关应用提供基础的数据支撑。

由于归零文档的实体和关系没有完整的属性知识支撑，所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。

其中，所述步骤3和步骤4之间，还包括：

由于归零文档本身知识体系的不完善性，结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善，使实体和关系更加完善充实，最终形成单文档的知识图谱三元组。

其中，所述公开的领域词典包括来自清华的领域词典。

其中，所述公开的领域词典包括来自百度的领域词典。

其中，所述步骤5中，所述图数据库为neo4j图数据库。

其中，所述步骤5中，所述图数据库为JanusGraph图数据库。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于bert算法模型的知识图谱构建系统，其特征在于，所述系统包括：

2.如权利要求1所述的基于bert算法模型的知识图谱构建系统，其特征在于，在整合模块进行整合之前，由于归零文档本身知识体系的不完善性，还可以结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善，使实体和关系更加完善充实，最终形成单文档的知识图谱三元组。

3.如权利要求2所述的基于bert算法模型的知识图谱构建系统，其特征在于，所述公开的领域词典包括来自清华的领域词典。

4.如权利要求2所述的基于bert算法模型的知识图谱构建系统，其特征在于，所述公开的领域词典包括来自百度的领域词典。

5.如权利要求1所述的基于bert算法模型的知识图谱构建系统，其特征在于，所述步骤5中，所述图数据库为neo4j图数据库。

6.如权利要求1所述的基于bert算法模型的知识图谱构建系统，其特征在于，所述步骤5中，所述图数据库为JanusGraph图数据库。