CN114911893A

CN114911893A - 基于知识图谱的自动化构建知识库的方法及系统

Info

Publication number: CN114911893A
Application number: CN202210373359.8A
Authority: CN
Inventors: 程序; 杨春平; 谭太龙; 王峰; 罗洪海; 谷金哲; 周军; 孙延春; 孙蕾; 王纲; 吴凡
Original assignee: China National Software & Service Co ltd
Current assignee: China National Software & Service Co ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-16

Abstract

本发明涉及一种基于知识图谱的自动化构建知识库的方法及系统。该方法包括：获取非结构化的数据，并对数据进行处理以形成训练集文件和预测集文件；图形化地构建知识图谱的Schema，用于描述领域中实体与实体之间的关系；根据构建的Schema对训练集文件中的实体进行标注；利用标注后的文件和以及预先建立的规则集文件，训练用于预测实体间关系的服务模型；将预测集文件输入训练完成的服务模型，执行预测任务，得到预测结果即实体‑关系‑实体的三元组数据；将服务模型的预测结果转换为知识图谱，并将知识图谱自动化地添加到知识库中。本发明能够实现知识图谱的自动化构建，为利用数据洞察隐藏的关键信息提供了极大的便利。

Description

基于知识图谱的自动化构建知识库的方法及系统

技术领域

本发明涉及一种构建知识库的方法，尤其涉及一种基于知识图谱的自动化构建知识库的方法，属于认知智能相关领域。

背景技术

知识图谱的概念是Google于2012年正式提出，用于改善搜索的质量。知识图谱除了显示其他网站的链接列表，还提供结构化及详细的关于主题的信息。其目标是，用户将能够使用此功能提供的信息来解决他们查询的问题，而不必导航到其他网站并自己汇总信息。

知识图谱是把复杂的知识领域用图模型来描述和建模出来的大规模语义网络，具有规模巨大、语义丰富、质量精良与结构友好等特点。知识图谱富含实体、概念、属性和关系等信息，为机器理解与解释现实世界打开一扇窗口，特别是在数据多样且复杂、单一数据价值不高时，能够满足规范业务流程、经验性预测等需求。

随着网络的发展和普及，对于知识工作者来说，越来越多的数据要被查找和利用。在这些工作中，我们其实面对的是大量的文档，包括业务单元提供的，包括我们上网查询的。这些文档其实都是非结构化的文档，我们阅读他们的目的也是为了形成自己的认知架构，将数据化为己用。一项研究表明，企业只有不到10％的数据被有效利用，在2023年，约有80％数据将是半结构化和非结构化的，这也就意味着，我们即将面对的是从海量的数据中提取到我们需要的那部分知识，通常阅读的内容要远远大于我们吸收的内容，我们需要消耗较长时间在收集，整理和分析的工作中。如在我们对一个细分领域研究时，用到了一个文档，做另外一个领域的时候，这个文档的信息还要再读一遍，使得数据难以动态转换及重复使用。

在大数据时代背景下，知识图谱结合数据可视化技术，直观的展示数据，充分展示了各个数据之间的变化和联系，对数据分析起到了重要作用，但是现有数据库neo4j需要技术人员编辑复杂的代码来进行查找等一系列操作，对技术人员要求非常高，从而导致开发效率低，增加了开发成本。

在如今快节奏的生活中，随着海量数据的出现以及多数据源融合交叉使用，传统的数据管理模式受到了一定的限制，相比传统数据库，自动化构建知识库方法的出现，实现了对知识的高效管理，使知识工作者可以根据需求快速收集业务信息，准确对非结构化数据进行分类，将多来源的数据信息结合起来，从数据中提取价值，并且快速同步已有知识。实现了通过自动构建知识图谱快速将数据转化为知识，让知识创造价值的理念，并且大大降低了使用门槛，提高搜索效率。

发明内容

本发明的目的在于提供一种基于知识图谱的自动化构建知识库的方法及系统，能够自动化闭环获取数据，用可拖拽的方式构建Schema，让使用者的理念既能被人理解又能被机器读懂，通过已有模型实时预测后，形成该业务领域的知识图谱。

为了实现上述目的，本发明采取的技术方案如下：

一种基于知识图谱的自动化构建知识库的方法，包括以下步骤：

获取非结构化的数据，并对数据进行处理以形成训练集文件和预测集文件；

图形化地构建知识图谱的Schema，用于描述领域中实体与实体之间的关系；

根据构建的Schema对训练集文件中的实体进行标注；

利用标注后的文件和以及预先建立的规则集文件，训练用于预测实体间关系的服务模型；

将预测集文件输入训练完成的服务模型，执行预测任务，得到预测结果即实体-关系-实体的三元组数据；

将服务模型的预测结果转换为知识图谱，并将知识图谱自动化地添加到知识库中。

进一步地，所述获取非结构化的数据，数据的来源有两方面：一是将终端本地的文档进行上传，文件较多时批量上传；二是定时任务上传，从下载平台定时地获取文档，根据不同的需求下载相应的文档，并进行上传。

进一步地，所述对数据进行处理以形成训练集文件和预测集文件，包括：

a)进行数据清洗，对数据进行重新审查和校验，删除重复的数据，纠正错误的数据，在规定时间补全残缺数据，并且提供数据的一致性；

b)将数据转化成TXT格式，并分别生成训练集和预测集文件，以供模型的训练及预测使用。

进一步地，所述图形化地构建知识图谱的Schema，是采用可拖拽的方式构建Schema。

进一步地，所述服务模型为BERT+CRF模型。

进一步地，所述将服务模型的预测结果转换为知识图谱，包括：采用聚类技术对服务模型预测的实体-关系-实体的三元组数据进行消歧和关系融合，然后利用脚本文件对产生的结果进行解析，形成知识图谱。

进一步地，所述知识库使用图形数据库进行存储。所述图形数据库为Neo4j图形数据库等。

一种采用上述方法的基于知识图谱的自动化构建知识库的系统，包括项目管理模块、数据管理模块、构建Schema模块、数据标注模块、模型训练模块、批量预测模块、知识图谱模块；

所述项目管理模块用于创建并管理关于自动构建知识图谱的项目；

所述数据管理模块用于获取非结构化的数据，并对数据进行处理以形成训练集文件和预测集文件；

所述构建Schema模块用于图形化地构建知识图谱的Schema，用于描述领域中实体与实体之间的关系；

所述数据标注模块用于根据构建的Schema对训练集文件中的实体进行标注；

所述模型训练模块用于利用标注后的文件和以及预先建立的规则集文件，训练用于预测实体间关系的服务模型；

所述批量预测模块用于将预测集文件输入训练完成的服务模型，执行预测任务，得到预测结果即实体-关系-实体的三元组数据；

所述知识图谱模块用于将服务模型的预测结果转换为知识图谱，并将知识图谱自动化地添加到知识库中。

与现有技术相比，本发明技术方案的有益效果是：

通过在知识图谱构建过程中增加项目管理模块、构建Schema模块、数据管理模块、数据标注模块、模型训练模块、批量预测模块、知识图谱模块来实现只需要用户创建项目、Schema、文件管理、训练任务、预测任务，从而实现知识图谱的自动化构建。

本发明的知识模式是自动化闭环获取数据，并且异构多来源数据，快速持续获得知识，将非结构化数据转化为知识资产。基于图检索的功能，快速为用户提供结果及上下文信息。用可拖拽的方式构建Schema，让用户的理念既能被人理解又能被机器读懂，简化了业务流程，降低总成本。通过已有模型实时预测后，就形成了该业务领域的知识图谱，为利用数据洞察隐藏的关键信息，提供了极大的便利。

附图说明

图1为本发明的方法流程示意图。

图2为本发明分层架构图。

图3为本发明自主学习流程。

图4是Schema构建示意图。

图5是基于Schema结构形成知识图谱的示意图。

图6是基于清洗后的本体数据，BERT+CRF模型的训练日志示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的基于知识图谱的自动化构建知识库的方法，如图1所示，包括以下步骤：

Step1：项目初始化，先创建一个关于自动构建知识图谱的项目。

Step2：数据管理，主要是对于文件，包括需要用到的pdf，word，txt等文件，也就是通过非结构化的数据构建知识图谱。针对这部分的数据管理主要包括源文件管理，项目文件管理，为后续的训练和预测提供数据支撑。

优选地，Step2具体为：

海量数据的来源有两方面：一是将终端本地的文档进行上传，文件较多可以批量上传；二是定时任务上传，将从下载平台定时获取文档，根据不同的需求，下载相应的文档，解决了大量搜寻信息的问题。

1)源文件管理：是指源文件集，在此会将文件同步到项目。在向项目中同步的同时，还会做一个数据预处理的工作，包括：

a)进行数据清洗，对数据进行重新审查和校验，删除重复的数据，纠正错误的数据，在规定时间补全残缺数据，并且提供数据的一致性。

b)转化成TXT格式，并分别生成训练集和预测集文件，以供模型的训练及预测使用。

2)项目文件管理：这些文件是已经完成文件预处理，并有项目属性的文件。为解决数据重用的问题，还可以将已经预处理的文档同步到其他项目中，至此，数据的准备已经基本完成了。

Step3：图形化构建Schema(认知架构)，旨在建立一个基于jsPlumb.js的可拖拽的构建Schema的组件。Schema由本体和关系组成，通过定制它能描述在这个领域的东西(实体)和与另外一个东西(实体)的关系。Schema是一个知识工程师对这个领域的知识模型，可以为其他的角色展示这个行业的世界观。Schema用于限定待加入知识图谱数据的格式，一个知识图谱的Schema就是相当于一个领域内的数据模型，包含了该领域内有意义的概念类型以及这些类型的属性。通过Schema规范结构化数据的表达，一条数据必须满足Schema预先定义好的实体对象及其类型，才被允许更新到知识图谱中。

通过图形化构建Schema，一是能够完成本体与关系的导出，通过Schema的导出，规则集的上传，完成后续的标注、训练、以及预测工作；二是可以为协助标注文档的员工提供有效的标注指引。

优选地，Step3具体为：

通过拖拽而非代码的方式，搭建认知架构即Schema，如图4所示，进一步创建本体(即实体)以及关系，可同时创建一对多的关系，进一步提高工作效率。

输入：对于本体、标签的定义，以及规则集；

输出：在图形化构建了Schema之后，将它作为机器能懂的信息，将本体导出，并在数据标注模块导入，进一步为模型训练做准备。

Step4：这一步进行数据标注，利用之前创建好的Schema导出本体作为标签，标签的属性包括：标签名称、标签颜色、使用标注快捷键。将本体的标签导出后，再将该项目的训练集文件注入，两者都准备好，给文件自动化的进行数据标注，对文件中的实体进行标注，生成用于训练的bio文件。在标注平台，可以人为判断自动化标注的结果是否合理，如不合理将其修正。标注人员可以在已进行自动化标注的基础上再进行人工标注。这样做的目的是提高训练准确率。在这里可以使用现有的文本数据标注工具“中软文本标注”。对于自然语言处理(Natural Language Processing,NLP)中常见的情感分类、命名体识别、序列到序列等的数据标注任务都可以通过该工具来完成。数据标注虽然很基础，但却是模型训练的一个必不可少的环节。特别是在深度学习中，使用命名实体识别(Named EntityRecognition，NER)对语料进行处理的技术：如监督学习或者半监督学习，对数据进行标注是算法执行的先决条件，标注的质量会直接影响到模型的准确性。

Step5：文件中的实体标注完成之后，生成用于训练的bio文件。

Step6：模型训练需要使用bio文件和规则集文件，采用BERT+CRF模型进行训练，模型是基于基础数据进行更好的维度的问题抽象和解决，通过参数调整，特征优化以追求更好的效果。首先使用大量无监督语料进行语言模型预训练(Pre-training)，再使用少量标注语料进行微调(Fine-tuning)来完成具体序列标注任务。

Step7：模型训练完成之后形成服务模型，形成的服务模型用于预测实体间的关系，可以作为一种可重用的资源，提供给批量预测使用。

Step8：利用数据管理平台提供的预测集文件和服务模型，执行预测任务，用于预测实体间的关系，得到实体-关系-实体的三元组数据。如果是规范的预测集文件，利用规则集进行预测；如果是不规范的预测集文件，就利用已训练好的模型，进行预测。

Step9：对于生成的被打上标签的预测结果，利用构建好的Schema，将预测结果(实体-关系-实体的三元组数据)自动化转换为知识图谱。

Step10：将形成的知识图谱自动化添加到知识库中。这里我们使用Neo4j图形数据库进行知识库的存储。Neo4j是目前最流行的图形数据库，支持完整的事务，在属性图中，图是由顶点(Vertex)，边(Edge)和属性(Property)组成的，顶点和边都可以设置属性，顶点也称作节点，边也称作关系，每个节点和关系都可以有一个或多个属性。由于图形遍历的局部性，不管图形中有多少节点和关系，根据遍历规则，Neo4j只访问与遍历相关的节点，不受到总数据集大小的影响，从而保持期待的性能。对与存在大量丰富关系的数据，遍历的性能不受图形数据量大小的影响，是存储知识库的最佳选择。

Step11：最后，可以查看知识图谱展示情况。

本发明的目的在于克服现有技术的缺陷，提供基于知识图谱的自动化构建知识库的方法及系统，下面结合本发明分层架构图，如图2所示，作进一步说明。

1、数据层

在利用非结构化的数据构建知识图谱之前，首先需要获取数据并对数据进行处理，处理完的数据集中放在项目文件夹下，供后续训练和预测使用。

首先获取数据有两种途径；本地上传与定时任务上传。

可以理解的是，两种途径来源的文件将会放在源文件中进行管理。随着外界知识增长或者原有知识的修改，会有新的知识出现，定时任务上传则是从下载平台定时的获取文档，可以及时获取新的知识，并将数据扩展到已建立的目标领域的知识图谱中，实现了对知识图谱的动态扩展，并解决了大量搜寻信息的问题。

根据客户的使用场景，进行图谱设计，图形化构建Schema，设计本体与关系，通过定制Schema可以描述这个领域中实体与实体之间的关系，建立这个领域的知识模型，向其他行业展示这个行业的世界观。

其中，Schema是指能够描述世界一小部分的模型，可以理解为知识模型，能更好的描述用户垂直领域中非常重要的实体，和在这些实体之间的关系，优点是可以被机器所读取，也就是说，将Schema创建完成之后，就可以把它理解为机器的思考方式也是如此。

最后基于图谱设计的本体，收集数据，并经过清洗，格式转换，转换为txt格式给后续信息层来使用。

2、信息层

信息层的主要内容是数据标注，主要针对非结构化数据，进行文本实体识别，将上一层准备好的数据导入后自动化进行标注，标注完成，转成BIOS格式文件。本发明利用语料标注工具进行数据标注平台搭建。

3、认知层

认知层主要内容是知识图谱，经过采用BERT+CRF模型进行训练，生成模型库，即前文所述的“服务模型”，调用该服务模型做预测，最终形成实体-关系-实体的三元组数据，然后采用聚类技术进行消歧和关系融合后，利用脚本文件对产生的结果进行一系列解析，形成知识图谱，插入到知识库中。

脚本文件主要有两个函数，一个是初始化的操作，一个是插入数据。在初始化函数中，首先连接Neo4j的图数据库，预测结果是压缩包形式，所以还要进行解压缩操作；解压缩处理之后，就可以进行插入，对于每个节点，判断其是否存在，不存在就创建一个，逐个加入知识库。

4、应用层

应用层是人工智能应用，本发明可以应用到智能问答、语义搜索、个性化推荐、辅助决策等领域。例如智能问答，就是通过一问一答的形式，用户和具有智能问答系统的机器之间进行交互，就像是两个人进行问答一样，具有智能问答系统的机器就像一个智者一样，为用户提供答案，友好的进行交谈。如图3的自主学习流程所示，灰色箭头为正确回答，如碰到无法回答的问题，则提取问题实体，进行学习，并收集互联网数据，不断去更新知识库来主动推荐，形成一个闭环的自主学习流程。图3中的AutoML是指自动机器学习(AutomatedMachine Learning)。

以构建解决方案知识图谱为例，首先建立一个项目，项目名称为“解决方案百宝箱”，然后进行数据准备，可以上传本地文件也可以使用数据管理系统提供的文件，将文件进行训练集和预测集的划分。之后进行Schema构建，如图4，构建出9个本体的关系。再进入标注平台，给训练集文件中的本体打上标签，形成bio文件。之后进行基于BERT-CRF模型对9个本体数据进行训练。之后进行预测，将预测集文件基于Schema结构形成图谱，如图5的结果。如图6所示，是基于清洗后的9个本体数据，BERT+CRF(单句长度128)模型的最新训练日志。

基于同一发明构思，本发明的另一实施例提供一种采用上述方法的基于知识图谱的自动化构建知识库的系统，包括项目管理模块、数据管理模块、构建Schema模块、数据标注模块、模型训练模块、批量预测模块、知识图谱模块；

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于知识图谱的自动化构建知识库的方法，其特征在于，包括以下步骤：

根据构建的Schema对训练集文件中的实体进行标注；

2.根据权利要求1所述的方法，其特征在于，所述获取非结构化的数据，数据的来源有两方面：一是将终端本地的文档进行上传，文件较多时批量上传；二是定时任务上传，从下载平台定时地获取文档，根据不同的需求下载相应的文档，并进行上传。

3.根据权利要求1所述的方法，其特征在于，所述对数据进行处理以形成训练集文件和预测集文件，包括：

4.根据权利要求1所述的方法，其特征在于，所述图形化地构建知识图谱的Schema，是采用可拖拽的方式构建Schema。

5.根据权利要求1所述的方法，其特征在于，所述服务模型为BERT+CRF模型。

6.根据权利要求1所述的方法，其特征在于，所述将服务模型的预测结果转换为知识图谱，包括：采用聚类技术对服务模型预测的实体-关系-实体的三元组数据进行消歧和关系融合，然后利用脚本文件对产生的结果进行解析，形成知识图谱。

7.根据权利要求1所述的方法，其特征在于，所述知识库使用图形数据库进行存储，所述图形数据库为Neo4j图形数据库。

8.一种采用权利要求1～7中任一权利要求所述方法的基于知识图谱的自动化构建知识库的系统，其特征在于，包括项目管理模块、数据管理模块、构建Schema模块、数据标注模块、模型训练模块、批量预测模块、知识图谱模块；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。