CN111159427B

CN111159427B - 一种基于众包的知识图谱构建方法及系统

Info

Publication number: CN111159427B
Application number: CN201911399693.5A
Authority: CN
Inventors: 涂志莹; 刘星焜; 王忠杰; 徐晓飞
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-10-01
Anticipated expiration: 2039-12-30
Also published as: CN111159427A

Abstract

本发明公开了一种基于众包的知识图谱构建方法及系统，所述方法包括如下步骤：步骤S1、创建图空间；步骤S2、创建用户模式并进行模式匹配和融合；步骤S3、上传资源；步骤S4、图谱构建。所述系统包括图空间模块、用户模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块。本发明采用基于众包的知识获取方法，用户可以根据自己的需求提供资源，添加到知识图谱中，解决知识图谱的资源获取问题。本发明提出一种基于OWL的模式，对异构资源进行描述，从元模型上控制其异构性，使得通过该方法构建的知识图谱可以更容易地进行融合。本发明实现知识应用的操作接口，所述操作接口提供对知识图谱的搜索能力和推理能力。

Description

一种基于众包的知识图谱构建方法及系统

技术领域

本发明属于计算机技术领域，涉及一种知识图谱构建方法及系统，具体涉及一种基于众包的知识图谱构建方法及系统。

背景技术

知识图谱是将知识结构化形成的知识系统，其中包含了基本事实、通用规则和其他有关信息，常用于人工智能领域的知识抽取、存储与推理等任务。随着智能技术的不断发展，作为人工智能支柱的知识图谱以其强大的知识表示和推理能力受到了学术界和产业界的广泛关注。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用，为了改进信息服务质量，国内外互联网公司纷纷推出知识图谱产品，如谷歌知识图谱、微软BingSatori、百度知心及搜狗知立方等。各个语音助理背后，知识图谱也扮演着重要角色。在大数据的背景下，现有的知识图谱技术有以下能力：一是覆盖能力，能够覆盖多领域的大规模数据；二是包容能力，能够包含大量异构的数据，包容知识的不同表达形式，从而保证应用和用户个性化需求得到满足；三是表示能力，能够对知识的语义信息进行表示。

而在当前知识图谱构建领域，多数研究方法通过抽取实体与实体之间的关系来构建知识图谱，主要包括实体识别方法、关系抽取方法、实体消歧方法与知识补全方法，其中需要大量的人工标注数据，是非常繁琐的数据归一化工作，且没有统一的、标准化的方法能够一次性解决。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于众包的知识图谱构建方法及系统。对于资源的获取问题，本发明提出一种基于众包方式的知识获取方法，用户可以根据自己的需求收集资源或者提供资源，添加到知识图谱中；对于众包方式获取资源的异构问题，本发明提出一种基于网络本体语言(Web Ontology Language，OWL)的模式，对异构资源进行描述，从元模型上控制其异构性，使得通过该方法构建的知识图谱可以更容易的进行融合。

本发明的目的是通过以下技术方案实现的：

一种基于众包的知识图谱构建方法，包括如下步骤：

步骤S1、创建图空间：

所述图空间为面向用户应用的命名空间，包含一个图数据库容器、一个RDF数据库和一个或多个Trans模型；

步骤S2、创建用户模式并进行模式匹配和融合：

创建用户模式，描述实体类、属性和关系；将用户模式存入步骤S1中创建的图空间所对应的RDF数据库；将用户模式和系统默认模式进行匹配和融合，生成模式匹配表，存入数据库；

步骤S3、上传资源：

用户根据用户模式描述的数据格式上传资源，利用步骤S2所述用户模式和模式匹配表对资源进行正确性校验，并对资源进行统一描述，将资源加入到资源入库队列中；

步骤S4、图谱构建：

从步骤S3所述资源入库队列中取出资源，与知识图谱中的资源进行对齐与融合，新资源加入到知识图谱中，利用Trans系列算法对知识图谱进行训练，得到知识表示学习模型。

一种实现上述方法的知识图谱构建系统，包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块，其中：

所述图空间模块用于创建和管理图空间，对不同用户的图谱进行数据隔离，为每个用户的应用场景提供知识图谱的构建和应用支持。

所述模式模块用于创建、审核、匹配、融合模式，模式提供支持属性、关系和类的描述，控制图谱的异构性，为知识图谱融合提供支持；

所述资源模块用于资源准入控制与统一描述，根据模式对资源进行正确性检验，对检验正确的资源，根据模式匹配表，将资源的描述项由用户模式定义的字段逐项转换为默认模式的字段，以得到统一描述的资源，再加入资源入库队列中；

所述图谱构建模块用于构造知识图谱与知识表示学习模型训练；

所述图数据库容器集群管理模块用于管理图数据库容器集群，为图空间分配图数据库容器。

相比于现有技术，本发明具有如下优点：

1、本发明采用基于众包的知识获取方法，用户可以根据自己的需求提供资源，添加到知识图谱中，解决知识图谱的资源获取问题。

2、本发明提出一种基于OWL的模式，对异构资源进行描述，从元模型上控制其异构性，使得通过该方法构建的知识图谱可以更容易地进行融合。

3、本发明实现知识应用的操作接口，所述操作接口提供对知识图谱的搜索能力和推理能力。

附图说明

图1为本发明的基于众包的知识图谱构建方法流程图；

图2为图空间结构示意图；

图3为模式匹配方法流程图；

图4为模式融合方法流程图；

图5为资源入库与知识应用流程图；

图6为本发明的基于众包的知识图谱构建系统架构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

具体实施方式一、本实施方式提供了一种基于众包的知识图谱构建方法，如图1所示，所述方法包括如下步骤：

步骤S1、创建图空间。

用户从图数据库容器集群分配图数据库容器，分配RDF数据库存储空间，分配Trans模型存储空间。

图空间为面向用户应用的命名空间，包含一个图数据库容器、一个RDF数据库和一个或多个Trans模型；后面将说明的模式和后面将说明的资源包含于图空间，不同图空间中的模式和资源互不相关。图2所示为上述步骤执行三次得到三个图空间的例子。

步骤S2、创建用户模式。

创建用户模式，描述实体类、属性和关系，将用户模式存入步骤S1中创建的图空间所对应的RDF数据库，用户模式和系统默认模式进行匹配和融合，生成模式匹配表，存入数据库。具体包括如下步骤：

步骤S21、在前端新建用户模式，定义实体类，定义类继承关系，定义类属性，定义类属性取值范围，定义关系，定义关系取值范围，定义完成后保存提交，用户模式将保存到RDF数据库中。

步骤S22、模式匹配。如图3所示，匹配方法如下：

步骤S21所述用户模式O1与系统默认模式O2进行匹配，输出为模式匹配表T，匹配表项为模式中定义的类、属性或关系；匹配方法结合文本相似性算法和结构相似性算法，计算用户模式O1中每一项(类、属性或关系)与系统默认模式O2中每一项的文本和结构相似性，将两种相似性组合后得到相似性值，若大于阈值，则认为对应项是匹配的，加入模式匹配表T中。

步骤S23、模式融合：如图4所示，融合方法如下：

输入为步骤S21所述用户模式O1、步骤S22所述系统默认模式O2与步骤S22所述模式匹配表T，输出为新的默认模式NewO2。首先根据模式匹配表T，将用户模式O1与系统默认模式O2连接，若模式匹配表T中的匹配项为1:null，即用户模式O1中的实体(类、属性或关系)在系统默认模式O2中不存在，为系统默认模式O2创建相同的实体；若模式匹配表T中的匹配项为1:1，则跳过。其次根据模式匹配表T，对系统默认模式O2进行约束补全，包括上下位关系补全，定义域(domain)值域(range)补全与属性约束补全。上下文关系补全遍历用户模式O1中类和属性的父类和父属性，根据模式匹配表T，补充到系统默认模式O2对应项中；定义域值域补全遍历用户模式O1中属性和关系，根据模式匹配表T，补充到系统默认模式O2对应项中；属性约束补全遍历用户模式O1中属性约束，根据模式匹配表T，补充到系统默认模式O2对应项中。

步骤S3、上传资源。

如图5所示，用户根据模式描述的数据格式上传资源，利用步骤S2所述模式和模式匹配表对资源进行正确性校验，并对资源进行统一描述，将资源加入到资源入库队列中。

步骤S4、图谱构建。

如图5所示，从步骤S3所述资源入库队列中取出资源，与知识图谱中的资源进行对齐与融合，新资源加入到知识图谱中，利用Trans系列算法对知识图谱进行训练，得到知识表示学习模型，用于推理。

具体包括如下步骤：

步骤S41、从步骤S3所述资源入库队列中取出待入库资源e1，计算待入库资源e1与知识图谱中每一个同类资源e2的相似度res_sim(e1,e2)。取知识图谱中与待入库资源相似度最高且大于阈值的同类资源作为对齐资源，若知识图谱中不存在相似度大于阈值的资源，则认为待入库资源是一个新资源。两个资源e1与e2的相似度res_sim(e1,e2)的计算方法如下：

其中，e1、e2为资源，prop_sim(attr1_i,attr2_i)代表两个资源的对应属性相似度，attr1_i为资源e1的第i个属性，attr2_i为资源e2的第i个属性。

步骤S42、若步骤S41所述待入库资源e1未找到匹配的资源e2，则认为e1是一个新资源，直接添加到知识图谱中。若待入库资源e1找到了匹配的资源e2，对于e1的每一个属性attr1_i，与e2中对应的属性attr2_i有三种对应情况：(1)attr2_i不存在，则将attr2_i的值设为attr1_i；(2)attr2_i存在，且与attr1_i相同，忽略；(3)attr2_i存在，且与attr1_i不相同，将attr1_i补充到attr2_i中。

步骤S43、将融合结果更新到图数据库中，具体方法如下：使用py2neo框架将融合结果转换为子图，更新到Neo4j数据库中；

步骤S44、使用开源的OpenKE框架对知识图谱进行训练，得到一系列Trans模型。OpenKE基于TensorFlow实现了高效的知识表示学习算法。

具体实施方式二、本实施方式提供了一种基于众包的知识图谱构建系统，如图6所示，所述系统包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块，其中：

所述模式模块用于创建、审核、匹配、融合模式，模式提供支持属性、关系和类的描述，控制图谱的异构性，为知识图谱融合提供支持。

所述资源模块用于资源准入控制与统一描述，根据模式对资源进行正确性检验，对检验正确的资源，根据模式匹配表，将资源的描述项由用户模式定义的字段逐项转换为默认模式的字段，以得到统一描述的资源，再加入资源入库队列中。

所述图谱构建模块用于构造知识图谱与知识表示学习模型训练，知识图谱由节点和边组成，节点代表实体，边代表实体之间的关系；知识表示学习模型包括TransE、TransH、TransR、TransD。

所述图数据库容器集群管理模块用于管理图数据库容器集群，为图空间分配图数据库容器，特别地图数据库使用Neo4j数据库，容器使用Docker容器。

各个模块的具体实现流程参考具体实施方式一。

需要说明的是，本实施方式中的各个模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可拆分成多个模块(或单元)。

Claims

1.一种基于众包的知识图谱构建方法，其特征在于所述方法包括如下步骤：

步骤S1、创建图空间：

步骤S2、创建用户模式并进行模式匹配和融合：

创建用户模式，描述实体类、属性和关系；将用户模式存入步骤S1中创建的图空间所对应的RDF数据库；将用户模式和系统默认模式进行匹配和融合，生成模式匹配表，存入数据库，具体步骤如下：

步骤S21、在前端新建用户模式，定义实体类，定义类继承关系，定义类属性，定义类属性取值范围，定义关系，定义关系取值范围，定义完成后保存提交，用户模式将保存到RDF数据库中；

步骤S22、模式匹配：

步骤S21所述用户模式O1与系统默认模式O2进行匹配，输出为模式匹配表T，匹配表项为模式中定义的类、属性或关系；匹配方法结合文本相似性算法和结构相似性算法，计算用户模式O1中每一项与系统默认模式O2中每一项的文本和结构相似性，将两种相似性组合后得到相似性值，若大于阈值，则认为对应项是匹配的，加入模式匹配表T中；

步骤S23、模式融合：

输入为步骤S21所述用户模式O1、步骤S22所述系统默认模式O2与步骤S22所述模式匹配表T，输出为新的默认模式NewO2；

根据模式匹配表T，将用户模式O1与系统默认模式O2连接，若模式匹配表T中的匹配项为1:null，即用户模式O1中的实体在系统默认模式O2中不存在，为系统默认模式O2创建相同的实体；若模式匹配表T中的匹配项为1:1，则跳过；

根据模式匹配表T，对系统默认模式O2进行约束补全，包括上下位关系补全，定义域值域补全与属性约束补全；上下文关系补全遍历用户模式O1中类和属性的父类和父属性，根据模式匹配表T，补充到系统默认模式O2对应项中；定义域值域补全遍历用户模式O1中属性和关系，根据模式匹配表T，补充到系统默认模式O2对应项中；属性约束补全遍历用户模式O1中属性约束，根据模式匹配表T，补充到系统默认模式O2对应项中；

步骤S3、上传资源：

步骤S4、图谱构建：

2.根据权利要求1所述的基于众包的知识图谱构建方法，其特征在于所述步骤S1中，用户从图数据库容器集群分配图数据库容器，分配RDF数据库存储空间，分配Trans模型存储空间。

3.根据权利要求1所述的基于众包的知识图谱构建方法，其特征在于所述步骤S4的具体步骤如下：

步骤S41、从步骤S3所述资源入库队列中取出待入库资源e1，计算待入库资源e1与知识图谱中每一个同类资源e2的相似度res_sim(e1,e2)，取知识图谱中与待入库资源相似度最高且大于阈值的同类资源作为对齐资源，若知识图谱中不存在相似度大于阈值的资源，则认为待入库资源是一个新资源；

步骤S42、若步骤S41所述待入库资源e1未找到匹配的资源e2，则认为e1是一个新资源，直接添加到知识图谱中，若待入库资源e1找到了匹配的资源e2，对于e1的每一个属性attr1_i，与e2中对应的属性attr2_i有三种对应情况：(1)attr2_i不存在，则将attr2_i的值设为attr1_i；(2)attr2_i存在，且与attr1_i相同，忽略；(3)attr2_i存在，且与attr1_i不相同，将attr1_i补充到attr2_i中；

步骤S43、将融合结果更新到图数据库中；

步骤S44、使用开源的OpenKE框架对知识图谱进行训练，得到一系列Trans模型。

4.根据权利要求3所述的基于众包的知识图谱构建方法，其特征在于所述步骤S41中，两个资源e1与e2的相似度res_sim(e1,e2)的计算方法如下：

5.根据权利要求3所述的基于众包的知识图谱构建方法，其特征在于所述步骤S43的具体方法如下：使用py2neo框架将融合结果转换为子图，更新到Neo4j数据库中。

6.一种实现权利要求1-5任一项所述方法的基于众包的知识图谱构建系统，其特征在于所述系统包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块，其中：

所述图空间模块用于创建和管理图空间，对不同用户的图谱进行数据隔离，为每个用户的应用场景提供知识图谱的构建和应用支持；

7.根据权利要求6所述基于众包的知识图谱构建系统，其特征在于所述知识图谱由节点和边组成，节点代表实体，边代表实体之间的关系。

8.根据权利要求6所述基于众包的知识图谱构建系统，其特征在于所述知识表示学习模型包括TransE、TransH、TransR、TransD。

9.根据权利要求6所述基于众包的知识图谱构建系统，其特征在于所述图数据库使用Neo4j数据库，容器使用Docker容器。