CN111708894A

CN111708894A - 一种知识图谱创建方法

Info

Publication number: CN111708894A
Application number: CN202010468680.5A
Authority: CN
Inventors: 王军平
Original assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Current assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-25
Anticipated expiration: 2040-05-28
Also published as: CN111708894B

Abstract

本发明提供了一种知识图谱创建方法。基于运行于集群上的分布式文件系统，确定数据集成的数据模型，并通过所述数据模型获取所述集群的数据图表；根据预设的分布式图处理框架将所述数据图表拆分为子图进行迭代计算，并确定数据集；在所述数据集中配置数据访问函数和接口，构成知识开放和共享的知识图谱。本发明的有益效果在于：本发明能够支持结构化和非结构化海量数据存储、集成和访问；支持常见异构数据类型。

Description

一种知识图谱创建方法

技术领域

本发明涉及知识图谱技术领域，特别涉及一种知识图谱创建方法。

背景技术

目前，现有技术中，知识图谱广泛应用于可视化知识领域映射中。在知识图谱的创建方法中，多数知识图谱的创建是基于场景的知识图谱创建，例如：医院场景、学校场景、商场场景等场景的知识图谱，这类知识图谱范围较小。而较为广泛和全面领域的知识图谱创建过程中存在数据存储不足，数据多数为同构数据，对于异构数据的知识图谱创建方面和可扩展性反面较差，还不具有自动备份和自动回复方面的功能。

发明内容

本发明提供一种知识图谱创建方法，用以解决现有技术中知识图谱的不足。

一种知识图谱创建方法，其特征在于，包括：

基于运行于集群上的分布式文件系统，确定数据集成的数据模型，并通过所述数据模型获取所述集群的数据图表；

根据预设的分布式图处理框架将所述数据图表拆分为子图进行迭代计算，并确定数据集；

在所述数据集中配置数据访问函数和接口，构成知识开放和共享的知识图谱。

作为本发明的一种实施例，所述集群包括主节点、共享存储系统和数据节点；其中，

所述主节点包括激活主节点、备用节点和主备切换控制器；其中，

所述主备切换控制器用于控制所述激活主节点和备用节点得到切换；

所述共享存储系统用于存储所述主节点在运行过程中产生的分布式文件系统的元数据；

所述共享存储系统还用于控制所述激活主节点和备用节点的数据同步；

所述数据节点用于向所述激活主节点和备用节点上报数据块的位置信息。

作为本发明的一种实施例，所述基于运行于集群上的分布式文件系统，确定数据集成的数据模型，并通过所述数据模型获取储存数据的数据图表，包括：

将所述分布式文件系统上的数据以分块的形式划分多个数据块；其中，

所述分布式文件系统包括命名空间，所述命名空间包括源数据和储存所述数据块的数据块池；

所述数据块为独立的存储单元；

所述集群的主节点和备节点基于数据块和预设数据节点的多维有序映射和时间戳索引构成数据动态集成的数据模型；

所述数据模型将储存数据以数据图表的形式进行存储；其中，

所述数据图表有行和列组成，所述列包括若干列族；所述列族用于统计磁盘和内存的访问、控制和使用；。

作为本发明的一种实施例，所述将所述分布式文件系统上的数据以分块的形式划分多个数据块，包括以下步骤：

步骤1：获取所述预设数据节点的存储量S和预设数据节点个数M，

其中，所述w_i表示第i个预设数据节点的储存量；所述i＝1,2,3,……i；所述β为预设数据节点的空间常数；

步骤2：根据所述预设数据节点的储存量S确定所述预设数据节点的权重值p：

其中，所述p_i表示第i个预设数据节点的权重值；所述y_i表示第i个预设数据节点的存储能力；

步骤3：根据所述预设数据节点的权重值p，计算所述数据块的划分阈值K_i：

其中，所述

表示分布式文件系统上预设数据节点的权重值，

所述

表示分布式文件系统；所述K_i表示第i个预设数据节点的划分所述数据块的阈值；所述第i个预设数据节点每处理K_i量的数据，生成一个数据块。

作为本发明的一种实施例，所述时间戳在所述数据动态集成写入时自动赋值，使得所述动态集成的数据具有唯一性。

作为本发明的一种实施例，所述分布式文件系统包括：主节点进程，数据节点进程，辅助进程；其中，

所述主节点近程用于管理所述命名空间，并记录所述储存数据分解为数据块的过程和所述数据块储存的数据节点；

所述数据节点近程用于根据需要存储和检索数据块，定期向主节点发送所存储的数据块的列表；

所述辅助进程用于与所述主节点进行通信，定期保存所述分布式文件系统元数据的快照。

作为本发明的一种实施例，所述根据预设的分布式图处理框架将所述数据图表拆分为子图进行迭代计算，并确定数据集，包括：

获取所述数据图表的有向多重图，并确定图形参数；其中，

所述图形参数包括顶点或边缘类型；

根据所述图形参数，通过分布式或并行的方式将所述数据图表拆分为子图，并确定所述子图的顶点；

根据所述子图的顶点，确定所述子图的相邻顶点和所述相邻顶点的属性；

对所述相邻顶点和所述相邻顶点的属性进行迭代计算，确定所述子图的物化数据集。

作为本发明的一种实施例：所述在所述数据集中配置数据访问函数和接口，构成知识开放和共享的知识图谱，包括以下步骤：

获取所述数据集，并确定所述数据集中的子图的功能定义；

根据所述功能定义，设计与所述功能定义对应的数据访问函数和接口；

在所述数据访问函数和接口设计完成后，将所述数据访问函数添加入对应的子图中；并将所述接口配置到与所述接口对应的子图中，构成知识开放和共享的知识图谱。

作为本发明的一种实施例，所述数据访问函数包括：Java API函数、Restful API函数、Pig函数和Shell接口；其中，

所述Java API函数用于并行批处理表数据；

所述Restful API函数用于支持REST风格的HttpAPI访问，解除语言限制；

所述Pig函数用于使用Latin流式编程语言来操作数据库中的数据；

所述Shell接口用于对所述数据访问进行管理。

本发明的有益效果在于：本发明能够支持结构化和非结构化海量数据存储、集成和访问；支持常见异构数据类型。具有良好的扩展性，能够添加对图计算和图挖掘简洁易用的而丰富多彩的接口以及其他接口，极大的方便了大家对分布式图处理的需求。框架的优势在于能够把表格和图进行互相转换，支持结构化和非结构化海量数据存储、集成和访问；支持常见异构数据类型，具有数据访问接口。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种知识图谱创建方法的方法流程图；

图2为本发明实施例中一种知识图谱创建方法的集群的结构图；

图3为本发明实施例中一种知识图谱创建方法的分布式文件系统进程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的方法是为了是为了实现PB级以上规模的海量数据存储、知识抽取、共享的系统，可实现面向特定行业价值链的分布式数据空间构建与开放服务环境。

实施例1：

如附图1所示的一种知识图谱创建方法，包括：

步骤100：基于运行于集群上的分布式文件系统，确定数据集成的数据模型，并通过所述数据模型获取所述集群的数据图表；

本发明的分布式文件系统，运行于集群上，是管理网络中跨多台计算机存储的文件系统。高可靠性、高性能、面向列、可伸缩性，其具有稀疏的，分布式的，持久化的，多维有序映射的特点，是一个基于行键、列键和时间戳建立索引，可以随机访问的存储和检索数据的平台。不限制存储的数据种类，允许动态的、灵活的数据模型，进行数据集成，在本发明中数据集成以数据图表的形式体现。不用SQL语言，也不强调数据之间的关系，在服务器集群上运行，可以相应地横向扩展。

步骤101：根据预设的分布式图处理框架将所述数据图表拆分为子图进行迭代计算，并确定数据集；

本发明的数据以表的形式存储，本发明主要是对表中的有向多重图表进行拆分。有向多重图表有Table和Graph两种视图，而且存储只需要一份物理存储。两种视图都有自己独有的操作符，在灵活操作和执行效率上具有显著特点。图形参数是顶点和边缘类型。这些类型是分别与每个顶点和边相关联的对象。有向图是一个由边缘和点计算组成的关系图。支持平行边缘简化了建模场景，其中可以有相同的顶点之间的多个关系。每个顶点由唯一的一个64位标识符键值。不对顶点标识符的任何排序约束

迭代计算可以缓存的计算中间结果和图表将保留在内存中，直到内存压力迫使他们按照顺序被删除。对于迭代计算，之前的迭代的中间结果将填补缓存。物化(缓存和强迫)图形或每次计算迭代，清空所有其它数据集，并且只使用物化数据集在未来的迭代中。因此本发明确定的数据集也是物化数据集。每次迭代都会将中间结果。

本发明的迭代计算再内存中的不必要的数据过多使机制变慢时，一旦不再需要缓存，就立即清空中间结果的缓存，提高效率。但是会确定数据的物化图形，在后续迭代中将物化图形的物化数据集作为可添加函数和接口的数据集。

步骤102：在所述数据集中配置数据访问函数和数据接口，够成知识开放和共享的知识图谱。

本发明最后一步是通过在数据集中配置数据访问函数和数据接口，各数据集会根据数据访问函数和数据结构，实现各数据集之间的知识开放和共享。

本发明的有益效果在于：本发明具有良好的扩展性，能够添加对图计算和图挖掘简洁易用的而丰富多彩的接口以及其他接口，极大的方便了大家对分布式图处理的需求。框架的优势在于能够把表格和图进行互相转换，支持结构化和非结构化海量数据存储、集成和访问；支持常见异构数据类型，具有数据访问接口。

实施例2：

作为本发明的一种实施例，如附图2所示，所述集群包括主节点、共享存储系统和数据节点；其中，

集群的主节点包括激活主节点和备用节点：两台主节点形成互备，一台处于激活状态，为激活主节点，另外一台处于备用状态，为备用节点，只有激活主节点才能对外提供读写服务。主备切换控制器(故障转移控制器)，作为独立的进程运行，所述主节点的主备切换进行总体控制。能及时检测到主节点的健康状况，在激活主节点障时实现自动的主备选举和切换。

所述共享存储系统用于存储所述主节点在运行过程中产生的分布式文其为主节点高可用提供支撑，系统保存了主节点在运行过程中产生的分布式文件系统的元数据。主节点和备节点通过共享存储系统实现元数据同步。在主备切换时，新的主节点在确认元数据完全同步之后才能继续对外提供服务。

件系统的元数据；

所述共享存储系统还用于控制所述激活的主节点和备用节点的数据同步；

所述数据节点用于向所述激活主节点和备用节点上报数据块的位置信息。：除了共享存储系统和元数据之外，主节点和备节点还共享分布式文件系统的数据块和数据节点之间的映射关系。数据节点会同时向主节点和备节点上报数据块的位置信息。

实施例3：

所述分布式文件系统包括命名空间，所述命名空间包括源数据和储存所述数据块的数据块池；分布式文件系统上的文件被划分为多个分块，作为独立的存储单元，称为数据块，在一个实施例中，默认大小是64MB；

所述数据块为独立的存储单元，不同的数据块之间互不干扰；

本发明中数据是以表的形式存储数据，表有行和列组成，列能够划分为若干个列族(Column Family)。表中，Key的设计是表中每条记录的“主键”，在查询的数据时，根Key来查询，Key的值在表中以字节数组的类型存储。存储时，数据按照key的字典序存储。设计key时，需将经常一起读取的行存储在一起

访问控制、磁盘和内存的使用统计都是在列族层面进行的。应用中，列族上的控制权限能帮助管理不同类型的应用。允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据。

实施例4：

其中，所述

表示分布式文件系统上预设数据节点的权重值，所述

本发明的生成数据块包括三个步骤，先获取预设数据节点的数据存储量，即主节点控制的能够进行数据存储的从节点的数据存储量，其次，确定预设数据节点的权重值，根据权重值生成数据块的阈值，使得每次到阈值数量的数据量都能够生成一个数据块。

实施例5：

本发明通过时间戳来索引。时间戳的类型优选64位整型。时间戳可以在数据写入时自动赋值，时间戳是精确到毫秒的当前系统时间。时间戳也可以显式赋值。生成具有唯一性的时间戳，使应用程序避免数据版本冲突。为了避免数据存在过多版本造成的的管理(包括存贮和索引)负担，提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置。

实施例6：

作为本发明的一种实施例，如附图3所示，所述分布式文件系统包括：主节点进程，数据节点进程，辅助进程；其中，

本发明的分布式文件系统数据块：分布式文件系统上的文件被划分为多个分块，作为独立的存储单元，称为数据块，选默认大小是64MB。分布式文件系统的三个进程：主节点进程，数据节点进程，辅助进程。主节点进程：分布式文件系统的守护进程，用来管理文件系统的命名空间，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理。数据节点进程：文件系统的工作节点，根据需要存储和检索数据块，并且定期向主节点发送他们所存储的块的列表。

辅助进程：辅助后台程序，与主节点进行通信，以便定期保存分布式文件系统元数据的快照。分布式文件系统通过添加主节点实现扩展，其中每个主节点管理文件系统命名空间中的一部分。每个主节点维护一个命名空间卷，包括命名空间的源数据和该命名空间下的文件的所有数据块的数据块池。

作为本发明的一种优选实施例：本发明还具有可靠性：将可靠性与写入带宽和读取带宽进行权衡。默认布局是在运行客户端的节点上放第一个副本(如果客户端运行在集群之外，则在避免挑选存储太满或太忙的节点的情况下随机选择一个节点。)第二个副本放在与第一个不同且随机另外选择的机架中节点上。第三个副本与第二个副本放在同一个机架上，且随机选择另一个节点。其它副本放在集群中随机选择的节点中，尽量避免在同一个机架上放太多副本。

实施例7：

获取所述数据图表的有向多重图，并确定图形参数；其中，

所述图形参数包括顶点或边缘类型；

本发明的原理和有益效果在于：本发明的框架核心是一个分布式图处理框架，提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了大家对分布式图处理的需求。图的分布式或者并行处理是把图拆分成很多的子图，然后分别对这些子图进行计算，计算的时候可以分别迭代进行分阶段的计算，即对图进行并行计算。本框架的优势在于能够把表格和图进行互相转换，这一点可以带来非常多的优势。图的计算大多数只考虑邻居节点的计算，一个节点计算的时候只会考虑其邻居节点，对于非邻居节点不关心。本发明还包括计算信息度一个常见的聚合任务是计算每个顶点的度：每个顶点相邻边的数目。在有向图的情况下，往往需要知道入度，出度，以及总度；收集邻居，在某些情况下可能更容易通过收集相邻顶点和它们的属性来表达在每个顶点表示的计算。这可以通过使用容易地实现collectNeighborIds运算或collectNeighbors运算，即实现自定义收集计算和实施自定义收集计算。最终通过迭代计算确定物化数据集。

实施例8：

获取所述数据集，并确定所述数据集中的子图的功能定义；

本发明的原理在于：在数据集确定之后，因为本发明基于分布式图处理框架，处于框架中的数据集，各种子图功能已经被分类确定，即，功能定义已经被确定。而通过功能定义可以通过使用现有的函数和接口，或者基于功能定义进行设计相关的函数。在数据访问函数和接口确定之后，将数据访问函数和接口和数据集中的子图相对应，进而根据将数据访问函数和接口添加入已有的分布式框架，实现知识开放和共享，构成知识图谱。

本发明的有益效果在于：本发明基于分布式数据框架和功能定义，进行设计或者使用对应功能的数据访问函数和接口，保证了数据访问函数和接口与数据集的各种对应内容的适配性，使得知识图谱的开放和共享功能更加顺畅。

实施例9：

作为本发明的一种实施例，所述数据访问函数包括：Java API函数、RestfulAPI函数、Pig函数和Shell接口；其中，

所述JavaAPI函数用于并行批处理表数据；

所述RestfulAPI函数用于支持REST风格的HttpAPI访问，解除语言限制；

所述Shell接口用于对所述数据访问进行管理。

本发明的原理在于：上述数据访问函数是本发明的知识图谱实现知识共享和沟通过程中表处理、访问和流式编程的数据访问函数。本发明包含但不局限于上述数据访问函数。

本发明的有益效果在于，通过上述数据访问函数本发明的数据集之间能够进行连通，实现数据调度，从而实现知识的共享和知识的沟通。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种知识图谱创建方法，其特征在于，包括：

2.根据权利要求1所述的一种知识图谱创建方法，其特征在于，所述集群包括主节点、共享存储系统和数据节点；其中，

所述数据节点用于向所述激活主节点和备用节点上报数据的位置信息。

3.根据权利要求1所述的一种知识图谱创建方法，其特征在于，所述基于运行于集群上的分布式文件系统，确定数据集成的数据模型，并通过所述数据模型获取储存数据的数据图表，包括：

所述数据块为独立的存储单元；

所述集群的主节点和备节点基于所述数据块和预设数据节点的多维有序映射和时间戳索引构成数据动态集成的数据模型；

所述数据图表有行和列组成，列包括若干列族；

所述列族用于统计磁盘和内存的访问、控制和使用。

4.根据权利要求3所述的一种知识图谱创建方法，其特征在于，所述将所述分布式文件系统上的数据以分块的形式划分多个数据块，包括以下步骤：

其中，所述

表示分布式文件系统上预设数据节点的权重值，所述

5.根据权利要求3所述的一种知识图谱创建方法，其特征在于，所述时间戳在所述数据动态集成写入时自动赋值，使得所述动态集成的数据具有唯一性。

6.根据权利要求3所述的一种知识图谱创建方法，其特征在于，所述分布式文件系统包括：主节点进程，数据节点进程，辅助进程；其中，

7.根据权利要求1所述的一种知识图谱创建方法，其特征在于，所述根据预设的分布式图处理框架将所述数据图表拆分为子图进行迭代计算，并确定数据集，包括：

获取所述数据图表的有向多重图，并确定图形参数；其中，

所述图形参数包括顶点或边缘类型；

8.根据权利要求1所述的一种知识图谱创建方法，其特征在于，所述在所述数据集中配置数据访问函数和接口，构成知识开放和共享的知识图谱，包括以下步骤：

获取所述数据集，并确定所述数据集中的子图的功能定义；

9.根据权利要求1所述的一种知识图谱创建方法，其特征在于，所述数据访问函数和接口包括：Java API函数、RestfulAPI函数、Pig函数和Shell接口；其中，

所述JavaAPI函数用于并行批处理表数据；

所述Shell接口用于对所述数据访问进行管理。