CN111708895B

CN111708895B - 一种知识图谱系统的构建方法及装置

Info

Publication number: CN111708895B
Application number: CN202010470327.0A
Authority: CN
Inventors: 王军平
Original assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Current assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-06-20
Anticipated expiration: 2040-05-28
Also published as: CN111708895A

Abstract

本发明提供了一种知识图谱系统的构建方法及装置，其中方法包括：构建异构数据库，并将异构数据库进行存储；基于异构数据库，动态创建知识图谱；基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建。通过进行数据存储，动态构建知识图谱，增加其的灵活性及动态性，通过抽取和数据共享，增加其的共享性，进而实现对知识图谱系统的有效构建。

Description

一种知识图谱系统的构建方法及装置

技术领域

本发明涉及大数据技术领域，特别涉及一种知识图谱系统的构建方法及装置。

背景技术

大数据是指海量的、高增长率和多样化的信息资产。如今，大数据的应用越来越多，电子商务、O2O、物流配送等，通过大数据分析，对于消费者行为的判断、产品销售量的预测、精确的营销范围以及存货的补给，都已经得到全面的改善与优化。随着大数据技术的发展，人们对于数据的要求不再局限于海量的传统数据，数据工作者及科学家开始着眼于探求数据更深层次的价值，知识图谱应运而生。

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。目前存在较多的是通过定量数据对知识图谱进行单独构建，使得其在灵活性及动态性和共享性上存在一定的问题，因此，本发明提供了一种知识图谱系统的构建的方法及装置。

发明内容

本发明提供一种知识图谱系统的构建方法及装置，用以通过进行数据存储，动态构建知识图谱，增加其的灵活性及动态性，通过抽取和数据共享，增加其的共享性，进而实现对知识图谱系统的有效构建。

本发明提供一种知识图谱系统的构建方法，包括：

构建异构数据库，并将所述异构数据库进行存储；

基于所述异构数据库，动态创建知识图谱；

基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建。

在一种可能实现的方式中，构建的异构数据库支持结构化和非结构化的数据存储、集成和访问；

其中，所述异构数据库的构建包括：

基于运行在集群的文件分布式子系统来管理客户端的知识文件；

将所述知识文件进行数据集成，构成异构数据库。

在一种可能实现的方式中，所述集群包括主节点，所述主节点包括：激活主节点和备用节点，其中，所述主节点用于对外提供读写服务，且所述读写服务包括：读取所述客户端的知识文件；

所述构建方法，还包括：

检测所述激活主节点的健康状况，当所述激活主节点存在故障时，基于主备切换控制器，控制所述激活主节点和备用节点进行切换；

当在所述激活主节点和备用节点切换时，切换后的节点在确认元数据同步后，对外提供读写服务，其中，元数据同步的步骤包括：

所述主节点基于共享存储子系统确定所述主节点在运行过程中产生的分布式子系统的元数据，且所述激活主节点和备用节点通过所述共享存储子系统实现元数据同步；

其中，所述激活主节点和备用节点还共享所述分布式文件子系统的数据块和数据节点之间的映射关系，且所述数据节点同时向所述激活主节点和备用节点上报数据块的位置信息。

在一种可能实现的方式中，根据所述异构数据库，动态创建知识图谱的步骤包括：

根据所述异构数据库，配置有向图；

基于分布式图处理框架，对所述有向图进行分布式或者并行处理，并将所述有向图拆分为多个子图；

采用迭代方式对所述子图进行分阶段计算，并动态创建知识图谱。

在一种可能实现的方式中，

所述有向图的图像参数包括顶点类型和边缘类型；

且所述顶点类型和边缘类型是分别与所述有向图的每个顶点和边缘关联的对象，且所述有向图的每个顶点具有唯一标识符；

其中，所述边缘具有相应的源地址顶点标识符和目的地址顶点标识符。

在一种可能实现的方式中，

采用迭代方式对所述子图进行分阶段计算的过程中，还包括：

缓存采用迭代方式对子图进行分阶段计算的中间计算结果到存储内存；

确定存储内存的存储容量是否到达预设容量，若是，按照预先设定的删除顺序，将存储内存中的待删除存储内容进行删除；

其中，所述待删除存储内容与所述中间计算结果相关联。

在一种可能实现的方式中，

基于所述异构数据库，动态创建知识图谱的过程中，包括：

确定所述异构数据库中的当前数据块的数据类型，并基于数据类型对所述当前数据块中的实体数据和关系数据分别建立当前实体向量A＝{a1,a2,a3,...,an}和当前关系向量B＝{b1,b2,b3,...,bm}，其中，a表示当前实体向量中的实体文本信息，n表示当前实体向量中实体文本信息的总数量；b表示当前关系向量中的关系文本信息，m表示当前关系向量中关系文本信息的总数量；

将所述当前实体向量和当前关系向量输入到图谱构建模型中，并根据对应的当前实体特征A′和当前关系特征B′，输出当前图谱F；

其中，i表示n个实体文本信息中的第i个实体文本信息，j表示m个当前文本信息中的第j个当前文本信息；X(·)表示实体文本信息的特征图谱函数；Y(·)表示关系文本信息的特征图谱函数；

确定所述当前数据块与其他数据块之间的文本相似度S，并根据所述文本相似度对所述当前图谱F进行优化处理，输出最终图谱F′；

其中，sim(R_k,A)表示J个其他数据块中的第k个数据块的实体文本信息R_k与当前数据块的实体文本信息A的共现度；sim(D_k,B)表示J个其他数据块中的第J个数据块的关系文本信息D_k与当前数据块的关系文本信息B的共现度；f(R_k,A)表示J个其他数据块中的第k个数据块的实体文本信息R_k与当前数据块的实体文本信息A的共存频率值；f(D_k,B)表示J个其他数据块中的第J个数据块的关系文本信息D_k与当前数据块的关系文本信息B的共存频率值；

按照预设时间间隔，对所述最终图谱进行更新；

F″＝F′ξ(w+μv)；

其中，F″表示更新后的图谱；ξ(w+μv)表示按照预设时间间隔μ将最终图谱F′基于方向v和更新参数w进行更新的更新函数。

在一种可能实现的方式中，

基于创建的知识图谱，抽取和共享知识信息的步骤包括：

采集基于客户端输入的标识信息；

根据所述标识信息，获取有向图的边缘点和顶点位置，并加载所述知识图谱中的有向图中与边缘点相关的边缘信息以及与所述顶点相关的顶点信息；

对所述标识信息进行标识验证，判断是否存在触发共享指令；

若存在，将加载的边缘信息和顶点信息共享到所述客户端；

若不存在，将加载的边缘信息和顶点信息进行保留。

本发明提供一种知识图谱系统的构建装置，包括：

异构数据存储模块，用于构建异构数据库，并将所述异构数据库进行存储；

动态知识图谱创建模块，用于基于所述异构数据库，动态创建知识图谱；

知识开放与共享模块，用于基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种知识图谱系统的构建方法的流程图；

图2为本发明实施例中动态创建知识图谱的流程图；

图3为本发明实施例中分阶段计算对应的一流程图；

图4为本发明实施例的构建的知识图谱图；

图5为本发明实施例中抽取和共享知识信息的流程图；

图6为本发明实施例中一种知识图谱系统的构建装置的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明知识图谱系统是PB级以上规模的海量数据存储、知识抽取、共享的系统，可实现面向特定行业价值链的分布式数据空间构建与开放服务环境。

本发明提供一种知识图谱系统的构建方法，如图1所示，包括：

步骤1：构建异构数据库，并将所述异构数据库进行存储；

步骤2：基于所述异构数据库，动态创建知识图谱；

步骤3：基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建。

该实施例中，异构数据库是支持结构化和非结构化海量数据存储、集成和访问的，且支持常见异构数据类型，且具有数据接口访问功能。

该实施例中，在抽取和共享过程中，还支持查询、检索和修改等操作。

上述技术方案的有益效果是：通过进行数据存储，动态构建知识图谱，增加其的灵活性及动态性，通过抽取和数据共享，增加其的共享性，进而实现对知识图谱系统的有效构建。

本发明提供一种知识图谱系统的构建方法，构建的异构数据库支持结构化和非结构化的数据存储、集成和访问；

其中，所述异构数据库的构建包括：

将所述知识文件进行数据集成，构成异构数据库。

该实施例中的知识文件，可以是客户的检索内容、检索结果、访问内容等。

该实施例中的数据集成是基于高可靠性、高性能、面向列、可伸缩的分布式存储子系统实现的，且分布式存储子系统具有稀疏的、分布式的、持久化的、多维有序映射的特点；

其中，对于分布式存储子系统，可以基于行键、列键和时间戳建立索引，其索引是可以随机访问的存储和检索数据平台的。且该分布式存储子系统不限制存储的数据种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的关系，其在服务器集群上运行，还可以相应地横向扩展。

其中，基于行键、列键和时间戳建立索引的具体实施例如下：

数据表结构是以表的形式存储数据，其表有行和列组成，将列划分为若干个列族(ColumnFamily)，例如，规定列族中的Key是表中每条记录的“主键”，在查询的数据时，也是根据Key来查询，Key的值在表中以字节数组的类型存储，当存储时，数据按照key的字典序号存储。

访问控制、磁盘和内存的使用统计都是在列族层面进行的；

其中，在应用层面，列族上的控制权限能帮助管理不同类型的应用，允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据(甚至可能因为隐私的原因不能浏览所有数据)。

通过时间戳来索引，时间戳的类型是64位整型，时间戳可以在数据写入时自动赋值，时间戳是精确到毫秒的当前系统时间，时间戳也可以显式赋值。生成具有唯一性的时间戳，使应用程序避免数据版本冲突。为了避免数据存在过多版本造成的的管理(包括存贮和索引)负担，提供了两种数据版本回收方式：一是保存数据的最后n个版本，二是保存最近一段时间内的版本(比如最近七天),用户可以针对每个列族进行设置；

进而，基于行键、列键和时间戳实现索引的建立。

上述技术方案的有益效果是：通过管理知识文件，并进行数据集成，便于构建异构数据库，由于支持非结构化数据存储，便于提供高可靠性的底层存储支持。

本发明提供一种知识图谱系统的构建方法，所述集群包括主节点，所述主节点包括：激活主节点和备用节点，其中，所述主节点用于对外提供读写服务，且所述读写服务包括：读取所述客户端的知识文件；

所述构建方法，还包括：

该实施例中，分布式文件子系统的数据块是基于分布式文件子系统上的文件被划分为多个分块，作为独立的存储单元，进而称为数据块，默认大小是64MB。

其中，分布式文件子系统包括三个进程，分别为：主节点进程、数据节点进程和辅助进程。

其中，主节点进程，是分布式文件子系统的守护进程，用来管理文件系统的命名空间，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理。

数据节点进程是文件子系统的工作节点，根据需要存储和检索数据块，并且定期向主节点发送他们所存储的块的列表。

辅助进程是辅助后台程序，与主节点进行通信，以便定期保存分布式文件子系统元数据的快照。

分布式文件子系统通过添加主节点实现扩展，其中每个主节点管理文件系统命名空间中的一部分。每个主节点维护一个命名空间卷，包括命名空间的源数据和该命名空间下的文件的所有数据块的数据块池。

其该分布式文件子系统的可靠性，是将可靠性与写入带宽和读取带宽进行权衡。默认布局是在运行客户端的节点上放第一个副本(如果客户端运行在集群之外，则在避免挑选存储太满或太忙的节点的情况下随机选择一个节点)，第二个副本放在与第一个不同且随机另外选择的机架中节点上，第三个副本与第二个副本放在同一个机架上，且随机选择另一个节点。其它副本放在集群中随机选择的节点中，尽量避免在同一个机架上放太多副本。

上述技术方案的有益效果是：通过确定节点的健康状况，实现主备节点的选举和切换，通过共享存储子系统，便于实现元数据同步，通过上报数据块的位置信息，是为了方便对内存及IO进行集中管理。

本发明提供一种知识图谱系统的构建方法，如图2所示，根据所述异构数据库，动态创建知识图谱的步骤包括：

步骤21：根据所述异构数据库，配置有向图；

步骤22：基于分布式图处理框架，对所述有向图进行分布式或者并行处理，并将所述有向图拆分为多个子图；

步骤23：采用迭代方式对所述子图进行分阶段计算，并动态创建知识图谱。

优选地，所述有向图的图像参数包括顶点类型和边缘类型；

该实施例中，有向图是一种点和边都带属性的有向多重图。

该实施例中，具有的唯一标识符可以是62位的二进制码进行区分的。

该实施例中，由于每个边缘都具备起点和终点，因此，该起点和终点可以对应源地址顶点或目的地址顶点。

该实施例中，在对子图进行分阶段计算过程中，需要确定每个子图对应的每个顶点的入度、出度总度以及每个顶点相邻边的数目，还需要收集与上述顶点相邻顶点以及相邻顶点的属性。

该实施例中，创建的知识图谱例如是当用户消费时，如图4所示，其知识文件可以是包括：企业资源计划ERP，如：订单、规格、尺寸、价格在内的；仓库仓储管理WMS，如：库房在内的；成产过程管理MES，如：车间、工厂在内的；客户关系管理CRM，如：在内的等相关知识文件内容，进而构成知识图谱。

上述技术方案的有益效果是：通过进行分布式或者并行处理，便于提高拆分效率，基于分布式图处理框架，能够将知识文件中的表格和图进行互相转换，且分布式图处理框架，提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了对分布式图处理的需求。

本发明提供一种知识图谱系统的构建方法，

采用迭代方式对所述子图进行分阶段计算的过程中，如图3所示，还包括：

步骤31：缓存采用迭代方式对子图进行分阶段计算的中间计算结果到存储内存；

步骤32：确定存储内存的存储容量是否到达预设容量，若是，按照预先设定的删除顺序，将存储内存中的待删除存储内容进行删除；

其中，所述待删除存储内容与所述中间计算结果相关联。

该实施例中，预设容量是存储内容的额定容量，预先设定的删除顺序，可以是按照获取中间计算结果的时间，将其按照时间顺序进行一一删除。

上述技术方案的有益效果是：便于通过将待删除内容进行删除，便于清空中间结果的缓存，提高工作效率，为构建图谱提供便利。

本发明提供一种知识图谱系统的构建方法，基于所述异构数据库，动态创建知识图谱的过程中，包括：

按照预设时间间隔，对所述最终图谱进行更新；

F″＝F′ξ(w+μv)；

上述技术方案的有益效果是：通过对异构数据库的数据块分别对实体数据和关系数据建立相关的向量，且将向量输入图谱构建模型，并根据当前实体特征和当前关系特征输出当前图谱，其次，通过确定当前数据块与其他数据块之间的文本相似度，对当前图谱进行优化，便于输出最终图谱，最后，照预设时间间隔，对最终图谱进行更新，便于保证图谱处于最新版本状态，保证其数据的有效性，更近一步方便对知识图谱系统的有效构建。

本发明提供一种知识图谱系统的构建方法，如图5所示，

基于创建的知识图谱，抽取和共享知识信息的步骤包括：

步骤51：采集基于客户端输入的标识信息；

步骤52：根据所述标识信息，获取有向图的边缘点和顶点位置，并加载所述知识图谱中的有向图中与边缘点相关的边缘信息以及与所述顶点相关的顶点信息；

步骤53：对所述标识信息进行标识验证，判断是否存在触发共享指令；

若存在，将加载的边缘信息和顶点信息共享到所述客户端；

若不存在，将加载的边缘信息和顶点信息进行保留。

该实施例中，例如，标识信息为确认下单的加工工厂的信息的指令，且其中，标识信息还包括用户信息；此时，通过有向图，确定该加工工厂所属上产过程管理，此时，可以为顶点，同时，确定该加工工厂信息，此时可以将其视为边缘信息。

该实施例中的客户端可以为手机、笔记本等。

该实施例中，触发共享指令例如是当用户信息与下单的用户所对应的用户信息不一致时，可视为不触发共享指令。

上述技术方案的有益效果是：通过标识信息，便于加载边缘信息和顶点信息，通过对标识信息进行验证，便于有效的确定是否将加载的信息传输到客户端，便于对加载的信息进行有效保护。

本发明提供一种知识图谱系统的构建装置，如图6所示，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种知识图谱系统的构建方法，其特征在于，包括：

构建异构数据库，并将所述异构数据库进行存储；

基于所述异构数据库，动态创建知识图谱；

基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建；

其中，基于所述异构数据库，动态创建知识图谱的过程中，包括：

按照预设时间间隔，对所述最终图谱进行更新；

F″＝F′ξ(w+μv)；

2.如权利要求1所述的构建方法，其特征在于，构建的异构数据库支持结构化和非结构化的数据存储、集成和访问；

其中，所述异构数据库的构建包括：

将所述知识文件进行数据集成，构成异构数据库。

3.如权利要求2所述的构建方法，其特征在于，所述集群包括主节点，所述主节点包括：激活主节点和备用节点，其中，所述主节点用于对外提供读写服务，且所述读写服务包括：读取所述客户端的知识文件；

所述构建方法，还包括：

其中，所述激活主节点和备用节点还共享分布式文件子系统的数据块和数据节点之间的映射关系，且所述数据节点同时向所述激活主节点和备用节点上报数据块的位置信息。

4.如权利要求1所述的构建方法，其特征在于，根据所述异构数据库，动态创建知识图谱的步骤包括：

根据所述异构数据库，配置有向图；

5.如权利要求4所述的构建方法，其特征在于，所述有向图的图像参数包括顶点类型和边缘类型；

6.如权利要求4所述的构建方法，其特征在于，采用迭代方式对所述子图进行分阶段计算的过程中，还包括：

其中，所述待删除存储内容与所述中间计算结果相关联。

7.如权利要求1所述的构建方法，其特征在于，基于创建的知识图谱，抽取和共享知识信息的步骤包括：

采集基于客户端输入的标识信息；

若存在，将加载的边缘信息和顶点信息共享到所述客户端；

若不存在，将加载的边缘信息和顶点信息进行保留。

8.一种知识图谱系统的构建装置，其特征在于，包括：

知识开放与共享模块，用于基于创建的知识图谱，抽取和共享知识信息，实现对知识图谱系统的构建；

其中，所述动态知识图谱创建模块基于所述异构数据库，动态创建知识图谱的过程中，包括：

按照预设时间间隔，对所述最终图谱进行更新；

F″＝F′ξ(w+μv)；