CN112699134A

CN112699134A - 基于图剖分的分布式图数据库的存储与查询方法

Info

Publication number: CN112699134A
Application number: CN202110316433.8A
Authority: CN
Inventors: 孙会峰; 邢婷; 冷小萱; 魏小敏
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-04-23

Abstract

本发明公开了一种基于图剖分的分布式图数据库的存储和查询方法，包括：获取原始图数据库的结构数据；基于最小割边原则，将所述原始图数据库的结构数据剖分为多个子图；计算每个子图的大小；基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。当接收到查询请求时，根据查询请求对应的结构数据，确定结构数据所属的子图；将查询请求重定向到存储该子图的存储节点。采用上述方案，提升了分布式存储的查询性能，并减少了频繁访问多个服务器带来的通信与性能开销。

Description

基于图剖分的分布式图数据库的存储与查询方法

技术领域

本发明涉及分布式存储技术领域，尤其涉及一种基于图剖分的分布式图数据库的存储与查询方法。

背景技术

图结构数据存储是基于实体和关系的数据结构的数据存储体系，在知识图谱、社交关系、金融风控等领域的数据存储技术中广泛应用。图结构数据存储主要有关系型数据库、单机图数据库、分布式图数据库等方案。其中，关系型存储图结构数据需要建立一个关系模型，基于这种的关系模型来记录实体A和B的上下游关系，并通过JOIN操作来完成各种查询场景，但使用JOIN操作查询效率低，且关系型数据库的结构设计对反向查询并不友好，不利于查询实体的上游节点。而对于单机图数据库，通过对顶点和边的建模很好地解决了图结构数据的存储和查询问题，在查询语句的开发效率和查询性能上都有较大提升，但亿级数据量超出了单机承受极限，并且单机图数据库缺乏数据扩展能力。分布式图数据库通过集群的部署方式将顶点和边的数据部署在不同的服务器上，以此将大规模数据转换为更小规模的数据进行分散存储，并设计分布式的查询算法实现不同的服务器中的数据查询，解决了大规模数据存储的问题。然而，现有的分布式图数据库一般是将数据（包括顶点和边）通过 Hash 的方式存储在不同 Partition（分区）中，导致大规模查询时需要访问多个服务器，降低了查询性能。

发明内容

本发明提出的基于图剖分的分布式图数据库的存储与查询方法，通过图剖分的方式，先将图划分为不同的数据集后再进行分布式存储。

本发明的第一方面提供了一种基于图剖分的分布式图数据库的存储方法，包括：

获取原始图数据库的结构数据；基于最小割边原则，将所述原始图数据库的结构数据剖分为多个子图；计算每个子图的大小；基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。

优选地，所述获取原始图数据库的结构数据，包括：

获取所述结构数据所包含的节点、边以及边的权值。

优选地，所述计算每个子图的大小，包括：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小。

优选地，所述节点为实体，所述边为实体间的关系。

优选地，当需要写入新的节点时，根据所述新的节点的属性或类型确定其所属子图，将所述新的节点写入所属子图所对应的存储节点；

当需要写入新的关系时，根据与所述新的关系相关联的节点的属性，判断其所属子图，将所述新的关系写入所属子图所对应的存储节点。

本发明的第二方面提供了一种基于图剖分的分布式图数据库的查询方法，包括：

接收对原始图数据库的查询请求，所述原始图数据库是根据第一方面所述基于图剖分的分布式图数据库的存储方法所存储的；

基于所述查询请求的结构数据，确定所述结构数据的所属子图；

将所述查询请求重定向到存储所属子图的分布式存储节点。

本发明的第三方面提供了一种基于图剖分的分布式存储服务器，包括：

获取单元，用于获取原始图数据库的结构数据；

剖分单元，用于基于最小割边原则，将所述原始图数据库的结构数据进行剖分，得到多个子图；

计算单元，用于计算每个子图的大小；

分配单元，用于基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。

优选地，所述获取单元进一步配置为：

获取所述结构数据所包含的节点、边以及边的权值。

优选地，所述计算单元进一步配置为：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小。

优选地，所述节点为实体，所述边为实体间的关系。

优选地，所述基于图剖分的分布式存储服务器进一步包括更新单元，用于：

当需要写入新的节点时，根据所述新的节点的属性或类型确定其所属子图，将所述新的节点写入所属子图所对应的存储节点；

本发明的另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储于其中的指令，其中所述指令运行时实现上述基于图剖分的分布式图数据库的存储方法和查询方法。

本发明的又一方面提供了一种分布式存储系统，包括处理器、存储器以及存储于所述存储器的计算机程序，所述计算机程序由所述处理器执行，以实现上述基于图剖分的分布式图数据库的存储方法和查询方法。

本发明的有益效果是：本发明提供的基于图剖分的分布式图数据库的存储与查询方法，将原始图数据库首先划分为不同的数据集，然后根据数据集的划分结果进行分布式存储，提升了分布式存储的查询性能，并减少了频繁访问多个服务器带来的通信与性能开销。

附图说明

图1为根据现有技术的分布式图数据库NabulaGraph的架构图。

图2为根据本发明的基于图剖分的分布式图数据库的架构图。

图3为根据本发明的图剖分原理示意图。

图4为根据本发明的基于图剖分的分布式图数据库的存储方法流程图。

图5为根据本发明的基于图剖分的分布式图数据库的查询方法流程图。

图6为根据本发明的基于图剖分的分布式存储服务器的结构图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

在 Nebula Graph等现有图数据库中，如图1所示，图数据（顶点和边）通过 Hash的方式存储在不同 Partition中，一个查询请求需要频繁访问不同的Partition，由于不同Partition存储的物理地址不同，需要频繁访问多个服务器才能完成一个查询请求。然而，图数据内部通常具有群聚特性，例如微博上的人物关系图，明星与成千上万粉丝之间存在关注关系，大量的边会存在于拥有大量关注数量的账号的节点上，再例如企业上下游关系图，车辆销售商、零部件供应商、修理厂、洗车店之间往往建立长期合作关系，节点的分布具有很强的产业特征，相同产业类型的企业拥有更多的联系。这种特性会导致在图数据库的查询阶段，通常需要以一个节点为查询入口，查询相关联的节点及其关系。

有鉴于上述群聚特性，本发明提出的图结构数据存储与查询方法采用图剖分的方式挖掘数据集中的关联关系，根据最小割边原则将数据集划分为不同的数据集，再利用分布式的存储方式进行存储。由于划分后的数据集具有高内聚低耦合的特点，前序后序节点、N跳内到达的节点等临近关系的查询会聚焦到一个或少数几个服务器上，从而降低查询成本并提升查询性能。

本发明的第一方面提供了一种基于图剖分的分布式图数据库的存储方法。参见图4，该方法包括：

S101、获取原始图数据库的结构数据；

S102、基于最小割边原则，将所述原始图数据库的结构数据剖分为多个子图；

S103、计算每个子图的大小；

S104、基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。

优选地，所述分布式图数据库的原始结构数据包含节点V、关系E、及关系的权值W等信息。因而所述步骤S101具体包括：

获取所述结构数据所包含的节点、边以及边的权值。在具体的实施例中，所述节点为实体，所述边即为实体间的关系。

优选地，在步骤S102中，对于给定的Partition数量p，图剖分需要将原始图结构数据G分割成p个互斥的子图G₁、G₂、G₃…G_p，在分割根据最小割边原则进行分割，并使各子图尽可能负载均衡。

所述图剖分是将图中的节点和关系分为若干部分。如图3所示，仅通过切割2条边（E，D），（C，D）即可将节点A、B、C、D、E和F剖分为Partition1、Partition2和Partition3三个子图。因此边（E，D），（C，D）由于其顶点被划分在不同子图中而成为割边。在分布式算法中，割边权重之和即为通讯代价，图3中两条割边权重之和为1+2=3，即为图剖分中的最小割。

优选地，所述步骤S103具体包括：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小。

仍参见图3，在得到图剖分结果即子图G₁、G₂、G₃…G_p之后，计算每个子图的大小，大小计算以节点数量和关系数量之和表示。例如，Partition1子图包含3个节点和2条边，该子图大小可计算为3+2=5。

在将不同子图所对应的结构数据写入不同的分布式存储节点过程中，由于每个子图的大小存在一定差异，在数据存储时，根据尽可能平均分配的原则，将不同子图分配存储至不同的存储服务器，以保证负载均衡。在更优选的实施例中，每个存储服务器所分配得到的多个子图的总的大小是相同的。

需要说明的是，图3所示的图剖分结构和参数并不构成对本发明方法的限定，本领域技术人员均应理解，根据原始结构数据中节点、关系的具体数量和连接状态，可以将原始图数据库划分为任意数量的子图，并且可以根据实际情况而为每条边赋予所需要的权值。

在步骤S104之后，针对新增的节点，根据节点属性或类别判断属于哪个已有的子图，从而加入其所对应的存储节点。针对新增的关系，根据其上下游节点和属性，判断其所属子图，加入对应的存储节点。

换言之，在可选的实施例中，当需要写入新的节点时，根据所述新的节点的属性或类型确定其所属的子图，将所述新的节点写入该所属子图所对应的存储节点；当需要写入新的关系时，根据与所述新的关系相关联的节点的属性，判断其所属子图，将所述新的关系写入所属子图所对应的存储节点。

在将所有的节点和关系均写入基于图剖分的图数据库之后，即完成分布式数据库的构建和存储过程。图2是在执行本发明的基于图剖分的分布式图数据库存储方法之后，分布式图数据库的架构示意图。将图1与图2相对比可以发现，在存储节点的分配上，本发明的存储方法以子图为整体进行服务器分配，使得同一子图被存储到同一存储服务器中。通过以上数据存储方式，如果结构数据中的某一特定节点具有较多的关联节点，为保证最小割边原则，该特定节点与关联节点的关系都不会被切割，因而该特定节点以及相关联的节点连同其关系均被划分到同一子图，并存储到同一存储服务器中，由此保证了一个服务器节点中的数据具有相对较强的内部关联性。

以图3的节点A为例，相关的节点B（包括与B更相关的节点C）以及相互关系均属于子图Partition1，并存储与同一服务器节点Server1。对节点A的相关数据查询会集中在有限数量的服务器节点上。

本发明的第二方面提供了一种基于图剖分的分布式图数据库的查询方法，参见图5，该方法包括：

S201、接收对图数据库的查询请求，所述图数据库是根据本发明的第一方面的方法所存储的；

S202、基于所述查询请求的结构数据，确定所述结构数据的所属子图；

S203、将所述查询请求重定向到存储所属子图的分布式存储节点。

其中，在步骤S201，剖分完成后的图数据库仍兼容分布式数据库的所有查询场景，包括但不限于：

(1)根据节点A，查询A的所有前序与后序节点。

(2)根据节点A，查询A经过N跳可以到达的节点（N为预设跳数）。

(3)根据节点A的属性，查找满足条件的节点。

(4)根据关系R的属性，查找满足条件的关系。

针对于以上各种查询请求，在分布式数据库的多个存储节点上进行分布式的查询服务。如前所述，由于在本发明提出的数据存储方式下，单个服务器节点中的数据具有较强的内部关联性，因此查询请求所返回的结果会集中在一个或几个服务器节点上，避免了频繁的跨服务器通信和大量数据传输的网络开销。

仍参见图3，由于图剖分后与节点A相关的节点和关系均属于子图Partition1，并存储同一服务器Server1，则在进行例如上述场景（1）的查询时，仅需要访问Server1，即可查询与节点A相关的前序与后序节点。

本发明的第三方面提供了一种基于图剖分的分布式存储服务器，参见图6，该分布式存储服务器包括：

获取单元301，用于获取原始图数据库的结构数据；

剖分单元302，用于基于最小割边原则，将所述原始图数据库的结构数据进行剖分，得到多个子图；

计算单元303，用于计算每个子图的大小；

分配单元304，用于基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。

本发明提供的基于图剖分的分布式图数据库的存储方法和查询方法均可由分布式存储服务器为主体来实施，该分布式存储服务器至少包括一个或多个处理器、存储器。其中，处理器包括一个或多个处理核心。处理器利用各种接口和线路连接整个分布式存储服务器的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行分布式存储服务器的各种功能和处理数据。存储器中存储有至少一条指令、程序、代码等，其由处理器加载并执行以实现上述实施例的方法。

除此之外，本领域技术人员可以理解，上述分布式存储服务器的结构并不构成对终端的限定，分布式存储服务器可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

优选地，分布式图数据库的原始结构数据包含节点V、关系E、及关系的权值W等信息。因而所述获取单元301具体配置为：

获取所述结构数据所包含的节点、边以及边的权值。所述节点可为实体，所述可边为实体间的关系。

优选地，所述计算单元303进一步配置为：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小。

优选地，在剖分单元302中，对于给定的Partition数量p，图剖分需要将原始图结构数据G分割成p个互斥的子图G₁、G₂、G₃…G_p，在分割根据最小割边原则进行分割，并使各子图尽可能负载均衡。

优选地，针对新增的节点，根据节点属性或类别判断属于哪个已有的子图，从而加入其所对应的存储节点。针对新增的关系，根据其上下游节点和属性，判断其所属子图，加入对应的存储节点。

因而在进一步的实施例中，所述分布式存储服务器进一步包括更新单元305，用于：

在所述更新单元305将所有的节点和关系均写入基于图剖分的图数据库之后，即完成分布式数据库的构建和存储过程。通过以上数据存储方式，如果结构数据中的某一特定节点具有较多的关联节点，为保证最小割边原则，该特定节点与关联节点的关系都不会被切割，因而该特定节点以及相关联的节点连同其关系均被划分到同一子图，并存储到同一存储服务器中，由此保证了一个服务器节点中的数据具有相对较强的内部关联性。

本发明的另一方面还提供了一种计算机可读存储介质，该计算机可读存储介质包括存储于其中的指令，其中所述指令运行时，实现根据本发明上述各方面的基于图剖分的分布式图数据库的存储方法和查询方法。

本发明的又一方面还提供了一种分布式存储系统，包括处理器、存储器以及存储于所述存储器且所述处理器执行的计算机程序，该计算机程序由所述处理器执行，以实现根据上述方面的基于图剖分的分布式图数据库的存储方法和查询方法。

可以看出，采用上述基于图剖分的分布式图数据库的存储与查询方法显著提升了图数据库的存储和查询性能。由于对图数据使用了分布式的存储方式，大规模图数据库在存储时不再受单机存储的空间的限制，且具有较强的扩展能力。本发明使用图剖分方式代替Hash的方式分割数据，解决了现有图数据库为每个Partition均构建一个虚拟数据集而造成的数据分散的问题，从而降低了分布式查询的通讯代价。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于图剖分的分布式图数据库的存储方法，其特征在于，包括：

获取原始图数据库的结构数据；

基于最小割边原则，将所述原始图数据库的结构数据剖分为多个子图；

计算每个子图的大小；

基于所述子图的大小，将不同子图所对应的结构数据写入不同的分布式存储节点。

2.根据权利要求1所述的基于图剖分的分布式图数据库的存储方法，其特征在于，所述获取原始图数据库的结构数据，包括：

获取所述结构数据所包含的节点、边以及边的权值。

3.根据权利要求2所述的基于图剖分的分布式图数据库的存储方法，其特征在于，所述计算每个子图的大小，包括：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小。

4.根据权利要求2所述的基于图剖分的分布式图数据库的存储方法，其特征在于，所述节点为实体，所述边为实体间的关系。

5.根据权利要求4所述的基于图剖分的分布式图数据库的存储方法，其特征在于，还包括：

6.一种基于图剖分的分布式图数据库的查询方法，其特征在于，包括：

接收对原始图数据库的查询请求，所述原始图数据库是根据权利要求1-5任一所述的方法存储的；

将所述查询请求重定向到存储所属子图的分布式存储节点。

7.一种基于图剖分的分布式存储服务器，其特征在于，包括：

获取单元，用于获取原始图数据库的结构数据；

计算单元，用于计算每个子图的大小；

8.根据权利要求7所述的分布式存储服务器，其特征在于，所述获取单元进一步配置为：

获取所述结构数据所包含的节点、边以及边的权值；

所述计算单元进一步配置为：

统计当前子图中的节点数量和边数量；

将所述节点数量和边数量进行求和，作为当前子图的大小；

所述节点为实体，所述边为实体间的关系；

所述分布式存储服务器进一步包括更新单元，用于：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储于其中的指令，其中所述指令运行时实现根据权利要求1-5任一项所述的基于图剖分的分布式图数据库的存储方法和/或根据权利要求6所述的基于图剖分的分布式图数据库的查询方法。

10.一种分布式存储系统，其特征在于，包括处理器、存储器以及存储于所述存储器的计算机程序，所述计算机程序由所述处理器执行，以实现根据权利要求1-5任一项所述的基于图剖分的分布式图数据库的存储方法和/或根据权利要求6所述的基于图剖分的分布式图数据库的查询方法。