CN111382320A

CN111382320A - 一种面向知识图谱的大规模数据增量处理方法

Info

Publication number: CN111382320A
Application number: CN202010189883.0A
Authority: CN
Inventors: 刘颖; 朱连宏; 关礼安; 白新有; 张巍; 张洋铭; 陈剑; 罗承昆
Original assignee: System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Current assignee: System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-07

Abstract

本发明公开了一种面向知识图谱的大规模数据增量处理方法，包括步骤：(10)利用现有的图分割算法将初始的图分割成多个子图；(20)获取时间片周期中的图的增量序列；(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作，以及边的权值更新操作；(40)计算子图相互之间的紧密度矩阵；(50)如果子图之间的紧密度大于子图内部的紧密度，则动态调整节点与子图的隶属关系，直至子图相互之间满足内部高内聚，外部低耦合的要求。本发明只将增量的节点或边动态的分配到对应的子图中，从而降低了计算开销和时间代价；通过调整部分节点实现对子图的动态调整，避免了对整个子图进行重新分割，降低了动态维护开销。

Description

一种面向知识图谱的大规模数据增量处理方法

技术领域

本发明属于图数据库技术领域，特别是针对大规模动态图数据，提出了一种面向知识图谱的大规模数据增量处理方法。

背景技术

图是计算机科学中常用的一类抽象数据结构，图的普适性使得现实世界的实际网络往往能够抽象成图数据模型表示，其在基于计算机数据库的数据处理技术领域具有广泛的应用前景。目前己经被广泛地应用于诸如计算机科学、语言学、逻辑学、物理、化学、电信工程等领域。然而，随着网络和计算机技术的飞速发展，实际网络规模的快速增长，导致图的规模日益增大；同时也加剧了现实网络的动态演化程度，导致图随时间不断变化。因此如何对大规模动态图进行高效地处理成为了近年来的研究热点和难点。

在现今的信息时代，信息量以爆炸式的模式增长也导致了图数据的规模越来越大，很难通过单机完成对大规模图的分析和计算等处理需求。因此，利用高效的图分割方法将大规模图数据进行分割，是提高大规模图数据分析和计算的有效手段。图分割的基本思想是将一个大规模的图分割成为多个子图，子图中的对象间具有强关联性，而不同子图之间的对象则需要是弱相关的，也就是说子图内部节点之间的联系具有紧密特性，而子图之间的节点的关联程度应该具有稀疏性。

日益廉价的计算机硬件和广泛应用的分布式计算集群系统的出现使得借助于分布式技术将图进行有效的分割，将图数据进行合理的分布，有效地减少分布式计算中的通信开销，从而实现对大规模图分而治之的处理。

通过对图分割技术的深入研究发现，目前己有的一些方法虽然可以有效地应用于大规模图的分割，然而现阶段对于图分割技术的研究主要都是针对静态图分割的研究，即它们认为图是静态的，不随时间而变化的。然而，在现实生活中，用图数据表示的诸多领域中，如社交网络，生物信息网等，大多都是随时间动态演化的且规模也随之增大。大规模图的动态性表现为节点或边的插入、节点间边权值的变化、节点或边的删除。当前大规模图或网络大多随时间而动态变化，现有的图分割方法主要面向静态图数据，无法满足现实的需求，因此解决这种大规模动态图的分割问题成为了本发明的研究重点。

发明内容

本发明的目的在于提供一种面向知识图谱的大规模数据增量处理方法，属于图数据库技术领域，能够降低对动态图数据进行分割的计算开销和时间代价；同时当图发生变化的时候，还能避免对整个子图进行重新分割，降低了动态维护开销。

实现本发明目的的技术解决方案如下：

本发明提出一种面向知识图谱的大规模数据增量处理方法，包括如下步骤：(10)利用现有的图分割算法将初始的图分割成多个子图；(20)获取时间片周期中的图的增量序列；(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作，以及边的权值更新操作；(40)计算子图相互之间的紧密度矩阵；(50)如果子图之间的紧密度大于子图内部的紧密度，则动态调整节点与子图的隶属关系，直至子图相互之间满足内部高内聚，外部低耦合的要求。

本发明与现有技术相比，其显著优点：(1)按照时间片周期性的对图的变化进行合并，降低了图操作的频度，减少了数据的处理量。(2)定义了子图紧密度的计算公式，

可以定量的计算出节点插入子图所带来的紧密度增益，从而可以把新节点插入到内聚度最大子图中。(3)定义了子图之间的紧密度函数

能够定量计算子图的内聚程度和子图之间的耦合度。(4)定义了节点相对子图的隶属度函数，能够定量计算节点与子图的紧密程度，为实现图分割的动态维护提供依据。(5)针对增量图，提出了节点插入、节点删除、边插入、边删除、以及边权值变更的实现算法，能够计算开销和时间代价。(6)在图的变化过程中，当某一子图的外部紧密度大于其自身的紧密度时，本发明提出了一种局部调整方法，只需要调整部分节点，就可以实现子图的高内聚和低耦合，从而避免了对图进行全局的重新分割。

本发明属于图数据库技术领域，提出一种大规模数据增量处理的优化方法，特别是针对大规模动态图数据，该方法可以运用于图数据库实现中，以提升图数据库的增量图数据处理性能。本发明提出了一种基于增量的动态图分割方法，只需把增量的节点或边分配到对应的子图中，以降低计算开销和时间代价。同时，基于子图的紧密度矩阵，提出了大规模动态图的动态维护策略，仅调整部分节点就可实现子图的高内聚和低耦合，从而避免了对子图进行全局的重新分割。

附图说明

图1是本发明面向大规模知识图谱的动态图数据增量处理方法流程图。

图2是本发明确保负载均衡的节点插入算法。

图3是本发明删除节点或边的算法。

图4是本发明变更边的权值的算法。

具体实施方式

如图1所示，本发明面向大规模动态图数据提出了一种面向知识图谱的大规模数据增量处理方法，首先利用现有的图分割算法将初始的图分割成多个子图；然后在给定的时间片周期中记录图的变化操作，将同一个时间片周期内的变化操作进行合并，构成图的增量序列；按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作，以及边的权值更新操作；计算子图相互之间的紧密度矩阵，如果子图之间的紧密度大于子图内部的紧密度，则动态调整节点与子图的隶属关系，直至子图相互之间满足内部高内聚，外部低耦合的要求。具体流程如下：

(10)利用现有的图分割算法将初始的图分割成多个子图。

将初始加权图G分割成n个子图，G＝{G₁,G₂,...,G_i,...,,G_j,…,G_n}，其中G_i代表第i个子图，其中G_i包括分量G_i(V_i,E_i,W_i)，其中V_i表示子图i的节点集合，E_i表示子图i的边的集合，W_i表示子图i的边权值信息的集合；其中G_j包括分量G_j(V_j,E_j,W_j)，同理G_j代表第j个子图，其中V_j表示子图j的节点集合；E_j表示子图j的边的集合；W_j表示子图j的边权值信息的集合。

(20)获取时间片周期中的图的增量序列。

(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作，以及边的权值更新操作。

给定一个图G＝{G₁,G₂,...,G_i,...,G_j,…,G_n},对其进行的变化操作GCO通过一个二元组<op,value>的形式表示，其中op＝ins/del/upd，分别表示插入/删除/权值更改；value表示对应插入/删除/权值更改的节点或边的信息。相关操作如下：

边的插入：value表示为(u,v,w)，u,v为图G的节点，w为边(u,v)的权；

节点的插入：新节点u的插入可以通过一组边的形式表示，即value可以表示为一组边的集合{(u,v₁,w₁),(u,v₂,w₂),(u,v₃,w₃)…}；

边的删除：value可以直接以(u,v)的形式表示；

节点u的删除：value直接表示为u_id，即要删除节点u的编号；

边权值的更改：value则表示为(u,v,w_new)，w_new则表示为边(u,v)更新后的权值。

(31)一个时间片T内图变化操作集合GCOS由一系列的图变化操作GCO_t组成，t表示时间戳，GCOS可以表示为：GCOS_T＝{GCO₁,GCO₂,...,GCOt,...}。

(32)按照时间戳依次分析时间戳在前的图变化操作与其后的图变化操作是否相关，将相关的操作元组进行合并，减少图变化操作集合中操作元组的个数。

如果GCO_t’为插入节点，则其后到达的与其相关的图变化操作为：

插入节点，即新插入的节点与GCO_t’插入的节点存在边相连，此时无需改变操作。

插入边，插入一条与GCO_t’插入节点相关联的边，因此将该操作元组中value的边信息加入到GCO_t’的value中，同时将该插入边的图变化操作元组删除。

删除节点，如果要删除的节点与GCO_t’要插入的节点是同一节点，则将GCO_t’以及删除节点的图变化操作元组一并删除；若GCO_t’要插入的节点存在一条边与要删除的节点相关联，则将该边从的GCO_t’的value中删除。

删除边，若要删除的边为GCO_t’中插入节点中的某一条边，则将该边从GCO_t’的value中删除，同时将该删除边的操作元组删除。

更改边权值，若要更改的边权值为GCO_t’中某一条边的权值，则直接将新的权值更新到GCO_t’中该边对应的权值上，将该更新操作元组删除。

如果GCO_t’为插入边，则其后到达的与其相关的图变化操作为：

插入节点，若插入节点操作元组的value中包含GCO_t’要插入的边，则将GCO_t’删除；

插入边，如果要插入的边与GCO_t’中插入的边为同一条边时，则保留后者，将GCO_t’删除；

删除节点，如果要删除的节点为GCO_t’中要插入的边的一个节点，则将GCO_t’直接删除；

删除边，如果要删除的边与GCO_t’要插入的边为同一条边，则直接将GCO_t’与该删除边的操作元组统一删除；

更改边权值，如果要更改权值的边为GCO_t’要插入的边，则直接将新的权值更新到GCO_t’中，将更改边权值的操作元组删除。

如果GCO_t’为删除节点，则其后到达的与其相关联的图变化操作为：

插入节点，即使要插入的节点与GCO_t’要删除的节点为同一节点，但并不能保证GCO_t’要删除的节点连接的边与要插入该节点时的边都相同，所以无法调整这两个元组；若要插入的节点与GCO_t’要删除的节点有边相连，只能说明重新建立一条与GCO_t’要删除节点相关联的边，但无法确定与该节点相关联的其它边是否存在，因此同样无法调整；

插入边，如果要插入的边的一个节点为GCO_t’要删除的节点，同上所述，无法进行调整；

删除节点，若要删除的节点与GCO_t’要删除的节点为同一节点，则将图变化操作GCO_t’删除；

删除边，如果要删除的边的一个节点为GCO_t’中要删除的节点，但由于无法确定这两个操作之间是否存在插入节点或边的操作，所以不能对这两个元组进行任何合并或删除等调整操作；

更改边权值，即使要更改权值的边的节点为要删除的节点，但无法确定在这两个操作之间是否己经插入了新的与该节点相关的边，因此不能将这两个元组进行调整操作。

如果GCO_t’为删除边，则其后到达的与其相关联的图变化操作为：

插入节点，若要插入节点的图变化操作的value中包含GCO_t’要删除的边，则将GCO_t’删除；

插入边，如果要插入的边与GCO_t’中要删除的边为同一条边，则直接将GCO_t’删除，同时将插入边的操作改为更改权值的操作；

删除节点，若要删除的节点与GCO_t’要删除的边的节点为同一节点，则将图变化操作GCO_t’删除；

删除边，如果要删除的边与GCO_t’中要删除的边为相同的边，则将二者中的一个操作元组删除即可；

更改边权值，如果要更改权值的边与GCO_t’要删除的边为同一条边，则说明要更改的边在之前的时刻己经不存在，因此无需更改，所以直接删除更改边权值的图变化操作。

如果GCO_t’为边权值更改，则其后到达的与其相关联的图变化操作为：

插入节点，由于在插入新节点之前不可能存在一条以该节点为顶点的边，因此不存在更改权值的边与要插入节点相连的边为同一条边的情况，因此无需进行任何调整；

插入边，同上所述，插入新边之前也不存在对该边更改权值的情况，因此同样无需调整；

删除节点，若要删除的节点是GCO_t’中更改权值的边的一个顶点，则直接将图变化操作GCO_t’删除；

删除边，若要删除的边与GCO_t’中要更改权值的边为同一条边，则将GCO_t’删除即可；

更改边权值，如果后面时刻更改权值的边与GCO_t’要更改权值的边为同一条边，则删除GCO_t’。

(33)在合并后的GCOS_T中每次取出时间戳最小的操作元组，按照元组的说明对图进行变化操作，所述变化操作包括例如插入边、插入新节点、删除边、删除节点、更改边的权值等，直到GCOS_T为空。

如果是插入边、插入新节点，则按照图2的算法进行操作；

如果是删除边、删除节点，则就按照图3的算法进行操作；

如果是更改边的权值，则按照图4的算法进行操作；

直到GCOS_T为空。

(40)计算子图相互之间的紧密度矩阵；

计算子图G_i和G_j之间的紧密度

其中，

表示子图G_i内部联系程度，即子图G_i内部节点的边权值之和。

为子图G_i外部的连接程度，即为子图G_i内部节点与外部节点连接的边权值之和。W_cut(G_i，G_j)表示两个子图G_i和G_j之间的割权值，其计算表达式如下

其中，V_i和V_j分别表示第i、j个子图G_i和G_j的节点集合，W_ab表示顶点a和b之间的权重。

表示的是子图G_i自身的紧密度，如果

和

满足

那么就说明子图与外部联系的紧密度大于其内部的紧密度，需要对子图G_i和G_j进行动态调整，通过调整部分节点与子图的隶属关系，确保子图之间具有高内部连通性、低外部连通性。

(50)如果子图之间的紧密度大于子图内部的紧密度，则动态调整节点与子图的隶属关系，直至子图相互之间满足内部高内聚，外部低耦合的要求。

节点与子图隶属关系的调整算法如下：

(51)统计紧密度矩阵中满足C(G_i)_Gj>C(G_i)_Gi的元素个数，并记录其分别对应的子图。

(52)若满足C(G_i)_Gj>C(G_i)_Gi的元素个数为1，则说明只存在一个子图G_j，使得子图G_i与子图G_j的紧密度大于子图G_i内部的紧密度；否则说明存在多个子图与子图G_i的紧密度大于其内部的紧密度，则跳转到步骤(57)。

(53)判断子图G_i当前的工作负载L_Gi是否小于最小存储量S_min。如果L_Gi小于S_min，首先将子图G_i中孤立的节点和边调整到此时负载最小的子图中，再将子图G_i中局部连接的小子图合并到子图G_j中，然后跳转到步骤(56)；否则，跳转到步骤(54)。

(54)查找子图G_i中与子图G_j有联系的节点，计算这些节点相对于子图G_j和G_i的隶属度的差值。

(55)将隶属度差值最大的节点调整到子图G_j中。

(56)更新紧密度矩阵；如果仍然存在C(G_i)_Gj>C(G_i)_Gi的情况，则跳转到步骤(53)；否则跳转到步骤(54)。

(57)判断子图G_i当前的工作负载L_Gi是否小于最小存储量S_min，如果L_Gi小于S_min，首先将子图G_i中孤立节点和边调整到此时负载最小的子图中，将子图G_i中存在的局部连接的子图聚合成一个超点，各个超点的权值为组成该超点的节点的点权之和；否则跳转到步骤(511)。

(58)计算子图G_i中超点插入到与其相关联的各个子图后，各个子图的紧密度增益。

(59)将该超点划分到紧密度增益最大的子图中，跳转到步骤(515)。

(510)统计子图G_i的中满足与子图G_i紧密度大于子图G_i内部紧密度的各个子图G_j相关联的节点。

(511)分别计算节点相对于相关联子图G_j的隶属度与其相对于子图G_i隶属度的差值。

(512)将隶属度差值最大的节点作为首要调整的节点，计算该节点插入到与其相关的各个子图后，各个子图的紧密度增益。

(513)将该节点插入到紧密度增益最大的节点中。

(514)更新紧密度矩阵；如果仍然存在C(G_i)_Gj>C(G_i)_Gi的情况，则跳转到步骤(57)。

(515)结束。

利用本发明提出的面向知识图谱的大规模数据增量处理方法，只需把增量的节点或边分配到对应的子图中，以降低计算开销和时间代价；同时，基于子图的紧密度矩阵，提出了大规模动态图的动态维护策略，仅调整部分节点就可实现子图的高内聚和低耦合，从而避免了对子图进行全局的重新分割。

Claims

1.一种面向知识图谱的大规模数据增量处理方法，其特征在于，包括如下步骤：

(10)利用图分割算法将初始的加权图分割成多个子图；

(20)获取时间片周期中的图的增量序列；

(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作，以及边的权值更新操作；

(40)计算子图相互之间的紧密度矩阵；

2.根据权利要求1要求所述的面向知识图谱的大规模数据增量处理方法，其特征在于，所述(10)步骤为：

将初始加权图G分割成n个子图，G＝{G₁,G₂,...,G_i,...,G_j,…,G_n}，其中G_i代表第i个子图，其中G_i包括分量G_i(V_i,E_i,W_i)，其中V_i表示子图i的节点集合；E_i表示子图i的边的集合；W_i表示子图i的边权值信息的集合，其中G_j包括分量G_j(V_j,E_j,W_j)，同理G_j代表第j个子图，其中V_j表示子图j的节点集合；E_j表示子图j的边的集合；W_j表示子图j的边权值信息的集合。

3.根据权利要求2要求所述的面向知识图谱的大规模数据增量处理方法，其特征在于，所述(30)步骤为：

给定一个图G＝{G₁,G₂,...,G_i,...,G_j,…,G_n},对其进行的变化操作GCO通过一个二元组<op,value>的形式表示，其中op＝ins/del/upd，分别表示插入/删除/权值更改；value表示对应插入/删除/权值更改的节点或边的信息；相关操作如下：

节点的插入：新节点u的插入以通过一组边的形式表示，value表示为一组边的集合{(u,v₁,w₁),(u,v₂,w₂),(u,v₃,w₃)…}；

边的删除：value以(u,v)的形式表示；

节点u的删除：value表示为u_id，要删除节点u的编号；

边权值的更改：value表示为(u,v,w_new)，w_new则表示为边(u,v)更新后的权值；

(31)一个时间片T内图变化操作集合GCOS由一系列的图变化操作GCO_t组成，t表示时间戳，GCOS表示为：GCOS_T＝{GCO₁,GCO₂,...,GCOt,...}；

(32)按照时间戳依次分析时间戳在前的图变化操作与其后的图变化操作是否相关，将相关的操作元组进行合并，减少图变化操作集合中操作元组的个数；

(33)在合并后的GCOS_T中每次取出时间戳最小的操作元组，按照元组的说明对图进行变化操作，所述变化操作包括插入边、插入新节点、删除边、删除节点、更改边的权值，直到GCOS_T为空。

4.根据权利要求3要求所述的面向知识图谱的大规模数据增量处理方法，其特征在于，所述(40)步骤为：

计算子图G_i和G_j之间的紧密度矩阵：

其中，

表示子图G_i内部联系程度，其为子图G_i内部节点的边权值之和；

为子图G_i外部的连接程度，其为子图G_i内部节点与外部节点连接的边权值之和；W_cut(G_i，G_j)表示两个子图G_i和G_j之间的割权值，其计算表达式如下：

其中，V_i和V_j度分别表示子图G_i和G_j的顶点，W_ab表示顶点a和b之间的权重；

表示的是子图G_i自身的紧密度，如果

和

满足

则子图与外部联系的紧密度大于其内部的紧密度，需要对子图G_i和G_j进行动态调整，通过调整部分节点与子图的隶属关系，确保子图之间具有高内部连通性、低外部连通性。

5.根据权利要求4要求所述的面向知识图谱的大规模数据增量处理方法，其特征在于，所述(50)步骤具体为：

调整部分节点与子图隶属关系的算法如下：

(51)统计紧密度矩阵中满足C(G_i)_Gj>C(G_i)_Gi的元素个数，并记录其分别对应的子图；

(52)若满足C(G_i)_Gj>C(G_i)_Gi的元素个数为1，则说明只存在一个子图G_j，使得子图G_i与子图G_j的紧密度大于子图G_i内部的紧密度；否则说明存在多个子图与子图G_i的紧密度大于其内部的紧密度，则跳转到步骤(57)；

(53)判断子图G_i当前的工作负载L_Gi是否小于最小存储量S_min；如果L_Gi小于S_min，首先将子图G_i中孤立的节点和边调整到此时负载最小的子图中，再将子图G_i中局部连接的小子图合并到子图G_j中，然后跳转到步骤(56)；否则，跳转到步骤(54)；

(54)查找子图G_i中与子图G_j有联系的节点，计算这些节点相对于子图G_j和G_i的隶属度的差值；

(55)将隶属度差值最大的节点调整到子图G_j中；

(56)更新紧密度矩阵；如果仍然存在C(G_i)_Gj>C(G_i)_Gi的情况，则跳转到步骤(53)；否则跳转到步骤(57)；

(57)判断子图G_i当前的工作负载L_Gi是否小于最小存储量S_min，如果L_Gi小于S_min，首先将子图G_i中孤立节点和边调整到此时负载最小的子图中，将子图G_i中存在的局部连接的子图聚合成一个超点，各个超点的权值为组成该超点的节点的点权之和；否则跳转到步骤(510)；

(58)计算子图G_i中超点插入到与其相关联的各个子图后，各个子图的紧密度增益；

(59)将该超点划分到紧密度增益最大的子图中，跳转到步骤(515)；

(510)统计子图G_i的中满足与子图G_i紧密度大于子图G_i内部紧密度的各个子图G_j相关联的节点；

(511)分别计算节点相对于相关联子图G_j的隶属度与其相对于子图G_i隶属度的差值；

(512)将隶属度差值最大的节点作为首要调整的节点，计算该节点插入到与其相关的各个子图后，各个子图的紧密度增益；

(513)将该节点插入到紧密度增益最大的节点中；

(514)更新紧密度矩阵；如果仍然存在C(G_i)_Gj>C(G_i)_Gi的情况，则跳转到步骤(57)；

(515)结束。