CN111382320A - 一种面向知识图谱的大规模数据增量处理方法 - Google Patents

一种面向知识图谱的大规模数据增量处理方法 Download PDF

Info

Publication number
CN111382320A
CN111382320A CN202010189883.0A CN202010189883A CN111382320A CN 111382320 A CN111382320 A CN 111382320A CN 202010189883 A CN202010189883 A CN 202010189883A CN 111382320 A CN111382320 A CN 111382320A
Authority
CN
China
Prior art keywords
graph
subgraph
sub
node
subgraphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010189883.0A
Other languages
English (en)
Inventor
刘颖
朱连宏
关礼安
白新有
张巍
张洋铭
陈剑
罗承昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Original Assignee
System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences filed Critical System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Priority to CN202010189883.0A priority Critical patent/CN111382320A/zh
Publication of CN111382320A publication Critical patent/CN111382320A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向知识图谱的大规模数据增量处理方法,包括步骤:(10)利用现有的图分割算法将初始的图分割成多个子图;(20)获取时间片周期中的图的增量序列;(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作,以及边的权值更新操作;(40)计算子图相互之间的紧密度矩阵;(50)如果子图之间的紧密度大于子图内部的紧密度,则动态调整节点与子图的隶属关系,直至子图相互之间满足内部高内聚,外部低耦合的要求。本发明只将增量的节点或边动态的分配到对应的子图中,从而降低了计算开销和时间代价;通过调整部分节点实现对子图的动态调整,避免了对整个子图进行重新分割,降低了动态维护开销。

Description

一种面向知识图谱的大规模数据增量处理方法
技术领域
本发明属于图数据库技术领域,特别是针对大规模动态图数据,提出了一种面向知识图谱的大规模数据增量处理方法。
背景技术
图是计算机科学中常用的一类抽象数据结构,图的普适性使得现实世界的实际网络往往能够抽象成图数据模型表示,其在基于计算机数据库的数据处理技术领域具有广泛的应用前景。目前己经被广泛地应用于诸如计算机科学、语言学、逻辑学、物理、化学、电信工程等领域。然而,随着网络和计算机技术的飞速发展,实际网络规模的快速增长,导致图的规模日益增大;同时也加剧了现实网络的动态演化程度,导致图随时间不断变化。因此如何对大规模动态图进行高效地处理成为了近年来的研究热点和难点。
在现今的信息时代,信息量以爆炸式的模式增长也导致了图数据的规模越来越大,很难通过单机完成对大规模图的分析和计算等处理需求。因此,利用高效的图分割方法将大规模图数据进行分割,是提高大规模图数据分析和计算的有效手段。图分割的基本思想是将一个大规模的图分割成为多个子图,子图中的对象间具有强关联性,而不同子图之间的对象则需要是弱相关的,也就是说子图内部节点之间的联系具有紧密特性,而子图之间的节点的关联程度应该具有稀疏性。
日益廉价的计算机硬件和广泛应用的分布式计算集群系统的出现使得借助于分布式技术将图进行有效的分割,将图数据进行合理的分布,有效地减少分布式计算中的通信开销,从而实现对大规模图分而治之的处理。
通过对图分割技术的深入研究发现,目前己有的一些方法虽然可以有效地应用于大规模图的分割,然而现阶段对于图分割技术的研究主要都是针对静态图分割的研究,即它们认为图是静态的,不随时间而变化的。然而,在现实生活中,用图数据表示的诸多领域中,如社交网络,生物信息网等,大多都是随时间动态演化的且规模也随之增大。大规模图的动态性表现为节点或边的插入、节点间边权值的变化、节点或边的删除。当前大规模图或网络大多随时间而动态变化,现有的图分割方法主要面向静态图数据,无法满足现实的需求,因此解决这种大规模动态图的分割问题成为了本发明的研究重点。
发明内容
本发明的目的在于提供一种面向知识图谱的大规模数据增量处理方法,属于图数据库技术领域,能够降低对动态图数据进行分割的计算开销和时间代价;同时当图发生变化的时候,还能避免对整个子图进行重新分割,降低了动态维护开销。
实现本发明目的的技术解决方案如下:
本发明提出一种面向知识图谱的大规模数据增量处理方法,包括如下步骤:(10)利用现有的图分割算法将初始的图分割成多个子图;(20)获取时间片周期中的图的增量序列;(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作,以及边的权值更新操作;(40)计算子图相互之间的紧密度矩阵;(50)如果子图之间的紧密度大于子图内部的紧密度,则动态调整节点与子图的隶属关系,直至子图相互之间满足内部高内聚,外部低耦合的要求。
本发明与现有技术相比,其显著优点:(1)按照时间片周期性的对图的变化进行合并,降低了图操作的频度,减少了数据的处理量。(2)定义了子图紧密度的计算公式,
Figure BDA0002415493940000021
可以定量的计算出节点插入子图所带来的紧密度增益,从而可以把新节点插入到内聚度最大子图中。(3)定义了子图之间的紧密度函数
Figure BDA0002415493940000022
能够定量计算子图的内聚程度和子图之间的耦合度。(4)定义了节点相对子图的隶属度函数,能够定量计算节点与子图的紧密程度,为实现图分割的动态维护提供依据。(5)针对增量图,提出了节点插入、节点删除、边插入、边删除、以及边权值变更的实现算法,能够计算开销和时间代价。(6)在图的变化过程中,当某一子图的外部紧密度大于其自身的紧密度时,本发明提出了一种局部调整方法,只需要调整部分节点,就可以实现子图的高内聚和低耦合,从而避免了对图进行全局的重新分割。
本发明属于图数据库技术领域,提出一种大规模数据增量处理的优化方法,特别是针对大规模动态图数据,该方法可以运用于图数据库实现中,以提升图数据库的增量图数据处理性能。本发明提出了一种基于增量的动态图分割方法,只需把增量的节点或边分配到对应的子图中,以降低计算开销和时间代价。同时,基于子图的紧密度矩阵,提出了大规模动态图的动态维护策略,仅调整部分节点就可实现子图的高内聚和低耦合,从而避免了对子图进行全局的重新分割。
附图说明
图1是本发明面向大规模知识图谱的动态图数据增量处理方法流程图。
图2是本发明确保负载均衡的节点插入算法。
图3是本发明删除节点或边的算法。
图4是本发明变更边的权值的算法。
具体实施方式
如图1所示,本发明面向大规模动态图数据提出了一种面向知识图谱的大规模数据增量处理方法,首先利用现有的图分割算法将初始的图分割成多个子图;然后在给定的时间片周期中记录图的变化操作,将同一个时间片周期内的变化操作进行合并,构成图的增量序列;按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作,以及边的权值更新操作;计算子图相互之间的紧密度矩阵,如果子图之间的紧密度大于子图内部的紧密度,则动态调整节点与子图的隶属关系,直至子图相互之间满足内部高内聚,外部低耦合的要求。具体流程如下:
(10)利用现有的图分割算法将初始的图分割成多个子图。
将初始加权图G分割成n个子图,G={G1,G2,...,Gi,...,,Gj,…,Gn},其中Gi代表第i个子图,其中Gi包括分量Gi(Vi,Ei,Wi),其中Vi表示子图i的节点集合,Ei表示子图i的边的集合,Wi表示子图i的边权值信息的集合;其中Gj包括分量Gj(Vj,Ej,Wj),同理Gj代表第j个子图,其中Vj表示子图j的节点集合;Ej表示子图j的边的集合;Wj表示子图j的边权值信息的集合。
(20)获取时间片周期中的图的增量序列。
(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作,以及边的权值更新操作。
给定一个图G={G1,G2,...,Gi,...,Gj,…,Gn},对其进行的变化操作GCO通过一个二元组<op,value>的形式表示,其中op=ins/del/upd,分别表示插入/删除/权值更改;value表示对应插入/删除/权值更改的节点或边的信息。相关操作如下:
边的插入:value表示为(u,v,w),u,v为图G的节点,w为边(u,v)的权;
节点的插入:新节点u的插入可以通过一组边的形式表示,即value可以表示为一组边的集合{(u,v1,w1),(u,v2,w2),(u,v3,w3)…};
边的删除:value可以直接以(u,v)的形式表示;
节点u的删除:value直接表示为u_id,即要删除节点u的编号;
边权值的更改:value则表示为(u,v,wnew),wnew则表示为边(u,v)更新后的权值。
(31)一个时间片T内图变化操作集合GCOS由一系列的图变化操作GCOt组成,t表示时间戳,GCOS可以表示为:GCOST={GCO1,GCO2,...,GCOt,...}。
(32)按照时间戳依次分析时间戳在前的图变化操作与其后的图变化操作是否相关,将相关的操作元组进行合并,减少图变化操作集合中操作元组的个数。
如果GCOt’为插入节点,则其后到达的与其相关的图变化操作为:
插入节点,即新插入的节点与GCOt’插入的节点存在边相连,此时无需改变操作。
插入边,插入一条与GCOt’插入节点相关联的边,因此将该操作元组中value的边信息加入到GCOt’的value中,同时将该插入边的图变化操作元组删除。
删除节点,如果要删除的节点与GCOt’要插入的节点是同一节点,则将GCOt’以及删除节点的图变化操作元组一并删除;若GCOt’要插入的节点存在一条边与要删除的节点相关联,则将该边从的GCOt’的value中删除。
删除边,若要删除的边为GCOt’中插入节点中的某一条边,则将该边从GCOt’的value中删除,同时将该删除边的操作元组删除。
更改边权值,若要更改的边权值为GCOt’中某一条边的权值,则直接将新的权值更新到GCOt’中该边对应的权值上,将该更新操作元组删除。
如果GCOt’为插入边,则其后到达的与其相关的图变化操作为:
插入节点,若插入节点操作元组的value中包含GCOt’要插入的边,则将GCOt’删除;
插入边,如果要插入的边与GCOt’中插入的边为同一条边时,则保留后者,将GCOt’删除;
删除节点,如果要删除的节点为GCOt’中要插入的边的一个节点,则将GCOt’直接删除;
删除边,如果要删除的边与GCOt’要插入的边为同一条边,则直接将GCOt’与该删除边的操作元组统一删除;
更改边权值,如果要更改权值的边为GCOt’要插入的边,则直接将新的权值更新到GCOt’中,将更改边权值的操作元组删除。
如果GCOt’为删除节点,则其后到达的与其相关联的图变化操作为:
插入节点,即使要插入的节点与GCOt’要删除的节点为同一节点,但并不能保证GCOt’要删除的节点连接的边与要插入该节点时的边都相同,所以无法调整这两个元组;若要插入的节点与GCOt’要删除的节点有边相连,只能说明重新建立一条与GCOt’要删除节点相关联的边,但无法确定与该节点相关联的其它边是否存在,因此同样无法调整;
插入边,如果要插入的边的一个节点为GCOt’要删除的节点,同上所述,无法进行调整;
删除节点,若要删除的节点与GCOt’要删除的节点为同一节点,则将图变化操作GCOt’删除;
删除边,如果要删除的边的一个节点为GCOt’中要删除的节点,但由于无法确定这两个操作之间是否存在插入节点或边的操作,所以不能对这两个元组进行任何合并或删除等调整操作;
更改边权值,即使要更改权值的边的节点为要删除的节点,但无法确定在这两个操作之间是否己经插入了新的与该节点相关的边,因此不能将这两个元组进行调整操作。
如果GCOt’为删除边,则其后到达的与其相关联的图变化操作为:
插入节点,若要插入节点的图变化操作的value中包含GCOt’要删除的边,则将GCOt’删除;
插入边,如果要插入的边与GCOt’中要删除的边为同一条边,则直接将GCOt’删除,同时将插入边的操作改为更改权值的操作;
删除节点,若要删除的节点与GCOt’要删除的边的节点为同一节点,则将图变化操作GCOt’删除;
删除边,如果要删除的边与GCOt’中要删除的边为相同的边,则将二者中的一个操作元组删除即可;
更改边权值,如果要更改权值的边与GCOt’要删除的边为同一条边,则说明要更改的边在之前的时刻己经不存在,因此无需更改,所以直接删除更改边权值的图变化操作。
如果GCOt’为边权值更改,则其后到达的与其相关联的图变化操作为:
插入节点,由于在插入新节点之前不可能存在一条以该节点为顶点的边,因此不存在更改权值的边与要插入节点相连的边为同一条边的情况,因此无需进行任何调整;
插入边,同上所述,插入新边之前也不存在对该边更改权值的情况,因此同样无需调整;
删除节点,若要删除的节点是GCOt’中更改权值的边的一个顶点,则直接将图变化操作GCOt’删除;
删除边,若要删除的边与GCOt’中要更改权值的边为同一条边,则将GCOt’删除即可;
更改边权值,如果后面时刻更改权值的边与GCOt’要更改权值的边为同一条边,则删除GCOt’
(33)在合并后的GCOST中每次取出时间戳最小的操作元组,按照元组的说明对图进行变化操作,所述变化操作包括例如插入边、插入新节点、删除边、删除节点、更改边的权值等,直到GCOST为空。
如果是插入边、插入新节点,则按照图2的算法进行操作;
如果是删除边、删除节点,则就按照图3的算法进行操作;
如果是更改边的权值,则按照图4的算法进行操作;
直到GCOST为空。
(40)计算子图相互之间的紧密度矩阵;
计算子图Gi和Gj之间的紧密度
Figure BDA0002415493940000061
其中,
Figure BDA0002415493940000062
表示子图Gi内部联系程度,即子图Gi内部节点的边权值之和。
Figure BDA0002415493940000063
为子图Gi外部的连接程度,即为子图Gi内部节点与外部节点连接的边权值之和。Wcut(Gi,Gj)表示两个子图Gi和Gj之间的割权值,其计算表达式如下
Figure BDA0002415493940000071
其中,Vi和Vj分别表示第i、j个子图Gi和Gj的节点集合,Wab表示顶点a和b之间的权重。
Figure BDA0002415493940000072
表示的是子图Gi自身的紧密度,如果
Figure BDA0002415493940000073
Figure BDA0002415493940000074
满足
Figure BDA0002415493940000075
那么就说明子图与外部联系的紧密度大于其内部的紧密度,需要对子图Gi和Gj进行动态调整,通过调整部分节点与子图的隶属关系,确保子图之间具有高内部连通性、低外部连通性。
(50)如果子图之间的紧密度大于子图内部的紧密度,则动态调整节点与子图的隶属关系,直至子图相互之间满足内部高内聚,外部低耦合的要求。
节点与子图隶属关系的调整算法如下:
(51)统计紧密度矩阵中满足C(Gi)Gj>C(Gi)Gi的元素个数,并记录其分别对应的子图。
(52)若满足C(Gi)Gj>C(Gi)Gi的元素个数为1,则说明只存在一个子图Gj,使得子图Gi与子图Gj的紧密度大于子图Gi内部的紧密度;否则说明存在多个子图与子图Gi的紧密度大于其内部的紧密度,则跳转到步骤(57)。
(53)判断子图Gi当前的工作负载LGi是否小于最小存储量Smin。如果LGi小于Smin,首先将子图Gi中孤立的节点和边调整到此时负载最小的子图中,再将子图Gi中局部连接的小子图合并到子图Gj中,然后跳转到步骤(56);否则,跳转到步骤(54)。
(54)查找子图Gi中与子图Gj有联系的节点,计算这些节点相对于子图Gj和Gi的隶属度的差值。
(55)将隶属度差值最大的节点调整到子图Gj中。
(56)更新紧密度矩阵;如果仍然存在C(Gi)Gj>C(Gi)Gi的情况,则跳转到步骤(53);否则跳转到步骤(54)。
(57)判断子图Gi当前的工作负载LGi是否小于最小存储量Smin,如果LGi小于Smin,首先将子图Gi中孤立节点和边调整到此时负载最小的子图中,将子图Gi中存在的局部连接的子图聚合成一个超点,各个超点的权值为组成该超点的节点的点权之和;否则跳转到步骤(511)。
(58)计算子图Gi中超点插入到与其相关联的各个子图后,各个子图的紧密度增益。
(59)将该超点划分到紧密度增益最大的子图中,跳转到步骤(515)。
(510)统计子图Gi的中满足与子图Gi紧密度大于子图Gi内部紧密度的各个子图Gj相关联的节点。
(511)分别计算节点相对于相关联子图Gj的隶属度与其相对于子图Gi隶属度的差值。
(512)将隶属度差值最大的节点作为首要调整的节点,计算该节点插入到与其相关的各个子图后,各个子图的紧密度增益。
(513)将该节点插入到紧密度增益最大的节点中。
(514)更新紧密度矩阵;如果仍然存在C(Gi)Gj>C(Gi)Gi的情况,则跳转到步骤(57)。
(515)结束。
利用本发明提出的面向知识图谱的大规模数据增量处理方法,只需把增量的节点或边分配到对应的子图中,以降低计算开销和时间代价;同时,基于子图的紧密度矩阵,提出了大规模动态图的动态维护策略,仅调整部分节点就可实现子图的高内聚和低耦合,从而避免了对子图进行全局的重新分割。

Claims (5)

1.一种面向知识图谱的大规模数据增量处理方法,其特征在于,包括如下步骤:
(10)利用图分割算法将初始的加权图分割成多个子图;
(20)获取时间片周期中的图的增量序列;
(30)按照各个子图负载均衡的原则把图的增量序列映射成点和边的插入、删除操作,以及边的权值更新操作;
(40)计算子图相互之间的紧密度矩阵;
(50)如果子图之间的紧密度大于子图内部的紧密度,则动态调整节点与子图的隶属关系,直至子图相互之间满足内部高内聚,外部低耦合的要求。
2.根据权利要求1要求所述的面向知识图谱的大规模数据增量处理方法,其特征在于,所述(10)步骤为:
将初始加权图G分割成n个子图,G={G1,G2,...,Gi,...,Gj,…,Gn},其中Gi代表第i个子图,其中Gi包括分量Gi(Vi,Ei,Wi),其中Vi表示子图i的节点集合;Ei表示子图i的边的集合;Wi表示子图i的边权值信息的集合,其中Gj包括分量Gj(Vj,Ej,Wj),同理Gj代表第j个子图,其中Vj表示子图j的节点集合;Ej表示子图j的边的集合;Wj表示子图j的边权值信息的集合。
3.根据权利要求2要求所述的面向知识图谱的大规模数据增量处理方法,其特征在于,所述(30)步骤为:
给定一个图G={G1,G2,...,Gi,...,Gj,…,Gn},对其进行的变化操作GCO通过一个二元组<op,value>的形式表示,其中op=ins/del/upd,分别表示插入/删除/权值更改;value表示对应插入/删除/权值更改的节点或边的信息;相关操作如下:
边的插入:value表示为(u,v,w),u,v为图G的节点,w为边(u,v)的权;
节点的插入:新节点u的插入以通过一组边的形式表示,value表示为一组边的集合{(u,v1,w1),(u,v2,w2),(u,v3,w3)…};
边的删除:value以(u,v)的形式表示;
节点u的删除:value表示为u_id,要删除节点u的编号;
边权值的更改:value表示为(u,v,wnew),wnew则表示为边(u,v)更新后的权值;
(31)一个时间片T内图变化操作集合GCOS由一系列的图变化操作GCOt组成,t表示时间戳,GCOS表示为:GCOST={GCO1,GCO2,...,GCOt,...};
(32)按照时间戳依次分析时间戳在前的图变化操作与其后的图变化操作是否相关,将相关的操作元组进行合并,减少图变化操作集合中操作元组的个数;
(33)在合并后的GCOST中每次取出时间戳最小的操作元组,按照元组的说明对图进行变化操作,所述变化操作包括插入边、插入新节点、删除边、删除节点、更改边的权值,直到GCOST为空。
4.根据权利要求3要求所述的面向知识图谱的大规模数据增量处理方法,其特征在于,所述(40)步骤为:
计算子图Gi和Gj之间的紧密度矩阵:
Figure FDA0002415493930000021
其中,
Figure FDA0002415493930000022
表示子图Gi内部联系程度,其为子图Gi内部节点的边权值之和;
Figure FDA0002415493930000023
为子图Gi外部的连接程度,其为子图Gi内部节点与外部节点连接的边权值之和;Wcut(Gi,Gj)表示两个子图Gi和Gj之间的割权值,其计算表达式如下:
Figure FDA0002415493930000024
其中,Vi和Vj度分别表示子图Gi和Gj的顶点,Wab表示顶点a和b之间的权重;
Figure FDA0002415493930000025
表示的是子图Gi自身的紧密度,如果
Figure FDA0002415493930000026
Figure FDA0002415493930000027
满足
Figure FDA0002415493930000028
则子图与外部联系的紧密度大于其内部的紧密度,需要对子图Gi和Gj进行动态调整,通过调整部分节点与子图的隶属关系,确保子图之间具有高内部连通性、低外部连通性。
5.根据权利要求4要求所述的面向知识图谱的大规模数据增量处理方法,其特征在于,所述(50)步骤具体为:
调整部分节点与子图隶属关系的算法如下:
(51)统计紧密度矩阵中满足C(Gi)Gj>C(Gi)Gi的元素个数,并记录其分别对应的子图;
(52)若满足C(Gi)Gj>C(Gi)Gi的元素个数为1,则说明只存在一个子图Gj,使得子图Gi与子图Gj的紧密度大于子图Gi内部的紧密度;否则说明存在多个子图与子图Gi的紧密度大于其内部的紧密度,则跳转到步骤(57);
(53)判断子图Gi当前的工作负载LGi是否小于最小存储量Smin;如果LGi小于Smin,首先将子图Gi中孤立的节点和边调整到此时负载最小的子图中,再将子图Gi中局部连接的小子图合并到子图Gj中,然后跳转到步骤(56);否则,跳转到步骤(54);
(54)查找子图Gi中与子图Gj有联系的节点,计算这些节点相对于子图Gj和Gi的隶属度的差值;
(55)将隶属度差值最大的节点调整到子图Gj中;
(56)更新紧密度矩阵;如果仍然存在C(Gi)Gj>C(Gi)Gi的情况,则跳转到步骤(53);否则跳转到步骤(57);
(57)判断子图Gi当前的工作负载LGi是否小于最小存储量Smin,如果LGi小于Smin,首先将子图Gi中孤立节点和边调整到此时负载最小的子图中,将子图Gi中存在的局部连接的子图聚合成一个超点,各个超点的权值为组成该超点的节点的点权之和;否则跳转到步骤(510);
(58)计算子图Gi中超点插入到与其相关联的各个子图后,各个子图的紧密度增益;
(59)将该超点划分到紧密度增益最大的子图中,跳转到步骤(515);
(510)统计子图Gi的中满足与子图Gi紧密度大于子图Gi内部紧密度的各个子图Gj相关联的节点;
(511)分别计算节点相对于相关联子图Gj的隶属度与其相对于子图Gi隶属度的差值;
(512)将隶属度差值最大的节点作为首要调整的节点,计算该节点插入到与其相关的各个子图后,各个子图的紧密度增益;
(513)将该节点插入到紧密度增益最大的节点中;
(514)更新紧密度矩阵;如果仍然存在C(Gi)Gj>C(Gi)Gi的情况,则跳转到步骤(57);
(515)结束。
CN202010189883.0A 2020-03-18 2020-03-18 一种面向知识图谱的大规模数据增量处理方法 Pending CN111382320A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189883.0A CN111382320A (zh) 2020-03-18 2020-03-18 一种面向知识图谱的大规模数据增量处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189883.0A CN111382320A (zh) 2020-03-18 2020-03-18 一种面向知识图谱的大规模数据增量处理方法

Publications (1)

Publication Number Publication Date
CN111382320A true CN111382320A (zh) 2020-07-07

Family

ID=71222689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189883.0A Pending CN111382320A (zh) 2020-03-18 2020-03-18 一种面向知识图谱的大规模数据增量处理方法

Country Status (1)

Country Link
CN (1) CN111382320A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767412A (zh) * 2020-09-02 2020-10-13 成都数联铭品科技有限公司 用于知识图谱构建的数据映射方法及系统、电子设备
CN112699134A (zh) * 2021-03-25 2021-04-23 北京智源人工智能研究院 基于图剖分的分布式图数据库的存储与查询方法
CN112990332A (zh) * 2021-03-26 2021-06-18 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN114783580A (zh) * 2022-06-20 2022-07-22 武汉博科国泰信息技术有限公司 一种医疗数据质量评估方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279524A (zh) * 2015-11-04 2016-01-27 盐城工学院 基于无权超图分割的高维数据聚类方法
US20180024869A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Guided load balancing of graph processing workloads on heterogeneous clusters
CN107784598A (zh) * 2017-11-21 2018-03-09 山西大学 一种网络社区发现方法
CN109697467A (zh) * 2018-12-24 2019-04-30 宁波大学 一种复杂网络图的概要方法
CN109710774A (zh) * 2018-12-21 2019-05-03 福州大学 结合平衡策略的图数据划分与分布式存储算法
CN110264467A (zh) * 2019-06-26 2019-09-20 西安电子科技大学 基于顶点切割的动态幂律图实时重划分方法
WO2020019313A1 (zh) * 2018-07-27 2020-01-30 浙江天猫技术有限公司 一种图数据的更新方法、系统、计算机可读存储介质及设备
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279524A (zh) * 2015-11-04 2016-01-27 盐城工学院 基于无权超图分割的高维数据聚类方法
US20180024869A1 (en) * 2016-07-22 2018-01-25 Board Of Regents, The University Of Texas System Guided load balancing of graph processing workloads on heterogeneous clusters
CN107784598A (zh) * 2017-11-21 2018-03-09 山西大学 一种网络社区发现方法
WO2020019313A1 (zh) * 2018-07-27 2020-01-30 浙江天猫技术有限公司 一种图数据的更新方法、系统、计算机可读存储介质及设备
CN109710774A (zh) * 2018-12-21 2019-05-03 福州大学 结合平衡策略的图数据划分与分布式存储算法
CN109697467A (zh) * 2018-12-24 2019-04-30 宁波大学 一种复杂网络图的概要方法
CN110264467A (zh) * 2019-06-26 2019-09-20 西安电子科技大学 基于顶点切割的动态幂律图实时重划分方法
CN110825883A (zh) * 2019-10-30 2020-02-21 杭州叙简科技股份有限公司 一种基于知识图谱的混合式团伙发现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张晓媛;张珩;翟健;: "基于邻域的大规模图数据动态分割算法", 计算机系统应用 *
杨雅君;高宏;李建中;: "动态图数据上查询与挖掘算法的研究综述", 智能计算机与应用 *
陈志奎;冷泳林;: "双目标优化的RDF图分割算法", 计算机工程与应用 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767412A (zh) * 2020-09-02 2020-10-13 成都数联铭品科技有限公司 用于知识图谱构建的数据映射方法及系统、电子设备
CN111767412B (zh) * 2020-09-02 2020-12-08 成都数联铭品科技有限公司 用于知识图谱构建的数据映射方法及系统、电子设备
CN112699134A (zh) * 2021-03-25 2021-04-23 北京智源人工智能研究院 基于图剖分的分布式图数据库的存储与查询方法
CN112990332A (zh) * 2021-03-26 2021-06-18 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN112990332B (zh) * 2021-03-26 2023-06-02 杭州海康威视数字技术股份有限公司 一种子图规模预测和分布式训练方法、装置及电子设备
CN114783580A (zh) * 2022-06-20 2022-07-22 武汉博科国泰信息技术有限公司 一种医疗数据质量评估方法及系统
CN114783580B (zh) * 2022-06-20 2022-09-13 武汉博科国泰信息技术有限公司 一种医疗数据质量评估方法及系统

Similar Documents

Publication Publication Date Title
CN111382320A (zh) 一种面向知识图谱的大规模数据增量处理方法
Kabiljo et al. Social hash partitioner: a scalable distributed hypergraph partitioner
US20080218518A1 (en) Balancing collections of vertices in a network
CN111309976B (zh) 一种面向收敛型图应用的GraphX数据缓存方法
CN108052832B (zh) 一种基于排序的微聚集匿名化方法
CN111597230A (zh) 基于MapReduce的并行密度聚类挖掘方法
CN112181659A (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
CN113761390B (zh) 一种用于属性亲密度的分析方法和系统
Tu et al. Byzantine-robust distributed sparse learning for M-estimation
CN114389974A (zh) 查找分布式训练系统中异常流量节点的方法、装置及介质
Zhou et al. AdaptCL: Efficient collaborative learning with dynamic and adaptive pruning
CN113810234A (zh) 微服务链路拓扑处理方法、装置及可读存储介质
CN117407921A (zh) 基于必连和勿连约束的差分隐私直方图发布方法及系统
CN107330083B (zh) 等宽直方图并行构建方法
CN112232401A (zh) 一种基于差分隐私及随机梯度下降的数据分类方法
CN108897820B (zh) 一种denclue算法的并行化方法
CN113342313B (zh) 一种基于参数服务器异步更新Spark MLlib中线性分类模型参数的方法
CN112632615B (zh) 基于混合云环境的科学工作流数据布局方法
CN115935080A (zh) 面向社交网络流数据基于mpich并行计算的极大团枚举方法
CN113822768B (zh) 社区网络的处理方法、装置、设备及存储介质
CN110135747B (zh) 基于神经网络的流程定制方法
CN109685101B (zh) 一种多维数据自适应采集方法及系统
CN106997303B (zh) 基于MapReduce的大数据近似处理方法
Chen et al. Fuzzy association rule mining algorithm based on load classifier
CA3101842A1 (en) A method of digital signal feature extraction comprising multiscale analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination