CN106777351A - 基于art树分布式系统图存储计算系统及其方法 - Google Patents

基于art树分布式系统图存储计算系统及其方法 Download PDF

Info

Publication number
CN106777351A
CN106777351A CN201710033810.0A CN201710033810A CN106777351A CN 106777351 A CN106777351 A CN 106777351A CN 201710033810 A CN201710033810 A CN 201710033810A CN 106777351 A CN106777351 A CN 106777351A
Authority
CN
China
Prior art keywords
data
physical server
summit
storage
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710033810.0A
Other languages
English (en)
Other versions
CN106777351B (zh
Inventor
章成飞
张鸣
张一鸣
李东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201710033810.0A priority Critical patent/CN106777351B/zh
Publication of CN106777351A publication Critical patent/CN106777351A/zh
Application granted granted Critical
Publication of CN106777351B publication Critical patent/CN106777351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本发明公开了一种基于ART树分布式系统图存储计算系统及其方法,其涉及分布式图计算技术领域,所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。

Description

基于ART树分布式系统图存储计算系统及其方法
技术领域
本发明涉及分布式图计算技术领域,特指一种基于ART树分布式系统图存储计算系统及其方法。
背景技术
大规模图计算对从自然语言处理到社交网络等广泛的机器学习(machinelearning)和数据挖掘(data mining)应用都是至关重要的。人们已经对单机图计算模型进行了深入地研究,并且许多系统,例如GridGraph,GraphQ,GraphChi和X-Stream都已经达到了非常高的计算性能。目前,数据集规模的快速增长给单机模型带来了严峻的挑战,但同时它又促进了图并行系统的开发,例如Pregel,GraphLab,PowerGraph,GraphX和PowerLyra。
GraphX(d Gonzalez,Joseph E.,et al.“Graphx:Graph processing in adistributed dataflow framework.”11th USENIX Symposium on Operating SystemsDesign and Implementation(OSDI 14).2014.)和PowerGraph是点分割系统,通过分割顶点而不是子图之间的边来均匀地分配高维度点的边,点分割系统会将所有与顶点相关的边都放置到一起。Pregel(Malewicz,Grzegorz,et al.“Pregel:a system for large-scalegraph processing.”Proceedings of the 2010 ACM SIGMOD International Conferenceon Management of data.ACM,2010.)和GraphLab(Low,Yucheng,et al.“DistributedGraphLab:a framework for machine learning and data mining in the cloud.”Proceedings of the VLDB Endowment 5.8(2012):716-727.)是边分割系统,它们是通过切断子图之间的边来均匀地分配顶点。PowerLyra(Chen,Rong,et al.“Powerlyra:Differentiated graph computation and partitioning on skewed graphs.”Proceedings of the Tenth European Conference on Computer Systems.ACM,2015.)提出了混合分割的算法来分别处理低维度和高维度点,它包含了边分割和点分割系统的优点。
真实世界的自然图,例如社交网络和web等,都具有典型的倾斜幂率分布的特点,也就是倾斜幂率分布处的高维度顶点只是图中顶点的一个小的子集,但是它们会有大量的邻居结点。这种特点使得自然图在分布式环境下难以进行表示和分区。边分割系统是通过切断子图之间的边来均匀地分配顶点,但是对于高维度点,它将会造成计算和通信时的负载不均衡。点分割系统通过分割顶点而不是子图之间的边来均匀地分配高维度点的边,但是对于低维度点,这将会导致高的通信开销。混合分割系统的黑白哲学可能会导致相当数量的中维度点产生次优选择,由于很难确定精确的阈值,并且在无序的大规模图中,提前计算出顶点的维度(用来决定使用什么样的分割策略)是很耗时的过程,另外,差异化处理显著增加了系统设计的难度。
Adaptive Radix Tree(ART)是一种专门针对基于内存数据库的索引技术。基数树与常见的搜索树比较有如下特点:(1)基数树的高度(高度即表示搜索的复杂度)取决于键的长度(占几个bit)而不是取决于树中元素的个数;(2)基数树不要Rebalance操作,所有的插入操作都是在相同的结构上进行;(3)键存储都是有序的(字典有序);(4)叶节点的路径就代表了叶子节点的键,键被隐含地存储了,可以从路径进行构建。
发明内容
针对上述技术问题,本发明提出一种图计算效率更高、通信开销更低的基于ART树分布式系统图存储计算系统及其方法,其主要面向有倾斜幂率分布的大规模图数据的存储和计算。
本发明的具体技术方案是:
一种基于ART树分布式系统图存储计算系统,所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。
一种基于ART树分布式系统图存储计算方法,该方法包括所述一种基于ART树分布式系统图存储计算系统,具体操作步骤如下:
1)利用所述数据采集模块采集网络应用产生的图数据,并将采集得到的所述图数据持久化到数据存储单元中;
2)进行数据分区,包括数据加载和采用自适应分区算法进行数据划分,所述数据加载过程中根据分配的计算节点的数目,然后在每个节点都启动数据加载,并行地将数据读入内存中;在数据加载的同时会调用自适应的分区算法对数据进行shuffle,将数据按照对应的分区算法重新映射到分配的物理服务器上;在进行数据加载同时进行数据分区,数据加载完成,数据划分也完成;
其中,所述自适应分区算法包含序号连续的SmartHash函数、全局的分区表和物理服务器容量值,所述全局分区表记录所有的分区情况,根据全局分区表记录情况与物理服务器容量值的比较,调用SmartHash函数进行物理服务器号分配,然后按照分配的物理服务器号,将边数据发送到对应的物理服务器;
3)经过数据分区操作之后,每个物理服务器都会分到原始图数据集的一个子图,子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构;根据MapReduce、BSP和GAS等不同的分布式图计算框架进行并行的图计算,每台物理服务器在进行计算时都是用在本地缓存的子图数据,每轮迭代之后会在物理服务器间进行一次消息同步操作,消息同步操作完之后进行下一次迭代计算,直到计算结果收敛,或者计算次数达到用户设置值为止;
4)迭代计算结束后会将最终结果写回到数据存储系统中进行持久化。
作为本发明技术方案的优化,本发明采用ART-indexed邻接表结构对图数据进行存储索引,具体包括:(1)采用邻接表结构来存储单个物理服务器上的所有图数据;对所有源点的出度边采用邻接表存储,邻接表中分别是该源点的目的顶点集合,邻接表的存储开销是O(En+Vn),其中En和Vn分别表示图中边和顶点数目;(2)使用自适应基数树来索引边的源点,所述自适应基数树保留了索引数据的顺序,可以执行区块的查询;并且当删除和增加新的节点时不需要重新平衡树和重新哈希顶点,图在部分更新时,使用共享的结构的方式来实现增量的更新。
作为本发明技术方案的优化,所述自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数,并且每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些点对应的哈希函数序号;
在图数据并行加载阶段,对每条边e,首先使用第一个哈希函数散列边e的源顶点s,映射边e到物理服务器m1,如果分配到物理服务器m1的边的个数小于阈值η,那么将边e分配到m1,并且边e的处理过程完成;否则,使用第二个哈希函数来散列边e的源顶点s,并且映射边e到另外一个物理服务器m2,如果m2的边的个数比η小,那么边e会被映射到m2;否则通过对等推理,以顶点s为源点的边有d条边,通过用p个哈希函数将该d条边分配到各个物理服务器,每台物理服务器最多有顶点s的η条边;对每个顶点s,记录当前使用的哈希函数;在图加载完成之后,所有的本地分区表将会被写入全局分区表中,每个顶点s和它们对应的哈希函数的最大个数p以键值对(s,p)的格式存储在全局分区表中。
与现有技术相比,本发明的有益效果是:
1、本发明利用ART对图数据进行索引,提升了索引效率,减小了内存占用量。
2、本发明实现了同时处理高维度和低维度点,通过设计一个统一的哈希函数处理,在处理的过程中不需要去提前统计高维度和低维度的维度信息,从而大大减少了图的预处理时间。
3、通过对图数据的高效分区和索引,提升了图计算每次迭代时间,节省了计算资源。
附图说明
图1本发明的自适应分区方法的流程图。
图2本发明的自适应分区处理流程实例(η=3)。
图3基于ART-index的邻接表存储结构。
图4基于结构共享的存储结构。
具体实施方式
本发明提供一种ART树分布式系统图存储计算系统的具体实施例,其为在Spark上实现了一个独立的图计算引擎GraphA,它提供了一个能自适应的,统一的图分区算法,它通过使用序号递增的hash函数来达到以负载均衡的方式分割数据集的目的,并且在图系统上引入了ART-index的邻接表存储算法,实现了高效的存储。实验结果显示,不论对于真实世界的自然图和人工合成的图,在存储开销,图加载和分区时间,及图计算时间方面,GraphA都优于目前已经的一些图计算系统,比如GraphX。
所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。
大规模图数据集的分布有两种情况,一种是倾斜的幂率图,一种是正常图。对于第一种情况缩水自适应分区算法模块会通过自适应的方式,同时处理高维度和低纬度点,让通信开销达到最小,并且图数据传送到每个分区之后会使用本发明的存储单元,减少存储开销。对于正常图,由于不存在高低维度点之分,所以通过分区算法模块当成一种维度点进行分区,同样可以达到很好的分区效果。
本发明系统的操作处理流程的整体逻辑执行框架如图1所示,算法框架主要包括四个主要部分,数据源、数据存储、数据分区和图计算,具体流程步骤如下:
具体流程步骤如下:
(1)云计算主要的服务对象可能是搜索引擎、社交网络、生物科学和自然科学等,所以大部分图数据都是来自这些领域应用,这些就是真实的数据源。
(2)针对这些应用需要有一个数据采集模块,将应用产生的图数据,包括网页数据、社交网络数据和生物信息数据等等,进行收集。
(3)将收集的数据持久化到数据存储系统中,数据存储系统主要有数据库、文件系统、分布式文件系统和HBase等,目前比较通用的做法是将数据保存到分布式文件系统中,如HDFS等。
(4)进行数据分区(数据分割),其中数据分区部分由两部分组成,分别是数据加载和自适应分区算法。所述数据加载过程会根据分配的计算节点的数目,然后在每个节点都启动数据加载,并行地将数据读入内存中。
(5)在数据加载的同时会调用自适应的分区算法对数据进行shuffle,将数据按照对应的分区算法重新映射到分配的物理服务器上。自适应的分区算法是一种在线的划分策略,一边进行数据加载,一边进行分区,数据加载完成,数据划分也完成,这种划分策略的图分割时间比较短。
(6)自适应分区算法主要包含序号连续的哈希函数族(SmartHash函数)、全局的分区表和物理服务器容量值。全局分区表记录所有的分区情况,根据全局分区表记录情况与物理服务器容量值的比较,调用SmartHash函数进行物理服务器号分配,然后按照分配的物理服务器号,将边数据发送到对应的物理服务器。
(7)经过数据分区操作之后,每个物理服务器都会分到原始图数据集的一个子图,如图1中的子图1、子图2和子图3。这些子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构。
(8)然后根据MapReduce、BSP和GAS等不同的分布式图计算框架进行并行的图计算,每台物理服务器在进行计算时都是用在本地缓存的子图数据,每轮迭代之后会在物理服务器间进行一次消息同步操作,消息同步操作完之后进行下一次迭代计算,直到计算结果收敛,或者计算次数达到用户设置值为止。
(9)迭代计算结束后会将最终结果写回到数据存储系统中进行持久化。
本发明的自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数。本具体实施例简单计算阈值为大规模图边的总数除以物理服务器的数目,然而其他的因素(例如物理服务器的经验能力)也可以在细粒度控制时考虑。
在图并行加载阶段,对每条边e,首先使用第一个哈希函数散列边e的源顶点s,映射边e到物理服务器m1,如果分配到物理服务器m1的边的个数小于阈值η,那么将边e分配到m1,并且边e的处理过程完成;否则,重新使用第二个哈希函数来散列边e的源顶点s,并且映射边e到另外一个物理服务器m2,如果m2的边的个数比η小,那么边e会被映射到m2;否则通过对等推理,以顶点s为源点的边有d条边,通过用p个哈希函数将这些边分配到各个物理服务器,每台物理服务器最多有顶点s的η条边;对每个顶点s,GraphA记录了当前用于散列边e的源顶点s的哈希函数,因此,它可以直接使用函数f而不是在散列顶点s的其它边的时候从第一个函数开始尝试。因此,承载顶点边的物理服务器数目正比于顶点的维度。
GraphA需要记录每个顶点使用的hash函数的个数来实现对这些顶点所有边的并行访问。每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些顶点对应的hash函数序号。在图加载完成之后,所有的本地分区表将会被写入全局键-值表,类似分布式哈希表(distributed hash table,简称DHT),每个顶点(v)和它们hash函数的最大个数(p)以键值对(v,p)的格式存储在表中。因此,在顶点v的计算阶段,前p个hash函数将会被用来并行定位顶点v的所有边。
图2给出了GraphA自适应分区过程的示例。图2左侧显示出数据集(以有序边的形式)和数据加载之前可用的分区。每台物理服务器可容纳的最大边的个数η是3。图2右侧演示了边分区的过程。第一个hash函数H1被用来将边<2,5>和<2,4>分配给P7分区,边<1,2>,<1,11>和<1,9>被分配给P1分区,边<3,1>,<3,2>和<3,9>被分配给P3分区。由于P1分区的边的个数达到了阈值(η=3),第二个函数被用来分配边<1,12>,<1,3>和<1,5>到P5分区。以此类推,第3个函数被用来分配边<1,7>到P8分区。图2的右侧也描绘出了全局键-值表,它显示了所有源顶点和与之对应的最大函数序号。
基于ART-index的连接表存储结构如图3所示。图3左边是GraphX的存储结构,采用的是“键-键-值”的存储方式,右边对应的是本发明GraphA的存储方式。
本发明使用邻接表来实现在单机内对边信息的高效存储。如图3右侧所示,对于8个源顶点,每个顶点都有一个链表,链表的每个结点代表所在源顶点对应的一个目标顶点。邻接表的存储开销是O(En+Vn),其中En和Vn分别代表边和顶点的数量。相反,键-键-值(GraphX采用的方法,原理如图3左侧所示)和邻接矩阵(GraphLab,PowerGrap和PowerLyra采用的方法)的存储开销分别是O(2En)和O(Vn 2)。
为了提升类似插入删除等操作的效率,我们使用了ART来索引边的源顶点。ART保留了它索引数据的顺序来使GraphA的查询操作更高效。当有新的顶点加入的时候,它不需要重新平衡树(rebalance),也不需要重新哈希(rehash)顶点。当图部分更新的时候,使用共享的结构的方式来实现增量的更新例如从源顶点1的链表中删除目标顶点5,只有顶点1对应的分支受到了影响。
对增量操作,目前已经存在的解决方案有如下几种:(1)直接更新对应的值,这种处理方式虽然效率很高,但如果一旦失败会出现不一致的状态无法解决;(2)原子的批量更新操作,这种方式最常见的是在数据库更新操作中,虽然这种能够保证数据最终的一致性,但必须在数据库中保存一个较长生命周期的snapshot;(3)全拷贝方式,在进行更新之前先对原数据进行一次深拷贝得到一个副本,然后再操作该副本,操作完成之后再返回该副本,这种方式对于小数据的更新效率非常低。
为了满足增量更新的要求,通过共享结构不改变已存在的点的值,从而可以达到细粒度的写时拷贝的目的。图4给出了结构共享的存储结构的更新过程,灰色块表示要更新的块,通过重新构建修改叶子节点的父节来实现增量更新。
为了加速GraphA的删除操作,本具体实施例设计了位向量,每位代表物理服务器中存储的源顶点的状态。如图3右侧所示,例如8位向量(MASK)代表8个顶点的状态。当一个顶点的所有边(比如顶点1)都被删除,只需要设置第一个比特位为0,不需要更新树。
本发明基于ART树结构实现了图数据的分布式存储,进而设计一种高效的分布式图计算方法;通过使用序号递增的hash函数来达到以负载均衡的方式分割数据集的目的;通过扩展Spark中弹性分布式数据集的结构并且设计了图操作APIs实现了独立的图计算引擎GraphA;与边分割系统、点分割系统以及混合分割系统相比,不论是对于真实世界的自然图还是人工合成的图,在存储开销、图加载分区时间和图计算时间方面,本发明的图计算效率更高,通信开销更低。本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。

Claims (4)

1.一种基于ART树分布式系统图存储计算系统,其特征在于,所述系统包括数据源单元、数据分区单元、数据存储单元、以及图计算单元;所述数据源单元设有数据采集模块,所述数据采集模块用于采集图数据;所述数据存储单元包括有数据库、文件系统、分布式文件系统和HBase;所述数据分区单元包括数据加载模块和自适应分区算法模块。
2.一种基于ART树分布式系统图存储计算方法,其特征在于,该方法包括所述一种基于ART树分布式系统图存储计算系统,具体操作步骤如下:
1)利用所述数据采集模块采集网络应用产生的图数据,并将采集得到的所述图数据持久化到数据存储单元中;
2)进行数据分区,包括数据加载和采用自适应分区算法进行数据划分,所述数据加载过程中根据分配的计算节点的数目,然后在每个节点都启动数据加载,并行地将数据读入内存中;在数据加载的同时会调用自适应的分区算法对数据进行shuffle,将数据按照对应的分区算法重新映射到分配的物理服务器上;在进行数据加载同时进行数据分区,数据加载完成,数据划分也完成;
其中,所述自适应分区算法包含序号连续的SmartHash函数、全局的分区表和物理服务器容量值,所述全局分区表记录所有的分区情况,根据全局分区表记录情况与物理服务器容量值的比较,调用SmartHash函数进行物理服务器号分配,然后按照分配的物理服务器号,将边数据发送到对应的物理服务器;
3)经过数据分区操作之后,每个物理服务器都会分到原始图数据集的一个子图,子图在每个分区上的存储采用的就是基于ART-Index的邻接表结构;根据MapReduce、BSP和GAS等不同的分布式图计算框架进行并行的图计算,每台物理服务器在进行计算时都是用在本地缓存的子图数据,每轮迭代之后会在物理服务器间进行一次消息同步操作,消息同步操作完之后进行下一次迭代计算,直到计算结果收敛,或者计算次数达到用户设置值为止;
4)迭代计算结束后会将最终结果写回到数据存储系统中进行持久化。
3.根据权利要求2所述的一种基于ART树分布式系统图存储计算方法,其特征在于,采用ART-indexed邻接表结构对图数据进行存储索引,具体包括:(1)采用邻接表结构来存储单个物理服务器上的所有图数据;对所有源点的出度边采用邻接表存储,邻接表中分别是该源点的目的顶点集合,邻接表的存储开销是O(En+Vn),其中En和Vn分别表示图中边和顶点数目;(2)使用自适应基数树来索引边的源点,所述自适应基数树保留了索引数据的顺序,可以执行区块的查询;并且当删除和增加新的节点时不需要重新平衡树和重新哈希顶点,图在部分更新时,使用共享的结构的方式来实现增量的更新。
4.根据权利要求3所述的一种基于ART树分布式系统图存储计算方法,其特征在于,所述自适应分区算法模块有一组独立的哈希函数并且每一台物理服务器有一个阈值η来限制它应该被赋予的最大边的个数,并且每台物理服务器维护了一个本地分区表用来记录每个顶点以及这些点对应的哈希函数序号;在图数据并行加载阶段,对每条边e,首先使用第一个哈希函数散列边e的源顶点s,映射边e到物理服务器m1,如果分配到物理服务器m1的边的个数小于阈值η,那么将边e分配到m1,并且边e的处理过程完成;否则,使用第二个哈希函数来散列边e的源顶点s,并且映射边e到另外一个物理服务器m2,如果m2的边的个数比η小,那么边e会被映射到m2;否则通过对等推理,以顶点s为源点的边有d条边,通过用p个哈希函数将该d条边分配到各个物理服务器,每台物理服务器最多有顶点s的η条边;对每个顶点s,记录当前使用的哈希函数;在图加载完成之后,所有的本地分区表将会被写入全局分区表中,每个顶点s和它们对应的哈希函数的最大个数p以键值对(s,p)的格式存储在全局分区表中。
CN201710033810.0A 2017-01-17 2017-01-17 基于art树分布式系统图存储计算系统及其方法 Active CN106777351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710033810.0A CN106777351B (zh) 2017-01-17 2017-01-17 基于art树分布式系统图存储计算系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710033810.0A CN106777351B (zh) 2017-01-17 2017-01-17 基于art树分布式系统图存储计算系统及其方法

Publications (2)

Publication Number Publication Date
CN106777351A true CN106777351A (zh) 2017-05-31
CN106777351B CN106777351B (zh) 2019-08-09

Family

ID=58947232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710033810.0A Active CN106777351B (zh) 2017-01-17 2017-01-17 基于art树分布式系统图存储计算系统及其方法

Country Status (1)

Country Link
CN (1) CN106777351B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN108681482A (zh) * 2018-05-16 2018-10-19 腾讯科技(深圳)有限公司 基于图数据的任务调度方法和装置
WO2019000388A1 (en) * 2017-06-30 2019-01-03 Microsoft Technology Licensing, Llc ANCHORING TREE STRETCHING FOR IMPROVED SIMULTANEITY AND PERFORMANCE IN PAGES BEACH INDEX MANAGEMENT
CN109344090A (zh) * 2018-10-30 2019-02-15 深圳润迅数据通信有限公司 数据中心中kvm虚拟机的虚拟硬盘系统及数据中心
CN109636709A (zh) * 2018-11-28 2019-04-16 华中科技大学 一种适用于异构平台的图计算方法
WO2019218814A1 (zh) * 2018-05-16 2019-11-21 腾讯科技(深圳)有限公司 图数据处理方法、图数据的计算任务发布方法、装置、存储介质及计算机设备
CN110659278A (zh) * 2018-06-12 2020-01-07 上海郑明现代物流有限公司 基于cpu-gpu异构架构的图数据分布式处理系统
CN110737659A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 图数据存储和查询方法、装置及计算机可读存储介质
CN111158583A (zh) * 2019-11-25 2020-05-15 深圳壹账通智能科技有限公司 图计算的布尔型变量存储方法、装置、设备及存储介质
CN111382319A (zh) * 2020-03-18 2020-07-07 军事科学院系统工程研究院系统总体研究所 一种面向知识图谱的图数据表示和映射方法
CN111782659A (zh) * 2020-07-10 2020-10-16 东北大学 数据库索引创建方法、装置、计算机设备和存储介质
WO2021012497A1 (zh) * 2019-07-22 2021-01-28 平安科技(深圳)有限公司 图计算的类别型变量存储方法、装置、设备及存储介质
CN112632057A (zh) * 2021-03-09 2021-04-09 深圳信息职业技术学院 一种基于大数据的数据治理方法和系统
CN112988064A (zh) * 2021-02-09 2021-06-18 华中科技大学 一种面向并发多任务的磁盘图处理方法
WO2021208174A1 (zh) * 2020-04-16 2021-10-21 南方科技大学 分布式图计算方法、终端、系统及存储介质
US11249961B2 (en) 2017-06-30 2022-02-15 Microsoft Technology Licensing, Llc Online schema change of range-partitioned index in a distributed storage system
CN115391341A (zh) * 2022-08-23 2022-11-25 抖音视界有限公司 分布式图数据处理系统、方法、装置、设备及存储介质
US11528146B1 (en) * 2019-12-10 2022-12-13 Hiro Systems Pbc Fork table of an authenticated index data structure

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663053A (zh) * 2012-03-30 2012-09-12 上海博康智能信息技术有限公司 一种基于图像内容搜索的分布式服务器系统
CN103207894A (zh) * 2013-03-14 2013-07-17 深圳市知正科技有限公司 一种多路实时视频数据存储系统及其进行缓存控制的方法
CN104144279A (zh) * 2013-05-08 2014-11-12 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN104679892A (zh) * 2015-03-18 2015-06-03 成都影泰科技有限公司 一种医学图像存储方法
US20150161178A1 (en) * 2009-12-07 2015-06-11 Google Inc. Distributed Image Search
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161178A1 (en) * 2009-12-07 2015-06-11 Google Inc. Distributed Image Search
CN102663053A (zh) * 2012-03-30 2012-09-12 上海博康智能信息技术有限公司 一种基于图像内容搜索的分布式服务器系统
CN103207894A (zh) * 2013-03-14 2013-07-17 深圳市知正科技有限公司 一种多路实时视频数据存储系统及其进行缓存控制的方法
CN104144279A (zh) * 2013-05-08 2014-11-12 联发科技股份有限公司 处理图像/视频数据的方法及装置
CN104679892A (zh) * 2015-03-18 2015-06-03 成都影泰科技有限公司 一种医学图像存储方法
CN105117497A (zh) * 2015-09-28 2015-12-02 上海海洋大学 基于Spark云网络的海洋大数据主从索引系统及方法

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487734B2 (en) 2017-06-30 2022-11-01 Microsoft Technology Licensing, Llc Staging anchor trees for improved concurrency and performance in page range index management
WO2019000388A1 (en) * 2017-06-30 2019-01-03 Microsoft Technology Licensing, Llc ANCHORING TREE STRETCHING FOR IMPROVED SIMULTANEITY AND PERFORMANCE IN PAGES BEACH INDEX MANAGEMENT
US11249961B2 (en) 2017-06-30 2022-02-15 Microsoft Technology Licensing, Llc Online schema change of range-partitioned index in a distributed storage system
CN107807983B (zh) * 2017-10-30 2021-08-24 辽宁大学 一种支持大规模动态图数据查询的并行处理框架的设计方法
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN108681482A (zh) * 2018-05-16 2018-10-19 腾讯科技(深圳)有限公司 基于图数据的任务调度方法和装置
WO2019218814A1 (zh) * 2018-05-16 2019-11-21 腾讯科技(深圳)有限公司 图数据处理方法、图数据的计算任务发布方法、装置、存储介质及计算机设备
CN108681482B (zh) * 2018-05-16 2020-12-01 腾讯科技(深圳)有限公司 基于图数据的任务调度方法和装置
US11847488B2 (en) 2018-05-16 2023-12-19 Tencent Technology (Shenzhen) Company Limited Graph data processing method, method and device for publishing graph data computational tasks, storage medium, and computer apparatus
US11734060B2 (en) 2018-05-16 2023-08-22 Tencent Technology (Shenzhen) Company Limited Graph data based task scheduling method, apparatus and storage medium thereof
CN110659278A (zh) * 2018-06-12 2020-01-07 上海郑明现代物流有限公司 基于cpu-gpu异构架构的图数据分布式处理系统
CN109344090B (zh) * 2018-10-30 2021-01-29 深圳润迅数据通信有限公司 数据中心中kvm虚拟机的虚拟硬盘系统及数据中心
CN109344090A (zh) * 2018-10-30 2019-02-15 深圳润迅数据通信有限公司 数据中心中kvm虚拟机的虚拟硬盘系统及数据中心
CN109636709A (zh) * 2018-11-28 2019-04-16 华中科技大学 一种适用于异构平台的图计算方法
CN109636709B (zh) * 2018-11-28 2020-12-08 华中科技大学 一种适用于异构平台的图计算方法
WO2021012497A1 (zh) * 2019-07-22 2021-01-28 平安科技(深圳)有限公司 图计算的类别型变量存储方法、装置、设备及存储介质
CN110737659A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 图数据存储和查询方法、装置及计算机可读存储介质
WO2021042515A1 (zh) * 2019-09-06 2021-03-11 平安科技(深圳)有限公司 图数据存储和查询方法、装置及计算机可读存储介质
CN111158583A (zh) * 2019-11-25 2020-05-15 深圳壹账通智能科技有限公司 图计算的布尔型变量存储方法、装置、设备及存储介质
US11528146B1 (en) * 2019-12-10 2022-12-13 Hiro Systems Pbc Fork table of an authenticated index data structure
US11750392B1 (en) 2019-12-10 2023-09-05 Hiro Systems Pbc Authenticated index data structure with back-pointers
CN111382319A (zh) * 2020-03-18 2020-07-07 军事科学院系统工程研究院系统总体研究所 一种面向知识图谱的图数据表示和映射方法
CN111382319B (zh) * 2020-03-18 2021-04-09 军事科学院系统工程研究院系统总体研究所 一种面向知识图谱的图数据表示和映射方法
WO2021208174A1 (zh) * 2020-04-16 2021-10-21 南方科技大学 分布式图计算方法、终端、系统及存储介质
CN111782659A (zh) * 2020-07-10 2020-10-16 东北大学 数据库索引创建方法、装置、计算机设备和存储介质
CN111782659B (zh) * 2020-07-10 2023-10-17 东北大学 数据库索引创建方法、装置、计算机设备和存储介质
CN112988064B (zh) * 2021-02-09 2022-11-08 华中科技大学 一种面向并发多任务的磁盘图处理方法
CN112988064A (zh) * 2021-02-09 2021-06-18 华中科技大学 一种面向并发多任务的磁盘图处理方法
CN112632057A (zh) * 2021-03-09 2021-04-09 深圳信息职业技术学院 一种基于大数据的数据治理方法和系统
CN112632057B (zh) * 2021-03-09 2021-05-25 深圳信息职业技术学院 一种基于大数据的数据治理方法和系统
CN115391341A (zh) * 2022-08-23 2022-11-25 抖音视界有限公司 分布式图数据处理系统、方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106777351B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN106777351B (zh) 基于art树分布式系统图存储计算系统及其方法
CN103593436B (zh) 文件合并方法和装置
CN108600321A (zh) 一种基于分布式内存云的图数据存储方法和系统
CN102521334B (zh) 一种基于分类特性和平衡二叉树的数据存储、查询方法
CN104036029B (zh) 大数据一致性对比方法和系统
WO2009089505A1 (en) Spatial sieve tree
Awad et al. Dynamic graphs on the GPU
CN107491495B (zh) 空间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法
CN106599040A (zh) 一种面向云存储的分层索引方法与检索方法
Jaiyeoba et al. Graphtinker: A high performance data structure for dynamic graph processing
Arge et al. Cache-oblivious data structures
CN106155934A (zh) 一种云环境下基于重复数据的缓存方法
CN110399096A (zh) 分布式文件系统元数据缓存重删的方法、装置以及设备
CN106021566A (zh) 一种提高单台数据库并发处理能力的方法、装置及系统
CN107766355B (zh) 层级数据管理方法、层级数据管理系统及即时通信系统
CN104407811B (zh) 一种基于云计算的合并io装置
Zhang et al. GraphA: Efficient partitioning and storage for distributed graph computation
CN107871013A (zh) 一种海量数据高效抽取方法
Lin et al. Share-Inherit: A novel approach for mining frequent patterns
CN105389337A (zh) 用于统计显著性模式的搜索大数据空间的方法
CN105912404A (zh) 一种基于磁盘的大规模图数据中寻找强连通分量的方法
Shen et al. Efficient subgraph matching on non-volatile memory
Gao et al. MR-Mafia: Parallel subspace clustering algorithm based on MapReduce for large multi-dimensional datasets
CN107967319A (zh) 一种海量数据高效抽取平台
Alrahwan et al. Research Article ASCF: Optimization of the Apriori Algorithm Using Spark-Based Cuckoo Filter Structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant