CN113065035A

CN113065035A - 一种单机核外属性图计算方法

Info

Publication number: CN113065035A
Application number: CN202110334310.7A
Authority: CN
Inventors: 钟鸣; 郑盈仪; 荆泽华
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-02

Abstract

本发明公开了一种单机核外属性图计算方法。本发明构建属性图；将属性图的顶点集以外层不对称网格分图策略算法分簇；对得到的每个边集合以内层不对称网格分图策略算法细化分簇；按序重组得到的细粒度边集合；重组得到的边集合；构建拓扑数组和边的属性的数组；构建顶点的属性数组；根据用户给定的属性条件限制标记满足限制的拓扑子图；根据用户给定的计算任务流式遍历拓扑图。本发明优化了图算法对底层存储系统的利用，保留了单机核外图计算系统的优势，且无需对同一属性图的不同图计算任务重新分图。

Description

一种单机核外属性图计算方法

技术领域

本发明属于计算机科学技术领域，尤其涉及一种单机核外属性图计算方法。

背景技术

随着现实生活中图数据(如：社交网络、用户-物品网络、路网、交易网络等等)的快速增长，用户需要从这些图数据中挖掘具有潜在价值的信息的高效计算系统。由于现实场景下的图往往包含上十亿级的顶点和边，近年来，大规模图计算已成为研究领域中的热点问题。

大规模图计算系统主要可分为两类，即分布式系统和单机系统。分布式系统通常是处理大规模数据的自然的选择，目前已有许多分布式图计算系统的相关研究。由于分布式系统需要将图分布在集群的若干台机器上，故分布式系统需要把大规模图切分为若干子图，即“分图”(partitioning)，并将这些子图分别分布到不同机器上。图的分散分布使得分布式系统执行图算法任务时不可避免地在机器间进行大量消息交换与合并。雪上加霜的是，现实世界中许多图的偏斜度分布(skewed degree distribution)、高密度(highdensity)和大直径(large diameter)等特征导致分布式系统产生诸如负载不平衡(loadimbalance)，同步开销(synchronization overhead)和容错开销(fault toleranceoverhead)等问题。单机系统则能够有效避免机器间通信带来的问题。单机图计算系统又可细分为单机核内(in-memory)图计算系统和单机核外(out-of-core)图计算系统。单机核内图计算系统将图数据完全存放在内存中，其能够处理的图数据规模受内存大小的限制，而单机核外图计算系统则同时利用了机器的内存与外存存储和处理图数据，因此具有更佳的可扩展性。同时，相较于分布式系统，单机核外图计算系统仅允许内存和本地外存之间进行数据交换，从而大大降低了通信开销。

由于单机核外图计算系统涉及内外存之间的数据交换，引入分图策略能够更加有效组织数据，提升系统性能，因此现有单机核外图计算系统研究将分图策略作为主要问题之一考虑。“对称网格”分图策略是现有主流技术方案之一，其将顶点ID划分为若干个区间，根据边的源顶点ID所在区间确定该边所在网格的“行”，根据边的目的顶点ID所在区间确定该边所在网格的“列”，在计算过程中通过以“行”或“列”为导向的网格加载方式控制需要加载的顶点数据，被加载的网格会同时加载其所在“行”对应的顶点区间的所有顶点的相关变量和所在“列”对应的顶点区间的所有顶点的相关变量，其中“行”顶点数据涉及外存的“读”，而“列”顶点数据涉及外存的“写”。但是，计算机外存读写速度不一致的硬件特性使得“对称网格”分区策略中的“行”和“列”数据加载速度不一致，“行”读数据远快于“列”写数据，导致计算资源和时间的浪费。因此，如何设计分图策略使得单机核外图计算系统的性能尽可能提升是单机核外图计算系统研究与应用中的关键问题之一。

此外，在现有的单机核外图计算系统的研究中，尽管许多现实场景中的图都具有大量的属性数据，但这些单机核外图计算系统都未考虑具有属性的图的图计算问题。例如，针对网络图(web graph)，用户需要计算生成时间在指定范围内的网页排名(PageRank)，以便用户了解这段时间内的热门网页。但现有的仅考虑拓扑图计算的单机核外系统无法执行此类任务。一种简单的解决方案是利用数据库查询引擎来选择满足时间条件的边和顶点，即从原始图数据中提取符合条件的子图，然后再导入到单机核外图计算系统处理该子图。但是，该解决方案的一个主要问题是，提取的子图由于拓扑结构的变化需要在外存上重新分图，这意味着单机核外图计算系统需要针对每个特定条件限制的属性图计算任务进行分图处理，这对时间和计算资源来说都是极大的浪费。因此，如何高效地计算属性图是单机核外属性图计算系统研究与应用中的关键问题。

发明内容

本发明针对现有技术方案的不足，提供一种单机核外属性图计算系统，可分为预处理阶段和计算阶段，其在预处理阶段使用“双层不对称网格”分图策略分图，并基于列式存储方式存储分图后的属性图数据，同时分图后的网格使用双向重组策略合并，在计算阶段则基于标记-流式处理(labeling-and-streaming)两阶段计算模型计算用户定义的属性图计算任务。

本发明的技术方案为一种单机核外属性图计算方法，具体步骤如下：

步骤1：构建属性图，所述属性图由多个顶点、多条边、顶点对应的多个属性，以及边对应的多个属性构成；

步骤2：将属性图的多个顶点通过外层不对称网格分图策略算法进行分簇，得到顶点簇以及每对顶点簇对应的边集合；

步骤3：将步骤2中通过外层不对称网格分图策略算法得到的P_s×P_t个边集合Block再次细化分簇，对每个Block通过内层不对称网格分图策略算法得到粒度更小的顶点簇以及每对细粒度顶点簇对应的细粒度边集合；

步骤4：对每个经过步骤3处理的Block(x,y)所得到的细粒度边集合Block(x_a,y_b)按源顶点簇优先的顺序重组，会得到一个细粒度边集合有序的一维数组Block’(x,y)；

步骤5：对所有一维数组Block’(x,y)(x∈[1,P_s]，y∈[1,P_t])按目的顶点簇优先的顺序重组，得到一个一维数组Block’(x,y)间有序的属性图二维数组Grid；

步骤6：通过步骤5得到的属性图二维数组Grid构建出1个拓扑数组Column(E)和q个边的属性的数组Column(A_E(b))，b∈[1,q]；

步骤7：对顶点的属性数据A_V构建出m个顶点的属性一维数组Column(A_V(a))，a∈[1,m]；

步骤8：根据用户给定的属性条件限制，依次顺序遍历需要的在步骤7得到的顶点属性数组，在内存中得到一个顶点标记数组，再依次顺序遍历需要的在步骤6得到的边属性数组并结合顶点标记数组，最终得到在内存中的顶点标记数组和边标记数组；

步骤9：根据用户给定的计算任务，顺序读步骤6得到的拓扑数组，对读入的每条边通过步骤8得到的顶点标记数组和边标记数组判断该边是否需要进行计算，若需要则按用户定义的计算任务处理；遍历完拓扑数组中的每条边后，根据用户定义的计算任务判断是否满足计算任务结束条件，是则结束，用户发起新的计算任务时直接进入步骤8，否则重复步骤9。

作为优选，步骤1中所述的属性图，可概括为顶点和边都具有属性的拓扑图，具体定义为：

G＝(V,E,A_V,A_E)

V＝{v_i|i∈[1,|V|]}

其中，V表示属性图中顶点的集合，v_i表示属性图中第i个顶点；

E＝{e_i,j＝<v_i,v_j>|v_i∈V，v_j∈V}表示属性图中边的集合，e_i,j＝<v_i,v_j>表示属性图中第i个顶点到第j个顶点的有向连边，i∈[1,|V|]，j∈[1,|V|]；任意无向边e_i,j ^′＝(v_i,v_j)在E中将被表示为e_i,j＝<v_i,v_j>和e_ji＝<v_j,v_i>两条对向的有向边；

A_V表示属性图中顶点的一组属性值的集合，m表示顶点的属性的数量，A_V＝{A_V(a,i)|a∈[1,m],i∈[1,|V|]},A_V(a,i)表示第i个顶点的第a个属性值，A_V(a)表示顶点的第a个属性值；对于任意顶点v∈V，v有且仅有m个顶点属性及对应的m个属性值；

A_E表示属性图中连边的一组属性值的集合，q表示边的属性的数量，A_E＝{A_E(b,i,j)|e_i,j∈E,i∈[1,|V|],j∈[1,|V|],b∈[1,q]}，A_E(b,i,j)表示连边e_i,j的第b个属性值，A_E(b)表示边的第b个属性值；对于任意边e∈E，e有且仅有q个边属性及对应的q个属性值；

|V|为集合V的势，表示属性图顶点的数量；

|E|为集合E的势，表示属性图连边的数量；

作为优选，步骤2所述顶点簇集合包括：源顶点簇集合、目的顶点簇集合；

所述源顶点簇的集合定义为V_S，所述源顶点簇集合内的源顶点簇的数目为P_s，V_S(x)表示源顶点簇集合内的第x个源顶点簇，x∈[1,P_s]；

所述目的顶点簇的集合定义为V_T，所述目的顶点簇集合内的目的顶点簇的数目为P_t，V_T(y)表示目的顶点簇集合内的第y个目的顶点簇，y∈[1,P_t]；

P_s和P_t均为正整数，P_s≥P_t；

步骤2所述源顶点簇定义为：

V_S(x)＝{v_i|i∈(|V|×(x-1)/P_s,|V|×x/P_s],x∈[1,P_s]}，

步骤2所述目的顶点簇定义为：

V_T(y)＝{v_i|i∈(|V|×(y-1)/P_t,|V|×y/P_t],y∈[1,P_t]}，

对于属性图中第i个顶点即v_i∈V(i∈[1,|V|])：

v_i所在的源顶点簇V_S为第i/(|V|/P_s)个，即V_S(i/(|V|/P_s))；

v_i所在的目的顶点簇为第i/(|V|/P_t)个，即V_T(i/(|V|/P_t))；

根据外层不对称网格分图策略分图后，步骤1所定义的图的边集E将被划分出P_s×P_t个边的子集，定义为Block(x,y)，Block(x,y)表示源顶点簇V_S(x)和目的顶点簇V_T(y)对应的边集合，其符号定义为：

Block(x,y)＝{e_i,j|v_i∈V_S(x),v_j∈V_T(y)}，x∈[1,P_s]，y∈[1,P_t]

|Block(x,y)|为集合Block(x,y)的势，表示顶点簇V_S(x)和V_T(y)对应的边集合中连边的数量；

作为优选，步骤3所述内层不对称网格分图策略算法的应用对象是步骤2得到的每对顶点簇对应的边集合中超过一定大小记为Csize的边集合，即满足|Block(x,y)|>Csize的Block(x,y)；

步骤3所述的对边集合再次细化分簇具体为：

对每个|Block(x,y)|>Csize的边集合Block(x,y)，通过内层不对称网格分图策略算法将得到P_s’个细粒度源顶点簇V_S(x_a,Block(x,y))(x∈[1,P_s]，a∈[1,P_s’]，

P_t’个细粒度目的顶点簇V_T(y_b,Block(x,y))(y∈[1,P_t]，b∈[1,P_t’]，

以及每对细粒度顶点簇对应的细粒度边集合Block(x_a,y_b)；

步骤3所述细粒度源顶点簇定义为：

(结果为小数时向上取整)，x∈[1,P_s]，a∈[1,P_s’]，N＝|V|，

V_S(x_a,Block(x,y))表示V_S(x)针对Block(x,y)划分的第a个细粒度源顶点簇；

步骤3所述细粒度目的顶点簇定义为：

(结果为小数时向上取整)，y∈[1,P_t]，b∈[1,P_t’]，N＝|V|，

V_T(y_b,Block(x,y))表示V_T(y)针对Block(x,y)划分的第b个细粒度源顶点簇；

步骤3所述细粒度边集合定义为：

Block(x_a,y_b)＝{e_i,j|v_i∈V_S(x_a,Block(x,y)),v_j∈V_T(y_b,Block(x,y))}，Block(x_a,y_b)为源顶点簇V_S(x_a,Block(x,y))和目的顶点簇V_T(y_b,Block(x,y))对应的边集合；

P_s’和P_t’均为正整数，且满足P_s’×P_t’＝|Block(x,y)|/Csize(|Block(x,y)|/Csize的结果为小数时向上取整)，一般应用情况下P_s’≤P_t’；

作为优选，步骤4所述的对Block(x,y)的细粒度边集合Block(x_a,y_b)按源顶点簇优先的顺序重组，具体为：Block(x₁,y₁)，Block(x₁,y₂)，…Block(x₁,y_Pt’)，Block(x₂,y₁)，…Block(x_Ps’,y_Pt’)，所得到的一维数组Block’(x,y)为按步骤4所述的按源顶点簇优先的顺序重组Block(x,y)的P_s’×P_t’个细粒度边集合后的结果，Block’(x,y)＝[Block(x₁,y₁)，Block(x₁,y₂)，…Block(x₁,y_Pt’)，Block(x₂,y₁)，…Block(x_Ps’,y_Pt’)]，一维数组长度为P_s’×P_t’；

作为优选，步骤5所述的对一维数组Block’(x,y)(x∈[1,P_s]，y∈[1,P_t])按目的顶点簇优先的顺序重组，具体为：

””’

Block(1,1)，Block(2,1)，…Block(P_s,1)，Block(x₂,y₁)，…Block(P_s,P_t)，所得到的属性图二维数组Grid即为以步骤5所述的按源顶点簇优先的顺序重组所有Block’(x,y)(x∈[1,P_s]，y∈[1,P_t])后的结果，Grid＝[Block’(1,1)，Block’(2,1)，…Block’(P_s,1)，Block’(x₂,y₁)，…Block’(P_s,P_t)]，Grid数组的长度为P_s×P_t；

对于没有执行步骤3和步骤4的Block(x,y)，(|Block(x,y)|≤Csize)，Block(x,y)＝Block’(x,y)；

由于Grid数组的每一个元素Block’(x,y)都是一个一维数组，故这P_s×P_t个一维数组重组后的到一个长度为P_s×P_t的二维数组Grid；

作为优选，步骤6具体为：

其中，Column(E)＝E，Column(E)中边的顺序与步骤5得到的属性图二维数组中的边的顺序一致；

Column(A_E(b))＝{(k,A_E(b,i,j))|e_i,j∈E,i∈[1,N],j∈[1,N],k∈[1,|E|]}；

Column(A_E(b))中的数据条目为边位移k-属性值A_E(b,i,j)的键-值对，边位移k表示为e_i,j在拓扑数组Column(E)中处于第k条边，k∈[1,|E|]，Column(A_E(b))中的键-值对的数目为|E|，b∈[1,q]；

作为优选，步骤7具体为：

Column(A_V(a))＝{(i,A_V(a,i))|i∈[1,|V|]}，

Column(A_V(a))中的数组元素为键-值对，顶点i-属性值A_V(a,i)，顶点i的定义参见步骤1，i∈[1,|V|]，Column(A_V(a))中的键-值对的数目为|V|，a∈[1,m]；

作为优选，步骤8所述用户给定的属性条件限制定义为：若干个顶点属性即0到m个和若干个边属性即0到q个的逻辑运算组合式，逻辑运算组合式的结果仅通过0-1真假值即可表示；

用户给定的属性条件限制为UserQuery；

顺序遍历的含义为对任意一个顶点属性数组或边属性数组，从数组头部顺序读取即相对于随机读至数组尾部即中途不读取其他数组，并且对读入的数组元素按用户给定的属性条件限制做逻辑判断，符合或不符合属性限制条件的点或边将在顶点标记数组或边标记数组中记录；

顶点标记数组定义为一个大小为|V|的布尔值数组VertexArray，VertexArray[i]表示顶点v_i的属性条件判断结果，VertexArray[i]＝0为v_i不满足属性条件，VertexArray[i]＝1为v_i满足属性条件，VertexArray[i]的结果通过顺序遍历需要的在步骤7得到的顶点属性数组即可得到；

边标记数组定义为一个大小为|E|的布尔值数组EdgeArray，EdgeArray[k]表示边位移(offset)为k的边e_ij的属性条件判断结果，EdgeArray[k]＝0为e_ij或v_i或v_j不满足UserQuery，EdgeArray[k]＝1为e_ij、v_i和v_j均满足UserQuery；

当UserQuery涉及的顶点属性数目和边属性数目均大于0时，程序需要先顺序遍历若干个涉及的顶点属性数组，再顺序遍历若干个涉及的边属性数组，EdgeArray[k]＝1的条件是e_ij、v_i和v_j均满足UserQuery；

当UserQuery涉及的顶点属性数目为0，边属性数目大于0时，程序需要只顺序遍历若干个涉及的边属性数组，EdgeArray[k]＝1的条件是e_ij满足UserQuery；

当UserQuery涉及的顶点属性数目大于0，边属性数目为0时，程序需要只顺序遍历若干个涉及的顶点属性数组，EdgeArray[k]＝1的条件是e_ij所对应的v_i和v_j均满足UserQuery；

当UserQuery涉及的顶点属性数目和边属性数目均为0时，程序默认任意EdgeArray[k]＝1，k∈[1,|E|]；

对同一属性图，步骤1-7只需执行一次。预处理阶段即步骤1-7完成后，系统持续处于计算阶段即步骤8-9，能够持续处理用户给出的相同和不同的图计算任务，系统对每一个有属性条件限制的图计算任务需要完整执行一次计算阶段。

本发明利用计算机“外存-内存-缓存”三层数据存储系统读写速度不一致的特性，通过“双层不对称网格”分图策略和分图后网格块重组实现了“外存-内存”外网格列优先遍历，“内存-缓存”内网格行优先遍历的调度策略，同时借助列式存储文件格式使属性图计算过程中属性的读取效率最大化，并且通过标记-流式处理两阶段计算模型使得单机核外图计算系统能够执行有属性条件限制的图计算任务，并且保证了属性图计算任务的执行效率。

附图说明

图1：是本发明所述单机核外属性图计算系统总流程。

图2：是本发明实施例的属性图G经过步骤2外层不对称网格分图策略分图后得到的源顶点簇、目的顶点簇和对应边集合的结果示意图。

图3：是本发明实施例以Block(150,6)为例说明经过步骤3内层不对称网格分图算法细分后得到的细粒度源顶点簇、目的顶点簇和对应边集合的结果示意图。

图4：是本发明实施例以Block(150,6)为例说明步骤4按源顶点簇优先的顺序重组细粒度边集合Block(150_a,6_b)得到的Block’(150,6)的示意图。

图5：是本发明实施例说明步骤5的按目的顶点簇优先的顺序重组Block’(x,y)得到Grid的结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例对本发明技术方案进行具体描述。

本发明主要基于外存的顺序访问速度远高于随机访问速度的特性，考虑单机图计算问题中的属性图计算问题，提出的一种单机核外属性图计算系统。本方法充分考虑了不同存储介质的不同访问方式访问速度不同的特性和属性图计算任务中属性的作用，通过“双层不对称网格”分图策略组织图数据，列式存储方式存储拓扑图的属性数据，以及使用标记-流式处理两阶段属性图计算模型，尽可能减少随机访问并充分利用了不同存储介质的读写特性，以此提升计算效率。通过本发明，能使单机核外图计算系统能够处理具有属性条件限制的复杂图计算任务，并保证了计算效率。

下面结合图1至图5介绍本发明的具体实施方式：

本发明所述的单机核外属性图计算系统的总流程如图1所示。

实施例以含有1560000个顶点、23450000条边、50个顶点的属性和80个边的属性的属性图G为例对本发明的流程进行一个具体的阐述，该属性图具体定义如下：

G＝(V,E,A_V,A_E)

V＝{v_i|i∈[1,1560000]}

E＝{e_i,j＝<v_i,v_j>|v_i∈V，v_j∈V}

A_V＝{A_V(a,i)|a∈[1,50],i∈[1,1560000]}

A_E＝{A_E(b,i,j)|e_i,j∈E,i∈[1,1560000],j∈[1,1560000],b∈[1,80]}

其中，V表示属性图G中1560000个顶点的集合，E表示属性图G中23450000条连边的集合，A_V表示属性图G中1560000个顶点的50个属性的属性值的集合，A_E表示属性图G中23450000条连边的80个属性值的集合；

v₁₀₀表示属性图中第100个顶点；

e_2,3＝<v₂,v₃>表示属性图中第2个顶点到第3个顶点的有向连边；无向边e_2,3 ^′＝(v₂,v₃)在E中将被表示为e_2,3＝<v₂,v₃>和e_3,2＝<v₃,v₂>两条对向的有向边；

A_V(3,100)表示第100个顶点的第3个属性的属性值，A_V(3)表示顶点的第3个属性值；

A_E(3,2,100)表示连边e_2,100的第3个属性值，A_E(3)表示边的第3个属性值；

在本实施例中，|V|＝1560000，|V|表示属性图顶点的数量；|E|＝23450000，|E|表示属性图连边的数量；

步骤2所述顶点簇集合包括：源顶点簇集合、目的顶点簇集合；

所述源顶点簇的集合定义为V_S，所述源顶点簇集合内的源顶点簇的数目为P_s，本实施例中令P_s＝156，V_S(x)表示源顶点簇集合内的第x个源顶点簇，x∈[1,156]；

所述目的顶点簇的集合定义为V_T，所述目的顶点簇集合内的目的顶点簇的数目为P_t，本实施例中令P_t＝30，V_T(y)表示目的顶点簇集合内的第y个目的顶点簇，y∈[1,30]；

本实施例中步骤2所述源顶点簇定义为：

V_S(x)＝{v_i|i∈(1560000×(x-1)/156,1560000×x/156],x∈[1,156]}，

本实施例中步骤2所述目的顶点簇定义为：

V_T(y)＝{v_i|i∈(1560000×(y-1)/30,1560000×y/30],y∈[1,30]}，

以x＝150举例，则V_S(150)＝{v_i|i∈(1490000,1500000]}

以y＝6举例，则V_T(6)＝{v_i|i∈(260000,312000]}

以属性图G中第312000个顶点，即v₃₁₂₀₀₀，举例：

v₃₁₂₀₀₀所在的源顶点簇V_S为第31个，即V_S(31)；

v₃₁₂₀₀₀所在的目的顶点簇为第6个，即V_T(6)；

在本实施例中，经过步骤2所述的外层不对称网格分图策略分图后，步骤1所定义的图的边集E将被划分出156×30个边的子集，如图2所示，每个边的子集的符号定义为Block(x,y)，Block(x,y)表示源顶点簇V_S(x)和目的顶点簇V_T(y)对应的边集合，具体定义为：

Block(x,y)＝{e_i,j|v_i∈V_S(x),v_j∈V_T(y),x∈[1,156],y∈[1,30]}

以x＝150，y＝6举例，则Block(150,6)＝{e_i,j|v_i∈V_S(150),v_j∈V_T(6)}＝{e_i,j|i∈(1490000,1500000],j∈(260000,312000]}；

|Block(x,y)|为集合Block(x,y)的势，表示顶点簇V_S(x)和V_T(y)对应的边集合中连边的数量，如图2所示；

步骤3：将步骤2中通过外层不对称网格分图策略算法得到的156×30个边集合Block再次细化分簇，对每个Block通过内层不对称网格分图策略算法得到粒度更小的顶点簇以及每对细粒度顶点簇对应的细粒度边集合；

内层不对称网格分图策略算法的应用对象是步骤2得到的每对顶点簇对应的边集合中超过一定大小(记为Csize)的边集合，即满足|Block(x,y)|>Csize的Block(x,y)；

本实施例中，以Block(150,6)为例说明步骤3所述的对边集合再次细化分簇，具体为：

因为|Block(150,6)|/Csize＝6，令Block(150,6)对应的P_s’＝2，P_t’＝3(还可以令P_s’＝1，P_t’＝6，取值由用户决定，下文不赘述)；

由于Block(150,6)对应的P_s’＝2，P_t’＝3，Block(150,6)通过内层不对称网格分图策略算法将得到2个细粒度源顶点簇V_S(150_a,Block(150,6))(其中a∈[1,2]，

和3个细粒度目的顶点簇V_T(6_b,Block(150,6))

以及每对细粒度顶点簇对应的细粒度边集合Block(150_a,6_b)，如图3所示；

如图3所示，V_S(150₂,Block(150,6))表示V_S(150)针对Block(150,6)划分的第2个细粒度源顶点簇,本实施例中V_S(150₁,Block(150,6))＝{v_i|i∈(1490000，1495000]}，V_S(150₂,Block(150,6))＝{v_i|i∈(1495000，1500000]}；

V_T(6₁,Block(150,6))表示V_T(6)针对Block(150,6)划分的第1个细粒度源顶点簇,V_T(6₁,Block(150,6))＝{v_j|j∈(260000，277334]},V_T(6₂,Block(150,6))＝{v_j|j∈(277334，294668]},V_T(6₃,Block(150,6))＝{v_j|j∈(294668，3120000]}；

Block(150_a,6_b)为源顶点簇V_S(150_a,Block(150,6))和目的顶点簇V_T(6_b,Block(150,6))对应的边集合，Block(150_a,6_b)＝{e_i,j|v_i∈V_S(150_a,Block(150,6)),v_j∈V_T(6_b,Block(150,6)),a∈[1,2],b∈[1,3]}，；

以a＝2,b＝3为例，Block(150₂,6₃)为源顶点簇V_S(150₂,Block(150,6))和目的顶点簇V_T(6₃,Block(150,6))对应的边集合,Block(150₂,6₃)＝{e_i,j|v_i∈V_S(150₂,Block(150,6)),v_j∈V_T(6₃,Block(150,6))}＝{e_i,j|i∈(1495000，1500000],j∈(294668，3120000]}；

另外，|Block(10,3)|/Csize＝3，则令Block(10,3)对应的P_s’＝1，P_t’＝3；此处说明Block(150,6)对应的P_s’和P_t’与Block(10,3)对应的P_s’和P_t’是相互独立的。

继续以Block(150,6)为例进行解释，Block(150,6)通过步骤3得到Block(150₁,6₁)，Block(150₂,6₁)，Block(150₁,6₂)，Block(150₂,6₂)，Block(150₁,6₃)，Block(150₂,6₃)等6个细粒度边集合，步骤4对这6个细粒度边集合按源顶点簇优先的顺序重组得到Block’(150,6)，即Block’(150,6)＝[Block(150₁,6₁)，Block(150₁,6₂)，Block(150₁,6₃)，Block(150₂,6₁)，Block(150₂,6₂)，Block(150₂,6₃)]，如图4所示；

步骤5：对所有一维数组Block’(x,y)(x∈[1,156]，y∈[1,30])按目的顶点簇优先的顺序重组，得到一个一维数组Block’(x,y)间有序的属性图二维数组Grid；

对于没有执行步骤3和步骤4的Block(x,y)，(|Block(x,y)|≤Csize)，Block(x,y)＝Block’(x,y)，如步骤3提到的Block(31,6)有Block(31,6)＝Block’(31,6)；

经过前述的步骤1-4，得到156×30个Block’(x,y)(x∈[1,156]，y∈[1,30])，步骤5对这156×30个一维数组Block’(x,y)按目的顶点簇优先的顺序重组得到Grid＝[Block’(1,1)，Block’(2,1)，…Block’(156,1)，Block’(1,2)，Block’(2,2)，…Block’(156,30)]，如图5所示；

步骤6：通过步骤5得到的属性图二维数组Grid构建出1个拓扑数组Column(E)和q个边的属性的数组Column(A_E(b))，b∈[1,80]；

其中，Column(E)＝E，Column(E)中边的顺序与步骤5得到的属性图数据集合中的边的顺序一致；Column(A_E(b))＝{(k,A_E(b,i,j))|e_i,j∈E,i∈[1,1560000],j∈[1,1560000],k∈[1,23450000]}，Column(A_E(b))中的数组元素的个数为23450000，b∈[1,80]；

以b＝15为例，Column(A_E(15))＝{(k,A_E(15,i,j))|e_i,j∈E,i∈[1,1560000],j∈[1,1560000],k∈[1,23450000]}，Column(A_E(15))中的数据条目为边位移k-属性值A_E(15,i,j)的键-值对，若e_35,60在拓扑数据集合Column(E)中处于第500条边，则e_35,60在Column(A_E(15))中对应的属性元素记录为(500,A_E(15,35,60))；Column(A_E(15))总共包含23450000个数组元素(k,A_E(15,i,j))，k∈[1,23450000]；

步骤7：对顶点的属性数据A_V构建出m个顶点的属性一维数组Column(A_V(a))，Column(A_V(a))＝{(i,A_V(a,i))|i∈[1,1560000]}，a∈[1,50]；

Column(A_V(a))中的数组元素为顶点i-属性值A_V(a,i)的键-值对，顶点i的定义参见步骤1，i∈[1,1560000]，Column(A_V(a))中的键-值对的数目为1560000，a∈[1,50]；

在本实施例中，给定一个有属性条件限制的图计算任务，具体为：计算第13个顶点到第1549876个顶点的最短路径，顶点的属性条件限制为：第1个属性的属性值>100且第25个属性的属性值≠0的顶点，边的属性限制条件为：第4个属性的属性值≥0或第67个属性的属性值＝1的顶点。将该计算任务通过符号表示，为：计算v₁₃到v_1549876的最短路径，参与计算的顶点集Task_V＝{v_i|A_V(1,i)>100AND A_V(25,i)≠0,v_i∈V,i∈[1,1560000]}，参与计算的边集Task_E＝{e_i,j|A_E(4,i,j)≥0OR A_E(67,i,j)＝1,e_i,j∈E,i∈[1,1560000],j∈[1,1560000]}。默认v₁₃和v_1549876参与计算。

步骤8：符合属性条件限制的拓扑子图标记——根据用户给定的属性条件限制，依次顺序遍历需要的在步骤7得到的顶点属性数组，在内存中得到一个顶点标记数组，再依次顺序遍历需要的在步骤6得到的边属性数组并结合顶点标记数组，最终得到在内存中的顶点标记数组和边标记数组；

本实施例中具体的实施过程说明如下：

1.首先初始化顶点标记数组VertexArray[1560000]和边标记数组EdgeArray[23450000]，这两个数组大小分别为1560000比特和23450000比特；

2.因为给定的实施例的计算任务中有顶点的属性条件限制，所以标记过程首先进行顶点标记。先遍历步骤7得到的Column(A_V(1))，对任意i∈[1,1560000]，若A_V(1,i)>100，VertexArray[i]＝1，否则VertexArray[i]＝0；再遍历步骤7得到的Column(A_V(25))，对任意i∈[1,1560000]，若VertexArray[i]＝1，则判断A_V(25,i)≠0是否为真，若为真则VertexArray[i]＝1不变，若为假则VertexArray[i]＝0；默认v₁₃和v_1549876参与计算，故令VertexArray[13]＝1，VertexArray[1549876]＝1；

3.接下来对边进行标记。先遍历步骤6得到的Column(A_E(4))，对任意k∈[1,23450000]，如果(k,A_E(4,i,j))中对应的A_E(4,i,j)≥0，则EdgeArray[k]＝1，否则EdgeArray[k]＝0；再遍历步骤6得到的Column(A_E(67))，对任意k∈[1,23450000]，如果(k,A_E(67,i,j))中对应的A_E(67,i,j)＝1，则EdgeArray[k]＝1，否则不改变EdgeArray[k]的现有值；

步骤9：根据用户给定的计算任务，顺序读步骤6得到的拓扑数组，对读入的每条边通过步骤8得到的顶点标记数组和边标记数组判断该边是否需要进行计算，若需要则按用户定义的计算任务处理；遍历完拓扑数组中的每条边后，根据用户定义的计算任务判断是否满足计算任务结束条件，是则结束，否则重复步骤9。

实施例具体的实施过程说明如下：

1.设置一个活跃顶点数组ActiveArray[1560000]，ActiveArray[13]＝1；

2.第一次迭代：遍历步骤6得到的Column(E)，目前只有ActiveArray[13]状态为活跃，所以当遍历到e_13,j，j∈[1,1560000]时，获得e_13,j在Column(E)的边位移k，k∈[1,23450000]，

然后查询步骤8得到的顶点标记数组VertexArray，如果VertexArray[j]＝0则遍历Column(E)中的下一条边e_i,j，如果VertexArray[j]＝1，再查询步骤8得到的边标记数组EdgeArray，如果EdgeArray[k]＝1，则令ActiveArray[j]＝1并遍历Column(E)中的下一条边e_i,j，如果EdgeArray[k]＝0，则遍历Column(E)中的下一条边e_i,j；

遍历完Column(E)时令ActiveArray[13]＝0；

假设Column(E)中有e_13,16和e_13,14532，同时VertexArray[16]＝1、VertexArray[14532]＝1且对应的EdgeArray[k]＝1，所以有ActiveArray[16]＝1和ActiveArray[14532]＝1；

3.第二次迭代：遍历步骤6得到的Column(E)，目前有ActiveArray[16]和ActiveArray[14532]状态为活跃，所以当遍历到e_16,j和e_14532,j时，获得e_16,j和e_14532,j在Column(E)的边位移k，k∈[1,23450000]，

遍历完Column(E)时令ActiveArray[16]＝0，ActiveArray[14532]＝0；

假设Column(E)中有e_16,100、e_14532,16540和e_{14532,1549876}，同时VertexArray[100]＝1、VertexArray[16540]＝1、VertexArray[1549876]＝1且对应的EdgeArray[k]＝1，所以有ActiveArray[100]＝1，ActiveArray[16540]＝1，ActiveArray[1549876]＝1，因为v_1549876就是要到达的顶点，所以达到步骤2结束条件，本实施例给定的有属性条件限制的图计算任务完成。计算结果为v₁₃到v_1549876的最短路径长度为2，路径为v₁₃到v₁₄₅₃₂到v_1549876。

具体实施时，本领域技术人员可采用计算机软件方式支持实现流程。

本发明提供了本领域技术人员能够实现的技术方案。以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。

Claims

1.一种单机核外属性图计算方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤1中所述的属性图，可概括为顶点和边都具有属性的拓扑图，具体定义为：

G＝(V,E,A_V,A_E)

V＝{v_i|i∈[1,|V|]}

E＝{e_i,j＝<v_i,v_j>|v_i∈V，v_j∈V}表示属性图中边的集合，e_i,j＝<v_i,v_j>表示属性图中第i个顶点到第j个顶点的有向连边，i∈[1,|V|]，j∈[1,|V|]；任意无向边e_i,j′＝(v_i,v_j)在E中将被表示为e_i,j＝<v_i,v_j>和e_ji＝<v_j,v_i>两条对向的有向边；

|V|为集合V的势，表示属性图顶点的数量；

|E|为集合E的势，表示属性图连边的数量。

3.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

P_s和P_t均为正整数，P_s≥P_t；

步骤2所述源顶点簇定义为：

V_S(x)＝{v_i|i∈(|V|×(x-1)/P_s,|V|×x/P_s],x∈[1,P_s]}，

步骤2所述目的顶点簇定义为：

V_T(y)＝{v_i|i∈(|V|×(y-1)/P_t,|V|×y/P_t],y∈[1,P_t]}，

对于属性图中第i个顶点即v_i∈V(i∈[1,|V|])：

v_i所在的源顶点簇V_S为第i/(|V|/P_s)个，即V_S(i/(|V|/P_s))；

v_i所在的目的顶点簇为第i/(|V|/P_t)个，即V_T(i/(|V|/P_t))；

Block(x,y)＝{e_i,j|v_i∈V_S(x),v_j∈V_T(y)}，x∈[1,P_s]，y∈[1,P_t]

|Block(x,y)|为集合Block(x,y)的势，表示顶点簇V_S(x)和V_T(y)对应的边集合Block(x,y)中连边的数量。

4.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤3所述内层不对称网格分图策略算法的应用对象是步骤2得到的每对顶点簇对应的边集合中超过一定大小记为Csize的边集合，即满足|Block(x,y)|>Csize的Block(x,y)；

步骤3所述的对边集合再次细化分簇具体为：

以及每对细粒度顶点簇对应的细粒度边集合Block(x_a,y_b)；

步骤3所述细粒度源顶点簇定义为：

(结果为小数时向上取整)，x∈[1,P_s]，a∈[1,P_s’]，N＝|V|，

步骤3所述细粒度目的顶点簇定义为：

(结果为小数时向上取整)，y∈[1,P_t]，b∈[1,P_t’]，N＝|V|，

步骤3所述细粒度边集合定义为：

5.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤4所述的对Block(x,y)的细粒度边集合Block(x_a,y_b)按源顶点簇优先的顺序重组，具体为：Block(x₁,y₁)，Block(x₁,y₂)，…Block(x₁,y_Pt’)，Block(x₂,y₁)，…Block(x_Ps’,y_Pt’)，所得到的一维数组Block’(x,y)为按步骤4所述的按源顶点簇优先的顺序重组Block(x,y)的P_s’×P_t’个细粒度边集合后的结果，Block’(x,y)＝[Block(x₁,y₁)，Block(x₁,y₂)，…Block(x₁,y_Pt’)，Block(x₂,y₁)，…Block(x_Ps’,y_Pt’)]，一维数组长度为P_s’×P_t’。

6.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤5所述的对一维数组Block’(x,y)(x∈[1,P_s]，y∈[1,P_t])按目的顶点簇优先的顺序重组，具体为：

Block’(1,1)，Block’(2,1)，…Block’(P_s,1)，Block’(x₂,y₁)，…Block’(P_s,P_t)，所得到的属性图二维数组Grid即为以步骤5所述的按源顶点簇优先的顺序重组所有Block’(x,y)(x∈[1,P_s]，y∈[1,P_t])后的结果，Grid＝[Block’(1,1)，Block’(2,1)，…Block’(P_s,1)，Block’(x₂,y₁)，…Block’(P_s,P_t)]，Grid数组的长度为P_s×P_t；

由于Grid数组的每一个元素Block’(x,y)都是一个一维数组，故这P_s×P_t个一维数组重组后的到一个长度为P_s×P_t的二维数组Grid。

7.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤6具体为：

Column(A_E(b))＝{(k,A_E(b,i,j))|e_i,j∈E,i∈[1,N],j∈[1,N],k∈[1,|E|]}；

Column(A_E(b))中的数据条目为边位移k-属性值A_E(b,i,j)的键-值对，边位移k表示为e_i,j在拓扑数组Column(E)中处于第k条边，k∈[1,|E|]，Column(A_E(b))中的键-值对的数目为|E|，b∈[1,q]。

8.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤7具体为：

Column(A_V(a))＝{(i,A_V(a,i))|i∈[1,|V|]}，

Column(A_V(a))中的数组元素为键-值对，顶点i-属性值A_V(a,i)，顶点i的定义参见步骤1，i∈[1,|V|]，Column(A_V(a))中的键-值对的数目为|V|，a∈[1,m]。

9.根据权利要求1所述的单机核外属性图计算方法，其特征在于，

步骤8所述用户给定的属性条件限制定义为：若干个顶点属性即0到m个和若干个边属性即0到q个的逻辑运算组合式，逻辑运算组合式的结果仅通过0-1真假值即可表示；

用户给定的属性条件限制为UserQuery；

当UserQuery涉及的顶点属性数目和边属性数目均为0时，程序默认任意EdgeArray[k]＝1，k∈[1,|E|]。