CN109033191A

CN109033191A - 一种面向大规模幂律分布图的分割方法

Info

Publication number: CN109033191A
Application number: CN201810683562.9A
Authority: CN
Inventors: 崔焕庆; 牛健; 魏永山; 张峰; 徐强; 荣炫宇
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-18

Abstract

本发明公开了一种面向大规模幂律分布图的分割方法，具体涉及图数据分割技术领域，其解决了现有的分割算法严重影响分布式图计算方法的效率的不足。该面向大规模幂律分布图的分割方法更加适应社交网络图，针对其具体的图结构特性，能够得到较好的分割结果；分割后的各子图一方面能够满足负载均衡，另一方面能够最小化通信开销，此方法能够应用于多种实际场合，比如进行社交网络分析、社区发现、知识或消息传播。

Description

一种面向大规模幂律分布图的分割方法

技术领域

本发明涉及图数据分割技术领域，具体涉及一种面向大规模幂律分布图的分割方法。

背景技术

随着社交网络、交通网络、通信网络等的飞速发展，图结构数据分析的重要性日益突出。同时，图结构数据的规模越来越大，分布式计算成为处理大规模图数据的有效手段。在分布式图计算中，如何对图数据进行分割，以使得各个并行计算节点之间的通信量达到最小且保障各个计算节点的负载均衡，是进行分布式图计算的基础。

目前，常用的算法有KL算法、FM算法、谱划分方法等集中式分割算法，Hash算法、BLP算法等分布式分割算法。集中式算法计算复杂度高，难以适用于分布式计算环境；而现有的分布式算法没有考虑图的特点，导致计算节点间的通信量过大。

实际上，由社交网络、交通网络、通信网络等构建的图数据，通常都是一种大规模幂律分布图，即图的顶点数和边数庞大、顶点度服从幂律分布。此时，传统的分割算法将严重影响分布式图计算算法的效率。

发明内容

本发明的目的是针对上述不足，提出了一种通过根据图的结构特性进行合理分割，实现分割后各计算节点的负载均衡，并降低分布式运算的通信开销，提高计算效率的面向大规模幂律分布图的分割方法。

本发明具体采用如下技术方案：

一种面向大规模幂律分布图的分割方法，具体包括以下步骤，

输入图G＝(V,E)，其中，V＝{v₁,v₂,…,v_n}，E＝{(u,v)|u∈V∧v∈V}，V为图的顶点集合，E为图的边集合，D＝{d_i|d_i＝|{u|(u,v_i)∈E}|}为顶点的度的集合，d_i为顶点v_i的度；

步骤一：对图中所有顶点按度数进行排序，使得排序之后顶点的度数满足d_i≥d_j,i＜j；

步骤二：取V_large＝{v_i|d_i≥λ}，其中λ为给定的一个顶点度的阈值，设V_large＝{u₁,u₂,…,u_m}；

步骤三：假设将图分为k个子图{P₁,P₂,…,P_k}，且m≥k，将V_large中的顶点u_i放入P_j中，其中j＝i mod k；

步骤四：对于每个分区P_j(j＝1,2,…,k)中的每一个顶点v，对{u|(u,v)∈E}中的每一个顶点u，如果u尚未放入任何一个分区中，则将u放入分区P_j中；

步骤五：使用模拟退火算法对上述分区结果进行调优，具体包括：

⑤：设定温度初始值T，温度最小值T_min，每个T值迭代次数的迭代次数L；

⑥：取l＝1；

⑦：取j＝1；

⑧：取i＝min{a|a∈[0,k]∧i≠j}；

⑤：对于顶点v∈P_j，计算能量差ΔE＝OE(P^new)-OE(P^old)，其中OE(P^old)是指未调整分区前交互边的条数，OE(P^new)是将顶点v移动到分区P_i(i≠j)后交互边的条数；交互边是指满足((u,v)∈E∧u∈P_i∧v∈P_j∧i≠j)的边；

⑥：若ΔE＜0，则将v转移到P_i中，否则计算转移概率若p>Random[0,1)，则将v转移到P_i中，否则不转移；

⑦：取i＝i+1，若i＝j，则继续取i＝i+1；

⑧：若i≤k，则转至⑤，否则取j＝j+1，若j≤k，则转至④，否则继续进行⑨；

⑨：l＝l+1，若l≤L，则转至③，否则进行⑩；

⑩：取T＝αT(0＜α＜1)，若T＜T_min，则输出当前的分区结果，否则进行②；

步骤六：取j＝1；

步骤七：对于每个顶点v∈P_j，对{u|(u,v)∈E}中的每一个顶点u，如果u尚未放入任何一个分区中，则将u放入分区P_j中，若u已在其他分区P_i(i≠j)中，则进行步骤八；

步骤八：判断P_j和P_i中的顶点个数，如果两个分区中的顶点个数相差超过δ，则u移动到P_j中，否则u保留在P_i中；

步骤九：取j＝j+1，若j≤k，则进行步骤七，否则继续步骤十；

步骤十：若仍有顶点未划分，则进行步骤六，否则结束。

本发明具有如下有益效果：

本发明与现有图分割算法相比，具有以下优势：

相较于集中式分割算法，此发明能够处理更大规模的图数据。

与传统的分布式分割方法相比，该面向大规模幂律分布图的分割方法更加适应社交网络图，针对其具体的图结构特性，能够得到较好的分割结果；分割后的各子图一方面能够满足负载均衡，另一方面能够最小化通信开销，此方法能够应用于多种实际场合，比如进行社交网络分析、社区发现、知识或消息传播。

附图说明

图1为面向大规模幂律分布图的分割方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

如图1所示，一种面向大规模幂律分布图的分割方法，具体包括以下步骤，

⑨：设定温度初始值T，温度最小值T_min，每个T值迭代次数的迭代次数L；

⑩：取l＝1；

取j＝1；

取i＝min{a|a∈[0,k]∧i≠j}；

⑦：取i＝i+1，若i＝j，则继续取i＝i+1；

⑨：l＝l+1，若l≤L，则转至③，否则进行⑩；

步骤六：取j＝1；

步骤十：若仍有顶点未划分，则进行步骤六，否则结束。

很多领域中的图都是大规模幂律分布图。以某大学公开的SNAP图数据库中的部分表征社交网络等关系的图数据为例，设定每个图中顶点度数的最大值为d_max，采用该分隔方法阈值λ＝0.1×d_max，表1给出了它们的顶点数、边数和顶点集合V_large中的顶点数量。

表1

图名称	顶点数量	边数量	V_large中的顶点数量
				p2p-Gnutella04	10876	39994	5
p2p-Gnutella25	22687	54705	7
				p2p-Gnutella30	36682	88328	9
p2p-Gnutella31	62586	147892	17
				email-EuAll	265214	420045	32
web-NotreDame	325729	1497134	52
				wiki-Talk	2394385	5021410	263

从表1中可以得出，只有极少数顶点的度数很高，大多数顶点的度数很低。利用本分隔方法，设需将图分布在K＝10台计算机上，即将图分为10个子图(也就是分区)，以wiki-Talk图为例，具体的分割过程为：

1.根据步骤一，对图中的顶点按照度数排成非增序。

2.根据步骤二，取λ＝0.1×d_max，其中d_max是wiki-Talk中的顶点度数的最大值，此时，V_large＝{u₁,u₂,…,u₂₆₃}。

3.根据步骤三，对上述V_large中的263个顶点分布在10个子图中，结果为表2：

表2

4.根据步骤四，将与u₁相邻的、没有被分割的顶点放在P₁中，将与u₂相邻的、没有被分割的顶点放在P₂中，以此类推，直至将图中所有与V_large中的顶点连通的顶点分割完毕。

5.根据步骤五，对上述初步分割的结果进行调优，目标为减少不同分区之间交互边的数量。

6.根据步骤六至步骤十，将与V_large中的顶点不连通的顶点进行分割，目标是保持各分区间的顶点数量尽量相同。

经分割，最终各个分区间的交互边数量为10876条。

传统的基于Hash函数的分割算法，仅仅是根据顶点编号，根据一个预先给定的Hash函数进行分割，虽然能够实现各个分区的顶点数量相近，但是各个分区间的交互边数量很大。这里采用f(d_i)＝i mod 10作为分割函数，分割后交互边数量为341708条。显然比本发明公开的面向大规模幂律分布图的分割方法产生了更多的交互边，也就使得在图计算过程中，通信量急剧增大。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种面向大规模幂律分布图的分割方法，具体包括以下步骤，其特征在于，

①：设定温度初始值T，温度最小值T_min，每个T值迭代次数的迭代次数L；

②：取l＝1；

③：取j＝1；

④：取i＝min{a|a∈[0,k]∧i≠j}；

⑦：取i＝i+1，若i＝j，则继续取i＝i+1；

⑨：l＝l+1，若l≤L，则转至③，否则进行⑩；

步骤六：取j＝1；

步骤十：若仍有顶点未划分，则进行步骤六，否则结束。