CN104915427B

CN104915427B - 一种基于广度优先遍历的图处理优化方法

Info

Publication number: CN104915427B
Application number: CN201510326328.7A
Authority: CN
Inventors: 施展; 冯丹; 欧阳梦云; 黄力; 郭鹏飞; 韩江; 余静; 鲍匡迪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-06-15
Filing date: 2015-06-15
Publication date: 2018-01-05
Anticipated expiration: 2035-06-15
Also published as: CN104915427A

Abstract

本发明公开了一种基于广度优先遍历(BFS,Breadth First Search)的图处理优化方法,属于计算机存储及数据处理技术领域，解决现有基于外部存储器的大规模图处理系统在访问图数据时产生大量外存I/O，严重影响文件缓存命中率，削弱I/O性能的问题，从而提高图处理系统的效率。本发明在不改变图处理模型和用户操作复杂度的前提下，以充分利用外存储设备顺序I/O性能和提高系统文件缓存命中率为目标，提出了针对图遍历类型应用进行I/O优化的BFS树数据布局方案。通过对不同来源、类型、尺寸的图数据集进行数据布局优化，图处理系统的效率有明显提升。

Description

一种基于广度优先遍历的图处理优化方法

技术领域

本发明属于计算机数据处理技术领域，更具体地，涉及一种基于广度优先遍历的图处理优化方法。

背景技术

图是计算机科学中最常用的一类抽象数据结构，现实世界中的许多应用场景都需要用图结构表示，与图相关的处理和应用几乎无处不在。传统应用如最优运输路线问题、地图、科技文献引用关系、疾病爆发路径预测等；新兴应用如社交网络分析、语义Web分析、数据挖掘、蛋白质分解等。

伴随着图应用及图处理技术的快速发展，图算法理论也层出不穷。广度优先搜索是最简便的图搜索算法之一，也是很多重要图算法的基础。

随着信息化时代的到来，各种信息以爆炸模式增长，导致图的规模日益增大，我们通常要分析处理图的上亿个顶点和边，面对如此大规模的图结构，如何有效的执行图处理就成为一个新的挑战。

现有大规模图数据处理的主要研究方向之一是基于外存储器存储和处理图数据。但该方式的问题是如何在分层存储体系上高效地进行图处理。然而由于图数据的高关联性、低局部性，以及图算法访问的随机性，操作系统中传统的基于时空局部性优化的存储访问机制很难发挥作用，而图的遍历查询是大部分图算法的构建基础，在外存模式下如何优化图查询的I/O，加快图遍历的性能由此就成为高效处理图数据的关键。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于广度优先遍历的图处理优化方法，其目的在于在不改变图处理模型和用户操作复杂度的前提下，以充分利用外存储设备顺序I/O性能和提高系统文件缓存命中率。通过使用BFS算法重新布局外存储设备上的数据，使其符合一般图数据的I/O特性，优化图处理的性能。

为实现上述目的，本申请提供了一种基于广度优先遍历的图处理优化方法。

该方法的步骤如下：

(1)输入图数据文件；

(2)判断图数据文件是否已经根据图顶点进行编号排序形成有序文件，若是，则跳转(4)步继续执行；若否，跳转到(3)步执行；

(3)将图数据文件按顶点编号排序，形成顺序文件；

(4)根据顺序文件生成其对应的索引文件信息；

(5)将图的顶点及边的索引信息加载入内存；

(6)随机选取一个顶点进行广度优先遍历，生成广度优先遍历树，并记录图顶点的访问顺序，生成遍历后的序列文件；

(7)根据遍历序列文件与原始顶点编号，生成顶点映射表；

(8)依次读取顺序文件内容，并根据顶点映射表来更新顶点编号并重新排序，直至完成对所述图数据文件中所有顶点的操作，此即为布局处理后的图数据文件，从而完成整体的图像遍历处理过程。

另外，图结构存储文件格式现在主要有边列表(Edgelist)、邻接列表(Adjacencylist)、CSR(Compressed Sparse Row)、CSC(Compressed Sparse Column)等等，其中CSR和CSC格式是完全按顶点编号排序的顺序文件。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于图数据文件具有顶点、边数量巨大的特点以及BFS路径最短的特点，由此，采用了BFS树数据布局方案，实现图数据的重新布局，所需时间短至秒数量级，相对于图数据处理时间可以忽略不计，但对随后图数据的处理效率有很大的提高，特别是针对现有单机外存模式类型的图处理引擎如GraphChi(Aapo Kyrola等人2012年发表的文章GraphChi:Large-Scale GraphComputation on Just a PC)，处理效率可以提高几倍。

附图说明

图1为本发明的流程示意图；

图2为8个顶点的图结构及图邻接表；

图3为重新编号后图结构及图邻接表。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本实例中选取8个顶点、11条边的图来作详细说明，同时为了进一步阐述清楚本发明，假设一个BFS访问序列为L_i＝a₁,a₂,a₃......a_n，定义BFS访问序列中相邻两顶点的编号为连续编号，则该序列的顺序性加1，即a_i+1-a_i＝1时Δ_j＝1，其他情况下Δ_j＝0，则定义一个BFS访问序列的连续性为。

(1)输入一个如图2的图数据文件，且文件格式为CSR，该图的邻接表信息也在图2中相应给出。

(2)判断图数据文件是否已根据图顶点编号排序后的文件，根据用户输入的文件格式为CSR，可以判断该图数据文件是已排序的文件，不需要对文件重新根据图顶点编号排序。

(3)根据上述CSR顺序文件生成其对应的索引文件信息，。

(4)将图的顶点及边的索引信息加载入内存。

(5)在本例中选取1号顶点作为BFS访问的根顶点进行广度优先遍历，生成广度优先遍历树，并记录图顶点的访问顺序为L₁＝{1,2,5,7,3,4,6,8}，生成遍历后的序列文件。

(6)根据遍历序列文件与原始顶点编号，生成图顶点的映射表为{1->1,2->2,3->5,4->7,5->3,6->4,7->6,8->8}。

(7)依次读取原顺序文件内容，并根据顶点映射表更新顶点编号并排序，得到图3所示的图结构及图邻接表，此即为布局处理后的顺序图数据文件。

根据图2、图3的结构信息，均选取1号顶点作为BFS的访问根顶点，则相应的BFS访问序列为L₁＝{1,2,5,7,3,4,6,8}，L₂＝{1,2,3,4,5,6,7,8}，进而对应的访问顺序性为s1＝2和s2＝7，其中s₁＜s₂，使用BFS重新布局后的文件顺序访问次数增多，整体的图遍历顺序性提高，且随着图规模的增大，图处理系统的效率也会相应提高。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于广度优先遍历的图处理优化方法，其特征在于：该方法包括以下步骤：

(1)输入图数据文件；

(3)将图数据文件按顶点编号排序，形成顺序文件；

(4)根据顺序文件生成其对应的索引文件信息；

(5)将图的顶点及边的索引信息加载入内存；

(6)随机选取一个顶点，作为BFS访问的根顶点进行广度优先遍历，生成广度优先遍历树，并记录图顶点的访问顺序，生成遍历后的序列文件；

(7)根据遍历序列文件与原始顶点编号，生成顶点映射表；