CN103793525A

CN103793525A - 基于局部迭代的MapReduce模型的图结点的权威值计算方法

Info

Publication number: CN103793525A
Application number: CN201410060170.9A
Authority: CN
Inventors: 王文
Original assignee: JIANGSU WEISHI TECHNOLOGY Co Ltd
Current assignee: JIANGSU WEISHI TECHNOLOGY Co Ltd
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2014-05-14

Abstract

本发明提供一种基于局部迭代的MapReduce模型的图结点的权威值计算方法，包括：数据预处理与子图划分，采取随机的划分方式和基于社团结构的划分方式来进行子图的划分；迭代执行MapReduce任务进行PageRank计算，Map阶段对各个子图进行独立的基于内存的PageRank计算，Reduce阶段reduce函数将各个子图产生的新的权威值按照结点ID进行归约求和，得到最终的结点的权威值；算法收敛检测。本方法既保留了内存算法的高效性，又得益于MapReduce处理海量数据的可扩展性，高可用性和容错性。

Description

基于局部迭代的MapReduce模型的图结点的权威值计算方法

技术领域

本发明涉及一种基于局部迭代的MapReduce模型的图结点的权威值计算方法，应用于社会网络范畴，属于数据挖掘的技术领域。

背景技术

互联网时代信息的飞速膨胀使得搜索引擎成为人们必不可少的信息检索工具。网页排序作为搜索引擎的关键技术之一，它的好坏将直接影响用户对信息的准确查找。目前，有许多排序算法，不过应用最成功、最具研究价值的是由斯坦福大学的Larry Page和Sergey Brin提出PageRank算法。该算法是通过分析网络的链接结构来获得网络中网页的重要性排名。PageRank算法作为最著名的网页排序和社会网络声望度量的方法之一，自从它诞生以来便为众多学者所瞩目。PageRank算法最初是用于计算Web中网页的权威值，PageRank算法认为一个网页的权威值可以通过网络的链接结构来传递，在Web的链接图中，如果存在一个页面a指向另一个页面b的链接，则表明a对b的认可，即a将自己的权威值部分传递给了b。因此，一方面，指向一个页面b的页面越多，则该页面得到的权威值越高；另一方面，指向页面b的页面，如a，自身的权威值越高，则b得到的权威值也越高。随机行走模型模拟了一个随机用户在G上的访问行为：用户从任意的结点开始访问，每次行走，用户将依循从当前结点出发的有向边，以概率d随机选择下一个访问结点（概率d的取值在0.1到0.2之间，通常为0.15），或者跳转到任意的一个结点以1-d的概率开始新一轮的随机行走。用户不断的重复以上的随机行走行为，直到在某一时刻观察到用户停留在任意结点的概率保持稳定。该稳定状态下的各结点概率分布即为每个结点的权威值。

对于有向图G(V,E)，结点u的PageRank值R(u)由公式(1)给出。

R (u) = (1 - d) + d \times Σ_{v &Element; B_{u}} \frac{R (v)}{N_{v}} - - - (1)

B_u为所有到u有入边的邻居，N_v为结点v的出度。即图G中结点的PageRank值由所有指向它的结点的PageRank值以及那些结点的出度决定。这样的迭代过程直到各个结点的权威值保持不变停止，迭代过程如公式(2)所示。

R_{i} (u) = (1 - d) + d \times Σ_{v &Element; B_{u}} \frac{R_{i - 1} (v)}{N_{v}} - - - (2)

云计算技术是近年来计算机领域出现的具有很好可扩展性的处理大规模计算的新技术，MapReduce作为当前最流行的分布式并行编程模型，成为云计算平台支撑技术之一。MapReduce是Google公司的核心计算模型，它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数，map（映射）函数和reduce（化简）函数。Apache的Hadoop是一个开源的分布式并行计算平台，它实现了Google的MapReduce模型。HaLoop是Hadoop的针对解决迭代算法中多次迭代时造成的大量网络间数据传输的问题而提出了一个Hadoop的改进版本。

以前的基于MapReduce的PageRank算法，将边作为map函数的处理单位，这种做法忽略了PageRank算法相对于分布式系统的局部性，即可以本地处理的计算尽量本地计算，相对于Hadoop平台，这里的局部性指的是尽量减少map函数到reduce函数的通信量，即减少map函数的输出。我们称map的输出过程以及reduce的输入过程为混洗。这是因没map函数的输出要经过排序，写到本地磁盘，再通过socket传输到远程Reduce所在的节点。对于类似PageRank这种计算量不大的迭代的算法，混洗的代价占主要部分。

发明内容

本发明提出一种在MapReduce上基于子图的PageRank计算方法，即基于局部迭代的MapReduce模型的图结点的权威值计算方法（本文简称LI-PageRank算法），旨在通过减少Hadoop集群的通信代价来提高PageRank算法相对于Hadoop集群的局部性。我们将图G分为k个子图,保证每个字图可以载入内存作为一个处理单元进行处理。对于每次迭代，Map任务缓存前一次迭代计算得到的新的图中结点的权威值，对于该Map任务调用的每一个map函数，保证其所处理的子图可以从缓存中得到该子图需要的计算权威值的全部信息，如该子图中有出边的结点的前一次迭代的权威值与该结点在图G中的出度。Map过程计算各个子图的结点的部分的权威值，Reduce过程将部分权威值求和得到结点的完整的权威值，如公式(3)所示：

R_{i} (u) = (1 - d) + d \times Σ_{j = 1}^{k} Σ_{v &Element; B_{u} (j)} \frac{R_{i - 1} (v)}{N_{v}} - - - (3)

其中B_u(j)表示结点u的邻居结点中出现在子图j中的部分,d为随机选择下一个访问结点的概率，N_v为结点v的出度。从公式(3)中可以看到，我们的基于子图的PageRank计算方法只是提高了PageRank算法在MapReduce上执行的粒度，并没有改变其实质。

我们从两个方面来进行优化。一方面，通过采用局部迭代的MapReduce框架提供的本地缓存来保存子图中结点的前一次迭代产生的PageRank值，来减少一遍MapReduce任务。有两种方式可以实现局部迭代的MapReduce模型。一种是通过扩展Hadoop内核，另一种是通过Hadoop集成HBase（HBase是一个基于Hadoop的分布式列数据库）数据库。以下提到的Hadoop指扩展过的Hadoop系统。由于同一数据分片内的子图被mapper(mapper是指运行map函数的进程的术语)顺序处理，所以本地缓存中无需保存全部的结点的PageRank值，只保存当前需要处理的子图结点的PageRank值即可。我们借助于有效的图分片技术来尽量减少子图之间需要交换的信息量。另一方面，通过以子图为Map函数的计算单位，对于每一个子图，输出该子图中有入边的所有结点经过一次迭代的新的PageRank值，这种做法的好处是避免产生大量的中间结果，，使得Hadoop混洗的信息的数据大幅减少。

按照本发明提供的技术方案，所述基于局部迭代的MapReduce模型的图结点的权威值计算方法，包括如下步骤：

步骤a，数据预处理与子图划分，采取随机的划分方式和基于社团结构的划分方式来进行子图的划分；

步骤b，迭代执行MapReduce任务进行PageRank计算，Map阶段对各个子图进行独立的基于内存的PageRank计算，Reduce阶段reduce函数将各个子图产生的新的权威值按照结点ID进行归约求和，得到最终的结点的权威值；

步骤c，算法收敛检测，当数据集中的超过给定阈值的结点的权威值不再发生变化时，即算法收敛。

本发明的优点在于：提出的LI-PageRank算法改善了PageRank算法在MapReduce上的运行效率，该方法将基于内存的PageRank算法与基于外存的MapReduce编程模式结合起来。既保留了内存算法的高效性，又得益于MapReduce处理海量数据的可扩展性，高可用性和容错性。

附图说明

图1为本发明的方法与其它两种方法的性能比较（Facebook数据集）。

图2为本发明的方法与其它两种方法的混洗量的比较（Facebook数据集）。

图3为本发明的方法与其它两种方法的性能比较（LiveJournal数据集）。

图4为本发明的方法与其它两种方法的混洗量的比较（LiveJournal数据集）。

图5为子图划分的水平划分和垂直划分。

图6为子图划分的基于社团的划分。

图7为一个简单的社会网络例子

图8为子图划分的水平划分的子图表示。

图9为子图划分的垂直划分的子图表示。

图10为本发明的流程图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

为了提高PageRank算法在Hadoop系统上的性能以及减少分布式系统上应用程序的通讯量，本发明的基于局部迭代的MapReduce模型的图结点的权威值计算方法包括如下步骤：

步骤a，数据预处理与子图划分，采取随机的划分方式和基于社团结构的划分方式来进行子图的划分；子图划分指的是对一个大图，其临接表如何分布到Hadoop集群中多个数据节点上。为了计算的均匀，各个子图的大小一致或尽量均衡。子图划分的另外一个原则是要使得单个数据节点的内存可以保存确保子图PageRank计算所需要的上一次迭代的权威值表。

随机的划分方式包括对图的邻接表进行水平划分和垂直划分，水平划分旨在减少本地缓存中保存的权威值的结点的重复出现的个数；垂直划分旨在减少map输出的消息个数。这两种划分方式结合可以使得划分得到的子图大小尽可能均匀。由于单个mapper缓存在大多数情况下不能容纳整个权威值表，子图中具有出边的结点的个数要小于mapper缓存所能承受的存储结点权威值的个数。基于社团结构的划分方式是指考虑到图的社团结构进行子图的划分，同一社团内部的结点联系比较紧密，不同社团的结点的联系比较稀疏。水平划分和垂直划分如图5所示，基于社团的划分如图6所示。基于社团的划分可以有效地减少各个子图之间的通讯量。

在Map阶段，在mapper进程初始化时，本地缓存根据该数据分片所保存的子图ID列表将上一次迭代产生的保存该子图结点权威值的部分信息从HDFS（HDFS是Hadoop的底层分布式文件系统）上读到本地内存中，一次map函数调用计算一次子图的PageRank迭代。在Reduce阶段，reduce函数将各个子图产生的新的权威值按照结点ID进行归约求和，得到最终的结点的权威值。Reduce结果按照结点所属子图进行消息分组，同一子图的结点的权威值保存在同一HDFS输出文件中，以便在下一次迭代中被map缓存加载。

每一次MapReduce在Map阶段，把子图作为map函数输入的单位,根据公式(3),每一个子图的所有结点完成一次PageRank迭代的权威值传播。虽然各个子图之间存在链接关系,子图中结点的权威值计算可以并行进行计算。每个子图的数据结构包括该子图中的结点ID，该结点在子图中的邻居以及该结点的出度(在整个图中的该结点的链出的边数)。Mapper缓存在mapper初始化时从HDFS文件系统读取上一次迭代该mapper处理的所有子图所对应的权威值表，需要注意的是mapper可以调用多次map函数，每个map函数函数处理一个子图。在Reduce阶段，每个结点的部分权威值根据结点ID被汇总，求和后输出到HDFS文件系统。我们利用Hadoop系统提供的分区函数（Partioner）对Map过程的结果进行分组，我们称这个过程为消息分组。Reduce任务数量并非由输入数据的大小决定的，而是特别指定的。如果有多个Reduce任务，则每个Map任务会对其输出进行分区（partition），即为每个Reduce建立一个分区。

步骤c，算法收敛检测，当数据集中的超过给定阈值的结点的权威值（PageRank值）不再发生变化时，即算法收敛。

收敛检测是指何时迭代可以终止。LI-PageRank算法并没有改变PageRank算法的本质，只是它的分布式计算，所以LI-PageRank的收敛和PageRank算法的收敛在本质上是一致的。对于给定的阈值，对于图中每个结点，只要权威值的变化都小于这个阈值，认为算法收敛。如阈值为0.8，如果超过80%的结点的PageRank值不再发生变化时，即算法收敛。

实施例1

本实施例中，对图7中的简单网络进行基于局部迭代的MapReduce模型的图结点的权威值计算。假设map缓存可以容纳7条记录，由于该网络包含13个结点，所以需要至少分为两个子图。对于该网络，首先进行子图划分，应用水平划分和垂直划分得到的子图分别由图8和图9所示。然后迭代调用MapReduce任务，在Map阶段，需要调用两个map函数来处理两个子图，对这连个子图执行基于内存的PageRank算法。在Reduce阶段，每个结点的部分权威值根据结点ID被汇总，求和后输出到HDFS文件系统，根据结点所属的子图ID进行分组，形成两个HDFS文件，在下一次迭代开始时，处理不同子图时Map缓存只加载该子图的结点的权威值表即可。

实施例2

本实施例中，实施环境包括14台电脑的集群，每台电脑为双核（2.70GHz），CPU为E5400，4GB内存，使用linux操作系统。Hadoop版本为0.20.3，MapReduce系统的所有实验都使用Java1.6。

我们在集群上分别采用LiveJournal数据集和Facebook数据集运行基于局迭代的MapReduce模型的图结点的权威值计算方法(LI-PagueRank)和HaLoop的PageRank.对于Facebook数据集，图1和图2给出了运行时间和混洗数量的实验结果。对于LiveJournal数据集，图3和图4给出了运行时间和混洗数量的实验结果。从图中可以看到，对于Facebook数据集，LI-Pagerank算法相比HaLoop运行的PageRank算法在运行时间上减少了31%，相比Hadoop自带的PageRank实现运行时间减少了39%；对于LiveJournal数据集，LI-Pagerank算法相比HaLoop运行的PageRank算法在运行时间上减少了24%，相比Hadoop自带的PageRank实现运行时间减少了42%。运行时间大幅度缩减的原因是减少了一遍MapReduce任务以及通过采用大粒度的子图作为Map的处理单位，降低了Hadoop系统的消息通讯量。

本方法以子图作为处理单位，消息通讯主要为子图之间的信息交互；通过缓存和索引机制从上一次迭代的结果中获得对应子图计算需要的局部信息，支持子图的PageRank内存计算。

与以往的PageRank算法相比，本发明的主要创新点如下：

a、提出了一种基于子图的PageRank计算方法LI-PageRank，该方法将基于内存的PageRank算法与基于外存的MapReduce编程模式结合起来。既保留了内存算法的高效性，又得益于MapReduce处理海量数据的可扩展性，高可用性和容错性。

b、采取了新颖的有利于减少系统通讯量的子图划分方式，采取对图的邻接表进行垂直划分和水平划分相结合的划分方式，可以有效地减少单个计算结点缓存的压力，每个计算结点只需在子图执行PageRank计算时加载该子图需要的权威值表；采取基于社团的分图方式有效地减少了子图之间的通讯。

c、采用mapper缓存存储子图PageRank计算需要的权威值表，采用reduce结果信息分组存储对应的子图的权威值表，可以减少一遍MapReduce任务，提高了算法的运行效率。

Claims

1.一种基于局部迭代的MapReduce模型的图结点的权威值计算方法，其特征在于，包括下述步骤：

2.如权利要求1所述的基于局部迭代的MapReduce模型的图结点的权威值计算方法，其特征在于：

所述步骤a中，划分的各个子图的大小一致或尽量均衡。

3.如权利要求1所述的基于局部迭代的MapReduce模型的图结点的权威值计算方法，其特征在于：

所述步骤a中，随机的划分方式包括对图的邻接表进行水平划分和垂直划分相结合的划分方式。

4.如权利要求1所述的基于局部迭代的MapReduce模型的图结点的权威值计算方法，其特征在于：

步骤b中，所述迭代执行MapReduce任务进行PageRank计算，Map阶段对各个子图进行独立的基于内存的PageRank计算，具体包括：

把子图作为map函数输入的单位,根据公式(3),每一个子图的所有结点完成一次PageRank迭代的权威值传播；虽然各个子图之间存在链接关系,子图中结点的权威值计算可以并行进行计算；每个子图的数据结构包括该子图中的结点ID，该结点在子图中的邻居以及该结点的出度；Mapper缓存在mapper初始化时从HDFS文件系统读取上一次迭代该mapper处理的所有子图所对应的权威值表；

R_{i} (u) = (1 - d) + d \times Σ_{j = 1}^{k} Σ_{v &Element; B_{u} (j)} \frac{R_{i - 1} (v)}{N_{v}} - - - (3)

其中B_u(j)表示结点u的邻居结点中出现在子图j中的部分,d为随机选择下一个访问结点的概率，N_v为结点v的出度。