CN110297714B

CN110297714B - 基于大规模图数据集获取PageRank的方法及装置

Info

Publication number: CN110297714B
Application number: CN201910529197.0A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 张涛; 安飞飞; 潘峻; 王存伟; 王震宇; 周轩
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2023-05-30
Anticipated expiration: 2039-06-19
Also published as: CN110297714A

Abstract

本发明提供了一种基于大规模图数据集获取PageRank的方法及装置，其中方法包括：S1初始化graph；S2基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；S3判断迭代是否完成，如果迭代完成，则执行S8，如果迭代未完成，则执行S4；S4释放上一轮graph缓存；S5判断总迭代次数是否能够被可配置参数整除，其中，可配置参数为迭代写入轮数，如果总迭代次数不能被可配置参数整除，则执行S6；如果总迭代次数能被可配置参数整除，则执行S7；S6将当前new graph进行缓存，返回执行S2；S7将当前new graph写入磁盘，返回执行S2；S8保存计算结果。

Description

基于大规模图数据集获取PageRank的方法及装置

技术领域

本发明涉及数据计算技术领域，尤其涉及一种基于大规模图数据集获取PageRank的方法及装置。

背景技术

在数据量与日俱增的今天，大规模数据计算(Spark、Hadoop)已经是不得不面对的问题，特别是计算复杂度最高的图计算(Spark GraphX)，会消耗企业大量的计算资源。

目前在做上亿节点、十几亿边Graph的PageRank(网页级别，是Google排名运算法则(排名公式)的一部分，是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的唯一标准。)的有效计算时，要消耗400个CPU和1200G的内存，而通常一家普通企业的大数据集群配置大概是48个CPU和120G的内存，对于这些企业来说所拥有的计算资源是远远不够的，所以对于它们来说PageRank值是无法有效计算得到结果的，主要原因在于在资源配置不足的情况下，Spark GraphX在计算PageRank过程中RDD为维护血统依赖会导致资源的占用从而使得不必要的资源浪费，也变相的增加了计算成本。

参见图1，现有的Spark GraphX在小规模集群上计算超大数据集的PageRank算法的处理流程包括：1)初始化graph(即执行图初始化操作)；2)进入迭代；3)计算各节点PageRank值；4)释放上一轮graph缓存数据；5)对迭代完一轮的new graph进行缓存；6)进行下一轮迭代；7)结束迭代保存结果。此逻辑在资源足够(相应资源计算相应数据量)的情况下处理逻辑并没有问题，但并不是每次都有足够的资源去做计算，且对于图计算而言，消耗的资源随数据量的增长是指数级增加的，所以在计算资源不足的情况下，此计算逻辑会出现Spark RDD为维护血统工作引起的内存资源占用叠加导致计算资源浪费，最终出现的情况是下一轮迭代所触发维护血统工作叠加导致后轮迭代变慢，简而言之就是越往后迭代每一轮迭代所花费的时间越长，最终使得计算任务时间和计算结果不可控。

发明内容

本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的基于大规模图数据集获取PageRank的方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于大规模图数据集获取PageRank的方法，包括：S1，初始化graph；S2，基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；S3，判断迭代是否完成，如果迭代完成，则执行S8，如果迭代未完成，则执行S4；S4，释放上一轮graph缓存；S5，判断总迭代次数是否能够被可配置参数整除，其中，可配置参数为迭代写入轮数，如果总迭代次数不能被可配置参数整除，则执行S6；如果总迭代次数能被可配置参数整除，则执行S7；S6，将当前new graph进行缓存，返回执行S2；S7，将当前new graph写入磁盘，返回执行S2；S8，保存计算结果。

其中，初始化graph包括：初始化新的graph；或者加载旧的graph。

其中，n满足t＝n+1/n，且整除N，其中，t为总计算时间。

其中，n设置为奇数或者n设置为偶数。

其中，n为5。

本发明另一方面提供了一种基于大规模图数据集获取PageRank的装置，包括：初始化模块，用于初始化graph；计算模块，用于基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；第一判断模块，用于判断迭代是否完成，如果迭代完成，则通知存储模块，如果迭代未完成，则通知释放模块；释放模块，用于释放上一轮graph缓存；第二判断模块，用于判断总迭代次数是否能够被可配置参数整除，其中，可配置参数为迭代写入轮数，如果总迭代次数不能被可配置参数整除，则通知缓存模块；如果总迭代次数能被可配置参数整除，则通知写入模块；缓存模块，用于将当前new graph进行缓存，通知计算模块；写入模块，用于将当前new graph写入磁盘，通知计算模块；存储模块，用于保存计算结果。

其中，初始化模块通过如下方式初始化graph：初始化模块，具体用于初始化新的graph；或者加载旧的graph。

其中，n满足t＝n+1/n，且整除N，其中，t为总计算时间。

其中，n设置为奇数或者n设置为偶数。

其中，n为5。

由此可见，本发明实施例提供的基于大规模图数据集获取PageRank的方法及装置，在基于Spark GraphX原因PageRank算法基础上对计算算法进行了优化，优化后PageRank算法可进行上亿(超大)数据集在小资源集群的计算，最终在资源消耗和时间消耗上都有很大提升，从而节省了成本又缩短了计算时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为现有技术中Spark GraphX在小规模集群上计算超大数据集的PageRank算法的处理流程示意图；

图2为本发明实施例提供的基于大规模图数据集获取PageRank的方法的流程图；

图3为本发明实施例提供的n的取值曲线图；

图4为本发明实施例提供的基于大规模图数据集在Spark GraphX中计算PageRank值的一种具体流程图；

图5为本发明实施例提供的基于大规模图数据集获取PageRank的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为有效的控制大规模数据集计算PageRank的资源消耗并保证能够以最快的速度计算出PageRank值，本方案提出了大规模数据集在小规模集群上用Spark GraphX计算PageRank能够有效计算的解决方案。

图1示出了本发明实施例提供的基于大规模图数据集获取的PageRank方法的流程图，参见图1，本发明实施例提供的基于大规模图数据集获取PageRank的方法，包括：

S1，初始化graph。

具体地，作为本发明实施例的一个可选实施方式，初始化graph包括：初始化新的graph；或者加载旧的graph。其中，如果加载一个旧的graph，后续PageRank值的计算的迭代过程会更快。

S2，基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到newgraph；

S3，判断迭代是否完成，如果迭代完成，则执行S8，如果迭代未完成，则执行S4；

S4，释放上一轮graph缓存。

具体地，本步骤释放上一轮graph缓存，目的是减少对不必要graph缓存所消耗的资源。

S5，判断总迭代次数是否能够被可配置参数整除，其中，可配置参数为迭代写入轮数，如果总迭代次数不能被可配置参数整除，则执行S6；如果总迭代次数能被可配置参数整除，则执行S7。

具体地，判断是否将graph写入磁盘，其中N为总迭代次数，n为可配置参数，n可根据实际计算情况进行调整。Spark处理Rdd时，为防止计算任务失败导致的无法回溯任务，每一个子Rdd都有一个可追溯的父Rdd，故Rdd之间存在血缘关系，当计算资源不足时，就会占用大量计算内存保存血统关系，从而浪费珍惜的计算资源，所以通过限制迭代次数，即每n轮迭代保存一次结果，切断血统联系，就可以将这部分资源释放出来用于计算任务。

对于每一轮计算的中间结果缓存也会浪费一定的内存资源，但如果将每一轮中间结果都写入磁盘，相应的就增加了磁盘IO的写入时间，所以综上n取一个既满足计算时间和间隔写入轮数的调和均值，又能有效防止血统缓存导致的内存占用过大，同时满足以上所有条件是一个较优的方案。作为本发明实施例的一个可选实施方式，n满足t＝n+1/n(对勾函数)，且整除N，其中，t为总计算时间，例如当N＝8时，n可以选取2或4。作为本发明实施例的一个可选实施方式，n设置为奇数或者n设置为偶数。当然，n的取值可以根据实际需要进行配置。优选的，n为5。具体地，参见图3，y轴为时间t，x轴为迭代的轮次n，根据图3所示的曲线图，可以确定最低点即为n的最优解，因此，本发明在不出现内存溢出的情况下，优选n为5。当然，本发明还可以设置奇数次缓存new graph，偶数次保存(写入磁盘)new graph，这均可以根据实际情况进行调整。

S6，将当前new graph进行缓存，返回执行S2；

S7，将当前new graph写入磁盘，返回执行S2；

S8，保存计算结果。

由此可见，本发明实施例提供的基于大规模图数据集获取PageRank的方法，提出了限制血缘传递和中间结果写磁盘的思想，通过可调节的参数n来控制，通过n轮迭代后将新结果写入磁盘既能达到限制血缘传递又能够实现中间的计算结果写磁盘两个目的。由此可以避免不必要的资源浪费，即对于计算产生的中间结果和维护血统依赖产生的资源占用相对小集群紧张的资源来说的资源浪费，保证尽量让所有的资源都用于计算任务，能够让小集群计算上亿数据量的图计算成为可能。

图4示出了本发明实施例提供的基于大规模图数据集在Spark GraphX中计算PageRank值的一种具体流程图，参见图4，该流程包括：

1)graph初始化，这里可以初始化一个新的graph，也可以加载一个旧的graph，如果加载一个旧graph时，后续PageRank值的计算的迭代过程会更快；

2)进入迭代计算，基于上一步(上一轮)得到graph进行PageRank计算，得到newgraph；

3)释放上一轮graph缓存，目的是减少对不必要graph缓存所消耗的资源；

4)判断是否将graph写入磁盘，图中N为总迭代次数，n为可配置参数，可根据实际计算情况进行调整，目前验证的最优方案是每5轮(不出现内存溢出情况)保存一次newgraph，也可以设置奇数次缓存new graph，偶数次保存(写入磁盘)new graph。

5)迭代结束，保存计算结果。

由此可见，通过此方案，从而解决了在小规模集群计算超大网络PageRank无法有效计算问题。

图5示出了本发明实施例提供的基于大规模图数据集获取PageRank的装置的结构示意图，该基于大规模图数据集获取PageRank的装置应用于上述基于大规模图数据集获取PageRank的方法，以下仅对基于大规模图数据集获取PageRank的装置的结构进行简要说明，其他未尽事宜，请参照上述方法的相关说明，在此不再赘述。参见图5，本发明实施例提供的基于大规模图数据集获取PageRank的装置，包括：

初始化模块501，用于初始化graph；

计算模块502，用于基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；

第一判断模块503，用于判断迭代是否完成，如果迭代完成，则通知存储模块508，如果迭代未完成，则通知释放模块504；

释放模块504，用于释放上一轮graph缓存；

第二判断模块505，用于判断总迭代次数是否能够被可配置参数整除，其中，可配置参数为迭代写入轮数，如果总迭代次数不能被可配置参数整除，则通知缓存模块506；如果总迭代次数能被可配置参数整除，则通知写入模块507；

缓存模块506，用于将当前new graph进行缓存，通知计算模块502；

写入模块507，用于将当前new graph写入磁盘，通知计算模块502；

存储模块508，用于保存计算结果。

作为本发明实施例的一个可选实施方式，初始化模块501通过如下方式初始化graph：初始化模块501，具体用于初始化新的graph；或者加载旧的graph。

作为本发明实施例的一个可选实施方式，n满足t＝n+1/n，且整除N，其中，t为总计算时间。

作为本发明实施例的一个可选实施方式，n设置为奇数或者n设置为偶数。

作为本发明实施例的一个可选实施方式，n为5。

由此可见，本发明实施例提供的基于大规模图数据集获取PageRank的装置，提出了限制血缘传递和中间结果写磁盘的思想，通过可调节的参数n来控制，通过n轮迭代后将新结果写入磁盘既能达到限制血缘传递又能够实现中间的计算结果写磁盘两个目的。由此可以避免不必要的资源浪费，即对于计算产生的中间结果和维护血统依赖产生的资源占用相对小集群紧张的资源来说的资源浪费，保证尽量让所有的资源都用于计算任务，能够让小集群计算上亿数据量的图计算成为可能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于大规模图数据集获取PageRank的方法，其特征在于，包括：

S1，初始化graph；

S2，基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；

S4，释放上一轮graph缓存；

S5，判断总迭代次数是否能够被可配置参数整除，其中，所述可配置参数为迭代写入轮数，如果所述总迭代次数不能被所述可配置参数整除，则执行S6；如果所述总迭代次数能被所述可配置参数整除，则执行S7；

S6，将当前new graph进行缓存，返回执行S2；

S7，将当前new graph写入磁盘，返回执行S2；

S8，保存计算结果；

所述步骤S5，具体包括：判断是否将graph写入磁盘，其中N为总迭代次数，n为可配置参数，n可根据实际计算情况进行调整，Spark处理Rdd时，每一个子Rdd都有一个可追溯的父Rdd，通过限制迭代次数，每n轮迭代保存一次结果，切断子Rdd和父Rdd的联系，将切断联系的资源释放出来用于计算任务。

2.根据权利要求1所述的方法，其特征在于，所述初始化graph包括：

初始化新的graph；或者加载旧的graph。

3.根据权利要求1所述的方法，其特征在于，所述n满足t＝n+1/n，且整除N，其中，t为总计算时间。

4.根据权利要求3所述的方法，其特征在于，所述n设置为奇数或者所述n设置为偶数。

5.根据权利要求4所述的方法，其特征在于，所述n为5。

6.一种基于大规模图数据集获取PageRank的装置，其特征在于，包括：

初始化模块，用于初始化graph；

计算模块，用于基于上一轮计算得到的graph进行各节点的PageRank值的计算，得到new graph；

第一判断模块，用于判断迭代是否完成，如果迭代完成，则通知存储模块，如果迭代未完成，则通知释放模块；

所述释放模块，用于释放上一轮graph缓存；

第二判断模块，用于判断总迭代次数是否能够被可配置参数整除，其中，所述可配置参数为迭代写入轮数，如果所述总迭代次数不能被所述可配置参数整除，则通知缓存模块；如果所述总迭代次数能被所述可配置参数整除，则通知写入模块；

所述缓存模块，用于将当前new graph进行缓存，通知所述计算模块；

所述写入模块，用于将当前new graph写入磁盘，通知所述计算模块；

所述存储模块，用于保存计算结果；

其中：

所述第二判断模块，具体用于判断是否将graph写入磁盘，其中N为总迭代次数，n为可配置参数，n可根据实际计算情况进行调整，Spark处理Rdd时，每一个子Rdd都有一个可追溯的父Rdd，通过限制迭代次数，每n轮迭代保存一次结果，切断子Rdd和父Rdd的联系，将切断联系的资源释放出来用于计算任务。

7.根据权利要求6所述的装置，其特征在于，所述初始化模块通过如下方式初始化graph：

所述初始化模块，具体用于初始化新的graph；或者加载旧的graph。

8.根据权利要求6所述的装置，其特征在于，所述n满足t＝n+1/n，且整除N，其中，t为总计算时间。

9.根据权利要求8所述的装置，其特征在于，所述n设置为奇数或者所述n设置为偶数。

10.根据权利要求9所述的装置，其特征在于，所述n为5。