CN110297714B - 基于大规模图数据集获取PageRank的方法及装置 - Google Patents

基于大规模图数据集获取PageRank的方法及装置 Download PDF

Info

Publication number
CN110297714B
CN110297714B CN201910529197.0A CN201910529197A CN110297714B CN 110297714 B CN110297714 B CN 110297714B CN 201910529197 A CN201910529197 A CN 201910529197A CN 110297714 B CN110297714 B CN 110297714B
Authority
CN
China
Prior art keywords
graph
iteration
module
calculation
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910529197.0A
Other languages
English (en)
Other versions
CN110297714A (zh
Inventor
顾凌云
谢旻旗
段湾
张涛
安飞飞
潘峻
王存伟
王震宇
周轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN201910529197.0A priority Critical patent/CN110297714B/zh
Publication of CN110297714A publication Critical patent/CN110297714A/zh
Application granted granted Critical
Publication of CN110297714B publication Critical patent/CN110297714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于大规模图数据集获取PageRank的方法及装置,其中方法包括:S1初始化graph;S2基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;S3判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;S4释放上一轮graph缓存;S5判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则执行S6;如果总迭代次数能被可配置参数整除,则执行S7;S6将当前new graph进行缓存,返回执行S2;S7将当前new graph写入磁盘,返回执行S2;S8保存计算结果。

Description

基于大规模图数据集获取PageRank的方法及装置
技术领域
本发明涉及数据计算技术领域,尤其涉及一种基于大规模图数据集获取PageRank的方法及装置。
背景技术
在数据量与日俱增的今天,大规模数据计算(Spark、Hadoop)已经是不得不面对的问题,特别是计算复杂度最高的图计算(Spark GraphX),会消耗企业大量的计算资源。
目前在做上亿节点、十几亿边Graph的PageRank(网页级别,是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。)的有效计算时,要消耗400个CPU和1200G的内存,而通常一家普通企业的大数据集群配置大概是48个CPU和120G的内存,对于这些企业来说所拥有的计算资源是远远不够的,所以对于它们来说PageRank值是无法有效计算得到结果的,主要原因在于在资源配置不足的情况下,Spark GraphX在计算PageRank过程中RDD为维护血统依赖会导致资源的占用从而使得不必要的资源浪费,也变相的增加了计算成本。
参见图1,现有的Spark GraphX在小规模集群上计算超大数据集的PageRank算法的处理流程包括:1)初始化graph(即执行图初始化操作);2)进入迭代;3)计算各节点PageRank值;4)释放上一轮graph缓存数据;5)对迭代完一轮的new graph进行缓存;6)进行下一轮迭代;7)结束迭代保存结果。此逻辑在资源足够(相应资源计算相应数据量)的情况下处理逻辑并没有问题,但并不是每次都有足够的资源去做计算,且对于图计算而言,消耗的资源随数据量的增长是指数级增加的,所以在计算资源不足的情况下,此计算逻辑会出现Spark RDD为维护血统工作引起的内存资源占用叠加导致计算资源浪费,最终出现的情况是下一轮迭代所触发维护血统工作叠加导致后轮迭代变慢,简而言之就是越往后迭代每一轮迭代所花费的时间越长,最终使得计算任务时间和计算结果不可控。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的基于大规模图数据集获取PageRank的方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于大规模图数据集获取PageRank的方法,包括:S1,初始化graph;S2,基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;S3,判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;S4,释放上一轮graph缓存;S5,判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则执行S6;如果总迭代次数能被可配置参数整除,则执行S7;S6,将当前new graph进行缓存,返回执行S2;S7,将当前new graph写入磁盘,返回执行S2;S8,保存计算结果。
其中,初始化graph包括:初始化新的graph;或者加载旧的graph。
其中,n满足t=n+1/n,且整除N,其中,t为总计算时间。
其中,n设置为奇数或者n设置为偶数。
其中,n为5。
本发明另一方面提供了一种基于大规模图数据集获取PageRank的装置,包括:初始化模块,用于初始化graph;计算模块,用于基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;第一判断模块,用于判断迭代是否完成,如果迭代完成,则通知存储模块,如果迭代未完成,则通知释放模块;释放模块,用于释放上一轮graph缓存;第二判断模块,用于判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则通知缓存模块;如果总迭代次数能被可配置参数整除,则通知写入模块;缓存模块,用于将当前new graph进行缓存,通知计算模块;写入模块,用于将当前new graph写入磁盘,通知计算模块;存储模块,用于保存计算结果。
其中,初始化模块通过如下方式初始化graph:初始化模块,具体用于初始化新的graph;或者加载旧的graph。
其中,n满足t=n+1/n,且整除N,其中,t为总计算时间。
其中,n设置为奇数或者n设置为偶数。
其中,n为5。
由此可见,本发明实施例提供的基于大规模图数据集获取PageRank的方法及装置,在基于Spark GraphX原因PageRank算法基础上对计算算法进行了优化,优化后PageRank算法可进行上亿(超大)数据集在小资源集群的计算,最终在资源消耗和时间消耗上都有很大提升,从而节省了成本又缩短了计算时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为现有技术中Spark GraphX在小规模集群上计算超大数据集的PageRank算法的处理流程示意图;
图2为本发明实施例提供的基于大规模图数据集获取PageRank的方法的流程图;
图3为本发明实施例提供的n的取值曲线图;
图4为本发明实施例提供的基于大规模图数据集在Spark GraphX中计算PageRank值的一种具体流程图;
图5为本发明实施例提供的基于大规模图数据集获取PageRank的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为有效的控制大规模数据集计算PageRank的资源消耗并保证能够以最快的速度计算出PageRank值,本方案提出了大规模数据集在小规模集群上用Spark GraphX计算PageRank能够有效计算的解决方案。
图1示出了本发明实施例提供的基于大规模图数据集获取的PageRank方法的流程图,参见图1,本发明实施例提供的基于大规模图数据集获取PageRank的方法,包括:
S1,初始化graph。
具体地,作为本发明实施例的一个可选实施方式,初始化graph包括:初始化新的graph;或者加载旧的graph。其中,如果加载一个旧的graph,后续PageRank值的计算的迭代过程会更快。
S2,基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到newgraph;
S3,判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;
S4,释放上一轮graph缓存。
具体地,本步骤释放上一轮graph缓存,目的是减少对不必要graph缓存所消耗的资源。
S5,判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则执行S6;如果总迭代次数能被可配置参数整除,则执行S7。
具体地,判断是否将graph写入磁盘,其中N为总迭代次数,n为可配置参数,n可根据实际计算情况进行调整。Spark处理Rdd时,为防止计算任务失败导致的无法回溯任务,每一个子Rdd都有一个可追溯的父Rdd,故Rdd之间存在血缘关系,当计算资源不足时,就会占用大量计算内存保存血统关系,从而浪费珍惜的计算资源,所以通过限制迭代次数,即每n轮迭代保存一次结果,切断血统联系,就可以将这部分资源释放出来用于计算任务。
对于每一轮计算的中间结果缓存也会浪费一定的内存资源,但如果将每一轮中间结果都写入磁盘,相应的就增加了磁盘IO的写入时间,所以综上n取一个既满足计算时间和间隔写入轮数的调和均值,又能有效防止血统缓存导致的内存占用过大,同时满足以上所有条件是一个较优的方案。作为本发明实施例的一个可选实施方式,n满足t=n+1/n(对勾函数),且整除N,其中,t为总计算时间,例如当N=8时,n可以选取2或4。作为本发明实施例的一个可选实施方式,n设置为奇数或者n设置为偶数。当然,n的取值可以根据实际需要进行配置。优选的,n为5。具体地,参见图3,y轴为时间t,x轴为迭代的轮次n,根据图3所示的曲线图,可以确定最低点即为n的最优解,因此,本发明在不出现内存溢出的情况下,优选n为5。当然,本发明还可以设置奇数次缓存new graph,偶数次保存(写入磁盘)new graph,这均可以根据实际情况进行调整。
S6,将当前new graph进行缓存,返回执行S2;
S7,将当前new graph写入磁盘,返回执行S2;
S8,保存计算结果。
由此可见,本发明实施例提供的基于大规模图数据集获取PageRank的方法,提出了限制血缘传递和中间结果写磁盘的思想,通过可调节的参数n来控制,通过n轮迭代后将新结果写入磁盘既能达到限制血缘传递又能够实现中间的计算结果写磁盘两个目的。由此可以避免不必要的资源浪费,即对于计算产生的中间结果和维护血统依赖产生的资源占用相对小集群紧张的资源来说的资源浪费,保证尽量让所有的资源都用于计算任务,能够让小集群计算上亿数据量的图计算成为可能。
图4示出了本发明实施例提供的基于大规模图数据集在Spark GraphX中计算PageRank值的一种具体流程图,参见图4,该流程包括:
1)graph初始化,这里可以初始化一个新的graph,也可以加载一个旧的graph,如果加载一个旧graph时,后续PageRank值的计算的迭代过程会更快;
2)进入迭代计算,基于上一步(上一轮)得到graph进行PageRank计算,得到newgraph;
3)释放上一轮graph缓存,目的是减少对不必要graph缓存所消耗的资源;
4)判断是否将graph写入磁盘,图中N为总迭代次数,n为可配置参数,可根据实际计算情况进行调整,目前验证的最优方案是每5轮(不出现内存溢出情况)保存一次newgraph,也可以设置奇数次缓存new graph,偶数次保存(写入磁盘)new graph。
5)迭代结束,保存计算结果。
由此可见,通过此方案,从而解决了在小规模集群计算超大网络PageRank无法有效计算问题。
图5示出了本发明实施例提供的基于大规模图数据集获取PageRank的装置的结构示意图,该基于大规模图数据集获取PageRank的装置应用于上述基于大规模图数据集获取PageRank的方法,以下仅对基于大规模图数据集获取PageRank的装置的结构进行简要说明,其他未尽事宜,请参照上述方法的相关说明,在此不再赘述。参见图5,本发明实施例提供的基于大规模图数据集获取PageRank的装置,包括:
初始化模块501,用于初始化graph;
计算模块502,用于基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;
第一判断模块503,用于判断迭代是否完成,如果迭代完成,则通知存储模块508,如果迭代未完成,则通知释放模块504;
释放模块504,用于释放上一轮graph缓存;
第二判断模块505,用于判断总迭代次数是否能够被可配置参数整除,其中,可配置参数为迭代写入轮数,如果总迭代次数不能被可配置参数整除,则通知缓存模块506;如果总迭代次数能被可配置参数整除,则通知写入模块507;
缓存模块506,用于将当前new graph进行缓存,通知计算模块502;
写入模块507,用于将当前new graph写入磁盘,通知计算模块502;
存储模块508,用于保存计算结果。
作为本发明实施例的一个可选实施方式,初始化模块501通过如下方式初始化graph:初始化模块501,具体用于初始化新的graph;或者加载旧的graph。
作为本发明实施例的一个可选实施方式,n满足t=n+1/n,且整除N,其中,t为总计算时间。
作为本发明实施例的一个可选实施方式,n设置为奇数或者n设置为偶数。
作为本发明实施例的一个可选实施方式,n为5。
由此可见,本发明实施例提供的基于大规模图数据集获取PageRank的装置,提出了限制血缘传递和中间结果写磁盘的思想,通过可调节的参数n来控制,通过n轮迭代后将新结果写入磁盘既能达到限制血缘传递又能够实现中间的计算结果写磁盘两个目的。由此可以避免不必要的资源浪费,即对于计算产生的中间结果和维护血统依赖产生的资源占用相对小集群紧张的资源来说的资源浪费,保证尽量让所有的资源都用于计算任务,能够让小集群计算上亿数据量的图计算成为可能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于大规模图数据集获取PageRank的方法,其特征在于,包括:
S1,初始化graph;
S2,基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;
S3,判断迭代是否完成,如果迭代完成,则执行S8,如果迭代未完成,则执行S4;
S4,释放上一轮graph缓存;
S5,判断总迭代次数是否能够被可配置参数整除,其中,所述可配置参数为迭代写入轮数,如果所述总迭代次数不能被所述可配置参数整除,则执行S6;如果所述总迭代次数能被所述可配置参数整除,则执行S7;
S6,将当前new graph进行缓存,返回执行S2;
S7,将当前new graph写入磁盘,返回执行S2;
S8,保存计算结果;
所述步骤S5,具体包括:判断是否将graph写入磁盘,其中N为总迭代次数,n为可配置参数,n可根据实际计算情况进行调整,Spark处理Rdd时,每一个子Rdd都有一个可追溯的父Rdd,通过限制迭代次数,每n轮迭代保存一次结果,切断子Rdd和父Rdd的联系,将切断联系的资源释放出来用于计算任务。
2.根据权利要求1所述的方法,其特征在于,所述初始化graph包括:
初始化新的graph;或者加载旧的graph。
3.根据权利要求1所述的方法,其特征在于,所述n满足t=n+1/n,且整除N,其中,t为总计算时间。
4.根据权利要求3所述的方法,其特征在于,所述n设置为奇数或者所述n设置为偶数。
5.根据权利要求4所述的方法,其特征在于,所述n为5。
6.一种基于大规模图数据集获取PageRank的装置,其特征在于,包括:
初始化模块,用于初始化graph;
计算模块,用于基于上一轮计算得到的graph进行各节点的PageRank值的计算,得到new graph;
第一判断模块,用于判断迭代是否完成,如果迭代完成,则通知存储模块,如果迭代未完成,则通知释放模块;
所述释放模块,用于释放上一轮graph缓存;
第二判断模块,用于判断总迭代次数是否能够被可配置参数整除,其中,所述可配置参数为迭代写入轮数,如果所述总迭代次数不能被所述可配置参数整除,则通知缓存模块;如果所述总迭代次数能被所述可配置参数整除,则通知写入模块;
所述缓存模块,用于将当前new graph进行缓存,通知所述计算模块;
所述写入模块,用于将当前new graph写入磁盘,通知所述计算模块;
所述存储模块,用于保存计算结果;
其中:
所述第二判断模块,具体用于判断是否将graph写入磁盘,其中N为总迭代次数,n为可配置参数,n可根据实际计算情况进行调整,Spark处理Rdd时,每一个子Rdd都有一个可追溯的父Rdd,通过限制迭代次数,每n轮迭代保存一次结果,切断子Rdd和父Rdd的联系,将切断联系的资源释放出来用于计算任务。
7.根据权利要求6所述的装置,其特征在于,所述初始化模块通过如下方式初始化graph:
所述初始化模块,具体用于初始化新的graph;或者加载旧的graph。
8.根据权利要求6所述的装置,其特征在于,所述n满足t=n+1/n,且整除N,其中,t为总计算时间。
9.根据权利要求8所述的装置,其特征在于,所述n设置为奇数或者所述n设置为偶数。
10.根据权利要求9所述的装置,其特征在于,所述n为5。
CN201910529197.0A 2019-06-19 2019-06-19 基于大规模图数据集获取PageRank的方法及装置 Active CN110297714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910529197.0A CN110297714B (zh) 2019-06-19 2019-06-19 基于大规模图数据集获取PageRank的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910529197.0A CN110297714B (zh) 2019-06-19 2019-06-19 基于大规模图数据集获取PageRank的方法及装置

Publications (2)

Publication Number Publication Date
CN110297714A CN110297714A (zh) 2019-10-01
CN110297714B true CN110297714B (zh) 2023-05-30

Family

ID=68028329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910529197.0A Active CN110297714B (zh) 2019-06-19 2019-06-19 基于大规模图数据集获取PageRank的方法及装置

Country Status (1)

Country Link
CN (1) CN110297714B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861891B (zh) * 2019-11-27 2023-11-28 中国电信股份有限公司 用户行为异常检测方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262231A (zh) * 2008-04-25 2008-09-10 浙江大学 一种块状低密度校验码的译码方法及可重构多模式译码器
CA2798887A1 (en) * 2012-11-14 2013-02-27 Target Brands, Inc. Assortment pack builder
CA2762563A1 (en) * 2011-12-23 2013-06-23 Ibm Canada Limited - Ibm Canada Limitee Data prefetching and coalescing for partitioned global address space languages
CN103617087A (zh) * 2013-11-25 2014-03-05 华中科技大学 一种适合迭代计算的MapReduce优化方法
CN103793525A (zh) * 2014-02-21 2014-05-14 江苏唯实科技有限公司 基于局部迭代的MapReduce模型的图结点的权威值计算方法
CN105939526A (zh) * 2015-11-17 2016-09-14 深圳大学 一种无线传感器网络拥塞的控制方法及系统
CN107462875A (zh) * 2017-07-25 2017-12-12 西安电子科技大学 基于iga‑np算法的认知雷达最大mi波形优化方法
CN107797852A (zh) * 2016-09-06 2018-03-13 阿里巴巴集团控股有限公司 数据迭代的处理装置及处理方法
CN108921188A (zh) * 2018-05-23 2018-11-30 重庆邮电大学 一种基于Spark大数据平台的并行CRF算法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262231A (zh) * 2008-04-25 2008-09-10 浙江大学 一种块状低密度校验码的译码方法及可重构多模式译码器
CA2762563A1 (en) * 2011-12-23 2013-06-23 Ibm Canada Limited - Ibm Canada Limitee Data prefetching and coalescing for partitioned global address space languages
CA2798887A1 (en) * 2012-11-14 2013-02-27 Target Brands, Inc. Assortment pack builder
CN103617087A (zh) * 2013-11-25 2014-03-05 华中科技大学 一种适合迭代计算的MapReduce优化方法
CN103793525A (zh) * 2014-02-21 2014-05-14 江苏唯实科技有限公司 基于局部迭代的MapReduce模型的图结点的权威值计算方法
CN105939526A (zh) * 2015-11-17 2016-09-14 深圳大学 一种无线传感器网络拥塞的控制方法及系统
CN107797852A (zh) * 2016-09-06 2018-03-13 阿里巴巴集团控股有限公司 数据迭代的处理装置及处理方法
CN107462875A (zh) * 2017-07-25 2017-12-12 西安电子科技大学 基于iga‑np算法的认知雷达最大mi波形优化方法
CN108921188A (zh) * 2018-05-23 2018-11-30 重庆邮电大学 一种基于Spark大数据平台的并行CRF算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种面向众核处理器的嵌套循环多维并行识别方法;李颖颖等;《计算机应用研究》;20171115(第11期);全文 *
基于GPU的对称正定稀疏矩阵复线性方程组迭代算法;李伟伟;《吉林大学学报(理学版)》;20160326(第02期);全文 *

Also Published As

Publication number Publication date
CN110297714A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110389842B (zh) 一种动态资源分配方法、装置、存储介质及设备
CN108268476B (zh) 数据查询方法及装置
CN107016016B (zh) 一种数据处理的方法及装置
TWI743719B (zh) 在區塊鏈中同時執行交易的方法和裝置及電腦可讀儲存媒體與計算設備
CN104298588A (zh) 一种持续集成的实现方法及装置
US20150170316A1 (en) Subgraph-based distributed graph processing
CN109033365B (zh) 一种数据处理方法及相关设备
CN114580653A (zh) 机器学习计算优化方法和编译器
CN111897493B (zh) 存储空间管理方法、装置及电子设备、存储介质
CN112748993A (zh) 任务执行方法、装置、存储介质及电子设备
CN110297714B (zh) 基于大规模图数据集获取PageRank的方法及装置
CN112800026A (zh) 一种数据转移节点、方法、系统及计算机可读存储介质
US9892038B2 (en) Method, apparatus, and system for data caching
KR20210103393A (ko) 낮은-지역성 데이터에서 높은-지역성 데이터로의 변환을 관리하기 위한 시스템 및 방법
CN112597151A (zh) 数据处理方法、装置、设备和存储介质
CN110908587B (zh) 一种用于存储时序数据的方法及其装置
CN111124947B (zh) 一种数据处理方法及其装置
CN110888723A (zh) 定时任务处理方法及装置
CN104881258A (zh) 缓冲区并发访问方法及装置
CN110019497B (zh) 一种数据读取方法及装置
CN113641872B (zh) 一种散列方法、装置、设备及介质
WO2019149002A1 (zh) 一种基于双层列表结构的容量扩充方法及系统
CN111104220A (zh) 基于Arm架构的服务器配置方法、系统及相关设备
CN110704517B (zh) 一种生成任务的方法、装置、存储介质及处理器
CN114706628B (zh) 基于一池多芯的分布式存储系统的数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant