CN106648891A - 基于MapReduce模型的任务执行方法和装置 - Google Patents

基于MapReduce模型的任务执行方法和装置 Download PDF

Info

Publication number
CN106648891A
CN106648891A CN201611132677.6A CN201611132677A CN106648891A CN 106648891 A CN106648891 A CN 106648891A CN 201611132677 A CN201611132677 A CN 201611132677A CN 106648891 A CN106648891 A CN 106648891A
Authority
CN
China
Prior art keywords
key
reduce
value pair
key assignments
cryptographic hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611132677.6A
Other languages
English (en)
Inventor
傅文卿
石卫平
马宝军
许宁
侯玉娜
金潇
靳会勤
朱丹萍
谭燕燕
于秀丽
张晓宁
郭嘉
张铮
王淑玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
China Unicom Information Navigation Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
China Unicom Information Navigation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, China Unicom Information Navigation Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201611132677.6A priority Critical patent/CN106648891A/zh
Publication of CN106648891A publication Critical patent/CN106648891A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于MapReduce模型的任务执行方法和装置,该方法包括:提取待执行任务的每个输入文件的键值对;采用最大差异直方图将键值对划分为多个分割集合;采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;根据映射关系执行待执行任务。实现了reduce节点上的负载均衡,提高了任务的执行效率。

Description

基于MapReduce模型的任务执行方法和装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于MapReduce模型的任务执行方法和装置。
背景技术
MapReduce模型是当下并行处理技术中的主流编程模型,其将任务抽象为基于键值对的map任务和Reduce任务。图1为现有技术基于MapReduce模型的任务执行方法。如图1所示,现有技术中基于MapReduce模型的任务执行方法主要分为以下几个步骤:步骤101,将任务的输入文件划分为M份。步骤102,执行Map任务的节点读取相应的分区块,并从输入文件的数据记录中提取出键值对,传入map函数,map函数对这些键值对进行处理,产生的中间键值存入缓存或者本地磁盘。步骤103,选择哈希函数作用于中间键,并产生0~R-1个桶编号。根据哈希结果将Map任务的结果存放到R个本地文件中的一个。步骤104,执行Reduce任务的节点远程地读取R个文件中相应的一个,采用取模的方式,将键值与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中。
现有技术中的MapReduce模型的任务执行方法中,由于Map任务执行完生成键值对,将键值对发送给reduce任务的节点时,遵循相同的键值被发送至同一个reduce节点的原则。因此,在key取值不均的情况下,容易造成reduce任务中节点的负载不均衡的问题,这种不均衡会造成轻负载的reduce节点等待重负载的reduce节点的现象,任务重的reduce节点将会拖慢整体的执行效率。
所以现有的基于MapReduce模型的任务执行方法导致了reduce节点上的负载不均衡,进而导致了任务的执行效率较低。
发明内容
本发明实施例提供一种基于MapReduce模型的任务执行方法,该方法解决了现有的基于MapReduce模型的任务执行方法导致reduce节点上的负载不均衡,进而导致任务的执行效率较低的技术问题。
本发明实施例提供一种基于MapReduce模型的任务执行方法,包括:
提取待执行任务的每个输入文件的键值对;
采用最大差异直方图将所述键值对划分为多个分割集合;
采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;
根据所述映射关系执行待执行任务。
本发明实施例提供一种基于MapReduce模型的任务执行装置,包括:
提取模块,用于提取待执行任务的每个输入文件的键值对;
第一划分模块,用于采用最大差异直方图将所述键值对划分为多个分割集合;
计算模块,用于采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;
执行模块,用于根据所述映射关系执行待执行任务。
本发明实施例提供一种基于MapReduce模型的任务执行方法和装置,通过提取待执行任务的每个输入文件的键值对;采用最大差异直方图将键值对划分为多个分割集合;采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;根据映射关系执行待执行任务。由于首先采用最大差异直方图将键值对划分为多个分割集合,使每个分割集合中的键值对中key的频率取值差异不大,而分割集合间的键值对中key的频率取值差异很大,将每个分割集合中的键值对分配到各个reduce节点时,能够保证分配给每个reduce节点上的任务量大致相同。并且计算多个分割集合中的键值对中的键值与reduce节点的映射关系时,采用哈希一致性算法,所以能够把每个分割集合中的键值对中的键值均衡地分配给各reduce节点,所以实现了reduce节点上的负载均衡,提高了任务的执行效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术基于MapReduce模型的任务执行方法流程图;
图2为本发明基于MapReduce模型的任务执行方法实施例一的流程图;
图3为本发明基于MapReduce模型的任务执行方法实施例二的流程图;
图4为本发明基于MapReduce模型的任务执行装置实施例一的结构示意图;
图5为本发明基于MapReduce模型的任务执行装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图2为本发明基于MapReduce模型的任务执行方法实施例一的流程图,如图2所示,则本实施例提供的基于MapReduce模型的任务执行方法的执行主体为基于MapReduce模型的任务执行装置,该基于MapReduce模型的任务执行装置可以集成或安装在计算机或服务器中,则本实施例提供的基于MapReduce模型的任务执行方法包括以下几个步骤。
步骤201,提取待执行任务的每个输入文件的键值对。
其中,本实施例中,采用MapReduce模型中的Map任务提取待执行任务的每个输入文件的键值对。
具体地,Map任务的节点读取相应的输入文件,并从输入文件的文档数据记录中提取对应输入文件的键值对。其中,键值对表示为(key,valve)。其中,key表示键值,valve表示该键值的频率。
可以理解的是,map函数可以对提取出的键值对进行处理,产生中间键值对存入到缓存或本地磁盘中。
步骤202,采用最大差异直方图将键值对划分为多个分割集合。
本实施例中,待所有的键值对均提取完成后,采用最大差异直方图将键值对划分为多个分割集合。
其中,最大差异直方图可以表示为:maxdiff直方图。
具体地,本实施例中,采用最大差异直方图将键值对划分为多个分割集合,多个分割集合的个数为b个,每个分割集合可以称之为桶,maxdiff直方图的分桶原则是相邻桶间的差异最大。则maxdiff直方图的分桶步骤可以为以下几个步骤。
首先依次统计每个键值的频率value。
其次计算Δvi=valuei+1-valuei
再次将Δvi按照降序排列,由高到低选取b-1个Δvi,并记录相邻数值d2i,d2i+1
最后得到分割集合D={d1,d2,...,db}。
其中,d1和db分别为有序关键字列表的表头和表位关键字,每个桶有两个分割点,根据分割点求出每个桶内所有键值的频率,从而得到最终的maxdiff直方图。
举例说明为:[{a,4},{c,5},{d,9},{f,12}]表示提取出的键值对,a,c,d,f键值对中的数值分别表示a,c,d,f出现的频次。若maxdiff直方图划分的分割集合的个数b=2,则最后的划分结果为[{a,4},{c,5}][{d,9},{f,12}],实现了每个分割集合内的key取值的频率差异不大,而相邻分割集合间的key取值的频率差异很大。
步骤203,采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系。
具体地,计算每个分割集合中的键值对的键值与reduce节点的映射关系。其中,若某一键值对中键值的频率值较大,则可建立该键值对对应的键值与多个reduce节点的映射关系。
其中,采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系时,可以为:首先对多个分割集合中的每个键值对进行哈希运算,生成每个键值对的键值对应的一个或多个哈希值;其次对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值;最后根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。
步骤204,根据映射关系执行待执行任务。
具体地,根据该映射关系,由相关的reduce节点执行任务,由于该映射关系能够把各键值对中的键值均衡地分配给各reduce节点,所以,在执行任务时,各reduce节点执行任务的进度基本相同。
本实施例提供的基于MapReduce模型的任务执行方法,通过提取待执行任务的每个输入文件的键值对;采用最大差异直方图将键值对划分为多个分割集合;采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;根据映射关系执行待执行任务。由于首先采用最大差异直方图将键值对划分为多个分割集合,使每个分割集合中的键值对中key的频率取值差异不大,而分割集合间的键值对中key的频率取值差异很大,将每个分割集合中的键值对分配到各个reduce节点时,能够保证分配给每个reduce节点上的任务量大致相同。并且计算多个分割集合中的键值对中的键值与reduce节点的映射关系时,采用哈希一致性算法,所以能够把每个分割集合中的键值对中的键值均衡地分配给各reduce节点,所以实现了reduce节点上的负载均衡,提高了任务的执行效率。
图3为本发明基于MapReduce模型的任务执行方法实施例二的流程图,如图3所示,本实施例提供的基于MapReduce模型的任务执行方法,是在本发明基于MapReduce模型的任务执行方法实施例一的基础上,对步骤201和步骤203的进一步细化,则本实施例提供的基于MapReduce模型的任务执行方法包括以下步骤。
步骤301,将待执行任务划分为多个的输入文件。
进一步地,本实施例中,采用Map任务中的Map节点将待执行任务划分了为多个的输入文件。其中,每个输入文件的大小可以为16MB,或64MB或16~64MB中的一个数值。
步骤302,读取输入文件。
进一步地,本实施例中,将输入文件存入到分布式文件系统中,所以从分布式文件系统中读取输入文件。
步骤303,提取待执行任务的每个输入文件的键值对。
步骤304,采用最大差异直方图将键值对划分为多个分割集合。
本实施例中,步骤303-步骤304的实现方式与本发明基于MapReduce模型的任务执行方法实施例一中的步骤202-步骤203的实现方式相同,在此不再一一赘述。
步骤305,采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系。
进一步地,本实施例中,步骤305可分为以下几个步骤进行。
首先,对多个分割集合中的每个键值对进行哈希运算,生成每个键值的键值对应的一个或多个哈希值。
具体地,键值对中第i个键值出现的频次表示为fi,定义基准频次表示为f0,对于键值对中的键值,通过对键值和对应的键值排序中的序号进行哈希运算,生成t=[fi/f0]>1个键值的哈希值,该t个键值的哈希值不会与其他键值对中的键值的哈希值相同。
其中,每个键值对的键值对应的哈希值的数量为t。
其中,键值的哈希值的数值为[0,2b-1]中的t个值。
然后,对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值。
进一步地,每个reduce节点的地址为每个reduce节点的IP地址或MAC地址。
需要说明的是,本实施例中,一个reduce节点对应的哈希值不会与其他reduce节点的哈希值相同。其中,reduce节点的哈希值的为[0,2b-1]中的一个值。其中,b为分割集合的数量。
最后,根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。
进一步地,根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系,具体包括:
首先,获取哈希值大于键值的哈希值的reduce节点。
然后,查找与键值的哈希值的差值最小的第一reduce节点。
其中,与键值的哈希值差值最小的reduce节点为第一reduce节点。
将键值对映射到第一reduce节点上。
具体地,键值的哈希值与第一reduce节点的哈希值相差对小,并且哈希值小于第一reduce节点,则该key值映射到第一reduce节点上。即由该reduce节点执行该键值对应的任务。
步骤306,根据映射关系执行待执行任务。
本实施例中,步骤306的实现方式与本发明基于MapReduce模型的任务执行方法实施例一中的步骤204的实现方式相同,在此不再一一赘述。
本实施例提供的基于MapReduce模型的任务执行方法,通过将待执行任务划分为多个的输入文件,读取输入文件,提取待执行任务的每个输入文件的键值对,采用最大差异直方图将键值对划分为多个分割集合,采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系,根据映射关系执行待执行任务,实现了reduce节点上的负载均衡,提高了任务的执行效率。
本实施例提供的基于MapReduce模型的任务执行方法,在采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系时,对多个分割集合中的每个键值对进行哈希运算,生成每个键值对的键值对应的一个或多个哈希值;对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值;根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。在根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系时,具体为:获取哈希值大于键值的哈希值的reduce节点;查找与键值的哈希值的差值最小的第一reduce节点;将键值映射到第一reduce节点上。所以,在reduce节点发生故障或有新的reduce节点上线时,求得该reduce节点对应的哈希值后,只会影响到哈希值与该reduce节点相邻的reduce节点的键值的分配,并不会影响到其他reduce节点的键值分配。所以,本实施例提供的基于MapReduce模型的任务执行方法能够很好的适应reduce节点的故障和reduce节点上线,提高了执行任务的稳定性。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明基于MapReduce模型的任务执行装置实施例一的结构示意图,如图4所示,本实施例提供的基于MapReduce模型的任务执行装置包括:提取模块41,第一划分模块42,计算模块43和执行模块44。
其中,提取模块41,用于提取待执行任务的每个输入文件的键值对。第一划分模块42,用于采用最大差异直方图将键值对划分为多个分割集合。计算模块43,用于采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系。执行模块44,用于根据映射关系执行待执行任务。
本实施例提供的基于MapReduce模型的任务执行装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明基于MapReduce模型的任务执行装置实施例二的结构示意图,如图5所示,本实施例提供的基于MapReduce模型的任务执行装置在本发明基于MapReduce模型的任务执行装置实施例一的基础上,进一步地,还包括:第二划分模块51和读取模块52。
进一步地,第二划分模块51,用于将待执行任务划分为多个的输入文件。读取模块52,用于读取输入文件。
进一步地,计算模块43,具体包括:哈希运算子模块43a和建立子模块43b。
其中,哈希运算子模块43a,用于对多个分割集合中的每个键值对进行哈希运算,生成每个键值对的键值对应的一个或多个哈希值;对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值。建立子模块43b,用于根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。
其中,每个reduce节点的地址为每个reduce节点的IP地址或MAC地址。
进一步地,建立子模块43b,具体用于:获取哈希值大于键值的哈希值的reduce节点;查找与键值的哈希值的差值最小的第一reduce节点;将键值映射到第一reduce节点上。
本实施例提供的基于MapReduce模型的任务执行装置可以执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于MapReduce模型的任务执行方法,其特征在于,包括:
提取待执行任务的每个输入文件的键值对;
采用最大差异直方图将所述键值对划分为多个分割集合;
采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;
根据所述映射关系执行待执行任务。
2.根据权利要求1所述的方法,其特征在于,所述提取待执行任务的每个输入文件的键值对之前,还包括:
将所述待执行任务划分为多个的输入文件;
读取所述输入文件。
3.根据权利要求1或2所述的方法,其特征在于,所述采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系具体包括:
对所述多个分割集合中的每个键值对进行哈希运算,生成每个键值对的键值对应的一个或多个哈希值;
对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值;
根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。
4.根据权利要求3所述的方法,其特征在于,所述根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系,具体包括:
获取哈希值大于键值的哈希值的reduce节点;
查找与所述键值的哈希值的差值最小的第一reduce节点;
将所述键值映射到所述第一reduce节点上。
5.根据权利要求4所述的方法,其特征在于,所述每个reduce节点的地址为所述每个reduce节点的IP地址或MAC地址。
6.一种基于MapReduce模型的任务执行装置,其特征在于,包括:
提取模块,用于提取待执行任务的每个输入文件的键值对;
第一划分模块,用于采用最大差异直方图将所述键值对划分为多个分割集合;
计算模块,用于采用哈希一致性算法计算多个分割集合中的键值对中的键值与reduce节点的映射关系;
执行模块,用于根据所述映射关系执行待执行任务。
7.根据权利要求6所述的装置,其特征在于,还包括:
第二划分模块,用于将所述待执行任务划分为多个的输入文件;
读取模块,用于读取所述输入文件。
8.根据权利要求6或7所述的装置,其特征在于,所述计算模块,具体包括:
哈希运算子模块,用于对所述多个分割集合中的每个键值对进行哈希运算,生成每个键值对的键值对应的一个或多个哈希值;对每个reduce节点的地址进行哈希运算,生成每个reduce节点对应的哈希值;
建立子模块,用于根据每个键值对的键值对应的每个哈希值和reduce节点对应的哈希值,建立每个键值对的键值和reduce节点的映射关系。
9.根据权利要求8所述的装置,其特征在于,所述建立子模块,具体用于:
获取哈希值大于键值的哈希值的reduce节点;查找与所述键值的哈希值的差值最小的第一reduce节点;将所述键值映射到所述第一reduce节点上。
10.根据权利要求9所述的装置,其特征在于,所述每个reduce节点的地址为所述每个reduce节点的IP地址或MAC地址。
CN201611132677.6A 2016-12-09 2016-12-09 基于MapReduce模型的任务执行方法和装置 Pending CN106648891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611132677.6A CN106648891A (zh) 2016-12-09 2016-12-09 基于MapReduce模型的任务执行方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611132677.6A CN106648891A (zh) 2016-12-09 2016-12-09 基于MapReduce模型的任务执行方法和装置

Publications (1)

Publication Number Publication Date
CN106648891A true CN106648891A (zh) 2017-05-10

Family

ID=58825321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611132677.6A Pending CN106648891A (zh) 2016-12-09 2016-12-09 基于MapReduce模型的任务执行方法和装置

Country Status (1)

Country Link
CN (1) CN106648891A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329824A (zh) * 2017-06-07 2017-11-07 广东科学技术职业学院 一种基于.NET平台的Map‑Reduce分布式计算的模型方法
CN109769019A (zh) * 2018-12-29 2019-05-17 深圳联友科技有限公司 一种一致性负载均衡方法及装置
CN112184279A (zh) * 2019-07-05 2021-01-05 上海哔哩哔哩科技有限公司 Auc指标快速计算方法、装置以及计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126332A (zh) * 2016-06-27 2016-11-16 北京京东尚科信息技术有限公司 分布式定时任务调度系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126332A (zh) * 2016-06-27 2016-11-16 北京京东尚科信息技术有限公司 分布式定时任务调度系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张守利 等: "一种面向海量小文件的文件接收和存储优化方案", 《小型微型计算机系统》 *
陶永才 等: "基于Maxdiff直方图的MapReduce负载均衡研究", 《小型微型计算机系统》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107329824A (zh) * 2017-06-07 2017-11-07 广东科学技术职业学院 一种基于.NET平台的Map‑Reduce分布式计算的模型方法
CN109769019A (zh) * 2018-12-29 2019-05-17 深圳联友科技有限公司 一种一致性负载均衡方法及装置
CN109769019B (zh) * 2018-12-29 2021-11-09 深圳联友科技有限公司 一种一致性负载均衡方法及装置
CN112184279A (zh) * 2019-07-05 2021-01-05 上海哔哩哔哩科技有限公司 Auc指标快速计算方法、装置以及计算机设备

Similar Documents

Publication Publication Date Title
US9740706B2 (en) Management of intermediate data spills during the shuffle phase of a map-reduce job
CN105550225B (zh) 索引构建方法、查询方法及装置
US10140334B2 (en) Multi stage aggregation using digest order after a first stage of aggregation
CN106055277A (zh) 一种去中心化的分布式异构存储系统数据分布方法
US9563697B1 (en) Calculating differences between datasets having differing numbers of partitions
Patwary et al. Window-based streaming graph partitioning algorithm
CN103310460A (zh) 图像特征提取的方法及系统
CN106897409A (zh) 数据分库存储方法及装置
CN106970958A (zh) 一种流文件的查询与存储方法和装置
CN108241531A (zh) 一种在集群中为虚拟机分配资源的方法和装置
CN106648891A (zh) 基于MapReduce模型的任务执行方法和装置
EP2608043A1 (en) Object arrangement apparatus, method therefor, and computer program
CN104281664A (zh) 分布式图计算系统数据切分方法和系统
CN105205052A (zh) 一种数据挖掘方法及装置
CN107832446A (zh) 一种配置项信息的搜索方法及计算设备
CN112100185A (zh) 区块链数据平衡负载的索引系统及方法
CN101419600A (zh) 基于面向对象文件系统的数据副本映射方法及装置
CN114844638B (zh) 一种基于布谷鸟过滤器的大数据量密钥的去重方法及系统
CN106909556A (zh) 内存集群的存储均衡方法及装置
CN102402606B (zh) 一种高效的文本数据挖掘方法
CN109117475A (zh) 一种文本改写的方法以及相关设备
US20140324861A1 (en) Block Partitioning For Efficient Record Processing In Parallel Computing Environment
CN104239520B (zh) 一种基于历史信息的hdfs数据块放置策略
CN104933411A (zh) 指纹识别处理方法及系统
CN107038244A (zh) 一种数据挖掘方法和装置、一种可读介质和存储控制器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510