CN106681823A - 一种处理MapReduce数据倾斜的负载均衡方法 - Google Patents

一种处理MapReduce数据倾斜的负载均衡方法 Download PDF

Info

Publication number
CN106681823A
CN106681823A CN201510747447.XA CN201510747447A CN106681823A CN 106681823 A CN106681823 A CN 106681823A CN 201510747447 A CN201510747447 A CN 201510747447A CN 106681823 A CN106681823 A CN 106681823A
Authority
CN
China
Prior art keywords
key
task
reduce
time coefficient
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510747447.XA
Other languages
English (en)
Inventor
田文洪
李国忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huang Chaojie
Xu Minxian
Yang Wutong
Original Assignee
Huang Chaojie
Xu Minxian
Yang Wutong
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huang Chaojie, Xu Minxian, Yang Wutong filed Critical Huang Chaojie
Priority to CN201510747447.XA priority Critical patent/CN106681823A/zh
Publication of CN106681823A publication Critical patent/CN106681823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/503Resource availability

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种处理MapReduce数据倾斜的负载均衡方法,涉及集群调度、负载均衡领域。随着大规模的MapReduce集群广泛地用于大数据处理,当前主要问题之一是如何最大限度地减少工作时间,提高MapReduce服务效率;在MapReduce过去的研究当中,较少涉及到数据均衡相关问题,本发明针对MapReduce运行流程中的数据倾斜问题,提出了Reduce端的负载均衡算法,所述方法包括步骤:对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;根据任务的个数和时间系数,按照基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕;并将分配方式提交给自定义的Partition函数,执行处理过程。

Description

一种处理MapReduce数据倾斜的负载均衡方法
技术领域
本发明涉及在线集群调度技术领域,尤其涉及一种处理Hadoop集群任务数据倾斜的负载均衡方法和装置。
背景技术
Hadoop是一个以可靠、高效、可伸缩的方式对大量数据进行分布式处理的软件框架。Hadoop集群(cluster)主要的任务部署分为客户端(Client)机器、主节点(Master nodes)和从节点(Slave nodes)3个部分,如图1所示。数据存储(Hadoop分布式文件系统,HadoopDistributed File System,HDFS)和对运行在这个数据之上的并行计算(MapReduce)的监督是Hadoop的两个关键功能模块,这两个关键功能模块主要由主节点负责。HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个名字节点(NameNode)和若干个数据节点(DataNode)组成的。MapReduce框架是由一个单独运行在主节点上的作业追踪器(JobTracker)和运行在每个集群从节点上的任务追踪器(TaskTracker)共同组成。HDFS和MR共同组成Hadoop分布式系统体系结构的核心。
Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架,它以其通用、方便实用等特征在云计算和大数据处理时代得到了广泛应用。MapReduce是一种用于大规模数据集(大于1TB)的并行运算的编程模型。MapReduce工作过程包括两个阶段:Map阶段和Reduce阶段。Map阶段包含多个Map任务,Reduc阶段包含多个Reduce任务。在正式执行Map函数前,需要对输入数据进行分片,每个Map任务处理一个逻辑分片(split)。split包含了数据起始位置、数据长度、数据所在节点等元数据信息,其划分方法通常由用户自己决定。split的数量决定了Map任务的数量。
HDFS实现Hadoop体系结构中对分布式存储的底层支持存储。
NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。DataNode既是数据存储节点,也是计算节点,它负责处理文件系统客户端的文件读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。
Job Tracker主要负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。JobTracker还负责跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器(Task Scheduler),以便于调度器在资源出现空闲时将这些资源分配给合适的任务。Task Tracker主动周期性地调用心跳RPC函数,向Job Tracker汇报节点和任务运行状态信息,同时领取Job Tracker返回心跳包的各种命令并执行相应的操作。TaskTracker使用“slot”等量划分本节点上的资源量。slot是一个逻辑概念,是Hadoop的资源单位,一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小。slot分为Map slot和Reduceslot两种,分别供Map Task和Reduce Task使用。每个作业申请资源以slot为单位,每个节点会确定自己的计算能力以及存储器,确定自己包含的slot总量。当某个作业要开始执行时,先向Job Tracker申请slot,一个任务获取到一个slot后才有机会运行,而Hadoop调度器的作用就是将各个Task Tracker上的空闲slot分配给任务使用。
Hadoop集群系统中的核心技术是任务调度,在云计算研究中,MapReduce环境的在线作业调度带来了新的课题和挑战,引起了越来越多的重视。最初,Hadoop默认的FIFO(先入先出)调度器专为周期性执行大规模批量作业而设计。随着MapReduce集群系统的用户数量的增加,计算能力调度器和Hadoop公平调度器(HFS:Hadoop FairScheduling)的出现,提供了更高效的集群共享方式,但是,现有的调度器还不能提供对最小化在线作业集完工时间的支持,当提交在线作业为一个作业集时,完工时间可能较长因而导致总能耗较高。
发明内容
本发明要解决的技术问题是:提供一种处理MapReduce数据倾斜的负载均衡方法和装置,能够减轻数据倾斜程度,加快任务处理速度。
为解决上述技术问题,第一方面,本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法,所述方法包括以下四大步骤:
对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
根据任务的个数和时间系数,按照基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;
按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕;
将分配方式提交给自定义的Partition函数,执行任务处理过程;
根据第一方面,在第一种可能的实现方式中,所述对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
对输入的文件,各个节点根据自己拥有的文件块进行计算,使用API计算文件的行数;
运行Map程序统计各个节点上样本key值的频率,并记录该节点key的总个数,总个数可以通过获得文件行数乘以每行key值获取;
运行Reduce程序汇总所有key的频率,并统计出各个key最终频率,同时汇总所有key的总个数,根据抽样频率和总个数,估算出每个key的具体数量。
根据第一方面,在第二种可能的实现方式中,所述为所述各个key处理的时间有显著不同时,每个不同key,设定一个时间系数t,对任意一个key ki,ti的大小定义为该key执行时间和执行最慢的key的执行时间的比值;对每个不同key进行一次执行,将该key的执行时间进行记录,增加时间系数后,可以通过在分配时候把时间系数考虑进去,解决key值处理时间不同的情形。
根据第一方面,在第三种可能的实现方式中,所述根据key的个数和时间系数,按照基于时间系数的key数量从大到小降序排序,数量相同则按照序号排序。
根据第一方面的第四种可能的实现方式,取出key选择Reduce剩余数量最大的分配;若该Reduce剩余容量足够分配,则直接分配给Reduce,分配后修改Reduce剩余容量数目;若该Reduce剩余容量不够,则分配Reduce剩余容量大小并将已经分配的ki标记为ki_1,取出Reduce剩余数量最大的分配,直到该key分配完毕。
根据第一方面,在第五种可能的实现方式中,所有调整执行完成后,按照调整的结果对输入文件进行key替换,并将分配方式提交给自定义的Partition函数。
第二方面,本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法装置,所述装置四大模块包括:
抽样模块,用于对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
排序模块,根据任务的个数和时间系数,基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;
分配模块,按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕;
执行模块,用于按照所述顺序执行任务。
根据第二方面,在第一种可能的实现方式中,所述抽样模块:
对输入的文件,各个节点根据自己拥有的文件块进行计算,使用API计算文件的行数;
运行Map程序统计各个节点上样本key值的频率,并记录该节点key的总个数,总个数可以通过获得文件行数乘以每行key值获取;
运行Reduce程序汇总所有key的频率,并统计出各个key最终频率,同时汇总所有key的总个数,根据抽样频率和总个数,估算出每个key的具体数量。
并且获取不同key的时间系数,通过在分配时候把时间系数考虑进去,解决key值处理时间不同的情形。
根据第二方面,在第二种可能的实现方式中,所述排序模块:
根据key的个数和时间系数,按照基于时间系数的key数量从大到小降序排序,数量相同则按照序号排序。
根据第二方面,在第三种可能的实现方式中,所述分配模块:
取出key选择Reduce剩余数量最大的分配;若该Reduce剩余容量足够分配,则直接分配给Reduce,分配后修改Reduce剩余容量数目;若该Reduce剩余容量不够,则分配Reduce剩余容量大小并将已经分配的ki标记为ki_1,取出Reduce剩余数量最大的分配,直到该key分配完毕。
根据第二方面,在第四种可能的实现方式中,所述执行模块:
在所述根据任务执行顺序,依次执行任务,直到任务全部完成。
第三方面,本发明实施例提供了一种处理Hadoop集群任务数据倾斜的负载均衡装置,包括第二方面或第二方面任一种可能的实现方式所述的调度装置。
第四方面,本发明实施例提供了一种处理Hadoop集群任务数据倾斜的负载均衡的功耗降低方法,其特征在于,所述Hadoop集群系统使用第一方面或第一方面任一种可能的实现方式所述的方法进行调度。
附图说明
图1是本发明一种实施例的Hadoop集群系统部署示意图;
图2是本发明一种实施例的处理MapReduce数据倾斜的负载均衡方法流程图;
图3是本发明一种实施例的处理MapReduce数据倾斜的负载均衡装置示意图;
具体实施方式
下面根据附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图2所示,本发明实施例提供了一种处理MapReduce数据倾斜的负载均衡方法,该方法包括步骤:
S101.对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量。
S102.根据任务的个数和时间系数,按照基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序。
S103.按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕。
S104.将分配方式提交给自定义的Partition函数,执行任务处理过程。
本领域技术人员可以理解,在本发明各实施例的方法中,各步骤的序号大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明具体实施例的实施过程构成任何限定。
如图3所示,本发明实施例还提供了一种实施例的Hadoop集群任务数据倾斜的负载均衡装置的调度装置300,该装置300包括:
抽样模块310,用于对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
对输入的文件,各个节点根据自己拥有的文件块进行计算,使用API计算文件的行数;
运行Map程序统计各个节点上样本key值的频率,并记录该节点key的总个数,总个数可以通过获得文件行数乘以每行key值获取;
运行Reduce程序汇总所有key的频率,并统计出各个key最终频率,同时汇总所有key的总个数,根据抽样频率和总个数,估算出每个key的具体数量。
并且获取不同key的时间系数,通过在分配时候把时间系数考虑进去,解决key值处理时间不同的情形。
排序模块320,用于根据任务的个数和时间系数,按照基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;
分配模块330,用于按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕。
执行模块340,用于将分配方式提交给自定义的Partition函数,执行任务处理过程。
本发明实施例还提供了一种包括本发明实施例的图3所示的调度装置的Hadoop集群系统,该集群系统可按照图1所示的架构部署,该调度装置可为图1中所示的任务调度器。
以下通过具体实例来进一步说明本发明各实施例:
假设一个MapReduce任务,有4种keys(k1,k2,k3,k4),运行在4个Reducers(R1,R2,R3,R4)上,根据抽样分析后,得到k1,k2,k3,k4的数量分别是1000,100,50,20。则在默认情况下R1,R2,R3,R4分别分配到的key数量分别为1000,100,50,20,可以看出R1分配到的key的数值明显大于其他几个,产生数据倾斜,最后导致R2,R3,R4都在等待R1执行完成,总完工时间较长,产生大量能耗。
按照本发明实施例的方法,对该作业集进行处理的过程如下:
S510.计算出key的均值kavg为292,将R1,R2,R3,R4剩余值设置为292;
S520.取出k1进行分配,选择R1进行分配,由于k1数量大于R1剩余数量,所以将k1分配292个key到R1,并标记为k1_2
S530.继续执行,由于k1剩余数量大于R2剩余数量,因此将k1剩下部分标记为k1_2分配到R2,分配key数量为292,同理将k1_3分配到R3,分配key数量为292,分配后k1剩余数量为124,小于R4剩余数量,故将剩余的124个key全部分配到R4,标记为k1_4
同理,取出k2,k3,k4分配到R4上;
此时R1,R2,R3,R4分配到的key的数量分别为292,292,292,294,实现了key值的理想负载均衡。
另一具体实例进一步说明本发明各实施例:
计算key数量时候,增加时间系数,即基于时间系数的key数量kt i=ki×ti,平均key值则变成了
具体分配时,分配到reduce上数量为Rt=R/t。
增加时间系数后,上述例子中,kt 1=500,则按照key均衡调整,k1分配到R1上,标记为k1_1,数量为60,k1_2分配到R2上,数量为40,k2分配到R2上,数量100,则两个ReduceR1,R2执行时间相同,均为300个单位时间,达到了负载均衡的目的。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一台计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种处理MapReduce数据倾斜的负载均衡方法,其特征在于,所述方法包括步骤:
对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
根据任务的个数和时间系数,按照基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;
按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕;
将分配方式提交给自定义的Partition函数,执行任务处理过程。
2.根据权利要求1所述的方法,其特征在于,所述的抽样方法为:
对输入的文件,各个节点根据自己拥有的文件块进行计算,使用API计算文件的行数;
运行Map程序统计各个节点上样本key值的频率,并记录该节点key的总个数,总个数可以通过获得文件行数乘以每行key值获取;
运行Reduce程序汇总所有key的频率,并统计出各个key最终频率,同时汇总所有key的总个数,根据抽样频率和总个数,估算出每个key的具体数量。
3.根据权利要求1所述的方法,其特征在于,所述各个key处理的时间有显著不同时,每个不同key,设定一个时间系数t,对任意一个key ki,ti的大小定义为该key执行时间和执行最慢的key的执行时间的比值;对每个不同key进行一次执行,将该key的执行时间进行记录,增加时间系数后,可以通过在分配时候把时间系数考虑进去,解决key值处理时间不同的情形。
4.根据权利要求1所述的方法,其特征在于,根据key的个数和时间系数,按照基于时间系数的key数量从大到小降序排序,数量相同则按照序号排序。
5.根据权利要求1所述的方法,其特征在于,取出key选择Reduce剩余数量最大的分配;若该Reduce剩余容量足够分配,则直接分配给Reduce,分配后修改Reduce剩余容量数目;若该Reduce剩余容量不够,则分配Reduce剩余容量大小并将已经分配的ki标记为ki_1,取出Reduce剩余数量最大的分配,直到该key分配完毕。
6.根据权利要求1所述的方法,其特征在于,所有调整执行完成后,按照调整的结果对输入文件进行key替换,并将分配方式提交给自定义的Partition函数。
7.一种处理MapReduce数据倾斜的负载均衡装置,其特征在于,所述装置包括:
抽样模块,用于对输入数据进行抽样分析,确定平均每个Reduce节点上任务数量;
排序模块,根据任务的个数和时间系数,基于时间系数的任务数量从大到小降序排序,数量相同则按照序号排序;
分配模块,按照资源剩余容量最大的原则以及所排任务顺序依次分配任务,直到所有任务分配完毕;
执行模块,用于按照所述顺序执行任务。
8.根据权利要求7所述的装置,其特征在于,所述抽样模块:
对输入的文件,各个节点根据自己拥有的文件块进行计算,使用API计算文件的行数;
运行Map程序统计各个节点上样本key值的频率,并记录该节点key的总个数,总个数可以通过获得文件行数乘以每行key值获取;
运行Reduce程序汇总所有key的频率,并统计出各个key最终频率,同时汇总所有key的总个数,根据抽样频率和总个数,估算出每个key的具体数量;
获取不同key的时间系数,通过在分配时候把时间系数考虑进去,解决key值处理时间不同的情形。
9.根据权利要求7所述的装置,其特征在于,所述排序模块:
根据key的个数和时间系数,按照基于时间系数的key数量从大到小降序排序,数量相同则按照序号排序。
10.根据权利要求7所述的装置,其特征在于,所述分配模块:
取出key选择Reduce剩余数量最大的分配;若该Reduce剩余容量足够分配,则直接分配给Reduce,分配后修改Reduce剩余容量数目;若该Reduce剩余容量不够,则分配Reduce剩余容量大小并将已经分配的ki标记为ki_1,取出Reduce剩余数量最大的分配,直到该key分配完毕。
CN201510747447.XA 2015-11-05 2015-11-05 一种处理MapReduce数据倾斜的负载均衡方法 Pending CN106681823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510747447.XA CN106681823A (zh) 2015-11-05 2015-11-05 一种处理MapReduce数据倾斜的负载均衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510747447.XA CN106681823A (zh) 2015-11-05 2015-11-05 一种处理MapReduce数据倾斜的负载均衡方法

Publications (1)

Publication Number Publication Date
CN106681823A true CN106681823A (zh) 2017-05-17

Family

ID=58857513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510747447.XA Pending CN106681823A (zh) 2015-11-05 2015-11-05 一种处理MapReduce数据倾斜的负载均衡方法

Country Status (1)

Country Link
CN (1) CN106681823A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144707A (zh) * 2017-06-16 2019-01-04 田文洪 一种处理大数据平台Spark数据分配不均衡的方法
CN109144709A (zh) * 2017-06-16 2019-01-04 田文洪 一种处理大数据平台yarn数据分配不均衡的方法
CN110209645A (zh) * 2017-12-30 2019-09-06 中国移动通信集团四川有限公司 任务处理方法、装置、电子设备及存储介质
CN110597879A (zh) * 2019-09-17 2019-12-20 第四范式(北京)技术有限公司 时序数据的处理方法和装置
CN111046045A (zh) * 2019-12-13 2020-04-21 中国平安财产保险股份有限公司 处理数据倾斜的方法、装置、设备及存储介质
CN111104225A (zh) * 2019-12-23 2020-05-05 杭州安恒信息技术股份有限公司 一种基于MapReduce的数据处理方法、装置、设备及介质
CN112596895A (zh) * 2020-12-02 2021-04-02 中国科学院计算技术研究所 一种sql语义感知的弹性倾斜处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434393A (zh) * 2003-02-24 2003-08-06 武汉大学 一种集群服务器的动态负载均衡方法
CN102710779A (zh) * 2012-06-06 2012-10-03 合肥工业大学 一种基于云计算环境下的服务资源分配的负载均衡策略
CN102799486A (zh) * 2012-06-18 2012-11-28 北京大学 一种MapReduce系统中的数据采样和划分方法
CN103226467A (zh) * 2013-05-23 2013-07-31 中国人民解放军国防科学技术大学 数据并行处理方法、系统及负载均衡调度器
CN104253850A (zh) * 2014-01-07 2014-12-31 深圳市华傲数据技术有限公司 一种任务分布式调度方法和系统
US20150058843A1 (en) * 2013-08-23 2015-02-26 Vmware, Inc. Virtual hadoop manager

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434393A (zh) * 2003-02-24 2003-08-06 武汉大学 一种集群服务器的动态负载均衡方法
CN102710779A (zh) * 2012-06-06 2012-10-03 合肥工业大学 一种基于云计算环境下的服务资源分配的负载均衡策略
CN102799486A (zh) * 2012-06-18 2012-11-28 北京大学 一种MapReduce系统中的数据采样和划分方法
CN103226467A (zh) * 2013-05-23 2013-07-31 中国人民解放军国防科学技术大学 数据并行处理方法、系统及负载均衡调度器
US20150058843A1 (en) * 2013-08-23 2015-02-26 Vmware, Inc. Virtual hadoop manager
CN104253850A (zh) * 2014-01-07 2014-12-31 深圳市华傲数据技术有限公司 一种任务分布式调度方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144707A (zh) * 2017-06-16 2019-01-04 田文洪 一种处理大数据平台Spark数据分配不均衡的方法
CN109144709A (zh) * 2017-06-16 2019-01-04 田文洪 一种处理大数据平台yarn数据分配不均衡的方法
CN110209645A (zh) * 2017-12-30 2019-09-06 中国移动通信集团四川有限公司 任务处理方法、装置、电子设备及存储介质
CN110597879A (zh) * 2019-09-17 2019-12-20 第四范式(北京)技术有限公司 时序数据的处理方法和装置
CN110597879B (zh) * 2019-09-17 2022-01-14 第四范式(北京)技术有限公司 时序数据的处理方法和装置
CN111046045A (zh) * 2019-12-13 2020-04-21 中国平安财产保险股份有限公司 处理数据倾斜的方法、装置、设备及存储介质
CN111046045B (zh) * 2019-12-13 2023-09-29 中国平安财产保险股份有限公司 处理数据倾斜的方法、装置、设备及存储介质
CN111104225A (zh) * 2019-12-23 2020-05-05 杭州安恒信息技术股份有限公司 一种基于MapReduce的数据处理方法、装置、设备及介质
CN112596895A (zh) * 2020-12-02 2021-04-02 中国科学院计算技术研究所 一种sql语义感知的弹性倾斜处理方法及系统
CN112596895B (zh) * 2020-12-02 2023-09-12 中国科学院计算技术研究所 一种sql语义感知的弹性倾斜处理方法及系统

Similar Documents

Publication Publication Date Title
CN106681823A (zh) 一种处理MapReduce数据倾斜的负载均衡方法
CN103186566B (zh) 一种数据分级存储方法、装置及系统
Kalia et al. Analysis of hadoop MapReduce scheduling in heterogeneous environment
Lee et al. A dynamic data placement strategy for hadoop in heterogeneous environments
Amur et al. Robust and flexible power-proportional storage
CN102799486B (zh) 一种MapReduce系统中的数据采样和划分方法
Slagter et al. An improved partitioning mechanism for optimizing massive data analysis using MapReduce
CN106502792A (zh) 一种面向不同类型负载的多租户资源优化调度方法
CN108469988A (zh) 一种基于异构Hadoop集群的任务调度方法
CN103927231B (zh) 一种面向数据处理的能耗优化数据集分配方法
Nguyen et al. A hybrid scheduling algorithm for data intensive workloads in a mapreduce environment
CN102063336A (zh) 一种分布式计算多应用功能异步并发调度方法
CN107346264A (zh) 一种虚拟机负载均衡调度的方法、装置和服务器设备
CN103327128A (zh) 用于MapReduce的中间数据传输方法及系统
CN104112049B (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
Song et al. Modulo based data placement algorithm for energy consumption optimization of MapReduce system
CN103019855A (zh) MapReduce作业执行时间预测方法
CN106897136A (zh) 一种任务调度方法及装置
CN105608138B (zh) 一种优化阵列数据库并行数据加载性能的系统
CN104156505B (zh) 一种基于用户行为分析的Hadoop集群作业调度方法及装置
Mao et al. A load-driven task scheduler with adaptive DSC for MapReduce
Song et al. Energy efficiency optimization in big data processing platform by improving resources utilization
CN103685492A (zh) Hadoop集群系统的调度方法、调度装置及其应用
Premchaiswadi et al. Optimizing and tuning MapReduce jobs to improve the large‐scale data analysis process
Niu et al. An adaptive efficiency-fairness meta-scheduler for data-intensive computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170517