CN103605576B - 一种基于多线程的MapReduce执行系统 - Google Patents

一种基于多线程的MapReduce执行系统 Download PDF

Info

Publication number
CN103605576B
CN103605576B CN201310602222.6A CN201310602222A CN103605576B CN 103605576 B CN103605576 B CN 103605576B CN 201310602222 A CN201310602222 A CN 201310602222A CN 103605576 B CN103605576 B CN 103605576B
Authority
CN
China
Prior art keywords
multithreading
task
mapreduce
management module
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310602222.6A
Other languages
English (en)
Other versions
CN103605576A (zh
Inventor
石宣化
金海�
陈明
吴松
陆路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201310602222.6A priority Critical patent/CN103605576B/zh
Publication of CN103605576A publication Critical patent/CN103605576A/zh
Application granted granted Critical
Publication of CN103605576B publication Critical patent/CN103605576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多线程的MapReduce执行系统,包括:实现一个多线程的MapReduce执行引擎:将原有Hadoop中Map/Reduce任务的多进程执行模式改为多线程方式;提取Map任务和Reduce任务中对内存使用的细节特征,根据这些特征将MapReduce流程细粒度地分为多个阶段,并将原有Hadoop中shuffle过程由Reduce的拉取改为Map的主动推送;在MapReduce多线程执行引擎内部实现统一的内存管理模块和I/O管理模块,统一管理各个任务线程对内存的使用;设计全局的内存调度和IO调度算法,在作业执行过程中动态调度系统资源。本发明能够在用户完全无需修改原有MapReduce程序的基础上,最大化内存使用,充分利用磁盘带宽,解决原有Hadoop中一直存在的I/O瓶颈问题。

Description

一种基于多线程的MapReduce执行系统
技术领域
本发明属于大数据分布式计算领域,更具体地,涉及一种I/O高效的MapReduce执行系统。
背景技术
通用的Hadoop系统是普及最广的一个MapReduce开源系统,它以多进程的方式运行任务,各个任务在运行时没有任何联系,管理上的简单导致了资源的粗放使用。目前系统普遍场景就是多个CPU与多块磁盘将内存划分成不同的独立分区来运行程序。CPU资源严重过剩,但是调度却以CPU为核心,极大增加了系统的等待时间;内存使用相互隔离,而且Reduce的执行必须等到所有Map完成之后才能开始,内存浪费严重;同时磁盘读写不合理,并行访问磁盘,降低了磁盘效率。节点的性能无法达到理论上的最大值,且相去甚远,主要的原因就是硬件资源的配置不协调,各部件都是分散的工作没有协调统一的管理。学术界和企业界对这类问题也进行了一些积极探索。
MapReduce Online系统中最明显的改进就是提前了Reduce进程的执行时间,平衡了Map与Reduce任务之间的资源使用空隙,提高了系统的资源利用率。但是这也只是一种粗粒度的管理,杯水车薪,没有解决根本问题。
One-Pass系统缓解了内存不足的问题,通过使用hash的方式代替Merge Sort,减小了系统对内存的需求,避开了内存管理这个问题,而且它改变了原来的排序属性,减小了系统的使用范围。
ThemisMR系统首先在硬件上进行定制,争取达到硬件之间的顺滑。其次在软件层次主要有两点儿创新。一是将I/O读写次数控制到2次,避免 了频繁的I/O读写对性能的影响;二是动态的自适应的内存分配使不同种类的任务得到最优的内存分配。但它是用C++重写的MapReduce计算系统,在可用性,容错性等方面不能同Hadoop相比,而且也丧失了现有程序的兼容性,很难得到广泛使用。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于多线程的MapReduce执行系统,旨在解决现有方法中存在的高成本、低效率、高门槛、以及可用性差的问题。
为实现上述目的,本发明提供了一种基于多线程的MapReduce执行系统,包括:
(1)MapReduce多线程任务执行模块,采用多线程方式执行Hadoop中的Map/Reduce任务;
(2)细粒度任务执行模块,用于提取Map任务和Reduce任务的内存使用特征,并根据这些特征将MapReduce流程分为多个阶段,并且,采用Map主动推送方式进行Hadoop的shuffle过程;
(3)内存管理模块,用于统一管理各个任务线程对内存的使用,包括动态分配和回收各个任务执行过程中使用的内存;
(4)I/O管理模块,用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求,最小化磁盘I/O等待时间。
与现有技术相比,本方法具有以下的有益效果:
(1)细粒度的资源管理
将Map任务和Reduce任务对资源的使用情况细分成几个阶段,在每个阶段都有对资源的释放和回收,并对每个阶段设置不同的优先级。在出现资源争用时可首先根据不同优先级来分配资源,而在同等优先级的资源请求间分配时遵循FIFO原则。
(2)高效的资源共享机制
由于资源管理器和各个任务都执行进程的各个线程,各个任务对资源的共享可以在统一的地址空间内直接实现,避免了消息传递和资源拷贝的开销。采用分层的资源管理机制,尽可能减轻最顶层的资源管理压力,下放资源管理负担给下层调度器,以此来减少资源的竞争。
(3)良好的可扩展性和兼容性
本系统为资源申请,分配,回收都提供了统一的接口,调度算法的实现也是可配置的。用户可根据实际情况对资源管理进行扩展升级。Hadoop原有的接口并没有改变,而且对于各个任务的执行线程做了类加载器的隔离,避免了静态变量的相互干扰,因此原有的MapReduce程序可以不做任何修改直接运行在本系统上。
(4)保有原Hadoop的高可用性,容错性
本发明仅对Hadoop的执行部分进行优化,其他部分未作改变,因此原有Hadoop优良特性都能继续发挥作用。每个Map任务的中间结果依然是写磁盘的,在Reduce失效时,仍然能够仅重启该Reduce任务即可。此外本系统通过杀死任务相关线程的方式来杀死任务,仍然支持原有Hadoop的投机性执行系统。
附图说明
图1是多线程MapReduce执行系统的整体结构图。
图2是内存管理模块的结构示意图。
图3是I/O管理模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
Hadoop之所以被广泛使用,一个重要的原因是其成熟的代码和高可用性。本发明目的是在保持它原有的优良特性的同时提高其执行效率,为此, 系统接口跟原有的Hadoop一模一样,用户在使用本发明时无需修改其原有的MapReduce程序。用户在其所在节点上通过JobClient提交作业给JobTracker,JobTracker对作业进行调度,并初始化作业,待准备就绪后在各个TaskTracker通过心跳联系JobTracker时,JobTracker就将初始化好的作业任务按照固有的调度算法分配给各个TaskTracker。该部分跟原有的Hadoop一模一样。
如图1所示,本发明基于多线程的MapReduce执行系统主要架构如下:
(1)MapReduce多线程任务执行模块(TaskExecutor),采用多线程方式执行Hadoop中的Map/Reduce任务。其中,原有Hadoop中Map/Reduce任务的多进程执行模式被改为多线程方式,具体为:在MapReduce集群中的任一个TaskTracker节点上,除了原有的TaskTracker进程之外,还开启一个多线程任务执行引擎,当TaskTracker被分配到一个Map任务或Reduce任务时,将该任务交给多线程任务执行引擎以多线程的方式执行。
其中,TaskTracker在获取任务后,将其加入待执行任务列表中。TaskExecutor周期性地访问TaskTracker,当有空余的任务槽时就从TaskTracker中拉取任务,对任务进行初始化并开启相应的线程来开启该任务。
(2)细粒度任务执行模块,用于提取Map任务和Reduce任务的内存使用特征,并根据这些特征将MapReduce流程分为多个阶段,并且,采用Map主动推送方式进行Hadoop的shuffle过程。内存使用的方式包括Map任务中的排序缓冲区,Map任务中的发送缓冲区和Reduce任务中的接收缓冲区。其中,原有Hadoop中shuffle过程由Reduce的拉取改为Map的主动推送,具体为:一旦Map任务执行完成,将其结果数据缓存在发送缓冲区中,然后主动推送发送缓冲区中的数据到Reduce任务的接收缓冲区中。
所述细粒度任务执行具体为:将Map任务分为Map函数执行、中间部分结果排序、将部分结果归并为最终结果和最终结果推送。其中,中间部 分结果存放在排序缓冲区中,每个Map任务的最终结果放在发送缓冲区中。将Reduce任务分为Map数据接收、数据排序、Reduce函数执行和Reduce结果写到HDFS。其中Reduce任务从Map端接收过来的数据就放在接收缓冲区中。
(3)内存管理模块,用于统一管理各个任务线程对内存的使用,包括动态分配和回收各个任务执行过程中使用的内存。
内存管理模块采用分层的结构来管理所有Map任务和Reduce任务的内存使用请求。如图2所示,内存管理模块分为三层:最上一层为全局内存管理模块,中间一层为Map内存管理模块和Reduce内存管理模块,最下一层为具体的Map任务和Reduce任务。其中,全局内存管理模块用于协调Map内存管理模块和Reduce内存管理模块的内存使用配额;Map内存管理模块用于管理所有Map任务的内存使用请求;Reduce内存管理用于所有Reduce任务的内存使用请求。
内存管理模块在分配内存时主要根据各个内存使用类型的优先级的原则,具体为:排序缓冲区>发送缓冲区>接收缓冲区,而内存回收时的优先级跟分配时的优先级相反。当内存请求类型相同时,采用FIFO的策略来分配内存;当内存请求类型不同时,根据优先级来处理内存使用请求。
(4)I/O管理模块,用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求,最小化磁盘I/O等待时间。如图3所示,I/O管理模块包括写请求管理子模块和读请求管理子模块,在读/写请求管理子模块中针对同一个文件的读/写请求都对应一个读/写请求队列,用于缓存所要读/写的数据。队列有一个上限,超过队列上限时,读/写操作会被阻塞。队列中对内存的申请和释放也是需要内存管理模块的统一管理。
I/O管理模块主要用到交错I/O和异步I/O的技术。其中交错I/O是指多个I/O请求按照一定的粒度交错地进行I/O的方式。由于并发I/O会导致磁盘寻道,而串行I/O虽然效率最高但会丧失公平性,因此用交错I/O的方 式来提高磁盘效率的同时保持一定的公平性。异步I/O是指I/O管理模块用独立的线程来进行I/O操作,以重叠CPU计算和磁盘I/O。
I/O管理模块对多个I/O请求的调度主要根据I/O优先级的原则,优先级的设置为:
(1)主动I/O>被动I/O,其中,主动I/O是指系统主动进行的I/O操作,比如为了容错需要将Map的结果数据主动写磁盘;被动I/O是指由于内存不足需要将缓冲区中的数据先写到磁盘中。
(2)被动I/O主要用于内存回收,其优先级跟内存分配时的优先级顺序相反,即:接收缓冲区>发送缓冲区>排序缓冲区。
处理不同优先级的请求时,直接按照优先级大小的顺序来完成I/O操作;处理相同优先级的请求时,采用交错I/O的方式。
在本实施例中,ResourceScheduler也即内存管理模块和I/O管理模块,它们都以单例模式在MapReduce多线程任务执行模块中运行,各个任务对内存的使用都是通过内存管理模块来调度分配,各个任务进行的磁盘读写操作都是通过I/O管理模块来统一管理。
为了验证本发明系统的可行性和有效性,在真实环境下配置本发明系统,对Hadoop典型应用集合进行实验。
本发明的Hadoop集群基本硬件和软件配置如表1所示:
表1
本发明的部署非常简单:首先,首先,将修改后的代码用ant进行重新编译,生成新的jar包,只需用其替换掉原有的hadoop-core-1.0.1.jar包即可。其次,需要在配置文件中添加一个新的配置选项如下:
<property>
<name>mapred.job.child.java.opts</name>
<value>-d64–Xmx20000M–Xms20000M</value>
</property>
该配置选项将告知任务执行引擎能够使用的内存上限。最后,原有的用户代码无需任何修改,直接按照使用原有hadoop的方式运行作业即可。
在用户的作业提交之后,分配到每个节点的任务都会以线程的方式在多线程任务执行引擎中运行;根据MapReduce各个阶段对内存的使用特点不同,Map/Reduce任务被细粒度地划分为多个阶段;每一个任务在需要新的内存时都必须向内存管理模块申请,内存管理模块根据内存请求的优先级来统一分配内存;当有I/O操作发生时,通过统一的I/O接口,所有的I/O请求都被提交给I/O管理模块来统一管理,I/O管理模块内部用异步I/O和串行I/O的方式实现并能根据I/O请求的优先级来调度I/O,来减少不必要的I/O等待并能有效提升I/O效率。本发明能够根据作业的实时运行信息动态地调节内存的使用,通过内存使用效率的最大化来尽可能地减少中间数据I/O;当有I/O发生时又能够通过全局的I/O管理来实现I/O效率的最大化。通过以上这些设计能够有效地解决I/O瓶颈问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种基于多线程的MapReduce执行系统,包括:
(1)MapReduce多线程任务执行模块,采用多线程方式执行Hadoop中的Map/Reduce任务;
(2)细粒度任务执行模块,用于提取Map任务和Reduce任务的内存使用特征,并根据这些特征将MapReduce流程分为多个阶段,并且,采用Map主动推送方式进行Hadoop的shuffle过程;
(3)内存管理模块,用于统一管理各个任务线程对内存的使用,包括动态分配和回收各个任务执行过程中使用的内存;
(4)I/O管理模块,用于统一管理各个任务线程在执行过程中对本地磁盘的读写请求,最小化磁盘I/O等待时间。
2.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,所述采用多线程方式执行Hadoop中的Map/Reduce任务具体为:在MapReduce集群中的任一个TaskTracker节点上,除了原有的TaskTracker进程之外,还开启一个多线程任务执行引擎,当TaskTracker被分配到一个Map任务或Reduce任务时,将该任务交给多线程任务执行引擎以多线程的方式执行。
3.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,所述内存使用的方式包括Map任务中的排序缓冲区,Map任务中的发送缓冲区和Reduce任务中的接收缓冲区。
4.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,所述细粒度任务执行具体为:将Map任务分为Map函数执行、中间部分结果排序、将部分结果归并为最终结果和最终结果推送;将Reduce任务分为Map数据接收、数据排序、Reduce函数执行和Reduce结果写到HDFS。
5.根据权利要求3所述的基于多线程的MapReduce执行系统,其中,所述Map主动推送具体为:一旦Map任务执行完成,将其结果数据缓存在所述发送缓冲区中,然后主动推送所述发送缓冲区中的数据到Reduce任务的所述接收缓冲区中。
6.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,所述内存管理模块和所述I/O管理模块以单例模式在MapReduce多线程任务执行模块中运行,各个任务对内存的使用通过内存管理模块来调度分配,各个任务进行的磁盘读写操作通过I/O管理模块来统一管理。
7.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,所述内存管理模块分为三层:最上一层为全局内存管理模块,中间一层为Map内存管理模块和Reduce内存管理模块,最下一层为具体的各个Map任务和Reduce任务。
8.根据权利要求7所述的基于多线程的MapReduce执行系统,其中,全局内存管理模块用于协调Map内存管理模块和Reduce内存管理模块的内存使用配额;Map内存管理模块用于管理所有Map任务的内存使用请求;Reduce内存管理用于所有Reduce任务的内存使用请求。
9.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,内存管理模块在分配内存时根据各个内存使用类型的优先级的原则,具体为:排序缓冲区>发送缓冲区>接收缓冲区,而回收内存时的优先级跟分配内存时的优先级相反。
10.根据权利要求9所述的基于多线程的MapReduce执行系统,其中,当内存请求类型相同时,采用FIFO的策略来分配内存;当内存请求类型不同时,根据优先级来处理内存使用请求。
11.根据权利要求1所述的基于多线程的MapReduce执行系统,其中,I/O管理模块包括写请求管理子模块和读请求管理子模块,在读/写请求管理子模块中针对同一个文件的读/写请求都对应一个读/写请求队列,用于缓存所要读/写的数据。
12.根据权利要求3所述的基于多线程的MapReduce执行系统,其中,I/O管理模块使用交错I/O和异步I/O,其中交错I/O是指多个I/O请求按照一定的粒度交错地进行I/O;异步I/O是指I/O管理模块用独立的线程来进行I/O操作,以重叠CPU计算和磁盘I/O。
13.根据权利要求12所述的基于多线程的MapReduce执行系统,其中,I/O管理模块对多个I/O请求的调度根据I/O优先级的原则,所述优先级的设置为:
(1)主动I/O>被动I/O,其中,主动I/O是指系统主动进行的I/O操作;被动I/O是指由于内存不足需要将缓冲区中的数据先写到磁盘中;
(2)被动I/O用于内存回收,其优先级跟内存分配时的优先级顺序相反,即:接收缓冲区>发送缓冲区>排序缓冲区。
14.根据权利要求13所述的基于多线程的MapReduce执行系统,其中,处理不同优先级的请求时,直接按照优先级大小的顺序来完成I/O操作;处理相同优先级的请求时,采用所述交错I/O的方式。
CN201310602222.6A 2013-11-25 2013-11-25 一种基于多线程的MapReduce执行系统 Active CN103605576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310602222.6A CN103605576B (zh) 2013-11-25 2013-11-25 一种基于多线程的MapReduce执行系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310602222.6A CN103605576B (zh) 2013-11-25 2013-11-25 一种基于多线程的MapReduce执行系统

Publications (2)

Publication Number Publication Date
CN103605576A CN103605576A (zh) 2014-02-26
CN103605576B true CN103605576B (zh) 2017-02-08

Family

ID=50123805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310602222.6A Active CN103605576B (zh) 2013-11-25 2013-11-25 一种基于多线程的MapReduce执行系统

Country Status (1)

Country Link
CN (1) CN103605576B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933437A (zh) * 2019-03-15 2019-06-25 广州华多网络科技有限公司 一种防止线程卡死的方法、装置、设备及计算机可读介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156316B (zh) * 2014-08-06 2017-04-05 浪潮(北京)电子信息产业有限公司 一种Hadoop集群批处理作业的方法及系统
CN104331435B (zh) * 2014-10-22 2017-11-21 国家电网公司 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN104407811B (zh) * 2014-11-12 2017-09-19 珠海世纪鼎利科技股份有限公司 一种基于云计算的合并io装置
CN104503820B (zh) * 2014-12-10 2018-07-24 华南师范大学 一种基于异步启动的Hadoop优化方法
CN104461721B (zh) * 2014-12-11 2017-11-14 北京国双科技有限公司 工作流的调用方法和装置
CN104503844B (zh) * 2014-12-29 2018-03-09 中国科学院深圳先进技术研究院 一种基于多阶段特征的MapReduce作业细粒度分类方法
CN104915260B (zh) * 2015-06-19 2018-05-25 北京搜狐新媒体信息技术有限公司 一种Hadoop集群管理任务的分发方法和系统
CN104933176B (zh) * 2015-06-30 2018-10-12 四川医科大学 基于MapReduce技术的大数据地址分层调度方法
US9558049B1 (en) 2015-10-12 2017-01-31 International Business Machines Corporation Shuffle optimization in map-reduce processing
CN105610621B (zh) * 2015-12-31 2019-04-26 中国科学院深圳先进技术研究院 一种分布式系统架构任务级参数动态调整的方法及装置
CN105718244B (zh) * 2016-01-18 2018-01-12 上海交通大学 一种流水化数据洗牌传输的Spark任务调度与执行方法
CN105868025B (zh) * 2016-03-30 2019-05-10 华中科技大学 一种解决大数据处理系统中内存资源激烈竞争的系统
CN105955819B (zh) * 2016-04-18 2019-06-18 中国科学院计算技术研究所 基于Hadoop的数据传输方法及系统
CN106055311B (zh) * 2016-05-26 2018-06-26 浙江工业大学 基于流水线多线程的MapReduce任务并行化方法
CN106843803B (zh) * 2016-12-27 2019-04-23 南京大学 一种基于归并树的全排序加速器及应用
CN109242230B (zh) * 2017-07-10 2021-09-03 中国科学院沈阳自动化研究所 一种解决wbs排序问题的调度方法
CN109101188B (zh) * 2017-11-21 2022-03-01 新华三大数据技术有限公司 一种数据处理方法和装置
CN109933426B (zh) * 2019-02-19 2021-06-25 北京三快在线科技有限公司 服务调用的处理方法、装置、电子设备及可读存储介质
CN111506407B (zh) * 2020-04-14 2022-04-26 中山大学 Pull模式与Push模式相结合的资源管理与作业调度方法、系统
CN111782367B (zh) * 2020-06-30 2023-08-08 北京百度网讯科技有限公司 分布式存储方法及装置、电子设备、计算机可读介质
CN112463331B (zh) * 2020-12-02 2022-04-15 天津光电通信技术有限公司 一种基于java单线程池的任务调度优化实现方法
CN112947889A (zh) * 2021-03-09 2021-06-11 中科驭数(北京)科技有限公司 一种归并排序方法及装置
CN113296962B (zh) * 2021-07-26 2022-01-11 阿里云计算有限公司 内存管理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN103246570A (zh) * 2013-05-20 2013-08-14 百度在线网络技术(北京)有限公司 Hadoop的调度方法、系统及管理节点

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004670A (zh) * 2009-12-17 2011-04-06 华中科技大学 一种基于MapReduce的自适应作业调度方法
CN103246570A (zh) * 2013-05-20 2013-08-14 百度在线网络技术(北京)有限公司 Hadoop的调度方法、系统及管理节点

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MapReduce:新型的分布式并行计算编程模型;李成华等;《计算机工程与科学》;20110331;第33卷(第3期);第129-135页 *
基于MapReduce的数据密集型应用性能优化研究;刘超等;《武汉理工大学学报》;20101031;第32卷(第20期);第36-40页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933437A (zh) * 2019-03-15 2019-06-25 广州华多网络科技有限公司 一种防止线程卡死的方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN103605576A (zh) 2014-02-26

Similar Documents

Publication Publication Date Title
CN103605576B (zh) 一种基于多线程的MapReduce执行系统
CN111522639B (zh) Kubernetes集群架构系统下多维资源调度方法
Shi et al. Mammoth: Gearing hadoop towards memory-intensive mapreduce applications
US9588810B2 (en) Parallelism-aware memory request scheduling in shared memory controllers
WO2019179250A1 (zh) 调度方法、调度器、存储介质及系统
US8689226B2 (en) Assigning resources to processing stages of a processing subsystem
WO2020119307A1 (zh) 一种基于dsp的任务调度方法及装置
KR101859188B1 (ko) 매니코어 시스템에서의 파티션 스케줄링 장치 및 방법
CN103927225A (zh) 一种多核心架构的互联网信息处理优化方法
CN102981973B (zh) 在存储系统中执行请求的方法
WO2012092894A2 (zh) 一种多核处理器系统
Tang et al. Fairness-efficiency scheduling for cloud computing with soft fairness guarantees
Tang et al. Dynamic slot allocation technique for MapReduce clusters
Bibal Benifa et al. Performance improvement of Mapreduce for heterogeneous clusters based on efficient locality and replica aware scheduling (ELRAS) strategy
CN102571580A (zh) 数据接收方法和计算机
Nicolae et al. Towards memory-optimized data shuffling patterns for big data analytics
CN111459668A (zh) 用于服务器的轻量级资源虚拟化方法及轻量级资源虚拟化装置
Sontakke et al. Optimization of hadoop mapreduce model in cloud computing environment
Shu-Jun et al. Optimization and research of hadoop platform based on fifo scheduler
JP6283376B2 (ja) クラスタにおけるワークシェアリング多重化をサポートするためのシステムおよび方法
CN101431475B (zh) 高性能的流媒体服务器的设置以及进行高性能节目读取的方法
Balaji et al. Impact of high performance sockets on data intensive applications
CN112114951A (zh) 一种自下而上的分布式调度系统及方法
US11630834B2 (en) Label-based data representation I/O process and system
Chen et al. A real-time scheduling strategy based on processing framework of Hadoop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant