CN106909319B - 一种基于虚拟存储盘的Hadoop架构及调度策略 - Google Patents

一种基于虚拟存储盘的Hadoop架构及调度策略 Download PDF

Info

Publication number
CN106909319B
CN106909319B CN201710086242.0A CN201710086242A CN106909319B CN 106909319 B CN106909319 B CN 106909319B CN 201710086242 A CN201710086242 A CN 201710086242A CN 106909319 B CN106909319 B CN 106909319B
Authority
CN
China
Prior art keywords
virtual memory
memory disk
node
disk
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710086242.0A
Other languages
English (en)
Other versions
CN106909319A (zh
Inventor
彭凯
王靖静
桂宾
马威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Sheng Tong Tong Technology Co Ltd
Original Assignee
Wuhan Sheng Tong Tong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Sheng Tong Tong Technology Co Ltd filed Critical Wuhan Sheng Tong Tong Technology Co Ltd
Priority to CN201710086242.0A priority Critical patent/CN106909319B/zh
Publication of CN106909319A publication Critical patent/CN106909319A/zh
Application granted granted Critical
Publication of CN106909319B publication Critical patent/CN106909319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0664Virtualisation aspects at device level, e.g. emulation of a storage device or system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45579I/O management, e.g. providing access to device drivers or storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明涉及一种基于虚拟存储盘的Hadoop架构及调度策略,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;将节点上map和/或reduce任务对应缓存的溢出数据存储于虚拟存储盘,仅当虚拟存储盘已存储的数据达到虚拟存储盘的门限时,才将溢出数据存储于磁盘;虚拟存储盘的访问速度比磁盘高几个数量级,使用虚拟存储盘会让Hadoop更快的读取数据;且使用虚拟存储盘来存储节点上map和/或reduce任务对应缓存的溢出数据,Hadoop为map和reduce任务配置的缓存依然存在,配置参数不需重新设定;另,虚拟存储盘具有磁盘的读写等功能,可有效避免Hadoop应用代码的修改。

Description

一种基于虚拟存储盘的Hadoop架构及调度策略
技术领域
本发明涉及Hadoop数据密集型任务下的优化技术领域,特别涉及一种基于虚拟存储盘的Hadoop架构及调度策略。
背景技术
Hadoop是一个大数据领域非常成功的框架,被广泛应用在工业和学术上。它采用先进的map/reduce思想,通过将大规模的数据拆分成大量的小的块,然后分发给集群中的各个节点,让每个节点来处理自己负责的区块的内容。通过这种方式以让单台计算机难以完成的任务可以通过多台计算机来完成。然而,现有的Hadoop在处理数据密集型应用的时会存在以下问题:
现有的Hadoop处理通过缓存来存储中间数据,如果缓存不足,缓存的溢出数据将会被存储于磁盘。具体过程为:执行map任务时,如果map任务对应的缓存不足时,缓存的溢出数据将存储于map任务所在节点的磁盘,待map任务执行完毕,map任务存储于缓存和磁盘的输出数据将聚合存储于磁盘供reduce任务调用;如果map任务对应的缓存充足时,待map任务执行完毕,map任务存储于缓存的输出数据将转移存储于磁盘供reduce任务调用;故,无论如何改变map任务对应的缓存的大小,在map任务执行完毕后均会有大量的数据分发到磁盘,导致数据的下一步读取过慢而影响整体性能。在所有map任务执行完毕,reduce任务所在的节点会复制来自map任务的输出数据,此输出数据将优先存储于reduce任务对应的缓存中,如果缓存不足,缓存的溢出数据将会被存储于reduce任务所在节点的磁盘,待复制完毕后,复制存储于缓存和磁盘的map任务的输出数据将聚合存储于磁盘供执行reduce任务使用;故,又将会有大量的数据分发到磁盘,导致数据的下一步读取过慢而影响整体性能。
发明内容
本发明目的是提供一种基于虚拟存储盘的Hadoop架构及调度策略,解决现有技术中存在的上述问题。
本发明解决上述技术问题的技术方案如下:
一种基于虚拟存储盘的Hadoop架构,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;
所述虚拟存储盘,其用于存储所述节点上map和/或reduce任务对应缓存的溢出数据;
所述磁盘,其用于当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,存储所述溢出数据。
本发明的有益效果是:引入虚拟存储盘,将节点上map和/或reduce任务对应缓存的溢出数据存储于虚拟存储盘,仅当虚拟存储盘已存储的数据达到虚拟存储盘的门限时,才将溢出数据存储于磁盘;虚拟存储盘的访问速度比磁盘高几个数量级,使用虚拟存储盘会让Hadoop更快的读取数据;且使用虚拟存储盘来存储节点上map和/或reduce任务对应缓存的溢出数据,Hadoop为map和reduce任务配置的缓存依然存在,配置参数不需重新设定;另,虚拟存储盘具有磁盘的读写等功能,可有效避免Hadoop应用代码的修改。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述虚拟存储盘配置有tmpfs文件系统。
采用上述进一步方案的有益效果是:tmpfs文件系统可以简化虚拟存储盘的操作,让每次启动可以直接使用虚拟存储盘,而不需要再次进行挂载。
进一步,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间。
采用上述进一步方案的有益效果是:将Hadoop输入输出数据存储于虚拟存储盘,提高Hadoop输入输出数据的读取速度。
进一步,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限。
本发明的另一技术方案如下:
一种基于虚拟存储盘的Hadoop调度策略,采用上述一种基于虚拟存储盘的Hadoop架构;将所述节点上map和/或reduce任务对应缓存的溢出数据存储于所述虚拟存储盘,且当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,将所述溢出数据存储于所述磁盘。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间;
将Hadoop输入输出数据存储于所述空间。
进一步,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限;
当所述节点上map或reduce任务对应缓存产生溢出数据时,进行如下操作:
步骤1,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤2;否,则执行步骤7;
步骤2,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则执行步骤3;否,则执行步骤6;
步骤3,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map或reduce任务对应缓存产生的溢出数据转移到所述磁盘;
步骤4,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则返回执行步骤3,否,则执行步骤5;
步骤5,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤6,否则执行步骤7;
步骤6,判断所述虚拟存储盘是否存储有所述map或reduce任务对应缓存产生的溢出数据;是,则执行步骤7;否,则将所述溢出数据存储于所述磁盘,并结束所述操作;
步骤7,将所述溢出数据存储于所述虚拟存储盘,并结束所述操作。
采用上述进一步方案的有益效果是:提高了溢出数据在虚拟存储盘的存储时间,进一步提高了数据分发效率,且不会造成数据的丢失。
进一步,所述步骤3包括如下步骤:
步骤31,判断所述虚拟存储盘是否存储有执行完毕的reduce任务对应缓存产生的溢出数据;是,则执行步骤32;否,则执行步骤33;
步骤32,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的reduce任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4;
步骤33,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4。
进一步,所述节点包括主节点和从节点;
当从守护程序发现任一从节点空闲时,所述从守护程序将任务请求发送至所述任一从节点对应的主节点,所述主节点的主守护程序查询所述任一从节点上是否存在已执行但未执行完毕的map或reduce任务;
是,则将所述已执行但未执行完毕的map或reduce任务分配给所述任一从节点执行;
否,则查询所述任一从节点上是否存在未执行的map或reduce任务;是,则将所述未执行的map或reduce任务分配给所述任一从节点执行;否,则将待执行任务列表中排序最前的map或reduce任务分配给所述任一从节点执行。
采用上述进一步方案的有益效果是:提高了map或reduce任务的数据局部性。
进一步,所述节点包括主节点和从节点;
当任一从节点上的reduce任务执行失败时;所述任一从节点对应的主节点的主守护程序,调用所述reduce任务对应的map任务所在的从节点,将所述map任务的输出数据再次发送至所述任一从节点;如果所述调用失败,所述主守护程序将所述map任务分配给所述map任务所在的从节点以外的其它从节点重新执行。
采用上述进一步方案的有益效果是:保证了Hadoop稳定性。
附图说明
图1为本发明一种基于虚拟存储盘的Hadoop架构中节点的结构框图;
图2为本发明一种基于虚拟存储盘的Hadoop调度策略的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明实施例1所述一种基于虚拟存储盘的Hadoop架构,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;
所述虚拟存储盘,其用于存储所述节点上map和/或reduce任务对应缓存的溢出数据;
所述磁盘,其用于当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,存储所述溢出数据。
本发明实施例2所述一种基于虚拟存储盘的Hadoop架构,在实施例1的基础上,所述虚拟存储盘配置有tmpfs文件系统。
本发明实施例3所述一种基于虚拟存储盘的Hadoop架构,在实施例1或2的基础上,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间。
本发明实施例4所述一种基于虚拟存储盘的Hadoop架构,在实施例1至3的任一实施例的基础上,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限。
本发明实施例5所述一种基于虚拟存储盘的Hadoop调度策略,采用上述实施例1或2所述一种基于虚拟存储盘的Hadoop架构;将所述节点上map和/或reduce任务对应缓存的溢出数据存储于所述虚拟存储盘,且当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,将所述溢出数据存储于所述磁盘。
本发明实施例6所述一种基于虚拟存储盘的Hadoop调度策略,在实施例5的基础上,所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间;
将Hadoop输入输出数据存储于所述空间。
本发明实施例7所述一种基于虚拟存储盘的Hadoop调度策略,在实施例5或6的基础上,所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限;
当所述节点上map或reduce任务对应缓存产生溢出数据时,如图2所示,进行如下操作:
步骤1,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤2;否,则执行步骤7;
步骤2,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则执行步骤3;否,则执行步骤6;
步骤3,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map或reduce任务对应缓存产生的溢出数据转移到所述磁盘;
步骤4,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则返回执行步骤3,否,则执行步骤5;
步骤5,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤6,否则执行步骤7;
步骤6,判断所述虚拟存储盘是否存储有所述map或reduce任务对应缓存产生的溢出数据;是,则执行步骤7;否,则将所述溢出数据存储于所述磁盘,并结束所述操作;
步骤7,将所述溢出数据存储于所述虚拟存储盘,并结束所述操作。
本发明实施例8所述一种基于虚拟存储盘的Hadoop调度策略,在实施例7的基础上,所述步骤3包括如下步骤:
步骤31,判断所述虚拟存储盘是否存储有执行完毕的reduce任务对应缓存产生的溢出数据;是,则执行步骤32;否,则执行步骤33;
步骤32,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的reduce任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4;
步骤33,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4。
本发明实施例9所述一种基于虚拟存储盘的Hadoop调度策略,在实施例5至8任一实施例的基础上,所述节点包括主节点和从节点;
当从守护程序发现任一从节点空闲时,所述从守护程序将任务请求发送至所述任一从节点对应的主节点,所述主节点的主守护程序查询所述任一从节点上是否存在已执行但未执行完毕的map或reduce任务;
是,则将所述已执行但未执行完毕的map或reduce任务分配给所述任一从节点执行;
否,则查询所述任一从节点上是否存在未执行的map或reduce任务;是,则将所述未执行的map或reduce任务分配给所述任一从节点执行;否,则将待执行任务列表中排序最前的map或reduce任务分配给所述任一从节点执行。
本发明实施例10所述一种基于虚拟存储盘的Hadoop调度策略,在实施例5至9任一实施例的基础上,所述节点包括主节点和从节点;
当任一从节点上的reduce任务执行失败时;所述任一从节点对应的主节点的主守护程序,调用所述reduce任务对应的map任务所在的从节点,将所述map任务的输出数据再次发送至所述任一从节点;如果所述调用失败,所述主守护程序将所述map任务分配给所述map任务所在的从节点以外的其它从节点重新执行。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于虚拟存储盘的Hadoop调度策略,其特征在于,采用基于虚拟存储盘的Hadoop架构进行Hadoop调度,所述Hadoop架构中的节点具有虚拟存储盘和磁盘;所述虚拟存储盘,其用于存储所述节点上map和/或reduce任务对应缓存的溢出数据;所述磁盘,其用于当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,存储所述溢出数据;所述Hadoop调度策略为,将所述节点上map和/或reduce任务对应缓存的溢出数据存储于所述虚拟存储盘,且当所述虚拟存储盘已存储的数据达到所述虚拟存储盘的门限时,将所述溢出数据存储于所述磁盘;
所述虚拟存储盘未达到所述门限的区域划分有用于存储Hadoop输入输出数据的空间;
将Hadoop输入输出数据存储于所述空间;
所述门限包括第一门限和第二门限,所述第一门限低于所述第二门限;
当所述节点上map或reduce任务对应缓存产生溢出数据时,进行如下操作:
步骤1,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤2;否,则执行步骤7;
步骤2,判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则执行步骤3;否,则执行步骤6;
步骤3,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map或reduce任务对应缓存产生的溢出数据转移到所述磁盘;
步骤4,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第二门限;是,则返回执行步骤3,否,则执行步骤5;
步骤5,再次判断所述虚拟存储盘已存储的数据是否达到所述虚拟存储盘的第一门限;是,则执行步骤6,否则执行步骤7;
步骤6,判断所述虚拟存储盘是否存储有所述map或reduce任务对应缓存产生的溢出数据;是,则执行步骤7;否,则将所述溢出数据存储于所述磁盘,并结束所述操作;
步骤7,将所述溢出数据存储于所述虚拟存储盘,并结束所述操作。
2.根据权利要求1所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述步骤3包括如下步骤:
步骤31,判断所述虚拟存储盘是否存储有执行完毕的reduce任务对应缓存产生的溢出数据;是,则执行步骤32;否,则执行步骤33;
步骤32,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的reduce任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4;
步骤33,将所述虚拟存储盘已存储的执行完毕时刻最接近当前时刻的map任务对应缓存产生的溢出数据转移到所述磁盘,并执行步骤4。
3.根据权利要求1或2所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述节点包括主节点和从节点;
当从守护程序发现任一从节点空闲时,所述从守护程序将任务请求发送至所述任一从节点对应的主节点,所述主节点的主守护程序查询所述任一从节点上是否存在已执行但未执行完毕的map或reduce任务;
是,则将所述已执行但未执行完毕的map或reduce任务分配给所述任一从节点执行;
否,则查询所述任一从节点上是否存在未执行的map或reduce任务;是,则将所述未执行的map或reduce任务分配给所述任一从节点执行;否,则将待执行任务列表中排序最前的map或reduce任务分配给所述任一从节点执行。
4.根据权利要求1或2所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述节点包括主节点和从节点;
当任一从节点上的reduce任务执行失败时;所述任一从节点对应的主节点的主守护程序,调用所述reduce任务对应的map任务所在的从节点,将所述map任务的输出数据再次发送至所述任一从节点;如果所述调用失败,所述主守护程序将所述map任务分配给所述map任务所在的从节点以外的其它从节点重新执行。
5.根据权利要求1或2所述一种基于虚拟存储盘的Hadoop调度策略,其特征在于,所述虚拟存储盘配置有tmpfs文件系统。
CN201710086242.0A 2017-02-17 2017-02-17 一种基于虚拟存储盘的Hadoop架构及调度策略 Active CN106909319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710086242.0A CN106909319B (zh) 2017-02-17 2017-02-17 一种基于虚拟存储盘的Hadoop架构及调度策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710086242.0A CN106909319B (zh) 2017-02-17 2017-02-17 一种基于虚拟存储盘的Hadoop架构及调度策略

Publications (2)

Publication Number Publication Date
CN106909319A CN106909319A (zh) 2017-06-30
CN106909319B true CN106909319B (zh) 2019-11-26

Family

ID=59208303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710086242.0A Active CN106909319B (zh) 2017-02-17 2017-02-17 一种基于虚拟存储盘的Hadoop架构及调度策略

Country Status (1)

Country Link
CN (1) CN106909319B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240579B (zh) * 2018-11-28 2024-03-19 京东方科技集团股份有限公司 用于数据存储的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356050B1 (en) * 2011-11-21 2013-01-15 Yahoo! Inc. Method or system for spilling in query environments
CN103365740A (zh) * 2012-04-06 2013-10-23 腾讯科技(深圳)有限公司 一种数据冷备方法及装置
CN104331464A (zh) * 2014-10-31 2015-02-04 许继电气股份有限公司 一种基于MapReduce的监控数据优先预取处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356050B1 (en) * 2011-11-21 2013-01-15 Yahoo! Inc. Method or system for spilling in query environments
CN103365740A (zh) * 2012-04-06 2013-10-23 腾讯科技(深圳)有限公司 一种数据冷备方法及装置
CN104331464A (zh) * 2014-10-31 2015-02-04 许继电气股份有限公司 一种基于MapReduce的监控数据优先预取处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向高性能计算机体系结构的MapReduce编程框架优化";喻杰;《中国优秀硕士学位论文全文数据库》;20160315;第41-48页 *

Also Published As

Publication number Publication date
CN106909319A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
US9619430B2 (en) Active non-volatile memory post-processing
Polo et al. Performance-driven task co-scheduling for mapreduce environments
US20190034833A1 (en) Model Training Method and Apparatus
Bryk et al. Storage-aware algorithms for scheduling of workflow ensembles in clouds
Hu et al. Scheduling real-time parallel applications in cloud to minimize energy consumption
US9400767B2 (en) Subgraph-based distributed graph processing
CN110147407B (zh) 一种数据处理方法、装置及数据库管理服务器
CN103970609A (zh) 一种基于改进蚁群算法的云数据中心任务调度方法
US20170337256A1 (en) System and method for memory synchronization of a multi-core system
CN105653204A (zh) 一种基于磁盘的分布式图计算方法
US20170364449A1 (en) Process running method and apparatus
CN109510852B (zh) 灰度发布的方法及装置
Senthilkumar et al. A survey on job scheduling in big data
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
US20190220327A1 (en) Efficient sequencer for multiple concurrently-executing threads of execution
Kijsipongse et al. Dynamic load balancing on GPU clusters for large-scale K-Means clustering
dos Anjos et al. Smart: An application framework for real time big data analysis on heterogeneous cloud environments
CN103793525A (zh) 基于局部迭代的MapReduce模型的图结点的权威值计算方法
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理系统和方法
Fan et al. A heterogeneity-aware data distribution and rebalance method in Hadoop cluster
CN106909319B (zh) 一种基于虚拟存储盘的Hadoop架构及调度策略
CN107220069B (zh) 一种针对非易失性内存的Shuffle方法
US9298769B1 (en) Method and apparatus to facilitate discrete-device accelertaion of queries on structured data
US10996865B2 (en) Application-specific memory scaling in multi-device systems
Lin et al. On improving fault tolerance for heterogeneous hadoop mapreduce clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant