CN103593452A - 一种基于MapReduce机制的数据密集型成本优化方法 - Google Patents

一种基于MapReduce机制的数据密集型成本优化方法 Download PDF

Info

Publication number
CN103593452A
CN103593452A CN201310590839.0A CN201310590839A CN103593452A CN 103593452 A CN103593452 A CN 103593452A CN 201310590839 A CN201310590839 A CN 201310590839A CN 103593452 A CN103593452 A CN 103593452A
Authority
CN
China
Prior art keywords
data
cost
total
exe
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310590839.0A
Other languages
English (en)
Other versions
CN103593452B (zh
Inventor
杨扬
孙莉莉
米振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201310590839.0A priority Critical patent/CN103593452B/zh
Publication of CN103593452A publication Critical patent/CN103593452A/zh
Application granted granted Critical
Publication of CN103593452B publication Critical patent/CN103593452B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/184Distributed file systems implemented as replicated file system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于MapReduce机制的数据密集型计算成本优化方法,在数据的流行程度和访问情况动态变化的状态下,优化MapReduce任务的执行时间和执行成本。该方法包括:提出云计算环境下基于MapReduce机制的成本计算模型;在该模型的基础上,根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争,使其计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少其副本数目以降低副本的创建与存储成本,使其计算成本与计算时间达到最优。利用本发明,云计算用户能够有效的减小资源使用成本,并能以更加高效的方式保证作业计算结果的可靠性与完整性。

Description

一种基于MapReduce机制的数据密集型成本优化方法
技术领域
本发明涉及一种基于成本优化方法,更确切地说是涉及一种基于MapReduce机制的数据密集型计算成本优化方法。该方法适用于负载中数据的流行程度和访问情况动态变化的状态下,云计算用户的计算成本与计算时间的优化问题。
背景技术
随着信息技术的发展,越来越多的工业和学术组织都面临着处理不断增长的大量大规模数据的挑战,例如文件分析处理、科学模拟等应用。作为处理大规模数据和数据密集型应用最主流的编程模型,MapReduce将大规模输入数据集有效分解为固定大小的数据块,分布式的存储在集群中的不同节点,并通过分布式并行计算模型,大大简化了大规模数据的计算任务。其中,为了解决系统的容错与数据可用性问题,在大型计算集群中,大部分基于MapReduce的存储系统均采用数据冗余的方法,即通过创建数据副本的方式,在任一数据块由于某种原因不可用的情况下,使用其副本以避免任务的重新启动与重复执行。目前,基于MapReduce的存储系统的数据副本均采用分级固定数目的方式,比如,Hadoop分布式存储系统分别在节点内部,机架内部与机架远程三个级别创建3份副本。然而,实际负载中数据的流行程度随着时间不断动态变化。一方面,在大型的繁忙系统中,某些热数据被多次重复访问,使其存储该数据的节点变为热点。在热点中,文件的争夺与带宽资源的限制成为了制约任务执行时间的重要瓶颈。对于云计算用户来说,任务执行时间的长期拖延意味着执行成本的浪费与服务质量的下降。另一方面,某些冷数据的访问次数远小于默认副本数目,因此额外的数据副本提高了存储成本与副本创建成本。在这种情况下,系统需要一种基于MapReduce机制的数据密集型计算成本优化方法,能够根据负载中数据的访问情况,利用成本计算模型,动态的改变数据副本数目,在保证系统的容错性与数据可用性的同时,优化云计算用户的计算时间与计算成本。
发明内容
本发明的目的是提供一种基于MapReduce机制的数据密集型计算成本优化方法,克服了上述繁忙中热数据的文件争夺与资源受限的不足,解决了由负载中数据的动态访问情况所造成的计算时间与成本浪费的问题;能够实时根据负载中数据访问情况将数据划分为热数据与冷数据,从而动态的改变数据副本数目,优化云计算用户的计算时间与计算成本。
为了达到上述目的,本发明采用的技术方案如下:
一种基于MapReduce机制的数据密集型计算成本优化方法,是根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争,使其计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少其副本数目以降低副本的创建与存储成本,使其计算成本与计算时间达到最优。
其具体过程为:根据对负载中数据访问情况的分析,通过数据流行度分类机制,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统系统默认数据备份数3为参考值,将数据划分为热数据和冷数据。其中,数据的访问次数大于或者等于3的为热数据,反之为冷数据。在此数据划分的基础上,由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目。
进一步的,上述技术方案包括负载采集与输入模块,数据流行度分类机制模块,数据副本数目决策算法模块,数据副本数目自动调节模块;模块自上至下依次设置,负载采集与输入模块输入连接到数据流行度分类机制模块,数据流行度分类机制模块将数据分为冷数据与热数据后,作为输入连接到数据副本数目决策算法模块,所述数据副本数目决策算法模块输出最佳数据备份数之后,将此备份数作为输入连接到数据副本数目自动调节模块。
进一步的,上述技术方案:所述负载采集与输入模块实时对负载进行采样与处理,采样的时间长短(时间窗口)可根据用户对于所要求的分析精确程度进行调整。默认时间窗口为1小时,时间窗口越长,负载分析的精确度越高,反之越低。
进一步的,上述技术方案:所述数据流行度分类机制模块根据同一时刻对某数据的访问数量,将数据分为冷数据和热数据。具体地,当数据的同一时刻的访问量大于或者等于3的时候,数据为热数据,反之为冷数据。值得注意的是,所述方案中同一时刻某数据的访问量数目并不是最终的该数据备份数目。
进一步的,上述技术方案:所述数据副本数目决策算法模块首先建立数据密集型计算成本模型,根据目前主流的云计算平台——亚马逊弹性计算云系统的分级定价模型与定价标准,将数据密集型计算成本分为数据执行成本、数据存储成本与数据I/O读写成本三个部分,并按照公式(1)计算:
Ctotal=Cexe+Cstorage+Cio   (1)
公式(1)中,Ctotal代表计算总成本,Cexe代表数据执行成本,Cstorage代表数据存储成本,Cio代表数据I/O读写成本,Ctotal、Cexe、Cstorage分别按照公式(2)、(3)、(4)计算:
Cexe=uexe×Nm×Ttotal   (2)
Cstorage=ustorage×Stotal×Ttotal   (3)
C io = C write + C read = u io × S total × R f 4 KB + u io × S total 4 KB - - - ( 4 )
公式(2)(3)(4)中,uexe代表计算执行单价,与计算实例类型有关,计算实例配置越高,uexe数值越高。uexe由云计算平台提供商提供,单位为美元每小时每个计算实例;Nm代表计算集群中的计算实例数量,单位为个;Ttotal代表计算总时间,单位为小时;ustorage代表数据存储单价,由云计算平台提供商提供,单位为美元每个月每GB;Stotal代表数据总量,包括原始数据及其数据备份,单位为GB;uio代表数据I/O读写单价,由云计算平台提供商提供,单位为美元每百万次读写请求;Rf代表数据备份数,单位为个。
其中,公式(4)的数据I/O读写成本可分为I/O写成本Cwrite与I/O读成本Cread两部分;本发明中,成本计算模型将弹性块存储Elastic Block Store(EBS)作为数据默认存储方式,而EBS按照硬盘所使用的底层文件系统中的数据块大小收费;例如,在Linux系统中,ext3文件系统所使用的典型数据块大小为4KB;因此,假设每一个数据块在经历每一个Map和Reduce操作时都会被读一次,同时,每一个数据备份都会被写一次,那么数据的写成本Cwrite可表示为uio与总数据写请求次数的乘积,即Stotal×Rf/4KB;而数据的读成本Cread可表示为uio与总数据读请求次数的乘积,即Stotal/4KB。
进一步的,上述技术方案:所述数据副本数目决策算法模块建立数据密集型计算时间模型,并按照公式(5)计算:
Ttotal=Tupload+Texe   (5)
公式(5)中,Tupload代表数据上传时间,单位为小时;Texe代表计算实例实际运行时间,单位为小时,Tupload、Texe分别按照公式(6)、(7)计算:
Tupload=sf×(λ+μ×Rf)   (6)
T exe = t exe / node / GB × s f N m - - - ( 7 )
公式(6)(7)中,sf代表每个独立文件的大小,单位为GB;λ和μ代表读写能力指数,与计算实例的配置与网络配置有关,能够通过实验测得,单位为小时每GB;texe/node/GB代表计算实例的计算效率,单位为小时每实例每GB。
进一步的,上述技术方案:所述数据副本数目决策算法模块通过公式(1)(2)(3)(4)(5)模型,将数据创建成本转换为数据执行成本、数据存储成本与数据I/O读写成本,并按照公式(8)计算:
C create = C exe + C storage + C io = u exe × N m × T create + u storage × S total × T create + u io × S total × R f 4 KB - - - ( 8 )
公式(8)中,Ccreate代表数据创建成本,单位为美元;Tcreate代表数据创建时间,单位为小时。在数据创建过程中,计算节点(实例)仍处于运行状态,因此数据创建成本包括实例的执行成本,以及原有数据的存储成本。此外,创建数据的过程即数据的写入过程,包括了Rf份数据的写入成本。数据创建时间越长,创建成本越大。
进一步的,上述技术方案:所述数据副本数目决策算法模块以成本为最终优化目标,建立密集型计算总成本与数据副本数目之间的关系,通过成本模型确定数据副本数目,从而达到成本最优化。
进一步的,上述技术方案:所述数据副本数目自动调节模块根据数据副本数目决策算法的输出最佳数据备份数目,以文件为单位更改Hadoop系统配置文件,动态调整数据的备份数目,使其运行时间与运行成本最优化。上述动作在任务运行过程中执行,并不中断任务的运行,对任务本身透明,从而最大程度的节省任务的运行时间。
本发明所述的一种基于MapReduce机制的数据密集型计算成本优化方法的有益效果是:
实时性强:本发明根据负载中数据的访问情况,自适应的划分数据,并且动态实时为不同类型的数据分配不同的数据副本,最大程度的保证了不同数据类型的计算成本最优化。
应用性强:本发明根据目前最流行的云计算平台——亚马逊弹性计算云的分级定价机制制定成本模型,最大程度的保证了模型的有效性与可靠性,实际应用性强。
附图说明
图1为本发明一种基于MapReduce机制的数据密集型计算成本优化方法执行流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
本发明实施例所述的一种基于MapReduce机制的数据密集型计算成本优化方法,根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加其副本数目以减少文件抢夺和网络的带宽资源竞争,使其计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少其副本数目以降低副本的创建与存储成本,使其计算成本与计算时间达到最优。
其具体过程为:
根据对负载中数据访问情况的分析,通过数据流行度分类机制,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统系统默认数据备份数3为参考值,将数据划分为热数据和冷数据。其中,数据的访问次数大于或者等于3的为热数据,反之为冷数据。在此数据划分的基础上,由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目。
如图1所示,本发明实施例所述的一种基于MapReduce机制的数据密集型计算成本优化方法执行流程图。参见图1,数据流行度分类机制通过对输入负载的分析,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统默认备份数(3)为参考值,将数据划分为热数据和冷数据。进一步说明,若同一时刻某数据的访问次数大于等于3,则该数据为热数据;反之为冷数据。
继续参考图1,在数据流行度分类机制将数据划分为热数据和冷数据的基础上,由数据副本数目决策算法计算数据最佳副本数目,计算最佳数据副本数目。数据副本数目决策算法以成本模型为依据,将模型中的使用到的各项云计算平台定价指标作为已知条件,在MapReduce任务执行之前确定集群节点数目,以及总存储单元大小;在任务执行过程中的访问次数,以及网络架构作为衡量指标,以成本最优为目标,计算并输出最佳数据副本数目。
继续参考图1,根据数据副本数目决策算法的输出,系统将以文件为单位,在Map子任务执行过程中动态的改变系统配置参数,使其不同文件的副本数目达到计算预期值,从而使得最终计算成本达到最优化。
所述负载采集与输入模块实时对负载进行采样与处理,采样的时间长短(时间窗口)可根据用户对于所要求的分析精确程度进行调整。默认时间窗口为1小时,时间窗口越长,负载分析的精确度越高,反之越低。采集的负载作为输入连接到数据流行度分类机制模块。
所述数据流行度分类机制模块接受负载采集与输入模块的采集结果,根据同一时刻对某数据的访问数量是否大于Hadoop系统默认数据备份数3,将数据分为热数据和冷数据,并将其数据分类结果作为输入连接到数据副本数目决策算法模块。
所述数据副本数目决策算法模块首先建立数据密集型计算成本模型,将数据密集型计算成本分为数据执行成本、数据存储成本与数据I/O读写成本三个部分,并按照公式(1)计算:
Ctotal=Cexe+Cstorage+Cio   (1)
公式(1)中,Ctotal代表计算总成本,Cexe代表数据执行成本,Cstorage代表数据存储成本,Cio代表数据I/O读写成本,Ctotal、Cexe、Cstorage分别按照公式(2)、(3)、(4)计算:
Cexe=uexe×Nm×Ttotal   (2)
Cstorage=ustorage×Stotal×Ttotal   (3)
C io = C write + C read = u io × S total × R f 4 KB + u io × S total 4 KB - - - ( 4 )
公式(2)(3)(4)中,uexe代表计算执行单价,与计算实例类型有关,计算实例配置越高,uexe数值越高。uexe由云计算平台提供商提供,单位为美元每小时每个计算实例;Nm代表计算集群中的计算实例数量,单位为个;Ttotal代表计算总时间,单位为小时;ustorage代表数据存储单价,由云计算平台提供商提供,单位为美元每个月每GB;Stotal代表数据总量,包括原始数据及其数据备份,单位为GB;uio代表数据I/O读写单价,由云计算平台提供商提供,单位为美元每百万次读写请求;Rf代表数据备份数,单位为个。
通过计算时间模型,将数据创建成本转换为计算执行成本、数据存储成本与数据I/O读写成本,并以成本为最终优化目标,建立密集型计算总成本与数据副本数目之间的关系,通过成本模型确定最佳数据副本数目,并作为输入连接到系统数据副本数目自动调节模块。其中,计算时间模型可以按照公式(5)计算:
Ttotal=Tupload+Texe   (5)
公式(5)中,Tupload代表数据上传时间,单位为小时;Texe代表计算实例实际运行时间,单位为小时,Tupload、Texe分别按照公式(6)、(7)计算:
Tupload=sf×(λ+μ×Rf)   (6)
T exe = t exe / node / GB × s f N m - - - ( 7 )
公式(6)(7)中,sf代表每个独立文件的大小,单位为GB;λ和μ代表读写能力指数,与计算实例的配置与网络配置有关,能够通过实验测得,单位为小时每GB;texe/node/GB代表计算实例的计算效率,单位为小时每实例每GB。
所述数据副本数目决策算法模块通过公式(1)(2)(3)(4)(5)模型,将数据创建成本转换为数据执行成本、数据存储成本与数据I/O读写成本,并按照公式(8)计算:
C create = C exe + C storage + C io = u exe × N m × T create + u storage × S total × T create + u io × S total × R f 4 KB - - - ( 8 )
公式(8)中,Ccreate代表数据创建成本,单位为美元;Tcreate代表数据创建时间,单位为小时。在数据创建过程中,计算节点(实例)仍处于运行状态,因此数据创建成本包括实例的执行成本,以及原有数据的存储成本。此外,创建数据的过程即数据的写入过程,包括了Rf份数据的写入成本。数据创建时间越长,创建成本越大。
所述数据副本数目自动调节模块根据数据副本数目决策算法的输出最佳数据备份数目,以文件为单位更改Hadoop系统配置文件,动态调整数据的备份数目,使其运行时间与运行成本最优化,其优化问题可以表达为下列公式:
min(Ctotal=Cexe+Cstorage+Cio)   (9.1)
s.t.1≤Rf≤Nm   (9.2)
Rf∈N   (9.3)
上述动作在任务运行过程中执行,并不中断任务的运行,对任务本身透明,从而最大程度的节省任务的运行时间。
其原理为:基于MapReduce机制的数据密集型计算影响计算时间与成本的最根本原因为数据局部性与负载均衡。为此,本发明能够通过动态创建数据副本,以提高数据局部性,改善系统负载均衡。本发明不同于其他相关研究,将数据备份数目设定为数据访问数,类似方法的弊端在于数据备份的增长与数据密集型计算的时间缩短量并不成正比。在数据访问数确定的情况下,数据备份数增长到一定程度之后,数据密集型计算的时间与成本并不继续减小,反而因为副本的创建成本、存储成本与I/O成本的提高而增加计算时间与成本。而本发明以成本为最终优化目标,能够有效的保证数据备份数目在提高数据局部性与改善系统负载均衡的前提下,降低副本的创建成本、存储成本与I/O成本,从而保证数据密集型计算时间与成本的最优化。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:技术方案包括负载采集与输入模块,数据流行度分类机制模块,数据副本数目决策算法模块,数据副本数目自动调节模块;模块自上至下依次设置,负载采集与输入模块输入连接到数据流行度分类机制模块,数据流行度分类机制模块将数据分为冷数据与热数据后,作为输入连接到数据副本数目决策算法模块,所述数据副本数目决策算法模块输出最佳数据备份数之后,将此备份数作为输入连接到数据副本数目自动调节模块;
具体过程为:根据对负载中数据访问情况的分析,通过数据流行度分类机制,以同一时刻数据的访问次数作为参考指标,以Hadoop分布式存储系统系统默认数据备份数3为参考值,将数据划分为热数据和冷数据;其中,数据的访问次数大于或者等于3的为热数据,反之为冷数据;在此数据划分的基础上,由数据副本数目决策算法根据数据密集型计算成本模型计算数据作假副本数目;
这种优化方法根据负载中数据流行程度动态改变Map子任务的副本数目;对于访问次数较多,访问较频繁的热数据,通过增加副本数目以减少文件抢夺和网络的带宽资源竞争,使计算成本与计算时间达到最优;对于访问次数较少,访问较不频繁的冷数据,通过减少副本数目以降低副本的创建与存储成本,使计算成本与计算时间达到最优。
2.根据权利要求1所述的一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:数据副本数目决策算法模块建立了数据密集型计算成本模型,根据目前主流的云计算平台——亚马逊弹性计算云系统的分级定价模型与定价标准,将数据密集型计算总成本分为数据执行成本、数据存储成本与数据I/O读写成本三个部分,并按照公式(1)计算:
Ctotal=Cexe+Cstorage+Cio   (1)
公式(1)中,Ctotal代表计算总成本,Cexe代表数据执行成本,Cstorage代表数据存储成本,Cio代表数据I/O读写成本,Ctotal、Cexe、Cstorage分别按照公式(2)、(3)、(4)计算:
Cexe=uexe×Nm×Ttotal   (2)
Cstorage=ustorage×Stotal×Ttotal   (3)
C io = C write + C read = u io × S total × R f 4 KB + u io × S total 4 KB - - - ( 4 )
公式(2)(3)(4)中,uexe代表计算执行单价,uexe由云计算平台提供商提供,单位为美元每小时每个计算实例;Nm代表计算集群中的计算实例数量,单位为个;Ttotal代表计算总时间,单位为小时;ustorage代表数据存储单价,由云计算平台提供商提供,单位为美元每个月每GB;Stotal代表数据总量,包括原始数据及其数据备份,单位为GB;uio代表数据I/O读写单价,由云计算平台提供商提供,单位为美元每百万次读写请求;Rf代表数据备份数,单位为个;
其中,公式(4)的数据I/O读写成本可分为I/O写成本Cwrite与I/O读成本Cread两部分;本发明中,成本计算模型将弹性块存储Elastic Block Store(EBS)作为数据默认存储方式,而EBS按照硬盘所使用的底层文件系统中的数据块大小收费;例如,在Linux系统中,ext3文件系统所使用的典型数据块大小为4KB;因此,假设每一个数据块在经历每一个Map和Reduce操作时都会被读一次,同时,每一个数据备份都会被写一次,那么数据的写成本Cwrite可表示为uio与总数据写请求次数的乘积,即Stotal×Rf/4KB;而数据的读成本Cread可表示为uio与总数据读请求次数的乘积,即Stotal/4KB。
3.根据权利要求1所述的一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:数据副本数目决策算法模块建立数据密集型计算时间模型,并按照公式(5)计算:
Ttotal=Tcreate+Texe   (5)
公式(5)中,Tupload代表数据上传时间,单位为小时;Texe代表计算实例实际运行时间,单位为小时,Tupload、Texe分别按照公式(6)、(7)计算:
Tcreate=sf×(λ+μ×Rf)   (6)
T exe = t exe / node / GB × s f N m - - - ( 7 )
公式(6)(7)中,sf代表每个独立文件的大小,单位为GB;λ和μ代表读写能力指数,通过实验测得,单位为小时每GB;texe/node/GB代表计算实例的计算效率,单位为小时每实例每GB。
4.根据权利要求1所述的一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:通过公式(1)(2)(3)(4)(5),将数据创建成本转换为数据执行成本、数据存储成本与数据I/O读写成本,并按照公式(8)计算:
C create = C exe + C storage + C io = u exe × N m × T create + u storage × S total × T create + u io × S total × R f 4 KB - - - ( 8 )
公式(8)中,Ccreate代表数据创建成本,单位为美元;Tcreate代表数据创建时间,单位为小时;其中,数据创建成本与总成本的关系为:总成本计算中所需要的总时间包括了数据创建过程中所消耗的创建时间Tcreate;在数据创建过程中,计算节点(实例)仍处于运行状态,因此进一步产生数据执行成本,以及数据的存储成本;此外,创建数据的过程即数据的写入过程,包括了Rf份数据的写入成本。
5.根据权利要求1所述的一种基于MapReduce机制的数据密集型计算成本优化方法,其特征在于:以成本为最终优化目标,建立密集型计算总成本与数据副本数目之间的关系,通过成本模型确定数据副本数目,从而达到成本最优化。
CN201310590839.0A 2013-11-21 2013-11-21 一种基于MapReduce机制的数据密集型成本优化方法 Expired - Fee Related CN103593452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310590839.0A CN103593452B (zh) 2013-11-21 2013-11-21 一种基于MapReduce机制的数据密集型成本优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310590839.0A CN103593452B (zh) 2013-11-21 2013-11-21 一种基于MapReduce机制的数据密集型成本优化方法

Publications (2)

Publication Number Publication Date
CN103593452A true CN103593452A (zh) 2014-02-19
CN103593452B CN103593452B (zh) 2017-06-13

Family

ID=50083593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310590839.0A Expired - Fee Related CN103593452B (zh) 2013-11-21 2013-11-21 一种基于MapReduce机制的数据密集型成本优化方法

Country Status (1)

Country Link
CN (1) CN103593452B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
CN104915205A (zh) * 2015-06-08 2015-09-16 北京航空航天大学 一种适用于在线数据密集型应用的请求多副本任务执行方法
CN105095455A (zh) * 2015-07-27 2015-11-25 中国联合网络通信集团有限公司 一种数据连接优化方法和数据运算系统
CN106250240A (zh) * 2016-08-02 2016-12-21 北京科技大学 一种任务优化调度方法
CN107609026A (zh) * 2017-08-09 2018-01-19 中南大学 一种数据密集型应用集成测试方法及系统
CN108241644A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据流挖掘方法
CN109358821A (zh) * 2018-12-12 2019-02-19 山东大学 一种成本驱动的云计算冷热数据存储优化方法
CN109362235A (zh) * 2016-05-29 2019-02-19 微软技术许可有限责任公司 对网络可访问存储装置处的事务进行分类
CN109740033A (zh) * 2018-11-12 2019-05-10 盐城优易数据有限公司 一种确定数据处理成本的方法及装置
CN110096350A (zh) * 2019-04-10 2019-08-06 山东科技大学 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN110795076A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN111385327A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 数据处理方法和系统
CN112988372A (zh) * 2019-12-16 2021-06-18 杭州海康威视数字技术股份有限公司 确定硬件运算平台分配方式的方法和装置
CN113407620A (zh) * 2020-03-17 2021-09-17 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038831A1 (en) * 2003-08-14 2005-02-17 Oracle International Corporation Automatic and dynamic provisioning of databases
CN101187931A (zh) * 2007-12-12 2008-05-28 浙江大学 分布式文件系统多文件副本的管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038831A1 (en) * 2003-08-14 2005-02-17 Oracle International Corporation Automatic and dynamic provisioning of databases
CN101187931A (zh) * 2007-12-12 2008-05-28 浙江大学 分布式文件系统多文件副本的管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张宁宁: "《异构环境下云计算数据副本动态管理研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 201311, 15 November 2013 (2013-11-15), pages 138 - 529 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储策略
CN104573119B (zh) * 2015-02-05 2017-10-27 重庆大学 云计算中面向节能的Hadoop分布式文件系统存储方法
CN104915205A (zh) * 2015-06-08 2015-09-16 北京航空航天大学 一种适用于在线数据密集型应用的请求多副本任务执行方法
CN105095455B (zh) * 2015-07-27 2018-10-19 中国联合网络通信集团有限公司 一种数据连接优化方法和数据运算系统
CN105095455A (zh) * 2015-07-27 2015-11-25 中国联合网络通信集团有限公司 一种数据连接优化方法和数据运算系统
CN109362235A (zh) * 2016-05-29 2019-02-19 微软技术许可有限责任公司 对网络可访问存储装置处的事务进行分类
CN109362235B (zh) * 2016-05-29 2021-10-26 微软技术许可有限责任公司 对网络可访问存储装置处的事务进行分类的方法
CN106250240A (zh) * 2016-08-02 2016-12-21 北京科技大学 一种任务优化调度方法
CN106250240B (zh) * 2016-08-02 2019-03-15 北京科技大学 一种任务优化调度方法
CN108241644A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据流挖掘方法
CN107609026A (zh) * 2017-08-09 2018-01-19 中南大学 一种数据密集型应用集成测试方法及系统
CN107609026B (zh) * 2017-08-09 2020-11-06 中南大学 一种数据密集型应用集成测试方法及系统
CN110795076A (zh) * 2018-08-03 2020-02-14 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN110795076B (zh) * 2018-08-03 2024-03-22 上海小渔数据科技有限公司 用于实现基础逻辑算法的数据处理方法及装置
CN109740033A (zh) * 2018-11-12 2019-05-10 盐城优易数据有限公司 一种确定数据处理成本的方法及装置
CN109358821A (zh) * 2018-12-12 2019-02-19 山东大学 一种成本驱动的云计算冷热数据存储优化方法
CN111385327B (zh) * 2018-12-28 2022-06-14 阿里巴巴集团控股有限公司 数据处理方法和系统
CN111385327A (zh) * 2018-12-28 2020-07-07 阿里巴巴集团控股有限公司 数据处理方法和系统
CN110096350A (zh) * 2019-04-10 2019-08-06 山东科技大学 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN110096350B (zh) * 2019-04-10 2020-05-05 山东科技大学 基于集群节点负载状态预测的冷热区域划分节能存储方法
CN112988372A (zh) * 2019-12-16 2021-06-18 杭州海康威视数字技术股份有限公司 确定硬件运算平台分配方式的方法和装置
CN112988372B (zh) * 2019-12-16 2023-10-24 杭州海康威视数字技术股份有限公司 确定硬件运算平台分配方式的方法和装置
CN113407620A (zh) * 2020-03-17 2021-09-17 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统
CN113407620B (zh) * 2020-03-17 2023-04-21 北京信息科技大学 基于异构Hadoop集群环境的数据块放置方法及系统

Also Published As

Publication number Publication date
CN103593452B (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN103593452A (zh) 一种基于MapReduce机制的数据密集型成本优化方法
Hernández et al. Using machine learning to optimize parallelism in big data applications
US10140034B2 (en) Solid-state drive assignment based on solid-state drive write endurance
Xing et al. A distributed multi-level model with dynamic replacement for the storage of smart edge computing
CN112835698A (zh) 一种基于异构集群的请求分类处理的动态负载均衡方法
CN109521943B (zh) 云数据库实例的分配方法及相关产品
CN113821332A (zh) 自动机器学习系统效能调优方法、装置、设备及介质
WO2019032197A1 (en) HYBRID DATA STORAGE MATRIX
CN111737168A (zh) 一种缓存系统、缓存处理方法、装置、设备及介质
Yin et al. Muse: A multi-tierd and sla-driven deduplication framework for cloud storage systems
Bird et al. {PACORA}: Performance Aware Convex Optimization for Resource Allocation
EP4258096A1 (en) Predictive block storage size provisioning for cloud storage volumes
CN109871181A (zh) 一种对象存取方法及装置
Akhtar et al. Map-Reduce based tipping point scheduler for parallel image processing
Awad et al. A novel intelligent approach for dynamic data replication in cloud environment
Wan et al. SSD-optimized workload placement with adaptive learning and classification in HPC environments
CN109992412B (zh) 云服务器的容量调节方法、装置、存储介质和云服务器
WO2024114728A1 (zh) 一种异构处理器及相关调度方法
CN105740249B (zh) 一种大数据作业并行调度过程中的处理方法及其系统
Al Assaf et al. Informed prefetching for distributed multi-level storage systems
WO2017059716A1 (zh) 多磁盘阵列共享写缓存的方法及装置
US11336519B1 (en) Evaluating placement configurations for distributed resource placement
CN106909522B (zh) Gpu写请求数据的延迟控制方法、装置以及云计算系统
CN116932156A (zh) 一种任务处理方法、装置及系统
CN101378406A (zh) 一种数据网格副本的选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613

Termination date: 20191121

CF01 Termination of patent right due to non-payment of annual fee