CN104750780B - 一种基于统计分析的Hadoop配置参数优化方法 - Google Patents

一种基于统计分析的Hadoop配置参数优化方法 Download PDF

Info

Publication number
CN104750780B
CN104750780B CN201510096561.0A CN201510096561A CN104750780B CN 104750780 B CN104750780 B CN 104750780B CN 201510096561 A CN201510096561 A CN 201510096561A CN 104750780 B CN104750780 B CN 104750780B
Authority
CN
China
Prior art keywords
configuration parameter
hadoop
application
cluster
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510096561.0A
Other languages
English (en)
Other versions
CN104750780A (zh
Inventor
杨海龙
栾钟治
钱德沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benhua Technology Co ltd
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510096561.0A priority Critical patent/CN104750780B/zh
Publication of CN104750780A publication Critical patent/CN104750780A/zh
Application granted granted Critical
Publication of CN104750780B publication Critical patent/CN104750780B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于统计分析的Hadoop配置参数优化方法,优化步骤是:通过对具有代表性的应用在不同的Hadoop系统配置下的运行状况和性能信息进行采样,从而根据应用的行为特征进行分类,针对每一类应用筛选出对应用性能影响显著的配置参数,并利用这些关键配置参数建立应用的性能预测模型,进而对不同系统参数配置下的应用性能进行准确地预测,指导系统管理员对Hadoop系统进行参数调优。本发明方法降低了传统基于经验的系统配置参数优化的复杂度,避免了对于不同类型应用和不同软硬件平台配置参数优化方案可移植性差的缺点,通过统计分析的方法建立应用性能预测模型,能够有效指导Hadoop系统的配置参数优化。

Description

一种基于统计分析的Hadoop配置参数优化方法
技术领域
本发明涉及云计算的大数据处理技术领域,特别是涉及一种基于统计分析的Hadoop配置参数优化方法。
背景技术
云计算的兴起,其计算资源动态、弹性可伸缩的技术优势为互联网应用提供了新的契机。然而大型互联网应用,例如Google、Yahoo!和Facebook,每天需要处理百万个以上的用户请求,分析TB量级的用户数据,如何利用云计算的优势,编写出高效的并行和分布式应用却并不简单,特别是如何处理好大规模并行和分布式环境下的容错问题显得更为复杂。为了解决云计算环境下编程困难的问题,提高应用开发效率,让程序员将精力集中在应用的业务逻辑实现而不是底层复杂的容错处理上,Google最先提出了MapReduce编程模型。该模型允许程序员实现Map函数用于处理输入键值对并产生相应的中间结果,同时根据用户实现的Reduce函数将所有的中间结果键值对合并并产生最终输出。Hadoop作为目前最成功的MapReduce编程模型开源实现,已经被学术界和产业界所广泛采用。Yahoo!在其数据中心内上千个节点的Hadoop集群上每日成功处理上百TB的用户数据;科研社区EGEE也开发了自己的MapReduce实现,用于为全世界用户寻找合适的软件组件。
为了利用好MapReduce强大的并行处理能力,需要程序员将应用的业务逻辑通过一系列的MapReduce作业(jobs)描述出来。MapReduce的整个执行过程可以分为两大部分:Map阶段和Reduce阶段。每一个阶段都会有一组键值对作为输入和输出,而具体键值对的格式则由程序员根据应用需要进行定制。另外程序员还需要实现两个逻辑功能,即Map逻辑和Reduce逻辑。Map逻辑会被施加到每一对输入键值对,同时产生一组中间键值对。Reduce逻辑将所有的中间键值对作为输入,并对键进行排序,最终产生另一组输出键值对。Map和Reduce阶段的所有输入和输出键值对都会被存储在底层的分布式文件系统中(HDFS)。在MapReduce应用执行过程中,MapReduce实现框架自动从HDFS中读取输入输出数据、并行化任务的执行过程、协调任务间的网络通信,同时提供容错处理。
然而如何对MapReduce应用在其运行的Hadoop平台上进行优化,从而获得较好的性能却始终极具挑战。首先,不同应用的行为特性不同,因而对资源的需求迥异,例如统计类型的应用在处理过程中需要大量CPU计算资源,而文件处理类型的应用则会产生大量的I/O操作;其次,Hadoop平台本身存在着超过上百个的配置调优参数,且不同配置参数之间相互影响,对系统管理员和应用专家进行性能调优带来极大的负担,如图1所示,由于配置参数间存在着关联关系,因此应用的性能最优点并不是简单地将所有参数设置为最大值;最后,即使能获得一个全局最优的系统配置,该系统配置也不具备可移植性,对于不同的平台硬件配置和不同行为特性的应用,该系统配置可能无法获得应用最优性能,严重时甚至无法保证应用正常运行。
综上可以看出,如何根据不同应用的行为特征,选择合适的Hadoop系统配置参数,同时在应用需要迁移时,能够对新系统上的参数配置方案提供指导,对于改善运行在Hadoop之上应用的性能,提高整个系统的可用性是至关重要的。
发明内容
针对Hadoop系统的现有技术的以上缺陷和改进需求,本发明提出了一种基于统计分析的Hadoop配置参数优化方法,解决了原有Hadoop系统在配置参数优化时的困难,能够准确预测不同配置参数下应用的性能,为系统针对不同应用的性能调优提供了指导。
本发明的一种基于统计分析的Hadoop配置参数优化方法,包括有下列步骤:
第一步:配置Hadoop系统的工作负载集;
第二步:配置Hadoop系统的参数集;
第三步:配置参数取值类型和范围;
第四步:配置硬件环境;
第五步:依据配置参数运行Hadoop的系统;
根据第一步至第四步设置的系统配置参数取值范围,首先为Hadoop系统集群选择任意一参数配置组合confM,然后选择工作负载集中的任意一次应用appi,最后运行Hadoop的系统,记录下应用样本记录
第六步:构建样本输入矩阵;
将第五步采集到的应用样本记录组织成样本输入矩阵S,所述输入矩阵S中的每一行为选择的配置参数,每一列为应用appi的运行样本。
第七步:聚类分析得到聚类特征;
对第六步得到的样本输入矩阵S进行聚类分析,根据应用appi的运行行为特征将其划分到不同的特征分类clusteri中。
第八步:主成分分析
针对第七步计算出的聚类特征clusteri中的应用appi,通过主成分分析筛选出其中对应用性能影响显著的配置参数A_para。
第九步:构建应用性能预测模型MD
根据第八步筛选出的对应用性能影响显著的配置参数A_para,首先从应用运行样本输入矩阵S中提取出与关键配置参数相对应的样本输入子矩阵Ssub;然后利用支持向量回归算法计算应用性能预测模型MD。
本发明的一种基于统计分析的Hadoop配置参数优化方法,一方面提出了一套具有代表性的工作负载集,能够模拟真实的MapReduce应用场景并涵盖应用的不同领域;另一方面提出了一套能够从不同角度描述应用运行行为特征的参数指标集,包括作业性能和系统配置参数;本发明为不同配置参数设置了合理的取值类型和范围,有效减少了配置参数优化的搜索空间;本发明采集在不同配置参数下的工作负载集中应用在Hadoop系统上运行的系统配置和性能参数,为后续统计分析提供充足的输入样本;本发明通过聚类分析将运行行为特征相似的应用划分到同一个组内,可以有效提高性能预测的准确度;本发明针对不同聚类中的应用,利用主成分分析筛选出对应用性能影响显著的配置参数,可以显著降低性能预测模型的复杂度;本发明根据筛选出的关键配置参数,通过支持向量回归算法建立应用性能预测模型,能够准确预测不同系统配置下应用的性能。本发明降低了传统基于经验的系统配置参数优化的复杂度,避免了对于不同类型应用和不同软硬件平台配置参数优化方案可移植性差的缺点,通过统计分析的方法建立应用性能预测模型,能够有效指导Hadoop系统的配置参数优化。
附图说明
图1是现有Hadoop系统在调整配置参数时应用性能的变化。
图2是本发明基于统计分析的Hadoop配置参数优化方法的原理图。
图3是本发明基于统计分析的Hadoop配置参数优化方法的流程图。
图4是本发明聚类分析产生的连接距离树状图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,通过对具有代表性的应用在不同的Hadoop系统配置下的运行状况和性能信息进行采样,从而根据应用的行为特征进行分类,针对每一类应用筛选出对应用性能影响显著的配置参数,并利用这些关键配置参数建立应用的性能预测模型,进而对不同系统参数配置下的应用性能进行准确地预测,指导系统管理员对Hadoop系统进行参数调优。
本发明的应用实例如图2所示。首先选择一组具有代表性的工作负载集在Hadoop系统平台上运行,并通过分析系统日志获得应用运行期间的系统配置、行为特征和性能信息,改变Hadoop系统的参数配置并再次运行工作负载集直到获得足够的配置参数样本。利用聚类分析依据配置参数样本对应用进行分类,并针对每一类应用进行主成分分析筛选出关键配置参数,利用这些关键配置参数建立应用性能预测模型,从而准确预测不同系统配置参数下的应用性能。
如图3所示,本发明基于统计分析的Hadoop配置参数优化方法包括以下步骤:
第一步:配置Hadoop系统的工作负载集;
依据表1列举的工作负载集来配置对Hadoop系统参数优化。表1为本发明所选择的工作负载集(benchmark),由8个不同的应用组成,按照其所代表的应用领域又可以分为4类,分别是微工作负载、HDFS工作负载、网页检索和机器学习。
表1是本发明于统计分析的Hadoop配置参数优化方法的工作负载集
第二步:配置Hadoop系统的参数集;
依据表2来配置Hadoop系统的参数集。表2为本发明所选择的配置参数集,参数集可以分为工作负载(jobconf)和系统配置(sysconf)两大类,同时工作负载根据其执行的不同阶段,又可以细分为Map阶段(map_phase)、Reduce阶段(reduce_phase)和整体阶段(overall)三部分。
表2是本发明于统计分析的Hadoop配置参数优化方法的配置参数集
第三步:配置参数取值类型和范围;
依据表3来配置Hadoop系统的参数取值类型和范围。表3为本发明所选择的系统配置参数取值类型和范围,参数取值类型包括整数、布尔型、字符串和百分比,参数的取值范围包括离散型和连续型。
表3是本发明于统计分析的Hadoop配置参数优化方法的配置参数取值类型和范围相关参数
Hadoop系统配置参数 参数范围 配置示例
dfs.replication 1,2 1
block.size 32,64,128,256 128
io.sort.mb 100~200 200
mapred.child.java.opts 128,256,512 512
io.sort.record.percent 0.05~0.08 0.05
io.sort.spill.percent 0.7~0.9 0.7
io.sort.factor 10~20 100
mapred.compress.map.output true,false true
io.file.buffer.size 4096,4608,5120 4096
max.map.tasks 2~16 14
max.reduce.tasks 2~6 6
mapred.reduce.parallel.copies 5~12 20
mapred.job.shuffle.input.buffer.percent 0.7~0.9 0.7
mapred.job.shuffle.merge.percent 0.66~0.86 0.66
mapred.job.reduce.input.buffer.percent 0~0.4 0.2
mapred.output.compress true,false true
mapred.output.compression.type record,block block
mapred.map.output.compression.codec default,gzip,bzip default
第四步:配置硬件环境;
依据表4来配置Hadoop系统的硬件所需环境。表4为本发明所选择的Hadoop实验平台(platform),包括一个单机架的Hadoop集群,在集群中选择一个节点作为Hadoop系统的NameNode(节点名称)和JobTracker(工作追踪节点),也就是主节点,剩下的节点都作为从节点,每个从节点上运行DataNode(数据节点)和TaskTracker(任务追踪节点)。
表4是本发明于统计分析的Hadoop配置参数优化方法的实验平台软硬件配置参数
第五步:依据配置参数运行Hadoop的系统;
根据第一步至第四步设置的系统配置参数取值范围,首先为Hadoop系统集群选择任意一参数配置组合confM,然后选择工作负载集中的任意一次应用appi,最后运行Hadoop的系统,记录下应用样本记录
在本发明中,根据第一步至第四步设置的系统配置参数取值范围,为Hadoop系统集群选择任意一参数配置组合confM(M为不同配置参数的组合的次数),即对于confM∈sysconf∪jobconf,配置组合中的每一个参数(para)都属于该参数的取值范围(range)内,即
在本发明中,选择工作负载集中的任意一次应用appi∈benchmark。
在本发明中,在配置完成的confM和appi条件下运行Hadoop的系统,直至应用appi运行完成后,解析每次Hadoop的系统日志,获取系统配置、作业运行和应用性能等指标,形成后续统计分析的应用样本记录
第六步:构建样本输入矩阵;
将第五步采集到的应用样本记录组织成样本输入矩阵S,所述输入矩阵S中的每一行为选择的配置参数,每一列为应用appi的运行样本。
在本发明中,样本输入矩阵S的形式表达为M为不同配置参数的组合的次数,为第M次组合的第一次运行的样本记录,为第M次组合的第二次运行的样本记录,为第M次组合的第i次运行的样本记录。
conf为被选参数。appi为任意一次Hadoop系统的工作负载集程序运行(简称应用),i为运行次数。para1为运行Hadoop系统的第一次的应用样本,para2为运行Hadoop系统的第二次的应用样本,parai为运行Hadoop系统的最后一次的应用样本。
第七步:聚类分析得到聚类特征;
对第六步得到的样本输入矩阵S进行聚类分析(Clustering Analysis),根据应用appi的运行行为特征将其划分到不同的特征分类clusteri中,即appi∈clusteri,clusteri为任意一次运行的聚类特征。行为特征集为CAS=(cluster1,cluster2,…,clusteri),cluster1为第一次运行的特征分类,cluster2为第二运行的特征分类,clusteri为第i次运行的特征分类。
在本发明中,聚类计算过程采用层次型聚类中的最近邻算法,即两个聚类间的距离(distance)由聚类中距离最近点的距离确定;聚类计算完成后,得到聚类特征参数clusteri,所述的聚类特征参数clusteri可以形成如图4所示的连接距离树状图,当不同应用的连接距离小于5时,可以认为应用的运行行为上具有较强的相似性,则被划分到同一个聚类里。
第八步:主成分分析
针对第七步计算出的聚类特征clusteri中的应用appi,通过主成分分析(Principal Component Analysis)筛选出其中对应用性能影响显著的配置参数(significant factors)。在本发明中,针对聚类中应用的运行样本矩阵,进行主成分分析计算,得到任意一主成分PCi;从所述PCi中选取出方差累积贡献率Contribution到达85%的主成分,即形成保留主成分R_PCk,k为保留的主成分的个数;然而,对于每一个保留主成分R_PCk,选择排名前三的配置参数,记为对应用性能影响显著的配置参数A_para,这是因为配置参数在该主成分上的因子载荷factor_loading绝对值是较大的。
第九步:构建应用性能预测模型MD
根据第八步筛选出的对应用性能影响显著的配置参数A_para,将其作为模型变量建立应用性能预测模型MD。具体地:首先从应用运行样本输入矩阵S中提取出与关键配置参数相对应的样本输入子矩阵Ssub;然后利用支持向量回归算法(Support VectorRegression)计算应用性能预测模型MD。
本发明适用于运行大规模数据密集型应用的Hadoop系统配置参数调优,可以满足运行特征各异(如表1、表2、表3)的应用在不同软硬件平台(如表4)下的性能优化,避免了传统基于经验进行配置参数调优可移植性差的缺点,通过运行具有代表性的工作负载集并采集其运行参数样本并对所述进行矩阵排布,利用聚类分析将运行特征相似的应用进行聚类分类,针对分类后的运行样本进行主成分分析,筛选出对应用性能影响显著的作业和系统配置参数A_para,并采用支持向量回归算法建立了性能预测模型,能够对不同Hadoop系统配置参数下的应用性能进行准确地预测,从而达到优化Hadoop系统的配置参数。
本发明解决了不同类型应用在Hadoop系统上配置参数的优化问题,从而提高了配置参数优化的准确性和可移植性,通过聚类分析和主成分分析筛选出不同分类下对应用性能影响显著的配置参数,并利用性能预测模型对不同系统配置参数下的应用性能给出准确地预测,降低了Hadoop系统配置参数优化的复杂度,可以有效地指导系统管理员对不同平台下的Hadoop系统进行配置参数优化。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于统计分析的Hadoop配置参数优化方法,包括有下列步骤:
第一步:配置Hadoop系统的工作负载集;
第二步:配置Hadoop系统的参数集;
第三步:配置参数取值类型和范围;
第四步:配置硬件环境;
其特征在于:还包括有下列步骤:
第五步:依据配置参数运行Hadoop的系统;
根据第一步至第四步设置的系统配置参数取值范围,首先为Hadoop系统集群选择任意一参数配置组合confM,然后选择工作负载集中的任意一次应用appi,最后运行Hadoop的系统,记录下应用样本记录 为第M次组合的第一次运行的样本记录,为第M次组合的第二次运行的样本记录,为第M次组合的第i次运行的样本记录;M为不同配置参数的组合的次数;i为运行次数;
第六步:构建样本输入矩阵;
将第五步采集到的应用样本记录组织成样本输入矩阵S,所述输入矩阵S中的每一行为选择的配置参数,每一列为应用appi的运行样本;
第七步:聚类分析得到聚类特征;
对第六步得到的样本输入矩阵S进行聚类分析,根据应用appi的运行行为特征将其划分到不同的特征分类clusteri中;
第八步:主成分分析
针对第七步计算出的聚类特征clusteri中的应用appi,通过主成分分析筛选出其中对应用性能影响显著的配置参数A_para;
第九步:构建应用性能预测模型MD
根据第八步筛选出的对应用性能影响显著的配置参数A_para,首先从应用运行样本输入矩阵S中提取出与关键配置参数相对应的样本输入子矩阵Ssub;然后利用支持向量回归算法计算应用性能预测模型MD。
2.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:在第八步的主成分分析过程中,针对聚类中应用的运行样本矩阵,进行主成分分析计算,得到任意一主成分PCi;从所述PCi中选取出方差累积贡献率Contribution到达85%的主成分,即形成保留主成分R_PCk,k为保留的主成分的个数;然而,对于每一个保留主成分R_PCk,选择排名前三的配置参数,记为对应用性能影响显著的配置参数A_para。
3.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:在第七步的聚类处理过程中,聚类计算过程采用层次型聚类中的最近邻算法,即两个聚类间的距离由聚类中距离最近点的距离确定。
4.根据权利要求3所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:当不同应用的连接距离小于5时,认为应用的运行行为上具有较强的相似性,则被划分到同一个聚类里。
5.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:样本输入矩阵S的形式表达为
6.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:在第一步的工作负载集的配置中,所述工作负载集由8个不同的应用组成,按照其所代表的应用领域又分为4类,分别是微工作负载、HDFS工作负载、网页检索和机器学习。
7.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:在第二步的参数集的配置中,所述参数集可以分为工作负载和系统配置两大类,同时工作负载根据其执行的不同阶段,又可以细分为Map阶段、Reduce阶段和整体阶段三部分。
8.根据权利要求1所述的一种基于统计分析的Hadoop配置参数优化方法,其特征在于:在第三步的参数取值和范围选取中,参数取值类型包括整数、布尔型、字符串和百分比,参数的取值范围包括离散型和连续型。
CN201510096561.0A 2015-03-04 2015-03-04 一种基于统计分析的Hadoop配置参数优化方法 Expired - Fee Related CN104750780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510096561.0A CN104750780B (zh) 2015-03-04 2015-03-04 一种基于统计分析的Hadoop配置参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510096561.0A CN104750780B (zh) 2015-03-04 2015-03-04 一种基于统计分析的Hadoop配置参数优化方法

Publications (2)

Publication Number Publication Date
CN104750780A CN104750780A (zh) 2015-07-01
CN104750780B true CN104750780B (zh) 2017-10-13

Family

ID=53590464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510096561.0A Expired - Fee Related CN104750780B (zh) 2015-03-04 2015-03-04 一种基于统计分析的Hadoop配置参数优化方法

Country Status (1)

Country Link
CN (1) CN104750780B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533730B (zh) * 2015-09-15 2020-07-31 南京中兴软件有限责任公司 Hadoop集群组件指标的采集方法及装置
CN105491599B (zh) * 2015-12-21 2019-03-08 南京华苏科技有限公司 预测lte网络性能指标的新型回归系统
CN105653355A (zh) * 2015-12-30 2016-06-08 中国科学院深圳先进技术研究院 Hadoop的配置参数的计算方法及系统
CN105868019B (zh) * 2016-02-01 2019-05-21 中国科学院大学 一种Spark平台性能自动优化方法
CN107229646A (zh) * 2016-03-24 2017-10-03 中兴通讯股份有限公司 数据集群的部署方法、装置及系统
CN106202431B (zh) * 2016-07-13 2019-06-28 华中科技大学 一种基于机器学习的Hadoop参数自动调优方法及系统
WO2018098670A1 (zh) * 2016-11-30 2018-06-07 华为技术有限公司 一种进行数据处理的方法和装置
CN107748682B (zh) * 2017-10-31 2020-11-13 Oppo广东移动通信有限公司 后台应用管控方法、装置、存储介质及电子设备
CN108376180B (zh) * 2018-04-03 2020-09-01 哈工大大数据(哈尔滨)智能科技有限公司 影响大数据系统性能的关键参数查找方法及装置
CN112565031B (zh) * 2020-11-30 2023-05-05 福州汇思博信息技术有限公司 一种ppp连接的参数配置方法与终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
CN103064664A (zh) * 2012-11-28 2013-04-24 华中科技大学 一种基于性能预估的Hadoop参数自动优化方法和系统
CN103942108A (zh) * 2014-04-25 2014-07-23 四川大学 Hadoop同构集群下的资源参数优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031925B2 (en) * 2012-12-13 2015-05-12 Sap Se Hadoop access via hadoop interface services based on function conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
CN103064664A (zh) * 2012-11-28 2013-04-24 华中科技大学 一种基于性能预估的Hadoop参数自动优化方法和系统
CN103942108A (zh) * 2014-04-25 2014-07-23 四川大学 Hadoop同构集群下的资源参数优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于层次聚类的日志分析技术研究";薛文娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130815(第08期);全文 *

Also Published As

Publication number Publication date
CN104750780A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104750780B (zh) 一种基于统计分析的Hadoop配置参数优化方法
Abd Elaziz et al. Advanced optimization technique for scheduling IoT tasks in cloud-fog computing environments
CN111176832B (zh) 基于内存计算框架Spark的性能优化和参数配置方法
CN102799486B (zh) 一种MapReduce系统中的数据采样和划分方法
Song et al. A hadoop mapreduce performance prediction method
CN103324765B (zh) 一种基于列存储的多核并行数据查询优化方法
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN103701635B (zh) 一种在线配置Hadoop参数的方法和装置
Bei et al. Configuring in-memory cluster computing using random forest
He et al. Parallel implementation of classification algorithms based on MapReduce
DE102012216029A1 (de) Ein skalierbares anpassungsfähiges map-reduce-rahmenwerk mit verteilten daten
Mustafa et al. A machine learning approach for predicting execution time of spark jobs
Cheng et al. Efficient event correlation over distributed systems
Cheng et al. Heterogeneity aware workload management in distributed sustainable datacenters
Hua et al. Hadoop configuration tuning with ensemble modeling and metaheuristic optimization
CN110119399A (zh) 基于机器学习的业务流程优化方法
Abualigah et al. Advances in MapReduce big data processing: platform, tools, and algorithms
Zhang Optimization of FP-growth algorithm based on cloud computing and computer big data
Vrbić Data mining and cloud computing
CN113010296A (zh) 基于形式化模型的任务解析与资源分配方法及系统
CN113762514A (zh) 数据处理方法、装置、设备及计算机可读存储介质
Rehab et al. Scalable massively parallel learning of multiple linear regression algorithm with MapReduce
Wang et al. Information flow-based second-order cone programming model for big data using rough concept lattice
CN110119268A (zh) 基于人工智能的工作流优化方法
Arvanitis et al. Automated Performance Management for the Big Data Stack.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210428

Address after: 1138, No.84, lin10, Wenquan Road, Wenquan Town, Haidian District, Beijing 100095

Patentee after: Beijing Benhua Technology Co.,Ltd.

Address before: 100191 Haidian District, Xueyuan Road, No. 37,

Patentee before: BEIHANG University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171013