CN105653355A - Hadoop的配置参数的计算方法及系统 - Google Patents
Hadoop的配置参数的计算方法及系统 Download PDFInfo
- Publication number
- CN105653355A CN105653355A CN201511025710.0A CN201511025710A CN105653355A CN 105653355 A CN105653355 A CN 105653355A CN 201511025710 A CN201511025710 A CN 201511025710A CN 105653355 A CN105653355 A CN 105653355A
- Authority
- CN
- China
- Prior art keywords
- hadoop
- industrial environment
- configuration
- parameter
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/465—Distributed object oriented systems
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种Hadoop的配置参数的计算方法及系统,所述方法包括如下步骤:对工业环境下的实际的生产数据采样获得工业环境的小数据集;随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间,以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;采用遗传算法对获取的重要性参数迭代搜索最优配置组合。本发明提供的技术方案具有计算量小的优点。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种Hadoop的配置参数的计算方法及系统。
背景技术
Hadoop是一个开源的分布式计算框架,其借鉴了MapReduce编程思想,简化了数据的分发、处理、计算和任务的调度,并具有容错、高可靠、可扩展等特性。编程人员只需要编写Map和Reduce函数,而Hadoop会自动将任务分配到集群的各个节点,并执行任务。因此,该框架降低了并行编程的难度,而且编程人员也可以充分利用硬件的资源。目前Hadoop已广泛应用于工业界和学术界。
但MapReduce任务的性能由众多因素组成,如物理机群的硬件环境,操作系统参数的配置,JVM性能,任务的调度,以及Hadoop配置参数等等。其中Hadoop的参数配置对性能的影响至关重要。而基于经验的手调方案成本高,耗时长。Hadoop具有190多个配置参数,用户在提交作业时需要指定一些参数,而用户不知道如何调整这些参数,所以大多数用户只能使用默认配置参数,但这不能最大程度挖掘Hadoop系统性能。有些用户根据经验采用暴力的方案去一一尝试关键的参数,但是每个参数取值有很多种,样本空间巨大,且Hadoop配置参数之间关系复杂,有些参数之间相互依赖。同时,不同任务的最佳参数组合也是不同的,所以采用暴力尝试的方案是不合适的。论文(柳香,李瑞台,李俊红,段胜业,2011)“Hadoop性能优化研究”,提出采用机器学习算法遗传算法对配置方案进行选择、交叉、变异,多次迭代后产生近似最优方案。遗传算法具有自适应性、收敛性好、鲁棒性高等优点,但该方案需要考虑所有配置参数的组合,计算量大。
在实现现有技术的方案中,发现现有技术存在如下技术问题:
(1)仅仅基于遗传算法的方案,需要考虑所有配置参数的组合情况,Hadoop有190多个配置参数,每个参数都有一定的阈值,组合情况大,计算量也大。
(2)基于代价的优化方案对Hadoop任务阶段进行划分,假设原子操作的代价不变,但试验数据显示CETMPR,READIO,WRITEIO,NET,RDCPU,PTCPU这6个原子操作代价变化明显,所以基于不正确的假设建立的分析模型精度不高。
(3)AROMA建立的模型任务粒度不够细。
发明内容
提供一种Hadoop的配置参数的计算方法,所述Hadoop的配置参数的计算方法解决现有技术的计算量大、粒度不够细和精度不高的问题。
一方面,提供一种Hadoop的配置参数的计算方法,所述方法包括如下步骤:
对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘
以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;
采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
可选的,所述采用遗传算法对获取的重要性参数迭代搜索最优配置组合具体,包括:
使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
可选的,所述方法还包括:
用最优配置组合替换所述工业环境的Hadoop配置值。
另一方面,提供一种Hadoop的配置参数的计算系统,所述系统包括:
采样单元,用于对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机单元,用于随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘
信息增益单元,用于以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;
优化单元,用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
可选的,所述优化单元具体,用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
可选的,所述系统还包括:
替换单元,用于用最优配置组合替换所述工业环境的Hadoop配置值。
根据各实施方式提供的模拟飞行员狭小空间的睡眠剥夺模型系统包含四个评估子系统来建立对飞行员的狭小空间的睡眠剥夺模型,进而建立人类的睡眠模型,所以其具有检测数据准确,能够真实反应人类睡眠剥夺的情况的优点。。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一较佳实施方式提供的Hadoop的配置参数的计算方法的流程图;
图2为本发明第二较佳实施方式提供的Hadoop的配置参数的计算方法的流程图;
图3为本发明第二较佳实施方式提供的实际工业环境计算方法的流程图;
图4为本发明第三较佳实施方式中的Hadoop的配置参数的计算系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1、图1为本发明第一较佳实施方式提供的一种Hadoop的配置参数的计算方法,该方法由计算机设备或云平台完成,该方法如图1所示,包括如下步骤:
步骤S101、对工业环境下的实际的生产数据采样获得工业环境的小数据集。
步骤S102、随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间。
步骤S103、以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数。
步骤S104、采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
Hadoop中任务执行时间有程序、数据集大小、硬件资源环境、以及Hadoop配置参数共同决定。可以定义程序的性能公式:
Performance=<程序prog,数据集data,资源res,配置conf>
本发明针对给定的硬件资源res,在数据集data不断增长的情况下,针对大量的需要重复运行的批处理的任务prog,实现Hadoop配置参数conf的性能调优。
本发明提供的技术方案中信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,其实就是熵。本发明采用信息增益的方案选取特征,大大降低了对个别训练样例错误的敏感性。同时,在后期采用遗传算法时,需要进行搜索的空间大大缩小,也减少了需要计算的数据量。
参阅图2,图2为本发明第二较佳实施例提供的技术方案,为实现该方案,分为以下部分,集群环境的部署和搭建,大数据分析程序特征刻画,配置参数性能建模,最优配置参数寻找以及工业环境验证。该实际的流程示意图如图3所示。
S201、搭建一个物理集群,其中一个节点作为Master(主)节点,其他节点作为Slaver(从)节点。在每个节点上部署和安装配置JDK,Hadoop,Ganglia。其中Ganglia实时监控集群的CPU、内存、网络、硬盘利用率等。
S202、对数据进行采样获取部分数据构成小数据集;
对于工业环境中,每天将产生大量的数据,本发明第二较佳实施方式对数据进行采样获取部分数据构成小数据集。由于Hadoop有190多个配置参数,每个配置参数在一定的阈值内,所以,每次随机产生在该范围内的配置参数,运行该任务输出各个阶段任务的执行时间,随机产生千次配置参数的组合,并执行。
S203、以时间为类标,Hadoop配置参数的组合作为输入,采用信息增益的方案。
上述步骤S203中信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,从而,获得重要的配置参数。
S204、构建性能模型。
S205、使用机器学习算法遗传算法对所找出的重要参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
S206、用获取的近似最优值都替换真实工业环境的Hadoop配置值,运行大数据集,验证程序性能提高的比例,以及用Ganlia实时监控每个任务阶段CPU、内存、磁盘、网络使用率。
参阅图4,图4为本发明第三较佳实施方式提供的一种Hadoop的配置参数的计算系统,所述系统包括:
采样单元401,用于对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机单元402,用于随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘
信息增益单元403,用于以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;
优化单元404,用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
可选的,所述优化单元404具体,用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
可选的,所述系统还包括:
替换单元405,用于用最优配置组合替换所述工业环境的Hadoop配置值。
需要说明的是,对于前述的各实施方式或实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为根据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述实施方式或实施例均属于优选实施例,所涉及的动作和单元并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器(RandomAccessMemory,RAM)、只读存储器(Read-OnlyMemory,ROM)、电可擦可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,EEPROM)、只读光盘(CompactDiscRead-OnlyMemory,CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DigitalSubscriberLine,DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种Hadoop的配置参数的计算方法,其特征在于,所述方法包括如下步骤:
对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘
以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;
采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
2.根据权利要求1所述的方法,其特征在于,所述采用遗传算法对获取的重要性参数迭代搜索最优配置组合具体,包括:
使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
用最优配置组合替换所述工业环境的Hadoop配置值。
4.一种Hadoop的配置参数的计算系统,其特征在于,所述系统包括:
采样单元,用于对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机单元,用于随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘
信息增益单元,用于以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;
优化单元,用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
5.根据权利要求4所述的系统,其特征在于,
所述优化单元具体,用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多次迭代搜索近似最优配置组合。
6.根据权利要求4所述的系统,其特征在于,所述系统还包括:
替换单元,用于用最优配置组合替换所述工业环境的Hadoop配置值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025710.0A CN105653355A (zh) | 2015-12-30 | 2015-12-30 | Hadoop的配置参数的计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511025710.0A CN105653355A (zh) | 2015-12-30 | 2015-12-30 | Hadoop的配置参数的计算方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105653355A true CN105653355A (zh) | 2016-06-08 |
Family
ID=56490955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511025710.0A Pending CN105653355A (zh) | 2015-12-30 | 2015-12-30 | Hadoop的配置参数的计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105653355A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383746A (zh) * | 2016-08-30 | 2017-02-08 | 北京航空航天大学 | 大数据处理系统的配置参数确定方法和装置 |
CN108234177A (zh) * | 2016-12-21 | 2018-06-29 | 深圳先进技术研究院 | 一种HBase配置参数自动调优方法及装置、用户设备 |
WO2023029155A1 (zh) * | 2021-09-03 | 2023-03-09 | 中国科学院深圳先进技术研究院 | 一种Spark GraphX参数调优方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070169129A1 (en) * | 2006-01-18 | 2007-07-19 | Microsoft Corporation | Automated application configuration using device-provided data |
CN104252468A (zh) * | 2013-06-26 | 2014-12-31 | Sap欧洲公司 | 用于最大化连续事件的信息增益的方法及其系统 |
CN104750780A (zh) * | 2015-03-04 | 2015-07-01 | 北京航空航天大学 | 一种基于统计分析的Hadoop配置参数优化方法 |
-
2015
- 2015-12-30 CN CN201511025710.0A patent/CN105653355A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070169129A1 (en) * | 2006-01-18 | 2007-07-19 | Microsoft Corporation | Automated application configuration using device-provided data |
CN104252468A (zh) * | 2013-06-26 | 2014-12-31 | Sap欧洲公司 | 用于最大化连续事件的信息增益的方法及其系统 |
CN104750780A (zh) * | 2015-03-04 | 2015-07-01 | 北京航空航天大学 | 一种基于统计分析的Hadoop配置参数优化方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383746A (zh) * | 2016-08-30 | 2017-02-08 | 北京航空航天大学 | 大数据处理系统的配置参数确定方法和装置 |
CN108234177A (zh) * | 2016-12-21 | 2018-06-29 | 深圳先进技术研究院 | 一种HBase配置参数自动调优方法及装置、用户设备 |
WO2023029155A1 (zh) * | 2021-09-03 | 2023-03-09 | 中国科学院深圳先进技术研究院 | 一种Spark GraphX参数调优方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8346743B2 (en) | Configuring data collection rules in a data monitoring system | |
Zhang et al. | A weighted kernel possibilistic c‐means algorithm based on cloud computing for clustering big data | |
CN103336790A (zh) | 基于Hadoop的邻域粗糙集快速属性约简方法 | |
CN103838672A (zh) | 一种通用报表的自动化测试方法及装置 | |
CN106709503B (zh) | 一种基于密度的大型空间数据聚类算法k-dbscan | |
CN106534291A (zh) | 基于大数据处理的电压监测方法 | |
CN103336791A (zh) | 基于Hadoop的粗糙集快速属性约简方法 | |
CN107870949B (zh) | 数据分析作业依赖关系生成方法和系统 | |
CN103455531A (zh) | 一种支持高维数据实时有偏查询的并行索引方法 | |
Vasilic et al. | Uniformity and heuristics-based DeNSE method for sectorization of water distribution networks | |
CN113821332A (zh) | 自动机器学习系统效能调优方法、装置、设备及介质 | |
CN105653355A (zh) | Hadoop的配置参数的计算方法及系统 | |
CN114398669A (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
CN114820279A (zh) | 基于多gpu的分布式深度学习方法、装置及电子设备 | |
CN105210059B (zh) | 一种数据处理方法及系统 | |
CN115048254A (zh) | 数据分配策略的仿真测试方法、系统、设备和可读介质 | |
Dai et al. | Core decomposition on uncertain graphs revisited | |
US10489416B2 (en) | Optimizing and managing execution of hybrid flows | |
JPWO2015029969A1 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
JP2008225686A (ja) | 分散型データ処理プラットフォームにおけるデータ配置管理装置と方法、システム及びプログラム | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US11036471B2 (en) | Data grouping for efficient parallel processing | |
CN110968267A (zh) | 数据管理方法、装置、服务器及系统 | |
Chen et al. | A surrogate-assisted dual-tree genetic programming framework for dynamic resource constrained multi-project scheduling problem | |
US11811862B1 (en) | System and method for management of workload distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160608 |