CN105653355A

CN105653355A - Hadoop的配置参数的计算方法及系统

Info

Publication number: CN105653355A
Application number: CN201511025710.0A
Authority: CN
Inventors: 刘勇; 喻之斌; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-08

Abstract

本发明提供了一种Hadoop的配置参数的计算方法及系统，所述方法包括如下步骤：对工业环境下的实际的生产数据采样获得工业环境的小数据集；随机产生Hadoop配置参数，并将工业环境的小数据集运行于Hadoop集群，输出为运行时间，以时间为类标，Hadoop配置参数的组合为输入，采用信息增益的方案，输出为Hadoop的重要配置参数；采用遗传算法对获取的重要性参数迭代搜索最优配置组合。本发明提供的技术方案具有计算量小的优点。

Description

Hadoop的配置参数的计算方法及系统

技术领域

本发明涉及计算机领域，尤其涉及一种Hadoop的配置参数的计算方法及系统。

背景技术

Hadoop是一个开源的分布式计算框架，其借鉴了MapReduce编程思想，简化了数据的分发、处理、计算和任务的调度，并具有容错、高可靠、可扩展等特性。编程人员只需要编写Map和Reduce函数，而Hadoop会自动将任务分配到集群的各个节点，并执行任务。因此，该框架降低了并行编程的难度，而且编程人员也可以充分利用硬件的资源。目前Hadoop已广泛应用于工业界和学术界。

但MapReduce任务的性能由众多因素组成，如物理机群的硬件环境，操作系统参数的配置，JVM性能，任务的调度，以及Hadoop配置参数等等。其中Hadoop的参数配置对性能的影响至关重要。而基于经验的手调方案成本高，耗时长。Hadoop具有190多个配置参数，用户在提交作业时需要指定一些参数，而用户不知道如何调整这些参数，所以大多数用户只能使用默认配置参数，但这不能最大程度挖掘Hadoop系统性能。有些用户根据经验采用暴力的方案去一一尝试关键的参数，但是每个参数取值有很多种，样本空间巨大，且Hadoop配置参数之间关系复杂，有些参数之间相互依赖。同时，不同任务的最佳参数组合也是不同的，所以采用暴力尝试的方案是不合适的。论文(柳香，李瑞台，李俊红，段胜业，2011)“Hadoop性能优化研究”，提出采用机器学习算法遗传算法对配置方案进行选择、交叉、变异，多次迭代后产生近似最优方案。遗传算法具有自适应性、收敛性好、鲁棒性高等优点，但该方案需要考虑所有配置参数的组合，计算量大。

在实现现有技术的方案中，发现现有技术存在如下技术问题：

(1)仅仅基于遗传算法的方案，需要考虑所有配置参数的组合情况，Hadoop有190多个配置参数，每个参数都有一定的阈值，组合情况大，计算量也大。

(2)基于代价的优化方案对Hadoop任务阶段进行划分，假设原子操作的代价不变，但试验数据显示CETMPR,READIO,WRITEIO,NET,RDCPU,PTCPU这6个原子操作代价变化明显，所以基于不正确的假设建立的分析模型精度不高。

(3)AROMA建立的模型任务粒度不够细。

发明内容

提供一种Hadoop的配置参数的计算方法，所述Hadoop的配置参数的计算方法解决现有技术的计算量大、粒度不够细和精度不高的问题。

一方面，提供一种Hadoop的配置参数的计算方法，所述方法包括如下步骤：

对工业环境下的实际的生产数据采样获得工业环境的小数据集；

随机产生Hadoop配置参数，并将工业环境的小数据集运行于Hadoop集群，输出为运行时间‘

以时间为类标，Hadoop配置参数的组合为输入，采用信息增益的方案，输出为Hadoop的重要配置参数；

采用遗传算法对获取的重要性参数迭代搜索最优配置组合。

可选的，所述采用遗传算法对获取的重要性参数迭代搜索最优配置组合具体，包括：

使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异，多次迭代搜索近似最优配置组合。

可选的，所述方法还包括：

用最优配置组合替换所述工业环境的Hadoop配置值。

另一方面，提供一种Hadoop的配置参数的计算系统，所述系统包括：

采样单元，用于对工业环境下的实际的生产数据采样获得工业环境的小数据集；

随机单元，用于随机产生Hadoop配置参数，并将工业环境的小数据集运行于Hadoop集群，输出为运行时间‘

信息增益单元，用于以时间为类标，Hadoop配置参数的组合为输入，采用信息增益的方案，输出为Hadoop的重要配置参数；

优化单元，用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。

可选的，所述优化单元具体，用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异，多次迭代搜索近似最优配置组合。

可选的，所述系统还包括：

替换单元，用于用最优配置组合替换所述工业环境的Hadoop配置值。

根据各实施方式提供的模拟飞行员狭小空间的睡眠剥夺模型系统包含四个评估子系统来建立对飞行员的狭小空间的睡眠剥夺模型，进而建立人类的睡眠模型，所以其具有检测数据准确，能够真实反应人类睡眠剥夺的情况的优点。。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一较佳实施方式提供的Hadoop的配置参数的计算方法的流程图；

图2为本发明第二较佳实施方式提供的Hadoop的配置参数的计算方法的流程图；

图3为本发明第二较佳实施方式提供的实际工业环境计算方法的流程图；

图4为本发明第三较佳实施方式中的Hadoop的配置参数的计算系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1、图1为本发明第一较佳实施方式提供的一种Hadoop的配置参数的计算方法，该方法由计算机设备或云平台完成，该方法如图1所示，包括如下步骤：

步骤S101、对工业环境下的实际的生产数据采样获得工业环境的小数据集。

步骤S102、随机产生Hadoop配置参数，并将工业环境的小数据集运行于Hadoop集群，输出为运行时间。

步骤S103、以时间为类标，Hadoop配置参数的组合为输入，采用信息增益的方案，输出为Hadoop的重要配置参数。

步骤S104、采用遗传算法对获取的重要性参数迭代搜索最优配置组合。

Hadoop中任务执行时间有程序、数据集大小、硬件资源环境、以及Hadoop配置参数共同决定。可以定义程序的性能公式：

Performance＝<程序prog,数据集data,资源res,配置conf>

本发明针对给定的硬件资源res，在数据集data不断增长的情况下，针对大量的需要重复运行的批处理的任务prog,实现Hadoop配置参数conf的性能调优。

本发明提供的技术方案中信息增益是特征选择中的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量，其实就是熵。本发明采用信息增益的方案选取特征，大大降低了对个别训练样例错误的敏感性。同时，在后期采用遗传算法时，需要进行搜索的空间大大缩小，也减少了需要计算的数据量。

参阅图2，图2为本发明第二较佳实施例提供的技术方案，为实现该方案，分为以下部分，集群环境的部署和搭建，大数据分析程序特征刻画，配置参数性能建模，最优配置参数寻找以及工业环境验证。该实际的流程示意图如图3所示。

S201、搭建一个物理集群，其中一个节点作为Master(主)节点，其他节点作为Slaver(从)节点。在每个节点上部署和安装配置JDK,Hadoop,Ganglia。其中Ganglia实时监控集群的CPU、内存、网络、硬盘利用率等。

S202、对数据进行采样获取部分数据构成小数据集；

对于工业环境中，每天将产生大量的数据，本发明第二较佳实施方式对数据进行采样获取部分数据构成小数据集。由于Hadoop有190多个配置参数，每个配置参数在一定的阈值内，所以，每次随机产生在该范围内的配置参数，运行该任务输出各个阶段任务的执行时间，随机产生千次配置参数的组合，并执行。

S203、以时间为类标，Hadoop配置参数的组合作为输入，采用信息增益的方案。

上述步骤S203中信息增益是特征选择中的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要，从而，获得重要的配置参数。

S204、构建性能模型。

S205、使用机器学习算法遗传算法对所找出的重要参数进行选择、交叉、变异，多次迭代搜索近似最优配置组合。

S206、用获取的近似最优值都替换真实工业环境的Hadoop配置值，运行大数据集，验证程序性能提高的比例，以及用Ganlia实时监控每个任务阶段CPU、内存、磁盘、网络使用率。

参阅图4，图4为本发明第三较佳实施方式提供的一种Hadoop的配置参数的计算系统，所述系统包括：

采样单元401，用于对工业环境下的实际的生产数据采样获得工业环境的小数据集；

随机单元402，用于随机产生Hadoop配置参数，并将工业环境的小数据集运行于Hadoop集群，输出为运行时间‘

信息增益单元403，用于以时间为类标，Hadoop配置参数的组合为输入，采用信息增益的方案，输出为Hadoop的重要配置参数；

优化单元404，用于采用遗传算法对获取的重要性参数迭代搜索最优配置组合。

可选的，所述优化单元404具体，用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异，多次迭代搜索近似最优配置组合。

可选的，所述系统还包括：

替换单元405，用于用最优配置组合替换所述工业环境的Hadoop配置值。

需要说明的是，对于前述的各实施方式或实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为根据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述实施方式或实施例均属于优选实施例，所涉及的动作和单元并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括随机存取存储器(RandomAccessMemory，RAM)、只读存储器(Read-OnlyMemory，ROM)、电可擦可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory，EEPROM)、只读光盘(CompactDiscRead-OnlyMemory，CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DigitalSubscriberLine，DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种Hadoop的配置参数的计算方法，其特征在于，所述方法包括如下步骤：

采用遗传算法对获取的重要性参数迭代搜索最优配置组合。

2.根据权利要求1所述的方法，其特征在于，所述采用遗传算法对获取的重要性参数迭代搜索最优配置组合具体，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

用最优配置组合替换所述工业环境的Hadoop配置值。

4.一种Hadoop的配置参数的计算系统，其特征在于，所述系统包括：

5.根据权利要求4所述的系统，其特征在于，

所述优化单元具体，用于使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异，多次迭代搜索近似最优配置组合。

6.根据权利要求4所述的系统，其特征在于，所述系统还包括：