CN106383746A

CN106383746A - 大数据处理系统的配置参数确定方法和装置

Info

Publication number: CN106383746A
Application number: CN201610785171.9A
Authority: CN
Inventors: 刘旭东; 孙海龙; 吕中厚; 唐宇
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-02-08

Abstract

本发明实施例提供一种大数据处理系统的配置参数确定方法和装置，其中，该方法包括：通过改变配置参数集合中各配置参数的数值，获取大数据处理系统的N个作业对应的N个作业执行时间，每个作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定该N个作业对应的N个实际执行时间，进而从N个实际执行时间中确定出最优执行时间，并确定出最优执行时间对应的各配置参数数值组成的配置参数集合。本发明的技术方案，能够有效、快速地优化大数据处理系统的参数集合，提高了大数据处理系统中的作业运行效率。

Description

大数据处理系统的配置参数确定方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种大数据处理系统的配置参数确定方法和装置。

背景技术

MapReduce是一种并行计算的编程模型，用于大规模数据集的并行运算，其是当前最流行、高效的大数据处理框架之一，它提供了简单的编程接口，用户可以有目的性地根据需要处理的大数据应用来实现这些接口。而Hadoop是MapReduce最常用的开源实现之一，用户可以在Hadoop平台上处理各种各样的大数据应用，如日志分析、索引构建、数据挖掘等。

一个MapReduce Job是MapReduce应用程序在Hadoop平台上的一次执行实例，它由以下三个部分组成：用户定义的MapReduce程序、需要处理的输入数据和相关的配置参数。其中，配置参数是用户指定的选项集合，这些选项指定了当前MapReduce Job的执行方式，如map和reduce任务的数量等。配置参数的选择对MapReduce Job的执行性能有着显著的影响。

由于Hadoop中的配置参数较多，而只有其中的部分参数对MapReduce Job的执行性能有着效果明显的影响，并且，该部分参数对MapReduce Job的影响是非线性的，多个参数之间存在协同、交互关系，即一个参数的变化对于Job执行性能的影响依赖于其他参数值的选择。因此，选择最有效的配置参数值集合是个很大的挑战。

目前，对于MapReduce Job的参数优化，最有效的是一种基于模型的参数寻优方法。具体的，该方法通过对MapReduce Job中的map和reduce任务的执行数据流建立性能模型，利用该性能模型预测MapReduce Job在不同配置参数值以及不同大小的输入数据时的执行时间，进而基于有效的搜索寻优策略，应用已构建的性能模型对MapReduce Job的参数集合进行寻优。

然而，基于模型的参数寻优方法，其寻优效果在一定程度上取决于性能模型对MapReduce Job执行时间预测的精确度，但是现有的性能模型仅能预测串行执行为前提的任务，对于多线程技术的任务，该性能模型对MapReduce Job的执行时间预测不准确，致使确定的配置参数值集合不准确，进而影响了MapReduce Job的执行性能。

发明内容

本发明提供一种大数据处理系统的配置参数确定方法和装置，用于解决现有配置参数寻优方法确定的配置参数组集合不准确，使得大数据处理系统的执行性能受到影响的问题。

本发明提供一种大数据处理系统的配置参数确定方法，包括：

通过改变配置参数集合中各配置参数的数值，获取大数据处理系统的N个作业对应的N个作业执行时间，其中，每个所述作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，N为大于1的正整数；

根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定所述大数据处理系统的所述N个作业对应的N个实际执行时间；

从所述N个实际执行时间中确定出最优执行时间，并确定出所述最优执行时间对应的各配置参数数值组成的所述配置参数集合。

本发明还提供一种大数据处理系统的配置参数确定装置，包括：

作业执行时间获取模块，用于通过改变配置参数集合中各配置参数的数值，获取大数据处理系统的N个作业对应的N个作业执行时间，其中，每个所述作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，N为大于1的正整数；

实际执行时间确定模块，用于根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定所述大数据处理系统的所述N个作业对应的N个实际执行时间；

最优配置参数值确定模块，用于从所述N个实际执行时间中确定出最优执行时间，并确定出所述最优执行时间对应的各配置参数数值组成的所述配置参数集合。

本发明提供的大数据处理系统的配置参数确定方法和装置，通过改变配置参数集合中各配置参数的数值来获取大数据处理系统的N个作业对应的N个作业执行时间，每个作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，N为大于0的正整数，根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定大数据处理系统的N个作业对应的N个实际执行时间，进而从N个实际执行时间中确定出最优执行时间，并确定出该最优执行时间对应的各配置参数数值组成的配置参数集合。本发明的技术方案，能够有效、快速地优化大数据处理系统的配置参数值集合，提高了大数据处理系统的运行效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的大数据处理系统的配置参数确定方法的应用场景示意图；

图2为本发明提供的大数据处理系统的配置参数确定方法实施例一的流程示意图；

图3A为本发明实施例中监控分析工具生成统计值的框图；

图3B为图3A中监控分析工具生成统计值的数据流图；

图4为本发明提供的大数据处理系统的配置参数确定方法实施例二的流程示意图；

图5为本发明提供的大数据处理系统的配置参数确定方法实施例三的流程示意图；

图6为本发明提供的大数据处理系统的配置参数确定方法实施例四的流程示意图；

图7为map任务中map执行阶段与spill执行阶段之间的关联示意图；

图8为reduce任务中copy执行阶段与merge执行阶段之间的关联示意图；

图9为本发明提供的大数据处理系统的配置参数确定装置实施例一的结构示意图；

图10为本发明提供的大数据处理系统的配置参数确定装置实施例二的结构示意图；

图11为本发明提供的大数据处理系统的配置参数确定装置实施例三的结构示意图；

图12为本发明提供的大数据处理系统的配置参数确定装置实施例四的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面首先介绍一下大数据处理系统的相关知识。值得说明的是，本发明实施例中的大数据处理系统均是以采用MapReduce编程模型的大数据处理系统为例进行说明。

随着电子商务、搜索引擎、社交网络、移动互联网等的快速发展，产生的数据量呈爆炸式增长，例如Google公司每天会收到来自全球超过30亿条的搜索指令。数据量的剧增，导致数据处理的难度越来越大，因此，出现了MapReduce等可并行计算的编程模型，通过其提供的简单的编程接口，用户可以有目的性地根据需要处理的大数据应用来实现这些接口。

目前，Hadoop是MapReduce最常用的开源实现之一，互联网、学术界甚至越来越多的传统行业如银行、金融甚至政府部门开始部署Hadoop来作为自己的大数据平台。在Hadoop平台上，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储，例如，处理各种各样的大数据应用，如日志分析、索引构建、数据挖掘等。Hadoop平台框架中最核心的部分是：分布式文件系统(Hadoop DistributedFile System简称HDFS)和MapReduce。HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算。

在实际应用中，一个MapReduce Job是MapReduce应用程序在Hadoop平台上的一次执行实例，具体的，由三个部分组成：用户定义的MapReduce程序、需要处理的输入数据和相关的配置参数。其中，配置参数是用户指定的选项集合，这些选项指定了当前MapReduceJob的执行方式，如map和reduce任务的数量等，因此配置参数的选择对MapReduce Job的执行性能有着显著的影响。

虽然Hadoop平台中的配置参数超过了100个，但只有其中的10-20个参数对MapReduce Job的执行性能有明显的影响。鉴于各个配置参数对MapReduce Job的影响呈现非线性，并且多个参数之间存在协同、交互关系，使得如何选择有效的配置参数值集合变得更加困难。

现阶段，除了背景技术中讲述的基于模型的参数寻优方法外，现有的MapReduceJob参数优化方法，还包括基于规则的参数调优方法和在线方式动态优化配置参数方法，但是现有的配置参数寻优方法均存在一定的缺陷。具体的分析如下：

基于规则的参数调优是用户根据当前MapReduce Job的输入数据大小、中间生成数据大小等有效信息，结合事先建立的调优规则通过人工进行参数调优。这种参数调优方法具有明显的问题：首先，本方法中使用的调优规则是用户通过大量的参数调优经验积累建立而成的，但不同的MapReduce Jobs和集群环境都存在一定的差异，这些调优规则并不能完全适用于各种集群环境下所有的MapReduce Jobs，使得确定出的配置参数集合不准确；其次，本方法采用人工手动进行参数值调优，需要耗费用户大量的时间和精力，寻优效率低。

在线方式动态优化配置参数是一种自动调优的方法，其需要在Hadoop平台上重复执行MapReduce Job的map和reduce任务，根据已执行任务的执行时间，使用有效的参数调整策略生成新的配置参数值集合，继续执行参数调整后的map和reduce任务，直到任务的执行性能达到最优，最后得到的参数值集合就是该参数调优的最终结果。但由于Hadoop本身并不支持在一次MapReduce Job的执行过程中动态修改不同执行任务的参数，需要修改Hadoop中的资源管理与任务调度组件Yarn，这使得这种参数调优方法需要在Hadoop平台中重复执行map和reduce任务，不仅耗时多，而且会占用大量的集群资源。

综上所述，现有的MapReduce Job中的配置参数寻优方法均不能准确获取最优的配置参数值集合，而且寻优效率低。

本发明实施例提供一种大数据处理系统的配置参数确定方法和装置，用于解决现有配置参数寻优方法确定的配置参数值集合不准确，使得MapReduce Job的执行性能受到影响的问题。

图1为本发明提供的大数据处理系统的配置参数确定方法的应用场景示意图。如图1所示，该大数据处理系统的配置参数确定方法的应用场景，总共有3个执行模块参与了MapReduce Job的参数调优。在本发明实施例中，3个执行模块包括：预处理模块、性能模型模块和参数寻优模块。

具体的，预处理模块的资源管理器接收客户端输入的数据，并使用监控分析工具来监控当前MapReduce Job中任务(包括所有map和reduce任务)的执行，并且从所有任务中提取各个任务的执行数据，进而获取执行数据的统计值。在Hadoop集群中，由于一个MapReduce Job的所有任务是分散在不同机器上执行的，因此，需要收集分散在不同机器上，且被提取出来的统计值将其存储起来。

参数寻优模块使用参数生成器根据设定的寻优算法及策略来生成参数值组合，将预处理模块获取到的统计值和该参数值组合作为参数寻优模块中性能预测的输入，并且调用性能模型模块来预测当前参数组合下该MapReduce Job的实际执行时间，直到找到预测执行时间最短的参数值组合，该参数值组合即为最优的参数值组合，最终将该参数值组合返回给用户。

值得说明的是，利用参数寻优模块进行参数寻优的过程中，将该预处理模块得到的MapReduce Job统计值和参数生成器生成的新的参数值组合作为输入数据时，均需要调用一次性能模型模块进行重新寻优。下面，通过具体实施例对本申请所示的技术方案进行详细说明。

需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本发明提供的大数据处理系统的配置参数确定方法实施例一的流程示意图。本发明实施例中的大数据处理系统以MapReduce编程模型为例进行说明。如图2所示，本发明实施例提供的大数据处理系统的配置参数确定方法，包括：

步骤21：通过改变配置参数集合中各配置参数的数值，获取大数据处理系统的N个作业对应的N个作业执行时间；

其中，每个作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，N为大于1的正整数。

在本发明实施例中，首先利用参数生成器生成配置参数集合中各配置参数的数值，其次通过改变配置参数集合中各配置参数的数值，得到新的工作，分别使用每组配置参数值对每个MapReduce Job的执行性能进行预测，得到N个工作对应的N个作业执行时间。

值得说明的是，在该步骤中，由于每个工作包括多个任务，每个任务包括多个执行阶段，所以，本发明实施例得到的作业执行时间包括该作业中所有任务的所有执行阶段的执行时间的加和，也即，本步骤中的作业执行时间是按照所有任务中的各个执行阶段串行执行计算得到的。

步骤22：根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定大数据处理系统的N个作业对应的N个实际执行时间；

具体的，在本发明实施例中，提供了一个适用于大数据处理系统(也即，HadoopMapReduce)的性能模型，该性能模型不仅能够预测MapReduce Job在Hadoop平台上的执行过程，并且能够预测每个任务的每个执行阶段的执行时间，更关键的是该性能模型还能够预测该MapReduce Job的map和reduce任务中各个执行阶段中是否存在并行执行阶段以及这些并行执行阶段之间的重叠时间，也即，该性能模型能够较高精度地预测出MapReduceJob在配置参数集合处于不同配置参数数值条件下每个任务中每个执行阶段的并行执行时间。

在本实施例中，在获取到每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间时，可根据每个作业中各个任务包括的每个执行阶段的并行执行时间、以及该作业对应的作业执行时间，确定大数据处理系统在该作业中耗费的实际执行时间。

步骤23：从上述N个实际执行时间中确定出最优执行时间，并确定出最优执行时间对应的各配置参数数值组成的配置参数集合。

本发明实施例基于步骤21和步骤22中确定的大数据处理系统的N个作业执行时间和每个作业中每个任务包括的各个执行阶段的并行执行时间，可首先确定出大数据处理系统的N个实际执行时间，随后从上述N各实际执行时间中确定出最优执行时间，进而选择最优执行时间对应的各配置参数数值组成的配置参数集合为配置参数值集合，采用该配置参数值集合来执行MapReduce Job时，可有效提高该MapReduce Job在Hadoop平台上的执行性能。

进一步的，由于大数据处理系统的配置参数确定方法在一定程度上取决于性能模型对MapReduce Job执行时间预测的精确度，当采用配置参数集合中配置参数对应的数值获取大数据处理系统的作业执行时间时，是以map、reduce任务中所有细粒度执行阶段(如map任务中的read、map、spill、merge和write等执行阶段)均为串行执行为前提得到的，此时，只需依次预测每个细粒度阶段的执行开销，每个工作中所有任务对应的所有细粒度阶段的执行开销总和即为该组配置参数集合的配置参数数值对应的作业执行时间，通俗来讲，就是整个MapReduce Job的执行开销。

在实际应用中，由于Hadoop使用了多线程技术来优化MapReduce Job的执行性能，让map和reduce任务中多个细粒度阶段并发执行。所以，在构建本发明实施例使用的性能模型之前，需要首先利用一个监控分析工具来获取MapReduce Job在Hadoop平台上执行的统计数据，例如，各个细粒度阶段的数据转化率、执行复杂度等，进而确认出map和reduce任务中各个细粒度阶段之间是否存在并行，并且需要衡量各执行阶段之间的并行对MapReduceJob执行性能的影响。

值得说明的是，本实施例中使用的监控分析工具必须满足一定的条件，例如，利用该监控分析工具在计算各个执行阶段的统计数据时，其不能给Hadoop集群带来额外的负载，也即，监控分析工具的使用不能影响MapReduce Job的执行性能，也不能给得到的统计数据带来误差，本实施例称该类监控分析工具是轻量级的。

本发明实施例提供的大数据处理系统的配置参数确定方法，通过改变配置参数集合中各配置参数的数值来获取大数据处理系统的N个作业对应的N个作业执行时间，每个作业执行时间包括每个作业中所有任务包括的所有执行阶段的执行时间加和，N为大于0的正整数，根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定大数据处理系统的N个作业对应的N个实际执行时间，进而从N个实际执行时间中确定出最优执行时间，并确定出该最优执行时间对应的各配置参数数值组成的配置参数集合。本发明的技术方案，能够有效、快速地优化MapReduce Job的参数值集合，提高了目标MapReduce Job在hadoop平台上的运行效率。

可选的，在本发明实施例提供的大数据处理系统的配置参数确定方法中，利用监控分析器作为监控分析工具。具体的，在使用上述实施例中的性能模型来预测MapReduceJob的执行时间之前，首先利用该监控分析工具来获取目标MapReduce Job在Hadoop平台上的统计值，如数据转化率与执行复杂度等，每个MapReduce Job有着不同的统计值。由上述分析可知，为了准确获取目标MapReduce Job的统计值并且不影响集群正在执行的jobs，该监控分析工具应该是轻量级的。下面结合图3A和图3B中监控分析工具生成统计值的框图和数据流图进行简单说明。

图3A为本发明实施例中监控分析工具生成统计值的框图。图3B为图3A中监控分析工具生成统计值的数据流图。如图3A和图3B所示，为了使监控分析工具满足轻量级的要求，本发明实施例中的监控分析器分成了两个相对独立的部分：(1)原生数据的生成、(2)对原生数据的处理，提取该MapReduce Job的统计值。下面对这两个部分分别进行说明：

(1)原生数据的生成

如图3A所示，原生数据(例如，map和reduce任务中各执行阶段的时间开销以及输入输出数据大小)是通过日志打印的手段获取的，也即，用户通过容器(容器1和容器2)将需要获取的原生数据插入到日志中，使得原生数据随着MapReduce Job的执行打印出来。

具体的，在原生数据的生成部分中，为了对任意的MapReduce Job进行特征提取，对于用户通过客户端提交的MapReduce应用程序无需做任何修改，只需要在Hadoop的源程序码对应的MapReduce计算框架部分添加少量的日志，用以记录MapReduce执行中每个细粒度阶段的执行开销以及输入、输出数据大小。

由于Hadoop集群中可能有多个MapReduce Jobs同时执行，同一台机器上也可能有多个map和reduce任务，而且这些mapTasks和reduceTasks也可能属于不同的MapReduceJobs的执行任务。为了能够区分每条日志的来源，即确定这条日志所属作业的执行任务，在打印日志的同时，需要额外在日志中添加一个唯一标示来表明该日志的所属执行任务。

举例来说，如图3B所示，当用户通过客户端向Hadoop集群提交了MapReduce Job时，Resource Manager(资源管理器)为该job分配资源，并且启动属于该job的ApplicationMaster(主应用)组件，并且Resource Manager(资源管理器)向Application Master(主应用)组件分发JobId。当Application Master在hadoop集群中某个机器上调度了一个新的map或者reduce任务时，Application Master根据JobId为该任务指定一个taskId。所以，每个执行任务中都有一个唯一标示TaskId，只需要在打印的日志中自动添加TaskID即可区分日志所属的执行任务。

(2)对原生数据的处理，提取该MapReduce Job的统计值

统计值的提取需要对打印的日志进行分析，可选的，这部分的执行可与前部分原生数据的生成进行分离，可以在集群任务相对空闲的时间段内执行提取日志数据的工作，从而减少了监控分析工具对运行中MapReduce Jobs的影响。其中，集群任务相对空闲的时间段，比如是集群任务执行完成时等，本发明实施例并不对集群任务相对空闲的时间段进行限定。

由于一个MapReduce Job中所有执行任务可能分布在不同机器上，因此，该监控分析工具在集群中所有机器上均部署着Extractor(提取器)组件，负责对每台机器中所有执行任务中生成的原生数据进行提取，从而得到每一个执行任务的统计值，再经过进一步处理后(取平均值)得到目标MapReduce Job在该机器上的统计值，随后等待如图3B所示的部署在集群中某台机器上的Profiler Collector(分析收集器)主动从各个机器中读取已经由Extractor组件提取的统计值，并且将其存储起来，具体的，按照节点IP将执行时间统计值和数据流统计值依据任务的不同存储起来，详细参见图3B所示。

图4为本发明提供的大数据处理系统的配置参数确定方法实施例二的流程示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定方法的进一步说明。如图4所示，本发明实施例提供的大数据处理系统的配置参数确定方法，还包括：

步骤41：统计大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及确定各执行阶段所属的任务；

利用大数据处理系统的性能模型预测MapReduce Job在不同配置参数集合条件下的执行时间，为了提高性能模型预测的精确度，首先需要统计大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及各执行阶段所属的任务，也即，首先预测map和reduce任务中每个细粒度(每个执行阶段)的执行时间以及每个细粒度所属的任务。

步骤42：根据各执行阶段所属的任务、以及各执行阶段的执行时间，确定每个作业对应的作业执行时间。

具体的，将每个作业中所有任务包括的各执行阶段的执行时间依次相加求和，便可确定出每个作业对应的作业执行时间。在本实施例中，各个作业对应的作业执行时间是以每个任务中的执行阶段串行执行为基础计算出来的，其包括每个任务中执行阶段的重叠时间。

本发明实施例提供的大数据处理系统的配置参数确定方法，通过统计大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及各执行阶段所属的任务，根据各执行阶段所属的任务、以及各执行阶段的执行时间，确定每个作业对应的作业执行时间。本发明实施例利用性能模型预测每个作业所有任务各执行阶段的执行时间，为后续计算各作业对应的实际执行时间奠定了基础。

图5为本发明提供的大数据处理系统的配置参数确定方法实施例三的流程示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定方法的进一步说明。如图5所示，本发明实施例提供的大数据处理系统的配置参数确定方法，还包括：

步骤51：按照预设原则将配置参数集合中的多个配置参数进行分类，得到多个配置参数组；

具体的，在大数据处理系统中，首先将选取的配置参数集合，并根据每个配置参数对MapReduce Job执行性能影响以及配置参数的的意义，确定出每个配置参数的合适取值空间。其中，合适取值空间包括合理的取值范围和合适的取值粒度(也即，具体取值大小)，合理的取值范围是为了确保配置参数的每次取值都是有效的，合适的取值粒度为了确保合适的参数空间。其次，按照配置参数之间的相互作用关系，将配置参数集合中的多个配置参数进行分类处理，获取到多个配置参数组，每个配置参数组中的配置参数之间具有相关性。将配置参数集合中的配置参数进行分组，能够进一步降低每次搜索时参数空间的大小，加快寻优效率。

步骤52：依次对每个配置参数组进行优化，确定出每个配置参数组的最优作业执行时间，并确定该配置参数组中最优作业执行时间对应的各配置参数的最优数值。

可选的，现有技术中采用随机搜索方法从所有对MapReduce Job有影响的配置参数组中选择最优的配置参数集合，但是由于影响MapReduce Job执行时间的配置参数数量很多，而且每个配置参数都有很多的选择值，所以使用随机搜索方法对所有的配置参数进行参数寻优时需要花费较长的时间才能获得较优的参数集合，寻优效率低。所以，为了加快MapReduce Job配置参数的寻优速度，提高配置参数寻优的效率，本发明实施例选择一个快速收敛的寻优算法对每个配置参数组进行优化，进而来确定出每个配置参数组的最优作业执行时间以及最优作业执行时间对应的各配置参数的最优数值。在本实施例中，该寻优算法可以是遗传算法或梯度下降算法等方法，本发明实施例并不对寻优算法的具体实现形式进行限定。

值得说明的是，利用寻优算法对每个配置参数组进行优化，确定出每个配置参数组的最优作业执行时间的过程中，还需要降低搜索的参数空间，进而快速地寻找到最合适的配置参数集合，其中，上述确定的最优执行时间对应的各配置参数的最优数值就是待确定的各配置数值。

本发明实施例提供的大数据处理系统的配置参数确定方法，首先按照预设原则将配置参数集合中的多个配置参数进行分类，得到多个配置参数组，其次依次对每个配置参数组进行优化，确定出每个配置参数组的最优作业执行时间，并确定该配置参数组中最优作业执行时间对应的各配置参数的最优数值，能够大幅度降低参与配置参数寻优的数目，进一步降低每次寻优时参数空间的大小，加快寻优效率，从而为筛选出影响MapReduce Job执行性能的各配置参数数值提供了可能。

可选的，在上述实施例提供的大数据处理系统的配置参数确定方法中，上述配置参数组中任意两个配置参数之间满足协同关系。

具体的，上述的多个配置参数是按照参数之间的相关性进行的分类，在得到多个配置参数组中，任意两个配置参数之间均满足协同关系。也即，在对多个配置参数进行分类的过程中，若一个配置参数的变化对MapReduce Job执行性能的影响依赖于另外一个配置参数的取值，即两者满足协同关系，则将这两个配置参数分为一组，否则将这两个配置参数分在两个不同的配置参数组中。

作为一种示例，在本发明实施例提供的大数据处理系统的配置参数确定方法中，上述步骤22(根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定大数据处理系统的N个作业对应的N个实际执行时间)的一种可能实现方式可参见图6所示的实施例。

图6为本发明提供的大数据处理系统的配置参数确定方法实施例四的流程示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定方法的进一步说明。如图6所示，在本发明实施例提供的大数据处理系统的配置参数确定方法中，上述步骤22，包括：

步骤61：根据每个任务中各执行阶段的并行执行时间，确定每个任务中各并行执行时间的重叠时间；

具体的，由上述分析可知，本发明实施例中的性能模型能够准确预测目标MapReduce Job在不同待选配置参数集合条件下的执行时间，可选的，该性能模型不仅能够预测map和reduce任务中每个细粒度(也即，每个执行阶段)的执行时间，而且能够预测每个任务的每个执行阶段中的有效并行执行时间，以及每个执行阶段中的并行执行时间的重叠时间。

下面通过对Hadoop源代码进行深入分析，确定出MapReduce Job中可能存在以下几处并行任务：

(1)map执行阶段、spill执行阶段

在map任务中，通过分析发现map执行阶段与spill执行阶段的执行有着紧密的联系，并且两者之间存在一定的并行。具体的，分析过程如下：

图7为map任务中map执行阶段与spill执行阶段之间的关联示意图。如图7所示，主线程在执行map函数时，map函数执行的输出结果将会写入内存缓冲区中。当内存缓冲区(buffer)中已使用的空间大于用户定义的阈值时，spill线程开始对内存缓冲区中已写入的结果做spill操作，即需要对buffer中已经写入的数据依次进行排序、归并(combine)并且写入本地磁盘。此时，由于主线程中仍然剩余部分可用空间，所以在spill线程对缓冲区数据进行spill操作的同时，主线程可以继续执行map函数，直到写满整个内存缓冲区时主线程才休眠。当spill操作完成时，释放相应的内存缓冲区空间，如果此时主线程已经休眠，则重新唤醒主线程继续执行map函数。

(2)copy执行阶段、merge执行阶段

在reduce任务中，通过分析发现copy执行阶段与merge执行阶段的执行有着紧密的联系，并且两者之间存在一定的并行。具体的，分析过程如下

图8为reduce任务中copy执行阶段与merge执行阶段之间的关联示意图。如图8所示，在ReduceTask启动后，fetch线程组被启动，通过复制器(复制器1、复制器2和复制器3等)来copy不同机器节点(例如，节点1、节点2和节点3)上已执行完成map任务的输出结果。当fetch线程进行copy执行阶段时，首先需要根据map任务输出数据的大小来判断将该map任务的输出结果写入内存缓存区还是写入磁盘。

当写入内存缓存区时，首先判断内存缓存区是否有足够的空间容纳下map任务的输出数据，如果空间不够，当前fetch线程休眠，直到内存缓存区重新有空间。当fetch线程将数据写入内存缓存区后，根据已写入内存缓存区数据总和来决定是否把内存缓存区的数据合并到磁盘中。当fetch线程需要将map任务的输出写入到磁盘时，根据磁盘中已有的文件数来决定是否进行文件合并。

综上所述，本发明实施例需要根据性能模型对这些并行的执行阶段进行处理，进而预测上述执行阶段的有效执行时间。

步骤62：在每个作业执行时间中，去除每个任务中各并行执行时间的重叠时间，获取每个作业对应的实际执行时间。

首先，针对“(1)map执行阶段、spill执行阶段”，由于map任务中map执行阶段与spill执行阶段的关系比较明确，spill的执行次数以及每次spill执行的开销与所有map函数执行的输出、内存缓冲区大小及合并缓冲区数据的阀值有关，而且，map函数的执行与否直接由内存缓冲区是否有空余空间来决定。所以，本发明实施例可按照公式(1)来计算map执行阶段与spill执行阶段的实际执行时间：

T_ms＝T_m+T_s-T_m&s (1)

其中，T_ms为map执行阶段与spill执行阶段的实际执行时间，T_m为所有map函数执行的总时间，T_s为整个spill执行阶段的总时间，T_m&s为map执行阶段与spill执行阶段的所有重叠时间，计算map与spill两个执行阶段的执行时间总和，并且去除两个阶段对应的并行执行时间的重叠时间，即为map执行阶段与spill执行阶段的实际执行时间。

map执行阶段的总执行时间与map函数执行的次数、以及每次map函数执行的时间有关，map函数执行的次数与map任务输入数据的大小有关，而每次map函数执行的时间可以由上述实施例中的监控分析工具来获得。

spill执行阶段的总执行时间与spill执行的次数、每次执行spill开销大小有关，spill执行的次数由所有次map函数执行的输出大小以及内存缓冲区溢出的数据大小有关，map函数总的输出大小由map函数的总输入和map函数的数据转化率决定，缓冲区溢出时数据大小由缓冲区大小及缓冲溢出阀值决定。因此，map与spill两个执行阶段的重叠时间与缓冲区溢出时剩余的空间、map函数每次执行的时间以及整个spill的次数有关。

其次，针对“(2)copy执行阶段、merge执行阶段”，如图8所示，由于shuffle的过程非常复杂，多个线程可能同时执行，使用一般的性能模型很难去量化整个shuffle的实际执行时间，因此，本发明实施例中的性能模型使用多指针模拟法来预测shuffle的实际执行时间。

使用多个指针变量来记录不同线程的时钟状态，即该线程处理某个事件的起始与结束时间，如T_c、T_m和T_d分别为拷贝线程、内存缓存区合并线程和磁盘文件合并线程的时钟。当某个线程处理一次事件时，均会伴随着相关指针变量的更新，而当内存缓存区合并线程被唤醒去执行内存缓冲区的数据溢出事件时，在内存缓存区合并线程开始合并缓冲区数据之前，T_m更新为T_c与T_m的最大值，在内存缓存区合并线程完成合并缓冲区数据后，T_m更新为T_m与这次合并开销的总和，而一次内存缓冲区数据合并的开销与内存缓冲区溢出时数据大小有关。最终，当完成整个shuffle后，T_c、T_m与T_d的最大值即为整个shuffle的有效执行时间，也即，实际执行时间。

本发明实施例提供的大数据处理系统的配置参数确定方法，根据每个任务中各执行阶段的并行执行时间，确定每个任务中各并行执行时间的重叠时间，进而在每个作业执行时间中，去除每个任务中各并行执行时间的重叠时间，获取每个作业对应的实际执行时间。本发明的技术方案，通过利用高精度的性能模型来预测map、reduce任务中每个细粒度阶段的执行时间，以及预测多个并行执行阶段之间的重叠时间，能够准确的MapReduce Job在不同配置参数集合的实际执行时间，为筛选出最优的配置参数集合奠定了基础，加快了配置参数集合优化的效率。

下述为本发明提供的大数据处理系统的配置参数确定装置的实施例，可以用于执行本发明提供的大数据处理系统的配置参数确定方法。对于本发明大数据处理系统的配置参数确定装置实施例中未披露的细节，请参照本发明方法实施例中的记载。

图9为本发明提供的大数据处理系统的配置参数确定装置实施例一的结构示意图。本发明实施例提供的大数据处理系统的配置参数确定装置，包括：

作业执行时间获取模块91，用于通过改变配置参数集合中各配置参数的数值，获取大数据处理系统的N个作业对应的N个作业执行时间。

实际执行时间确定模块92，用于根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定大数据处理系统的N个作业对应的N个实际执行时间。

最优配置参数值确定模块93，用于从N个实际执行时间中确定出最优执行时间，并确定出该最优执行时间对应的各配置参数数值组成的配置参数集合。

本发明实施例提供的大数据处理系统的配置参数确定装置，可用于执行如图2所示大数据处理系统的配置参数确定方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本发明提供的大数据处理系统的配置参数确定装置实施例二的结构示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定装置的进一步说明。如图10所示，本发明实施例提供的大数据处理系统的配置参数确定装置，还包括：统计模块101和作业执行时间确定模块102。

该统计模块101，用于统计大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及确定各执行阶段所属的任务；

该作业执行时间确定模块102，用于根据各执行阶段所属的任务、以及各执行阶段的执行时间，确定每个作业对应的作业执行时间。

本发明实施例提供的大数据处理系统的配置参数确定装置，可用于执行如图4所示大数据处理系统的配置参数确定方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本发明提供的大数据处理系统的配置参数确定装置实施例三的结构示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定装置的进一步说明。如图11所示，本发明实施例提供的大数据处理系统的配置参数确定装置，还包括：配置参数组获取模块111和最优数值确定模块112。

该配置参数组获取模块111，用于按照预设原则将配置参数集合中的多个配置参数进行分类，得到多个配置参数组；

该最优数值确定模块112，用于依次对每个配置参数组进行优化，确定出每个配置参数组的最优作业执行时间，并确定配置参数组中最优作业执行时间对应的各配置参数的最优数值。

本发明实施例提供的大数据处理系统的配置参数确定装置，可用于执行如图5所示大数据处理系统的配置参数确定方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，在上述实施例提供的大数据处理系统的配置参数确定装置中，配置参数组中任意两个配置参数之间满足协同关系。

图12为本发明提供的大数据处理系统的配置参数确定装置实施例四的结构示意图。本发明实施例是在上述实施例的基础上对大数据处理系统的配置参数确定装置的进一步说明。如图12所示，在本发明实施例提供的大数据处理系统的配置参数确定装置中，上述实际执行时间确定模块92，包括：重叠时间确定单元121和实际执行时间确定单元122。

该重叠时间确定单元121，用于根据每个任务中各执行阶段的并行执行时间，确定每个任务中各并行执行时间的重叠时间。

实际执行时间确定单元122，用于在每个作业执行时间中，去除每个任务中各并行执行时间的重叠时间，获取每个作业对应的实际执行时间。

本发明实施例提供的大数据处理系统的配置参数确定装置，可用于执行如图6所示大数据处理系统的配置参数确定方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种大数据处理系统的配置参数确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

统计所述大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及确定各执行阶段所属的任务；

根据各执行阶段所属的任务、以及各执行阶段的执行时间，确定每个作业对应的作业执行时间。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照预设原则将所述配置参数集合中的多个配置参数进行分类，得到多个配置参数组；

依次对每个所述配置参数组进行优化，确定出每个所述配置参数组的最优作业执行时间，并确定所述配置参数组中所述最优作业执行时间对应的各配置参数的最优数值。

4.根据权利要求3所述的方法，其特征在于，所述配置参数组中任意两个配置参数之间满足协同关系。

5.根据权利要求1所述的方法，其特征在于，所述根据每个作业中各个任务包括的各执行阶段的执行时间以及各执行阶段的并行执行时间，确定所述大数据处理系统的所述N个作业对应的N个实际执行时间，包括：

根据每个任务中各执行阶段的并行执行时间，确定每个任务中各并行执行时间的重叠时间；

在每个所述作业执行时间中，去除每个任务中各并行执行时间的重叠时间，获取每个作业对应的实际执行时间。

6.一种大数据处理系统的配置参数确定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：统计模块和作业执行时间确定模块；

所述统计模块，用于统计所述大数据处理系统的每个作业中每个任务包括的各执行阶段的执行时间，以及确定各执行阶段所属的任务；

所述作业执行时间确定模块，用于根据各执行阶段所属的任务、以及各执行阶段的执行时间，确定每个作业对应的作业执行时间。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：配置参数组获取模块和最优数值确定模块；

所述配置参数组获取模块，用于按照预设原则将所述配置参数集合中的多个配置参数进行分类，得到多个配置参数组；

所述最优数值确定模块，用于依次对每个所述配置参数组进行优化，确定出每个所述配置参数组的最优作业执行时间，并确定所述配置参数组中所述最优作业执行时间对应的各配置参数的最优数值。

9.根据权利要求8所述的装置，其特征在于，所述配置参数组中任意两个配置参数之间满足协同关系。

10.根据权利要求6所述的装置，其特征在于，所述实际执行时间确定模块，包括：重叠时间确定单元和实际执行时间确定单元；

所述重叠时间确定单元，用于根据每个任务中各执行阶段的并行执行时间，确定每个任务中各并行执行时间的重叠时间；

所述实际执行时间确定单元，用于在每个所述作业执行时间中，去除每个任务中各并行执行时间的重叠时间，获取每个作业对应的实际执行时间。