CN114116151A

CN114116151A - 一种基于先验知识的大数据框架配置参数优化方法

Info

Publication number: CN114116151A
Application number: CN202010869609.8A
Authority: CN
Inventors: 陈超; 喻之斌
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-03-01

Abstract

本发明公开了一种基于先验知识的大数据框架配置参数优化方法，该方法包括：从大数据框架适应的任务分布中选择多种类型任务，在不同参数配置下执行，获得不同类型任务运行时间和配置参数之间的关联关系；根据关联关系选择资源相关的配置参数，构建为先验配置集，对所述先验配置集进行初始化，并通过改变所述先验配置集中各参数的取值以及改变大数据框架的计算能力，获得最小运行时间；基于所述最小运行时间确定任务运行的期望时间，作为控制后续任务运行终止的约束，并根据任务运行结果动态更新所述期望时间；在所有运行成功的任务中，找到运行时间最短的任务对应的配置参数，作为最优配置。本发明通过对小样本优化提升了大数据处理的性能。

Description

一种基于先验知识的大数据框架配置参数优化方法

技术领域

本发明涉及大数据处理技术领域，更具体地，涉及一种基于先验知识的大数据框架配置参数优化方法。

背景技术

近年来，随着大数据应用的普及，大数据通用并行框架得到了越来越多的重视。例如Hadoop框架使用MapReduce模型，通过分布式系统架构可以使用不同节点的资源进行大规模并行计算。Spark框架进一步扩展了MapReduce模型，与Hadoop相比，它将很多数据保存在内存中进行计算，减少了非常耗时的输入输出操作，因此显著提升了大数据处理速度，得到了广泛应用。

以Spark为例，Spark并行运算框架需要将任务分配到计算节点上进行运算。不同的任务需要配合不同的资源来完成，例如某些任务进行数据的快速处理，需要使用大量处理器资源；而某些任务运行过程中产生较多的临时数据，需要使用大量的内存。因此，对不同的任务需要使用不同的配置参数进行运行。

现有的Spark配置参数优化方法生成不同配置参数并使用这些参数得到运行结果，然后通过机器学习方法利用运行结果进行训练，进而找到其中最优的一组配置参数。具体而言，现有的Spark配置参数优化方法需要对每个新程序多次生成配置参数，然后使用这些配置参数运行任务，从而得到在不同配置参数情况下的任务执行时间。进一步地，通过机器学习算法，用得到的任务时间和对应的配置参数作为训练样本，通过大规模样本训练，得到配置参数和任务执行时间的关系，从而找到最优的一组配置。现有的机器学习法，需要大量的训练样本，而运行Spark进行大数据处理时，完成一次任务所需的时间有时候非常长(长达数小时甚至更长时间)，因此收集训练样本的过程非常耗时。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于先验知识的大数据框架配置参数优化方法，其是针对大数据处理框架，进行配置参数小样本优化的新技术方案。

本发明的技术方案是，提供一种基于先验知识的大数据框架配置参数优化方法，该方法包括以下步骤：

从大数据框架适应的任务分布中选择多种类型任务，在不同参数配置下执行，获得不同类型任务运行时间和配置参数之间的关联关系；

根据所述关联关系选择资源相关的配置参数，构建为先验配置集，对所述先验配置集进行初始化，并通过改变所述先验配置集中各参数的取值以及改变大数据框架的计算能力，获得最小运行时间；

基于所述最小运行时间确定任务运行的期望时间，作为控制后续任务运行终止的约束，并根据任务运行结果动态更新所述期望时间；

在所有运行成功的任务中，找到运行时间最短的任务对应的配置参数，作为最优配置。

与现有技术相比，本发明的优点在于，对于典型的大数据处理任务，通过多次运行找到较关键的参数，并将这些参数作为先验知识，进而在处理新的任务时，将先验知识用于初始化参数并运行任务。根据每次任务运行时间，得到一个新的期望时间，并将该期望时间作为后续运行时的最大准许运行时间。本发明利用先验知识，能够显著缩短初始化时间，并且在运行过程中，使用期望时间能够避免出现过长时间的任务。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于先验知识的大数据框架配置参数优化方法的流程图；

图2是根据本发明一个实施例的基于先验知识的大数据框架配置参数优化方法的过程示意；

图3是根据本发明一个实施例的搜索最优配置所花费的时间示意；

图4是根据本发明一个实施例的使用最优配置所得到的任务执行时间示意；

图5是根据本发明一个实施例的修改期望时间的设置a，比较在a取不同值情况下的搜索时间和最优性能的比值。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明应用大数据处理框架包括但不限于Hadoop、Flink和Spark等。为清楚起见，下文将以Spark平台为例进行说明。

结合图1和图2所示，该实施例提供的基于先验知识的大数据框架配置参数优化方法包括以下步骤：

步骤S110，对于多种典型类型的任务，在不同配置参数下多次运行，以获得不同类型任务运行时间和配置参数之间的关联关系。

在此步骤中，从Spark适应的任务分布中，选择几种不同的典型Spark程序进行分析并把分析结果作为先验知识。

现有的Spark程序可以处理各种各样不同的任务，如常规数据处理任务、数据库相关任务、人工智能算法任务等。例如，使用排序任务、数据库扫描任务和贝叶斯分类等多种类型的任务，在不同参数配置情况下多次运行，分析第i次运行时间t_i和对应的配置参数＜c_1,i,C_2,i,…＞之间的关系，其中c_m,i代表第i次运行时的第m个参数。

在一个实施例中，对于每种类型的任务，任务运行时间和配置参数之间的关联关系包括线性相关度、非线性相关度或二者的组合。

例如，在进行分析时，将运行时间和配置参数之间的关联关系表示为：

R(t,c)＝|PCC(t,c)|+MIC(t,c) (1)

其中t表示运行时间，c表示配置参数，PCC表示皮尔森相关系数，用于度量运行时间和配置参数之间的线性相关度，MIC表示最大互信系数，用于度量运行时间和配置参数之间的非线性相关度。

利用公式(1)可以得到不同类型任务的运行时间和各配置参数之间的相关度，并将相关度按照大小进行排列。通过这种方式，能够选出对性能影响大的参数，例如，经分析发现，资源相关的配置参数(如内存使用率等)对于性能影响非常大，每个参数在数值增大时对有些任务性能增加，而对有些任务性能降低，因此需要考虑数值增大和减少两个方面。

在此步骤S110中，将Spark典型程序的特性作为先验知识，能够快速找到对性能影响程度大的配置参数，而现有的Spark配置参数优化算法是根据每个任务收集大量样本进行训练，并没有将Spark典型程序的特性作为先验知识进行运用。

步骤S120，根据所述关联关系选择资源相关的配置参数，构建为先验配置集，对所述先验配置集进行初始化，并通过改变所述先验配置集中各参数的取值和改变大数据平台的计算能力，获得最小运行时间。

在获得先验知识后(即任务运行时间和配置参数之间的关联关系)，将先验知识得到的资源相关配置参数进行初始化，即对构建的先验配置集进行初始化。

具体地，首先对于先验配置集，将所有资源最大化配置进行运行，然后改变内存使用率参数，将其增加和减少分别运行，最后改变每个执行器的核数和内存大小，尝试在每个计算节点上同时使用多个执行器运行任务。在此过程中，得到的最小运行时间为T。

在此步骤S120中，对于利用先验知识获得的先验配置集进行初始化，能够显著缩短初始化的过程，与现有的机器学习使用大量训练样本相比，显著节省了搜索时间。

步骤S130，运行任务，并基于所述最小运行时间确定任务运行的期望时间，作为控制后续任务运行终止的约束。

例如，将期望时间设置为T*a，其中0<a≤1。获得期望时间之后，将该期望时间作为下次任务运行时的最大准许时间，超过该最大准许时间的任务自动终止，这样可以有效避免出现个别任务运行时间过长的情况。

进一步地，对于任务成功运行后得到新的运行时间T，如果该新的运行时间小于存储的最小运行时间，则更新期望时间，将新的期望时间设置为T*a。

在实际应用中，可以通过调节参数a，在最优配置的搜索时间和性能之间找到平衡，a值越小，搜索时间越短，但是最优性能会变差。因此，通过调节a的值，可以使用户在搜索时间和最优性能找到适合的点。

在此步骤中，利用期望时间控制任务是否终止，从而减小每次任务运行的时间。需说明的是，利用最小运行时间也可设计其他形式的期望时间，如T*b²等。

步骤S140，利用设定的约束条件判断是否结束执行任务。

例如，每执行完一个任务，都判断一下是否执行完毕。如果任务执行数量达到用户设置数，则退出执行任务，否则继续执行任务。

步骤S150，根据任务运行结果，选择最优配置参数。

在退出任务执行之后，在所有运行成功的任务中找到运行时间最短的任务，该任务对应的配置即为最优配置，该最优配置对应的大数据处理框架的性能在本文中也称为最优性能。

为进一步验证本发明的可行性和效果，进行了实验。具体地，通过使用HiBench的基准任务，对Spark框架下的任务进行最优配置搜索。实验中，比较了HiBench中所有19个Spark数据处理任务(如sort指排序任务、Scan指数据库扫描任务，在此不再一一赘述)，对于每个任务进行小样本搜索最优配置，样本数量设置为30。

图3表示的是搜索最优配置所花费的时间，其中A代表本发明的方法，进行期望时间的设置时使用a＝1；CherryPick代表现有的通过贝叶斯优化和高斯过程进行小样本搜索的方法；RL代表现有的一种增强学习进行最优配置搜索的方法。可以看出，本发明的平均搜索速度分别是CherryPick和RL的2.39和1.68倍，显著减小了最优配置的搜索时间。

图4表示的是使用最优配置所得到的任务时间。可以看到，三种方法得到的最优任务时间非常接近，本发明得到的平均任务时间分别比CherryPick和RL减少3％和8％，并没有因为搜索时间短而牺牲性能。

图5表示的是修改期望时间的设置a，将a＝1的情况作为基准值，比较在a取不同取值情况下本发明的搜索时间和最优性能的比值。可以看出，当a值比较小时，搜索时间也比较短，但是最优性能比较差。通过调整a的值，可以让用户灵活地平衡最优配置和最优性能。

综上所述，本发明提出了先验知识的确定，通过分析典型的Spark任务，得到对于性能优化比较重要的参数，并将这些参数作为先验知识。对于每个新的任务，首先运用先验知识进行初始化，然后随机生成配置参数并运行任务。每次运行任务时可以得到一个期望时间，将该期望时间作为下次任务运行时的最大准许运行时间。相对于采用大量训练样本的现有机器学习方法，本发明提供的基于先验知识的小样本优化方法，参数简单、易于调节，依赖小样本的优化提升了大数据平台的处理性能并且缩减的最优配置的搜索时间。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于先验知识的大数据框架配置参数优化方法，包括以下步骤：

2.根据权利要求1所述的方法，其中，将所述期望时间设置为T*a，其中0<a≤1，T是获得的最小运行时间。

3.根据权利要求1所述的方法，所述关联关系用于表征任务运行时间和配置参数之间的线性相关度、非线性相关度或二者的组合。

4.根据权利要求1所述的方法，根据以下步骤获得不同类型任务运行时间和配置参数之间的关联关系：

选择多种类型的任务，在不同配置情况下多次运行，分析第i次运行时间t_i和对应的配置参数<c_1,i,c_2,i,…>之间的关系，其中c_m,i代表第i次运行时的第m个参数；

根据运行结果，确定任务运行时间和配置参数之间的相关度R(t,c)，t表示运行时间，c表示配置参数。

5.根据权利要求4所述的方法，其中，将任务运行时间和配置参数之间的相关度R(t,c)表示为：

R(t,c)＝|PCC(t,c)|+MIC(t,c)

t表示运行时间，c表示配置参数，PCC表示皮尔森相关系数，MIC表示最大互信系数。

6.根据权利要求1所述的方法，其中，对所述先验配置集进行初始化，并通过改变所述先验配置集中各参数的取值以及改变大数据框架的计算能力获得最小运行时间包括：

对于所述先验配置集，将资源最大化配置进行运行，并改变内存使用率参数，将其增加和减少分别运行；

改变每个执行器的核数和内存大小，并尝试在每个计算节点上同时使用多个执行器运行任务，进而获得所述最小运行时间。

7.根据权利要求1所述的方法，其中，所述大数据框架包括Hadoop、Spark和Flink。

8.根据权利要求2所述的方法，其中，根据所述最优配置的搜索时间和所述最优配置对应的处理性能设定a的取值。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。