CN111461286A

CN111461286A - 基于进化神经网络的Spark参数自动优化系统和方法

Info

Publication number: CN111461286A
Application number: CN202010045384.4A
Authority: CN
Inventors: 石宣化; 金海�; 李明玉; 胡振宇; 张一鹏; 宗玉芬
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-07-28
Anticipated expiration: 2040-01-15
Also published as: CN111461286B

Abstract

本发明公开了一种基于进化神经网络的Spark参数自动优化系统和方法，属于大数据处理系统性能优化领域。包括：收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，所述训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；使用训练集，采用遗传进化的思想训练神经网络模型，得到性能预测模型；使用性能预测模型，通过遗传算法搜索Spark最优配置参数。本发明采用进化神经网络，通过优化网络结构，使神经网络的结构尽可能简单，使用进化策略在现有的神经元中挑选优秀的作为下一代的起点，不断更迭。使用进化策略的神经网络能够更好地避免陷入局部最优，比起梯度下降，进化理论中的算法能够并行，大大减少训练时间。

Description

基于进化神经网络的Spark参数自动优化系统和方法

技术领域

本发明属于大数据处理系统性能优化领域，更具体地，涉及基于进化神经网络的Spark参数自动优化系统和方法。

背景技术

Apache Spark是当前应用最广泛的通用大数据处理系统，它是由加州大学伯克利分校AMP实验室设计并用于大规模数据处理的快速通用计算引擎，也是一个开源通用并行框架。Spark支持多种大数据应用，它提供了大量功能强大的库函数，包括SparkSQL、MLlib、GraphX、SparkStreaming等。在Spark中，不同的大数据应用程序对参数配置有不同的要求。即使在相同的大数据应用程序中，如果处理数据的规模不同，所需的参数配置也各不相同。

为了能兼顾各方面的应用，Spark提供了超过180个配置参数，并为每个参数设定了一个默认值。但是，Spark框架给出的默认配置往往只能保证作业能够开始执行，至于作业执行的效率和能否顺利执行完成作业并不关心。在如此大参数空间中，参数间的交互复杂，手工调节参数既费时又费力。此外，手工参数调优要想取得良好的效果，还需要系统管理人员熟练掌握Spark的底层框架知识和内部运行机制。由于Spark的手工参数调优存在诸多限制，因此设计一种对Spark参数的自动调优方法尤为重要。

由于手工调节Spark配置参数有诸多不便，Spark配置参数自动优化问题引起了大量学者的研究兴趣。之前的研究工作可以分为两类：基于搜索的方法和基于机器学习的方法。

基于搜索的方法是将Spark的配置参数优化看作一个黑盒优化问题，根据特定的规则探索最优的参数配置。例如：BestConfig方法中通过Divide-and-Diverge Sampling(DDS)和Recursive Bound-and-Search(RBS)算法，在给定的Spark集群资源下探索最优的配置参数。基于搜索的方法适用于多种大数据框架的参数优化问题，不需要深入了解框架相关知识，但需要大量的时间对样本进行统计分析和迭代搜索参数空间。

基于机器学习的方法分为三个阶段：首先利用收集模型收集训练数据；其次利用训练数据和不同的机器学习算法训练出性能预测模型；最后搜索模型利用性能预测模型预测出每组配置的运行时间，使用搜索算法找到最优的参数配置组。例如，喻之斌等人提出了一个由层次建模(HM)和遗传算法(GA)组成的DAC系统来自动优化Spark配置参数，其中HM使用回归树算法创建。在基于机器学习的方法中，只需要考虑应用程序的配置和执行时间，而忽略内部运行流程的细节。因此，此方法可用于多个框架的参数调优。然而，要找到一种机器学习算法来创建一个高精度且结构简单的性能预测模型比较困难。

发明内容

针对现有技术中基于搜索的方法中的花费大量时间迭代搜索Spark配置参数空间，基于机器学习的方法中难找到高精度且结构简单的性能预测模型两个技术缺陷，本发明提供了基于进化神经网络的Spark参数自动优化系统和方法，它能够找到一个结构简单且精度高的性能预测模型，且在搜索模型中优化的遗传算法能够快速收敛。该系统的目的在于在Spark上实现配置参数的自动调优，对给定的工作负载，寻找到一组能充分利用现有的Spark集群资源的参数配置，有效提高Spark集群的整体性能。

为实现上述目的，按照本发明的第一方面，提供了一种基于进化神经网络的Spark参数自动优化系统，所述系统包括：

训练数据收集模块，用于收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，训练集中训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；

建模模块，用于使用训练集，采用遗传进化的思想训练神经网络模型，得到性能预测模型；

参数空间搜索模块，用于使用性能预测模型，通过遗传算法搜索Spark最优配置参数。

优选地，所述Spark配置参数通过以下方式获取：

(1)从Spark配置参数空间中选择N个目标配置参数；

(2)在各个目标配置参数的取值范围内，随机生成该目标配置参数的值；

(3)将选择的目标配置参数按照数值类型，分为整型目标配置参数集、浮点型目标配置参数集和布尔型目标配置参数集。

优选地，所述采用遗传进化的思想训练神经网络模型，得到性能预测模型的方式如下：

(1)种群P中每一个个体为一个神经网络，种群大小P_size为神经网络数量；

(2)固定输入层和输出层，随机选择隐藏层的每层神经元个数、网络层数、激活函数、优化器，搭建P_size个神经网络以初始化种群P；

(3)训练P_size个神经网络，得到每个神经网络的预测准确率，将P_size个神经网络按预测准确率排序，取预测准确率高的前

个神经网络作为种群下一代的父辈P＇；

(4)从P′任选m个网络，m为随机产生的整数，固定输入层和输出层，从m个神经网络中每一个神经网络任意选择一层作为隐藏层构建一个新神经网络，重复P_size次得到新的种群P″；

(5)重复步骤(3)～(4)，直到种群中80％的神经网络预测准确率超过90％结束循环，进入步骤(6)；

(6)选出当前种群中预测准确率最高的神经网络作为性能预测模型。

优选地，所述建模模块通过以下方式得到性能预测模型：

(1)将训练数据收集模块收集到训练集按照数据类型切分为三个子集TD_int、TD_float、TD_bool；

(2)利用进化神经网络分别训练三个性能预测子模型Model_int、Model_float、Model_bool；

(3)性能预测模型T_all＝l₁×T_int+l₂×T_float+l₃×T_bool，其中，l₁、l₂、l₃分别为Model_int、Model_float、Model_bool的系数，取值范围为[0，1]，且l₁+l₂+l₃＝1，通过线性规划得到，T_in、T_float、T_bool分别表示通过Model_int、Model_float、Model_bool预测出的运行时间。

优选地，所述遗传算法将随机变异操作替换为在Spark集群资源实际范围内做线性加法变异操作。

优选地，所述线性加法变异操作具体如下：

(1)在[0，N]范围内随机选择参数j；

(2)判断C_i[j]是布尔型、整型或是浮点型，如果是布尔型，进入步骤(3)；如果是整型，进入步骤(4)；如果是浮点型，进入步骤(5)，其中，C_i[j]表示第i组中第j个目标配置参数的值，i∈[1，K]，j∈[1，N]，K表示训练集中训练数据的数量；

(3)直接变异为相反的值；

(4)将变异位置的参数C_i[j]加上一个整型常量Cons_int，即C_i[j]＝C_i[j]+Cons_int，并判断新的C_i[j]是否超出设定的范围，若是，则C_i[j]＝C_i[j]-Cons_int，否则，C_i[j]保持不变；

(5)将变异位置的参数C_i[j]加上浮点型常量Cons_float，即C_i[j]＝C_i[j]+Cons_float，并判断新的C_i[j]是否超出设定的范围，若是，则C_i[j]＝C_i[j]-Cons_float，否则，C_i[j]保持不变。

优选地，Cons_int＝2，Cons_float＝0.2。

为实现上述目的，按照本发明的第二方面，提供了一种基于进化神经网络的Spark参数自动优化方法，所述方法包括：

S1.收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，所述训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；

S2.使用训练集，采用遗传进化的思想训练神经网络模型，得到性能预测模型；

S3.使用性能预测模型，通过遗传算法搜索Spark最优配置参数。

个神经网络作为种群下一代的父辈P′；

优选地，所述遗传算法将随机变异操作替换为在Spark集群资源实际范围内做线性加法变异操作；所述线性加法变异操作具体如下：

(1)在[0，N]范围内随机选择参数j；

(3)直接变异为相反的值；

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明采用进化神经网络，通过遗传进化思想优化网络结构，使神经网络的结构尽可能简单，使用进化策略在现有的神经元中挑选优秀的作为下一代的起点，不断更迭。使用进化策略的神经网络能够更好地避免陷入局部最优，比起梯度下降，进化理论中的算法能够并行，大大减少训练时间。

(2)本发明根据经验划定参数的范围，在给定的范围内随机生成参数组，这样能够最大程度地减少非法参数组，提高收集的训练数据质量。同时将参数根据数据类型的不同分为三种类型：整型，浮点型和布尔类型，简化了参数间复杂的相互作用。

(3)本发明使用了优化的遗传算法对Spark的参数空间进行搜索，得到最优的参数配置。本发明中的遗传算法结合了Spark的框架，对传统遗传算法中的关键操作做出优化，如变异操作和交叉操作，将算法调优的先验知识和遗传算法以及Spark框架紧密结合，提高搜索的效率。

(4)本发明松耦合于Spark框架，可作为一个独立的系统，用户不需要对Spark深入了解，就可以为运行在Spark上的作业提供一组至少优于默认配置的配置参数，具有很强的可移植性。

附图说明

图1为本发明实施例提供的基于进化神经网络(ENN)的Spark配置参数自动优化系统结构示意图；

图2为本发明实施例提供的参数空间搜索模块搜索最优的配置参数流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于进化神经网络的Spark参数自动优化系统，该系统包括：

训练数据收集模块，用于收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；

训练数据收集模块

训练数据收集模块能够在给定的范围内随机产生足够多的参数配置组，并且提交给Spark集群上运行后，收集这些不同配置下相同workload的运行时间，为建模模块提供训练数据。为了收集到不同配置下相同workload的运行时间，需要由几个主要的功能部件组成，每个功能部件各有不同的作用：

参数生成器：Spark的参数空间很大，不可能列举出每一组参数配置，只能结合硬件资源的实际情况，在允许的范围内采用随机采样的方法产生随机的参数配置C_i＝{c_i1,c_i2,…,c_iN}。每一组C_i中都包含选取的N个参数，对每个workload，每个C_i可得到一个对应的性能值t_i，t_i作为后续参数空间搜索模型中的度量一组配置的重要指标。

负载和配置提交器：将工作负载和参数配置打包提交给Spark集群执行，并收集各组配置参数和工作负载对应的执行时间。

数据集大小：Spark对作业的输入数据集的大小比较敏感，所以在收集训练数据的时候也将处理的数据集大小考虑在参数中。

优选地，Spark配置参数通过以下方式获取：

(1)从Spark配置参数空间中选择N个目标配置参数。

Spark有超过180个参数，部分参数对性能没有影响，不需要进行调优，所以，N的取值范围为[1,180]。本实施案例选择了对性能影响较大的21个常用参数，即N＝21。

(2)在各个目标配置参数的取值范围内，随机生成该目标配置参数的值。

根据先验知识给定参数的范围，在给定的范围内使用参数生成器随机生成参数组，C＝{C_int,C_float,C_bool,D_size}，其中，

为整型参数，

为浮点型参数，

为布尔型参数，D_size为数据集大小。

按照这些参数的取值类型将这N个参数分为3类：整型、浮点型、布尔型。它们的参数个数分别用N_int、N_float、N_bool表示，N_int+N_float+N_bool＝N。取值为字符串的参数可以抽象为整型。例如，spark.io.compression.codec的取值为：lz4、lzf、snappy，则可用整数1，2，3代替，这样能够简化参数间复杂的相互作用。

对同一个工作负载，同一个数据集(即D_size大小相同)，随机生成K组配置参数Conf＝{C₁,C₂,…,C_K}。将这这个工作负载和K组配置提交到Spark集群执行，每组配置C_i得到一个对应的执行时间t_i。其中，K的取值理论上越大越好，但K取值越大，Spark集群执行的时间越长，需要根据实际情况权衡，本实施案例中K＝1000。

将每一组参数配置和其对应的执行时间组成一个N+2维的向量TD_i＝{C_i,t_i}，即一组完整的训练数据。一个工作负载的所有训练数据可以表示为TD＝{TD₁,TD₂,…,TD_K}。

建模模块

使用进化神经网络(ENN)方法训练性能预测模型。能够利用训练数据收集模块收集的训练数据和进化神经网络训练出一个神经网络模型，该模型对任意一组输入的配置参数，在给定的作业负载上，预测出一个准确的作业运行时间，为参数空间搜索模型提供搜索依据。在本实施案例中，选取全连接的深度神经网络模型，采用遗传进化策略，对深度神经网络的层数、每层的神经元个数、每层神经网络使用的激活函数和优化器、以及训练过程中的学习率等进行遗传筛选，选择优秀的神经网络结构进行交叉和变异操作，不断更迭，找到精度高且尽可能简单的神经网络结构。使用进化策略的神经网络能够更好地避免陷入局部最优，比起梯度下降，进化理论中的算法能够并行可以大大减少训练时间。

优选地，采用遗传进化的思想训练神经网络模型，得到性能预测模型的方式如下：

(1)将种群设定为P，种群中每一个个体为一个神经网络，种群大小P_size＝800为神经网络数量。

(2)固定输入层和输出层，随机选择隐藏层的每层神经元个数、网络层数、激活函数、优化器，搭建P_size个神经网络初始化种群。

(3)训练P_size个神经网络，得到每个神经网络的预测准确率，将P_size个神经网络按预测准确率排序，取预测准确率高的前200个神经网络作为种群下一代的父辈P′。

(4)从P′任选m个网络，m为随机产生的整数，固定输入层和输出层，从m个神经网络中每一个神经网络任意选择一层作为隐藏层构建一个新神经网络，重复P_size次得到新的种群P″。

(5)重复步骤(3)～(4)，直到种群中80％的神经网络预测准确率达到0.9结束循环。

优选地，建模模块通过以下方式得到性能预测模型：

(3)性能预测模型T_all＝l₁×T_int+l₂×T_float+l₃×T_bool，其中，l₁、l₂、l₃分别为Model_int、Model_float、Model_bool的系数，取值范围为[0，1]，且l₁+l₂+l₃＝1，通过线性规划得到，T_int、T_float、T_bool分别表示通过Model_int、Model_float、Model_bool预测出的运行时间。

首先，定义公式性能公式：t＝f(r,d,w,c)，用它来衡量系统的性能，r代表计算平台的(硬件和软件)资源，d代表数据集大小，w代表作业类型，c代表参数配置，t代表作业执行时间。在相同软硬件环境下，对同一个作业，执行时间越少，通常就认为系统性能越好。由于算法模型本身的限制，得到的预测值往往和真实值有一定的差距，为了量化这个差距，定义错误率公式：

其中，t_all代表一个作业的预测执行时间，t_real代表作业的实际执行时间，err代表了两者之间的相对差异，err越小，表示模型的预测执行时间越接近实际执行时间，即预测模型越精确。

参数空间搜索模块

参数空间搜索模块能够利用改进的遗传算法来搜索Spark的参数空间，为给定的工作负载搜索到最优的配置参数。大数据处理框架Spark有超过180个参数，在如此巨大的参数空间中，无法使用枚举的方法来列出所有参数组合。因此，需要使用启发式算法在参数空间中搜索最优解。在搜索模块中，先使用训练数据收集模块中的参数生成器生成参数配置，即初始化种群，然后利用性能预测模块中训练的性能预测模型计算出种群的适度值，根据适度值，使用遗传算法中的选择操作来选择下一代。对选择的个体进行交叉和变异操作，再次使用性能预测模型预测得到的新种群的适度值，继续新一轮的选择、交叉、变异操作，直到循环结束，得到最优的参数组合。

如图2所示，首先用参数生成器生成M组配置，初始化种群P＝{C₁,C₂,…,C_M}，使用性能预测模型Model预测出每一组配置C_i的执行时间t_i，然后利用轮盘赌算法计算出每一组配置C_i的适度值f_i。按照适度值从大到小排序种群P，选择前n个配置进行交叉和变异操作。得到新种群P′＝{C′₁，C′₂，...，C_M′，}，再利用预测模型Model预测出每一组配置C_i′的执行时间t_i′，计算适度值f_i′，再次进行交叉和变异操作。循环上述操作直到找到满足条件的最优的配置C_optimal。

优选地，遗传算法将随机变异操作替换为在Spark集群资源实际范围内做线性加法变异操作，以便能充分利用Spark集群资源，提高系统性能。在变异操作中，修改了传统遗传算法中的随机变异操作，在资源的实际数量范围内做线性加法变异操作，这个优化操作能够加快遗传算法的收敛，同时能够使得到的参数配置充分利用现有的Spark集群资源。

优选地，线性加法变异操作为：

(1)在[0，N]范围内随机选择参数j；

(3)直接变异为相反的值；

在本实施案例中，Cons_int＝2，Cons_float＝0.2。用参数生成器生成M＝3000组配置，初始化种群P＝{C₁，C₂，...，C_M}，即种群大小为M＝3000，使用性能预测模型Model预测出每一组配置C_i的执行时间t_i，然后利用轮盘赌算法计算出每一组配置C_i的适度值f_i。按照适度值从大到小排序种群P，选择前

个配置进行交叉和变异操作。得到新种群P′＝{C′₁,C′₂,...,C_M′}，再利用预测模型Model预测出每一组配置C_i′的执行时间t_i′，计算适度值f_i′，再次进行交叉和变异操作。设定循环次数Loop＝800，循环上述操作找到的最优的配置C_optimal。

对应地，本发明提供了一种基于进化神经网络的Spark参数自动优化方法，该方法包括：

S1.收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于进化神经网络的Spark参数自动优化系统，其特征在于，所述系统包括：

2.如权利要求1所述的系统，其特征在于，所述Spark配置参数通过以下方式获取：

(1)从Spark配置参数空间中选择N个目标配置参数；

3.如权利要求1或2所述的系统，其特征在于，所述采用遗传进化的思想训练神经网络模型，得到性能预测模型的方式如下：

个神经网络作为种群下一代的父辈P′；

4.如权利要求1至3任一项所述的系统，其特征在于，所述建模模块通过以下方式得到性能预测模型：

5.如权利要求2所述的系统，其特征在于，所述遗传算法将随机变异操作替换为在Spark集群资源实际范围内做线性加法变异操作。

6.如权利要求5所述的系统，其特征在于，所述线性加法变异操作具体如下：

(1)在[0，N]范围内随机选择参数j；

(3)直接变异为相反的值；

7.如权利要求6所述的系统，其特征在于，Cons_int＝2，Cons_float＝0.2。

8.一种基于进化神经网络的Spark参数自动优化方法，其特征在于，所述方法包括：

S1.收集不同Spark配置参数下相同Spark应用程序的运行时间，得到训练集，训练集中训练数据包括：Spark配置参数、Spark应用程序的输入数据集大小和对应运行时间；

9.如权利要求8所述的方法，其特征在于，所述采用遗传进化的思想训练神经网络模型，得到性能预测模型的方式如下：

个神经网络作为种群下一代的父辈P′；

10.如权利要求8或9所述的方法，其特征在于，所述遗传算法将随机变异操作替换为在Spark集群资源实际范围内做线性加法变异操作；所述线性加法变异操作具体如下：

(1)在[0，N]范围内随机选择参数j；

(3)直接变异为相反的值；