CN109828836A

CN109828836A - 一种批量流式计算系统参数动态配置方法

Info

Publication number: CN109828836A
Application number: CN201910050828.0A
Authority: CN
Inventors: 梁毅; 曾绍康; 苏醒; 于泽群; 梁岩德; 伍佳名; 丁治明
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-20
Filing date: 2019-01-20
Publication date: 2019-05-31
Anticipated expiration: 2039-01-20
Also published as: CN109828836B

Abstract

本发明公开了一种批量流式计算系统参数动态配置方法，包括：样本收集、模型构建、最优方案生成、在线匹配和参数优化；其中，样本收集、模型构建和最优方案生成在后台阶段完成；在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小，选取对应用性能影响较大的核心参数集；在参数约简的前提下，选取支持向量回归方法构建应用性能模型，该模型可量化评估给定数据到达速率和相关参数配置下，数据处理的响应延迟性能；在性能建模的基础上，选取启发式遗传算法，在较大的解空间中快速搜索优化配置方案。

Description

一种批量流式计算系统参数动态配置方法

技术领域

本发明属于分布式计算领域，具体涉及批量流式计算系统的参数配置与优化方法。

背景技术

互联网、物联网的发展驱动大数据时代的到来。流式数据是大数据的一类重要数据形态，并随着社交网络等应用的发展，占据越来越高的比重。流式数据被定义为一系列海量、高速、持续到达的数据序列，是随着时间无限增长的动态数据集合。波动性是流式数据的核心特征：数据的产生完全由数据源确定，不同数据源的动态变化导致数据产生速率呈现波动变化，即前一时刻和后一时刻数据速率可能有很大的差异。

大数据流式计算是针对流式数据的数据处理技术。批量流式计算(batchedstream processing model)是一类重要的大数据流式计算模型。批量流式计算系统将流式数据的处理划分为三个阶段：数据接收、数据划分和数据计算。其中，数据接收是从以数据单元为粒度，按照系统设定的接收速率从数据源接收流式数据；数据划分则是指按照一定的数据块划分间隔，将连续的流式数据单元划分为离散的数据块，并按照一定的批次划分间隔按序将数据块封装为数据批次；数据计算则是指将形成的数据批次提交至批处理计算引擎的调度队列，最终以作业的形式进行数据的并行计算。批量流式计算系统可充分利用内存数据快速读取能力，以及批处理计算引擎的并行计算能力，从而获得近实时的数据单元处理响应，因此被广泛使用。数据处理响应延迟(data process latency)是批量流式计算系统的主要性能目标，响应延迟可定义为数据单元从到达系统到处理完毕所经过的时间。

参数配置是批量流式计算系统优化数据处理响应延迟的主要手段之一。参数配置是指在应用运行前或运行过程中，通过设置或修改系统提供的配置参数优化数据处理的延迟性能。在一定的资源分配下，改变参数配置对系统延迟性能具有较大的影响。目前，既有参数配置可分为两类，静态配置和动态配置。静态配置是指在批量流式计算应用运行前，根据应用运行语义和数据源特征，为应用一次性配置相关系统参数，且在应用运行过程中不再改变。动态配置是指在应用运行过程中，针对流式数据负载的波动性，改变系统参数的设置，从而保障在不同数据到达速率下的数据响应延迟。

然而，既有工作运用于实际生产型平台尚存在如下不足：

静态配置是目前批量流式计算系统提供的缺省方式，其优势是简单、成本低；缺点是不能适应流式数据天然的波动性特征。针对此缺点，动态配置被提出，但目前的动态配置只集中于数据划分阶段。而事实上，其它两个阶段的参数配置对性能也有重要影响：例如，随着批量流式计算系统数据计算阶段的参数值的降低，响应延迟会增加。显然，现有的工作只局限于数据划分阶段参数的动态配置，导致了性能调优灵活性的降低；另外，各阶段的参数存在依赖关系：例如，随着批量流式计算系统数据计算阶段的参数值的增加，数据批次划分间隔的最优值会降低。可见，现有的优化工作健壮性也较差，即现有对数据划分阶段的优化方案会由于数据接收或者数据计算阶段的参数改变而失效。综上所述，应将不同阶段参数协同配置，构建一体化的参数配置方法。

发明内容

针对上述问题，本发明提出一种覆盖数据处理全生命周期的批量流式计算系统参数动态配置方法。该方法使用机器学习及启发式优化理论工具，可对数据接收、数据划分和数据计算阶段的相关参数进行协同优化配置。本发明所提出的方法将批量流式计算系统参数动态配置分为两个阶段：后台阶段和在线阶段。后台阶段在流式应用运行过程中周期性执行。在后台阶段，周期性根据不断累积的历史样本数据，评估不同数据到达速率及参数配置下数据处理的响应延迟，并依据用户的响应延迟需求为流式应用在每一种数据到达速率下选取优化参数配置，构建优化配置方案集。在线阶段则在流式应用数据到达速率发生变化时执行。在在线阶段，根据实时数据到达速率，从优化配置方案集中快速选取目标方案并进行参数调优，从而满足批量流式计算系统数据响应延迟保障的实时性需求。

本发明所述的批量流式计算系统参数动态配置方法主要分为六个步骤：核心参数选取、样本收集、模型构建、最优方案生成、在线匹配和参数优化。其中，核心参数选取在应用运行之前模拟测试；样本收集、模型构建和最优方案生成步骤在后台阶段完成；在线匹配和参数优化步骤于在线阶段完成。本发明做如下假设：1)外部数据源的数据到达符合泊松分布；2)网络带宽足够。在本方法中，有几个基本的参数：收集样本的批次数的阈值Nb_max、预测函数拟合次数阈值Ct_max、种群中个体数阈值Np_max、进化次数阈值Cp_max、样本收集周期t。

上述方法在计算机上按照以下步骤实现：

(1)核心参数选取

本步骤在后台阶段一次性执行，以选取对批量流式计算系统性能影响较大的参数集合；

1.1)令核心参数集合为PC。初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA，PA＝{pa_i|1≤i≤n}；

1.2)选取低、中、高三种数据到达速率，分别表示为λ_l、λ_m、λ_h。对于每一个pa_i∈PA，执行步骤1.2.1)～1.2.4)；

1.2.1)在pa_i取值范围内随机选取k个值，表示为V＝{v_j|1≤j≤k}。其余参数在缺省的情况下，分别在数据到达速率为λ_l、λ_m、λ_h下，依次选取V中的数值v_j进行k次流式应用模拟实验，获取相应的数据处理响应延迟集合LL＝{ll_j|1≤j≤k}、LM＝{lm_j|1≤j≤k}、LH＝{lh_j|1≤j≤k}；

1.2.2)利用公式(1)～(3)，分别计算λ_l、λ_m、λ_h三种数据到达速率下，pa_i与批量流式计算系统性能的皮尔森相关系数r_l、r_m、r_h；

1.2.3)利用公式(4)计算pa_i的平均皮尔森相关系数

1.2.4)若且显著性检验的p值小于0.05，则设置PC←PC∪{pa_i}；

(2)样本收集

本步骤于后台阶段在应用运行过程中周期性执行；

2.1)依据步骤(1)选取的核心参数集合PC＝{pc_i|1≤i≤N}，令样本表S表示为S＝{s_m|s_m＝(λ_m，v_1m，v_2m，...，v_Nm，tc_m)，tc_m＝l_m-tb_m，1≤m≤D}，其中，m为样本数据编号，D为样本数据总数，λ_m为第m个样本的数据到达速率，v_1m，v_2m，...，v_Nm为第m个样本对应核心参数pc₁,pc₂，...pc_N的值，tc_m为第m个样本的数据计算时间，是由数据处理响应延迟l_m减去批次划分间隔tb_m得到的；

2.2)令Nb为批量流式计算系统当前收集样本的批次数，设置Nb＝0；

2.3)从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc₁，pc₂，...pc_N的值、数据处理响应延迟和批次划分间隔，分别表示为λ′、v₁′，v₂′...，v_N′、l′、tb′；

2.4)遍历样本表S，若满足λ_m＝λ′，v_1m，v_2m，...，v_Nm＝v₁′，v₂′，...，v_N′，则利用公式(5)求取两个样本数据计算时间的均值并设置否则，设置S←S∪{(λ′，v₁′，v₂′，...，v_N′，l′-tb′)}；

2.5)Nb←Nb+1，若Nb＝Nb_max，则执行步骤(3)；否则，执行步骤2.3)；其中，Nb_max为批量流式计算系统收集样本的批次数的阈值；

(3)模型构建

3.1)定义训练样本集T，初始化定义测试样本集F，初始化对每一个s_m∈S中的λ_m、v_1m，v_2m，...，v_Nm作Z-score标准化处理，处理后得到的数值构成新的元组(λz_m，vz_1m，vz_2m，...，vz_Nm)。对于每一个元组(λz_m，vz_1m，vz_2m，...，vz_Nm)，在(0，10]内随机生成正整数r，若r≤8，设置T←T∪{(λz_m，vz_1m，vz_2m，...，vz_Nm)，tc_m}；否则，设置F←F∪{(λ_m，v_1m，v_2m，...，v_Nm)，tc_m}；

3.2)构建的性能模型表示为f：(λ，pc₁，pc₂，...pc_N)→tc。对T中样本(x₁，y₁)，(x₂，y₂)，...，(x_|T|，y_|T|)，x_i＝(λz_i，vz_1i，vz_2i，...，vz_Ni)(1≤i≤|T|)，y_i＝tc_i(1≤i≤|T|)，设回归函数为式(6)。其中，w和b是待确定的参数，φ(x)表示一个非线性变换。令Ct为性能模型当前训练次数，设置Ct←0；

f(x)＝w^Tφ(x)+b (6)

3.3)利用支持向量回归方法解决上述回归预测问题，等价于求解式(7)。

其中，C为大于0的常数，ξ_i、ξ_i ^*为松弛变量。利用拉格朗日函数和对偶原理，可以得到式(8)的对偶问题。

其中，Q_i，j＝φ^T(x_i)φ(x_j)，I＝[1，...，1]^T，α、α^*为拉格朗日乘子。求解此二次型规划可求得α的值，同时求得

利用KKT(Karush-Kuhn-Tucker)条件计算出常值偏差b，即

根据上述推导可得回归函数f(x)的表达式为式(11)。

其中，K(x，x_i)＝φ^T(x)φ(x_i)为一个核函数。利用式(12)径向基函数核函数实现；

K(x_i，x_j)＝exp(-γ||x_i-x_j||²)，γ＞0 (12)

3.4)对F中样本，(x₁，y₁)，(x₂，y₂)，...，(x_|F|，y_|F|)，x_l＝(λ_l，v_1l，v_2l，...，v_Nl)(1≤l≤|F|)，y_l＝tc_l(1≤l≤|F|)，利用公式(13)计算平均误差

3.5)若则模型构建成功，执行步骤4.1)；否则，执行步骤3.7)；

3.6)Ct←Ct+1，若Ct＞Ct_max，则构建失败，执行步骤(7)；否则，执行步骤3.7)；其中，Ct_max为预测函数拟合次数阈值；

3.7)调整核函数参数γ，设置f(x)中γ←0.9γ，执行步骤3.4)；

(4)最优方案生成

4.1)令性能预测表为R，初始化令最优参数配置方案表为B，初始化

4.2)令流式应用的数据到达速率最小值为λ_l，最大值为λ_h，选取速率步长为step_λ，则选取的离散化数据到达速率集合如式(14)；

4.3)对核心参数集合PC＝{pc_i|1≤i≤N}中每一个pc_i，令参数取值范围为[dl_i，dh_i]，选取步长step_i，则选取的核心参数pc_i的离散化取值集合如式(15)；

4.4)对于每一个λ_i∈Λ，遍历所有的核心参数取值的组合形如d₁，d₂，...，d_N(d_i∈D_i)，利用步骤(3)构建的性能模型求取在该核心参数设置下的数据处理时间设置

4.5)给定数据到达速率，生成最优参数配置方案的目标函数可被定义如公式(16)；其中约束条件定义为处理响应延迟限制，tb为批次划分间隔；

min(tb+tc)

s.t.tc≤tb≤1.2tc (16)

4.6)利用遗传算法解决上述问题。对于每一个选取的数据到达速率离散值λ_i∈Λ，执行步骤4.6.1)～4.6.10)；

4.6.1)定义种群个体p_k＝(g_1k，g_2k，...，g_Nk)，其中g_ik表示为一个基因，则每个个体即一条染色体共有N个基因。定义种群集合P，初始化定义当前种群中个体数Np，初始化Np←0。定义当前进化次数Cp，初始化Cp←0；

4.6.2)若满足λ_m＝λ_i，编码d_1m，d_2m，...，d_Nm为染色体ch＝(d_1m，d_2m，...，d_Nm)，设置P←P∪{ch}；

4.6.3)Np←Np+1，若Np＝Np_max，则初始化种群结束，执行步骤4.6.4)；否则，继续添加个体，执行步骤4.6.2)；其中，Np_max为初始种群中个体数阈值；

4.6.4)对于每一个p_k∈P，遍历性能预测表R，若满足d_1m＝g_1k，d_2m＝g_2k，...，d_Nm＝g_Nk，定义利用公式(17)，计算该个体的适应度；

4.6.5)定义备选父母集合为PT，初始化对P按个体适应度由大到小排列，选取适应度排名前50％的个体组成P′，设置PT←P′，p←p-P′；

4.6.6)在PT中随机选择两个个体ft、mt作为父母，于[1，N]内随机生成正整数c。然后选取ft中基因下标1至c的基因，在mt中自下标c+1开始从左至右选取所有的基因，将其组合为子代sn的基因。sn表示为式(18)，其中，sg_i为sn第i位基因，fg_i为ft第i位基因，mg_i为mt第i位基因；

sn＝(sg₁，sg₂，...，sg_N)

4.6.7)在[1，N]内随机生成正整数t，再于[1，100]内随机生成正整数pm。若pm≤15，则对于sn的基因sg_t，将其替换为相应参数合理取值范围的任意值μ，即设置sg_t←μ；

4.6.8)P←P∪{sn}，若|P|＝Np_max，执行步骤4.6.9)；否则，执行步骤4.6.6)；

4.6.9)Cp←Cp+1，若Cp＝Cp_max，执行步骤4.6.10)；否则，执行步骤4.6.5)；其中，Cp_max为进化次数阈值；

4.6.10)定义best为P中适应度最大的个体，设置B←B∪{(λ_i，best)}；

(5)在线匹配

5.1)定义参数配置方案为C，初始化

5.2)当批量流式计算应用的一个批次结束后，从既有组件采集数据到达速率λ_c；

5.3)令λ_c除以step_λ向下取整的值为v，令u＝λ_c％step_λ，其中step_λ为数据到达速率选取步长。利用公式(19)，将λ_c映射到离散值λ_d；

5.4)若满足λ_i＝λ_d，C←(b_1i，b_2i，...，b_Ni)；否则，执行步骤(7)；

(6)参数优化

6.1)依据参数配置方案C＝(b_1i，b_2i，...，b_Ni)，对元组中每一个b_ni(1≤n≤N)，从批量流式系统相应组件中更新核心参数pc_n的值为b_ni；

(7)回溯：判断应用程序是否结束，是则跳转至步骤(8)；否则判断是否时间达到样本收集周期t，是则跳转至步骤2.2)，否则跳转至步骤(5)；

(8)结束：中止对批量流式系统的参数动态配置。

为了实现上述方法，本发明在批量流式计算系统每个计算节点上增设样本收集模块，用于周期性地获取当前批次的数据到达速率、每个核心参数信息以及数据处理响应延迟。本发明将样本收集模块所获取的信息构成发明步骤(2)中样本元素的值；为了实现该方法，本发明在批量流式计算系统中增设方案生成模块，用于对样本数据集构建性能模型(步骤(3))，生成性能预测表，最后得到最优方案表(步骤(4))；为了实现该方法，本发明在批量流式计算系统中增设在线匹配模块，通过将当前批次的数据到达速率映射为离散值，匹配最优方案表中相应的参数方案(步骤(5))；为了实现该方法，本发明在批量流式计算系统中对每个核心参数增设参数更新模块，根据在线匹配模块获取的参数配置方案，更新最优值(步骤(6))。

附图说明

图1为本发明方法所依附的批量流式计算平台的部署图。

图2为采用本发明方法的批量流式计算平台中新增软件模块及其交互关系图。

图3为本发明方法的总体流程图。

图4为核心参数选取流程图。

图5为样本收集流程图。

图6为模型构建流程图。

图7为性能预测表生成流程图。

图8为最优参数配置表生成流程图。

图9为在线匹配最优方案流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

本发明所提出的参数配置动态方法可依附于现有批量流式计算系统(如SparkStreaming)，通过新增相应的软件模块实现。图1是本方法所依附的Spark Streaming的部署图。该平台由多个计算机服务器(平台节点)组成，服务器间通过网络连接。平台节点分为两类：包括一个管理节点(Master)和多个计算节点(Slave)。本发明所依附的平台包含以下核心软件模块：资源管理模块、节点管理模块、应用管理模块、数据接收模块、数据管理模块和数据计算模块。其中，资源管理模块负责维护平台中所有节点的资源信息，仅在管理节点上部署；节点管理模块负责启动和结束任务执行器，并监控本节点上数据在各组件的执行情况，每个计算节点上均部署一个节点管理模块。应用管理模块负责流应用的依赖解析以及作业的生成与调度，在Spark Streaming平台中提交和运行的每个流应用均对应一个应用管理模块。数据接收模块负责数据项的接收及数据块的构建，数据管理模块负责数据块的存储管理，数据计算模块负责作业的计算。上述软件模块中，资源管理模块和节点管理模块在Spark Streaming系统启动时即部署运行，应用管理模块、数据接收模块、数据管理模块和数据计算模块分别在相应的流应用提交运行时触发部署运行。

图2是为实施本发明方法在所依附的Spark Streaming系统中需增加的软件模块及其交互关系图。为实现本发明方法须在既有Spark Streaming系统中新增模块，包括样本收集模块、方案生成模块、在线匹配模块、参数更新决策模块和参数更新执行模块。其中，样本收集模块主要负责从既有组件中对数据到达速率、数据处理延迟以及每个核心参数值得收集；方案生成模块主要负责根据样本数据通过支持向量回归方法构建性能模型生成性能预测表，再利用遗传算法获取每一种数据到达速率下的最优参数配置，以构成最优方案表；在线匹配模块主要负责根据当前批次的数据到达速率从最优方案表中匹配到最优参数配置；参数更新决策模块主要负责根据最优参数配置传递调优信息；参数更新执行模块主要负责根据具体的调优信息更改核心参数值，以实现系统延迟性能的优化。

下面结合图3发明内容总流程说明本发明的具体实施方法。在本实施方法中，基本的参数设置如下：收集样本的批次数的阈值Nb_max＝50、预测函数拟合次数阈值Ct_max＝5、初始种群中个体数阈值Np_max＝1000、进化次数阈值Cp_max＝20、样本收集周期t＝15min。本实施方法可分为以下步骤：

(1)核心参数选取(流程如图4所示)

1.1)令核心参数集合为PC。初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA，

PA＝{spark.cores.max，spark.streaming.batchInterval，spark.shuffle.file.buffer spark.streaming.blockInterval，spark.broadcast.blockSize，spark.shuffle.memoryFraction，spark.storage.memoryMapThreshold，spark.reducer.maxSizeInFlight，spark.default.parallelism，spark.streaming.receiver.maxRate}；

1.2)选取低、中、高三种数据到达速率，分别表示为λ_l＝1MB/s、λ_m＝10MB/s、λ_h＝20MB/s。对于每一个pa_i∈PA，根据发明内容1.2.1)～1.2.4)得到每一个pa_i的平均皮尔森相关系数及p值如表1所示，

表1备选参数平均皮尔森相关系数

核心参数集合PC＝{spark.cores.max，spark.streaming.batchInterval，spark.streaming.blockInterval，spark.default.parallelism，spark.streaming.receiver.maxRate}；

(2)样本收集(流程如图5所示)

2.1)样本收集模块根据发明内容2.1)中的方法，定义样本表S；

2.2)设置Nb＝0；

2.3)样本收集模块从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc₁，pc₂，...pc_N的值以及数据处理响应延迟；

2.4)样本收集模块根据发明内容2.4)合并同特征值的样本数据，并更新样本表S；

2.5)Nb←Nb+1，若Nb＝Nb_max，则执行步骤(3)；否则，执行步骤2.3)；

(3)模型构建(流程如图6所示)

3.1)方案生成模块根据发明内容3.1)中的方法，生成训练样本集厂以及测试样本集F；

3.2)构建的性能模型表示为f：(λ，pc₁，pc₂，...pc₅)→tc。对T中样本(x₁，y₁)，(x₂，y₂)，...，(x_|T|，y_|T|)，x_i＝(λz_i，vz_1i，vz_2i，...，vz_5i)(1≤i≤|T|)，y_i＝tc_i(1≤i≤|T|)，设回归函数为式(6)。其中，w和b是待确定的参数，φ(x)表示一个非线性变换；

3.3)方案生成模块根据发明内容3.3)中的方法，利用支持向量回归方法解决上述回归预测问题；

3.4)对F中样本，(x₁，y₁)，(x₂，y₂)，...，(x_|F|，y_|F|)，x_l＝(λ_l，v_1l，v_2l，...，v_5l)(1≤l≤|F|)，y_l＝tc_l(1≤l≤|F|)，利用公式(12)计算平均误差

3.5)若则模型构建成功，执行步骤4.1)；否则，执行步骤3.7)；

3.6)Ct←Ct+1，若Ct＞Ct_max，则构建失败，执行步骤(7)；否则，执行步骤3.7)；

3.7)方案生成模块根据发明内容3.7)中的方法，调整预测函数中核函数的参数，执行步骤3.4)；

(4)最优方案生成(流程如图7、图8所示)

4.2)令流式应用的数据到达速率最小值为0MB/s，最大值为20MB/s，选取速率步长为0.1MB/s，则选取的离散化数据到达速率集合如式(20)；

Λ＝{λ_i|λ_i＝0.1(i-1)，1≤i≤201} (20)

4.3)对核心参数集合PC＝{pc_i|1≤i≤5}中每一个pc_i，令参数取值范围为[dl_i，dh_i]，选取步长step_i，则选取的核心参数pc_i的离散化取值集合如式(21)～(25)；其中，dl₁＝2、dh₁＝20、step₁＝1，dl₂＝50ms、dh₂＝2000ms、step₂＝50ms，dl₃＝50ms、dh₃＝2000ms、step₃＝50ms，dl₄＝2、dh₄＝20、step₄＝1，dl₅＝0MB/s、dh₅＝20MB/s、step₅＝0.1MB/s；

D₁＝{d_1j|d_1j＝2+(j-1)，1≤j≤19} (21)

D₂＝{d_2j|d_2k＝50+50(j-1)，1≤j≤40} (22)

D₃＝{d_3j|d_3j＝50+50(j-1)，1≤j≤40} (23)

D₄＝{d_4j|d_4j＝2+(j-1)，1≤j≤19} (24)

D₅＝{d_5j|d_5j＝0.1(j-1)，1≤j≤201} (25)

4.4)方案生成模块根据发明内容4.4)生成完整的性能预测表R；

4.5)根据发明内容4.5)，定义目标函数及其约束条件，其中tb由核心参数批次划分间隔的值得到；

4.6)方案生成模块利用遗传算法解决上述问题。对于每一个选取的数据到达速率离散值λ_i∈Λ，根据发明内容4.6.1)～4.6.10)，得到完整的最优参数配置方案表B；

(5)在线匹配(流程如图9所示)

5.1)定义参数配置方案为C，初始化

5.3)在线匹配模块根据发明内容5.3)，得到λ_c在Λ中的离散值λ_d；

5.4)在线匹配模块根据发明内容5.4)，如图(6)匹配到最优方案表B中，数据到达速率为λ_d的最优参数配置方案，并赋值给C；

(6)参数优化

6.1)根据C中每个元素，获取最优参数配置中每个核心参数的值b₁，b₂，b₃，b₄，b₅；

6.2)对于集群总核数(spark.cores.max)的最优值b₁，计算Δ＝b₁-nc，若Δ＞0，则通过资源管理模块中的该参数更新模块增加Δ个核；否则，减少Δ个核。其中，nc为当前系统的集群总核数，由既有组件中获取；

6.3)对于批次划分间隔(spark.streaming.batchInterval)的最优值b₂，通过数据管理模块中的该参数更新模块设置为b₂；

6.4)对于数据块划分间隔(spark.streaming.blockInterval)的最优值b₃，通过数据管理模块中的该参数更新模块设置为b₃；

6.5)对于规约操作并行度(spark.default.parallelism)的最优值b₄，通过数据管理模块中的该参数更新模块设置为b₄；

6.6)对于单个接收器最大数据接收速率(spark.streaming.receiver.maxRate)的最优值b₅，通过数据接收模块中的该参数更新模块设置为b₅；

(8)结束：中止对批量流式系统的参数动态配置。

本发明基于典型的批量流式计算系统Spark Streaming进行了实现(以下简称SS-PDC)，并将所实现的系统与原生的Spark Streaming(以下简称OSS)以及动态优化了批次划分间隔和数据块划分间隔的DyBBS进行了性能比较测试。测试结果表明，与既有的系统相比，应用本发明的批量流式计算系统可获得较低的平均响应延迟，且更可能在高数据到达速率来临时，保证系统的稳态。

测试以数据响应延迟为指标，指数据单元从进入Spark Streaming系统到处理完毕的持续时间，是评价系统性能的重要指标。实验中使用的平台由6台物理机组成，实验环境配置如表2所示。平台以虚拟机(Virtual Machine，VM)的形式提供服务，每个VM分配两个CPU以及4GB内存。每个物理机最多可以启动3个VM。测试选取HiBench作为本发明的性能测试基准程序集，采用典型的多阶段负载Reparition。设置Spark Streaming系统数据接收器数量为4。

表2测试环境配置

针对不同数据到达速率下的测试

在测试中对核心参数集以表4进行配置，并分别在表3中所示的不同数据到达速率范围下提交负载运行1小时。数据到达符合泊松分布。

表3初始参数配置

表4数据到达速率分组

表5不同数据到达速率下的平均响应延迟

从表5(Inf表示系统已处于非稳态)中可以看到相比OSS，在数据到达速率变化速率范围为1、2组时，SS-PDC的平均响应延迟平均降低了78.4％，在数据到达速率范围为3、4组时，OSS系统长时间处于非稳定状态，平均响应延迟不断增长，而SS-PDC能使得系统稳定运行；相比DyBBS，SS-PDC的平均响应延迟平均降低了80.6％。

针对不同初始参数配置下的测试

(1)不同初始批次划间隔，数据块划分间隔

在测试中设置8MB/s固定数据到达速率，集群总核数为10，规约操作并行度为10，单个接收器最大数据接收速率为2MB/s，并分别以表6中所示的不同批次划分间隔、数据块划分间隔提交负载运行1小时。

表6不同初始批次划分间隔，数据块划分间隔配置分组

表7不同初始批次划分间隔，数据块划分间隔下的平均响应延迟

从表7中看到，OSS的平均响应延迟随着批次划分间隔以及数据块划分间隔的不同而不同；DyBBS和SS-PDC的平均响应延迟均不受初始批次划分间隔以及数据块划分间隔设置的影响。从中可以看到相比OSS，SS-PDC的平均响应延迟平均降低了49.3％；相比DyBBS，SS-PDC的平均响应延迟平均降低了41.1％。

(2)不同初始集群总核数

在测试中设置8MB/s固定数据到达速率，批次划分间隔为600，数据块划分间隔为100，规约操作并行度为10，单个接收器最大数据接收速率为2MB/s，并分别以表8中所示的不同集群总核数提交负载运行1小时。

表8不同初始集群总核数配置分组

表9不同初始集群总核数下的平均响应延迟

从表9中可以看出，OSS和DyBBS的平均响应延迟随着集群总核数的增加而减少；SS-PDC的平均响应延迟不受初始集群总核数设置的影响。相比OSS，SS-PDC的平均响应延迟平均降低了36.6％；相比DyBBS，SS-PDC的平均响应延迟平均降低了38.3％。

(3)不同初始规约操作并行度

在测试中设置8MB/s固定数据到达速率，批次划分间隔为600，数据块划分间隔为100，集群总核数为10，单个接收器最大数据接收速率为2MB/s，并分别以表10中所示的不同规约操作并行度提交负载运行l小时。

表10不同初始规约操作并行度配置分组

表11不同初始规约操作并行度下的平均响应延迟

从表11中可以看出，OSS和DyBBS的平均响应延迟随着规约操作并行度的增加而减少；SS-PDC的平均响应延迟不受初始规约操作并行度设置的影响。相比前3组OSS，SS-PDC能使系统稳定运行；相比后3组OSS，SS-PDC的平均响应延迟平均降低了72.3％；相比DyBBS，SS-PDC的平均响应延迟平均降低了48.3％。

(4)不同初始单个接收器最大数据接收速率

在测试中设置24MB/s固定数据到达速率，批次划分间隔为600，数据块划分间隔为100，集群总核数为8，规约操作并行度为8，并分别以表12中所示的不同单个接收器最大数据接收速率提交负载运行1小时。

表12不同初始单个接收器最大数据接收速率配置分组

表13不同初始单个接收器最大数据接收速率下的平均响应延迟

从表13中可以看出，OSS和DyBBS的平均响应延迟随着最大数据接收速率的增加而增加；SS-PDC的平均响应延迟在系统能承受的数据接收速率内不受初始最大数据接收速率设置的影响。相比前4组OSS，SS-PDC的平均响应延迟平均降低了39.8％；相比后2组OSS，SS-PDC能使系统稳定运行；相比前5组DyBBS，SS-PDC的平均响应延迟平均降低了6.11％；相比第六组DyBBS，SS-PDC能使系统稳定运行。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种批量流式计算系统参数动态配置方法，其特征在于：分为六个步骤：核心参数选取、样本收集、模型构建、最优方案生成、在线匹配和参数优化；其中，核心参数选取在应用运行之前模拟测试；样本收集、模型构建和最优方案生成步骤在后台阶段完成；在线匹配和参数优化步骤于在线阶段完成；做如下假设：1)外部数据源的数据到达符合泊松分布；2)网络带宽足够，设收集样本的批次数的阈值Nb_max、预测函数拟合次数阈值Ct_max、种群中个体数阈值Np_max、进化次数阈值Cp_max、样本收集周期t；具体为：

(1)核心参数选取

选取对批量流式计算系统性能影响较大的参数集合；

1.1)令核心参数集合为PC，初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA，PA＝{pa_i|1≤i≤n}；

1.2.3)利用公式(4)计算pa_i的平均皮尔森相关系数

1.2.4)若且显著性检验的p值小于0.05，则设置PC←PC∪{pa_i}；

(2)样本收集

2.1)依据步骤(1)选取的核心参数集合PC＝{pc_i|1≤i≤N}，令样本表S表示为S＝{s_m|s_m＝(λ_m，v_1m，v_2m，...，v_Nm，tc_m)，tc_m＝l_m-tb_m，1≤m≤D}，其中，m为样本数据编号，D为样本数据总数，λ_m为第m个样本的数据到达速率，v_1m，v_2m，...，v_Nm为第m个样本对应核心参数pc₁，pc₂，...pc_N的值，tc_m为第m个样本的数据计算时间，是由数据处理响应延迟l_m减去批次划分间隔tb_m得到的；

2.3)从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc₁，pc₂，...pc_N的值、数据处理响应延迟和批次划分间隔，分别表示为λ′、v₁′v₂′...，v_N′、l′、tb′；

(3)模型构建

f(x)＝w^Tφ(x)+b (6)

利用KKT(Karush-Kuhn-Tucker)条件计算出常值偏差b，即

根据上述推导可得回归函数f(x)的表达式为式(11)。

K(x_i，x_j)＝exp(-γ||x_i-x_j||²)，γ＞0 (12)

3.5)若则模型构建成功，执行步骤4.1)；否则，执行步骤3.7)；

3.7)调整核函数参数γ，设置f(x)中γ←0.9γ，执行步骤3.4)；

(4)最优方案生成

4.5)给定数据到达速率，生成最优参数配置方案的目标函数可被定义如公式(16)；其中约束条件定义为处理响应延迟限制，tb为批次划分间隔，；

min(tb+tc)

s.t.tc≤tb≤1.2tc (16)

4.6)利用遗传算法解决上述问题，对于每一个选取的数据到达速率离散值λ_i∈Λ；

(5)在线匹配

5.1)定义参数配置方案为C，初始化

5.4)若满足λ_i＝λ_d，C←(b_1i，b_2i，...，b_Ni)；否则，执行步骤(7)。

2.如权利要求1所述批量流式计算系统参数动态配置方法，其特征在于：4.6)具体为：

4.6.1)定义种群个体p_k＝(g_1k，g_2k，...，g_Nk)，其中g_ik表示为一个基因，则每个个体即一条染色体共有N个基因，定义种群集合P，初始化定义当前种群中个体数Np，初始化Np←0。定义当前进化次数Cp，初始化Cp←0；

sn＝(sg₁，sg₂，...，sg_N)

4.6.10)定义best为P中适应度最大的个体，设置B←B∪{(λ_i，best)}。