CN108009023B

CN108009023B - 混合云中基于bp神经网络时间预测的任务调度方法

Info

Publication number: CN108009023B
Application number: CN201711230353.0A
Authority: CN
Inventors: 李春林; 孟川力; 毛习均; 杜书猛; 赵亚辉; 张鹏
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2022-06-03
Anticipated expiration: 2037-11-29
Also published as: CN108009023A

Abstract

本发明公开了一种混合云中基于BP神经网络时间预测的任务调度方法，本发明提出的调度方法模型由3部分组成：(1)BP神经网络时间预测，根据Map和Reduce任务的影响因素训练BP神经网络模型，然后用此模型进行Map和Reduce任务的执行时间预测。(2)私有云中任务调度，为了提高私有云资源利用率的同时节约公有云成本，任务首先在私有云中调度，根据预测任务的执行时间，把任务调度到最早完成时间的资源。将不能满足截止时间的任务调度到公有云资源执行。(3)公有云中任务调度，预测任务在公有云资源的执行时间，求解满足截止时间且成本最小的公有云资源。本发明降低了任务的响应时间，提高了QoS满意率，达到了最大化私有云利用率和最小化公有云成本的目的。

Description

混合云中基于BP神经网络时间预测的任务调度方法

技术领域

本发明涉及计算机云存储技术领域，特别涉及一种混合云中基于BP神经网络时间预测的任务调度方法。

背景技术

目前云计算模式主要有三类:私有云、公有云和混合云。私有云是针对持定的组织或企业内部提供云计算服务的一种云计算模式，能够根据资源节点数量、性能等不同的建设需求而定制，具有数据安全性好、服务质量高、单次计算成本较低的特点；公有云是在公共网络环境(Internet)上，以第三方服务供应商的方式，为用户提供可租用服务及基础设施，具有节点数量大、可用资源多、按计算使用情况计费、对通信质量较为敏感等持点；混合云融合了公有云和私有云，是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户，出于安全考虑，企业更愿意将数据存放在私有云中，但是同时又希望可以获得公有云的计算资源，在这种情况下混合云越来越多的被采用，它将公有云和私有云进行混合和匹配，以获得最佳的效果，这种个性化的解决方案，达到了既省钱又安全的目的。在没有充足私有云资源的情况下，付费使用的公有云能解决难以预测的高负载应用场景。只有在公共云处理超负载工作期间才花费额外的成本。正常负载情况下，应用私有云资源就能满足需求，而不必建设和维护那些只有在超负载情况下才使用的资源。从而避免了部署成本和维护成本的浪费。大数据应用既有实时要求高的在线服务，比如电商网站的商品推荐等。同时也有对截止时间要求不高的离线服务，电子邮件、短信的推荐消息。因此用户会根据作业的紧急程度以及重要性规定截止时间，由于可能会出现负载高峰，私有云资源无法在截止时间内完成的作业将考虑花费额外成本使用公有云，比如电商网站促销推荐服务。

迄今为止，学者们提出了很多有关云资源调度的算法。但是这些算法并不较好适用于混合云环境下的大数据应用任务调度。

发明内容

本发明的目的是针对现有技术的不足，提出一种混合云中基于BP神经网络时间预测的任务调度方法，能满足作业的截止时间和成本约束的同时，使得私有云资源利用率最大和公有云资源成本最小。

为实现上述目的，本发明所设计的混合云中基于BP神经网络时间预测的任务调度方法，其特殊之处在于，所述方法包括如下步骤：

1)根据用户提交的作业和QoS需求计算优先级，选择优先级高的作业调度，按优先级降序遍历作业中的所有任务；

2)遍历资源池私有云资源，根据BP神经网络模型对每个任务的执行时间进行预测，找出最小资源完成时间，更新资源的完成时间；

3)判断资源的完成时间是否小于作业的截止时间，如果满足则分配任务给私有云，否则增加任务到集合MP_i，重置资源的完成时间；

4)遍历集合MP_i中的任务，分配给公有云资源，具体包括：

41)遍历公有云资源，基于BP神经网络预测任务的执行时间，计算任务在公有云资源上执行的成本；

42)找出最优公有云资源，即遍历寻找出价格最低且满足截止时间约束的公有云资源，如果存在此公有云资源，则创建公有云实例，并且分配任务到公有云，否则分配失败，返回消息给用户；

5)所有需要公有云资源的任务分配完后，比较公有云总成本是否小于成本约束，如果满足调度成功，否则调度失败，返回消息给用户。

优选地，所述步骤1)中基于QoS的作业优先级定义为：

MapReduce作业J_i＝(m_i1,m_i2,...,m_im,r_i1,r_i2,...,r_ir)，作业J_i包含m个Map任务和r个Reduce任务，Map任务m_ik＝{mW_ik,mD_ik}，其中k＝1,2,...,m，mW_ik代表作业i中第k个Map任务的工作负载大小可简单的用任务所包含的指令数量表示。mD_ik代表第k个Map任务的输入数据大小，Reduce任务r_il＝{rW_il,rD_il}，其中l＝1,2,...,r，rW_il代表作业i中第l个Reduce任务的工作负载大小，它影响任务的传输时间，rD_il代表第l个Reduce任务的输入数据的大小，D_i和C_i分别表示第i个作业的截止时间和成本约束，λ代表权重。

优选地，所述步骤2)的具体步骤包括：

21)利用历史数据训练BP神经网络模型，BP神经网络根据影响Map任务和Reduce任务执行时间的因素来预测.其执行时间；

22)根据神经网络模型，输入Map任务执行时间影响因素X_map、Reduce任务执行时间影响因素为X_reduce，第i个作业的第k个Map任务和第l个Reduce任务，在资源j上的执行时间进行预测，得到Map任务执行时间mEEt[i,k,j]或Reduce任务执行时间rEEt[i,l,j]；

23)找出最小完成时间的资源j_min，分配任务到资源j_min，记录映射Z_i。

24)更新资源的完成时间Rft_j。

优选地，所述步骤41)中计算任务在公有云资源上执行的成本的计算方法为：Map任务和Reduce任务在公有云资源j的成本分别为：

mCostF[i,k,j]＝Cost_j×mW_ik+Stg_j×mDtt_ik+mDtt_ik×(Cin_j+Cout_j)

rCostF[i,l,j]＝Cost_j×rW_il+Stg_j×rDtt_il+rDtt_il×(Cin_j+Cout_j)

式中，对于资源j，Cost_j代表计算代价，Stg_j代表存储代价，Cin_j代表输入传输代价，Cout_j代表输出传输代价；mDtt_ik代表Map任务的传输时间，rDtt_il代表Reduce任务的传输时间。

优选地，所述Map任务和Reduce任务的传输时间的计算方法为：

其中，Band_j代表资源j的网络带宽，w表示一个Reduce任务要处理的Map任务数，f代表Map任务的输出数据大小和输入数据大小的比值。

优选地，所述步骤2)中使用Max-Min算法寻找具有最高优先级的任务调度到最小完成时间的资源。

传统的任务调度算法鲜有考虑用户的需求，并且混合云环境中的任务调度很少有考虑针对任务执行时间预测进行优化。在混合云环境中，考虑到企业的经济效益和资源效用，需要最大化私有云利用率并且最小化公有云成本。在任务调度过程中，满足截止时间前提下，尽可能把任务调度到私有云中，否则需要申请最优的公有云资源同时满足作业的截止时间和成本约束。以此为目标深入分析和研究任务执行特征，建立任务预测模型，求解成本最低的公有云资源，使任务调度达到最优。本发明提出基于BP神经网络时间预测的任务调度方法，该方法能满足作业的截止时间和成本约束的同时，使得私有云资源利用率最大和公有云资源成本最小。

本发明结合调度算法和混合云资源调度的特性提出来基于BP神经网络时间预测的任务调度方法。本调度方法适用于混合云环境下MapReduce任务的资源调度，它综合考虑了MapReduce任务和混合云环境的特点以及任务的执行时间影响因素，提出基于BP神经网络预测任务执行时间。在私有云调度中把优先级高的任务调度到最早完成时间的资源。私有云不能满足截止时间，求解满足截止时间的最小成本的公有云资源。这一优化调度方法降低了任务的响应时间，提高了QoS满意率，达到了最大化私有云利用率和最小化公有云成本目的。

附图说明

图1为本发明混合云中基于BP神经网络时间预测的任务调度方法的流程图。

图2为混合云环境下基于BP神经网络时间预测的任务调度模型。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

本发明提出的混合云中基于BP神经网络时间预测的任务调度方法，包括如下步骤：

4)遍历集合MP_i中的任务，分配给公有云资源，具体包括：

下面详述本发明的研究过程：

1问题分析和描述

在混合云中进行任务调度之前，需要对任务进行时间预测，从而合理资源分配，降低作业的执行时间，提高资源利用率。对于MapReduce任务执行时间预测已有学者研究，但在混合云环境下的MapReduce任务执行时间预测少有研究。常见估计任务执行时间的方法是通过任务长度和机器执行速度的比值实现的，这种方法实现简单，并且任务调度模型容易建立，但是如果任务使用第三方软件库时，这种方法很难实现。有的方法考虑使用任务总工作负载和该任务所在资源槽的执行速率来求得任务的预计执行时间，这种方法实现的算法复杂度低且适用于云计算的任务调度场景，但是Reduce任务的执行依赖Map任务的输出结果，一旦有些资源性能下降，将会导致预测的任务执行时间误差增加，这种方法不适合MapReduce任务执行时间预测。多元线性回归的预测方法是一种通过多元线性回归方法，建立配置参数与作业执行时间之间的关系模型，进而达到预测作业执行时间的一种方法。基于代价优化的预测方法找到MapReduce作业的较优的配置参数，使得MapReduce作业的执行时间相对较短。混合云环境是比较复杂的应用场景，对于任务执行时间预测不仅要考虑任务在异构私有云资源的执行时间，还要考虑任务在不同公有云服务商的不同资源类型的执行时间，所以预测任务的执行时间比较复杂，且最近的研究也很少有考虑混合云环境下基于时间预测的任务调度，也很少考虑任务在不同云服务商的不同资源类型的执行时间的差异分析。BP神经网络通过迭代学习带正确答案的训练集获取规则确定网络权值，并具有泛化能力，同时输入变量和输出变量的数目是任意的。BP神经网络具有自适应能力和概括能力，并具有泛化能力，它也可以在线学习。Map任务和Reduce任务的中间执行过程复杂，不易建立模型，而MapReduce任务可能会出现大量重复执行，所以充分利用历史日志信息，分析MapReduce执行时间的影响因素，应用BP神经网络预测Map任务和Reduce任务的执行时间。根据时间预测，首先进行私有云中任务调度，然后将私有云不能满足用户需求的任务调整到公有云进行公有云中任务调度。该调度方法能提高作业的QoS满意率，节约公有云成本。

2混合云中基于BP神经网络时间预测的任务调度方法分析

2.1调度模型描述

本发明提出的混合云环境下基于BP神经网络时间预测的任务调度方法模型由3部分组成：(1)BP神经网络时间预测，根据Map和Reduce任务的影响因素训练BP神经网络模型，然后用此模型进行Map和Reduce任务的执行时间预测。(2)私有云中任务调度，为了提高私有云资源利用率的同时节约公有云成本，任务首先在私有云中调度，根据预测任务的执行时间，把任务调度到最早完成时间的资源。将不能满足截止时间的任务调度到公有云资源执行。(3)公有云中任务调度，预测任务在公有云资源的执行时间，求解满足截止时间且成本最小的公有云资源。其调度模型如图1所示。

2.2调度方法中的相关参数定义

MapReduce参数影响任务执行时间，可以通过合理的配置MapReduce参数来提高MapReduce的性能。同时考虑到私有云资源的异构性以及公有云资源存在较大的差异性，所以任务分配的资源情况，包括节点性能、节点负载、节点带宽、任务计算复杂度和任务数据量等也是MapReduce任务执行时间的主要影响因素。由于Reduce任务依赖Map任务，本专利分别介绍Map任务和Reduce任务执行时间的主要影响因素。Map任务执行时间影响因素为X_map，Reduce任务执行时间影响因素为X_reduce。基于BP神经网络预测的Map任务和Reduce任务的执行时间分别为mEEt[i,k,j]和rEEt[i,l,j]。BP神经网络根据影响Map任务和Reduce任务执行时间的因素来预测其执行时间。首先，利用历史数据训练BP神经网络。然后，将新任务的执行时间影响因素X_map或X_reduce输入到已训练好的BP神经网络中预测任务执行时间。Map任务和Reduce任务执行时间的主要影响因素X_map和X_reduce如下所示，

表1Map任务执行时间影响因素

表2Reduce任务执行时间影响因素

本发明中，动态提交的MapReduce作业J_i＝(m_i1,m_i2,...,m_im,r_i1,r_i2,...,r_ir)。作业J_i包含m个Map任务和r个Reduce任务。提交作业同时附加用户的QoS需求，D_i和C_i分别表示作业的截止时间和成本约束。MapReduce任务分别定义为Map任务任务m_ik＝{mW_ik,mD_ik}，其中k＝1,2,...,m和Reduce任务r_il＝{rW_il,rD_il}，其中l＝1,2,...,r。mW_ik代表作业i中第k个Map任务的工作负载大小可简单的用任务所包含的指令数量表示。mD_ik代表第k个Map任务的输入数据大小。rW_il代表作业i中第l个Reduce任务的工作负载大小。它影响任务的传输时间。rD_il代表第l个Reduce任务的输入数据的大小。

资源定义为：Container_j＝{Mips_j,Cost_j,Stg_j,Cin_j,Cout_j,Band_j}，其中表示Mips_j主机的计算能力，即在单位时间内的可执行的百万条指令数。Cost_j计算代价，Stg_j存储代价，Cin_j输入传输代价，Cout_j输出传输代价，Band_j网络带宽，Est_j资源的完成时间，即资源的释放时间。私有云的操作和维护成本非常低可以忽略不计，所以设置私有云资源的计算代价，存储代价和输入输出传输代价为零。

Map任务和Reduce任务的传输时间分别定义为：

公式(2)中w表示一个Reduce任务要处理的Map任务数。f代表Map任务的输出数据大小和输入数据大小的比值。

公有云代价分为计算代价，存储代价和传输代价，其中Map任务和Reduce任务在公有云资源j的成本分别为：

mCostF[i,k,j]＝Cost_j×mW_ik+Stg_j×mDtt_ik+mDtt_ik×(Cin_j+Cout_j) (3)

rCostF[i,l,j]＝Cost_j×rW_il+Stg_j×rDtt_il+rDtt_il×(Cin_j+Cout_j) (4)

目前普遍云应用场景是多用户多作业云应用场景，Fair Scheduler给每个作业分配同样的资源池。本专利基于QoS的MapReduce作业优先级定义为：

公式(5)中λ代表权重。作业的数据量越大，成本约束越小，截止时间越短，优先级越高。

集合MP_i：第i个作业需要申请公有云资源的任务集合，初始化为空。

调度映射Z_i：第i个作业的任务与所分配的资源映射关系的集合。3混合云中基于BP神经网络时间预测的任务优化调度方法的实现

3.1方法思想描述

本专利提出的混合云环境下基于BP神经网络时间预测的任务调度方法，是以BP神经网络时间预测为基础并结合混合云资源的特性而提出来的。本方法首先根据作业的QoS约束计算作业的优先级，从而确定作业的调度顺序，优先级计算见公式(6)。MapReduce作业的可调度任务分为Map Task，Failed Map Task和Reduce Task，它们的优先级分别为5，20，10。在私有云调度过程中，根据BP神经网络预测任务执行时间把优先级高的可调度任务优先调度到完成时间最早的资源。私有云不能满足所有任务的截止时间，需要申请成本最低且满足QoS约束的公有云资源。本方法具体描述如下：

(1)根据作业提交的QoS约束计算优先级，选择优先级高的作业调度。按优先级降序遍历作业的所有任务。

(2)遍历资源池私有云资源，根据神经网络模型对Map任务执行时间mEEt[i,k,j]或Reduce任务执行时间rEEt[i,l,j]进行预测，找出最小资源完成时间，更新资源的完成时间Rft_j。

(3)判断资源的完成时间是否小于作业的截止时间。如果满足则分配任务给私有云，否则增加任务到集合MP_i，重置资源完成时Rft_j。

(4)遍历集合MP_i中的任务，分配给公有云资源。

(5)遍历公有云资源，计算任务在公有云资源上执行的成本，基于BP神经网络预测任务的执行时间。

(6)找出最优公有云资源rj_best，即遍历寻找出价格最低且满足截止时间约束的公有云资源。如果存在此公有云资源，则创建公有云实例，并且分配任务到此公有云。

(7)所有有需要公有云的任务分配完后，比较公有云总成本是否小于成本约束，如果满足调度成功，否则调度失败，返回消息给用户。

3.2调度方法的伪代码描述

由算法的伪代码描述可以得到，第1行调度优先级高的作业，排序可调度任务，初始化资源完成时间；第2到8行，将优先级最高的任务映射到最早完成时间的资源上；第9到10行私有云资源能满足QoS约束；第11到12行调整部分任务申请公有云资源。第13到24行找出满足截止时间的最小成本的公有云资源，记录映射，并累加成本。第25到27行判断总公有云成本是否满足作业的成本约束。按照QoS约束对作业优先级定义由高到低依次进行调度。对于可调度任务，使用Max-Min算法寻找具有最高优先级的任务调度到最小完成时间的资源。私有云不满足截止时间时，需要申请满足QoS的最小成本的公有云资源。从而保证在满足QoS约束的情况下，最大化私有云使用率和最小化公有云成本。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种混合云中基于BP神经网络时间预测的任务调度方法，其特征在于：所述方法包括如下步骤：

基于QoS的作业优先级定义为：

MapReduce作业J_i＝(m_i1,m_i2,...,m_im,r_i1,r_i2,...,r_ir)，作业J_i包含m个Map任务和r个Reduce任务，Map任务m_ik＝{mW_ik,mD_ik}，其中k＝1,2,...,m，mW_ik代表作业i中第k个Map任务的工作负载大小可简单的用任务所包含的指令数量表示， mD_ik代表第k个Map任务的输入数据大小，Reduce任务r_il＝{rW_il,rD_il}，其中l＝1,2,...,r，rW_il代表作业i中第l个Reduce任务的工作负载大小，它影响任务的传输时间，rD_il代表第l个Reduce任务的输入数据的大小，D_i和C_i分别表示第i个作业的截止时间和成本约束，λ代表权重；

MapReduce作业的可调度任务分为Map Task，Failed Map Task和Reduce Task，它们的优先级分别为5，20，10；

2)遍历资源池私有云资源，根据BP神经网络模型对每个任务的执行时间进行预测，找出最小资源完成时间，更新资源的完成时间；使用Max-Min算法寻找具有最高优先级的任务调度到最小完成时间的资源；具体步骤包括：

21)利用历史数据训练BP神经网络模型，BP神经网络根据影响Map任务和Reduce任务执行时间的因素来预测.其执行时间；所述Map任务和Reduce任务的传输时间的计算方法为：

其中，Band_j代表资源j的网络带宽，w表示一个Reduce任务要处理的Map任务数，f代表Map任务的输出数据大小和输入数据大小的比值；

23)找出最小完成时间的资源j_min，分配任务到资源j_min，记录映射Z_i；

24)更新资源的完成时间Rft_j；

在私有云调度过程中，根据BP神经网络预测任务执行时间把优先级高的可调度任务优先调度到完成时间最早的资源，私有云不能满足所有任务的截止时间，需要申请成本最低且满足QoS约束的公有云资源；

4)遍历集合MP_i中的任务，分配给公有云资源，具体包括：

41)遍历公有云资源，基于BP神经网络预测任务的执行时间，计算任务在公有云资源上执行的成本；计算任务在公有云资源上执行的成本的计算方法为：Map任务和Reduce任务在公有云资源j的成本分别为：

mCostF[i,k,j]＝Cost_j×mW_ik+Stg_j×mDtt_ik+mDtt_ik×(Cin_j+Cout_j)

rCostF[i,l,j]＝Cost_j×rW_il+Stg_j×rDtt_il+rDtt_il×(Cin_j+Cout_j)

式中，对于资源j，Cost_j代表计算代价，Stg_j代表存储代价，Cin_j代表输入传输代价，Cout_j代表输出传输代价；mDtt_ik代表Map任务的传输时间，rDtt_il代表Reduce任务的传输时间；