CN112948115B

CN112948115B - 一种基于极限学习机的云工作流调度器压力预测方法

Info

Publication number: CN112948115B
Application number: CN202110232396.2A
Authority: CN
Inventors: 李钰祥; 邹伟东; 夏元清; 李慧芳; 张金会; 翟弟华; 戴荔; 刘坤; 闫莉萍
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2022-12-06
Anticipated expiration: 2041-03-01
Also published as: CN112948115A

Abstract

本发明公开了一种基于极限学习机的云工作流调度器压力预测方法，通过将调度器CPU时间片占有率、内存占用率作为调度器压力参数，以调度器压力参数作为输入，以对应的调度器在达到满载前还能接收工作流的数量作为标签，建立训练样本集；采用该训练样本集完成对云工作流调度器压力预测模型的训练，以调度器压力预测模型预测调度器在达到满载状态之前预计还可接收工作流的数量，在一定程度上能够满足云工作流在调度问题上调度器压力预测的需要，为相关调度问题中压力评估和可接受工作流数量提供了新的方法。

Description

一种基于极限学习机的云工作流调度器压力预测方法

技术领域

本发明属于云工作流调度技术领域，具体涉及一种基于极限学习机的云工作流调度器压力预测方法。

背景技术

云工作流调度问题是云平台与云计算中的核心技术之一，近几年来，云平台与云计算的发展有巨大的进步，对各领域产生了不同程度的影响。云计算具有超大规模、虚拟化、按需服务、高可靠和高伸缩性等优势，云计算是一种集中式大数据处理，云平台像一个庞大的资源池，采用云技术能够完成容器的迁移，通过云平台能够高效地完成各种科研工作。相比于边缘计算，云平台有更好的延展性和安全保障，可靠性更强。云工作流是在云计算环境下工作流管理系统的一种新的应用。云工作流中的系统调度问题则是云计算中的核心问题之一，在云平台和云计算调度器模块的开发测试过程中，经常会出现调度器压力过大但控制器依然分配给各子调度器工作流的情况，这会导致调度器CPU时间片占有率过大或内存占用过多并最终使运行失败，出现“卡死”等情况。

发明内容

有鉴于此，本发明提供了一种基于极限学习机的云工作流调度器压力预测方法，实现了小样本情况下对云工作流调度器能够接收工作流数量的预测。

本发明提供的一种基于极限学习机的云工作流调度器压力预测方法，包括以下步骤：

步骤1、将云工作流调度器的内存占用率、CPU时间片占有率、已接收工作流数量及已接收子任务数量作为调度器压力数据；以所述调度器压力数据作为输入，以对应的调度器在达到满载前还能接收工作流的数量作为标签构建训练样本集；

步骤2、建立基于极限学习机的云工作流调度器压力预测模型，如下式所示：

Hβ＝Y (1)

其中，H为隐藏层节点的输出，β为输出权值，Y为云工作流期望输出矩阵，N为样本个数，L为隐含层节点的个数，g(x)为激活函数，S_i为所述云工作流调度器压力预测模型的输入，W_i＝[w_i1,w_i1,...,w_in]^T为输入到隐藏层节点之间的输入权值矩阵，b_i为第i个隐藏节点的偏置，W_i和b_i生成后保持不变；β_i为隐藏层到输出之间的输出权值矩阵；

步骤3、采用所述步骤1生成的所述训练样本集完成对所述基于极限学习机的云工作流调度器压力预测模型的训练；

步骤4、使用中，将待预测的调度器压力数据输入所述步骤3训练得到的基于极限学习机的云工作流调度器压力预测模型，得到所述待预测调度器在达到满载状态之前预计还可接收工作流的数量。

进一步地，所述步骤1中所述训练样本集的构建包括：将所述调度器压力数据进行归一化预处理形成压力值特征向量，由所述压力值特征向量与其对应的标签构建训练样本数据集。

进一步地，所述训练样本集的构建包括以下步骤：

步骤3.1、采集特征数据形成云工作流调度所涉及的调度器压力数据集合{X_i,X_i∈R,i＝1,2,...,N}，其中，N为调度器的总数，i为调度器的编号；X_i为第i调度器的压力值特征向量X_i＝[X_1i,X_2i,X_3i,X_4i]^T，X_1i为第一分量是调度器压力占用率，X_2i为第二分量是调度器CPU时间片占有率，X_3i为第三分量是调度器已接收的工作流数量；X_4i为第四分量是调度器已接收的子任务数量；

步骤3.2、选取N个调度器的压力值特征向量中的最大第一分量max(X₁)、最小第一分量min(X₁)，采用公式(3)计算得到N个第一分量的取值：

形成包含N个第一分量的一维特征矩阵

选取N个调度器的压力值特征向量中的最大第二分量max(X₂)、最小第二分量min(X₂)，采用公式(4)计算得到N个第二分量的取值：

形成包含N个第二分量的一维特征矩阵

选取N个调度器的压力值特征向量中的最大第三分量max(X₃)、最小第三分量min(X₃)，采用公式(5)计算得到N个第三分量的取值：

形成包含N个第三分量的一维特征矩阵

选取N个调度器的压力值特征向量中的最大第四分量max(X₄)、最小第四分量min(X₄)，采用公式(6)计算得到N个第四分量的取值：

形成包含N个第四分量的一维特征矩阵

由此构成包含N个压力值特征向量的压力值特征矩阵：

由所述压力值特征矩阵及与其对应的标签构成所述训练样本集：

其中，

为输入表示第i个调度器的特征向量；Y_i表示第i个调度器对应的标签。

进一步地，所述步骤3中采用所述步骤1生成的所述训练样本集完成对所述基于极限学习机的云工作流调度器压力预测模型的训练时，采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵。

进一步地，所述采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵，包括以下步骤：

训练所述基于极限学习机的云工作流调度器压力预测模型，得到如下最小化代价函数：

对H进行满秩分解，即H＝LR，其中，L为列满秩矩阵，R为行满秩矩阵，再利用公式(7)和(8)求解β矩阵；

H⁺＝R^H(RR^H)^-1(L^HL)^-1L^H (7)

其中，H⁺表示H矩阵的广义逆。

有益效果：

本发明通过将调度器CPU时间片占有率、内存占用率作为调度器压力参数，以调度器压力参数作为输入，以对应的调度器在达到满载前还能接收工作流的数量作为标签，建立训练样本集；采用该训练样本集完成对云工作流调度器压力预测模型的训练，以调度器压力预测模型预测调度器在达到满载状态之前预计还可接收工作流的数量，在一定程度上能够满足云工作流在调度问题上调度器压力预测的需要，为相关调度问题中压力评估和可接受工作流数量提供了新的方法；同时，本发明利用单层神经网络的机器学习方法极限学习机建立云工作流调度器压力预测模型，有效地提高了计算效率和预测调度器接收工作流能力准确率。

具体实施方式

下面列举实施例，对本发明进行详细描述。

本发明提供了一种基于极限学习机的云工作流调度器压力预测方法，其基本思想是：通过实验使云工作流调度器尽量达到满载并得到调度器工作特征初始数据集，从初始数据集中筛选出合理的数据集，并对数据集中与压力相关的参数进行预处理，完成不同类型数据的标记，完成训练样本的构建，训练样本为{X_i,Y_i|X_i∈R,Y_i∈R,i＝1,2,...,N}，其中X_i是模型的输入，i为调度器的序号；Y_i是模型的输出，此处代表的是达到满载时剩余可以接收工作流的数量；N是样本总数，利用归一化处理得到压力特征，采用调度器压力指标数据和工作流数量数据作为训练样本的特征与对应标签形成的数据集输入极限学习机模型建立极限学习机的云工作流调度器压力预测模型，在此基础上，求取隐含层节点的输出权值矩阵，从而完成对极限学习机模型的训练。

本发明中，云工作流调度器压力为工作流调度器已接收的工作流占用该调度器资源的程度，主要采用以下两个指标进行描述：内存占用率及CPU时间片占有率。当云工作流调度器接收到的工作流数量达到一定限度后，就会导致调度器的内存或CPU过载，这种情况被称为超过了云工作流调度器的压力限度。

本发明提供的一种基于极限学习机的云工作流调度器压力预测方法，具体步骤如下：

步骤1、在云工作流随机实验中，采集各调度器的内存占用率、CPU时间片占有率、已接收工作流数量、已接收子任务数量等调度器压力数据，以及处于上述状态的调度器在达到满载前还能接收工作流数量，形成调度器压力数据；对调度器压力数据进行归一化预处理后，从中提取出调度器压力值的特征向量，由调度器压力值特征向量与其对应的标签构建训练样本数据集。

步骤1.1、收集调度器压力数据。

采集调度器X_i，形成调度器压力数据集合{X_i,X_i∈R,i＝1,2,...,N}，其中，N是调度器的总数，i是调度器的编号。调度器X_i为四元数组，表示为：X_i＝[X_1i,X_2i,X_3i,X_4i]^T，X_1i为调度器X_i的第一个分量，代表调度器压力占用率，即用已使用内存与与分配内存的比值；X_2i为调度器X_i的第二个的分量，代表CPU时间片占有率；X_3i为调度器X_i的第三个分量，代表调度器X_i已接收的工作流数量；X_4i为调度器X_i的第四个分量，代表调度器X_i已接收的子任务数量。

步骤1.2、采用公式(1)得到调度器X_i的第一个分量的最大值max(X₁)：

max(X₁)＝max{X₁₁,X₁₂,...,X_1N} (1)

采用公式(2)计算调度器X_i的第一个分量的最小值min(X₁)：

min(X₁)＝min{X₁₁,X₁₂,...,X_1N} (2)

步骤1.3、遍历{X_1i,X_1i∈R,i＝1,2,...,N}中的所有输入X_i，采用公式(3)计算得到N个第一分量数据：

形成包含N个第一分量的一维特征矩阵

步骤1.4、同理得到第二分量、第三分量及第四分量的一维特征矩阵

和

形成包含N个第二分量的一维特征矩阵

形成包含N个第三分量的一维特征矩阵

形成包含N个第四分量的一维特征矩阵

由上述一维特征矩阵构成包含N个调度器压力特征向量的调度器压力特征矩阵：

由调度器的调度器压力特征矩阵及与其对应的标签构成机器学习模型的训练样本集，训练样本集为如下公式所示：

其中，

为模型的输入，表示第i个调度器X_i的特征向量；Y_i表示第i个调度器X_i对应的标签，N是样本总数。

步骤2、建立基于极限学习机的云工作流调度器压力预测模型，如公式(7)和(8)所示：

Hβ＝Y (7)

其中，H为隐藏层节点的输出，β为输出权值，Y为云工作流期望输出矩阵，N为样本个数，L为隐含层节点的个数，g(x)为激活函数，S_i为极限学习机学习模型的输入数据，W_i＝[w_i1,w_i1,...,w_in]^T为输入到隐藏层节点之间的输入权值矩阵，b_i为第i个隐藏节点的偏置，W_i和b_i生成后保持不变；β_i为隐藏层到输出之间的输出权值矩阵。

步骤3、采用步骤1生成的训练样本集对基于极限学习机的云工作流调度器压力预测模型进行训练，本发明采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵，完成基于极限学习机的云工作流调度器压力预测模型的训练。

本实验将获取的样本数据集按一定比例划分成两个部分，一部分用于模型的训练，剩下一部分用于测试；利用极限学习机模型的训练得到隐藏层到输出之间的输出权值矩阵后，利用测试部分的样本数据集进行测试。后期可以不断通过测试更新数据集得到更新的模型，加入到调度器中进行实际预测。

步骤4、使用中，采用本发明提出的数据预处理方法对待预测的调度器压力数据进行处理，得到待预测的调度器压力的特征向量，将调度器压力的特征向量输入到训练得到的基于极限学习机的调度器压力预测模型中，得到待预测调度器在达到满载状态之前预计还可接收工作流的数量。

本发明的步骤3中使用的采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵，具体包括如下步骤：

步骤3.1、训练单隐藏层神经网络，得到最小化代价函数：

求解隐含层节点的输出权值矩阵的方法有很多种，利用梯度下降法也可以求解隐含层节点的输出权值矩阵，这里选择使用一种可以较为精准求解广义逆的方法来使代价函数最小。对H进行满秩分解，即H＝LR，其中，L为列满秩矩阵，R为行满秩矩阵，再利用公式(9)和(10)求出β矩阵。

H⁺＝R^H(RR^H)^-1(L^HL)^-1L^H (9)

其中，H⁺表示H矩阵的广义逆。此方法能够使模型相较于其他迭代求权值矩阵的方法更加简便易算，同时得到

的范数最小，进而提高了训练极限学习机模型的速度、提高了效率并且能够保证工作流调度中预测模型的精确度。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于极限学习机的云工作流调度器压力预测方法，其特征在于，包括以下步骤：

Hβ＝Y(1)

步骤4、使用中，将待预测的调度器压力数据输入所述步骤3训练得到的基于极限学习机的云工作流调度器压力预测模型，得到所述待预测调度器在达到满载状态之前预计还可接收工作流的数量；

所述步骤1中所述训练样本集的构建包括：将所述调度器压力数据进行归一化预处理形成压力值特征向量，由所述压力值特征向量与其对应的标签构建训练样本数据集；

所述训练样本集的构建包括以下步骤：

形成包含N个第一分量的一维特征矩阵

形成包含N个第二分量的一维特征矩阵

形成包含N个第三分量的一维特征矩阵

形成包含N个第四分量的一维特征矩阵

由此构成包含N个压力值特征向量的压力值特征矩阵：

其中，

2.根据权利要求1所述的云工作流调度器压力预测方法，其特征在于，所述步骤3中采用所述步骤1生成的所述训练样本集完成对所述基于极限学习机的云工作流调度器压力预测模型的训练时，采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵。

3.根据权利要求2所述的云工作流调度器压力预测方法，其特征在于，所述采用基于求Moore-Penrose广义逆的方法求解隐含层节点的输出权值矩阵，包括以下步骤：

H⁺＝R^H(RR^H)^-1(L^HL)^-1L^H(7)

其中，H⁺表示H矩阵的广义逆。