CN109271295A

CN109271295A - 一种云集群环境下的异常作业预测方法

Info

Publication number: CN109271295A
Application number: CN201811090911.2A
Authority: CN
Inventors: 谢丽霞; 汪子荧; 杨宏宇
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-01-25
Anticipated expiration: 2038-09-19
Also published as: CN109271295B

Abstract

一种云集群环境下的异常作业预测方法。其包括从原始任务集中获取任务集；从任务集中提取任务的静态特征；经过支持向量机将任务分为正常任务和异常任务；计算正常任务'动态特征，并构成动态特征序列；利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理；检索异常任务的ID，若检索出ID一致的异常任务，则停止其运行，并将该异常任务所属作业标记为异常作业等步骤。本发明提供的云集群环境下的异常作业预测方法在准确度及预测时间等方面明显优于其他方法，从而能够有效控制异常作业能耗。

Description

一种云集群环境下的异常作业预测方法

技术领域

本发明属于网络信息安全技术领域，特别是涉及一种云集群环境下的异常作业预测方法。

背景技术

云计算近年来成为现代社会信息化的重要组成部分，其不仅能够为科学、工业和商业提供非常高效、先进的工具，也为普通用户日常处理数据提供了一个平台。用户上传的数据和任务由云提供商进行管理，调度，并以几乎完全自动化的方式进行处理。

在云集群环境下的计算过程中，大量的作业同时被处理、运行，如何在云计算系统下保证海量的作业快速而有效的运行是十分必要的，与此同时，如何保证云计算系统处理的任务都是可靠的，不惧威胁性的，不会恶意损坏用户存放在云端的资源或者云服务器，这对于用户和云提供商来说都是必不可少的。通常那些会对云计算系统安全造成威胁的作业我们称之为异常作业。预测异常作业不仅可以快速识别海量的待处理作业，将正常的作业放置到运行队列中，中止运行异常作业，可以有效地防止异常作业对云计算系统以及平台下存储的资源造成威胁。

通过分析Google发布的数据中心资源负载日志，发现超过670000个作业，囊括了2600万个任务中只有57.6％的任务被成功执行，超过40％的任务因发生异常被云计算系统终止。同时由于一个作业通常会被划分成多个任务执行，某一任务的异常也会影响整个作业终止状态。

为了提高计算的效率，云计算系统会对异常任务进行反复调度，并且由于云集群平台没有调度次数限制，对异常任务的反复调度会显著增加调度负载，从而导致云计算系统资源剧烈变动，而这可能被攻击者利用实施任务注入攻击或拒绝服务攻击。不仅对云集群系统产生危害，也会威胁云集群系统的用户隐私。在动态云集群环境中，预测作业终止状态是否异常的方法已成为目前的研究趋势。

而异常作业预测，主要就是对作业进行分类。将作业分成正常与异常的，执行正常的作业，同时直接中止对异常作业的调度或者运行。现在主流的对作业进行预测的方法就是支持向量机模型、长短时记忆模型和在线序列极限学习机方法，通过已知数据集的训练，使上述模型能够在任务执行之前快速判断出任务是否正常以及任务是否会恶意消耗系统资源，有效的防止了任务注入攻击、拒绝服务攻击等系统安全问题。但目前尚缺少有效的方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种云集群环境下的异常作业预测方法(AJP-IGRU)。

为了达到上述目的，本发明提供的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤：

1)从原始任务集中获取任务集；原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集，该任务数据集中包含18623个作业，随机选取18000个作业，这些作业一共包括了650万个任务，每个作业包括一或者多个任务，由所有任务组成任务集；

2)从上述任务集中提取任务的静态特征；在任务总量为N的任务集中，针对待处理任务，提取其在线时已具备的静态特征，并由所有静态特征构成静态特征序列α_n ⁱ(n＝1,2,...,n)；

3)在离线状态下，将上述静态特征序列α_n ⁱ作为支持向量机的输入，经过支持向量机计算最大间隔超平面之后，将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型，如果分类结果为正常任务，执行步骤4)；而如果分类结果为异常任务，云集群系统直接停止对其进行调度，并跳转至步骤6)；

4)计算第t个时刻云集群系统处理的正常任务'的动态特征，并由所有动态特征构成动态特征序列；

5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理，以预测该正常任务的终止状态，一旦预测出该正常任务的终止状态为异常，则立即终止该正常任务的运行并跳转至步骤6)；若无异常，则继续运行该正常任务；

6)检索步骤3)和步骤5)中确定出的异常任务的ID，若检索出ID一致的异常任务，则停止其运行，并将该异常任务所属作业标记为异常作业，由此完成预测过程。

在步骤2)中，所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。

在步骤3)中，所述的经过支持向量机计算最大间隔超平面的方法如下：

对于输入的静态特征序列α_n ⁱ，求正常任务与异常任务的最大间隔超平面问题等价于求解下面公式中二次优化问题：

其中，ω为分类平面的法向量，e为常量，G为惩罚参数，ξ_i为允许任务偏离平面的距离。

在步骤4)中，所述的计算动态特征具体方法如下：

对于正常任务i在运行阶段中的第t个时刻，若此时刻资源占用量Z_t满足公式(2)，则该正常任务的异常次数Q_i加1；

其中，V_avr表示第t个时刻之前资源占用量的平均值；同时，若第t个时刻及第t-1个时刻满足公式(3)，则异常次数Q_i累计加1；

V_max表示第t个时刻之前资源占用量变动的最大值；将正常任务i在第t个时刻的资源占用量Z_t、异常次数Q_i作为其特征值，并将这些特征值称为正常任务i在第t个时刻的动态特征；由所有动态特征构成第t个时刻的动态特征序列 β_k ⁱ(k＝1,2,..,k)。

在步骤5)中，所述的利用改进的单元门控递归神经网络对多个时刻的动态特征序列进行在线处理的方法如下：

步骤1：正常任务i在第t个时刻时，将上一时刻t-1的输出状态信息h_t-1和第t个时刻的动态特征序列β_k ⁱ由输入节点I_c输入改进的单元门控递归神经网络中的重置门r_c与更新门z_c；

步骤2：利用重置门与更新门同时对上述信息进行处理，其中重置门r_c决定上一时刻t-1的输出状态信息h_t-1中信息的丢弃程度，并由公式(4)计算出信息丢弃之后的状态值v_t：

v_t＝μ(x_tW_r+h_t-1U_r) (4)

其中，W_r为第t个时刻到重置门r_c的连接矩阵，U_r表示上一时刻t-1到重置门r_c的连接矩阵，μ为动态权重，该值可由公式(5)计算得到；

其中，Q_k为第t个时刻所属窗口中的异常次数，为常数；

更新门z_c则控制上一时刻t-1的输出状态信息h_t-1被保留在当前状态中的程度，由公式(6)可得到更新后的状态值u_t：

u_t＝μ(x_tW_z+h_t-1U_z) (6)

其中，W_z为第t个时刻到更新门z_c的连接矩阵，U_z是上一时刻t-1到更新门 z_c的连接矩阵；

步骤3：使用tanh激活函数处理信息丢弃之后的状态值v_t，得到待选状态值 s_t：

其中，W为第t个时刻到待选状态值s_t的连接矩阵，U是上一时刻t-1到待选状态值s_t的连接矩阵；

步骤4：在IGRU中，将信息丢弃之后的状态值v_t与更新后的状态值u_t以及待选状态值s_t在隐含层融合，得到丢弃了次要信息同时保留重要信息的隐含层状态值h_t；

h_t＝(1-u_t)h_t-1+u_ts_t (8)

步骤5：将第t个时刻的最终输出信息p_t由输出节点O_c输出并作为下一时刻h_t+1的状态信息：

其中，W_O表示第t个时刻到输出节点O_c的连接矩阵。

本发明提供的云集群环境下的异常作业预测方法，目的是为解决传统云集群异常作业预测方法效率低、预测时间长的问题。方法从作业子任务的静态特征及动态特征角度分别考虑作业异常。首先，离线阶段采用静态特征初步分类任务；根据动态特征提出一种改进门控递归单元神经网络，之后再依据动态特征在线预测异常任务；依据作业与任务的相关性检索异常作业并实现对异常作业的预测。实验结果表明，与其他方法相比，本文方法在灵敏度、精确度和时间占比方面具有明显优势。

附图说明

图1为任务生命周期示意图；

图2为改进的单元门控递归神经网络结构示意图；

图3为本发明提供的云集群环境下的异常作业预测方法流程图；

图4为本发明方法预测灵敏度仿真图；

图5为本发明方法预测精确度仿真图；

图6为本发明方法预测任务驻留时间比仿真图。

具体实施方式

下面结合附图和具体实施例对本发明提供的云集群环境下的异常作业预测方法进行详细说明。

如图3所示，本发明提供的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤：

1)从原始任务集中获取任务集；本发明中的原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集。该任务数据集中包含18623个作业，本发明随机选取18000个作业，这些作业一共包括了650万个任务，每个作业包括一或者多个任务，由所有任务组成任务集。

如图1所示，在任务的完整生命周期中，离线和运行为任务的两个主要状态。在离线状态时，任务具有一定的特征，且在运行时是不变的，本发明中将这些特征称为“静态特征”。将运行状态时任务每一时刻变化的特征称为“动态特征”。

所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。在运行状态时，任务每一时刻的资源用量是不同的，相同时间间隔的资源消耗量和峰值也是不同的，因此正常任务与异常任务之间的资源消耗量具有明显差距。

3)在离线状态下，将上述静态特征序列α_n ⁱ作为支持向量机(SVM)的输入，经过SVM计算最大间隔超平面之后，将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型，如果分类结果为正常任务，执行步骤4)；而如果分类结果为异常任务，云集群系统直接停止对其进行调度，并跳转至步骤6)；

所述的经过SVM计算最大间隔超平面的方法如下：

对于输入的静态特征序列α_n ⁱ，求正常任务与异常任务的最大间隔超平面问题等价于求解下面公式中二次优化问题。

在云集群环境下，由于同一时刻处理的任务数量巨大，同时在线预测所有任务将会造成云集群系统资源负担过大，故在任务离线状态下根据任务静态特征对其进行分类，仅对分类结果为正常的任务进行在线预测，可有效提高在线预测效率并缩短预测耗时。

计算动态特征具体方法如下：

对于正常任务i在运行阶段中的第t个时刻，若此时刻资源占用量Z_t满足公式(2)，则该正常任务的异常次数Q_i加1。

其中，V_avr表示第t个时刻之前资源占用量的平均值。同时，若第t个时刻及第t-1个时刻满足公式(3)，则异常次数Q_i累计加1。

V_max表示第t个时刻之前资源占用量变动的最大值。将正常任务i在第t个时刻的资源占用量Z_t、异常次数Q_i作为其特征值，并将这些特征值称为正常任务i在第t个时刻的动态特征。

任务每时刻特征都会对其终止状态造成影响，任务执行过程中出现异常频次越高，则该任务为异常任务的可能性越高。由所有动态特征构成第t个时刻的动态特征序列β_k ⁱ(k＝1,2,..,k)。

5)利用改进的单元门控递归神经网络(IGRU)同时对多个时刻的动态特征序列进行在线处理，以预测该正常任务的终止状态，一旦预测出该正常任务的终止状态为异常，则立即终止该正常任务的运行并跳转至步骤6)；若无异常，则继续运行该正常任务；

如图2所示，所述的利用改进的单元门控递归神经网络对多个时刻的动态特征序列进行在线处理的方法如下：

步骤1：正常任务i在第t个时刻时，将上一时刻t-1的输出状态信息h_t-1和第t个时刻的动态特征序列β_k ⁱ由输入节点I_c输入IGRU中的重置门r_c与更新门 z_c；

v_t＝μ(x_tW_r+h_t-1U_r) (4)

其中，W_r为第t个时刻到重置门r_c的连接矩阵，U_r表示上一时刻t-1到重置门r_c的连接矩阵，μ为动态权重，该值可由公式(5)计算得到。在第t个时刻，信息丢弃之后的状态值v_t值越小，则说明上一时刻t-1的输出状态信息h_t-1中信息被丢弃程度越大。

其中，Q_k为第t个时刻所属窗口中的异常次数，为常数。

更新门z_c则控制上一时刻t-1的输出状态信息h_t-1被保留在当前状态中的程度，由公式(6)可得到更新后的状态值u_t。更新后的状态值u_t越大，则说明在当前状态中上一时刻t-1的输出状态信息h_t-1及动态特征序列β_n ⁱ'保留的信息越多。

u_t＝μ(x_tW_z+h_t-1U_z) (6)

其中，W_z为第t个时刻到更新门z_c的连接矩阵，U_z是上一时刻t-1到更新门 z_c的连接矩阵。

由公式(6)可知，正常任务i的动态特征是不断变化的，动态权重也随之变化。即在第t个时刻，重置门r_c和更新门z_c对动态特征信息的丢弃及记忆程度是随动态特征的变化而改变的。

步骤3：使用tanh激活函数处理信息丢弃之后的状态值v_t，得到待选状态值 s_t。

h_t＝(1-u_t)h_t-1+u_ts_t (8)

步骤5：将第t个时刻的最终输出信息p_t由输出节点O_c输出并作为下一时刻h_t+1的状态信息。

其中，W_O表示第t个时刻到输出节点O_c的连接矩阵。

在正常任务执行过程中，IGRU使用动态权重控制特征信息的遗忘程度更符合云集群系统作业特性及云集群环境需求，能最大程度地保留重要特征，有助于提升预测方法的效率及准确度。

图4和图5分别为在相同仿真环境下采用本发明提供的基于改进单元门控递归神经网络在线预测方法(AJP-IGRU)和支持向量机模型(SVM)、长短时记忆模型(LSTM)、异常频率学习算法(AFTL)以及在线学习向量机模型(OS-ELM)评估预测灵敏度及精确度仿真实验结果示意图；从图4及图5可见，在预测灵敏度和精确度方面，AJP-IGRU明显高于其他方法，这是因为AJP-IGRU 采用静态特征筛选任务，可使在线预测任务数量有所下降，导致在线预测压力减小；同时，IGRU中更新门采用动态权重控制动态特征丢弃程度的方式使得IGRU反应更迅速，因此预测异常作业的灵敏度高于其他方法。并且在AJP-IGRU 中，根据作业与任务之间的相关性检索异常作业的方式不仅提高了预测异常作业的精确度，也避免了重复预测，从而提高了预测灵敏度及精确度。

图6为AJP-IGRU与AFTL及OS-ELM在线预测的预测时间结果图。预测时间为作业终止状态被正确预测时，已经在云集群系统中的运行时间。由图6可见，AFTL预测耗时随着任务数目增加呈线性增长，尽管OS-ELM在作业数量较少时预测耗时与AJP-IGRU相近，但任务数量较多时预测时间显著增加。该实验结果表明，在预测大规模作业数据时，AJP-IGRU更能及时预测作业异常，缩短异常作业在系统中的运行时间，从而减少异常作业的资源消耗。

Claims

1.一种云集群环境下的异常作业预测方法，其特征在于：所述的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤：

2)从上述任务集中提取任务的静态特征；在任务总量为N的任务集中，针对待处理任务，提取其在线时已具备的静态特征，并由所有静态特征构成静态特征序列α_n ⁱ，其中n＝1,2,...,n；

2.根据权利要求1所述的云集群环境下的异常作业预测方法，其特征在于：在步骤2)中，所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。

3.根据权利要求1所述的云集群环境下的异常作业预测方法，其特征在于：在步骤3)中，所述的经过支持向量机计算最大间隔超平面的方法如下：

4.根据权利要求1所述的云集群环境下的异常作业预测方法，其特征在于：在步骤4)中，所述的计算动态特征具体方法如下：

V_max表示第t个时刻之前资源占用量变动的最大值；将正常任务i在第t个时刻的资源占用量Z_t、异常次数Q_i作为其特征值，并将这些特征值称为正常任务i在第t个时刻的动态特征；由所有动态特征构成第t个时刻的动态特征序列β_k ⁱ(k＝1,2,..,k)。

5.根据权利要求1所述的云集群环境下的异常作业预测方法，其特征在于：在步骤5)中，所述的利用改进的单元门控递归神经网络对多个时刻的动态特征序列进行在线处理的方法如下：

v_t＝μ(x_tW_r+h_t-1U_r) (4)

其中，Q_k为第t个时刻所属窗口中的异常次数，为常数；

u_t＝μ(x_tW_z+h_t-1U_z) (6)

其中，W_z为第t个时刻到更新门z_c的连接矩阵，U_z是上一时刻t-1到更新门z_c的连接矩阵；

步骤3：使用tanh激活函数处理信息丢弃之后的状态值v_t，得到待选状态值s_t：

h_t＝(1-u_t)h_t-1+u_ts_t (8)

其中，W_O表示第t个时刻到输出节点O_c的连接矩阵。