CN109271295A - 一种云集群环境下的异常作业预测方法 - Google Patents

一种云集群环境下的异常作业预测方法 Download PDF

Info

Publication number
CN109271295A
CN109271295A CN201811090911.2A CN201811090911A CN109271295A CN 109271295 A CN109271295 A CN 109271295A CN 201811090911 A CN201811090911 A CN 201811090911A CN 109271295 A CN109271295 A CN 109271295A
Authority
CN
China
Prior art keywords
task
moment
abnormal
tasks
cloud cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811090911.2A
Other languages
English (en)
Other versions
CN109271295B (zh
Inventor
谢丽霞
汪子荧
杨宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN201811090911.2A priority Critical patent/CN109271295B/zh
Publication of CN109271295A publication Critical patent/CN109271295A/zh
Application granted granted Critical
Publication of CN109271295B publication Critical patent/CN109271295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种云集群环境下的异常作业预测方法。其包括从原始任务集中获取任务集;从任务集中提取任务的静态特征;经过支持向量机将任务分为正常任务和异常任务;计算正常任务'动态特征,并构成动态特征序列;利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理;检索异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业等步骤。本发明提供的云集群环境下的异常作业预测方法在准确度及预测时间等方面明显优于其他方法,从而能够有效控制异常作业能耗。

Description

一种云集群环境下的异常作业预测方法
技术领域
本发明属于网络信息安全技术领域,特别是涉及一种云集群环境下的异常 作业预测方法。
背景技术
云计算近年来成为现代社会信息化的重要组成部分,其不仅能够为科学、 工业和商业提供非常高效、先进的工具,也为普通用户日常处理数据提供了一 个平台。用户上传的数据和任务由云提供商进行管理,调度,并以几乎完全自 动化的方式进行处理。
在云集群环境下的计算过程中,大量的作业同时被处理、运行,如何在云 计算系统下保证海量的作业快速而有效的运行是十分必要的,与此同时,如何 保证云计算系统处理的任务都是可靠的,不惧威胁性的,不会恶意损坏用户存 放在云端的资源或者云服务器,这对于用户和云提供商来说都是必不可少的。 通常那些会对云计算系统安全造成威胁的作业我们称之为异常作业。预测异常 作业不仅可以快速识别海量的待处理作业,将正常的作业放置到运行队列中, 中止运行异常作业,可以有效地防止异常作业对云计算系统以及平台下存储的 资源造成威胁。
通过分析Google发布的数据中心资源负载日志,发现超过670000个作业, 囊括了2600万个任务中只有57.6%的任务被成功执行,超过40%的任务因发生 异常被云计算系统终止。同时由于一个作业通常会被划分成多个任务执行,某 一任务的异常也会影响整个作业终止状态。
为了提高计算的效率,云计算系统会对异常任务进行反复调度,并且由于 云集群平台没有调度次数限制,对异常任务的反复调度会显著增加调度负载, 从而导致云计算系统资源剧烈变动,而这可能被攻击者利用实施任务注入攻击 或拒绝服务攻击。不仅对云集群系统产生危害,也会威胁云集群系统的用户隐 私。在动态云集群环境中,预测作业终止状态是否异常的方法已成为目前的研 究趋势。
而异常作业预测,主要就是对作业进行分类。将作业分成正常与异常的, 执行正常的作业,同时直接中止对异常作业的调度或者运行。现在主流的对作 业进行预测的方法就是支持向量机模型、长短时记忆模型和在线序列极限学习 机方法,通过已知数据集的训练,使上述模型能够在任务执行之前快速判断出 任务是否正常以及任务是否会恶意消耗系统资源,有效的防止了任务注入攻击、 拒绝服务攻击等系统安全问题。但目前尚缺少有效的方法。
发明内容
为了解决上述问题,本发明的目的在于提供一种云集群环境下的异常作业 预测方法(AJP-IGRU)。
为了达到上述目的,本发明提供的云集群环境下的异常作业预测方法包括 按顺序进行的下列步骤:
1)从原始任务集中获取任务集;原始任务集选用Google发布的集群任务 性能数据集中前10天的任务数据集,该任务数据集中包含18623个作业,随机 选取18000个作业,这些作业一共包括了650万个任务,每个作业包括一或者 多个任务,由所有任务组成任务集;
2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针 对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态 特征序列αn i(n=1,2,...,n);
3)在离线状态下,将上述静态特征序列αn i作为支持向量机的输入,经过 支持向量机计算最大间隔超平面之后,将所有任务分为能够在云集群环境下成 功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异 常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果 为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);
4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态 特征构成动态特征序列;
5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列 进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常任务的终止 状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无异常,则继 续运行该正常任务;
6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的 异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完 成预测过程。
在步骤2)中,所述的静态特征包括调度类、任务同ID的任务数、任务优 先级、任务的请求资源量。
在步骤3)中,所述的经过支持向量机计算最大间隔超平面的方法如下:
对于输入的静态特征序列αn i,求正常任务与异常任务的最大间隔超平面问 题等价于求解下面公式中二次优化问题:
其中,ω为分类平面的法向量,e为常量,G为惩罚参数,ξi为允许任务偏 离平面的距离。
在步骤4)中,所述的计算动态特征具体方法如下:
对于正常任务i在运行阶段中的第t个时刻,若此时刻资源占用量Zt满足公 式(2),则该正常任务的异常次数Qi加1;
其中,Vavr表示第t个时刻之前资源占用量的平均值;同时,若第t个时刻 及第t-1个时刻满足公式(3),则异常次数Qi累计加1;
Vmax表示第t个时刻之前资源占用量变动的最大值;将正常任务i在第t个 时刻的资源占用量Zt、异常次数Qi作为其特征值,并将这些特征值称为正常任 务i在第t个时刻的动态特征;由所有动态特征构成第t个时刻的动态特征序列 βk i(k=1,2,..,k)。
在步骤5)中,所述的利用改进的单元门控递归神经网络对多个时刻的动态 特征序列进行在线处理的方法如下:
步骤1:正常任务i在第t个时刻时,将上一时刻t-1的输出状态信息ht-1和 第t个时刻的动态特征序列βk i由输入节点Ic输入改进的单元门控递归神经网络 中的重置门rc与更新门zc
步骤2:利用重置门与更新门同时对上述信息进行处理,其中重置门rc决定 上一时刻t-1的输出状态信息ht-1中信息的丢弃程度,并由公式(4)计算出信息 丢弃之后的状态值vt
vt=μ(xtWr+ht-1Ur) (4)
其中,Wr为第t个时刻到重置门rc的连接矩阵,Ur表示上一时刻t-1到重置 门rc的连接矩阵,μ为动态权重,该值可由公式(5)计算得到;
其中,Qk为第t个时刻所属窗口中的异常次数,为常数;
更新门zc则控制上一时刻t-1的输出状态信息ht-1被保留在当前状态中的程 度,由公式(6)可得到更新后的状态值ut
ut=μ(xtWz+ht-1Uz) (6)
其中,Wz为第t个时刻到更新门zc的连接矩阵,Uz是上一时刻t-1到更新门 zc的连接矩阵;
步骤3:使用tanh激活函数处理信息丢弃之后的状态值vt,得到待选状态值 st
其中,W为第t个时刻到待选状态值st的连接矩阵,U是上一时刻t-1到待 选状态值st的连接矩阵;
步骤4:在IGRU中,将信息丢弃之后的状态值vt与更新后的状态值ut以及 待选状态值st在隐含层融合,得到丢弃了次要信息同时保留重要信息的隐含层 状态值ht
ht=(1-ut)ht-1+utst (8)
步骤5:将第t个时刻的最终输出信息pt由输出节点Oc输出并作为下一时 刻ht+1的状态信息:
其中,WO表示第t个时刻到输出节点Oc的连接矩阵。
本发明提供的云集群环境下的异常作业预测方法,目的是为解决传统云集 群异常作业预测方法效率低、预测时间长的问题。方法从作业子任务的静态特 征及动态特征角度分别考虑作业异常。首先,离线阶段采用静态特征初步分类 任务;根据动态特征提出一种改进门控递归单元神经网络,之后再依据动态特 征在线预测异常任务;依据作业与任务的相关性检索异常作业并实现对异常作 业的预测。实验结果表明,与其他方法相比,本文方法在灵敏度、精确度和时 间占比方面具有明显优势。
附图说明
图1为任务生命周期示意图;
图2为改进的单元门控递归神经网络结构示意图;
图3为本发明提供的云集群环境下的异常作业预测方法流程图;
图4为本发明方法预测灵敏度仿真图;
图5为本发明方法预测精确度仿真图;
图6为本发明方法预测任务驻留时间比仿真图。
具体实施方式
下面结合附图和具体实施例对本发明提供的云集群环境下的异常作业预测 方法进行详细说明。
如图3所示,本发明提供的云集群环境下的异常作业预测方法包括按顺序 进行的下列步骤:
1)从原始任务集中获取任务集;本发明中的原始任务集选用Google发布 的集群任务性能数据集中前10天的任务数据集。该任务数据集中包含18623个 作业,本发明随机选取18000个作业,这些作业一共包括了650万个任务,每 个作业包括一或者多个任务,由所有任务组成任务集。
2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针 对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态 特征序列αn i(n=1,2,...,n);
如图1所示,在任务的完整生命周期中,离线和运行为任务的两个主要状 态。在离线状态时,任务具有一定的特征,且在运行时是不变的,本发明中将 这些特征称为“静态特征”。将运行状态时任务每一时刻变化的特征称为“动态 特征”。
所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请 求资源量。在运行状态时,任务每一时刻的资源用量是不同的,相同时间间隔 的资源消耗量和峰值也是不同的,因此正常任务与异常任务之间的资源消耗量 具有明显差距。
3)在离线状态下,将上述静态特征序列αn i作为支持向量机(SVM)的输 入,经过SVM计算最大间隔超平面之后,将所有任务分为能够在云集群环境下 成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异 常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果 为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);
所述的经过SVM计算最大间隔超平面的方法如下:
对于输入的静态特征序列αn i,求正常任务与异常任务的最大间隔超平面问 题等价于求解下面公式中二次优化问题。
其中,ω为分类平面的法向量,e为常量,G为惩罚参数,ξi为允许任务偏 离平面的距离。
在云集群环境下,由于同一时刻处理的任务数量巨大,同时在线预测所有 任务将会造成云集群系统资源负担过大,故在任务离线状态下根据任务静态特 征对其进行分类,仅对分类结果为正常的任务进行在线预测,可有效提高在线 预测效率并缩短预测耗时。
4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态 特征构成动态特征序列;
计算动态特征具体方法如下:
对于正常任务i在运行阶段中的第t个时刻,若此时刻资源占用量Zt满足公 式(2),则该正常任务的异常次数Qi加1。
其中,Vavr表示第t个时刻之前资源占用量的平均值。同时,若第t个时刻 及第t-1个时刻满足公式(3),则异常次数Qi累计加1。
Vmax表示第t个时刻之前资源占用量变动的最大值。将正常任务i在第t个 时刻的资源占用量Zt、异常次数Qi作为其特征值,并将这些特征值称为正常任 务i在第t个时刻的动态特征。
任务每时刻特征都会对其终止状态造成影响,任务执行过程中出现异常频 次越高,则该任务为异常任务的可能性越高。由所有动态特征构成第t个时刻的 动态特征序列βk i(k=1,2,..,k)。
5)利用改进的单元门控递归神经网络(IGRU)同时对多个时刻的动 态特征序列进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常 任务的终止状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无 异常,则继续运行该正常任务;
如图2所示,所述的利用改进的单元门控递归神经网络对多个时刻的动态 特征序列进行在线处理的方法如下:
步骤1:正常任务i在第t个时刻时,将上一时刻t-1的输出状态信息ht-1和 第t个时刻的动态特征序列βk i由输入节点Ic输入IGRU中的重置门rc与更新门 zc
步骤2:利用重置门与更新门同时对上述信息进行处理,其中重置门rc决定 上一时刻t-1的输出状态信息ht-1中信息的丢弃程度,并由公式(4)计算出信息 丢弃之后的状态值vt
vt=μ(xtWr+ht-1Ur) (4)
其中,Wr为第t个时刻到重置门rc的连接矩阵,Ur表示上一时刻t-1到重置 门rc的连接矩阵,μ为动态权重,该值可由公式(5)计算得到。在第t个时刻, 信息丢弃之后的状态值vt值越小,则说明上一时刻t-1的输出状态信息ht-1中信 息被丢弃程度越大。
其中,Qk为第t个时刻所属窗口中的异常次数,为常数。
更新门zc则控制上一时刻t-1的输出状态信息ht-1被保留在当前状态中的程 度,由公式(6)可得到更新后的状态值ut。更新后的状态值ut越大,则说明在 当前状态中上一时刻t-1的输出状态信息ht-1及动态特征序列βn i'保留的信息越 多。
ut=μ(xtWz+ht-1Uz) (6)
其中,Wz为第t个时刻到更新门zc的连接矩阵,Uz是上一时刻t-1到更新门 zc的连接矩阵。
由公式(6)可知,正常任务i的动态特征是不断变化的,动态权重也随之 变化。即在第t个时刻,重置门rc和更新门zc对动态特征信息的丢弃及记忆程 度是随动态特征的变化而改变的。
步骤3:使用tanh激活函数处理信息丢弃之后的状态值vt,得到待选状态值 st
其中,W为第t个时刻到待选状态值st的连接矩阵,U是上一时刻t-1到待 选状态值st的连接矩阵;
步骤4:在IGRU中,将信息丢弃之后的状态值vt与更新后的状态值ut以及 待选状态值st在隐含层融合,得到丢弃了次要信息同时保留重要信息的隐含层 状态值ht
ht=(1-ut)ht-1+utst (8)
步骤5:将第t个时刻的最终输出信息pt由输出节点Oc输出并作为下一时 刻ht+1的状态信息。
其中,WO表示第t个时刻到输出节点Oc的连接矩阵。
在正常任务执行过程中,IGRU使用动态权重控制特征信息的遗忘程度更符 合云集群系统作业特性及云集群环境需求,能最大程度地保留重要特征,有助 于提升预测方法的效率及准确度。
6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的 异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完 成预测过程。
图4和图5分别为在相同仿真环境下采用本发明提供的基于改进单元门控 递归神经网络在线预测方法(AJP-IGRU)和支持向量机模型(SVM)、长短时 记忆模型(LSTM)、异常频率学习算法(AFTL)以及在线学习向量机模型(OS-ELM)评估预测灵敏度及精确度仿真实验结果示意图;从图4及图5可见, 在预测灵敏度和精确度方面,AJP-IGRU明显高于其他方法,这是因为AJP-IGRU 采用静态特征筛选任务,可使在线预测任务数量有所下降,导致在线预测压力 减小;同时,IGRU中更新门采用动态权重控制动态特征丢弃程度的方式使得IGRU反应更迅速,因此预测异常作业的灵敏度高于其他方法。并且在AJP-IGRU 中,根据作业与任务之间的相关性检索异常作业的方式不仅提高了预测异常作 业的精确度,也避免了重复预测,从而提高了预测灵敏度及精确度。
图6为AJP-IGRU与AFTL及OS-ELM在线预测的预测时间结果图。预测时 间为作业终止状态被正确预测时,已经在云集群系统中的运行时间。由图6可 见,AFTL预测耗时随着任务数目增加呈线性增长,尽管OS-ELM在作业数量 较少时预测耗时与AJP-IGRU相近,但任务数量较多时预测时间显著增加。该 实验结果表明,在预测大规模作业数据时,AJP-IGRU更能及时预测作业异常, 缩短异常作业在系统中的运行时间,从而减少异常作业的资源消耗。

Claims (5)

1.一种云集群环境下的异常作业预测方法,其特征在于:所述的云集群环境下的异常作业预测方法包括按顺序进行的下列步骤:
1)从原始任务集中获取任务集;原始任务集选用Google发布的集群任务性能数据集中前10天的任务数据集,该任务数据集中包含18623个作业,随机选取18000个作业,这些作业一共包括了650万个任务,每个作业包括一或者多个任务,由所有任务组成任务集;
2)从上述任务集中提取任务的静态特征;在任务总量为N的任务集中,针对待处理任务,提取其在线时已具备的静态特征,并由所有静态特征构成静态特征序列αn i,其中n=1,2,...,n;
3)在离线状态下,将上述静态特征序列αn i作为支持向量机的输入,经过支持向量机计算最大间隔超平面之后,将所有任务分为能够在云集群环境下成功执行的“正常任务”和无法正常完成且可能造成云集群系统负载过大的“异常任务”两种类型,如果分类结果为正常任务,执行步骤4);而如果分类结果为异常任务,云集群系统直接停止对其进行调度,并跳转至步骤6);
4)计算第t个时刻云集群系统处理的正常任务'的动态特征,并由所有动态特征构成动态特征序列;
5)利用改进的单元门控递归神经网络同时对多个时刻的动态特征序列进行在线处理,以预测该正常任务的终止状态,一旦预测出该正常任务的终止状态为异常,则立即终止该正常任务的运行并跳转至步骤6);若无异常,则继续运行该正常任务;
6)检索步骤3)和步骤5)中确定出的异常任务的ID,若检索出ID一致的异常任务,则停止其运行,并将该异常任务所属作业标记为异常作业,由此完成预测过程。
2.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤2)中,所述的静态特征包括调度类、任务同ID的任务数、任务优先级、任务的请求资源量。
3.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤3)中,所述的经过支持向量机计算最大间隔超平面的方法如下:
对于输入的静态特征序列αn i,求正常任务与异常任务的最大间隔超平面问题等价于求解下面公式中二次优化问题:
其中,ω为分类平面的法向量,e为常量,G为惩罚参数,ξi为允许任务偏离平面的距离。
4.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤4)中,所述的计算动态特征具体方法如下:
对于正常任务i在运行阶段中的第t个时刻,若此时刻资源占用量Zt满足公式(2),则该正常任务的异常次数Qi加1;
其中,Vavr表示第t个时刻之前资源占用量的平均值;同时,若第t个时刻及第t-1个时刻满足公式(3),则异常次数Qi累计加1;
Vmax表示第t个时刻之前资源占用量变动的最大值;将正常任务i在第t个时刻的资源占用量Zt、异常次数Qi作为其特征值,并将这些特征值称为正常任务i在第t个时刻的动态特征;由所有动态特征构成第t个时刻的动态特征序列βk i(k=1,2,..,k)。
5.根据权利要求1所述的云集群环境下的异常作业预测方法,其特征在于:在步骤5)中,所述的利用改进的单元门控递归神经网络对多个时刻的动态特征序列进行在线处理的方法如下:
步骤1:正常任务i在第t个时刻时,将上一时刻t-1的输出状态信息ht-1和第t个时刻的动态特征序列βk i由输入节点Ic输入改进的单元门控递归神经网络中的重置门rc与更新门zc
步骤2:利用重置门与更新门同时对上述信息进行处理,其中重置门rc决定上一时刻t-1的输出状态信息ht-1中信息的丢弃程度,并由公式(4)计算出信息丢弃之后的状态值vt
vt=μ(xtWr+ht-1Ur) (4)
其中,Wr为第t个时刻到重置门rc的连接矩阵,Ur表示上一时刻t-1到重置门rc的连接矩阵,μ为动态权重,该值可由公式(5)计算得到;
其中,Qk为第t个时刻所属窗口中的异常次数,为常数;
更新门zc则控制上一时刻t-1的输出状态信息ht-1被保留在当前状态中的程度,由公式(6)可得到更新后的状态值ut
ut=μ(xtWz+ht-1Uz) (6)
其中,Wz为第t个时刻到更新门zc的连接矩阵,Uz是上一时刻t-1到更新门zc的连接矩阵;
步骤3:使用tanh激活函数处理信息丢弃之后的状态值vt,得到待选状态值st
其中,W为第t个时刻到待选状态值st的连接矩阵,U是上一时刻t-1到待选状态值st的连接矩阵;
步骤4:在IGRU中,将信息丢弃之后的状态值vt与更新后的状态值ut以及待选状态值st在隐含层融合,得到丢弃了次要信息同时保留重要信息的隐含层状态值ht
ht=(1-ut)ht-1+utst (8)
步骤5:将第t个时刻的最终输出信息pt由输出节点Oc输出并作为下一时刻ht+1的状态信息:
其中,WO表示第t个时刻到输出节点Oc的连接矩阵。
CN201811090911.2A 2018-09-19 2018-09-19 一种云集群环境下的异常作业预测方法 Active CN109271295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811090911.2A CN109271295B (zh) 2018-09-19 2018-09-19 一种云集群环境下的异常作业预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811090911.2A CN109271295B (zh) 2018-09-19 2018-09-19 一种云集群环境下的异常作业预测方法

Publications (2)

Publication Number Publication Date
CN109271295A true CN109271295A (zh) 2019-01-25
CN109271295B CN109271295B (zh) 2021-09-14

Family

ID=65197058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811090911.2A Active CN109271295B (zh) 2018-09-19 2018-09-19 一种云集群环境下的异常作业预测方法

Country Status (1)

Country Link
CN (1) CN109271295B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685166A (zh) * 2021-03-11 2021-04-20 北京首都在线科技股份有限公司 分布式任务调度的方法、装置、设备和存储介质
CN113760945A (zh) * 2020-08-11 2021-12-07 北京沃东天骏信息技术有限公司 一种审核sql语句的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961719B1 (en) * 2002-01-07 2005-11-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Hybrid neural network and support vector machine method for optimization
CN106600070A (zh) * 2016-12-20 2017-04-26 郭建峰 基于ipso‑bp神经网络的短期股价预测算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961719B1 (en) * 2002-01-07 2005-11-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Hybrid neural network and support vector machine method for optimization
CN106600070A (zh) * 2016-12-20 2017-04-26 郭建峰 基于ipso‑bp神经网络的短期股价预测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘春红等: "基于SVM分类的云集群失败作业主动预测方法", 《北京邮电大学学报》 *
王鑫等: "基于LSTM循环神经网络的故障时间序列预测", 《北京航空航天大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760945A (zh) * 2020-08-11 2021-12-07 北京沃东天骏信息技术有限公司 一种审核sql语句的方法及装置
CN112685166A (zh) * 2021-03-11 2021-04-20 北京首都在线科技股份有限公司 分布式任务调度的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109271295B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Shukri et al. Enhanced multi-verse optimizer for task scheduling in cloud computing environments
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
US9934071B2 (en) Job scheduler for distributed systems using pervasive state estimation with modeling of capabilities of compute nodes
CN112685170B (zh) 备份策略的动态优化
Yang et al. Intelligent resource scheduling at scale: a machine learning perspective
CN112000459A (zh) 一种用于服务的扩缩容的方法及相关设备
US10853718B2 (en) Predicting time-to-finish of a workflow using deep neural network with biangular activation functions
US10684909B1 (en) Anomaly detection for preserving the availability of virtualized cloud services
Singh et al. Ensemble learning for large-scale workload prediction
Hariharan et al. Wbat job scheduler: A multi-objective approach for job scheduling problem on cloud computing
CN109271295A (zh) 一种云集群环境下的异常作业预测方法
CN108021810A (zh) 一种海量恶意代码高效检测方法
Funika et al. Evaluating the use of policy gradient optimization approach for automatic cloud resource provisioning
Funika et al. Automatic management of cloud applications with use of proximal policy optimization
Kalaiselvi et al. A novel impulsive genetic fuzzy C-means for task scheduling and hybridization of improved Fire Hawk Optimizer and enhanced deep Q-learning algorithm for load balancing in cloud
Sarathambekai et al. Performance comparison of discrete particle swarm optimisation and shuffled frog leaping algorithm in multiprocessor task scheduling problem
Grzonka et al. Using Artificial Neural Network For Monitoring And Supporting The Grid Scheduler Performance.
Skrinarova Implementation and evaluation of scheduling algorithm based on PSO HC for elastic cluster criteria
Jafarzadeh-Shirazi et al. Task scheduling with firefly algorithm in cloud computing
Rahman et al. Dynamic Checkpoint Initiation in Serverless MEC
Malhotra A critical survey of virtual machine migration techniques in cloud computing
Liu et al. Scheduling tasks with Markov-chain based constraints
Chen et al. Conlar: Learning to allocate resources to docker containers under time-varying workloads
Choi et al. Adaptive resource provisioning method using application-aware machine learning based on job history in heterogeneous infrastructures
Chen et al. Joint Optimization of Request Scheduling and Container Prewarming in Serverless Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant