CN109728923A - 一种云平台运行状态监控预警方法及装置 - Google Patents

一种云平台运行状态监控预警方法及装置 Download PDF

Info

Publication number
CN109728923A
CN109728923A CN201711029553.XA CN201711029553A CN109728923A CN 109728923 A CN109728923 A CN 109728923A CN 201711029553 A CN201711029553 A CN 201711029553A CN 109728923 A CN109728923 A CN 109728923A
Authority
CN
China
Prior art keywords
performance data
classifier
operating status
group
subsequent time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711029553.XA
Other languages
English (en)
Other versions
CN109728923B (zh
Inventor
蒋礼青
袁刘
卫迎泽
姚路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711029553.XA priority Critical patent/CN109728923B/zh
Publication of CN109728923A publication Critical patent/CN109728923A/zh
Application granted granted Critical
Publication of CN109728923B publication Critical patent/CN109728923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种云平台运行状态监控预警方法及装置,用以解决现有技术中存在无法在出现故障之前进行预警问题。所述方法具体包括:针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;通过预先训练的分类器的加权层对所述多个性能数据进行加权;通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;在预测的所述运行状态为异常状态时,进行告警。

Description

一种云平台运行状态监控预警方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种云平台运行状态监控预警方法及装置。
背景技术
云平台为用户提供了虚拟的计算资源、存储资源和网络资源等。为了更高效、合理的分配和使用这些云计算资源,管理员需要对云平台的运行状态进行实时监控。
目前通常采用的监控方法为:云平台包括的多个代理节点周期性采集性能数据,如中央处理器(英文:Central Processing Unit,简称:CPU)负载、内存(mem)利用率、硬盘利用率,输入/输出端口(英文:Input/Output,简称:I/O)负载、网络流量情况等,然后将采集的性能数据通过网络发送给云平台包括的中心节点进行存储。之后云平台通过如Ganglia、Nagios等监控软件对中心节点存储的性能数据进行分析,当分析得到某个代理节点的工作状态出现异常(如过载、死机等)时,可以触发告警。
然而,通过现有的监控方法只能在代理节点已经出现故障时触发告警,而无法在出现故障之前进行预警。
发明内容
本发明实施例提供一种云平台运行状态监控预警方法及装置,用以解决现有技术中存在无法在出现故障之前进行预警问题。
第一方面,本发明实施例提供了一种云平台运行状态监控预警方法,包括:
针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
通过预先训练的分类器的加权层对所述多个性能数据进行加权;
通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
在预测的所述运行状态为异常状态时,进行告警。
本发明实施例通过针对云平台中的任一代理节点,采集所述代理节点的多个性能数据,然后通过预先训练的分类器的加权层对所述多个性能数据进行加权,之后通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,并在预测的所述运行状态为异常状态时,进行告警。相比于现有技术中在代理节点已经出现故障时触发告警的方式,本发明实施例中可以在代理节点出现故障之前进行预警,从而可以及时的对该代理节点进行调整,降低出现故障的几率。
结合第一方面,在第一方面的第一种可能的实施方式中,通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,包括:
将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
结合第一方面,在第一方面的第二种可能的实施方式中,所述分类器通过如下方式训练得到:
在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
结合第一方面,在第一方面的第三种可能的实施方式中,在通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,所述方法还包括:
将所述多个性能数据转换成预设的数据格式。
结合第一方面或第一方面的第一种至第三种可能的实施方式中的任一种,在第一方面的第四种可能的实施方式中,在通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,所述方法还包括:
对所述多个性能数据进行过滤。
第二方面,本发明实施例提供了一种云平台运行状态监控预警装置,包括:
采集模块,针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
预测模块,用于通过预先训练的分类器的加权层对所述采集模块采集的上述多个性能数据进行加权;并通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
告警模块,用于在所述预测模块预测的所述运行状态为异常状态时,进行告警。
结合第二方面,在第二方面的第一种可能的实施方式中,所述预测模块,在通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态时,具体用于:
将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
结合第二方面,在第二方面的第二种可能的实施方式中,所述分类器通过如下方式训练得到:
在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
结合第二方面,在第二方面的第三种可能的实施方式中,所述装置还包括:
转换模块,用于在所述预测模块通过预先训练的分类器的加权层对所述采集模块采集的所述多个性能数据进行加权之前,将所述多个性能数据转换成预设的数据格式。
结合第二方面或第二方面的第一种至第三种可能的实施方式中的任一种,在第二方面的第四种可能的实施方式中,所述装置还包括:
过滤模块,用于在所述预测模块通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,对所述多个性能数据进行过滤。
本发明实施例通过针对云平台中的任一代理节点,采集所述代理节点的多个性能数据,然后通过预先训练的分类器的加权层对所述多个性能数据进行加权,之后通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,并在预测的所述运行状态为异常状态时,进行告警。相比于现有技术中在代理节点已经出现故障时触发告警的方式,本发明实施例中可以在代理节点出现故障之前进行预警,从而可以及时的对该代理节点进行调整,降低出现故障的几率。
附图说明
图1为本发明实施例提供的一种预警装置的结构示意图;
图2为本发明实施例提供的一种云平台运行状态监控预警方法的流程示意图;
图3为本发明实施例提供的一种分类器训练方法的流程示意图;
图4为本发明实施例提供的一种预警装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种云平台运行状态监控预警方法及装置,用以解决现有技术中存在无法在出现故障之前进行预警问题。其中,方法和装置是基于同一发明构思的,由于方法及装置解决问题的原理相似,因此装置与方法的实施可以相互参见,重复之处不再赘述。
为了使得本发明的实施例更容易被理解,下面,首先对本发明的实施例中涉及的一些描述加以说明,这些说明不应视为对本发明所要求的保护范围的限定。
朴素贝叶斯算法:朴素贝叶斯算法是一种分类算法,该算法的思想为对于给出的待分类项,求解在此项出现的条件下预设的各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
先验概率:根据历史数据分析得到的概率。
后验概率:相当于条件概率,例如,事件A在另外一个事件B已经发生条件下的发生概率。
蝙蝠算法:蝙蝠算法是一种搜索全局最优权值的算法。该算法是一种基于迭代的优化技术,首先初始化为一组随机解,然后通过迭代搜寻最优解,且在最优解周围通过随机飞行产生局部新解,加强了局部搜索。
下面结合附图对本发明实施例所提供的方案作具体说明。
如图1所示,为本发明实施例提供一种预警装置,可以用于实现本发明实施例提供的云平台运行状态监控预警方法。该预警装置包括预警控制器、分类预测计算控制器、分类预测计算处理器、状态预警通知器。
其中,预警控制器用于将用户定义的告警规则翻译为实时计算引擎能够识别的计算规则,如,用户定义了一种告警规则为,当代理节点处于正常使用状态时不进行告警、当代理节点处于闲置状态时进行闲置提示、当代理节点处于过载状态时进行过载提示、当代理节点处于异常状态时进行异常提示等。
分类预测计算控制器用于采用预先训练好的分类器对代理节点在下一时刻的状态进行预测。
分类预测计算处理器用于基于预警控制器定义的规则,判断分类预测计算控制器预测的状态是否需要告警。当确定需要告警时,触发状态预警通知器进行对应的告警提示。
参阅图2所示,为本发明实施例提供的一种云平台运行状态监控预警方法示意图,所述方法应用于图1所示的预警装置,所述方法具体可以包括如下:
S201,针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
具体的,可以通过集群接口采集性能数据。
其中,采集的性能数据可以存在本地数据库中,也可以存储在云资源中,当然也可以存储在其他存储空间中,本发明实施例在这里不做具体限定。
S202,通过预先训练的分类器的加权层对所述多个性能数据进行加权;
S203,通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
S204,在预测的所述运行状态为异常状态时,进行告警。
本发明实施例通过针对云平台中的任一代理节点,采集所述代理节点的多个性能数据,然后通过预先训练的分类器的加权层对所述多个性能数据进行加权,之后通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,并在预测的所述运行状态为异常状态时,进行告警。相比于现有技术中在代理节点已经出现故障时触发告警的方式,本发明实施例中可以在代理节点出现故障之前进行预警,从而可以及时的对该代理节点进行调整,降低出现故障的几率。
可选的,在执行步骤S202,通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,还可以执行步骤S205。
S205,将所述多个性能数据进行预处理,其中,预处理可以为将所述多个性能数据转换成预设的数据格式,和/或,对所述多个性能数据进行过滤等。
在一种可能的实施方式中,步骤S203,通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,可以通过如下方式实现:
A1,将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
A2,确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
可选的,可以每间隔预设时间段后重新训练该分类器。其中,所述分类器通过如下方式训练得到:
B1,在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
其中,用于训练分类器的性能数据可以为采集的历史行性能数据。
B2,在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
B3,通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
B4,在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
B5,若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
在本发明实施例中基于用蝙蝠算法优化的朴素贝叶斯分类算法训练分类器。下面对用蝙蝠算法优化的朴素贝叶斯分类算法进行具体说明。
设D是训练元组与类标号集合,其中,一组性能数据组成一个训练元组。每个训练元组用一个n维向量表示属性向量,如X={x1,x2,…,xn},描述由n个属性值A1,A2,…,An对元组的n个测量。假设类个数为m个,为C1,C2,…,Cm。给定一个训练元组X,当且仅当:
P(Ci|X)>P(Cj|X),1≤j≤m,j≠i(1)
分类器预测X属于类Ci。当p(Ci|X)最大化,称此时的类Ci为“最大后验假设”。
类先验概率可以用p(Ci)=|Ci,D|/|D|估计,其中|Ci,D|是D中Ci类的训练元组数。给定元组的类标号,因此,
可以根据X进行概率p(x1|Ci),p(x2|Ci),…,p(xn|Ci)的估计。考虑属性值是离散的还是连续的:
第一,如果Ak是离散值,则p(xk|Ci)为属性Ak中值为xk的且属于Ci类的元组数除以Ci类的元组数|Ci,D|,Ak,Ci都属于D。
第二,如果Ak是连续值属性,假定连续值属性服从高斯分布,由下式定义:
因此,
μ和σ分别是Ci类训练元组属性Ak的均值和标准差。后验概率公式为:
测试样(E={X1,X2,…,Xn})被分在后验概率最大的类中,因为p(X)为常数,计算则不作考虑,朴素贝叶斯分类器的模型为:
本发明实施例将加权算法直接用于每个条件概率p(xk|Ci)上,可以更加直接地影响分类的整个过程,
模型中,属性Ak的权值为wk,权值与属性的影响力以成正比关系存在,即权值大的,其对应属性对分类正确率的影响就越强,反之则弱。
加权朴素贝叶斯最核心的问题是如何进行计算每个属性的最佳权值,本发明实施例提出了一个计算权值的新方法,用改进后的蝙蝠算法进行各个属性权值的计算。
在一个D维搜索空间中,由n只蝙蝠组成的一个群体在飞行的过程中,位置xi、速度vi、响度Ai和脉冲速率ri的初始化是由具体解决的问题确定。
群体数n的选择应综合考虑算法的可靠性和计算时间,对通常问题10只蝙蝠足够,对较复杂的问题可取50只。按照数据集的复杂性,蝙蝠个数取值公式如下:
n=b+ξ×c (8)
其中,b为常数,一般取10,c为常数,取40,ξ为[0,1]随机数。
飞行过程中蝙蝠更新位置xi、速度vi、响度Ai和脉冲速率ri的数学表达式:
fi=fmin+(fmax-fmin)β (9)
在D维搜索空间中,表示蝙蝠群体中第i只蝙蝠第t次迭代时的位置,表示第i只蝙蝠在第t次迭代时的速度,其中i=1,2,…,n;β为[0,1],是随机向量且服从均匀分布;x*为当前全局最优的位置。初始化群体时,每只蝙蝠的频率fi为随机赋值,分布区间是[fmin,fmax]。
当进入局部搜索,首先从最优解中任选一个解,进行位置信息的随机变更,让每只蝙蝠基于局部解产生一个新解。公式如:
xnew=xold+εAt (12)
其中,ε为一个随机数且属于[-1,1],At是同一个时间段总蝙蝠响度的平均值。
随着迭代过程的进行,更新脉冲发射响度Ai和速率ri,更新公式为:
其中,a和γ是常量,对于任意0<a<1,γ>0,有,
通常情况令a=γ,参数值的选择需要根据具体的实验要求。
本发明实施例中根据蝙蝠算法特点,为了结合贝叶斯分类器来计算每个属性的最优权值,首先对目标函数进行改进;为了让蝙蝠群体避免陷入局部最优解从而快速收敛至全局最优位置,引入禁忌搜索机制与随机扰动算子进行蝙蝠算法的优化。
针对加权贝叶斯分类器分类错误率与属性子集选择的计算,新目标函数为:
Eval(xi)对应分类的错误率,TF是属性总数,是被选择参与分类的属性总数,δ和η分别表示分类精度的权重和特征子集比例的权重,其中δ∈[0,1]且η=1-δ。通常,分类的错误率比属性子集比例赋予更高的权重,在本发明实施例中设置δ=0.9,η=0.1。
针对蝙蝠算法易于陷入局部最优和对高维空间搜索精度不高的缺点,提出了建立禁忌搜索(Taboo Search,TS)机制,使蝙蝠群算法具备跳出局部最优的能力。为避免迂回搜索,禁忌搜索机制设有一个存储结构和禁忌准则,通过特赦准则来赦免表中的良好状态,保证探索的多样化,实现全局最优化;遇到无法特赦的蝙蝠个体,利用下文的随机扰动算子对其位置进行随机扰动,进一步减小匹配误差。
构造一个长度与蝙蝠数相等的向量(禁忌表)记录蝙蝠群体迭代Er次不变的局部最优位置信息,可能是局部最优解,为了快速跳出局部最优并增加种群多样性,此时直接初始化蝙蝠群体,Er根据实际应用而定。在后续的搜索中,对表中位置信息进行计数,并以禁忌表中位置计数分量作为自变量构造罚函数:
ti是禁忌表的第i个分量,Δ是非常小的正数,a1>1,k是迭代次数,使用该罚函数根据公式(4-14)重新构造相应的适应度函数,使适应度函数fitness(xi)与罚函数p(xi)近似成正比,则对应的适应度函数为:
如果某个位置被选做全局极值的次数越多,禁忌表记录次数分量的值越大,相应罚函数的值较大,对应的适应度函数值也较大,该位置被再次作为全局极值的可能性就较小,这样既可以剔除禁忌表中误判的局部最优解,又保证了种群的多样性;若惩罚以后的适应度值仍最优,进行特赦操作,选取该位置为全局极值。
在对最优位置取值时与最佳位置会稍有偏差,如果遇到位置在禁忌表中且通过罚函数计算的适应度值大于全局最优解的适应度值,这个局部最优解周围可能存在全局最优解,所以对此时速度值加入一个随机扰动值,称为“随机扰乱算子”,
其中为[0,1],|Ri|为第i个位置的取值范围大小,文中|Ri|=1。减少蝙蝠算法在局部最优解花费的时间,并进一步增强对局部最优解周围区域搜索。
具体的,如图3所示,分类器的训练过程如下:
S301,在训练样本库中获取样本数据,并将样本数据进行预处理。计算样本数据中每个属性的先验概率和后验概率。其中,属性在本发明实施例中为性能数据。
S302,用公式(8)初始化蝙蝠算法中的各个参数,如蝙蝠群体数n、飞行过程中的位置xi(每只蝙蝠的位置代表一组性能数据)、速度vi、响度Ai、脉冲速率ri等。i取遍不大n的正整数。全局最优解best初始化为随机一个最优xi,当前最优适应度值为fitnessbest
S303,令wk=xi,并对wk进行标准化处理。每个个体对样本数据集分类进行预测,用公式(8)计算每个位置xi的适应度函数值fitness(xi)。
S304,利用公式(9)到公式(11)生成新解,每个参数都有最大与最小数值限制;
S305,判断xi位置信息是否在禁忌表taboo中;若存在则次数分量值加1,并执行步骤S308;若不存在,则执行步骤S306;
S306,判断x*和适应度函数是否连续E代不变;若是,执行步骤S307;若否,执行步骤S310;
S307,将x*位置信息保存到禁忌表taboo中,并执行步骤S302。
S308,利用公式(16)到公式(18)计算适应度值fitness(xi),如果fitness(xi)>fitnessbest,执行步骤S309,否则fitnessbest=fitness(xi),找到x*=xi,执行步骤S304;
S309,执行公式(19),随机扰动,用公式(11)更新位置信息,利用公式(14)生成fitnessnew,然后执行步骤S311;
S310,判断是否满足变异条件(rand>ri),如果满足,用公式(12)更新解的位置xnew;否则执行步骤S311;
S311,若rand>Ai&fitness(xi)<fitnessnew,接受这个新解,更新适应度值,增大ri,减小Ai;否则,执行步骤S312;
S312,对蝙蝠列队,找到当前最佳解x*
S313,比较新位置的适应度值和当前最优适应度值是否满足fitnessbest≤fitnessnew,如果满足,则更新当前最优适应度值和最优位置,否则执行步骤S314;
S314,如果迭代结束,执行步骤S315,否则执行步骤S304;
S315,输出全局最优解,归一化处理并用公式(6)进行高维数据的分类预测。
计算获得最佳属性的权值之后,针对以后某一时间段之内的运行状态数据就不用再进行属性权值的计算,利用现有最优的属性权值对虚拟机运行的最新状态进行状态预警,运算速率基本与朴素贝叶斯相当。
本发明实施例通过针对云平台中的任一代理节点,采集所述代理节点的多个性能数据,然后通过预先训练的分类器的加权层对所述多个性能数据进行加权,之后通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,并在预测的所述运行状态为异常状态时,进行告警。相比于现有技术中在代理节点已经出现故障时触发告警的方式,本发明实施例中可以在代理节点出现故障之前进行预警,从而可以及时的对该代理节点进行调整,降低出现故障的几率。
基于与图2对应的方法实施例的同一发明构思,本发明实施例提供一种云平台运行状态监控预警装置40,该装置的结构如图4所示,包括采集模块41、预测模块42和告警模块43,其中:
采集模块41,针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
预测模块42,用于通过预先训练的分类器的加权层对所述采集模块41采集的上述多个性能数据进行加权;并通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
告警模块43,用于在所述预测模块42预测的所述运行状态为异常状态时,进行告警。
结合第二方面,在第二方面的第一种可能的实施方式中,所述预测模块42,在通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态时,具体用于:
将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
结合第二方面,在第二方面的第二种可能的实施方式中,所述分类器通过如下方式训练得到:
在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
结合第二方面,在第二方面的第三种可能的实施方式中,所述装置还包括:
转换模块44,用于在所述预测模块42通过预先训练的分类器的加权层对所述采集模块41采集的所述多个性能数据进行加权之前,将所述多个性能数据转换成预设的数据格式。
结合第二方面或第二方面的第一种至第三种可能的实施方式中的任一种,在第二方面的第四种可能的实施方式中,所述装置还包括:
过滤模块45,用于在所述预测模块42通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,对所述多个性能数据进行过滤。
本发明实施例通过针对云平台中的任一代理节点,采集所述代理节点的多个性能数据,然后通过预先训练的分类器的加权层对所述多个性能数据进行加权,之后通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,并在预测的所述运行状态为异常状态时,进行告警。相比于现有技术中在代理节点已经出现故障时触发告警的方式,本发明实施例中可以在代理节点出现故障之前进行预警,从而可以及时的对该代理节点进行调整,降低出现故障的几率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种云平台运行状态监控预警方法,其特征在于,包括:
针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
通过预先训练的分类器的加权层对所述多个性能数据进行加权;
通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
在预测的所述运行状态为异常状态时,进行告警。
2.如权利要求1所述的方法,其特征在于,通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态,包括:
将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
3.如权利要求1所述的方法,其特征在于,所述分类器通过如下方式训练得到:
在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
4.如权利要求1所述的方法,其特征在于,在通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,所述方法还包括:
将所述多个性能数据转换成预设的数据格式。
5.如权利要求1至4任一项所述的方法,其特征在于,在通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,所述方法还包括:
对所述多个性能数据进行过滤。
6.一种云平台运行状态监控预警装置,其特征在于,包括:
采集模块,针对云平台中的任一代理节点,采集所述代理节点的多个性能数据;
预测模块,用于通过预先训练的分类器的加权层对所述采集模块采集的上述多个性能数据进行加权;并通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态;
告警模块,用于在所述预测模块预测的所述运行状态为异常状态时,进行告警。
7.如权利要求6所述的装置,其特征在于,所述预测模块,在通过所述分类器的贝叶斯分类层基于经过加权处理的所述多个性能数据预测所述代理节点在下一时刻的运行状态时,具体用于:
将经过加权处理的所述多个性能数据输入所述分类器的贝叶斯分类层,分别获取所述代理节点在下一时刻处于各个运行状态的概率;
确定获取的各个概率中的最大概率,并确定所述最大概率对应的运行状态为所述代理节点在下一时刻的运行状态。
8.如权利要求6所述的装置,其特征在于,所述分类器通过如下方式训练得到:
在将训练样本库中的性能数据输入初始化的分类器进行训练;所述训练样本库包括多组性能数据以及每组性能数据对应的下一时刻的实际运行状态;所述初始化的分类器包括权重;
在第K次训练过程中,通过经过K-1次调整的分类器的加权层,对每组性能数据进行加权,所述K为大于0的整数;
通过所述经过K-1次调整的分类器的贝叶斯分类层,预测所述每组性能数据在下一时刻的运行状态;
在第K次训练后,将所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态进行对比;
若所述每组性能数据在下一时刻的实际运行状态与预测的所述每组性能数据在下一时刻的运行状态不一致,基于蝙蝠算法调整在第K+1次训练过程所使用的权重。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
转换模块,用于在所述预测模块通过预先训练的分类器的加权层对所述采集模块采集的所述多个性能数据进行加权之前,将所述多个性能数据转换成预设的数据格式。
10.如权利要求6至9任一项所述的装置,其特征在于,所述装置还包括:过滤模块,用于在所述预测模块通过预先训练的分类器的加权层对所述多个性能数据进行加权之前,对所述多个性能数据进行过滤。
CN201711029553.XA 2017-10-27 2017-10-27 一种云平台运行状态监控预警方法及装置 Active CN109728923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711029553.XA CN109728923B (zh) 2017-10-27 2017-10-27 一种云平台运行状态监控预警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711029553.XA CN109728923B (zh) 2017-10-27 2017-10-27 一种云平台运行状态监控预警方法及装置

Publications (2)

Publication Number Publication Date
CN109728923A true CN109728923A (zh) 2019-05-07
CN109728923B CN109728923B (zh) 2022-01-28

Family

ID=66291605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711029553.XA Active CN109728923B (zh) 2017-10-27 2017-10-27 一种云平台运行状态监控预警方法及装置

Country Status (1)

Country Link
CN (1) CN109728923B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN105260253A (zh) * 2015-09-06 2016-01-20 浪潮集团有限公司 一种服务器故障测算方法和装置
CN105979532A (zh) * 2016-04-15 2016-09-28 北京思特奇信息技术股份有限公司 一种业务处理系统的性能容量分析预警方法及装置
CN106100937A (zh) * 2016-08-17 2016-11-09 北京百度网讯科技有限公司 系统监控方法和装置
CN106789163A (zh) * 2016-11-25 2017-05-31 华电智连信达科技(北京)有限公司 一种网络设备用电信息监测方法、装置和系统
CN106790706A (zh) * 2017-02-27 2017-05-31 深圳先进技术研究院 一种数据资源优化的方法、平台及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN105260253A (zh) * 2015-09-06 2016-01-20 浪潮集团有限公司 一种服务器故障测算方法和装置
CN105979532A (zh) * 2016-04-15 2016-09-28 北京思特奇信息技术股份有限公司 一种业务处理系统的性能容量分析预警方法及装置
CN106100937A (zh) * 2016-08-17 2016-11-09 北京百度网讯科技有限公司 系统监控方法和装置
CN106789163A (zh) * 2016-11-25 2017-05-31 华电智连信达科技(北京)有限公司 一种网络设备用电信息监测方法、装置和系统
CN106790706A (zh) * 2017-02-27 2017-05-31 深圳先进技术研究院 一种数据资源优化的方法、平台及系统

Also Published As

Publication number Publication date
CN109728923B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN106096727B (zh) 一种基于机器学习的网络模型构造方法及装置
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
CN111598148A (zh) 一种基于历史容量相似特征的容量评估方法及设备
CN109657709A (zh) 一种基于粒子群优化支持向量回归的设备故障预测方法
Guo et al. Machine learning predictions for underestimation of job runtime on HPC system
Vivekanandan et al. Mining data streams with concept drifts using genetic algorithm
Crawford et al. Dynamic selection of enumeration strategies for solving constraint satisfaction problems
CN109840413A (zh) 一种钓鱼网站检测方法及装置
Pecori et al. Incremental learning of fuzzy decision trees for streaming data classification
Rahman et al. An n-state switching PSO algorithm for scalable optimization
CN110598836B (zh) 一种基于改进的粒子群寻优算法的代谢组学分析方法
Rodriguez-Fernandez et al. Modelling behaviour in UAV operations using higher order double chain Markov models
CN114546609A (zh) 一种面向异构集群的dnn推理任务批调度方法
CN113887717A (zh) 一种基于深度学习预测神经网络训练时长的方法
Mohana et al. Optimized service discovery using qos based ranking: a fuzzy clustering and particle swarm optimization approach
Gias et al. Samplehst: Efficient on-the-fly selection of distributed traces
CN109728923A (zh) 一种云平台运行状态监控预警方法及装置
CN109919219A (zh) 一种基于粒计算ML-kNN的Xgboost多视角画像构建方法
Vulpe et al. AI/ML-based real-time classification of Software Defined Networking traffic
Hussein et al. The Patch‐Levy‐Based Bees Algorithm Applied to Dynamic Optimization Problems
CN114548297A (zh) 基于领域自适应的数据分类方法、装置、设备及介质
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
Barbosa et al. Eight bio-inspired algorithms evaluated for solving optimization problems
Ayyat et al. Class strength prediction method for associative classification
Pujianto Random forest and novel under-sampling strategy for data imbalance in software defect prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant