CN109525435A - 一种电网业务服务器运行状态预警方法 - Google Patents

一种电网业务服务器运行状态预警方法 Download PDF

Info

Publication number
CN109525435A
CN109525435A CN201811539747.9A CN201811539747A CN109525435A CN 109525435 A CN109525435 A CN 109525435A CN 201811539747 A CN201811539747 A CN 201811539747A CN 109525435 A CN109525435 A CN 109525435A
Authority
CN
China
Prior art keywords
value
data
point
busy percentage
cpu busy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811539747.9A
Other languages
English (en)
Other versions
CN109525435B (zh
Inventor
王玉静
彭悟焯
王庆岩
谢金宝
康守强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201811539747.9A priority Critical patent/CN109525435B/zh
Publication of CN109525435A publication Critical patent/CN109525435A/zh
Application granted granted Critical
Publication of CN109525435B publication Critical patent/CN109525435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种电网业务服务器运行状态预警方法,属于智能电网技术领域,为了解决针对电网业务服务器运行状态难以人工监测的问题,本发明方法主要分为两个部分,一是确定警报阈值,该部分基于切比雪夫不等式与改进型的瑞利分布,再结合小概率事件的定义,确定警报上限值,求出参数ε,并确定异常的可能性;二是基于BP网络模型进行时序预测,该部分与第一个部分研究结果进行综合分析,对未来的数据点进行预警,达到提前发现问题的目的。通过实验研究表明,利用所提方法设定的警报阈值,能在保证科学性的前提下对数据异常点进行预警,并确定某一数据点有多大的可能性是异常点,达到对异常数据预警的目的。

Description

一种电网业务服务器运行状态预警方法
技术领域
本发明涉及电网业务服务器运行状态预警方法,属于智能电网技术领域。
背景技术
目前节能减排、绿色能源和可持续发展成为世界关注的焦点,世界各国对下一代电网 发展均给予极大的关注。近几年来,我国对智能电网建设也给予重视,让电网脱离传统的 模式,使其具有较高的效率[1]。在智能电网建设期间正确处理好智能电网建设与环保能源 发展的互联互动关系,实现节能减排显得极为重要[2]。在节能减排的大形势下,最大程度 发挥国网IT自动化运维平台业务系统服务器的使用效率,降低或延缓当前投资和新建投资 需求,对提高电网发展质量和企业经济效益,促进电网和社会可持续发展具有重要意义[3]
在智能电网系统中,大数据产生于整个系统的各个环节,尤其是监控中心,每天都会 产生海量数据。国内电网公司和企业的数据中心维护的数据量都非常大,电网业务服务器 运行状态难以人工监测。服务器出现一些问题时,往往力不从心,从问题发生到解决问题 需要较长的时间。有效的监控系统能通过对监控所采集到的数据进行分析并最终确定是哪 台服务器的哪部分出现问题。如果没有这些自动化的监控系统,对网站或者服务器的管理 员来说,出现问题很难在短时间内解决[4]
在设备监控方面,电网数据中对业务系统服务器的运维监测方面,目前主要致力于业 务系统服务器的CPU、内存和硬盘资源的调整。Pradeep Padala[5]等人提出了一个资源控制 系统,它主要是由基于控制论的在线模型预估器和多输入多输出(MIMO)资源控制器构 成的。它能够通过捕捉应用程序性能和资源分配值之间的复杂关系,自动的适应应用负载 的动态变化,按需调整分配资源量。Aniel AMenasce[6]等人提出了一种随虚拟机工作负载变 化,根据CPU优先级动态调整计算资源分配的方法。与文献[5]相比,它主要考虑到了迁移 代价问题,试图通过权衡CPU利用率和内存的大小选择要迁移的虚拟机,并在负载阈值的 基础上对服务器的负载趋势进行预测,避免瞬时负载峰值触发迁移[7]
在各设备运行状态预警方面,为及时发现和排除信息网络系统和设备的隐患,需要对 业务系统服务器进行提前预警。目前研究的热点是对CPU利用率的预测。为了使服务器可 以更及时、更准确地响应应用负载的变化问题,文献[8]提出了利用ARIMA-BP神经网络综 合预测模型来预测服务器的CPU利用率。在深入分析了自回归积分滑动平均(ARIMA)模型与BP网络模型特点的基础上,构建了ARIMA与BP神经网络组合的服务器时间序列 预测模型。其基本思想是发挥ARIMA模型在线性空间、BP神经网络模型在非线性空间的 预测优势,将服务器CPU利用率时间序列的数据结构拆分为线性主体和非线性残差两部分 进行分析。首先用ARIMA模型预测序列的大体趋势,然后在非线性残差进行估计方面, 用BP神经网络模型估计,最终得到较好的预测结果。但文献[8]仅给出了预测结果,没有 对预测结果进行利用,没有电网业务服务器运行状态预警。
传统的业务系统服务器设备的CPU使用率的阈值是运维人员根据经验人为设定,阈 值一经设定便长期不变,不能满足监控中心大量实时数据需求,且不能对存在的潜在风险 进行预测,极易造成经济损失。因此利用深度学习挖掘海量数据的深层信息,为业务系统 服务器的CPU自适应的设定动态阈值,研究合理的适用于国网IT自动化运维平台业务系统服务器设备实际运行环境的监控和预警的方法,对潜在的风险或隐患进行预测并对攻击事件进行追踪溯源具有非常重要的意义。
发明内容
本发明的目的是提供一种电网业务服务器运行状态预警方法,针对电网业务服务器运 行状态难以人工监测的问题,利用服务器CPU利用率来确定该服务器未来时刻某一数据点 有多大的可能性是异常点,以达到对异常数据预警的目的。
本发明为解决上述技术问题采取的技术方案是:
一种电网业务服务器运行状态预警方法,所述方法的实现过程为:
(1)采集整个电网系统中所有服务器的CPU利用率历史数据;
(2)利用改进的瑞利分布公式计算出每台服务器CPU利用率历史数据的概率分布,通 过概率分布得到自适应阈值;
改进的瑞利分布公式中的方差是不断变化的,计算最近的初始30天之内CPU利用率 数据值的初始方差和数学期望μ;
根据所述初始方差得到改进的瑞利分布公式的初始表达式;
(3)根据所采集的CPU利用率历史数据,利用BP网络模型预测出各台服务器未来时刻的CPU利用率数值;
每次数据更新一天,那么就抛弃所述30天中的第一天的数据,计入最新一天的更新数 据,再次算出步骤(2)所述的方差,对应得到改进的瑞利分布公式的新表达式;
(4)根据小概率事件的定义,计算出每天的自适应阈值;
(5)再把步骤(4)所述自适应阈值代入切比雪夫不等式中,评价该天所预测的全部数 据点是否存在故障点,从完成对电网业务服务器运行状态的预警。
进一步地,步骤(2)的具体过程为:
改进的瑞利分布公式为: x>0
其中,定义A为自适应系数;x为样本值,表示CPU利用率;σ2表示方差,f(x)为概率分 布(概率密度分布);
当x=μ时,f(μ)为最大值,从而确定出A的值;
对式(7)进行积分,计算自适应阈值,令X0>x>0,求出X0,X0为自适应阈值。
进一步地,在步骤(3)中,根据所采集的CPU利用率历史数据,利用BP网络模型 预测出各台服务器未来时刻的CPU利用率数值的具体实现过程为:
选用3层BP神经网络,即输入层、输出层和一个隐含层;训练函数选用“trainlm”,输入层和隐含层之间的传递函数选用“tansig”,隐含层和输出层之间的传递函数选用“purelin”;隐含层节点数式中,i为隐含层节点数,n为输入节点数,m 为输出节点数,a为1-10之间的调节常数。
n=5,m=1,i的取值范围为4-13;最大训练次数为1000次。
进一步地,步骤(5)的实现过程为:
所述切比雪夫不等式是在随机变量X的分布未知情况下,对事件|X-μ|<ε概率做出估计, 设随机变量的数学期望E(X)=μ,方差D(X)=σ2,则对于任意正数ε,有如下的关系
式中,X代表随机变量,代表自适应阈值;ε代表任意正数,其实际意义代表设定阈值的标准。
在判断某时刻电网业务服务器运行是否存在异常的过程中,引入各个时刻的CPU利用 率数据,该随机变量的概率密度未知,但是可以使用计算CPU利用率的均值与方差来预判 该点是否为怀疑点;如果是正常的时间点,可以选取比较小的ε值,选取的ε越小,则说明该时刻的CPU利用率数据点与均值的差越小,切比雪夫不等式说明CPU利用率数据点 与均值的差小于ε的概率大于1-σ22,求得的概率下限值越大,则该时刻的CPU利用率数 据点是正常点的可能性越大;
根据公式由ε-μ=X0得出ε的值,进而计算出某一点是异常点的可能 性;
当检测某一主机时,由ε-μ=X0得到ε的值,此时所警报的数据点至少有概率值为P的可能 性为异常点。
本发明的有益效果是:
本发明提出了利用改进型瑞利分布的切比雪夫不等式确定自适应动态阈值的方法,该 方法巧妙地利用了瑞利分布函数的概率密度分布特点,对CPU利用率的数据分布进行分析。 首先结合小概率事件的定义对CPU利用率的数据值进行阈值设定,计算出某个数据点有多 大的可能性是异常点;然后利用BP网络模型,预测出未来时刻CPU利用率数值,与之前 得到的阈值比较,理出未来故障发生的时间点。该方法主要分为两个部分,一是确定警报 阈值,该部分基于切比雪夫不等式(Chebyshev inequality)与改进型的瑞利分布(Rayleigh distribution),再结合小概率事件的定义,确定警报上限值,求出参数ε,并确定异常的可能 性;二是基于BP网络模型进行时序预测,该部分与第一个部分研究结果进行综合分析, 对未来的数据点进行预警,达到提前发现问题的目的。通过实验研究表明,利用所提方法 设定的警报阈值,能在保证科学性的前提下对数据异常点进行预警,并确定某一数据点有 多大的可能性是异常点,达到对异常数据预警的目的。
附图说明
图1为神经元结构模型示意图,图2是电网业务服务器运行状态预测方法总体框图, 图3是414主机8月18日CPU利用率分布特点图,图4是主机414在9月19日CPU利 用率实际值与预测值对比图,图5是主机507在9月19日CPU利用率实际值与预测值对 比图。
具体实施方式
结合附图对本发明方法的具体实现过程及应用效果进行详细阐述如下:
1、切比雪夫不等式原理
Chebyshev不等式是在随机变量X的分布未知情况下,对事件|X-μ|<ε概率做出估计, 即事件概率由随机变量所确定的[9]。设随机变量的数学期望E(X)=μ,方差D(X)=σ2,则对于 任意正数ε,有如下的关系
式中,X代表随机变量,ε代表任意正数,其实际意义代表设定阈值的标准。
在判断某时刻电网业务服务器运行是否存在异常的过程中,引入各个时刻的CPU利用 率数据,该随机变量的概率密度未知,但是可以使用计算CPU利用率的均值与方差来预判 该点是否为怀疑点。如果是正常的时间点,可以选取比较小的ε值,选取的ε越小,则说明该时刻的CPU利用率数据点与均值的差越小,Chebyshev不等式说明CPU利用率数据点 与均值的差小于ε的概率大于1-σ22,求得的概率下限值越大,则该时刻的CPU利用率数 据点是正常点的可能性越大。本发明利用该方法查找异常数据点,一旦超过设定的动态阈 值,即可认为该点为数据异常点。
2、瑞利分布及改进
当一个随机二维向量的两个分量呈独立的、有着相同的方差且均值为0的正态分布时, 这个向量的模呈瑞利分布[10]
瑞利分布的概率密度:
式中,x代表样本值,σ2代表方差,本发明中x代表CPU利用率。
在整理数据时,发现大多数CPU利用率数据的值分布在0到5之间,而且随着CPU 利用率数据值的增大,所占的比例越小。为了直观得到结果,本发明选取了414主机8月 18日到9月18日的CPU利用率数据的分布图,如图3所示。
由瑞利分布的概率密度分布特点可知,数据较小的值概率密度较大,而随着数值的增 长,概率密度会单调递减。
实际上,CPU利用率数据值集中在0到5之间时刻较多,如果直接利用瑞利分布公式, 效果不佳,那么,就要根据已获得数据的实际情况适当改变。对f(x)求导,得
当导数值等于0时,x=σ。即在x=σ时,f(x)取最大值,这显然不与事实相符合。若改变式 (7)为
那么就可以根据实际情况,通过控制k值来调节f(x)的峰值,既要保证新的f(x)求导符合该 特点,又要保证新的f(x)在[0,+∞]上积分为1。从数学角度证明,令y=ax,代入式(7),在 [0,+∞]上进行积分,得到
那么,可将式(6)改变为
其中,定义A为自适应系数。当x=μ时,f(μ)为最大值,从而确定出A的值。
3、BP网络模型
反向传播神经网络(BPNN)的学习包括两个过程,分别是正向传输的输入信息和向后 传输的错误。在正向操作中,输入信息从输入层转到隐藏层,然后转到输出层。如果输出层的输出与期望的输出结果不同,则将计算输出误差,将误差传送到反向,然后修改每一层的神经元之间的权重以使误差尽可能最小[11]
神经元是神经网络的最基本组成部分[12],其结构模型如图1所示,其中神经元输入为 xi(i=1,2,…,R),神经元之间的连接权值为ωi(i=1,2,…,R),b=ωi为阈值(偏置值),f为传递 函数,y为神经元输出,有
令X=(x1,x2,…,xR),W=(ω12,…,ωR)T,XW+b=n,则有y=f(n)。
在时间序列预测中,前馈网络是比较常见的网络。在这种情形下,从数学的角度分析,网络成为非线性函数。设一个时间序列为{Xn},对其进行预测可用公式(5)描述
Xn+k=f(Xn,Xn-1,Xn-2,…X1) (9)
式中,f为模拟函数,n=1,2,...,N,n代表时刻,Xn为某个时刻的样本值[13]
BP网络方法具体的预测步骤:
(1)提取样本,建立训练集。样本的正确与否在建立模型的过程中至关重要。根据所 要预测时间序列的特点,采用合理取样结构,使所有数据点得到充分的应用。同时选取的样本个数也要合适,样本个数过多会造成过拟合,网络的复杂性也随之增加。样本过 少,训练时产生的拟合误差会增大,导致网络的推广能力下降。
(2)预处理数据集。BP神经网络对输入数据有一定的要求,网络的输入数据均匀程度 越高,其预测的稳定性越好。幅度变化较明显的数据不适合作为网络的输出。人工神经元也被称为处理元素,因为它们有加权输入、传递函数和一个输出。对人工神经元的输 入进行加权总结,形成一个激活函数[14]
(3)网络结构的设计。该步骤包括:确定网络的层数、输出层节点数、隐层节点数、输入节点数、隐层激活函数、训练函数、学习函数、输出层激活函数。这些参数设定是 否合适,会直接影响到预测效果。
(4)初始化过程,随机确定各阈值及连接权。
(5)向隐层、输出从中输入已经确定模式的数据。
(6)根据反馈值,连接权及阈值要重新计算。
(7)得出新计算的输入模式返回到第5步,当网络输出层的数据误差低于设定的误差要 求时,结束训练的过程。
(8)利用已完成训练的模型对未来时间的情况做预测。
所利用的BP神经网络具体描述为:
选用3层BP神经网络,即输入层、输出层和一个隐含层。利用MATLAB软件进 行多次测试对比后训练函数选用“trainlm”,输入层和隐含层之间的传递函数选用“tansig”, 隐含层和输出层之间的传递函数选用“purelin”。隐含层节点数对神经网络的性能有一定 的影响,依据式中,i为隐含层节点数,n为输入节点数,m为输出节点 数,a为1-10之间的调节常数。这里n=5,m=1,故i的取值范围为4-13。本文通过 设计一个隐含层节点数可变的BP网络,最大训练次数为1000次训练函数采用trainlm 时,用同一样本训练,发现隐含层节点数为6的情况下,网络训练误差最小,在本例中 数据的预测效果最好。利用该BP网络,训练次数为10次时,标准数值误差即可达 到10-30。相对误差均很小,预测结果和原始数据基本吻合,说明BP神经网络模型预测 的精度比较高,利用该方案预测cpu利用率是可行的。
4、总体方案
电网业务服务器运行状态预测,首先建立合理的设定阈值模型,再验证某数据点是异 常点的可能性;然后,利用BP网络模型预测出未来时刻的CPU利用率数值;最后将得到的预测值与阈值比较,对异常点做出警报。具体的预测流程见图2。
具体的预测步骤:
(1)整个系统收集CPU利用率的历史数据;
(2)利用改进瑞利分布公式计算出CPU利用率数据的概率分布,作为自适应阈值,方 差不是一成不变的,先计算出一个月之内CPU利用率数据值的方差,得到表达式;
(3)每次数据更新一天,那么就抛弃这一个月第一天的数据,计入最新一天的更新数据, 再次算出方差,得到新的瑞利分布表达式;
(4)根据小概率事件的定义,计算出阈值;
(5)再把阈值代入切比雪夫不等式中,计算某个数据点有多大的可能性是故障点;
(6)根据所给的历史数据,利用BP网络模型预测出未来时刻的CPU利用率数值,与之 前得到的阈值比较,找到故障时间点,从而达到对电网业务服务器运行状态预测的目的。
5、应用与分析
为解决电网业务服务器运行状态的阈值设定问题,拟设计两套方案,第一套方案是利 用Chebyshev不等式,通过不断试验调整得到警报指标,确定阈值;第二套方案是利用Chebyshev不等式与改进型瑞利分布函数的方法,结合小概率事件的定义,确定阈值。
利用第一套方案进行阈值计算,Chebyshev不等式是对事件|X-μ|<ε概率做出估计, 表1为切比雪夫不等式概率估计值统计表。
表1 概率估计值统计表
为确定ε值,需要人为设定调节系数ξ1,ξ2。调节ξ1,ξ2的值,确定ε值。ξ1,ξ2与 判别阈值T1,T2的设定算法为
自定义分段函数M,对CPU利用率的数据点进行分类
当M=1时,该时刻的利用率可被视为异常点,当M=0时,该时刻的利用率可被视为正常点,当T2<1-σ22<T1时,该点就会被认为可疑点。
选取不同的ξ1,ξ2(0<ξ1,ξ2<1)值来进行正常点,故障点与故障怀疑点。对应不同的ξ1, ξ2值,就可以得到对应T1与T2的值。
自适应阈值设定,调节ξ1,ξ2与判别阈值T1,T2的设定算法如下:
(1)当ξ1=ξ2=0.5时,即得到T1=2.0821,T2=0.6678;
(2)当ξ1=0.6,ξ2=0.4时,即得到T1=-2.0821,T2=0.8578。
如果按照这套方案去做,会发现大多数时刻的数据都不正常,显然与客观事实不符, 即使是比较正常的数据也有可能会被判断为怀疑点。比如主机突然有访客这种情况,这也 会导致CPU利用率上升,造成误判情况,即第二类错误,而且主观性很强,所以该种方法 可行性不强。
按照第二套方案,利用Chebyshev不等式与改进型瑞利分布函数的方法,结合小概率事 件的定义,确定阈值。由于本研究的数据庞大,而且其中还掺杂着很多无效数据,无法对每 一个主机进行实验,所以在筛选过的数据中随机挑选的414、507主机作为例子来进行分析。
(1)当检测414主机时,经计算,414主机数学期望值μ=1.4154,标准差σ=1.068,方差 σ2=1.03362,利用式(10),算出A=0.5331。处理结果如表2所示。
表2 414主机处理结果
计算阈值,对式(7)进行积分,即令求出X0,在MATLAB平台运行,得出结果为4.300。
(2)当检测507主机时,经计算,507主机数学期望值μ=1.3129,标准差σ=0.6260,方差 σ2=0.392,算出A=14.9103。处理结果如表3所示。
表3 507主机处理结果
根据式(10)可知,这是一个概率密度函数,对公式(10)进行定积分,与步骤(1)操作一致, 得出结果为X0=3.988。
通过上述操作,就可以保证新构造的瑞利分布模型符合CPU利用率实际的分布情况。利 用小概率事件的定义,科学地计算出自适应阈值。利用该方法可知,在9月19日,对于414 主机,阈值为4.300,即CPU利用率超过4.300,预警系统就会发出警报;同理对于507主机, CPU利用率超过3.988,预警系统同样会发出警报。
为了验证基于瑞利分布计算出的上限阈值是否可靠,我们将利用切比雪夫不等式进行可靠 性验证。根据公式由ε-μ=X0得出ε的值,进而计算出某一点是异常点的 可能性。
(1)当检测414主机时,由ε-μ=X0得到ε=5.7154。警报的数据点至少有96.73%的可能性为 异常点。
(2)当检测507主机时,由ε-μ=X0得到ε=5.3009。警报的数据点至少有98.60%的可能性为 异常点。
从实验数据看出,预警出的结果可靠性比较高,基本上可以认为预警出的点极有可能是数 据异常点。利用该方案可以求出电网业务服务器运行状态的自适应阈值。
在确定阈值之后,要对CPU利用率数据进行预测,从而对电网业务服务器运行状态进行 有效监测,再结合计算出的阈值,发现潜在风险。
为了预测CPU利用率数据,使用BP网络模型。利用收集的历史数据进行运算,首先建立 训练集,利用前5天的数据对第六天进行预测,依次类推,并与实际数据进行比较,观察对比 效果。然后再利用最后五个时刻的数据向下一个时刻预测,再利用预测出的数据与最后四个时 刻的数据对下一个时刻进行预测。
对各主机的CPU利用率数据进行运算,实际数据与预测数据进行对比,如图4和图5所 示。
在CPU利用率实际值与预测值对比中发现,该方法的预测效果从整体来看较为准确,继 续利用上述方法,对未来15个数据进行预测,并根据所得阈值,进行比较,发现潜在异常数 据,对电网服务器运行状态起到监控的作用。
(1)当检测414主机时,对未来15个时刻CPU利用率数值进行预测:0.15212,0.45288, 0.62012,29.340,1.2280,0.83339,10.370,13.546,13.204,13.599,1.1811,0.76360,0.83339, 0.83339,0.15186。根据运算的阈值,这时的阈值为4.300,警报值有29.340,10.370,13.546, 13.204,13.599。
(2)当检测507主机时,对未来15个时刻CPU利用率数值进行预测:0.29169,0.4356, 2.4965,2.6374,0.21653,2.9053,1.4561,1.7324,5.0202,2.8766,6.5453,0.30237,0.94157, 5.0142,5.1322。根据运算的阈值,这时的阈值为3.988,警报值有6.5453,5.0142,5.1322。
从图4与图5中的数据分布来看,这些被预警出的CPU利用率数值明显高于其他正常时 刻的水平,说明该阈值设计得比较合理,所以在未来时刻如果CPU利用率发展趋势可以与预 测的趋势相同,那么,预警系统就会提前做出反应,定位问题所在。
结论
(1)在应对自适应动态阈值方面,传统的切比雪夫不等式方法运算量较大,在确定阈 值的过程中,往往通过多次实验确定,这导致了单独的切比雪夫不等式确定自适应阈值的 应用领域并不广泛,而且在判定阈值方面,往往只是依靠作者的主观意识,科学性不强。而本发明根据实际情况利用了改进型的瑞利分布函数进行概率密度运算,结合小概率事件的定义确定出阈值。再结合切比雪夫不等式,可计算出怀疑点有多大的可能性是数据异常点。
(2)从本发明的目的来看,BP网络模型符合要求。BP网络模型具有时序预测的功能, 可以解决非线性的复杂数据问题,它不需要一个精确的数学公式来计算每一时刻的CPU 利用率数据。在本发明中,根据已知数据,BP网络模型能够对未来15个时刻进行CPU 利用率数值的预测,达到了电网业务服务器运行状态的监测的目的。再次结合求出的自适 应阈值,实现对电网服务器运行状态进行预警的效果。
本发明所引用的参考文献如下:
[1]陈敬德,盛戈皞,吴继健,等.大数据技术在智能电网中的应用现状及展望[J].高压电 器,2018,54(01):35-43.
CHEN Jingde,SHENG Gehao,WU Jijian,et al.Application Status andProspect of Big Data Technology in Smart Grid[J].High Voltage Apparatus,2018,54(01):35-43.
[2]谈韵.电网大数据治理体系初探[J].电子技术与软件工程,2017,24(05):182-183.
TAN Yun.Research on Grid Big Data Governance System[J].Journal ofElectronic Technology and Software Engineering,2017,24(05):182-183.
[3]王珊,肖艳芹,刘大为,等.内存数据库关键技术研究[J].计算机应用,2007,27(10): 2353-2357.
WANG Shan,XIAO Yanqin,LIU Dawei,et al.Research on Key Technologies ofMemory Database[J].Journal of Computer Application,2007,27(10):2353-2357.
[4]刘宏.数据中心自适应能效优化系统的研究[D].山东大学,2015:23-25.
LIU Hong.Research on Data Center Adaptive Energy EfficiencyOptimization System[D]. Shandong University,2015:23-25.
[5]Padala P,Hou K Y,Shin K G,et al.Automated Control of MultipleVirtualized Resources[C].The 4th ACME uropean conference on Computersystems.ACM,2009:13-26.
[6]Menasce D A,Bennani M N.Autonomic virtualized environments[C].Autonomicand Autonomous Systems,2006International Conference on IEEE,2006:28.
[7]胡志刚,欧阳扇,阁朝坤.云环境下面向能耗降低的资源负载均衡方法[J].计算机工 程,2006,38(5):53-55.
HU Zhigang,OUYANG Shan,GE Chaokun.Resource load balancing method fordecreasing energy consumption under cloud environment[J].Journal of ComputerEngineering,2006, 38(5):53-55.
[8]闻静.基于CPU利用率预测的虚拟机动态部署方法研究[D].东北大学,2014:5-11. WEN Jing.Research on Virtual Machine Dynamic Deployment Method Based onCPU Utilization Prediction[D].Northeastern University,2014:5-11.
[9]张琨,王翠荣,万聪.一种基于切比雪夫不等式的自适应阈值背景建模算法[J].计算 机科学,2013,40(4):287-297.
ZHANG Kun,WANG Cuirong,WANG Cong.An Adaptive Threshold BackgroundModeling Algorithm Based on Chebyshev's Inequality[J].Journal of ComputerScience, 2013,40(4):287-297.
[10]刘志发.基于瑞利分布的二次序贯加权概率比检验[D].华东师范大学,2016.
LIU Zhifa.Two sequential weighted probability ratio tests based onRayleigh distribution[D]. East China Normal University,2016.
[11]Constantin Barbulescu,Stefan Kilyeni,Antheia Deacu,Gabriel MihaiTuri,Mirela Moga, Artificial neural network based monthly load curvesforecasting[C],Applied Computational Intelligence and Informatics(SACI)2016IEEE 11th International Symposium on,2016: 237-242.
[12]任世杰.基于BP神经网络的城市轨道交通沿线房地产价值评估方法研究[D].北京交 通大学,2015.
REN Shijie.Research on Evaluation Methods of Real Estate along UrbanRail Transit Based on BP Neural Network[D].Beijing Jiaotong University,2015.
[13]朱凯,王正林.精通MATLAB神经网络[M].北京:电子工业出版社,2010:104.ZHU Kai,WANG Zhenglin.Proficient in MATLAB neural network[M].Beijing:Publishing House of Electronics Industry,2010:104.
[14]Harikeshava,Shyam Srinivasan,Vaira Vignesh,et al.ANN model forpredicting the intergranular corrosion susceptibility of friction stirprocessed aluminium alloy AA5083[C].Communication and Electronics Systems (ICCES),2017 2nd International Conference on,2017:716-720.

Claims (5)

1.一种电网业务服务器运行状态预警方法,其特征在于,所述方法的实现过程为:
(1)采集整个电网系统中所有服务器的CPU利用率历史数据;
(2)利用改进的瑞利分布公式计算出每台服务器CPU利用率历史数据的概率分布,通过概率分布得到自适应阈值;
改进的瑞利分布公式中的方差是不断变化的,计算最近的初始30天之内CPU利用率数据值的初始方差和数学期望μ;
根据所述初始方差得到改进的瑞利分布公式的初始表达式;
(3)根据所采集的CPU利用率历史数据,利用BP网络模型预测出各台服务器未来时刻的CPU利用率数值;
每次数据更新一天,那么就抛弃所述30天中的第一天的数据,计入最新一天的更新数据,再次算出步骤(2)所述的方差,对应得到改进的瑞利分布公式的新表达式;
(4)根据小概率事件的定义,计算出每天的自适应阈值;
(5)再把步骤(4)所述自适应阈值代入切比雪夫不等式中,评价该天所预测的全部数据点是否存在故障点,从完成对电网业务服务器运行状态的预警。
2.根据权利要求1所述的一种电网业务服务器运行状态预警方法,其特征在于,步骤(2)的具体过程为:
改进的瑞利分布公式为:
其中,定义A为自适应系数;x为样本值,表示CPU利用率;σ2表示方差,f(x)为概率分布;
当x=μ时,f(μ)为最大值,从而确定出A的值;
对式(7)进行积分,计算自适应阈值,令X0>x>0,求出X0,X0为自适应阈值。
3.根据权利要求2所述的一种电网业务服务器运行状态预警方法,其特征在于,在步骤(3)中,根据所采集的CPU利用率历史数据,利用BP网络模型预测出各台服务器未来时刻的CPU利用率数值的具体实现过程为:
选用3层BP神经网络,即输入层、输出层和一个隐含层;训练函数选用“trainlm”,输入层和隐含层之间的传递函数选用“tansig”,隐含层和输出层之间的传递函数选用“purelin”;隐含层节点数式中,i为隐含层节点数,n为输入节点数,m为输出节点数,a为1-10之间的调节常数。
4.根据权利要求3所述的一种电网业务服务器运行状态预警方法,其特征在于,n=5,m=1,i的取值范围为4-13;最大训练次数为1000次。
5.根据权利要求1、2、3或4所述的一种电网业务服务器运行状态预警方法,其特征在于,步骤(5)的实现过程为:
所述切比雪夫不等式是在随机变量X的分布未知情况下,对事件|X-μ|<ε概率做出估计,设随机变量的数学期望E(X)=μ,方差D(X)=σ2,则对于任意正数ε,有如下的关系
式中,X代表随机变量,代表自适应阈值;ε代表任意正数,其实际意义代表设定阈值的标准。
在判断某时刻电网业务服务器运行是否存在异常的过程中,引入各个时刻的CPU利用率数据,该随机变量的概率密度未知,但是可以使用计算CPU利用率的均值与方差来预判该点是否为怀疑点;如果是正常的时间点,可以选取比较小的ε值,选取的ε越小,则说明该时刻的CPU利用率数据点与均值的差越小,切比雪夫不等式说明CPU利用率数据点与均值的差小于ε的概率大于1-σ22,求得的概率下限值越大,则该时刻的CPU利用率数据点是正常点的可能性越大;
根据公式由ε-μ=X0得出ε的值,进而计算出某一点是异常点的可能性;
当检测某一主机时,由ε-μ=X0得到ε的值,此时所警报的数据点至少有概率值为P的可能性为异常点。
CN201811539747.9A 2018-12-14 2018-12-14 一种电网业务服务器运行状态预警方法 Active CN109525435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811539747.9A CN109525435B (zh) 2018-12-14 2018-12-14 一种电网业务服务器运行状态预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811539747.9A CN109525435B (zh) 2018-12-14 2018-12-14 一种电网业务服务器运行状态预警方法

Publications (2)

Publication Number Publication Date
CN109525435A true CN109525435A (zh) 2019-03-26
CN109525435B CN109525435B (zh) 2021-06-29

Family

ID=65795870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811539747.9A Active CN109525435B (zh) 2018-12-14 2018-12-14 一种电网业务服务器运行状态预警方法

Country Status (1)

Country Link
CN (1) CN109525435B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275185A (zh) * 2020-01-16 2020-06-12 珠海格力电器股份有限公司 一种能源使用状态预警方法、装置、设备和存储介质
CN111930603A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 服务器性能检测方法、装置、系统及介质
CN112579977A (zh) * 2020-12-11 2021-03-30 国网新疆电力有限公司经济技术研究院 一种基于切比雪夫不等式的投资结余率合理区间测算方法
CN112583645A (zh) * 2020-12-25 2021-03-30 南京联成科技发展股份有限公司 一种自动检测安全威胁的方法
CN112988550A (zh) * 2021-05-21 2021-06-18 神威超算(北京)科技有限公司 服务器故障预测方法、装置和计算机可读介质
CN113438375A (zh) * 2021-05-24 2021-09-24 商客通尚景科技(上海)股份有限公司 保持坐席状态的方法
CN113435725A (zh) * 2021-06-21 2021-09-24 国网宁夏电力有限公司信息通信公司 基于farima-lstm预测的电网主机动态阈值设定方法
CN117151869A (zh) * 2023-10-26 2023-12-01 北京信立合创信息技术有限公司 一种基于深度学习的个人信用征信模型及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039764A1 (en) * 2013-07-31 2015-02-05 Anton Beloglazov System, Method and Computer Program Product for Energy-Efficient and Service Level Agreement (SLA)-Based Management of Data Centers for Cloud Computing
CN104951846A (zh) * 2015-06-02 2015-09-30 国电南京自动化股份有限公司 微电网短期功率和负荷预测系统及误差分类动态修正方法
CN105654229A (zh) * 2015-11-26 2016-06-08 国家电网公司 一种电网自动化系统及设备运行状态风险评估算法
CN107527121A (zh) * 2017-09-18 2017-12-29 云南电网有限责任公司信息中心 一种电网的信息系统运行状态诊断预测的方法
CN108809695A (zh) * 2018-04-28 2018-11-13 国网浙江省电力有限公司电力科学研究院 一种面向移动边缘计算的分布上行链路卸载策略

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039764A1 (en) * 2013-07-31 2015-02-05 Anton Beloglazov System, Method and Computer Program Product for Energy-Efficient and Service Level Agreement (SLA)-Based Management of Data Centers for Cloud Computing
CN104951846A (zh) * 2015-06-02 2015-09-30 国电南京自动化股份有限公司 微电网短期功率和负荷预测系统及误差分类动态修正方法
CN105654229A (zh) * 2015-11-26 2016-06-08 国家电网公司 一种电网自动化系统及设备运行状态风险评估算法
CN107527121A (zh) * 2017-09-18 2017-12-29 云南电网有限责任公司信息中心 一种电网的信息系统运行状态诊断预测的方法
CN108809695A (zh) * 2018-04-28 2018-11-13 国网浙江省电力有限公司电力科学研究院 一种面向移动边缘计算的分布上行链路卸载策略

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANPING HUANG 等: "Host Load Forecasting by Elman Neural Networks", 《2012 INTERNATIONAL CONFERENCE ON CONTROL ENGINEERING AND COMMUNICATION TECHNOLOGY》 *
郭栋 等: "基于威布尔分布的云计算能耗优化模型研究", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275185A (zh) * 2020-01-16 2020-06-12 珠海格力电器股份有限公司 一种能源使用状态预警方法、装置、设备和存储介质
CN111930603A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 服务器性能检测方法、装置、系统及介质
CN112579977A (zh) * 2020-12-11 2021-03-30 国网新疆电力有限公司经济技术研究院 一种基于切比雪夫不等式的投资结余率合理区间测算方法
CN112583645A (zh) * 2020-12-25 2021-03-30 南京联成科技发展股份有限公司 一种自动检测安全威胁的方法
CN112988550A (zh) * 2021-05-21 2021-06-18 神威超算(北京)科技有限公司 服务器故障预测方法、装置和计算机可读介质
CN113438375A (zh) * 2021-05-24 2021-09-24 商客通尚景科技(上海)股份有限公司 保持坐席状态的方法
CN113438375B (zh) * 2021-05-24 2022-09-27 商客通尚景科技(上海)股份有限公司 保持坐席状态的方法
CN113435725A (zh) * 2021-06-21 2021-09-24 国网宁夏电力有限公司信息通信公司 基于farima-lstm预测的电网主机动态阈值设定方法
CN117151869A (zh) * 2023-10-26 2023-12-01 北京信立合创信息技术有限公司 一种基于深度学习的个人信用征信模型及方法

Also Published As

Publication number Publication date
CN109525435B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN109525435A (zh) 一种电网业务服务器运行状态预警方法
CN105117602B (zh) 一种计量装置运行状态预警方法
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
CN109144724A (zh) 一种微服务资源调度系统及方法
CN110232203B (zh) 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN107784440A (zh) 一种电力信息系统资源调配系统及方法
CN112686464A (zh) 短期风电功率预测方法及装置
Abul-Haggag et al. Application of fuzzy logic for risk assessment using risk matrix
CN109544399B (zh) 基于多源异构数据的输电设备状态评价方法及装置
CN105512448A (zh) 一种配电网健康指数的评估方法
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN105740975A (zh) 一种基于数据关联关系的设备缺陷评估与预测方法
CN110865924B (zh) 电力信息系统内部服务器健康度诊断方法与健康诊断框架
KR20200128232A (ko) 전력 수요 예측 장치 및 그 방법
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN106408016A (zh) 一种配电网停电时间自动识别模型构造方法
CN116739742A (zh) 信贷风控模型的监控方法、装置、设备及存储介质
CN113742993B (zh) 干式变压器寿命损失预测方法、装置、设备及存储介质
Khalid et al. Performance comparison of artificial intelligence techniques for non-intrusive electrical load monitoring
Wang et al. Cloud computing and extreme learning machine for a distributed energy consumption forecasting in equipment-manufacturing enterprises
Wang et al. Continual residual reservoir computing for remaining useful life prediction
CN116228312A (zh) 大额积分兑换行为的处理方法和装置
CN110533213A (zh) 基于支持向量机的输电线路缺陷风险建模及其预测方法
Othman et al. Hybrid stand-alone photovoltaic systems sizing optimization based on load profile
Hu et al. Adaptive threshold modeling algorithm for monitoring indicators of power network server based on Chebyshev inequality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant