CN113778805A - 一种dcgw集群告警方法及系统 - Google Patents

一种dcgw集群告警方法及系统 Download PDF

Info

Publication number
CN113778805A
CN113778805A CN202111081756.XA CN202111081756A CN113778805A CN 113778805 A CN113778805 A CN 113778805A CN 202111081756 A CN202111081756 A CN 202111081756A CN 113778805 A CN113778805 A CN 113778805A
Authority
CN
China
Prior art keywords
monitoring index
alarm
value
limit threshold
dynamic alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111081756.XA
Other languages
English (en)
Inventor
张维
魏宇涛
丁利锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111081756.XA priority Critical patent/CN113778805A/zh
Publication of CN113778805A publication Critical patent/CN113778805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种DCGW集群告警方法及系统,通过预设先构建的深度神经网络模型对获取到的待测数据进行预测得到预设时刻的监控指标预测值,若预设时刻的监控指标实际值大于动态告警上限阈值,生成第一告警信息,若预设时刻监控指标实际值小于动态告警下限阈值,生成第二告警信息。通过上述方案,将DCGW集群中的监控指标数据分别建模为一维时间序列数据,从时间维度上对监控指标数据进行动态预测,当监控指标实际值高于动态告警上限阈值或低于动态告警下限阈值时均可以产生对应的告警信息,从而避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。

Description

一种DCGW集群告警方法及系统
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种DCGW集群告警方法及系统。
背景技术
当前越来越多的用户通过云专线接入(Direct Connect,DC)产品实现云上资源与互联网数据中心(Internet Data Center,IDC)之间的网络互通。在云环境中,用户的专线流量通过数据中心网关(Data CenterGateway,DCGW)集群实现数据转发功能。
通过DCGW集群以及用户的物理专线、专线通道的流量、包量等监控分析以及告警配置,一方面能够帮助运维人员根据当前DCGW集群流量的使用情况,在接近扩容阈值前发起DCGW集群扩容,另一方面能够帮助运维技术人员对用户专线业务的网络传输出现故障时快速定位问题。
但是,DCGW集群的告警方式都存在一定缺点,首先,对于DCGW集群的监控告警阈值全部为静态阈值,当监控指标高于阈值即会产生告警,提醒运维人员进行查看,这种方式一方面对于用户业务高峰期的短时业务陡增会产生大量误报,其次,当用户的云上应用由于自身问题产生中断而又缺少必要的应用拨测时,DCGW集群的告警方式无法对其进行感知,使得在用户专线业务出现故障时无法得到准确的告警信息,进一步增加了故障定位难度。
因此,现有的DCGW集群的告警方式的误报率高,且得到DCGW集群的告警信息的准确率低。
发明内容
有鉴于此,本申请公开了一种DCGW集群告警方法及系统,旨在避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种DCGW集群告警方法,所述方法包括:
获取n个监控指标数据,所述监控指标数据用于指示DCGW集群的监控指标;并将所述n个监控指标数据进行处理,得到待测数据;所述n为大于1的整数;
通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值;
根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;所述动态告警上限阈值用于表征触发动态告警的数值上限;所述动态告警下限阈值用于表征触发动态告警的数值下限;
若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,生成第一告警信息;所述第一告警信息用于对达到触发动态告警的数值上限作出的提示;
若所述预设时刻监控指标实际值小于所述动态告警下限阈值,生成第二告警信息;所述第二告警信息用于对达到触发动态告警的数值下限作出的提示。
优选的,所述将所述监控指标数据进行处理,得到待测数据,包括:
通过预设监控组件对所述n个监控指标数据进行监控,得到元数据;所述元数据用于表征预设时间区间内所述n个监控指标数据构成的时间序列数据;
将所述元数据进行归一化处理,得到待测数据。
优选的,所述根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值,包括:
对所述预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值;
将预先获取到的预测误差系数、预设边界系数和所述残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
优选的,还包括:
若所述预设时刻的监控指标实际值小于所述动态告警上限阈值,且大于所述动态告警下限阈值,则确定所述DCGW集群处于正常状态。
优选的,还包括:
若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,对所述DCGW集群进行扩容操作。
本申请第二方面公开了一种DCGW集群告警系统,所述系统包括:
第一获取单元,用于获取n个监控指标数据,所述监控指标数据用于指示DCGW集群的监控指标;并将所述n个监控指标数据进行处理,得到待测数据;所述n为大于1的整数;
预测单元,用于通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值;
第一确定单元,用于根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;所述动态告警上限阈值用于表征触发动态告警的数值上限;所述动态告警下限阈值用于表征触发动态告警的数值下限;
第一生成单元,用于若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,生成第一告警信息;所述第一告警信息用于对达到触发动态告警的数值上限作出的提示;
第二生成单元,用于若所述预设时刻监控指标实际值小于所述动态告警下限阈值,生成第二告警信息;所述第二告警信息用于对达到触发动态告警的数值下限作出的提示。
优选的,所述第一获取单元在将所述监控指标数据进行处理,得到待测数据方面,包括:
获取模块,用于通过预设监控组件对所述n个监控指标数据进行监控,得到元数据;所述元数据用于表征预设时间区间内所述n个监控指标数据构成的时间序列数据;
归一化模块,用于将所述元数据进行归一化处理,得到待测数据。
优选的,所述第一确定单元,包括:
第一计算模块,用于对所述预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值;
第二计算模块,用于将预先获取到的预测误差系数、预设边界系数和所述残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
优选的,还包括:
第二确定单元,用于若所述预设时刻的监控指标实际值小于所述动态告警上限阈值,且大于所述动态告警下限阈值,则确定所述DCGW集群处于正常状态。
优选的,还包括:
操作单元,用于若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,对所述DCGW集群进行扩容操作。
经由上述技术方案可知,本申请公开了一种DCGW集群告警方法及系统,获取n个监控指标数据,并将n个监控指标数据进行处理,得到待测数据;监控指标数据用于指示DCGW集群的监控指标,n的取值为大于1的整数,通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值,将预设时刻的监控指标预测值进行计算,得到动态告警上限阈值和动态告警下限阈值,若预先获取到的预设时刻的监控指标实际值大于动态告警上限阈值,生成第一告警信息,第一告警信息用于提示DCGW集群的当前网络状态处于丢包状态和/或DCGW集群的应用状态处于业务失败状态,若预设时刻监控指标实际值小于动态告警下限阈值,生成第二告警信息,第二告警信息用于提示DCGW集群的当前网络状态处于非稳定状态和/或DCGW集群的应用业务的业务量异常下降。通过上述方案,将DCGW集群中的监控指标数据分别建模为一维时间序列数据,从时间维度上对监控指标数据进行动态预测,当监控指标实际值高于动态告警上限阈值或低于动态告警下限阈值时均可以产生对应的告警信息,从而避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种DCGW集群告警方法的流程示意图;
图2为本申请实施例公开的LSTM深度神经网络模型的结构示意图;
图3为本申请实施例公开的LSTM深度神经网络模型中内部计算示意图;
图4为本申请实施例公开的在全连接层中,每个神经元的结构示意图;
图5为本申请实施例公开的神经元失活后的LSTM深度神经网络的结构示意图;
图6为本申请实施例公开的DCGW集群动态告警预测方法的LSTM神经网络模型结构示意图;
图7为本申请实施例公开的一种DCGW集群告警系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,现有的DCGW集群的告警方式的误报率高,且得到DCGW集群的告警信息的准确率低。
为了解决上述问题,本申请实施例公开了一种DCGW集群告警方法及系统,将DCGW集群中的监控指标数据分别建模为一维时间序列数据,从时间维度上对监控指标数据进行动态预测,当监控指标实际值高于动态告警上限阈值或低于动态告警下限阈值时均可以产生对应的告警信息,从而避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。具体实现方式通过下述实施例进行说明。
参考图1所示,为本申请实施例公开的一种DCGW集群告警方法的流程示意图,该DCGW集群告警方法主要包括如下步骤:
S101:获取n个监控指标数据,监控指标数据用于指示DCGW集群的监控指标;并将n个监控指标数据进行处理,得到待测数据;n为大于1的整数。
在S101中,对DCGW集群的入流量、出流量、入包量、出包量等监控指标数据进行单步预测。
单步预测即时点序列,其意思是序列中的指标数值不具可加性,序列中每个指标数值的大小与其间隔时间的长短没有直接联系,序列中每个指标数值通常是通过定期的一次登记取得的。
具体将n个监控指标数据进行处理,得到待测数据的过程如下:
首先,在监控平台中部署预设监控组件。
然后,通过预设监控组件对n个监控指标数据进行监控,得到元数据;元数据用于表征预设时间区间内n个监控指标数据构成的时间序列数据。
其中,时间序列数据是按照时间排序的一组随机变量,它通常是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。时间序列数据本质上反映的是某个或者某些随机变量随时间不断变化的趋势,而时间序列预测方法的核心就是从数据中挖掘出这种规律,并利用其对预设时刻的监控指标预测值做出预测。
元数据的表达式如公式(1)所示。
Xk={xk-n+1,xk-n+2,...,xk} (1)
其中,Xk为监控组件从预设时间区间(k-n+1时刻到k时刻期间)n个监控指标数据组成的向量,即时间序列数据,n为长短期记忆人工神经网络(Long Short-Term Memory,LSTM)的一个正整数超参数,xk-n+1为k-n+1时刻的监控指标数据,xk-n+2为k-n+2时刻的监控指标数据,xk为离散周期k时刻的监控指标数据,k的取值为大于等于1的整数。
最后,将元数据进行归一化处理,得到待测数据。
其中,将元数据进行归一化处理,使得监控指标数据归一化到同一个范围中,能够使模型快速收敛,同时提升预测精度。
由于DCGW集群相关监控指标为非负数,所以归一化计算式如公式(2)所示。
Figure BDA0003264238100000061
其中,Zk为Xk归一化的时间序列,Xmax为监控信息的最大值,Xmax一般取历史数据中所有样本的最大值,或者取当前DCGW集群、DCGW服务器性能极限值。
S102:通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值。
在S102中,该LSTM深度神经网络模型通过既有的时间序列Xk预测xk+1,并将xk+1作为k+1时刻的监控指标预测值。
LSTM深度神经网络模型的结构如图2所示。
图2中,LSTM深度神经网络模型包括输入层、LSTM层、全连接层和输出层。
输入层:该层的输入为经过归一化的DCGW集群监控指标数据的时间序列Zk,其神经元数量与超参数n一致。
LSTM层:该层相比于一般的神经网络,在其中加入了三类逻辑门控单元包括遗忘门、输入门和输出门。
其中,遗忘门控制神经元中历史信息的遗忘程度,输入门控制输入至神经元的新信息,输出门则控制神经元信息输出。加入以上三种逻辑门控单元解决了神经网络长距离依赖以及梯度消失问题。
LSTM深度神经网络模型中的内部计算流程如图3所示。
图3中,Xk为k时刻网络的输入(离散周期k时刻的监控指标数据);hk为k时刻网络的输出;hk-1为k-1时刻网络的输出;hk+1为k+1时刻网络的输出;Ck为k时刻记忆单元的输出;Ck-1为k-1时刻记忆单元的输出;σ代表常见的Sigmoid函数;A代表同一神经元结构,此处使用符号代替;Xk+1为k+1时刻的监控指标预测值;Xk-1为k-1时刻的监控指标预测值;fk为遗忘门输出的系数;ik为输入门输出的系数;
Figure BDA0003264238100000071
为输入门的中间态参数;“+”和“X”均为运算符号;tanh为双曲正切。
遗忘门计算过程如公式(3)所示。
fk=sigmoid(θf·[hk-1,Xk]+bf) 公式(3)
其中,fk为遗忘门输出的系数;θf为遗忘门的权重;bf为遗忘门的偏置;Xk为k时刻LSTM深度神经网络的输入;hk-1为k-1时刻LSTM深度神经网络的输出。
输入门计算过程如公式(4)和公式(5)所示。
ik=sigmoid(θi·[hk-1,Xk]+bi) 公式(4)
其中,ik为输入门输出的系数,θi为输入门的权重;bi为输入门的偏置;Xk为k时刻LSTM深度神经网络的输入。
Figure BDA0003264238100000081
其中,
Figure BDA0003264238100000082
为输入门的中间态参数;hk-1为k-1时刻LSTM深度神经网络的输出;θc为计算该参数时的权重;Xk为k时刻LSTM深度神经网络的输入;bc为计算该参数时的偏置。
输出门计算过程如公式(6)所示。
ok=sigmoid(θo·[hk-1,Xk]+bo) 公式(6)
其中,ok为输出门输出的系数;θo为输入门的权重;Xk为k时刻LSTM深度神经网络的输入;bo为输入门的偏置。
迭代计算过程如公式(7)和公式(8)所示。
hk=ok*tanh(Ck-1) 公式(7)
Figure BDA0003264238100000083
其中,hk为k时刻LSTM深度神经网络的输出,ok为输出门输出的系数,Ck为k时刻的网络记忆单元输出,Ck-1为k-1时刻的网络记忆单元输出,
Figure BDA0003264238100000084
为中间态,fk为遗忘门输出的系数,ik为输入门输出的系数。
通过k-1时刻的网络记忆单元输出Ck-1,k时刻网络中各个门的输出ok、fk、ik以及中间态
Figure BDA0003264238100000085
可得到k时刻网络的输出hk和记忆单元输出Ck,作为k+1时刻的输入,完成迭代计算。
全连接层:该层在模型中的作用主要为数据维度变换,并增加了模型的复杂度。全连接层将数据从高维度映射至低维度的同时,尽可能的保留关键信息。
全连接层中,每个神经元的结构图如图4所示。
图4中,{X1,X2,X3,...,Xn}为神经元的输入,{W1,W2,W3,…,Wn}为每个神经元输入的权重,F(ΣiWiXi+bi)表示激活函数,引入激活函数后,神经元可以限制输出范围,同时具有更好的非线性拟合能力,这里采用常见的Sigmoid激活函数,其表达式如公式(9)所示。
σ(x)=1/1+e-x 公式(9)
其中,σ(x)为Sigmoid激活函数,e为自然对数,x为函数的自变量。
全连接层的更新过程可以分步表达,如A1-A3所示。
A1:网络初始化时将权重Wi和偏置bi设定为0-1之间的随机数。
A2:逐层计算F(ΣiWiXi+bi),直至输出最终的神经元的输出结果。
A3,使用平方误差传递函数(反向传播更新权重和偏置参数),如公式(10)所示。
Figure BDA0003264238100000091
其中,E为平方误差传递函数,i为神经元,yi为监控指标实际值,
Figure BDA0003264238100000092
为监控指标预测值。
利用误差函数对权重和偏置进行更新,具体更新过程如公式(11)和公式(12)所示。
Figure BDA0003264238100000093
Figure BDA0003264238100000094
其中,Wi为更新后神经元i的权重;bi为更新后的神经元i的偏置;α为步长,Wi0为神经元i的初始权重;bi0为神经元i的偏置。
输出层:该层作为预测模型的输出,负责给出k+1时刻的监控指标预测值Xk+1。由于模型是一步预测,因此,输出层神经元数量为1。
指定LSTM深度神经网络模型的损失函数,其作用为评价真实值与预测值之间的偏差,深度神经网络在训练的过程中,通过最小化损失函数优化模型参数。在本申请中,预测监控指标阈值属于回归问题,使用回归问题常用的平方损失函数,如公式(13)所示。
Figure BDA0003264238100000095
其中,J(θ)为损失函数,yk为k时刻的监控指标真实值,
Figure BDA0003264238100000096
为k时刻LSTM深度神经网络模型的监控指标预测值,N为该层神经元数量。
设置神经元随机失活概率。为了应对LSTM深度神经网络在训练过程中可能产生的过拟合现象,为深度神经网络的神经元设计了随机失活机制,在每轮迭代计算的过程中,每个神经元具有独立同分布的失活概率,失活的神经元不参与计算过程。该机制一方面有效降低了过拟合现象,另一方面降低了网络计算的复杂度。本申请设计神经元失活的概率为25%,具体神经元失活后的LSTM深度神经网络结构图如图5所示。
图5中,神经元失活后的LSTM深度神经网络包括输入层、LSTM层、全连接层和输出层。
设置LSTM深度神经网络的目标函数优化算法。在常见的牛顿法和梯度下降法中,牛顿法容易陷入局部最优,故本申请采用批量梯度下降(BatchGradientDescent,BGD)法。BGD法在更新参数时使用全部样本数据,保证结果为全局最优,其更新过程如公式(14)所示。
Figure BDA0003264238100000101
其中,θi为线性回归的参数,m为样本总量,α为更新步长,x为样本值,y为数据标签值,hθ为目标拟合出的回归线,
Figure BDA0003264238100000102
Figure BDA0003264238100000103
均为该层的输入,yj为该层的输出。
通过以上,介绍了LSTM深度神经网络各个组件的原理、结构以及使用到的激活函数,在实际设计网络的过程中,需要对网络深度、神经元数量、步长等超参数进行设计。使用传统的网格搜索法,对预设的各个超参数取值进行排列组合并进行试验,确认预测性能的最佳超参数组合。评价预测性能采用平均绝对误差(MeanAbsoluteError,MAE),其计算过程如公式(15)所示。
Figure BDA0003264238100000104
其中,n为样本总数,i为神经元,yi为训练样本真实值,
Figure BDA0003264238100000105
为LSTM深度神经网络输出的预测值。这里给出一组常用超参数组合,如表1所示。
训练参数 LSTM神经元数 全连接层数 全连接层神经元数 步长
50 100 4 100 8
表1
其中,训练参数为50,LSTM升级元数为100,全连接层数为4,全连接层神经元数为100,步长为8。
S103:根据预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;动态告警上限阈值用于表征触发动态告警的数值上限;动态告警下限阈值用于表征触发动态告警的数值下限。
在S103中,可按用户业务高低峰周期的预测、调整动态告警上限阈值和动态告警下限阈值,又能够实现动态告警上限阈值和动态告警下限阈值的检测告警。
预设时刻可以是9:00,也可以是12:13,具体预设时刻的确定由技术人员根据实际情况进行设置,本申请不做具体限定。
具体根据预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值的过程如下:
首先,对预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值。
其中,通过LSTM深度神经网络得到的k时刻的监控指标预测值
Figure BDA0003264238100000111
与k时刻的yk监控指标真实值之间的残差,如公式(16)所示。
Figure BDA0003264238100000112
其中,ek为残差值。
由于LSTM深度神经网络的输出为真实值的最小无偏估计,所以对于每个时刻k=0,1,2,…,残差值ek为独立同分布的零均值高斯分布,所以由ek组成的残差时间序列,其均值μe=0,得到的方差如公式(17)所示。
Figure BDA0003264238100000113
其中,
Figure BDA0003264238100000114
为方差,α为预测误差系数,
Figure BDA0003264238100000115
Figure BDA0003264238100000116
均由ek组成的残差时间序列。
然后,通过预先获取到的预测误差系数、预设边界系数和残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
其中,通过方差可得到动态告警上限阈值和动态告警下限阈值,其计算式如公式(18)和公式(19)所示。
Figure BDA0003264238100000117
Figure BDA0003264238100000118
其中,Uk为动态告警上限阈值,Dk为动态告警下限阈值,L为边界系数,用以控制阈值范围,σe为标准差。
得到告警阈值后,还需根据实际的理论带宽、包量等极限值对动态告警上限阈值和动态告警下限阈值进行进一步判断,具体判断过程如公式(20)和公式(21)所示。
Figure BDA0003264238100000121
Figure BDA0003264238100000122
其中,Umax为监控指标信息的理论最大值,Dmin为监控指标信息的理论最小值。
S104:对预设时刻的监控指标实际值进行判定,若预设时刻的监控指标实际值大于动态告警上限阈值,则执行S105,若预设时刻监控指标实际值小于动态告警下限阈值,则执行S106。
S105:生成第一告警信息;第一告警信息用于对达到触发动态告警的数值上限作出的提示。
在S105中,若预设时刻的监控指标实际值yk大于Uk,生成第一告警信息,第一告警信息一方面用于提示运维人员检查当前网络状态,是否产生了由于流量、包量过高而产生的丢/错包,作为扩容升级的依据,第一告警信息另一方面用于提示用户检查应用状态,是否产生了由于容量不足而产生的业务失败,甚至可以作为应用系统遭受网络拥塞攻击的辅助判断依据。
S106:生成第二告警信息;第二告警信息用于对达到触发动态告警的数值下限作出的提示。
在S106中,若预设时刻的监控指标实际值yk小于动态告警下限阈值Dk,生成第二告警信息,第二告警信息用于提示运维人员检查网络状态或通知用户检查应用业务状态,是否存在因网络状态不稳定或者应用软件错误导致的业务量异常下降。
可选的,若预设时刻的监控指标实际值小于动态告警上限阈值,且大于动态告警下限阈值,则确定DCGW集群处于正常状态。
其中,若DCGW集群监控指标实际值yk满足yk∈[Uk,Dk],确定DCGW集群此时处于正常状态。
可选的,若预设时刻的监控指标实际值大于动态告警上限阈值,对DCGW集群进行扩容操作。
其中,若yk>Uk,则运维人员根据当前DCGW集群流量的使用情况,在接近扩容阈值前发起DCGW集群扩容。
通过产生的动态告警上限阈值和动态告警下限阈值,解决了业务高峰时的告警误报或业务低峰时的告警漏报问题,并且提高了运维服务效率。
本申请提出的DCGW集群动态告警预测方法的LSTM神经网络模型结构如图6所示。
图6中,8×1标识为该层的神经元个数8,100×1标识为该层的神经元个数100,1×1标识为该层的神经元个数1,xk-8为k-8时刻模型的输入,xk-7为k-7时刻模型的输入,xk-1为k-1时刻模型的输入,
Figure BDA0003264238100000131
为k时刻LSTM深度神经网络模型的监控指标预测值,Uk为k时刻LSTM深度神经网络模型输出的动态告警上限阈值,Dk为k时刻LSTM深度神经网络模型输出的动态告警下限阈值。
图6中,LSTM深度神经网络模型包括输入层、LSTM层、全连接层1、全连接层2、全连接层3、全连接层4和输出层。
本申请实施例中,将DCGW集群中的监控指标数据分别建模为一维时间序列数据,从时间维度上对监控指标数据进行动态预测,当监控指标实际值高于动态告警上限阈值或低于动态告警下限阈值时均可以产生对应的告警信息,从而避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。
基于上述实施例图1公开的一种DCGW集群告警方法,本申请实施例还对应公开了一种DCGW集群告警系统,如图7所示,该DCGW集群告警系统包括第一获取单元701、预测单元702、第一确定单元703、第一生成单元704和第二生成单元705。
第一获取单元701,用于获取n个监控指标数据,监控指标数据用于指示DCGW集群的监控指标;并将n个监控指标数据进行处理,得到待测数据;n为大于1的整数。
预测单元702,用于通过预先构建的深度神经网络模型对待测数据进行预测,得到预设时刻的监控指标预测值。
第一确定单元703,用于根据预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;动态告警上限阈值用于表征触发动态告警的数值上限;动态告警下限阈值用于表征触发动态告警的数值下限。
第一生成单元704,用于若预设时刻的监控指标实际值大于动态告警上限阈值,生成第一告警信息;第一告警信息用于对达到触发动态告警的数值上限作出的提示。
第二生成单元705,用于若预设时刻监控指标实际值小于动态告警下限阈值,生成第二告警信息;第二告警信息用于对达到触发动态告警的数值下限作出的提示。
进一步的,第一获取单元901包括获取模块和归一化模块。
获取模块,用于通过预设监控组件对n个监控指标数据进行监控,得到元数据;元数据用于表征预设时间区间内n个监控指标数据构成的时间序列数据。
归一化模块,用于将元数据进行归一化处理,得到待测数据。
进一步的,第一确定单元703包括第一计算模块和第二计算模块。
第一计算模块,用于对预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值。
第二计算模块,用于通过预先获取到的预测误差系数、预设边界系数和残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
进一步的,还包括第二确定单元。
第二确定单元,用于若预设时刻的监控指标实际值小于动态告警上限阈值,且大于动态告警下限阈值,则确定DCGW集群处于正常状态。
进一步的,还包括操作单元。
操作单元,用于若预设时刻的监控指标实际值大于告警上限阈值,对DCGW集群进行扩容操作。
本申请实施例中,将DCGW集群中的监控指标数据分别建模为一维时间序列数据,从时间维度上对监控指标数据进行动态预测,当监控指标实际值高于动态告警上限阈值或低于动态告警下限阈值时均可以产生对应的告警信息,从而避免在业务高峰期的短时业务陡增时会产生大量误报,且在用户专线业务出现故障时提供准确的告警信息。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种DCGW集群告警方法,其特征在于,所述方法包括:
获取n个监控指标数据,所述监控指标数据用于指示DCGW集群的监控指标;并将所述n个监控指标数据进行处理,得到待测数据;所述n为大于1的整数;
通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值;
根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;所述动态告警上限阈值用于表征触发动态告警的数值上限;所述动态告警下限阈值用于表征触发动态告警的数值下限;
若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,生成第一告警信息;所述第一告警信息用于对达到触发动态告警的数值上限作出的提示;
若所述预设时刻监控指标实际值小于所述动态告警下限阈值,生成第二告警信息;所述第二告警信息用于对达到触发动态告警的数值下限作出的提示。
2.根据权利要求1所述的方法,其特征在于,所述将所述监控指标数据进行处理,得到待测数据,包括:
通过预设监控组件对所述n个监控指标数据进行监控,得到元数据;所述元数据用于表征预设时间区间内所述n个监控指标数据构成的时间序列数据;
将所述元数据进行归一化处理,得到待测数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值,包括:
对所述预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值;
将预先获取到的预测误差系数、预设边界系数和所述残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述预设时刻的监控指标实际值小于所述动态告警上限阈值,且大于所述动态告警下限阈值,则确定所述DCGW集群处于正常状态。
5.根据权利要求3所述的方法,其特征在于,还包括:
若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,对所述DCGW集群进行扩容操作。
6.一种DCGW集群告警系统,其特征在于,所述系统包括:
第一获取单元,用于获取n个监控指标数据,所述监控指标数据用于指示DCGW集群的监控指标;并将所述n个监控指标数据进行处理,得到待测数据;所述n为大于1的整数;
预测单元,用于通过预先构建的深度神经网络模型对所述待测数据进行预测,得到预设时刻的监控指标预测值;
第一确定单元,用于根据所述预设时刻的监控指标预测值和预设时刻的监控指标实际值,确定动态告警上限阈值和动态告警下限阈值;所述动态告警上限阈值用于表征触发动态告警的数值上限;所述动态告警下限阈值用于表征触发动态告警的数值下限;
第一生成单元,用于若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,生成第一告警信息;所述第一告警信息用于对达到触发动态告警的数值上限作出的提示;
第二生成单元,用于若所述预设时刻监控指标实际值小于所述动态告警下限阈值,生成第二告警信息;所述第二告警信息用于对达到触发动态告警的数值下限作出的提示。
7.根据权利要求6所述的系统,其特征在于,所述第一获取单元在将所述监控指标数据进行处理,得到待测数据方面,包括:
获取模块,用于通过预设监控组件对所述n个监控指标数据进行监控,得到元数据;所述元数据用于表征预设时间区间内所述n个监控指标数据构成的时间序列数据;
归一化模块,用于将所述元数据进行归一化处理,得到待测数据。
8.根据权利要求6所述的系统,其特征在于,所述第一确定单元,包括:
第一计算模块,用于对所述预设时刻的监控指标实际值和预设时刻的监控指标预测值进行求差计算,得到残差值;
第二计算模块,用于将预先获取到的预测误差系数、预设边界系数和所述残差值进行方差计算,得到动态告警上限阈值和动态告警下限阈值。
9.根据权利要求8所述的系统,其特征在于,还包括:
第二确定单元,用于若所述预设时刻的监控指标实际值小于所述动态告警上限阈值,且大于所述动态告警下限阈值,则确定所述DCGW集群处于正常状态。
10.根据权利要求8所述的系统,其特征在于,还包括:
操作单元,用于若所述预设时刻的监控指标实际值大于所述动态告警上限阈值,对所述DCGW集群进行扩容操作。
CN202111081756.XA 2021-09-15 2021-09-15 一种dcgw集群告警方法及系统 Pending CN113778805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111081756.XA CN113778805A (zh) 2021-09-15 2021-09-15 一种dcgw集群告警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111081756.XA CN113778805A (zh) 2021-09-15 2021-09-15 一种dcgw集群告警方法及系统

Publications (1)

Publication Number Publication Date
CN113778805A true CN113778805A (zh) 2021-12-10

Family

ID=78844274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111081756.XA Pending CN113778805A (zh) 2021-09-15 2021-09-15 一种dcgw集群告警方法及系统

Country Status (1)

Country Link
CN (1) CN113778805A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314412A (zh) * 2022-06-22 2022-11-08 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置
CN115378795A (zh) * 2022-08-19 2022-11-22 度小满科技(北京)有限公司 服务器网络质量监控方法、装置和电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656583A (zh) * 2016-12-02 2017-05-10 郑州云海信息技术有限公司 一种动态阈值告警方法及装置
CN110008079A (zh) * 2018-12-25 2019-07-12 阿里巴巴集团控股有限公司 监控指标异常检测方法、模型训练方法、装置及设备
CN111198799A (zh) * 2019-12-31 2020-05-26 苏州浪潮智能科技有限公司 一种基于lstm的机房功耗预警方法、系统、终端及存储介质
KR20200097623A (ko) * 2019-02-08 2020-08-19 서울대학교산학협력단 데이터 센터 내 서비스별 네트워크 자원을 예측하는 방법 및 장치
CN112363890A (zh) * 2020-11-18 2021-02-12 合肥城市云数据中心股份有限公司 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656583A (zh) * 2016-12-02 2017-05-10 郑州云海信息技术有限公司 一种动态阈值告警方法及装置
CN110008079A (zh) * 2018-12-25 2019-07-12 阿里巴巴集团控股有限公司 监控指标异常检测方法、模型训练方法、装置及设备
KR20200097623A (ko) * 2019-02-08 2020-08-19 서울대학교산학협력단 데이터 센터 내 서비스별 네트워크 자원을 예측하는 방법 및 장치
CN111198799A (zh) * 2019-12-31 2020-05-26 苏州浪潮智能科技有限公司 一种基于lstm的机房功耗预警方法、系统、终端及存储介质
CN112363890A (zh) * 2020-11-18 2021-02-12 合肥城市云数据中心股份有限公司 基于Prophet模型的数据中心运维系统阈值自适应告警监测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314412A (zh) * 2022-06-22 2022-11-08 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置
CN115314412B (zh) * 2022-06-22 2023-09-05 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置
CN115378795A (zh) * 2022-08-19 2022-11-22 度小满科技(北京)有限公司 服务器网络质量监控方法、装置和电子设备及存储介质
CN115378795B (zh) * 2022-08-19 2024-02-13 度小满科技(北京)有限公司 服务器网络质量监控方法、装置和电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP7240691B1 (ja) データドライブの能動配電網異常状態検知方法及びシステム
Liu et al. Remaining useful life prediction of PEMFC based on long short-term memory recurrent neural networks
US11409347B2 (en) Method, system and storage medium for predicting power load probability density based on deep learning
Mao et al. Investigation of polymer electrolyte membrane fuel cell internal behaviour during long term operation and its use in prognostics
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN105325023B (zh) 用于小区异常检测的方法和网络设备
CN113778805A (zh) 一种dcgw集群告警方法及系统
CN107707657A (zh) 基于多传感器的安全监护系统
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
US20180268264A1 (en) Detecting anomalous sensor data
CN114338351B (zh) 网络异常根因确定方法、装置、计算机设备及存储介质
Liu et al. Dynamic traffic demand uncertainty prediction using radio‐frequency identification data and link volume data
CN116794510A (zh) 故障预测方法、装置、计算机设备和存储介质
CN111901134B (zh) 一种基于循环神经网络模型rnn的预测网络质量的方法和装置
CN109324591B (zh) 基于鲁棒估计器的随机混杂系统的故障诊断装置及方法
CN113298296A (zh) 一种自下而上的输电变电站日前负荷概率预测方法
CN113825165B (zh) 基于时间图网络的5g切片网络拥塞预警方法及装置
CN113158448A (zh) 一种船舶系统设备阈值的自适应计算方法
WO2022161069A1 (zh) 一种动态控制系统的异常检测方法、装置和计算机可读介质
CN112836843B (zh) 一种基站退服告警预测方法及装置
WO2023093431A1 (zh) 一种模型训练方法、装置、设备、存储介质和程序产品
RU2542901C1 (ru) Способ управления компьютерной сетью
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及系统
WO2023236197A1 (zh) 负荷辨识方法、计算机可读存储介质及设备
CN114692729A (zh) 基于深度学习的新能源场站不良数据辨识与修正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination