CN114726751A

CN114726751A - 资源质量监控的智能化预警方法、系统、设备和存储介质

Info

Publication number: CN114726751A
Application number: CN202210360389.5A
Authority: CN
Inventors: 徐运海; 皋宇峰; 周波; 郑博洪; 赖伟; 陶熙; 李跃华; 邓云; 曹磊
Original assignee: Guangzhou Teligen Communication Technology Co ltd
Current assignee: Guangzhou Teligen Communication Technology Co ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-08

Abstract

本申请提供了一种用于资源质量监控的智能化预警方法、系统、设备及存储介质，收集原始运维指标数据，将原始运维指标数据作为学习目标输入到长短期记忆网络LSTM中；基于长短期记忆网络LSTM对原始运维指标数据的深层数据信息进行回归学习，训练权重和偏置确定的预测模型；利用预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为数据指标设定动态阈值；根据动态阈值筛选下一时间段的有效告警信息，根据有效告警信息进行智能化预警。本发明使用的LSTM网络具有能够最大程度发挥历史信息的价值，预测未来更为准确的数据值，能够有效的为运维人员降低时间成本，维护服务稳定运行。

Description

资源质量监控的智能化预警方法、系统、设备和存储介质

技术领域

本发明涉及互联网运维领域，具体涉及一种用于资源质量监控的智能化预警方法、系统、设备和存储介质。

背景技术

目前，在互联网运维领域中，指标的变化趋势各不相同，其受到时间，用户量，社会环境等多种因数的影响，呈现出无规律，变化多端等特点，例如手机流量，其在白天的总量一般低于晚上，若简单的指定固定的阈值会导致晚上的服务告警剧增，然而其中大部分是正常的数据波动。

随着数据量以及指标数量的剧增，以往的人工制定阈值并产生告警的运维方式逐渐不能满足日常运维的要求，当指标数量较大时，需要运维人员根据经验分别制定一个阈值，超过或低于阈值将会判定为指标出现异常，在一些数据指标中，这种方式通常会遗漏重要异常或产生较多无效告警，影响运维人员的判断，直接导致运维质量低下，无法满足巨大用户的日常需求。

为减小运维人力成本，提高运维效率，及时为运维人员提供可靠的告警信息。用机器学习等方法为单个指标制定阈值成为一种可行的方案。机器学习是近年来兴起的一种新技术，主要用于学习已标记样本的特征，形成分类器或回归器，例如决策树算法，通过多种判定条件对已标记的标签进行学习，训练出一棵具有识别特定标签能力的决策树，用于预测或分类。

在互联网运维领域中，现有的智能运维方案通常是使用差分整合移动平均自回归模型ARIMA或XGBoost等机器学习算法对历史的指标数据进行学习，通过预测未来一段时间的指标值来设定动态阈值，这种方法省去了人工设定阈值的人力成本和时间成本，且由于学习了数据指标的变化规律，因此能够筛选掉更多的无效告警，找出其中真正异常的指标，提供可靠的告警信息。

但是，现有的智能运维动态阈值设定方法大部分是基于传统的机器学习方法，如支持向量机、XGBoost等算法，但这些算法仅仅能够学到数据的浅层信息，无法学习时间序列所存在的上下文信息以及记忆信息。而在序列类型的数据中，某一个数据的实际信息通常是由上文所有信息共同决定，各个时间点的数据联系紧密且呈现出一定的规律，若不能深入挖掘这些信息，将导致动态阈值的准确性降低。

发明内容

为解决现有技术存在的问题，本发明提供了一种用于资源质量监控的智能化预警方法、系统、设备和存储介质。为实现本发明的目的，本发明的技术方案如下。

一种用于资源质量监控的智能化预警方法，包括：

收集原始运维指标数据，将所述原始运维指标数据作为学习目标输入到长短期记忆网络LSTM中；

基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，训练权重和偏置确定的预测模型；

利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值；

根据所述动态阈值筛选下一时间段的有效告警信息，根据所述有效告警信息进行智能化预警。

优选地，所述基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，包括：

根据深度学习框架TensorFlow，以及多个不同结构的所述长短期记忆LSTM网络，以集成学习的方式对所述原始运维指标数据中基于时间序列的单一指标进行回归学习。

优选地，所述训练权重和偏置确定的预测模型，包括：

以T为时间长度单位划分所述原始运维指标数据，在每一个时间段，根据多个不同结构的所述长短期记忆LSTM网络训练多个权重和偏置确定的所述预测模型。

优选地，所述利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值，包括：

利用多个所述预测模型进行资源质量监控，每个所述预测模型根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，以求平均值的方式根据多个所述预测模型产生的多组所述数据指标获取最终预测值，并以95％置信区间作为阈值划定标准，为所述最终预测值设定动态阈值。

一种用于资源质量监控的智能化预警系统，包括：

输入模块，用于收集原始运维指标数据，将所述原始运维指标数据作为学习目标输入到长短期记忆网络LSTM中；

训练模块，用于基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，训练权重和偏置确定的预测模型；

预测模块，用于利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值；

预警模块，用于根据所述动态阈值筛选下一时间段的有效告警信息，根据所述有效告警信息进行智能化预警。

优选地，所述训练模块在基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习时，具体用于：

优选地，所述训练模块在训练权重和偏置确定的预测模型时，具体用于：

优选地，所述预测模块，具体用于：

一种用于资源质量监控的智能化预警设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任意一项所述的用于资源质量监控的智能化预警方法。

一种存储介质，所述存储介质中包含可执行指令；

所述可执行指令在由处理器执行时用于执行如上述任意一项所述的用于资源质量监控的智能化预警方法。

相对于现有技术，本发明的有益技术效果在于：本发明使用LSTM作为预测模型基础框架，学习更深层的数据信息，预测更加准确的指标值，划定动态的阈值，筛选出更加具有实际意义的有效告警信息。本发明使用的LSTM网络具有记忆历史信息，丢弃无用信息的特点，能够最大程度发挥历史信息的价值，预测未来更为准确的数据值，能够有效的为运维人员降低时间成本，维护服务稳定运行。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于资源质量监控的智能化预警方法的流程示意图；

图2为本申请实施例提供的一种用于资源质量监控的智能化预警方法的架构示意图；

图3为本申请实施例提供的长短期记忆网络的模块示意图；

图4为本申请实施例提供的一种用于资源质量监控的智能化预警系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

术语解释：

ARIMA：整合移动平均自回归模型，是一种基于数据的历史值预测数据未来值的回归模型，原理是将非平稳时间序列转化为平稳时间序列然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

XGBOOST:大规模进行boosted tree的工具，boosted tree是一种基于树的集成学习方法，其原理可简述为依次训练决策树来拟合上次预测的残差，每棵树在生长的过程中，挑选一个最佳的特征进行分裂，最终形成一个回归模型并用于预测数据未来值。

LSTM:长短期记忆网络，是一种改进的循环神经网络，通过输入门、遗忘门和输出门三种结构来实现信息的保护和控制，是一种时间序列预测常用的深度学习方法。

图1为本申请实施例提供的一种用于资源质量监控的智能化预警方法的流程示意图；本申请实施例提供了一种用于资源质量监控的智能化预警方法。本申请实施例的方法包括：

S100：收集原始运维指标数据，将所述原始运维指标数据作为学习目标输入到长短期记忆网络LSTM中；

图2为本申请实施例提供的一种用于资源质量监控的智能化预警方法的架构示意图；部件1收集原始运维指标数据，示例性的，原始运维指标数据来源为es数据库或指标收集程序。

部件1收集的原始运维指标数据被输入到部件2中，部件2包括多个长短期记忆网络(Long Short-Term Memory，LSTM)，如图3所示，为本申请实施例提供的长短期记忆网络的模块示意图。

部件2中的每个长短期记忆网络包含遗忘门、输入门、输出门。长短期记忆网络以原始运维指标数据作为学习目标，基于深度学习框架tensorflow训练时间序列预测模型，多个不同结构的网络将生成多个模型，以集成学习的方式综合这些预测器。长短期记忆网络的模块用公式可以有如下表示：

遗忘门：

LSTM的第一步就是决定什么信息应该被神经元遗忘。这是一个被称为“遗忘门层”的Sigmoid层组成的。它输入h_t-1和x_t,然后在C_t-1的每个神经元状态输出0至1之间的数字。“1”表示“完全保留这个”，“0”表示“完全遗忘这个”。

f_t＝σ(W_f*[h_t-1,x_t]+b_f)；

其中，h_t-1为前一个模块的输入，x_t为本模块的输入，W_f为本次计算的权重，b_f为偏置，[h_t-1,x_t]为上一时刻模块输出和本时刻输入拼接后的向量，σ为激活函数Sigmoid，f_t为经激活函数Sigmoid处理后的输出，f_t表示概率，即遗忘的占比。

输入门：

下一步就是决定要在神经元细胞中保存什么信息，这包括两个部分。首先，一个被称为“输入门层”的Sigmoid层决定要更新的数值。然后，一个tanh层生成一个新的候选数值C _t，它会被增加到神经元状态中。在下一步中会组合这两步去生成一个更新状态值。

i_t＝σ(W_i*[h_t-1,x_t]+b_i)；

C _t＝tanh(W_C*[h_t-1,x_t]+b_c)；

然后更新状态，更新旧的神经元状态C_t-1到新的神经元状态C_t。给旧的状态乘以一个f_t,遗忘掉之前要遗忘的信息，然后增加i_t*C _t。这是新的候选值，是由想多大程度上更新每个状态的值来度量的。

对输入使用sigmoid进行激活，得到i_t，其次使用tanh激活函数，得到C_t，i_t*C_t是输入门两个输出的乘积，表示留下的信息，随即更新细胞状态为C_t。

C_t＝f_t*C_t-1+i_t*C _t；

其中，f_t是遗忘门的输出，代表前一模块C_t-1遗忘概率，C_t-1为上一时刻输出的细胞状态，C_t为本时刻输出的细胞状态；

输出门：

最后要决定要输出什么。这个输出是建立在神经元状态的基础上的，但是有一个滤波器。首先使用Sigmoid层决定哪一部分的神经元状态需要被输出；然后我们让神经元状态经过tanh(让输出值变为-1～1之间)层并且乘上Sigmoid门限的输出，只输出想要输出的。

o_t＝σ(W_o[h_t-1,x_t]+b_o)；

h_t＝o_t*tanh(C_t)。

其中，W_o为此次计算的权重，b_o为偏置，o_t为该时刻模块的最终输出；

其中，h_t为本模块的最终输出，C_t为本时刻输出的细胞状态；

输出门用来表示信息过滤的程度，经过激活后得到o_t，将C_t，即细胞的状态激活后与之相乘，结果h_t即是本层的输出。

S200：基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，训练权重和偏置确定的预测模型；

在本申请实施例中，所述步骤S200中，基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，可以包括：根据深度学习框架TensorFlow，以及多个不同结构的所述长短期记忆LSTM网络，以集成学习的方式对所述原始运维指标数据中基于时间序列的单一指标进行回归学习。

进一步的，所述步骤S200中，所述训练权重和偏置确定的预测模型，可以包括：以T为时间长度单位划分所述原始运维指标数据，在每一个时间段，根据多个不同结构的所述长短期记忆LSTM网络训练多个权重和偏置确定的所述预测模型。

S300：利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值；

在本申请实施例中，所述步骤S300中，所述利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值，可以包括：利用多个所述预测模型进行资源质量监控，每个所述预测模型根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，以求平均值的方式根据多个所述预测模型产生的多组所述数据指标获取最终预测值，并以95％置信区间作为阈值划定标准，为所述最终预测值设定动态阈值。

部件3为部件2的训练结果，该部件将直接用于预测未来的数据走势，经过训练后，得到权重和偏置确定的模型，模型的输入数据为从es集群收集的时间序列指标数据，输出的是下一时间段的系列指标数据。

该长短期记忆网络模型用于对输入数据进行处理，可看做是参数确定的复合函数，数据经过该复合函数的计算后即得到输出作为预测值，模型参数可代表训练数据的内在规律，每一组历史时间序列数据都将作为输入。经过运算产生该指标的预期参考值。

部件3为训练好的神经网络模型，该算法模型为常见的循环神经网络模型，本申请实施例的创新点在于将多个该模型进行集成学习。

部件3将产生多组预测数据，预测数据代表各模型的独立预测结果，综合考虑各个模型的预测结果。

部件4以求平均值的方式获取最后的预测数据值，降低随机误差的产生。

部件5将返回预测结果，并重新推送t+1时刻的数据进入部件1，进入下一个预测循环。

S400：根据所述动态阈值筛选下一时间段的有效告警信息，根据所述有效告警信息进行智能化预警。

目前最好的现有技术是采用ARIMA方法预测未来的指标值，以机器学习算法中的xgboost为例，该算法同样能够依据训练样本生成预测模型用于预测未来的指标值，在数据维度较大时，xgboost作为基础算法的指标预测框架仍能取得较好的效果。但此种方法不具有记忆历史信息的特点，因此易忽略早期重要信息，重视近期信息。

而本发明使用的LSTM网络具有记忆历史信息，丢弃无用信息的特点，能够最大程度发挥历史信息的价值，预测未来更为准确的数据值，在此基础上，进一步提出本发明的创新点，集成多个LSTM预测器，提高了整个系统的鲁棒性和泛化性，使得性能相比传统方法获得一定的提升。

本发明的目的在于使用深度学习算法训练指标预测模型，用于根据一段时间的数据预测未来一段时间的数据值，使用提取更丰富的LSTM算法作为训练预测模型的基础，大幅挖掘数据潜在联系，提高预测准确性。

相对于现有技术，本发明的有益技术效果在于：本发明使用LSTM作为预测模型基础框架，将人工智能方法LSTM用于智能运维领域中的指标预测中，学习更深层的数据信息，预测更加准确的指标值，划定动态的阈值，筛选出更加具有实际意义的有效告警信息。本发明使用的LSTM网络具有记忆历史信息，丢弃无用信息的特点，能够最大程度发挥历史信息的价值，预测未来更为准确的数据值，能够有效的为运维人员降低时间成本，维护服务稳定运行。

在此基础上，本发明进一步提出集成多个LSTM预测器，采用均值的方式整合多个模型的输出，降低了模型结构、参数等对其准确性的影响，提高了整个系统的鲁棒性和泛化性，使得性能相比传统方法获得一定的提升。

图4为本申请实施例提供的一种用于资源质量监控的智能化预警系统的结构示意图。本申请实施例保护的一种用于资源质量监控的智能化预警系统，包括：

输入模块100，用于收集原始运维指标数据，将所述原始运维指标数据作为学习目标输入到长短期记忆网络LSTM中；

训练模块200，用于基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，训练权重和偏置确定的预测模型；

优选地，所述训练模块200在基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习时，具体用于：

优选地，所述训练模块200在训练权重和偏置确定的预测模型时，具体用于：

预测模块300，用于利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值；

优选地，所述预测模块300，具体用于：

预警模块400，用于根据所述动态阈值筛选下一时间段的有效告警信息，根据所述有效告警信息进行智能化预警。

该系统执行的功能与上述方法实施例中一致，可以与上述方法实施例相互印证，此处不再赘述。

本申请实施例还保护一种用于资源质量监控的智能化预警设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

该设备执行的功能与上述方法实施例中一致，可以与上述方法实施例相互印证，此处不再赘述。

本申请实施例还保护一种存储介质，所述存储介质中包含可执行指令；

该存储介质在被处理器执行时执行的功能与上述方法实施例中一致，可以与上述方法实施例相互印证，此处不再赘述。

为尽可能学习到数据指标的深层信息，提高预测准确性以指定准确的动态阈值，本实施例使用长短期记忆网络对单一指标进行回归学习，集成多个LSTM预测器，以T为时间长度单位，在每一个T时间段对该区间的数据值训练多个LSTM预测模型，以95％置信区间作为阈值划定标准，相比于使用传统机器学习方法的预测值，使用LSTM能够更好的结合上下文信息，且由于神经网络具有大量神经元，能够拟合的目标曲线复杂度也更高，即学到指标内更加本质的内在联系。

近年来多种多样的手机应用层出不穷，背后用户量激增，服务器数量急剧扩增，这些都给运维带来了巨大的压力，服务器在运维中出现的故障的概率也逐渐提升。本发明使用LSTM作为预测模型基础框架，学习更深层的数据信息，预测更加准确的指标值，划定动态的阈值，筛选出更加具有实际意义的告警信息，有效的为运维人员降低时间成本，维护服务稳定运行。

随着机器学习领域中深度学习技术的飞速发展，将人工智能算法应用于运维领域是大势所趋，运维领域将出现更多智能的动态阈值设定算法，进一步提高运维效率以及节省更多的成本。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于资源质量监控的智能化预警方法，其特征在于，包括：

2.根据权利要求1所述的智能化预警方法，其特征在于，所述基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习，包括：

3.根据权利要求2所述的智能化预警方法，其特征在于，所述训练权重和偏置确定的预测模型，包括：

4.根据权利要求3所述的智能化预警方法，其特征在于，所述利用所述预测模型进行资源质量监控，根据收集的当前时间段的时间序列指标数据预测下一时间段的数据指标，并为所述数据指标设定动态阈值，包括：

5.一种用于资源质量监控的智能化预警系统，其特征在于，包括：

6.根据权利要求5所述的智能化预警系统，其特征在于，所述训练模块在基于所述长短期记忆网络LSTM对所述原始运维指标数据的深层数据信息进行回归学习时，具体用于：

7.根据权利要求6所述的智能化预警系统，其特征在于，所述训练模块在训练权重和偏置确定的预测模型时，具体用于：

8.根据权利要求7所述的智能化预警系统，其特征在于，所述预测模块，具体用于：

9.一种用于资源质量监控的智能化预警设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任意一项所述的用于资源质量监控的智能化预警方法。

10.一种存储介质，其特征在于：

所述存储介质中包含可执行指令；

所述可执行指令在由处理器执行时用于执行如权利要求1-4中任意一项所述的用于资源质量监控的智能化预警方法。