CN116910559A

CN116910559A - 一种面向电网超算中心智能运维应用的指标异常检测方法

Info

Publication number: CN116910559A
Application number: CN202310941331.4A
Authority: CN
Inventors: 卫薇; 龙玉江; 李洵; 甘润东; 王杰峰; 钟掖; 龙娜; 陈卿; 袁捷; 卢仁猛
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-20

Abstract

本发明公开了一种面向电网超算中心智能运维应用的指标异常检测方法，包括步骤：搭建指标异常检测网络，包括编码网络和解码网络；对指标异常检测网络进行训练，包括：准备指标异常检测网络训练的数据，包括训练集和验证集；采用训练集和验证集对指标异常检测；对电网超算中心中待检测数据进行检测，方法如下：准备测试数据集；将测试数据集输入训练好的指标异常检测网络模型，检测异常指标。本发明能够及时、快速的检测异常指标，实现了异常指标检测智能化及自动化，大大节约了运维时间成本以及电力系统的人工成本。

Description

一种面向电网超算中心智能运维应用的指标异常检测方法

技术领域

本发明涉及深度学习方法、电网超算中心智能运维应用、异常检测领域，具体涉及一种面向电网超算中心智能运维应用的指标异常检测方法。

背景技术

电力系统的快速发展使电网超算中心运行数据量飞速增长，消费端的异常使用行为导致的数据异常问题也日益突出。电网超算中心海量数据中存在的异常数据会导致工作人员无法及时、有效且正确地识别当前异常数据，进而会延时发现异常甚至做出错误决策，影响电力系统的安全稳定运行。因此，电力系统的智能运维(Artificial Intelligence ITOperations，AIOps)应运而生，通过利用大数据分析、机器学习等人工智能技术进行智能化诊断决策，以更快、更准确、更高效的完成电网运维工作，实现自动化管理。当电力IT系统出现故障或异常时，很多监控指标会呈现出异常状态，通过有效的指标异常检测方法检测异常能及时告警，判断系统是否有故障，并为后续根因分析提供重要的信息，在电力系统智能运维中至关重要。

目前，保证电力系统安全稳定运行面临的主要问题之一是需要找到一种自动且可靠的方法来检测异常指标，及早检测可以增强电网超算中心系统运行的稳定性，可靠的检测方法可以提高电网超算中心系统异常指标的预测准确性，进而可以指导系统作出正确的决策。

为了保证向广大用户提供可靠、高效的服务，电网超算中心运维人员通常会使用关键性能指标(Key Performance Indicator，KPI)来监测各种应用的服务性能，比如某个应用服务在单位时间内被访问的次数，单位时间的交易量等。在实际的运维场景中，大部分的KPI表现为时间序列的形式，并且是与业务紧密相关的。所以指标异常检测本质上是对时间序列进行异常检测，针对时间序列的异常检测，目前主要包括基于统计模型的方法和基于集成式监督学习的方法。基于统计模型的方法是假设数据是根据指定的概率分布建模的，参数模型(比如高斯模型)或者非参数模型(比如核密度估计模型)可用于定义概率分布，如果数据点从模型生成的概率低于某一阈值，则该数据点被认为异常，即异常数据是不能与模型完美拟合的数据。虽然这些模型能给出概率作为判断异常的决策规则，具有客观和合理性，但是这些模型通常对时间序列有简单的假设，需要专家为给定的时间序列选择检测器，并根据训练数据微调检测器的参数，所以该类方法对实际电网运维场景中复杂监测数据并不适用。基于集成式监督学习的方法是将用户反馈作为标签，使用传统检测器输出的异常分数作为特征训练异常分类器，然后对数据进行异常检测，虽然避免了参数调整，但是该方法严重依赖于良好的标签，且需要运行多个检测器进行特征提取计算成本高，在大规模应用中具有局限性。

发明内容

本发明要解决的技术问题是：为了检测电网超算中心运维过程中的异常指标以及进一步提高异常指标检测的准确性，提出一种面向电网超算中心智能运维应用的指标异常检测方法。

本发明采取的技术方案为，一种面向电网超算中心智能运维应用的指标异常检测方法，包括以下步骤：

1)搭建指标异常检测网络，包括编码网络和解码网络；

2)对指标异常检测网络进行训练，包括步骤：

2.1)准备指标异常检测网络训练的数据，包括训练集和验证集；

2.2)采用训练集和验证集对指标异常检测网络模型进行训练；

3)对电网超算中心中待检测数据进行检测，方法如下：

3.1)准备测试数据集；

3.2)将测试数据集输入训练好的指标异常检测网络模型，检测异常指标。

进一步的，所述编码网络由三个全连接层以及一个Relu层构成，三个全连接层进行特征降维操作，输入数据输入第一个全连接层及Relu层，得到特征F1；将特征F1分别输入两个全连接层获得编码网络的输出，输出近似后验分布参数，近似后验分布服从正态分布，其中，一个全连接层输出正态分布的均值μ，另一个全连接层输出正态分布的方差σ²；在近似后验分布上采样，通过重参数化技巧，获得隐变量z；解码网络由两个全连接层以及一个Relu层构成，两个全连接层进行特征重构操作，将隐变量z输入第一个全连接层及Relu层，获得特征F2；将特征F2再输入一个全连接层得到最终的重构数据。

进一步的，所述重参数化技巧是按照z＝μ+ε·σ的方法获得隐变量z，将从N(μ,σ²)采样变成了从N(0,1)中采样，其中μ是编码网络输出的近似后验分布的均值，σ为编码网络输出的近似后验分布的标准差，ε是从标准正态分布中随机采样的取值，ε～N(0,1)。

进一步的，步骤3.2)检测异常指标的方法如下：

3.2.1)初始化变量k＝1；

3.2.2)将第k个测试样本x^k输入步骤2)中训练好的网络模型，经过编码网络的第一个全连接层及Relu层生成特征F1，然后将F1特征分别输入编码网络第二个全连接层以及第三个全连接层分别获得测试样本近似后验分布的均值μ和方差σ²；

3.2.3)获得隐变量z；

3.2.4)将z输入步骤2)中训练好的网络模型中的解码网络，经过第一个全连接层及Relu层将样本重构，得到特征F2，再经过第二个全连接层将F2特征继续重构，最终获得第k个测试样本的重构数据

3.2.5)计算第k个测试样本的重构数据与原始数据x^k之间的重构误差及重构概率，并计算精确率Precision、召回率Recall以及F-值F-Score；

其中TP为真阳性，表示预测为阳性，实际为阳性的样本数量；FP为假阳性，表示预测为阳性，实际为阴性的样本数量；FN为假阴性，表示预测为阴性，实际为阳性的样本数量；F-值是精确率和召回率的加权调和平均。

3.2.6)令k＝k+1，若2≤k≤K，K为测试集包含的数据量，转3.2.2)；否则测试完毕。

进一步的，所述步骤2.1)中训练集和验证集的获取方法是：

2.1.1)从智能运维公开数据集中选取设定时间的周期性数据作为实验数据，该周期性数据总共包含N条时序数据，；

2.1.2)将所有时序数据中的监测指标进行归一化处理；

2.1.3)将该时序数据按照5:2:3的比例分成训练集、验证集和测试集，且训练集中的数据全部为正常数据；

2.1.4)对时序数据使用滑动窗口W，将其转化成多组数据，对整个窗口数据进行重构；

进一步的，步骤2.1.1)中，该时序数据只含有一个监测指标，时序数据之间的时间间隔为1分钟，包含连续一周的数据。

进一步的，步骤2.1.2)归一化处理的方法如下：

其中X为处理前任意一个样本监测指标值，X_min是处理前样本监测指标中的最小值，X_max是处理前样本监测指标中的最大值，X_new是X归一化处理后的样本监测指标值。

进一步的，步骤2.2)对指标异常检测网络模型训练的方法是：

2.2.1)初始化变量j＝1，设置模型参数的值，包括设置学习率为0.001，批处理大小为128；

2.2.2)将训练集样本输入网络，输出一个总体损失函数L，L的计算如下，

其中，N表示训练样本的数量，p_θ(z)是隐变量z的先验分布，设定为标准正态分布，表示真实的概率分布，是编码网络生成的近似后验分布，设定为正态分布，是对p_θ(z)的拟合分布，其均值和方差是关于xⁱ和/>的函数，/>为编码网络参数，xⁱ是第i个训练样本，/>是描述/>和p_θ(z)两个概率分布的KL散度，希望KL散度尽可能小，即编码网络得到的隐变量概率分布与隐变量先验分布尽可能接近；p_θ(xⁱ|z^(i,l))为解码网络，θ为解码网络参数，z^(i,l)表示针对第i个训练样本的第l个隐变量z，针对第i个训练样本总共有采样了M个隐变量z，/>是希望解码得到的重构数据/>接近输入数据xⁱ的概率尽可能大，即最小化重构误差；

通过L值的反向传播更新指标异常检测网络模型中的网络参数，得到第j次更新了参数的指标异常检测网络Net_j；

2.2.3)将验证集输入更新参数后的网络Net_j，经过编码网络获得概率分布的均值和方差，通过重参数化技巧得到隐变量z，再将z输入解码网络得到验证集的重构数据，同时计算出验证集第j次的损失函数并将验证集上的最小损失/>记为/>将验证集上获得最小损失的网络模型记为最佳网络模型Net_best＝Net_j，并保存该最佳网络模型参数；

2.2.4)令j＝j+1，若2≤j≤J，J为指标异常检测网络模型训练的次数，J＝1500；否则训练完毕，转2.2.7)；

2.2.5)将训练样本输入更新了网络参数的指标异常检测网络Net_j-1，输出第j次总体损失函数L，在2.2.1)步设置的模型参数下，通过L值的反向传播更新Net_j-1中的网络参数，得到第j次更新了参数的指标异常检测网络Net_j；

2.2.6)将验证集输入更新参数后的网络Net_j，经过编码网络获得概率分布的均值和方差，通过重参数化技巧得到隐变量z，再将z输入解码网络得到验证集的重构数据，同时计算出验证集第j次的损失函数如果/>验证集上最小损失记为/>并删除原保存的最佳网络模型参数，将最佳网络模型记为Net_best＝Net_j，保存该网络模型参数作为最佳网络模型参数，反之，验证集上最小损失仍为/>然后转步骤2.2.4)；

2.2.7)训练完毕，在验证集上获得整个训练过程中最小的损失以及获得该最小损失对应的最佳网络模型Net_best，最佳网络模型的网络参数被保存，作为最终训练好的网络模型，用于测试集测试。

采用本发明可以达到以下有益效果：本发明能检测电网超算中心运维中的异常指标，且能够及时、快速的检测异常指标，实现了异常指标检测智能化及自动化，大大节约了运维时间成本以及电力系统的人工成本，本发明在公开数据集(GAIA-DataSet-main)中2020-11-29到2020-12-06周期性数据的2913组测试数据集上获得0.9091的最佳F-值，可见本发明具有较高的异常指标检测准确性，可以实现可靠、及时且准确的面向电网超算中心智能运维应用的异常指标检测。

附图说明

图1为本发明一种面向电网超算中心智能运维应用的指标异常检测方法的整体流程图；

图2为本发明面向电网超算中心智能运维应用的指标异常检测网络模型的逻辑结构图。

具体实施方式

以下将结合实施例和附图对本发明进一步解释说明，以便于本领域技术人员更好地理解。

请参阅图1-2，一种面向电网超算中心智能运维应用的指标异常检测方法，包括以下步骤：

1)搭建面向电网超算中心智能运维应用的指标异常检测网络。

面向电网超算中心智能运维应用的指标异常检测网络如图2所示，包括编码网络和解码网络。

编码网络由三个全连接层以及一个Relu层构成，三个全连接层进行特征降维操作，输入数据输入第一个全连接层及Relu层，得到特征F1；将特征F1分别输入两个全连接层获得编码网络的输出，输出近似后验分布参数，近似后验分布服从正态分布，其中，一个全连接层输出正态分布的均值μ，另一个全连接层输出正态分布的方差σ²。为了获得实际的隐变量z，需要在近似后验分布上采样，通过重参数化技巧，获得隐变量z，方法如下：重参数化技巧是按照z＝μ+ε·σ的方法获得隐变量z，将从N(μ,σ²)采样变成了从N(0,1)中采样，其中μ是编码网络输出的近似后验分布的均值，σ为编码网络输出的近似后验分布的标准差，ε是从标准正态分布中随机采样的取值，ε～N(0,1)。

解码网络由两个全连接层以及一个Relu层构成，两个全连接层进行特征重构操作，将隐变量z输入第一个全连接层及Relu层，获得特征F2；将特征F2再输入一个全连接层得到最终的重构数据。

2)对面向电网超算中心智能运维应用的指标异常检测网络进行训练。

2.1准备面向电网超算中心智能运维应用的指标异常检测网络训练的数据，包括训练集和验证集，方法如下：

2.1.1)从智能运维公开数据集(GAIA-DataSet-main)中选取了2020-11-29到2020-12-06的周期性数据作为本方法的实验数据，该周期性数据总共包含10107条时序数据，该时序数据集只含有一个监测指标，时序数据之间的时间间隔为1分钟，该数据集包含了连续一周的数据。

2.1.2)将所有时序数据中的监测指标进行归一化处理，方法是：将监测指标做如下处理：其中X为处理前任意一个样本监测指标值，X_min是处理前样本监测指标中的最小值，X_max是处理前样本监测指标中的最大值，X_new是X归一化处理后的样本监测指标值。

2.1.3)将该时序数据按照5:2:3的比例分成了训练集、验证集和测试集，且训练集中的数据全部为正常数据，其中训练集包括5053条时间序列数据，验证集包括2022条时间序列数据，测试集包括3032条时间序列数据。

2.1.4)为了更好地获取数据分布的有效信息，对时间序列数据使用了滑动窗口W，从而将序列数据转化成多组数据，对整个窗口数据进行重构，滑动窗口W设置为120。所以最终训练集转变为包含4934组数据，验证集包含1903组数据，测试集包含2913组数据，每组数据分别包含120个时间序列数据，即最终训练集包含4934个120维样本，验证集包含1903个120维样本，测试集包含2913个120维样本。使用训练集和验证集训练指标异常检测网络模型。

2.2)采用训练集和验证集对面向电网超算中心智能运维应用的指标异常检测网络模型进行训练，方法是：

2.2.2)将训练集样本输入网络，输出一个总体损失函数L，L的计算如下，通过L值的反向传播更新指标异常检测网络模型中的网络参数，得到第j次更新了参数的指标异常检测网络Net_j；

其中，N表示训练样本的数量；p_θ(z)是隐变量z的先验分布，一般设定为标准正态分布，表示真实的概率分布，是编码网络生成的近似后验分布，也设定为正态分布，是对p_θ(z)的拟合分布，其均值和方差是关于xⁱ和/>的函数，/>为编码网络参数，xⁱ是第i个训练样本，/>是描述/>和p_θ(z)两个概率分布的KL散度，希望KL散度尽可能小，即编码网络得到的隐变量概率分布与隐变量先验分布尽可能接近；p_θ(xⁱ|z^(i,l))可以看做解码网络，θ为解码网络参数，z^(i,l)表示针对第i个训练样本的第l个隐变量z，针对第i个训练样本总共有采样了M个隐变量z，/>是希望解码得到的重构数据/>接近输入数据xⁱ的概率尽可能大，即最小化重构误差；

2.2.4)令j＝j+1，若2≤j≤J，J为指标异常检测网络模型训练的次数，J＝1500，转2.2.5；否则训练完毕，转步骤2.2.7；

2.2.5)将训练样本输入更新了网络参数的指标异常检测网络Net_j-1，输出第j次总体损失函数L，在步骤2.2.1)设置的模型参数下，通过L值的反向传播更新Net_j-1中的网络参数，得到第j次更新了参数的指标异常检测网络Net_j，转步骤2.2.6)；

2.2.6)将验证集输入更新参数后的网络Net_j，经过编码网络获得概率分布的均值和方差，通过重参数化技巧得到隐变量z，再将z输入解码网络得到验证集的重构数据，同时计算出验证集第j次的损失函数如果/>验证集上最小损失记为/>并删除原保存的最佳网络模型参数，将最佳网络模型记为Net_best＝Net_j，保存该网络模型参数作为最佳网络模型参数，反之，验证集上最小损失仍为/>然后转2.2.4)；

3)对电网超算中心中待检测数据进行检测，方法如下：

3.1)准备测试数据集，测试数据集是步骤2.1.4)中所述的2913个120维样本。

3.2)将测试数据集输入步骤2)中训练好的异常指标检测模型，检测异常指标，方法如下：

3.2.1)初始化变量k＝1；

3.2.3)按照z＝μ+ε·σ的重参数化方法获得隐变量z，ε服从标准正态分布，ε～N(0,1)，从标准正态分布中随机取ε；

3.2.4)将z输入第二步中训练好的网络模型中的解码网络，经过第一个全连接层及Relu层将样本重构，得到特征F2，再经过第二个全连接层将F2特征继续重构，最终获得第k个测试样本的重构数据

其中TP为真阳性，表示预测为阳性，实际为阳性的样本数量；FP为假阳性，表示预测为阳性，实际为阴性的样本数量；FN为假阴性，表示预测为阴性，实际为阳性的样本数量；F-值是精确率和召回率的加权调和平均，是分类模型中的一种常用的分类指标。

3.2.6)令k＝k+1，若2≤k≤K，K为测试集包含的数据量，K＝2913，转3.2.2)；否则测试完毕，结束。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，包括以下步骤：

1)搭建指标异常检测网络，包括编码网络和解码网络；

2)对指标异常检测网络进行训练，包括步骤：

2.2)采用训练集和验证集对指标异常检测网络模型进行训练；

3)对电网超算中心中待检测数据进行检测，方法如下：

3.1)准备测试数据集；

2.根据权利要求1所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，所述编码网络由三个全连接层以及一个Relu层构成，三个全连接层进行特征降维操作，输入数据输入第一个全连接层及Relu层，得到特征F1；将特征F1分别输入两个全连接层获得编码网络的输出，输出近似后验分布参数，近似后验分布服从正态分布，其中，一个全连接层输出正态分布的均值μ，另一个全连接层输出正态分布的方差σ²；在近似后验分布上采样，通过重参数化技巧，获得隐变量z；解码网络由两个全连接层以及一个Relu层构成，两个全连接层进行特征重构操作，将隐变量z输入第一个全连接层及Relu层，获得特征F2；将特征F2再输入一个全连接层得到最终的重构数据。

3.根据权利要求2所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，所述重参数化技巧是按照z＝μ+ε·σ的方法获得隐变量z，将从N(μ,σ²)采样变成了从N(0,1)中采样，其中μ是编码网络输出的近似后验分布的均值，σ为编码网络输出的近似后验分布的标准差，ε是从标准正态分布中随机采样的取值，ε～N(0,1)。

4.根据权利要求3所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，步骤3.2)检测异常指标的方法如下：

3.2.1)初始化变量k＝1；

3.2.3)获得隐变量z；

5.根据权利要求1或4所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，所述步骤2.1)中训练集和验证集的获取方法是：

2.1.2)将所有时序数据中的监测指标进行归一化处理；

2.1.4)对时序数据使用滑动窗口W，将其转化成多组数据，对整个窗口数据进行重构。

6.根据权利要求5所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，步骤2.1.1)中，该时序数据只含有一个监测指标，时序数据之间的时间间隔为1分钟，包含连续一周的数据。

7.根据权利要求4所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，步骤2.1.2)归一化处理的方法如下：

8.根据权利要求4所述的一种面向电网超算中心智能运维应用的指标异常检测方法，其特征在于，步骤2.2)对指标异常检测网络模型训练的方法是：

其中，N表示训练样本的数量，p_θ(z)是隐变量z的先验分布，设定为标准正态分布，表示真实的概率分布，是编码网络生成的近似后验分布，设定为正态分布，是对p_θ(z)的拟合分布，其均值和方差是关于xⁱ和/>的函数，/>为编码网络参数，xⁱ是第i个训练样本，是描述/>和p_θ(z)两个概率分布的KL散度，希望KL散度尽可能小，即编码网络得到的隐变量概率分布与隐变量先验分布尽可能接近；p_θ(xⁱ|z^(i,l))为解码网络，θ为解码网络参数，z^(i,l)表示针对第i个训练样本的第l个隐变量z，针对第i个训练样本总共有采样了M个隐变量z，/>是希望解码得到的重构数据/>接近输入数据xⁱ的概率尽可能大，即最小化重构误差；