CN112508363A

CN112508363A - 基于深度学习的电力信息系统状态分析方法及装置

Info

Publication number: CN112508363A
Application number: CN202011338528.1A
Authority: CN
Inventors: 何东; 毛冬; 饶涵宇; 王红凯; 张辰; 徐海青; 陈是同; 陶俊; 吴小华; 毛舒乐; 浦正国; 梁翀; 胡心颖; 郭庆; 张天奇
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-16
Anticipated expiration: 2040-11-25
Also published as: CN112508363B

Abstract

本发明公开了一种基于深度学习的电力信息系统状态分析方法及装置，包括：获取训练样本；根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，其中特征相似的训练样本采用相同标注；以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练；基于训练完成的信息系统状态分析模型进行信息系统状态分析。本发明通过在标注数据时，对特征相似的训练样本采用相同标注，实现只需将所有训练样本进行特征相似性衡量，然后将特征相似的划分为一类进行相同标注，提高训练样本标注效率，同时采用深度置信网络提高了状态分析的客观性，避免了采用主客观指标权重赋权进行状态分析造成的主客观性不平衡。

Description

基于深度学习的电力信息系统状态分析方法及装置

技术领域

本发明涉及电力系统管理技术领域，具体涉及基于深度学习的电力信息系统状态分析方法及装置。

背景技术

电力能源作为保障国民经济高效运行的重要基础，随着云计算、大数据、物联网等新兴信息技术的飞速发展和日趋成熟，信息技术、网络技术和通讯技术与电力企业生产、运行和管理等各个环节的融合更为紧密，电力系统的信息化程度也在不断提升，由此也产生了大量包含了系统网络连接状态、数据库状态等系统运行日志以及设备运行参数等相关日志信息。此外，随着我国电力体制改革的不断深入，电力市场化交易正逐步有序放开，电力企业业务信息系统的复杂性也显著增强。充分利用系统运行过程中累积的海量信息，对电力业务信息系统的运行健康状况进行准确有效的分析，进而确保系统的安全、可靠、经济运行正日益成为一个学术界关注的热点问题。

与其他领域的信息系统健康状态分析类似，电力业务信息系统状态分析需要对系统硬件、系统软件以及网络组成等系统构成单元进行系统性和综合性分析。现有的信息系统健康状态分析方法主要有主观评价方法和客观评价方法两大类。其中主观评价方法需要构建相应的评价指标体系，进而根据专家打分确定评价体系中各个不同指标对应的权重，从而进行综合评判。

现有信息系统状态分析的研究主要集中于评价过程的客观性和科学性。然而，无论是主观性评价方法，还是客观性评价方法，其评价指标权重的构造问题仍然是急待解决的核心问题。

发明内容

针对上述现有技术存在的问题，本发明提供了基于深度学习的电力信息系统状态分析方法，包括如下步骤：

获取训练样本，所述一个训练样本包括同一时间的多个状态分析参数的数据；

根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，其中特征相似的训练样本采用相同标注；

以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练；

基于训练完成的信息系统状态分析模型进行信息系统状态分析。

作为上述方案的进一步优化，所述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，包括：

将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中，形成多个类别；

将多个训练样本类别与多个数据标注种类映射对应，进行每一类别训练样本的标注。

作为上述方案的进一步优化，所述将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中，形成多个类别，包括如下步骤：

(1)初始建立两个集合，并且将距离最远的两个训练样本X1、X2分别放入两个集合中并作为集合中心；

(2)计算已有集合的集合中心的平均距离P1；

(3)新建一个集合存入一个新的训练样本Xi(i>2)，计算新建集合后所有集合的中心的平均距离P2，若P2>P1，则新建集合保留且存放新加训练样本Xi，否则，删除新建集合并将Xi放入距离最近的已有集合中；

(4)基于新加训练样本和新建集合后的结果，进行集合中心重置；

(5)基于集合中心重置后，重复步骤(2)到(4)，直至所有训练样本均已放入集合中。

作为上述方案的进一步优化，所述基于新加训练样本和新建集合后的结果，进行集合中心重置，是将每个集合中的所有训练样本的中值作为新的集合中心。

作为上述方案的进一步优化，所述将多个训练样本类别与多个数据标注种类映射对应，包括：

计算同一类的训练样本的均值，将多个训练样本类别根据其均值从高到低排序；

将信息系统状态分析结果种类的等级从高到低依次排序；

训练样本类别序列和状态分析结果种类等级序列按顺序映射对应。

作为上述方案的进一步优化，所述计算同一类的训练样本的均值，采用加权均值计算，通过熵权法对不同训练样本分配权重，包括：

计算一个的训练样本中一个参数数据在所有训练样本中同类参数中的比重

其中i表示第i个训练样本，j表示训练样本中第j个参数；

计算一个参数的信息熵，

计算一个参数的权重，

其中，

e_k≠1表示参数的信息熵不为1，

表示信息熵不为1的参数个数。

作为上述方案的进一步优化，所述进行信息系统状态分析模型训练的深度学习网络采用深度置信网络模型。

本发明还提供了基于深度学习的电力信息系统状态分析装置，包括：

训练样本获取单元，用于获取训练样本，所述一个训练样本包括同一时间的多个状态分析参数的数据；

训练样本标注单元，用于根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，其中特征相似的训练样本采用相同标注；

模型训练单元，用于以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练；

信息系统状态分析单元，基于训练完成的信息系统状态分析模型进行信息系统状态分析。

本发明还提供了一种计算机设备，包括存储器和处理器,所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的信息系统状态分析方法的步骤。

本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的信息系统状态分析方法的步骤。

本发明的基于深度学习的电力信息系统状态分析方法及装置，具备如下有益效果：

1、通过在标注数据时，对特征相似的训练样本采用相同标注，实现只需将所有训练样本进行特征相似性衡量，然后将特征相似的划分为一类，进行每一类训练样本的批量标注即可，提高训练样本标注效率，同时基于多个用于分析电力信息系统状态的参数，通过采用深度置信网络，进行多个参数与电力信息系统状态之间的关系拟合，提高了状态分析的客观性，避免了采用主客观指标权重赋权进行状态分析造成的主客观性不平衡。

2、通过熵权法进行多个参数的权重分配，同时通过采用聚类算法将特征相似的训练样本划分为一类，基于权重分配的基础上计算一类训练样本的均值一以此来根据均值大小确定每类训练样本应该标注的数据，提高了数据标注的准确性。

3、聚类算法中通过改进初始聚类集合中心和聚类集合个数的确定方法，避免了聚类过程陷入局部最优解以及聚类结果不稳定的问题，同时减少聚类过程的迭代次数。

附图说明

图1是本发明的基于深度学习的电力信息系统状态分析方法的整理流程框图；

图2是本发明的基于深度学习的电力信息系统状态分析装置的结构框图；

图3是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标AUC下的对比结果图；

图4是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标F1下的对比结果图；

图5是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标Precision下的对比结果图；

图6是本发明实施例中实验结果中本实施例提供的方法和SVM、RT、KNN、LSTM算法在评价指标Recall下的对比结果图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参见图1，本实施例提供的基于深度学习的电力信息系统状态分析方法，包括如下步骤：

获取训练样本，一个训练样本包括同一时间的多个状态分析参数的数据，其中多个状态分析参数可以包括：CPU总核数、内存剩余量、内存利用率、物理内存总量、内存大小、IOWAIT、内存分配率、CPU平均使用率、存储介质利用率、内存占用量、PING 丢包率、连续运行时间等；

根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，其中特征相似的训练样本采用相同标注，具体的，信息系统状态分析结果种类可以包括良好、一般、较差等，在该步骤中，考虑到训练样本标注工作的费时费力，对特征相似的训练样本采用相同标注，基于该思路，只需将所有训练样本进行特征相似性衡量，然后将特征相似的划分为一类，进行每一类训练样本的批量标注即可，提高训练样本标注效率。

以训练样本和对应的标注数据作为深度学习网络的输入进行信息系统状态分析模型训练，基于训练完成的信息系统状态分析模型进行信息系统状态分析。

在本实施例中，信息系统状态分析模型的训练网络采用深度置信网络模型，该网络模型中若干个RBM(受限玻尔兹曼机)和一个分类层(BP神经网络)栈式叠加，输入层有q个单元，表示训练样本有q个参数，输出层有p个神经元，表示有p个信息系统状态分析结果种类，RBM主要用于基于输入数据进行特征提取，而分类层将特征概率分布映射到相应的信息系统状态分析结果种类上。

在训练过程中，包括无监督的逐层预训练和有监督的微调。在DBN训练期间，无监督的逐层预训练，首先在第一个RBM的可视层中生成矢量，并将该值通过RBM网络传递到隐藏层。反过来，隐藏层用于重建可视层。根据重构层和可见层之间的差异，更新隐藏层和可见层之间的权重，直到达到最大迭代次数。完成层与层之间的无监督训练后，将DBN自动学习的特征输入到分类层中，最后在BP层上执行微调。DBN的无监督的逐层预训练过程是DBN模型与其他模型之间的主要区别，这种训练模式通过无监督训练有效地缩小参数寻优的空间，大大减少了有监督训练的时间。

上述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，考虑到目前训练数据主要来自于手工标注，手工标注需要耗费巨大的人力物力，本实施例中对训练样本的标注方法，是先将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中，形成多个类别，将同一种类的训练数据标注同样数据，而对于同一种类的训练数据该标注哪种标注数据，本实施例中通过将多个训练样本类别与多个数据标注种类映射对应，进行每一类别训练样本的标注。其中，本实施例通过将标注数据进行排序，同时不同训练样本种类进行排序，从而达到序列的映射对应，具体的，该映射对应方法为：

将信息系统状态分析结果种类的等级从高到低依次排序；

显然，在标注数据为良好、一般、较差等等时，标注数据可以是从优到差排序，而对于计算同一类的训练样本的均值进行均值排序，本实施例中，采用赋权方式进行均值计算。

对于聚类算法的步骤，由于现有技术中聚类算法通过随机选取初始聚类中心点会很容易导致算法陷入局部最优解,聚类结果不稳定，而通过预设聚类类别个数n,然后比较在不同n下的聚类结果，择优确定n值，导致聚类费时费力而且聚类不准确。

所以本实施例中的聚类算法，采用聚类类别个数不唯一和初始聚类中心唯一可选的方法，具体包括如下步骤：

(2)计算已有集合的中心的平均距离P1；

(4)基于新加训练样本和新建集合后的结果，进行集合中心重置，该步骤中采用将每个集合中的所有训练样本的中值作为新的集合中心；

上述聚类算法，先以距离最远的两个训练样本确定两个集合，以保证这两个训练样本不属于一个聚类集合，从而减少聚类过程的迭代次数，然后两个训练样本作为两个集合的集合中心，保证了初始聚类中心的唯一性，改善聚类结果的稳定性，接着通过对于新加入的训练样本进行分散性检测，如果新加入的训练样本使得集合间的平均距离增大了，即变得更加分散，则将新加入的训练样本分到一个新的集合中，否则，则确定新加入的训练样本属于已有集合，上述初始聚类集合的确定和中间迭代过程中新增聚类集合的确定方法都依据分散性最大原则，使得聚类结果中不用集合的训练样本的差异性尽可能大同时同一集合内训练样本的相似性尽可能大。同时，聚类算法中，采用将每个集合中的所有训练样本的中值作为新的集合中心进行集合中心重置，避免了离群点对于确定集合中心的影响。

上述计算同一类的训练样本的均值，采用加权均值计算，包括如下步骤：

对不同训练样本分配权重，该步骤中采用熵权法；

基于权重分配结果计算同一类的训练样本均值。

本实施例中采用熵权法对不同训练样本分配权重的步骤，具体包括：

其中i表示第i个训练样本，j表示训练样本中第j个参数；

计算一个参数的信息熵，

计算一个参数的权重，

其中，

e_k≠1表示参数的信息熵不为1，

表示信息熵不为1的参数个数，

表示信息熵不为1的参数的平均熵值，上述参数的权重W_j的计算中保证了熵值接近的两个参数的权重也接近，从而保证权重分配的合理性。

本实施例中，对于信息系统状态的分析，对原始多个不同训练样本通过聚类算法划分到不同集合中，同时结合熵权法对不同聚合中的多个训练样本进行客观化权重赋值，由此给出不同集合类别所对应的训练样本均值并对应映射到系统状态分析结果等级，实现了不同训练样本的客观性且高效标注。在此基础上，运用深度置信网络对电力业务信息系统的健康状况进行分析。实验结果表明，所提出的评价模型能够有效的克服传统方法依赖专家经验打分的不足，此外相较于传统的机器学习方法，本文所提出的方法可以有效的提高电力业务信息系统运行状况的分类识别准确率。

参见图2，基于上述信息系统状态分析方法，本实施例还提供了一种基于深度学习的电力信息系统状态分析装置，包括：

本实施例还提供了一种计算机设备，包括存储器和处理器,所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的信息系统状态分析方法的步骤。

本实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的信息系统状态分析方法的步骤。

基于本实施例提供的信息系统状态分析方法，下面结合具体实验过程进行说明。

将本实施例提供的方法分别与支持向量机(SVM)、决策树(RT)、k近邻(KNN)、长短期记忆人工神经网络(LSTM)算法进行比较分析。实验环境为Win10系统，共用 3.2GHz CPU，编译环境为Python3.6、Tensorflow2.0.0和Keras2.3.1。

实验基于电力公司电力信息系统的日志信息数据进行分析，首先对原始日志信息进行处理，得到以时间为主键，用于分析信息系统状态的多个参数为属性的数据集。接下来对数据集进行清洗，删除指标值为空的数据，最终有效数据为1195条作为训练样本集，该训练样本集中的每个训练样本包括了电力信息系统中各个参数在不同时间的值，具体每个训练样本包括的参数如下表1所示：

表1训练样本中包括的参数

本实验中深度置信网络模型中的RBM采用3层隐含层，神经元数目为64，RBM的学习率为0.05，BP的学习率为0.1，Dropout值设为0.2。除此之外，对比模型SVM、 RT、KNN采用网格搜索的方法来找到模型的最佳参数，本文训练集和测试集划分为9:1。

基于本实施例提供的训练样本标注方法，即通过聚类算法和熵权法进行标注，基于采集的日志数据，通过聚类算法将所有训练样本分为3类，采用熵权法对每个训练样本分配权重后，计算每类的训练样本均值，根据均值大小排序后对应进行标注，标注结果如下表2所示：

表2聚类结果表

在进行数据标注后，进行信息系统状态分析模型的训练，训练完成后基于AUC(曲线下面积)、F1、Precision(精度)、和Recall(召回率)四个指标对本实施例的模型以及SVM、RT、KNN、LSTM模型进行分析。

精确率：

召回率：

F1-Score：

ROC曲线下面积：

其中，TP表示样本的真实类别是正，并且模型预测的结果也是正；TN表示样本的真实类别是负，并且模型将其预测成为负；FP表示样本的真实类别是负例，但是模型将其预测成为正例；FN表示样本的真实类别是正，但是模型将其预测成为负。

本实施例提出的信息系统状态分析方法与SVM、RT、KNN、LSTM算法的对比结果如下表3表示：

表3本实施例方法与其他算法对比结果

本实施例提供的系统状态分析模型和对比模型SVM、RT、KNN、LSTM在指标AUC、 F1、Precision和Recall上对比结果参见图3到图6，图中横坐标为类别，纵坐标为准确度。从表3和图3-6中可以看出，深度置信网络明显优越于其他对比模型，其次为SVM。

从AUC值来看，LSTM在第一类的预测上与深度置信网络的值相同，优于其他对比模型，但LSTM在第二类和第三类上的AUC值低于深度置信网络。从图3中可以看出在各分类模型对于第二类的AUC值最高，而第二类的F1值较低。从表3中的Precision 和Recall两个指标结果可以看出，第二类的F1值较低是因为Precision值较低，即真正预测正确第二类的占所有预测为第二类的比例较低。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.基于深度学习的电力信息系统状态分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述根据信息系统状态分析结果种类对每个训练样本进行对应种类的标注，包括：

3.根据权利要求2所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述将所有训练样本通过聚类算法将特征相似的训练样本分到一个类别中，形成多个类别，包括如下步骤：

(2)计算已有集合的集合中心的平均距离P1；

4.根据权利要求3所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述基于新加训练样本和新建集合后的结果，进行集合中心重置，是将每个集合中的所有训练样本的中值作为新的集合中心。

5.根据权利要求2所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述将多个训练样本类别与多个数据标注种类映射对应，包括：

将信息系统状态分析结果种类的等级从高到低依次排序；

6.根据权利要求5所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述计算同一类的训练样本的均值，采用加权均值计算，通过熵权法对不同训练样本分配权重，包括：

其中i表示第i个训练样本，j表示训练样本中第j个参数；

计算一个参数的信息熵，

计算一个参数的权重，

其中，

e_k≠1表示参数的信息熵不为1，

表示信息熵不为1的参数个数。

7.根据权利要求1所述的基于深度学习的电力信息系统状态分析方法，其特征在于，所述进行信息系统状态分析模型训练的深度学习网络采用深度置信网络模型。

8.基于深度学习的电力信息系统状态分析装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器,所述存储器存储有计算机程序，其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的信息系统状态分析方法的步骤。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的信息系统状态分析方法的步骤。