CN112508243A

CN112508243A - 电力信息系统多故障预测网络模型的训练方法及装置

Info

Publication number: CN112508243A
Application number: CN202011338529.6A
Authority: CN
Inventors: 何东; 毛冬; 张辰; 王红凯; 饶涵宇; 徐海青; 陈是同; 陶俊; 吴小华; 高扬; 毛舒乐; 梁翀; 浦正国; 郭庆
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-16
Anticipated expiration: 2040-11-25
Also published as: CN112508243B

Abstract

本发明公开了电力信息系统多故障预测网络模型的训练方法及装置，包括：获取时间序列的告警数据集，对所述告警数据集进行数据增强，得到增强的训练样本集；基于训练样本集获取用于模型训练的输入样本和与输入样本对应的目标输出样本；基于所述输入样本、目标输出样本和预设的网络模型损失函数对预设的神经网络模型进行迭代训练，获取多故障预测网络模型。本发明通过对原始数据集进行数据增强处理，实现数据特征均衡，基于数据增强后的训练样本集进行模型训练拟合得到的多故障预测网络模型具备更高的预测精度和更稳定的预测效果。

Description

电力信息系统多故障预测网络模型的训练方法及装置

技术领域

本发明涉及机器学习技术领域，具体涉及电力信息系统多故障预测网络模型的训练方法及装置。

背景技术

面对电力信息系统愈加复杂化的发展趋势，传统电力信息系统面临着稳定性下降的巨大挑战。一方面，系统种类的增多和网络规模的扩大，使得对所有系统的管理维护越来越困难；另一方面，随着传输技术的不断演进，数据传输对信道环境，调制格式等的要求不断提高，一些非线性的参数变量被引入，这使得对单一节点的运行状态评估难度呈指数级增长。然而，当发生节点或链路故障时，系统需要庞大的计算量进行异常处理和业务调度，以得出合适的解决方案。通常算力越强，计算时间越长，解决方案的有效性越高。其中算力的提高需要庞大的资金投入，对运营商或企业来说是很大的负担。因此，基于系统状态准确评估的系统故障预测，对电力信息系统稳定性提升至关重要。

以深度学习为代表的人工智能技术具有强特征学习能力特点，能够完成复杂问题的精准分析和预测，比较适合于提升电力信息系统故障预测的有效性。然而在使用深度学习进行特征学习的过程中，数据集中的类别分布存在较大差异，会导致深度学习算法会倾向于将所有的样本都预测为多数类，这就导致对少数类样本的预测准确率很低。

发明内容

针对上述现有技术存在的问题，本发明提供了一种电力信息系统多故障预测网络模型的训练方法，包括如下步骤：

获取时间序列的告警数据集，所述告警数据集的初始参数包括发生故障的设备元件名称、故障时间、故障类型；

对所述告警数据集进行数据增强，得到增强的训练样本集；

基于训练样本集获取用于模型训练的输入样本和与输入样本对应的目标输出样本；

基于所述输入样本、目标输出样本和预设的网络模型损失函数对预设的神经网络模型进行迭代训练，获取多故障预测网络模型。

作为上述方案的进一步优化，所述对告警数据集进行数据增强，包括：

将告警数据集按照预设时间段进行划分，并在不同时间段内抽取不同数量的告警数据汇总得到第一样本集；

在第一样本集的基础上，将第一样本集中的少数类样本进行繁衍扩增得到第二样本集；

基于第二样本集进行数据扩增得到所述训练样本集。

作为上述方案的进一步优化，所述在不同时间段内抽取不同数量的告警数据作为训练样本的方法为：从当前时间段n到逐渐远离当前时间段的历史时间段内抽取的告警数据数量以指数倍减少。

作为上述方案的进一步优化，所述对少数类样本进行繁衍扩增，包括如下步骤：

对于每个少数类样本，根据所述少数类样本容易被错误判断为多数类样本的可能性，按照预设算法获取每个少数类样本应该繁衍扩增的样本数量；

根据所述少数类样本容易被错误判断为多数类样本的可能性等级，将每个少数类样本分到同一可能性等级的集合中；

根据每个少数类样本所属集合种类，采用对应的繁衍扩增方法进行扩增；

对所有少数类样本进行繁衍扩增后，判断新生成的少数类样本是否为噪声样本，若是则删除所述噪声样本。

作为上述方案的进一步优化，所述每个少数类样本容易被错误判断为多数类样本的可能性程度，根据少数类样本的K邻近样本中多数类样本的数量m确定，每个少数类样本应该繁衍扩增的样本数量为：

获取第一样本集中所有少数类样本需要繁衍扩增的新样本总数G为：G＝D₁-D₂，其中D₁为第一样本集中多数类样本总数，D₂为第一样本集中少数类样本总数；

按照预设算法获取少数类样本X_i应该繁衍扩增的样本数量

其中，

σ和μ为预设常数，用于控制以m为变量应该繁衍扩增的样本数量的分布函数的宽度和极值位置。

作为上述方案的进一步优化，所述将每个少数类样本分到同一可能性等级的集合，包括：

若m＝0，则划分到第一集合中；若

则划分到第二集合中；若

则划分到第三集合中；其中，K_count为X_i的K邻近样本总数；

对于第一集合少数类样本的繁衍扩增方法为：对于集合中的所有少数类样本X_i，从其K邻近样本中随机选取一个样本点X_j，在X_i和X_j之间的线段上进行线性插值生成新样本；

对于第二集合少数类样本的繁衍扩增方法为：对于集合中的所有少数类样本，基于每个少数类样本的K邻近样本中同类样本所占比例大小匹配有不同大小的选择概率区间，基于(0，1)随机生成函数生成的数值，匹配对应概率区间及其对应的少数类样本，以选中的少数类样本X_i的K个邻近样本中任选一个样本X_j，在以X_i为中心，X_i和X_j的距离为半径的空间内进行插值，插值完成后对于新生成的少数类样本

若

的1邻近样本中多数类样本数量多于少数类样本，则删除

对于第三集合少数类样本的繁衍扩增方法为：对于集合中的每个少数类样本X_i，将X_i的K个邻近样本中任选一个样本X_j，在以X_i为中心，X_i和X_j的距离为半径的空间内进行插值，插值完成后对于新生成的少数类样本

若

的1邻近样本中多数类样本数量多于少数类样本，则删除

作为上述方案的进一步优化，所述基于所述输入样本对预设神经网络进行训练，获取训练的电力信息系统多故障预测结果，包括：在训练过程中，对网络模型中至少一层隐藏层的神经元的激活值按照预设激活值分布需求进行修正。

作为上述方案的进一步优化，所述对隐藏层网络的神经元的激活值进行修正包括：

将一层所有神经元的激活值表示为m*n的二维矩阵；

基于二维矩阵通过卷积核进行两次高通滤波；

基于高通滤波后的激活值分布与预设的激活值分布的差异融合到模型训练的损失函数中进行模型训练。

作为上述方案的进一步优化，所述高通滤波后的激活值分布

与预设的激活值分布

的差异D_t采用L2范数衡量，具体为：

本发明还提供了电力信息系统多故障预测网络模型的训练装置，包括：

数据集获取单元，用于获取时间序列的告警数据集，所述告警数据集的初始参数包括发生故障的设备元件名称、故障时间、故障类型；

数据增强单元，用于对所述告警数据集进行数据增强，得到增强的训练样本集；

训练样本对获取单元，用于基于训练样本集获取用于模型训练的输入样本和与输入样本对应的目标输出样本；

训练单元，用于基于所述输入样本、目标输出样本和预设的网络模型损失函数对预设的神经网络模型进行迭代训练，获取多故障预测网络模型。

本发明的电力信息系统多故障预测网络模型的训练方法及装置，具备如下有益效果：

1、通过对原始数据集进行数据增强处理，实现数据特征均衡，基于数据增强后的训练样本集进行模型训练拟合得到的多故障预测网络模型具备更高的预测精度和更稳定的预测效果。

2、在数据增强处理过程中，先通过对不同历史时间段抽取不同数量的数据作为训练数据集，以从样本选择的角度进行数据增强，使得训练样本数据中从历时间越久远的历史样本，从中所抽取的训练样本量也越少，充分利用有价值的特征信息，提高网络模型的预测能力。然后通过对少数类样本进行繁衍扩增，以平衡少数类样本和多数类样本的样本数，使得网络模型在训练过程中能够均衡的从多数类样本和少数类样本中提取准确信息，提高网络模型的预测准确性，最后通过将平衡后的数据进行生成对抗模型的数据增强，扩增训练数据集，避免网络模型过拟合的问题。

3、在对少数类样本进行繁衍扩增过程中，基于少数类样本的邻近样本中多数类样本的分布情况，分为多种类别，分别经过不同的繁衍扩增方法繁衍扩增不同的数据量，使得新生成的样本分布更加合理，使得样本分布更加均衡，进而提高了网络模型的预测能。

附图说明

图1是本发明实施例的电力信息系统多故障预测网络模型的训练方法的流程图；

图2是本发明实施例的电力信息系统多故障预测网络模型的训练装置结构框图；

图3是本发明实施例中实验中，在ASAD测试集上两种模型的预测准确率变化情况；

图4是本发明实施例中实验中，在USAD测试集上两种模型的预测准确率变化情况；

图5是本发明实施例中实验中，两种拟合模型的Loss函数值变化图；

图6是本发明实施例中实验中，基于五个数据集的模型的损失函数值在训练过程中的变化图；

图7是本发明实施例中实验中，基于五个数据集的模型的预测准确率在训练过程中的变化趋势；

图8是本发明实施例中实验中，基于五个数据集的模型的不同类型告警预测错误分布图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本实施例提供的电力信息系统多故障预测网络模型的训练方法，包括如下步骤：

获取时间序列的告警数据集，该告警数据集的初始参数包括发生故障的设备元件名称、故障时间、故障类型等属性数据；

对告警数据集进行数据增强，得到增强的训练样本集；

基于所述输入样本、目标输出样本和预设的网络模型损失函数对预设的神经网络模型进行迭代训练，获取多故障预测网络模型，在本实施例中，预设的神经网络模型采用全连接神经网络模型。

考虑到要在此模型中训练的原始数据存在数据缺失、数据不连续、数据冗杂、数据集特征分布不均衡等数据质量问题，本实施例中设计了面向渐变数据和突变数据等的数据增强算法。数据增强是深度学习相关领域的一项通用技术，例如，在图像识别领域，小型仿射变换、几何变换、随机分割/缩放是较为常见的数据增强方法；在自然语言处理(NLP)领域，常见的数据增强方法包括同义词替换等。然而，在网络故障预测中还没有引入相关数据增强的方法，本实施例中运用数据增强法对原始数据进行处理，以便在模型训练中提高训练效率。

具体的，上述对告警数据集进行数据增强，包括如下(a1)-(a3)步骤：

(a1)将告警数据集按照预设时间段进行划分，并在不同时间段内抽取不同数量的告警数据汇总得到第一样本集，该抽取告警数据的方法为：

从当前时间段n到逐渐远离当前时间段的历史时间段内抽取的告警数据数量以指数倍减少，具体的可采用以下公式进行告警数据抽取，

其中，T_n-1为从历史时间段中抽取的作为训练样本的告警数据量，n为当前的时间段，k为历史的时间段，S_k为k时间段所需预测的数据量。

(a2)在第一样本集的基础上，将第一样本集中的少数类样本进行繁衍扩增得到第二样本集，以平衡少数类样本和多数类样本的样本数，同时在繁衍扩增过程中对于噪声样本检测去除，该噪声样本是指在一个样本的K邻近样本中同类样本极少或者没有同类样本，则该样本为噪声样本；

(a3)基于第二样本集进行数据扩增得到所述训练样本集，本实施例中，基于第一样本集的扩增解决了少数类样本和多数类样本的样本数不平衡的问题，然后对于样本数平衡后的数据同时进行数据增强，该步骤可以通过构建增强网络比如生成对抗网络GAN进行数据扩增，以解决神经网络的训练数据不足的问题，同时提高神经网络模型的泛化能力。

上述对第一样本集中的少数类样本进行繁衍扩增，包括如下步骤：

(b1)对于每个少数类样本X_i，根据所述少数类样本容易被错误判断为多数类样本的可能性，按照预设算法获取每个少数类样本应该繁衍扩增的样本数量，该可能性采用少数类样本的K邻近样本中多数类样本的数量m确定，m越大，少数类样本X_i被错误判断为多数类样本的可能性越大，根据m值的大小匹配少数类样本X_i应该繁衍扩增的样本数量；

(b2)然后根据所述少数类样本容易被错误判断为多数类样本的可能性等级，将每个少数类样本分到同一可能性等级的集合中，具体的，集合划分方法为：若m＝0，则划分到第一集合中；若

则划分到第二集合中；若

则划分到第三集合中；其中，K_count为X_i的K邻近样本总数；

(b3)根据每个少数类样本所属集合种类，采用对应的繁衍扩增方法进行扩增；

(b4)对所有少数类样本进行繁衍扩增后，判断新生成的少数类样本是否为噪声样本，若是则删除所述噪声样本。

具体的，上述(b1)中第一样本集中每个少数类样本需要繁衍扩增的新样本数量确定方法为：

按照预设算法获取少数类样本X_i应该繁衍扩增的样本数量

其中，

本实施例中，通过以m为变量应该繁衍扩增的样本数量的分布函数，来确定不同少数类样本X_i的K邻近样本中多数类样本的数量m值对应应该繁衍扩增的样本数量，该分布函数在某一m值处有一极值点，极值点位于整个分布函数的左侧，在极值点左侧，函数值随着m的增大迅速增加，在极值点右侧，函数值随着m的增大缓慢减小，符合随着m值的增大，繁衍扩增的样本数量应该先快速增加，后缓慢减小的规律，以分布函数极值点为中心，分别向左右两侧分析，向左侧，少数类样本X_i的K邻近样本中多数类样本的数量m值越小，说明K邻近样本中少数类样本的数量越多，越容易被正确分类，因此不必繁衍扩增很多样本数量，向右侧，少数类样本X_i的K邻近样本中多数类样本的数量m值越大，越不容易被正确分类，同时也越有可能是噪声样本，所以不必繁衍扩增很多样本数量以造成噪声样本的扩增。

上述(b3)中，根据每个少数类样本所属集合种类，采用对应的繁衍扩增方法进行扩增，具体方法包括：

对于第一集合少数类样本的繁衍扩增方法为：对于集合中的所有少数类样本X_i，从其K邻近样本中随机选取一个样本点X_j，在X_i和X_j之间的线段上进行线性插值生成新样本，该线性插值可利用公式：X_new＝X_i+rand(0,1)|X_j-X_i|，其中X_new为新生成样本；

对于第二集合少数类样本的繁衍扩增方法为：

对于集合中的所有少数类样本，基于每个少数类样本的K邻近样本中同类样本所占比例大小匹配有不同大小的选择概率区间，该步骤中，可采用以下公式进行计算每个少数类样本X_i的选择概率区间，

其中s_i为每个少数类样本的K邻近样本中同类样本所占比例大小。

基于(0，1)随机生成函数生成的数值，匹配对应概率区间及其对应的少数类样本，

以选中的少数类样本X_i的K个邻近样本中任选一个样本X_j，在以X_i为中心，X_i和 X_j的距离为半径的空间内进行插值，插值完成后对于新生成的少数类样本

若

的 1邻近样本中多数类样本数量多于少数类样本，则

为噪声样本，删除

若

的1邻近样本中多数类样本数量多于少数类样本，则删除

本实施例中，基于所述输入样本对预设神经网络进行训练，获取训练的电力信息系统多故障预测结果，包括：在训练过程中，为了避免训练过程中过拟合现象发生，对网络模型中至少一层隐藏层的神经元的激活值按照预设激活值分布需求进行修正，优选的预设激活值分布为

在本实施例中，对隐藏层网络的神经元的激活值进行修正包括：

将一层所有神经元的激活值表示为m*n的二维矩阵，例如一层的神经元个数为1024 个，则可以按照32*32的二维矩阵将每个神经元的激活值表示；

基于二维矩阵通过卷积核进行两次高通滤波；

基于高通滤波后的激活值分布与预设的激活值分布的差异融合到模型训练的损失函数中进行模型训练，该高通滤波后的激活值分布

与预设的激活值分布

的差异D_t采用L2范数衡量，具体为：

本实施例还提供了电力信息系统多故障预测网络模型的训练装置，包括：

基于上述实施例提供的电力信息系统多故障预测网络模型的训练方法，结合具体实验进行效果验证。

利用上述实施例中的数据增强方法处理原始数据集获取增强后的训练样本集，再进行预设的电力信息系统多故障预测网络模型训练，基于训练完成的网络模型分别进行告警和非告警预测能力的评估，以及对于各类告警预测能力的评估。

为了评估数据增强前后网络模型对告警与非告警的预测能力，基于原始告警数据集，一份不进行数据增强处理，记为未增强单一告警数据集(Unaugmented Single AlarmDataset,USAD)，一份通过本实施例提供的数据增强方法进行数据增强，记为增强单一告警数据集(Augmented SingleAlarm Dataset,ASAD)，基于数据集USAD和ASAD 分别进行模型训练验证，如表1所示为USAD数据集和ASAD数据集分别在训练集和测试集上的数目分配，一般测试集和训练集的比例为1:4。

表1两种IN_PWR_LOW告警数据集数目表

数据集	训练集数目	测试集数目
			ASAD	800	200
USAD	26	6

利用增强算法得到的数据集ASAD的训练集有800条数据、测试集有200条数据。数据集USAD均来自真实网管数据，其训练集有26条数据、测试集有6条数据。

在训练过程中，应用于数据集ASAD和USAD的全连接神经网络模型参数相同，是经过大量的尝试，最终确定的一组性能最优而且最稳定的网络结构和参数设置。网络结构的输入神经元个数为36个，由12个最大性能值、12个当前性能值和12个最小性能值组成；输出神经元个数为2，表示未来15～30分钟内是否发生该告警；隐藏层为 2层，每层神经元个数分别是64，128。激活函数为ReLU，损失函数以均方误差MSE为基础加上上述的激活值差异函数，优化算法为SGD，一次迭代所使用的样本数Batch size大小为4，训练轮回次数epoch为100，学习率恒定为1e-2。全连接神经网络FCNet 分别在数据集USAD和数据集ASAD上训练拟合得到的两个故障预测模型在此称做USAD 拟合模型和ASAD拟合模型，本组实验分别对这两个拟合模型在两种测试数据集上进行验证，对比结果如图3和图4所示，图3和图4为区域图，显示了两种拟合模型在100 个epoch(模型迭代次数)上的故障预测准确率变化，阴影面积展示了预测准确率的对比。如图3所示，用ASAD测试集对两种拟合模型进行模型验证，ASAD拟合模型的预测精度比USAD拟合模型高5.5％，ASAD拟合模型的预测精度可达99％，USAD拟合模型的预测精度最大可达93.5％，但从图4可观测到，即使在模型训练轮回的后期，USAD拟合模型的预测精度仍在10％范围上下波动。如图4所示，用USAD测试集对两种拟合模型进行模型验证，ASAD拟合模型和USAD拟合模型都可以达到100％的精度。但ASAD拟合模型在两个epoch之后预测准确率已达到稳定值，具有更快的学习速率。然而，USAD 拟合模型在前二十个epoch内预测准确率表现出明显波动。综上，用ASAD数据集进行模型训练拟合得到的全连接神经网络模型比USAD拟合模型具备更高的预测精度和更稳定的预测效果。

此外，模型训练时损失函数值的变化也可以反映拟合模型的性能。如图5所示，随着模型迭次数的增加，ASAD拟合模型的训练损失值比USAD拟合模型下降得快。且从模型训练开始，ASAD拟合模型的损失值始终低于USAD拟合模型，且波动范围非常小，更加稳定。综上，ASAD拟合模型比USAD拟合模型具有更快的模型收敛速度。

对于各类告警预测能力的评估，在本实验的原始数据集中，每条告警与3小时前15分钟监测周期的12条性能事件数据关联，因此每条告警数据与12组性能数据对应。其中，性能事件数据分为最大性能值、最小性能值以及当前性能值三类，经过验证，这三类数据对于模型预测告警均有效。本实验中同时选择这三类性能-告警数据集合的合集作为原始数据集。

在本组实验中，设定数据集的模型输入是长度为13的数组，该数组第一个元素表示所判断告警的类别，取值0,0.5,1分别对应三类告警类型；剩下12个元素则表示告警对应的性能事件的当前性能值。数据集的输出为one-hot编码的长度为2的二分类数组，10表示告警将要发生，01表示告警不会发生。在原始数据集基础上，利用数据增强算法将原始数据集增强，作为有告警的异常数据集(label1)，并分别依据上文所述的方法筛选对应数目的非告警数据集合，分别作为无告警的正常数据集(label 0)。

利用故障预测模型中的数据增强算法将上述原始数据增强后的所有告警数据的数据集合定义为Full集合(label 1和label 0各159条，共318条)，在此基础上分别将每一类告警数据裁减至原来的75％，50％，以及25％，从而得到三个更小的数据集。称原始数据集为未增强多告警数据集(Unaugmented Multi-Alarm Dataset,UMAD)，Full集合及其裁剪集均为增强多告警裁减数据集(Augmented Multi-Alarm Cutted Dataset，AMACD)，分别称为AMACD(100％)，AMACD(75％)，AMACD(50％)，AMACD(25％)。

同样，在本组实验中经过大量尝试，最终确定了一组性能最优且最稳定的网络结构和参数设置。网络结构的输入神经元个数为13个，由1个告警类型标识和12个当前性能值组成；输出神经元个数为2个，分别表示未来15～30分钟内是否发生该告警的可能性；隐藏层为3层，每层神经元个数分别是64，64，96。激活函数为ReLU，损失函数以均方误差MSE为基础加上上述的激活值差异函数，优化算法为SGD，一次迭代所使用的样本数Batchsize大小为4，学习率恒定为5e-3。其中用于这五类模型的对比验证测试集取自Full集合。

如图6所示，随着训练的推进，五个数据集上的损失函数值逐渐降低。3000次迭代以后基本稳定在0.1之下，这表明所有模型均在训练数据集上收敛。但是收敛程度不同，其中AMACD(25％)收敛最差，AMACD(50％)和AMACD(100％)次之，AMACD(75％) 和UMAD的拟合模型收敛效果最好。

图7显示了随着训练的进行，五个数据集上的模型的预测准确率的变化趋势。UMAD数据集模型的最高精度为82.81％，高于AMACD(50％)和AMACD(25％)，低于AMACD(75％) 模型的准确率87.50％和AMACD(100％)的准确率85.94％。可以得到，相比于AMACD 数据集上的最优模型(75％)，性能改善最多为4.69％。这表明在增强数据集上，深度学习算法确实可以更快速准确地学习到告警的数据特征。然而，AMACD(25％)和AMACD (50％)的表现反而更差的现象说明对数据的过多删减会使得数据特征更加模糊； AMACD(100％)的表现反而不如AMACD(75％)的新现象说明过多的增强数据会引入过高的高斯噪声，从而扰乱数据的特征分布，使得深度学习算法的学习能力下降。

为了进一步分析性能提升的原因，如图8所示，UMAD模型没有误预测IN_PWR_LOW告警，表明它在不平衡数据集上完美地学习到此告警的特征，但UMAD模型忽略了其他告警的特征学习。在AMACD的4个模型中，对每种告警的学习都没有达到最佳，学习能力相对均衡。其中由于样本被高斯噪声增强和干扰，AMACD模型对R_LOS和 OUT_PWR_ABN的误预测率是不稳定的。然而，AMACD模型对于IN_PWR_LOW的预测准确度关系与上图7中的精确大小关系相同，即AMACD(75％)>AMACD(100％)>AMACD (550％)>AMACD(25％)。这表明当预测精度降低时，R_LOS和OUT_PWR_ABN的误预测率之和增加，进一步证明数据增加使模型能够以更平衡的方式学习特征。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。