CN114487673A

CN114487673A - 一种基于Transformer的电力设备故障检测模型和电子设备

Info

Publication number: CN114487673A
Application number: CN202210084506.XA
Authority: CN
Inventors: 张晓华; 吕志瑞; 武宇平; 陈建军; 袁敬中; 黄彬; 杨静宇; 王守鹏; 余建明; 张连超
Original assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd; Qinhuangdao Power Supply Co of State Grid Jibei Electric Power Co Ltd
Current assignee: Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd; Qinhuangdao Power Supply Co of State Grid Jibei Electric Power Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-13

Abstract

本发明公开了一种基于Transformer的电力设备故障检测模型，所述Transformer模型的训练数据来源于一预处理模型，所述预处理模型包括上采样模块和词嵌入表示学习模块，所述上采样模块用于将输入的不平衡电力设备数据转换为平衡数据；所述词嵌入表示学习模块用于将所述平衡数据进行嵌入表示，输出基于电力设备表示的历史状态序列和标签数据的嵌入表示；所述Transformer模型采用多头注意力机制，以所述历史状态序列和标签数据的嵌入表示为输入，进行训练生成电力设备故障检测模型。本发明使用Transformer框架，根据输入数据时间序列信息和时间位置信息，使用多头注意力机制进行多维度特征挖掘，提高电力设备故障检测模型的特征输入质量，进而提升模型的电力设备故障检测准确率。

Description

一种基于Transformer的电力设备故障检测模型和电子设备

技术领域

本发明属于电网电力设备故障检测技术领域，涉及电网电力设备故障检测模型，尤其是一种基于Transformer的电网电力设备故障检测模型和电子设备。

背景技术

随着供电需求增加和供电系统的日益复杂，对电力系统设备故障检测的准确性和实时性要求也越来越高。目前针对电力系统设备故障的检测算法大多采用传统的主观检测，数字化检测以及一些深度学习算法，这些方法一方面缺乏对电力系统设备中的故障样本数据不足的认知，另一方面在对供电系统设备状态建模时忽略了时间序列下对应特征的时间位置信息。

因此如何提出一种电力设备故障检测模型，实现更好地优化、预测、分类任务的表现，提高模型的检测准确性是本领域技术人员亟待解决的技术难题。

发明内容

有鉴于现有技术的上述不足，本发明的目的是提供一种一种设计合理、检测准确性高的基于Transformer的电力设备故障检测模型。

为实现上述目的，本发明提供了一种基于Transformer的电力设备故障检测模型，所述电力设备故障检测模型包括一Transformer模型，所述Transformer模型的训练数据来源于一预处理模型，所述预处理模型包括上采样模块和词嵌入表示学习模块，所述上采样模块用于将输入的不平衡电力设备数据转换为平衡数据；所述词嵌入表示学习模块用于将所述平衡数据进行嵌入表示，输出基于电力设备表示的历史状态序列和标签数据的嵌入表示；所述Transformer模型采用多头注意力机制，以所述历史状态序列和标签数据的嵌入表示为输入，进行训练生成电力设备故障检测模型。

进一步的，所述上采样模块采用Borderline-SMOTE算法；所述上采样模块的数据处理过程包括：以电网电力设备数据集中包含的电力设备实体状态和标签作为Borderline-SMOTE上采样算法的输入，采用最近邻算法，计算出每个少数类样本的K个近邻，从K个近邻中随机挑选N个样本进行随机线性插值，构造新的少数类样本，然后将新生成的少数类样本和原始样本合并在一起，生成平衡的样本数据集，最后基于新构成的数据集进行嵌入表示。

进一步的，所述上采样模块的数据处理过程具体包括：

步骤21、获得电网电力设备数据集，其中包含设备实体状态和对应标签；

步骤22、对电网电力设备数据集的数据进行遍历，使用最近邻算法确定样本x的近邻样本集合D_n，在所述近邻样本集合D_n中，与样本x相同类别的样本作为集合D_same，与样本x不同类别的样本集合称为D_other；

步骤23、计算原始的电网电力设备数据集中多数类和少数类的样本数量差距，并根据该差距生成样本；

步骤24、得到种子样本生成的样本数后，K-means算法根据类簇中心和采样样本的欧氏距离，在每一次迭代划分样本的同时进行类簇中心坐标的更新；

步骤25、将各类簇中同类别的样本筛选出来组成样本集合D_c，然后根据特征类型的不同，进行相应的处理；

步骤26、对于每个种子样本x_i，对应的类别y_i，所在的类簇c_i，存在对应需要生成的新样本数量N_gi，每次生成新样本时，根据N_gi及所在类簇各特征的分布FD[c_i][y_i]，先生成辅助样本x_temp，再进行线性插值，得到最终的生成样本x_new；对种子样本循环进行N_gj次样本生成操作后，得到基于该种子样本的一组生成样本，这些生成样本与种子样本属于相同类别；当每一个种子样本都完成样本生成后，将得到的生成样本集合D_g与原始数据集D合并，就得到了最终需要的平衡数据集D_balance；

步骤27、针对最终获得的样本进行嵌入表示，嵌入表示后的样本的数据形式定义为M×N，其中M是样本数，用于表示不同电力设备的描述；N是特征数目。

进一步的，所述步骤23中的少数类样本被分为3类：当少数类样本的所有k近邻样本都属于多数类，则定义为“noise”；当少数类样本的所有k近邻样本超过一半都属于多数类，则定义为“danger”；当少数类样本的所有k近邻样本超过一半都属于少数类，则定义为“safe”；然后从处于“danger”状态的样本中随机选择样本作为种子样本。

进一步的，所述步骤23中的种子样本通过如下公式获得：

label_diff_j＝N_maj-N_j

其中，N_maj表示多数类种子的样本数量，N_j表示属于类别C_j的样本数量；D_{s_maj}表示属于多数类的种子样本集合；D_{s_j}表示属于类别C_j的种子样本集合；R_sj表示每个种子样本为了平衡种子样本的数量差距需要生成的样本数；N_gj表示每一个类别C_j的种子样本平均生成的新样本数。

进一步的，所述步骤24中K-means算法的超参数k_c表示为：

其中，N_maj表示数据集中多数类样本数量；N_min表示数据集中少数类样本数量。

进一步的，所述步骤25中的特征类型分为离散特征和连续特征，

对于离散特征，根据不同字段出现的频率来确定离散特征的选取；

对于连续特征，计算特征取值的最大值max和最小值min，给出取值区间[min，max]。

进一步的，所述步骤26中的所述辅助样本x_temp依据特征分布构造，满足三个规则：

临时样本x_temp与采样样本x_i属于同一个类别标签y_i；

临时样本x_temp与采样样本x_i属于同一个类簇c_i；

临时样本x_temp与采样样本x_i具有相同的特征，但各个特征的特征值是根据类簇c_i的特征分布FD[c_i][y_i]随机采样得到；

所述样本x_new的计算公式为：

x_temp＝[f₁，f₂，...，f_p]，f_p＝Random(FD[c_i][y_i][p])

x_new＝x+Random(0，1)×(x_temp-x)

其中，FD为特征分布矩阵，x表示少数类样本。

进一步的，所述Transformer模型包括：

输入数据处理模块，用于对输入的电力设备状态序列信息的嵌入表示做位置编码；

Encoder模块，用于对输入的电力设备状态序列信息根据时间顺序进行位置编码，然后使用多头注意力机制实现自注意力信息融合；

Decoder模块，用于对Encoder模块产生的编码使用多头注意力机制结合掩码进行解码；

所述Decoder模块的输出经过Linear和softmax，输出预测结果。

进一步的，所述电力设备状态序列信息表示形式为：

X_b＝[b₁，b₂，…，b_t]

其中，

N为样本数量，t为时间序列下的电力设备状态数量，b_i代表序列中的第i个状态，形式上为独热编码；

对于序列信息X_b，嵌入层将其编码为低维稠密表示：

e_b＝[e₁，e₂，…，e_t]

其中，

k代表嵌入层的大小。

本发明的优点和有益效果：

(1)本发明使用Transformer技术，根据输入数据所包含的时间位置信息，对不同时刻的输入数据进行有效特征提取，然后作为Transformer模型的输入，这在一方面有效地解决了输入数据的时间位置信息时序特征的利用不充分问题。

本发明使用Transformer框架，根据输入数据时间序列信息和时间位置信息，使用多头注意力机制进行多维度特征挖掘，提高电力设备故障检测模型的特征输入质量，进而提升模型的电力设备故障检测准确率。

附图说明

图1为本发明的基于Borderline-SMOTE上采样处理流程图；

图2为本发明的基于Transformer技术的电力设备故障检测模型处理流程示意图；

图3为本发明的电力设备故障检测总框架图；

图4为本发明的电力设备故障检测模型验证框架图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

如图1到图4所示，本发明给出了一种基于Transformer的电力设备故障检测模型，所述电力设备故障检测模型包括一Transformer模型，所述Transformer模型的训练数据来源于一预处理模型，所述预处理模型包括上采样模块和词嵌入表示学习模块，所述上采样模块用于将输入的不平衡电力设备数据转换为平衡数据；所述词嵌入表示学习模块用于将所述平衡数据进行嵌入表示，输出基于电力设备表示的历史状态序列和标签数据的嵌入表示；所述Transformer模型以所述历史状态序列和标签数据的嵌入表示为输入，进行训练生成电力设备故障检测模型。

所述电力设备故障检测模型的训练包括以下步骤：

步骤1、输入电网电力设备数据集，该数据集包括电网的或称电力设备实体状态和标签；其中，电力设备实体状态包括：变压器油中气体组成成分含量情况，变压器局部放电情况，设备接触面温度情况，内部元件受潮情况等状态信息，这些状态信息附带有时间信息，构成电力设备的历史状态序列；标签对应电力设备如变压器故障类型，变压器故障类型包括：绝缘劣化，异常振动等，还可以根据识别出的故障的严重程度进行分级。

步骤2、利用Borderline-SMOTE上采样算法将输入的不平衡电力设备数据集转换为平衡数据集，然后进行嵌入表示。

所述步骤2的具体步骤包括：

根据步骤1的电网电力设备数据集中包含的电力设备实体状态和标签作为Borderline-SMOTE上采样算法的输入，采用最近邻算法，计算出每个少数类样本的K个近邻，从K个近邻中随机挑选N个样本进行随机线性插值，构造新的少数类样本，然后将新生成的少数类样本和原始样本合并在一起，生成平衡的样本数据集，最后基于新构成的数据集进行嵌入表示(Embedding)：

(1)获得电网电力设备数据集，其中包含设备实体状态和对应标签；

(2)对电网电力设备数据集的数据进行遍历，使用最近邻算法(KNN算法)确定样本x的近邻样本集合D_n，在近邻集合D_n中，存在不同类别的样本，与样本x相同类别的样本作为集合D_same，与样本x不同类别的样本集合称为D_oth _er。

(3)计算原始数据集中多数类和少数类的样本数量差距：

label_diff_j＝N_maj-N_j

其中，N_maj表示属于多数类的样本数量，N_j表示属于类别C_j的样本数量：

将所有少数类样本分成三类，当少数类样本的所有k近邻样本都属于多数类，则定义为“noise”；当少数类样本的所有k近邻样本超过一半都属于多数类，则定义为“danger”；当少数类样本的所有k近邻样本超过一半都属于少数类，则定义为“safe”；然后从处于“danger”状态的样本中随机选择样本作为种子样本。

在种子样本集合中，多数类种子多于少数类种子，且多数类种子的采样率是100％。为了弥补种子样本的数量差距，需要计算多数类种子和少数类种子的比例R_sj：

其中，D_{s_maj}表示属于多数类的种子样本集合；D_{s_j}表示属于类别C_j的种子样本集合。

N_gj表示每一个类别C_j的种子样本平均生成的新样本数：

其中，label_diff_j/|D_{s_j}|表示每个种子样本为了平衡原始数据的数量差距需要生成的样本数。

(4)得到种子样本生成的样本数后，K-means算法根据类簇中心和采样样本的欧氏距离，在每一次迭代划分样本的同时进行类簇中心坐标的更新。K-means算法的超参数k_c表示类簇的数量，在Borderline-SMOTE算法中，超参数k_c的值取决于数据集中多数类与少数类的数量之比：

按照一般K-means算法对数据集聚类后，为每一个样本标记所在类簇标签C，并更新数据集为：

(5)将各类簇中同类别的样本筛选出来组成样本集合D_c，每一个样本都包含特征集合F＝{f₁，f₂，...，f_p}，然后根据特征类型的不同，进行相应的处理。

对于离散特征，例如“异常响声”“机器设备震动异常”等。离散特征的选取不能从所有字段中随机选取，需要根据不同字段出现的频率来确定，才能保证生成样本和最终得到的平衡数据集的特征分布不发生改变。

对于连续特征，例如“设备本身温度数据”等。在数据生成过程中，对于连续特征需要考虑在[min，max]区间内进行取值，因此需要计算特征取值的最大值和最小值，数据生成时在[min，max]区间内随机选择数据作为生成值。对K_c个类簇中L种不同类别的p个特征，计算维度为(K_c×L×p×2)的特征分布矩阵FD。

(6)对于每个种子样本x_i，对应的类别y_i，所在的类簇c_i，存在对应需要生成的新样本数量N_gi，每次生成新样本时，根据N_gi及所在类簇各特征的分布FD[c_i][y_i]，先生成辅助样本x_temp，再进行线性插值，得到最终的生成样本x_new。

Borderline-SMOTE算法首先依据特征分布构造了一个辅助样本x_temp。辅助样本x_temp需要满足三个规则：

临时样本x_temp与采样样本x_i属于同一个类别标签y_i；

临时样本x_temp与采样样本x_i属于同一个类簇c_i；

临时样本x_temp与采样样本x_i具有相同的特征，但各个特征的特征值是根据类簇c_i的特征分布FD[c_i][y_i]随机采样得到。

得到临时样本x_temp后，即可通过线性插值的方式，得到新的样本x_new：

x_temp＝[f₁，f₂，...，f_p]，f_p＝Random(FD[c_i][y_i][p])

x_new＝x+Random(0，1)×(x_temp-x)

对种子样本循环进行N_gj次样本生成操作后，得到基于该种子样本的一组生成样本，这些生成样本与种子样本属于相同类别。当每一个种子样本都完成样本生成后，将得到的生成样本集合D_g与原始数据集D合并，就得到了最终需要的平衡数据集D_balance。经过平衡后的数据集，多数类和少数类的比例恢复正常，且整体的样本数量也得到扩充。

(7)针对最终获得的样本，数据形式定义为M×N，其中M为样本数，表示对不同电力设备的描述。N是特征数目，包含设备温度、设备图像特征，设备参数特征以及上下文特征等。对最终获得的样本进行嵌入表示。在特征处理过程中，一般习惯于将连续特征离散化。离散特征在经过编码后会使得数据矩阵极为稀疏，如果不其进行有效处理，会使得后续建模过程参数量激增。数据嵌入层的主要作用是将经过独热编码后的稀疏向量进行压缩表示。经过嵌入层的数据向量，维度会显著降低，特征信息主要以数值形式表示出来。假设特征向量经过独热编码后的表示为[x₁；x₂；…；x_n]，其中n为特征域数量，x_i为特征域i的独热码表示。嵌入层矩阵V的大小为n×k，k为嵌入层向量的大小。

经过嵌入层后，稀疏向量将被编码为长度相等的稠密向量，设嵌入层输出为E，如下所示。

E＝[e₁，e₂，…，e_n]＝[v₁x₁，v₂x₂，…，v_nx_n]

其中，e_i表示特征域向量。对于单值特征来说，每一个x_i中有且仅有一位为1，特征域向量即表示特征向量。对于多特征来说，此时的e_i具有多个向量。最终完成对数据集的嵌入表示。

步骤3、在步骤2中获得的样本嵌入表示的基础上，定义基于Transformer的电力设备故障检测模型。

所述步骤3的具体步骤包括：

(1)定义输入数据处理模块。首先是数据输入，在Transformer网络中模型的输入电力设备状态序列信息，用X_b表示，行为序列信息一般利用某个时序下的电力设备状态列表来进行表示，其表示形式如下所示。

X_b＝[b₁，b₂，…，b_t]

其中，

N为样本数量，t为时间序列下的电力设备状态数量，b_i代表序列中的第i个状态，形式上为独热编码。

获得独热编码输入后，我们将高维的稀疏向量进行稠密化表达，对于序列信息X_b，嵌入层将其编码为低维稠密表示，如下所示。

e_b＝[e₁，e₂，…，e_t]

其中，

k代表嵌入层的大小。然后利用时间位置信息，将输入的电力设备状态序列信息的嵌入表示做位置编码(positional encoding)。

(2)定义Encoder模块。

然后经过Transformer的Multi-head attention进行多头注意力学习，充分获取上下文与环境的特征信息，再经过position-wise Feed Forward，这里每个子层之间通过残差进行连接，利于网络的快速更新。

(3)定义Decoder模块。该模块同样对Encoder输入进来的信息进行positionalencodings，然后经过Multi-head attention进行多头注意力学习，充分获取上下文与环境的特征信息，再经过position-wise Feed Forward，这里每个子层之间通过残差进行连接，不过需要在解码的时候加上Masked Multi-head attention即掩码模块，因为这是一个预测的过程，有些信息是实际是未知的，需要被隐藏。

(4)最终将Decoder模块的输出经过Linear和softmax，输出概率，然后使用标签做监督学习，反向传播更新参数。

步骤4、首先依据步骤2中产生的嵌入表示作为步骤3中得到的电力设备故障检测模型的输入，最终训练产生基于Transformer网络获得的电力设备故障检测模型。

所述步骤4的具体步骤包括：

(1)基于Transformer的网络框架实现：首先依据步骤2中基于嵌入层对构建好的平衡样本生成对应的嵌入表示；其次根据输入数据的时间位置信息，对其进行时间位置编码；然后我们会定义出一个Transformer网络的Encoder模块，该模块首先会对输入的序列数据根据时间顺序进行位置编码，然后使用多头注意力机制实现自注意力信息融合，可以有效地对输入数据的时序信息，位置信息，相关信息进行捕捉；接下来我们会定义一个Transformer网络的Decoder模块，该模块对Encoder模块产生的编码进行解码，与Encoder模块一样，使用多头注意力机制和归一化操作，不同的是在该模块加入了掩码模式，用于掩盖本应该预测的那一部分信息，使得模型得到更好的训练。最后将Decoder的输出经过Linear和softmax，输出预测结果即检测结果的分类。其网络架构如图3所示。

(2)设置训练的迭代次数epochs，从epochs等于1开始训练。

(3)由步骤2)中获得数据集样本的嵌入表示，然后将数据的嵌入表示批量输入基于Transformer的电力设备故障检测模型中，获得对输入数据的预测。

(4)计算预估值和真实的label值的损失函数最小化。

(5)在epochs定义的值范围内，重复(3)(4)中的步骤，最终训练出一个基于Transformer的电力设备故障检测模型。

在电力设备故障检测问题的应用系统中，主要的关注点是对输入样本的特征提取能力。本发明的创新主要是基于Transformer技术对输入数据进行特征挖掘，一方面可以获得输入数据的时序和空间特征同时对时间位置信息进行编码，另一方面可以使用注意力机制对关键特征进行利用和挖掘；本模型在Encoder模块和Decoder模块都有应用多头注意力机制，这使得模型可以在多个维度对输入数据进行特征挖掘。基于以上两个方面可以对输入样本数据的特征进行充分挖掘和利用进而使得网络获取更多的有用信息，利用这些特征信息实现更加准确的电力设备故障检测。针对以上问题，许多方法会选择在多模态融合等方向上做一些改进。本文中提出的方法与以往不同，主要在结合Transformer技术实现输入数据的特征多维度挖掘，同时对位置信息进行编码，进而获得更多的特征信息，提升网络模型故障检测能力。

本发明中方法的设计，是基于Transformer网络对电力设备特征进行充分挖掘，更好地服务于下游神经网络的分类检测任务。其中Transformer的输入处理模块，我们使用了正弦余弦函数对输入信息进行时间位置编码，然后将编码后的数据输入到定义好的Encoder模块中，采用多头注意力机制对输入数据进行多维度特征提取，随后将Encoder模块输出数据作为Decoder模块的输入数据，再次使用多头注意力机制结合掩码进行解码，最终依据目标标签的维度对数据进行解码，结果放入分类网络中进行监督训练，最终生成电力设备故障检测模型。

基于以上的改进，就实现了本发明提出的基于Transformer的电力设备故障检测模型。该方法可以有效提升电力设备故障检测的准确性。

本发明的工作原理是：

本发明首先对电网电力设备样本进行Borderline-SMOTE上采样，生成平衡样本数据，然后利用嵌入层对输入样本进行嵌入表示，接着将生成的嵌入表示使用位置编码模块进行编码，将位置编码后的输入数据嵌入表示和对应标签的嵌入表示共同作为基于Transformer模型输入，进行模型训练，生成一个可以对电力设备故障进行准确检测的模型。

需要强调的是，本发明所述实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于Transformer的电力设备故障检测模型，其特征在于，所述电力设备故障检测模型包括一Transformer模型，所述Transformer模型的训练数据来源于一预处理模型，所述预处理模型包括上采样模块和词嵌入表示学习模块，

所述上采样模块用于将输入的不平衡电力设备数据转换为平衡数据；

所述词嵌入表示学习模块用于将所述平衡数据进行嵌入表示，输出基于电力设备表示的历史状态序列和标签数据的嵌入表示；

所述Transformer模型采用多头注意力机制，以所述历史状态序列和标签数据的嵌入表示为输入，进行训练生成电力设备故障检测模型。

2.如权利要求1所述的电力设备故障检测模型，其特征在于，所述上采样模块采用Borderline-SMOTE算法；所述上采样模块的数据处理过程包括：以电网电力设备数据集中包含的电力设备实体状态和标签作为Borderline-SMOTE上采样算法的输入，采用最近邻算法，计算出每个少数类样本的K个近邻，从K个近邻中随机挑选N个样本进行随机线性插值，构造新的少数类样本，然后将新生成的少数类样本和原始样本合并在一起，生成平衡的样本数据集，最后基于新构成的数据集进行嵌入表示。

3.如权利要求2所述的电力设备故障检测模型，其特征在于，所述上采样模块的数据处理过程具体包括：

4.如权利要求3所述的电力设备故障检测模型，其特征在于，所述步骤23中的少数类样本被分为3类：当少数类样本的所有k近邻样本都属于多数类，则定义为“noise”；当少数类样本的所有k近邻样本超过一半都属于多数类，则定义为“danger”；当少数类样本的所有k近邻样本超过一半都属于少数类，则定义为“safe”；然后从处于“danger”状态的样本中随机选择样本作为种子样本。

5.如权利要求3所述的电力设备故障检测模型，其特征在于，所述步骤23中的种子样本通过如下公式获得：

label_diff_j＝N_maj-N_j