CN112699921A

CN112699921A - 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法

Info

Publication number: CN112699921A
Application number: CN202011486689.5A
Authority: CN
Inventors: 邹密; 赵岩; 段盼; 杨作红
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-23
Anticipated expiration: 2040-12-16
Also published as: CN112699921B

Abstract

本发明涉及一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法，属于电力技术领域。该方法包括以下步骤：S1：基于堆栈降噪自编码的故障数据特征提取阶段；S2：基于主成分分析的故障特征降维阶段；S3：基于密度峰快速搜寻聚类的故障数清洗阶段。本发明对故障数据进行聚类清洗和代表数据点提取推送，能有效的从海量的故障数据中提取出真实准确的故障信息，为智能告警提供优质的故障信息，同时解决了配电告警平台频繁刷屏的根本原因。

Description

一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法

技术领域

本发明属于电力技术领域，涉及一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法。

背景技术

网的高速发展积攒了海量的运行数据，其中录波型故障指示器上传的故障数据中存在着大量的重复、干扰、错误及无效波形。干扰、错误等故障数据混入正常故障数据中，加大了数据的复杂度和冗余度，也是造成配电自动化后台告警窗口数据刷新频繁数据量大的主要原因。如此复杂和繁多的故障数据，运维人员短时间内无法准确定位实际的故障发生与故障类型，数据利用效率低下致使运维人员工作效率低下，如此便可能导致真实故障的恶化与扩散，严重情况下会导致电气设备损坏，大面积长时间停电，造成巨大的经济损失。因此对海量故障数据的处理和应用无疑是个亟需解决的技术问题。

针对集中于状态数据中的噪声点、缺失数据、异常数据进行清洗处理，最终获取运行设备的关键状态故障数据。其清洗过程中对数据个体的完整性造成了一定的破环，因此很难保证清洗效果。针对利用国网技术规范对电网中故指元件的波形要求，结合现场获取的波形文件对其规范性进行逻辑筛选，选取符合要求规范的故障数据。忽略了对具体数据的分析，仅从逻辑规范筛选无法去除故障数据中的重复故障数据。针对故障告警信息总体文本进行数据挖掘，匹配关键词以达到对故障数据的清洗筛选。仅分析了故障告警信息的文本内容，针对诊断元件对波形的错误诊断，此方法无法正确清洗出错误、抖动故障数据。

为此，本发明提出了一种基于堆栈式降噪自编码特征提取的故障数据聚类清洗方法，该方法首先利用堆栈降噪自编码对故障数据进行特征学习与降维，继而用主成分分析对降维后数据再次进行特征再次降维与提取，实现对不同故障数据的特征获取；最后利用密度峰快速搜寻聚类方法对故障特征进行聚类，实现对重复、干扰、错误等故障数据的聚类清洗和真实故障数据推送。创新性的提出了海量故障数据聚类清洗方法，达到了对不同类型故障数据进行清洗去冗的效果，为故障告警智能推送提供了技术支撑，提高了运维人员获取准确故障信息的效率。

发明内容

有鉴于此，本发明的目的在于提供一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法，实现对电网中暂态故障数据的高效清洗，建立清洁暂态故障数据库。

为达到上述目的，本发明提供如下技术方案：

一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法，该方法包括以下步骤：

S1：基于堆栈降噪自编码的故障数据特征提取阶段；

S2：基于主成分分析的故障特征降维阶段；

S3：基于密度峰快速搜寻聚类的故障数清洗阶段。

可选的，所述S1具体为：

堆栈降噪自编码网络结构为：输入层输入数据为纯净向量数据加噪后的含噪数据，中间隐藏层包含多个网络层构成栈式堆叠效果，以获取更抽象准确的数据特征；经过编码隐藏层的特征学习后进入解码隐藏层，对含噪数据进行纯净向量数据复现学习，最终由输出层输出原纯净数据；

对于输入数据x,通过加噪器：

x_n～n_D(x_n) (1)

对原始数据进行加噪化，从而实现数据加噪；输入加噪数据，经过堆栈式自编码器进行xn 数据更有价值的特征提取，最终输出为复现数据：

y_r＝F^r(Fⁿ(…F¹(x_n))) (2)

在整个自编码特征学习过程中可在中间隐藏层进行特征值输出，提取数据的价值特征。

可选的，所述S2具体为：

主成分分析PCA定义为：在d维向量空间{t_n},n∈{1,2,…,n}中搜寻q个正交主向量 w_k,k∈{1,2,3…,q}，获得{t_n}在w_k子空间上的最大方差值，在高维数据中提取低维的线性无关主成分特征，在方差最大的方向选取投影保留更多的原始数据特征信息。

可选的，所述S3具体为：

密度峰快速搜寻聚类CFSFDP基于假设条件：对于数据集，聚类中心被一些较低局部密度的数据点所包围且较低的局部密度点与其他较高的局部密度点有较大的距离；

设数据集Z＝{x₁,x₂,x₃,…,x_n}中有n组数据，集中任意两组m维数据之间的距离为用欧氏距离记

对于离散数据x_i的局部密度使用高斯核函数连续化后为：

d_c设定为人为设定截断距离；

x_i与比其局部密度更高的数据组的距离为：

在聚类过程中选定对应局部密度ρi较大，δi较大的数据组为各类簇中心，其余的数据组根据自身的ρi，xi归类于各个类簇中心所表示的类簇，再或者由于dc的设置原因，造成其余数组在各类簇中存在交叠点，存在的交叠点则不为类簇的核元素。

可选的，所述CFSFDP中，通过计算正确清洗率和错误清洗率来衡量模型聚类效果：

本发明的有益效果在于：能够充分有效的辨识故障数据特征，对故障数据进行特征学习和故障特征自提取以实现对故障数据进行聚类清洗和建立清洁的暂态故障数据库，模型具有较强的鲁棒性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为堆栈降噪自编码网络结构；

图2为主成分分析；

图3为电网暂态故障数据清洗方法结构图；

图4为二维隐含层特征提取；

图5为二维PCA特征提取；

图6为数据点ρ_i，δ_i分布图；

图7为d_c＝0.0004时聚类结果示图；

图8为d_c＝0.0002时聚类结果示图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明包括以下三部分：

基于堆栈降噪自编码的故障数据特征提取阶段；

基于主成分分析的故障特征降维阶段；

基于密度峰快速搜寻聚类的故障数清洗阶段；

1、故障数据堆栈自编码特征提取

自编码的模型建立启发于哺乳动物视觉系统简单细胞感受野。其每一维被看作是一种特征，和基于稠密向量的分布式表示相比自编码具有更小的计算量和更好的可解释性等优点。自编码已被证实完全可以应用于电气量故障波形数据的特征获取。由自编码应用发展而来的降噪自编码可以在训练的样本数据中随机加入噪声，在学习训练过程中获得消除数据中噪声的能力，以获得鲁棒性更强的特征表达形式和增强模型本身的泛化能力。

堆栈降噪自编码网络结构如图1。输入层输入数据为纯净向量数据加噪后的含噪数据，中间隐藏层包含多个网络层以此构成栈式堆叠效果，以获取更抽象准确的数据特征。经过编码隐藏层的特征学习后进入解码隐藏层，对含噪数据进行纯净向量数据复现学习，最终由输出层输出原纯净数据。

对于输入数据x,通过加噪器：

x_n～n_D(x_n) (1)

对原始数据进行加噪化，从而实现数据加噪。输入加噪数据，经过堆栈式自编码器进行x_n数据更有价值的特征提取，最终输出为复现数据：

y_r＝F^r(Fⁿ(…F¹(x_n))) (2)

2、故障特征主成分分析降维

主成分分析(principal component analysis,PCA)是常用于数据预处理和图像处理的一种数据降维方法，能有效的从高维数据中提取到低维的数据特征并去除数据中噪声和减少特征之间的相关性。其定义为：在d维向量空间{t_n},n∈{1,2,…,n}中搜寻q个正交主向量 w_k,k∈{1,2,3…,q}，获得{t_n}在w_k子空间上的最大方差值，其主要目标是在高维数据中提取低维的线性无关主成分特征，图2为二维数据投影到一维空间中，在方差最大的方向选取其投影才能保留更多的原始数据特征信息。

3、故障特征聚类清洗

密度峰快速搜寻聚类(clustering by fast search and find of densitypeaks，CFSFDP)是一种基于数据分布密度为依据进行分类的算法，处理故障数据能够自动的获取聚类簇数和聚类非球面形状数据簇，算法速度更快实现更为简单。CFSFDP聚类算法基于假设条件：对于数据集，聚类中心被一些较低局部密度的数据点所包围且较低的局部密度点与其他较高的局部密度点有较大的距离。

如数据集Z＝{x₁,x₂,x₃,…,x_n}中有n组数据，集中任意两组m维数据之间的距离为用欧氏距离记

对于离散数据x_i的局部密度使用高斯核函数连续化后为：

d_c设定为人为设定截断距离。

x_i与比其局部密度更高的数据组的距离为：

在聚类过程中选定对应局部密度ρ_i较大，δ_i较大的数据组为各类簇中心，其余的数据组根据自身的ρ_i，x_i归类于各个类簇中心所表示的类簇，再或者由于d_c的设置原因，造成其余数组在各类簇中存在交叠点，存在的交叠点则不为类簇的核元素。

暂态录波故障数据清洗方法逻辑结构图如图3。整个系统主要由3部分组成：第一部分，故障特征提取，针对海量故障录波数据用堆栈降噪自编码神经网络进行特征提取，之后再使用PCA对堆栈降噪特征进行降维提取，从而实现录波故障数据的特征二维表达。需要注意的是导入网络的故障数据应包括干扰、抖动、错误、高频次扰动等故障数据波形，用来训练神经网络的参数以达到对故障数据特征有效的获取。

第二部分，故障数据预处理，对于第一部分提取的二维特征进行CFSFDP聚类分析，找出数据点ρ_i非常小且远离其他主类簇的离散数据，由于这些离散数据点有很大可能是单频次异常干扰、抖动或者是错误故障数据，在混入真实故障数据后影响清洗效果，故需要对此类数据在进行完全聚类清洗之前进行异常数据预处理。

第三部分，故障数据清洗，在第二部的基础上再次使用CFSFDP对预处理数据进行聚类分析，对于各个类簇实施类簇中心数据识别，确定各类属性。如果聚类中心所表达的故障类型是高频次扰动、错误等无效故障数据，则立即进行隔离清洗。对其余正确故障波形数据进行类簇中心代表数据提取作为推送数据，以达到对重复数据的剔除。继而完成整个清洗过程，提高了海量数据中故障数据及故障属性的识别率，提高了获取主要、准确告警信息的效率。

实施例：

(1)故障波形特征提取

故障波形数据由故障时刻三相电压拼接组成，由于故障指示器记录故障时刻前4后8个周期波形，且往往在故障点左右3个周期便可有效反映故障特征，故取每一相电压波形故障点时刻前1.5周期和故障点后1.5个周期，共256个数据，即每组数据为3*256维矩阵。经过堆栈降噪自编码降维压缩后映射为二维数据，以用于实现后文聚类清洗。如图4为网络设置为一个3层堆栈降噪自编码器进行特征降维后的数据可视化，其中输入层神经元为768维，隐含层特征输出层设置为二维，输出为768维。喂入数据进行训练，调节参数，提取隐含层数据为故障二维特征表达。

图5为在堆栈降噪自编码神经网络降维的基础上加上PCA特征降维，即设置输入层为 768维，隐含特征输出层50维，PCA获取50维数据后再降至二维主成分数据。比较图4图 5有明显发现，堆栈降噪自编码直接降至二维后错误、无效波形数据与真实故障数据分离不明显，离散程度较低，而加入PCA降维后的二维特征数据中错误、无效波形数据与真实故障数据分离较为明显，离散度较高。

造成图4与图5的差别在于把故障数据由768维直接降至二维会导致波形的特征信息损失较大，特征差别提取不明显故可视化效果较差。而图4首先把768维数据降至50维保留了更多的关键信息，而后用PCA在50维数据进行降维提取主成分能更好的保留数据特征，实现关键信息可视化。由此可见加入PCA的网络对特征提取的效果更佳。

(2)故障特征聚类清洗

针对堆栈降噪自编码和PCA对特征的降维提取后，利用CFSFDP进行对特征值进行数据预清洗，由于CFSFDP中截断距离的设置对聚类效果有很大影响，调整适当参数，当截断距离d_c设置为0.0004时，计算各特征对应的ρ_i和δ_i，对ρ_i和δ_i和进行可视化如图6，当ρ_i小于0.2 时有部分特征数据有较高的δ_i，即此类特征点为离散数据点，为错误、扰动的可能较极大，故应基于剔除隔离，实现对故障数据的初步预清洗。

对预清洗后的数据进行CFSFDP再次聚类效果如图7，如表1所示为与图7对应的核元素聚类描述，其中可见类簇1和类簇3存在交叠点，这是由于相关参数d_c的设置对聚类效果的影响，获取各类簇中心代表点可知类簇2中心为错误无效特征，故由于类簇相似性可知类簇2为错误无效故障波形。应给予类簇2隔离实现聚类清洗的效果。

当设置截断距离d_c为0.0002时，减小截断距离后重新聚类，类簇1和类簇3的交叠点消失，得到新的各类簇如图8，可见表2为图8聚类结果表述。同样类簇2为错误无效波形数据需要进行隔离清洗。

表1 CFSFDP聚类结果(d_c＝0.0004)

表2 CFSFDP聚类结果(d_c＝0.0002)

其中可以通过计算正确清洗率和错误清洗率来衡量模型聚类效果，通过计算当截断距离 d_c设置为0.0004和0.0002时聚类效果如表3。

表3 CFSFDP聚类清洗结果统计表

其中：

即通过调节截断距离，可以更好的获取聚类模型，当截断距离d_c为0.0002时，模型正确清洗高达92.50％但其错误清洗率也较高，损失了一部分正确波形。当截断距离d_c设置为 0.0004时，可知模型正确波形损失较少即错误清洗率较低为0.93％，但错误识别率降低了5％。

(3)结论

提出一种新型电网暂态故障数据聚类清洗方法，实现对电网中暂态故障数据的高效清洗，建立清洁暂态故障数据库，对未来的电网云平台智能告警、智能决策尤为重要。本发明通过从电网总体故障数据中利用堆栈降噪自编码和PCA降维进行特征学习，然后利用CFSFDP对二维特征进行聚类，实现对故障数据的高效聚类清洗。在文中正确清洗率87.18％，错误清洗率低于1％的情况下，对故障数据进行聚类清洗和代表数据点提取推送，能有效的从海量的故障数据中提取出真实准确的故障信息，为智能告警提供优质的故障信息，同时解决了配电告警平台频繁刷屏的根本原因。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。