CN113377761A

CN113377761A - 过电压数据清洗方法、装置、计算机设备和存储介质

Info

Publication number: CN113377761A
Application number: CN202110808226.4A
Authority: CN
Inventors: 孟令雯; 张锐锋; 林呈辉; 席禹; 于力; 蒋理; 辛明勇; 王宇; 汪明媚; 李鑫卓; 张俊杰; 席光辉; 郭思琪; 古庭赟; 顾威
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd; Electric Power Research Institute of Guizhou Power Grid Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd; Electric Power Research Institute of Guizhou Power Grid Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-09-10

Abstract

本申请涉及一种过电压数据清洗方法、装置、计算机设备和存储介质，其中，方法包括：获取原始过电压数据；基于t‑SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；对降维故障特征集进行聚类识别，得到聚类结果；根据聚类结果，对原始过电压数据进行清洗。整个过程中，基于t‑SNE与KPCA技术对原始过电压数据进行故障特征提取与降维，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t‑SNE与KPCA在特征提取过程中实现优势互补，实现准确的过电压数据清洗。

Description

过电压数据清洗方法、装置、计算机设备和存储介质

技术领域

本申请涉及智能电网技术领域，特别是涉及一种过电压数据清洗方法、装置、计算机设备和存储介质。

背景技术

变电站的发展要求其系统安全可靠运行，而变电站系统的开关操作、外部雷击所产生的电磁暂态，也称变电站过电压，会在发变电站通过各种耦合方式在弱电系统内产生相应的干扰电压。在特殊情况下会损坏设备，导致电气设备损坏、供电中断、大面积停电等严重后果，造成巨大的经济损失。由此可见，过电压对于电力系统的稳定、可靠运行有着巨大威胁。

为了能够精确了解过电压产生与传播特性，从源头减少由于过电压而导致的事故危险，需对变电站过电压进行在线监控，实时追踪其波形数据的产生、传播状态，形成真实、可靠的过电压数据库，并开展变电站过电压数据的特征分析与统计挖掘，得到变电站过电压关键特征与统计分布规律，对于提高电气设备绝缘可靠性、加强系统绝缘配合、减少事故发生率意义重大。

随着数据采集、存储和传输技术的发展，过电压在线监测系统的构建已较为成熟，且已形成国际标准，国内外机构已研发了各种过电压在线监测系统，并在实际变电站中得到应用。虽然这些在线监测数据均捕获到了一些变电站的过电压数据，但由于数据传输链路上影响因素众多，数据库中可能存在噪声和较多异常、错误数据，导致整体的过电压波形数据库数据质量降低，难以满足后续和分析研究需求。因此，目前急需一种准确的过电压数据清洗方案。

发明内容

基于此，有必要针对上述技术问题，提供一种准确的过电压数据清洗方法、装置、计算机设备和存储介质。

一种过电压数据清洗方法，方法包括：

获取原始过电压数据；

基于t-SNE与KPCA((Kernel Principal Component Analysis,核主成分分析))技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

对降维故障特征集进行聚类识别，得到聚类结果；

根据聚类结果，对原始过电压数据进行清洗。

在其中一个实施例中，基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集包括：

对原始过电压数据进行故障特征提取，得到原始高维故障特征集；

对原始高维故障特征集进行t-SNE处理，提取原始高维故障特征集的全局结构信息，得到一次降维故障特征集；

利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集。

在其中一个实施例中，对原始高维故障特征集进行t-SNE处理，提取原始高维故障特征集的全局结构信息，得到一次降维故障特征集包括：

计算原始高维故障特征集在低维空间下的低维流形Y的概率密度函数；

随机初始化低维数据，利用预设自由度的t分布计算低维空间中样本概率密度；

根据概率密度，计算Kullback-Leiber散度定义的高维数据分布与低维数据分布相似度的代价函数的梯度；

根据高维数据分布与低维数据分布相似度的代价函数的梯度，得到低维数据；

返回随机初始化低维数据的步骤开始迭代，记录迭代次数；

当迭代次数达到预设迭代次数阈值时，根据最新的低维数据，得到一次降维故障特征集。

在其中一个实施例中，利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集包括：

确定径向基函数作为KPCA的核函数；

利用KPCA对一次降维故障特征集进行处理，计算一次降维故障特征集的累计贡献率；

选择一次降维故障特征集中累计贡献率大于预设贡献率阈值的前f个主成分特征，构成二次降维故障特征集。

在其中一个实施例中，预设贡献率阈值为95％。

在其中一个实施例中，对降维故障特征集进行聚类识别，得到聚类结果包括：

基于OPTICS聚类算法对降维故障特征集进行聚类识别，得到聚类结果。

在其中一个实施例中，根据聚类结果，对原始过电压数据进行清洗包括：

根据聚类结果，确定聚类簇对应的实测波形；

在原始过电压数据中隔离聚类簇对应的实测波形的数据，得到清洗后的过电压数据。

一种过电压数据清洗装置，装置包括：

数据获取模块，用于获取原始过电压数据；

降维处理模块，用于基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

聚类模块，用于对降维故障特征集进行聚类识别，得到聚类结果；

清洗模块，用于根据聚类结果，对原始过电压数据进行清洗。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取原始过电压数据；

基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

对降维故障特征集进行聚类识别，得到聚类结果；

根据聚类结果，对原始过电压数据进行清洗。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取原始过电压数据；

对降维故障特征集进行聚类识别，得到聚类结果；

根据聚类结果，对原始过电压数据进行清洗。

上述过电压数据清洗方法、装置、计算机设备和存储介质，获取原始过电压数据；基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；对降维故障特征集进行聚类识别，得到聚类结果；根据聚类结果，对原始过电压数据进行清洗。整个过程中，基于t-SNE与KPCA技术对原始过电压数据进行故障特征提取与降维，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t-SNE与KPCA在特征提取过程中实现优势互补，实现准确的过电压数据清洗。

附图说明

图1为一个实施例中电压数据清洗方法的流程示意图；

图2为另一个实施例中电压数据清洗方法的流程示意图；

图3为一个实施例中S440的子流程示意图；

图4为一个应用实例中电压数据清洗方法的流程示意图；

图5为一个实施例中电压数据清洗装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了详细说明本申请过电压数据清洗方法的技术原理以及与现有过电压数据清洗方案的区别、及其显著技术优势，下面将首先针对现有技术中过电压数据清洗的研究进行说明。

国内外学者针对数据清洗已开展了大量的研究，在变电站设备状态数据方面亦有诸多研究和应用，主要集中在缺失数据搜索、噪声数据分离与处理、损坏数据检测以及负荷数据在线清洗与修改方法。但是，在电网过电压实测数据领域却暂时止步不前，其原因不仅是由于过电压高频暂态波形采集困难，更重要的是相较于传统数据清洗方法所处理的数据，过电压数据是海量高维的数据序列波形，清洗难度更大，复杂程度更高，这些因素都严重的阻碍着过电压数据挖掘的进程。受错误波形掺入过电压波形数据库导致其数据质量降低的影响，只能人工筛选出数据库中少量高质量过电压波形进行识别、诊断等研究。但这不仅仅会因为人的主观性导致判断错误，过电压数据巨大导致耗时耗力，而且会由于捕捉信息片面丢失甚至错误判断数据价值，导致数据丰富，但信息贫乏，失去应用意义。对于高维过电压波形的数据清洗，两个主要的难题是如何提取能准确表达实测波形的关键特征以及利用关键特征实现错误波形与真实波形的有效分类。在过电压波形识别领域，多年来学者们已经对波形特征提取进行了深入研究，但是这些方案既耗时又缺乏普适性，在电磁环境极其复杂的实际变电站中难以实现准确关键特征提取。

本申请过电压数据清洗方法对于高维过电压波形的数据清洗问题，结合深度学习理论，设计了一种基于t-SNE和KPCA的过电压特征自提取方法，自动学习由底层特征到高层特征的有效表达。该特征提取方法能有效运用于不同条件下特征量的提取而无需太多的调整。提取实测过电压波形低维特征量后，通过聚类算法对特征量所代表的波形完成聚类以实现过电压数据清洗。

在一个实施例中，如图1所示，提供了一种过电压数据清洗方法，包括以下步骤：

S200：获取原始过电压数据。

原始过电压是指电力系统(变电站系统)的开关操作、外部雷击所产生的电磁暂态，其对应的数据即为原始过电压数据。该原始过电压数据可以基于电力系统(变压站系统)的运行日志提取得到。非必要的，针对电力系统(变电站系统)日常运行产生的原始过电压数据可以存储至指定的数据库，在需要进行过电压数据清洗时，直接从该数据库中提取得到原始过电压数据。

S400：基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集。

t-SNE是一种深度学习的非线性流形学习算法，由SNE算法改进而来。t-SNE改变了多维尺度变换和等距离特征映射中基于距离不变的思想，在将高维数据映射到低维的同时，最大程度保证相互之间的分布概率不变，有效地解决了SNE中样本数据间的拥挤问题。KPCA算法的基本原理是借助非线性函数Φ将输入一次低维特征样本X＝[x₁，x₂,…,x_n]^T∈Rⁿ ^×m映射到高维特征空间中，即x_i→Φ(x_i)。然后利用PCA在特征空间中提取非线性结构信息。

具体来说，KPCA方法是一种面向全局的特征提取方法，通过非线性映射使低维空间中线性不可分的原始数据在高维空间变得线性可分。这一过程能够在最大化高维数据全局特征方差的目标下，提取出原始数据的全局非线性特征。t-SNE一种非线性流形学习算法，可以将高维空间数据点之间的相似性以概率形式来表示，并假设数据点在高维空间服从高斯分布，在低维空间服从t分布。从高维到低维的降维过程，t-SNE能够充分挖掘出嵌入在高维空间中的低维局部流形结构，从而获取数据的局部结构特征信息。此外，t-SNE在保留数据结构方面也具有良好性能，能够同时保留数据的局部和全局结构。在这里，集成t-SNE与KPCA的过电压数据特征提取方法，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t-SNE与KPCA学习算法在特征提取过程中实现优势互补。

S600：对降维故障特征集进行聚类识别，得到聚类结果。

聚类识别具体可以通过聚类算法来实现，将波形是错误、无效波形聚类到一起(一个聚类簇)，得到聚类结果。具体来说，可以采用OPTICS聚类算法。

S800：根据聚类结果，对原始过电压数据进行清洗。

在进行聚类识别之后，得到聚类结果，即得到聚类簇，针对每个聚类簇检测各聚类中心所表达的过电压波形特征，如果某聚类中心所表达的波形是错误、无效波形，则必须对该聚类簇中所有核元素所对应的实测波形实施隔离。这是根据聚类相似性，聚类中核元素所表达的波形特性总是与其聚类中心波形特性相似，从过电压数据库中隔离出该聚类簇所对应的所有实测波形，实现对原始过压数据的完全、准确清洗。

上述过电压数据清洗方法，获取原始过电压数据；基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；对降维故障特征集进行聚类识别，得到聚类结果；根据聚类结果，对原始过电压数据进行清洗。整个过程中，基于t-SNE与KPCA技术对原始过电压数据进行故障特征提取与降维，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t-SNE与KPCA在特征提取过程中实现优势互补，实现准确的过电压数据清洗。

如图2，在其中一个实施例中，S400包括：

S420：对原始过电压数据进行故障特征提取，得到原始高维故障特征集。

对原始过电压数据进行故障特征提取，得到数据维度多样的故障特征，即得到原始高维故障特征集。该数据集可以采用一个原始数据序列来表征，即原始数据序列X＝{x₁,x₂,…,x_n}∈R^D，其中D表征原始高维故障特征集对应的空间维度。

S440：对原始高维故障特征集进行t-SNE处理，提取原始高维故障特征集的全局结构信息，得到一次降维故障特征集。

对原始高维故障特征集进行t-SNE处理，以进行第一次降维，第一次降维后数据对应的维度空间为d，其中d＜D，即上述“高维”是相较于降维之后的“低维”而言，仅用于表征两者之间的相对关系，并不指代特征的数值。

具体来说，t-SNE是一种深度学习的非线性流形学习算法，由SNE算法改进而来。t-SNE改变了多维尺度变换和等距离特征映射中基于距离不变的思想，在将高维数据映射到低维的同时，最大程度保证相互之间的分布概率不变，有效地解决了SNE中样本数据间的拥挤问题。

S460：利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集。

KPCA算法的基本原理是借助非线性函数Φ将输入一次低维特征样本X＝[x₁，x₂,…,x_n]^T∈R^n×m映射到高维特征空间中，即x_i→Φ(x_i)。然后利用PCA在特征空间中提取非线性结构信息。

如图3所示，在其中一个实施例中，上述S440具体包括：

S441：计算原始高维故障特征集在低维空间下的低维流形Y的概率密度函数。

设原始数据序列X＝{x₁,x₂,…,x_n}∈R^D，用Y＝{y₁,y₂,…,y_n}∈R^d表示X蕴含在d(d<D)维空间下的低维流形。并且假设存在非线性映射f(·)使得：对

有f(y_j)＝x_j，则认为低维流形Y可以表征高维数据集X。此时，高维空间中两个样本的概率密度函数p_j/i为

式中σ_i表示数据点x_i的高斯方差。

计算高维样本的联合概率密度函数p_ij为：

S442：随机初始化低维数据，利用预设自由度的t分布计算低维空间中样本概率密度。

用N(0，10^-4I)随机初始化低维数据Y⁽⁰⁾：

Y⁽⁰⁾＝{y₁,y₂,…,y_n} (3)

利用预设自由度的t分布计算低维空间中样本概率密度q_ij，其中，预设自由度可以为1，以减小数据处理量。

S443：根据概率密度，计算Kullback-Leiber散度定义的高维数据分布与低维数据分布相似度的代价函数的梯度。

计算梯度

其具体计算过年更是如下：

式中C为通过Kullback-Leiber散度定义的高维数据分布P与低维数据分布Q相似度的代价函数

S444：根据高维数据分布与低维数据分布相似度的代价函数的梯度，得到低维数据。

得到的低维数据Y^(t)：

式中t为迭代次数，η为学习率，μ(t)为动量因子。

S445：返回S442，记录迭代次数。

将步骤S442～S444进行迭代循环，记录下迭代次数，持续迭代处理。

S446：当迭代次数达到预设迭代次数阈值时，根据最新的低维数据，得到一次降维故障特征集。

当迭代次数达到预设迭代次数阈值时，输出最新的一次降维数据Y^(T)

Y^(T)＝{y₁,y₂,…,y_n}(1≤T≤n) (8)

经上述步骤计算，t-SNE可从高维故障空间中找到低维流形结构，进而获取低维敏感特征信息。

在其中一个实施例中，利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集包括：确定径向基函数作为KPCA的核函数；利用KPCA对一次降维故障特征集进行处理，计算一次降维故障特征集的累计贡献率；选择一次降维故障特征集中累计贡献率大于预设贡献率阈值的前f个主成分特征，构成二次降维故障特征集。

预设贡献率阈值为预先设定的值，其具体可以为95％。即在实际应用中，可以选择径向基函数作为KPCA的核函数，利用KPCA对X₁进行处理，进一步挖掘特征集的局部结构信息并计算特征集的累计贡献率；取累计贡献率大于95％的前f个主成分特征构成二次降维特征集X₂。

其具体计算过程如下：

首先定义方差最大目标函数为：

式中ω^Tω＝1。

设存在一组系数α＝(α₁,α₂,…,α_n)^T满足

且引入核函数K_ij为：

K_ij＝K(x_i,x_j)＝Φ(x_i)^TΦ(x_j) (10)

式(10)虽不能确定核函数的具体表达式，但通过其映射，可得到数据在高维特征空间中的内积运算。此时，KPCA的目标函数可以转换为：

式中α^TKα＝1,B＝KK。

为尽可能保留原始数据中大部分有用信息，KPCA根据特征累积贡献度来选择最有效的前f个特征，提取出数据中对于分类识别有用的重要信息。通常选择累积贡献率不小于95％的前f个主成分特征。具体计算公式如下：

式中λi为K的从大到小排列的第i个特征值。

在其中一个实施例中，对降维故障特征集进行聚类识别，得到聚类结果包括：基于OPTICS聚类算法对降维故障特征集进行聚类识别，得到聚类结果。

采用OPTICS聚类算法对所提取的二维过电压波形特征量集合进行聚类。OPTICS聚类算法是一种经典的基于密度的聚类方法，从任意一个数据对象开始，尽可能向着密度更大的方向去扩张；同时，根据扩张的顺序对每一个数据对象进行依次排序，即生成一个有序序列，并画出可达距离；最后，会形成一个反映数据结构的决策图。OPTICS并不会显式的进行数据集分类，而是为聚类分析生成一个增广的簇排序，这个排序包含了每一个样本点在基于密度情况下的聚类结构，相当于为基于密度的聚类设置了一个广泛的参数，从这个增广的簇排序中可以得到半径和最小点数为任何值的聚类结果。

(1)输入需要聚类的样本，计算样本中每一个点的可达距离和核心距离，确定半径和最少点数。核心点的定义为：如果一个点的半径内包含点的数量不少于最少点数，则该点为核心点，数学描述如下

N_ε(P)≥MinPts (13)

其中，N表示样本点半径内的集合，ε和MinPts为给定参数。则P成为核心点的最小邻域半径为点P的核心距离，记为

对于核心点P，将O到P的可达距离定义为O到P的距离或者P的核心距离，即

此核心距离也表示使得P为核心点、且O到P直接密度可达、同时成立的最小邻域半径。

(2)用所有核心点和其直接密度可达点建立一个有序队列，并建立一个用于存储样本输出和处理次序的结果队列。

(3)如果样本中的数据处理完毕，算法结束，否则从未处理数据中随机选择一个是核心对象的点，将其放入结果队列，并将该点的直接密度可达点按可达距离升序排列放入有序排列中。

(4)当有序排列为空时返回(3)继续进行计算，有序排列不为空时从有序队列中取出第一个点：

①若该点不是核心点，返回(4)；

②若该点为核心点且其不在结果队列中，将其放入结果队列，找到该点所有直接密度可达点，将其放入有序队列，并将有序队列中的点按照可达距离重新排序，若已经在有序队列中，则计算其新的可达距离，若新的可达距离较小就用此距离值更新该点可达距离；

③重复(4)，直至有序队列为空。

根据聚类结果，确定聚类簇对应的实测波形；在原始过电压数据中隔离聚类簇对应的实测波形的数据，得到清洗后的过电压数据。

在完成降维处理和聚类处理之后，实现聚类(具体可以是OPTICS聚类)，对于每个聚类簇，检测各聚类中心所表达的过电压波形特征，如果某聚类中心所表达的波形是错误、无效波形，则必须对该聚类簇中所有核元素所对应的实测波形实施隔离。这是根据聚类相似性，聚类中核元素所表达的波形特性总是与其聚类中心波形特性相似，从过电压数据库中隔离出该聚类簇所对应的所有实测波形对于波形数据质量的提升意义重大。探测和隔离过电压数据库中错误波形是实现数据挖掘的第一步，对于未来将蓬勃发展的智能变电站来说尤其重要。本发明比其他过电压数据清洗方法能够普适多种环境，同时具有正确清洗率高的特点，通过调整参数可以进一步提高正确率，实用性较强。

在实际应用中，本申请过电压数据清洗方法的具体处理过程如图5所示，其具有以下显著的效果：

1、本申请运用的KPCA方法是一种面向全局的特征提取方法，通过非线性映射使低维空间中线性不可分的原始数据在高维空间变得线性可分。这一过程能够在最大化高维数据全局特征方差的目标下，提取出原始数据的全局非线性特征。

2、本申请采用t-SNE学习算法，这是一种非线性流形学习算法，可以将高维空间数据点之间的相似性以概率形式来表示，并假设数据点在高维空间服从高斯分布，在低维空间服从t分布。从高维到低维的降维过程，t-SNE能够充分挖掘出嵌入在高维空间中的低维局部流形结构，从而获取数据的局部结构特征信息。此外，t-SNE在保留数据结构方面也具有良好性能，能够同时保留数据的局部和全局结构。

3、本申请提出一种集成t-SNE与KPCA的过电压数据特征提取方法，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t-SNE与KPCA学习算法在特征提取过程中实现优势互补。

4、本申请采用OPTICS算法对特征量所代表的波形完成聚类以实现过电压数据清洗。OPTICS算法是DBSCAN算法的一种改进，对数据对象集合中的对象进行排序，得到一个有序的对象列表，其中包含了足够的信息用来提取聚类，具有处理任何形状的聚类簇、能够检测异常点且对输入参数不敏感等优势。

5、本申请是一整套变电站过电压数据清洗流程，通过该流程能快速鉴别真实波形和错误波形，从源头减少由于过电压而导致的事故危险，推进了过电压数据挖掘的进程，精准感知变电站过电压情况，提高了变电站运行的安全性和可靠性。

应该理解的是，虽然上述各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

如图5所示，本申请还提供一种过电压数据清洗装置，装置包括：

数据获取模块200，用于获取原始过电压数据；

降维处理模块400，用于基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

聚类模块600，用于对降维故障特征集进行聚类识别，得到聚类结果；

清洗模块800，用于根据聚类结果，对原始过电压数据进行清洗。

上述过电压数据清洗装置，获取原始过电压数据；基于t-SNE与KPCA技术，对原始过电压数据进行故障特征提取与降维，得到降维故障特征集；对降维故障特征集进行聚类识别，得到聚类结果；根据聚类结果，对原始过电压数据进行清洗。整个过程中，基于t-SNE与KPCA技术对原始过电压数据进行故障特征提取与降维，充分考虑了样本数据的全局和局部结构特征，通过融合数据的不同结构特征信息，使得t-SNE与KPCA在特征提取过程中实现优势互补，实现准确的过电压数据清洗。

在其中一个实施例中，降维处理模块400还用于对原始过电压数据进行故障特征提取，得到原始高维故障特征集；对原始高维故障特征集进行t-SNE处理，提取原始高维故障特征集的全局结构信息，得到一次降维故障特征集；利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集。

在其中一个实施例中，降维处理模块400还用于计算原始高维故障特征集在低维空间下的低维流形Y的概率密度函数；随机初始化低维数据，利用预设自由度的t分布计算低维空间中样本概率密度；根据概率密度，计算Kullback-Leiber散度定义的高维数据分布与低维数据分布相似度的代价函数的梯度；根据高维数据分布与低维数据分布相似度的代价函数的梯度，得到低维数据；返回随机初始化低维数据的步骤开始迭代，记录迭代次数；当迭代次数达到预设迭代次数阈值时，根据最新的低维数据，得到一次降维故障特征集。

在其中一个实施例中，降维处理模块400还用于确定径向基函数作为KPCA的核函数；利用KPCA对一次降维故障特征集进行处理，计算一次降维故障特征集的累计贡献率；选择一次降维故障特征集中累计贡献率大于预设贡献率阈值的前f个主成分特征，构成二次降维故障特征集。

在其中一个实施例中，预设贡献率阈值为95％。

在其中一个实施例中，聚类模块600还用于基于OPTICS聚类算法对降维故障特征集进行聚类识别，得到聚类结果。

在其中一个实施例中，清洗模块800还用于根据聚类结果，确定聚类簇对应的实测波形；在原始过电压数据中隔离聚类簇对应的实测波形的数据，得到清洗后的过电压数据。

关于过电压数据清洗装置的具体实施例可以参见上文中对于过电压数据清洗方法的实施例，在此不再赘述。上述过电压数据清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设算法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电压数据清洗方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取原始过电压数据；

对降维故障特征集进行聚类识别，得到聚类结果；

根据聚类结果，对原始过电压数据进行清洗。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对原始过电压数据进行故障特征提取，得到原始高维故障特征集；对原始高维故障特征集进行t-SNE处理，提取原始高维故障特征集的全局结构信息，得到一次降维故障特征集；利用KPCA对一次降维故障特征集进行处理，得到二次降维故障特征集。

计算原始高维故障特征集在低维空间下的低维流形Y的概率密度函数；随机初始化低维数据，利用预设自由度的t分布计算低维空间中样本概率密度；根据概率密度，计算Kullback-Leiber散度定义的高维数据分布与低维数据分布相似度的代价函数的梯度；根据高维数据分布与低维数据分布相似度的代价函数的梯度，得到低维数据；返回随机初始化低维数据的步骤开始迭代，记录迭代次数；当迭代次数达到预设迭代次数阈值时，根据最新的低维数据，得到一次降维故障特征集。

确定径向基函数作为KPCA的核函数；利用KPCA对一次降维故障特征集进行处理，计算一次降维故障特征集的累计贡献率；选择一次降维故障特征集中累计贡献率大于预设贡献率阈值的前f个主成分特征，构成二次降维故障特征集。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取原始过电压数据；

对降维故障特征集进行聚类识别，得到聚类结果；

根据聚类结果，对原始过电压数据进行清洗。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种过电压数据清洗方法，其特征在于，所述方法包括：

获取原始过电压数据；

基于t-SNE与KPCA技术，对所述原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

对所述降维故障特征集进行聚类识别，得到聚类结果；

根据所述聚类结果，对所述原始过电压数据进行清洗。

2.根据权利要求1所述的方法，其特征在于，所述基于t-SNE与KPCA技术，对所述原始过电压数据进行故障特征提取与降维，得到降维故障特征集包括：

对所述原始过电压数据进行故障特征提取，得到原始高维故障特征集；

对所述原始高维故障特征集进行t-SNE处理，提取所述原始高维故障特征集的全局结构信息，得到一次降维故障特征集；

利用KPCA对所述一次降维故障特征集进行处理，得到二次降维故障特征集。

3.根据权利要求2所述的方法，其特征在于，所述对所述原始高维故障特征集进行t-SNE处理，提取所述原始高维故障特征集的全局结构信息，得到一次降维故障特征集包括：

计算所述原始高维故障特征集在低维空间下的低维流形Y的概率密度函数；

根据所述概率密度，计算Kullback-Leiber散度定义的高维数据分布与低维数据分布相似度的代价函数的梯度；

根据所述高维数据分布与低维数据分布相似度的代价函数的梯度，得到低维数据；

返回随机初始化低维数据的步骤开始迭代，记录迭代次数；

4.根据权利要求2所述的方法，其特征在于，所述利用KPCA对所述一次降维故障特征集进行处理，得到二次降维故障特征集包括：

确定径向基函数作为KPCA的核函数；

利用KPCA对所述一次降维故障特征集进行处理，计算所述一次降维故障特征集的累计贡献率；

选择所述一次降维故障特征集中累计贡献率大于预设贡献率阈值的前f个主成分特征，构成二次降维故障特征集。

5.根据权利要求4所述的方法，其特征在于，所述预设贡献率阈值为95％。

6.根据权利要求1所述的方法，其特征在于，所述对所述降维故障特征集进行聚类识别，得到聚类结果包括：

基于OPTICS聚类算法对所述降维故障特征集进行聚类识别，得到聚类结果。

7.根据权利要求1所述的方法，其特征在于，所述根据所述聚类结果，对所述原始过电压数据进行清洗包括：

根据所述聚类结果，确定聚类簇对应的实测波形；

在所述原始过电压数据中隔离所述聚类簇对应的实测波形的数据，得到清洗后的过电压数据。

8.一种过电压数据清洗装置，其特征在于，所述装置包括：

数据获取模块，用于获取原始过电压数据；

降维处理模块，用于基于t-SNE与KPCA技术，对所述原始过电压数据进行故障特征提取与降维，得到降维故障特征集；

聚类模块，用于对所述降维故障特征集进行聚类识别，得到聚类结果；

清洗模块，用于根据所述聚类结果，对所述原始过电压数据进行清洗。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。