CN112733081A

CN112733081A - 基于谱聚类的pmu不良数据检测方法

Info

Publication number: CN112733081A
Application number: CN202110030015.2A
Authority: CN
Inventors: 郭小龙; 李渝; 孙谊媊; 王衡; 朱世佳; 杨智伟; 刘灏; 毕天姝
Original assignee: North China Electric Power University; State Grid Xinjiang Electric Power Co Ltd
Current assignee: North China Electric Power University; State Grid Xinjiang Electric Power Co Ltd
Priority date: 2020-12-28
Filing date: 2021-01-11
Publication date: 2021-04-30

Abstract

本发明公开了一种基于谱聚类的PMU不良数据检测方法，包括：基于四点数据斜率特征构建决策树模型，并利用该决策树模型辨识事件数据、以及正常数据和不良数据；对于辨识出的包含正常数据和不良数据的数据集合A，利用3σ准则进行初步筛选，将数据集合划分为A1、A2、与A3三个部分，其中A1部分与A2部分分别为正常数据与不良数据，A3部分中包含了正常数据和不良数据；利用谱聚类的方法，构造数据之间的权重距离矩阵，从而在A3部分中检测出不良数据。该方法能通过数据间的权重准确检测偏差值较小的不良数据。

Description

基于谱聚类的PMU不良数据检测方法

本申请要求2020-12-28申请的202011576078.X的专利申请的优先权。

技术领域

本发明涉及电力系统技术领域，尤其涉及一种基于谱聚类的PMU不良数据检测方法。

背景技术

PMU可以为电力系统各类应用提供实时相量数据，如决策控制、振荡检测和状态估计，然而，由于现场环境复杂，受到同步信号抖动、通信协议错误、自然或人为等因素的影响，PMU存在不同程度的数据质量问题。准确检测PMU不良数据对于提高数据质量、保障电力系统安全稳定运行至关重要。目前检测PMU不良数据常用的方法有基于状态估计、基于卡尔曼滤波和基于数据驱动的方法，在这些方法中，基于数据驱动的方法由于不需要系统拓扑和线路参数的先验知识受到广泛关注。

现有的基于数据驱动的方法有基于低秩性、主成分分析和时空相似性等算法，然而它们都需要多台PMU的量测信息，对于某些地区只安装了少量PMU，并且很难获得多台PMU的量测信息的情况不适用；而使用单台PMU的量测来实现不良数据检测的方法有基于集成学习的，基于密度聚类的方法等，然而当不良数据在事件过程中出现时，这些方法可能不适用。

发明内容

本发明的目的是提供一种基于谱聚类的PMU不良数据检测方法，能通过计算数据间的权重距离来构造相似度矩阵，从而准确检测偏差值较小的不良数据。

本发明的目的是通过以下技术方案实现的：

一种基于谱聚类的PMU不良数据检测方法，包括：

基于四点数据斜率特征构建决策树模型，并利用该决策树模型辨识事件数据、以及正常数据和不良数据；

对于辨识出的包含正常数据和不良数据的数据集合A，利用3σ准则进行初步筛选，将数据集合划分为A1、A2、与A3三个部分，其中A1部分与A2部分分别为正常数据与不良数据，A3部分中包含了正常数据和不良数据；

利用谱聚类的方法，构造数据之间的权重距离矩阵，从而在A3部分中检测出不良数据。

由上述本发明提供的技术方案可以看出，能够快速、准确地识别PMU不良数据，并能有效区分事件数据和不良数据，对偏差较小的不良数据也能准确检测，并且纯数据驱动，不需要系统的拓扑和参数的先验信息，因此采用基于谱聚类的PMU不良数据检测方法具有十分显著的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于谱聚类的PMU不良数据检测方法的流程图；

图2为本发明实施例提供的事件数据、不良数据以及正常数据比较示意图；

图3为本发明实施例提供的不同方法对稳态数据的检测结果比较示意图；

图4为本发明实施例提供的三种方法能检测的偏差范围示意图；

图5为本发明实施例提供的配电网中实测不良数据检测结果比较示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于谱聚类的PMU不良数据检测方法，其主要包括：

1、基于四点数据斜率特征构建决策树模型，并利用该决策树模型辨识事件数据、以及正常数据和不良数据。

本发明解决的是因干扰或同步信号抖动导致的PMU不良数据检测问题，通过分析大量现场数据，这类的不良数据大多单独存在，且连续不良数据的数量不超过3个。

图2为本发明实施例提供的事件数据、不良数据以及正常数据比较示意图。在图2中，X_i表示PMU测量数据的幅值。图2的(a)部分中，t_i+1时刻，出现扰动数据，扰动数据(即事件数据)用竖线阴影圆圈表示。令t_i时刻为阶跃点，阶跃点前后各数据偏差近似。图2的(b)部分表示出现连续三个不良数据。斜线阴影圆圈代表幅值高于正常值且彼此接近的不良数据。图2的(c)部分表示正常数据。根据上述对比，事件数据和不良数据之间的差异是幅值相近的连续数据点的数量。在这种情况下，事件数据的数量多于三个，而连续不良数据的数量等于或少于三个。因此，提出了基于四点数据斜率特征的方法来区分事件数据和连续不良数据。

数据斜率计算公式为：

其中，t_i、t_i+1表示时刻，X_i、X_i+1表示相应时刻的数据，||为绝对值符号。

电力系统正常运行时，数据是稳态数据，斜率很小。然而，存在事件数据或不良数据时，幅值会发生变化，斜率会变大。表1提供了图2中事件数据、正常数据、不良数据的斜率比较。

表1各类数据的斜率比较

表1显示，对事件数据，从X_i开始，斜率为大、小、小、小。正常数据或不良数据的连续四点斜率不会以这种方式改变。基于四点连续数据的斜率特征可检测事件何时发生，因此，本发明实施例中，将四点数据斜率k_i，k_i+1，k_i+2，k_i+3作为数据X_i的特征，能够区分事件数据、以及正常数据和不良数据。

本发明实施例中，利用大量的现场数据来构造决策树，并利用该决策树模型辨识事件数据、以及正常数据和不良数据。主要实现过程如下：设置信息增益率阈值ε、决策树深度p，其中信息增益率阈值ε用于验证划分特征是否符合要求；深度p表示递归计算的次数；将训练集中所有数据输入，计算各数据的特征a、b、c、d的信息增益率；具体的，首先计算各数据的四点数据斜率作为各数据点的四个特征，得到四类特征；并使用二分法离散化每个连续特征，提取训练数据集中所有数据每一类特征的的取值，对于每一类特征，将取值从小到大排序，计算排序中相邻特征的中点作为候选划分点，计算每个特征对应不同划分点的信息增益率，选择最大值作为相应类特征的信息增益率，比较四类特征的信息增益率，选出信息增益率最大的特征，并将其信息增益率与设定的信息增益率阈值ε比较；如果小于ε则所有数据为同一类别；如果大于信息增益率阈值ε，则选出信息增益率最大的候选划分点s_b，将数据划分为两部分，特征b_i≤s_b的所有数据划分为一组，特征b_i＞s_b的所有数据为另一组，信息增益率最大的候选划分点为分支节点；递归重复，直至某节点中所有数据均为阶跃点数据或非阶跃点数据，或者达到决策树深度p，从而构建出决策树模型；将待检测的数据集合输入至决策树模型，如果待检测的数据集合存在任何阶跃点数据，则相应标签为1，否则标签为0。

为了便于理解，决策树模型实现过程中的主要原理进行说明。

本发明实施例中，事件数据和非事件数据的辨识可以等同于二分类问题。基于决策树的方法可以有效解决这个问题，同时用信息增益比来选择特征，避免偏好具有更多值的特征。

阶跃点数据的标签l＝1，其余数据的标签l＝0。每个数据点的特征是包括自身的连续四个数据点的斜率值，例如(k_i，k_i+1，k_i+2，k_i+3)。因此，每个数据点共有四个特征，记为(a＝k_i，b＝k_i+1，c＝k_i+2，d＝k_i+3)。然后使用大量的现场数据来构造决策树：随机选择测量数据集中80％的数据作为训练集D，20％的数据作为测试集。训练数据用于构建决策树。测试数据用于验证决策树模型的准确性。

训练数据分为阶跃点数据和非阶跃点数据两类，概率为z₁、z₂。令熵表示训练集中阶跃点数据和非阶跃点数据不确定性的度量，用于衡量阶跃点数据和非阶跃点数据出现的期望。若不确定性越大，则熵值也就越大，该类数据出现的可能也越大。

训练集D的总信息熵计算如下：

式中，z₁是训练集D中阶跃点数据的概率；z₂是训练集D中非阶跃点数据的概率；Z(D)是数据标签的不确定性。若Z(D)越小，则表明训练集D的纯度越高，决策树辨识的效果也越好。

若选择特征b(各数据自身的斜率)来划分训练集D，首先利用二分法离散化连续特征b。设连续特征b存在j个不同的取值。将特征b的取值从小到大排序，记为{b¹,b²,...,b^j}。每段区间(bⁱ,bⁱ⁺¹)的中点

作为候选划分点s_i。划分点集合S为：

每个划分点可以将训练集D分为子集

和

包含训练集中特征b_i≤s_i的所有数据，

包含特征b_i＞s_i的所有数据。划分点s_i的信息增益为：

其中，|D|是数据的总数；

是特征b_i≤s_i的数据占比；

是特征b_i＞s_i的数据的占比。若特征b的信息增益越大，则表明选用特征b进行划分所获得纯度提升越大。ID3算法从所有划分点b_i的信息增益中选择最大值作为特征b的信息增益，但该信息增益准则对可取值数据较多的特征有所偏好。为减少这种偏好带来的不利影响，C4.5算法基于信息增益率选择最优划分特征。信息增益率的定义为：

其中，I(b)称为固有属性，特征b的可能取值越多，则I(b)的值也会越大。因此，选择最大信息增益率o(D,b,s_i)的划分点s_b作为决策树的分支节点。

构建决策树模型后，待检测的数据集合被放入经过训练好的决策树以判断其对应的标签，表示为：

其中，X_i'表示测试集中的数据。如果在测试集中存在任何阶跃点，则通过决策树，对应的标签应该是1。剩下的非阶跃点标签为0。

对某时间的一组PMU测量的幅值数据D＝X₁,X₂,...,X_N，若存在阶跃点数据，则判断其为扰动数据(即事件数据)。若不存在阶跃点数据，表明测试集中不含扰动数据，均为正常数据或不良数据。

2、对于辨识出的包含正常数据和不良数据的数据集合A，利用3σ准则进行初步筛选，将数据集合划分为A1、A2、与A3三个部分，其中A1部分与A2部分分别为正常数据与不良数据，A3部分中包含了正常数据和不良数据。

本发明实施例中，前述步骤1区分出事件数据，在此基础上，由于PMU现场数据服从高斯分布，因此，先用3σ准则对阶跃发生后的数据进行初步筛选。

3σ准则进行初步筛选表示为：

P(||X_i|-μ|≤3σ)≤99.73％

其中，μ是数据的均值，σ是数据的标准偏差，X_i表示t_i时刻的数据，P为概率；

分布在(μ-σ,μ+σ)之间的数据被视为正常数据，即A1部分；μ-3σ和μ+3σ两侧的数据为不良数据，即A2部分；(μ-3σ,μ-σ)和(μ+σ,μ+3σ)之间的数据，包含了正常数据和不良数据，即A3部分，A3部分的数据是3σ准则无法检测到的。当不良数据的幅值接近数据集的平均值时，它们不能被这个准则检测到。

3、利用谱聚类的方法，构造数据之间的权重距离矩阵，从而在A3部分中检测出不良数据。

本发明实施例中，提出了一种谱聚类方法，通过构造数据之间的权重距离矩阵，即谱聚类中的相似度矩阵，对与正常值偏差较小的不良数据进行准确检测。谱聚类是基于图论的方法，它将聚类问题转化为图分割问题。将各测量数据的相似关系映射到高维空间，在空间中寻找合适的切割线，使正常测量数据的子图A和不良数据的子图B分开。

谱聚类的目的是对图G进行切割，以测量数据的相似度作为切割依据，分别要求子图A和B内各测量数据的相似度之和尽可能的大，而子图A和B的相似度尽可能的小。对子图A和B的相似度定义如下：

同时，为了最大化每个子图中包含的顶点数，采用RatioCut切图方式，则目标函数进行如下改进：

其中，|A|，|B|分别是子图A和子图B的顶点数。

由于实际测量数据的偏差各异，映射到空间所产生的子图数远大于2个，因此，扩展至m个子图，目标函数变为：

其中，

表示子图A_i所含顶点集合的补集。

因此，谱聚类的目标是求解RCut(A₁,A₂,…,A_m)的最小值。

首先，对于A3部分的数据D＝X₁,X₂,...,X_n进行预处理，将每个数据与平均值之间的偏差r_i作为其聚类特征输入：

其中，X_i表示t_i时刻的数据幅值，n为输入的数据点个数。

根据任意两个偏差r_i与r_j建立相似度矩阵W，结合高斯核函数定义任意两个偏差r_i与r_j的相似度：

其中，δ是尺度参数。

根据相似度矩阵W构建度矩阵D_d和拉普拉斯矩阵L：

其中，n是相似度矩阵W的列数，即数据点个数。

L＝D_d-W

度矩阵D_d是一个对角矩阵，L是一个对称的半正定矩阵，它的特征值是λ_i。

拉普拉斯矩阵L对于任意向量f，都有：

引入指示向量h_j＝(h_1j,…,h_nj)^T

其中，n是图G中顶点数，即数据点个数。

设H∈R^n×m为一个包含m个指示向量的矩阵，H中列向量彼此正交，即H^TH＝I，I为单位矩阵。

对于空间中某子图A_i，它的切图对应h_i ^TLh_i。m个子图的切图可表示为：

其中，Tr为迹函数，角标ii表示矩阵中主对角线的元素。

目标函数转换为：

根据瑞利商性质，目标函数的最小值等于L的m个最小特征值的和。因此，在求解上述目标函数时，先对拉普拉斯矩阵L进行特征值分解，将其最小的m个特征值所对应的特征向量组成的矩阵F进行K均值聚类，来实现正常数据和不良数据的划分。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以仿真和现场测试实例对本发明所提供的基于谱聚类的PMU不良数据检测方法进行详细描述，具体包括：

1、仿真测试。

为体现所提方法对不良数据的检测效果，利用电力系统静态条件下仿真信号进行测试，信号表达式为：

其中，X_m为相量幅值，f₀为工频，

为初相角。X_m＝57.73V，f₀＝50Hz，

n(t)的信噪比为60dB。

设置单个或连续的坏数据，偏差范围为0.3％-5％。将本发明所提方法与基于集成学习和基于DBSCAN的聚类方法进行对比，三种方法对不良数据的检测结果如图3所示。

结果表明，若不良数据偏差较小时，其与正常数据间的关系较为紧密，DBSCAN方法易将不良数据误认为正常数据，造成误检。另外，由于集成学习方法利用相邻数据幅值之差对不良数据进行检测，多点不良数据会导致相邻数据的幅值接近，从而造成部分不良数据的漏检，因此该方法无法检测图中连续3点的不良数据。而所提方法可有效检测不同偏差下的单点和多点连续不良数据。

之后，通过改变单个不良数据的偏差值来比较三种方法的检测范围。结果如图4所示。

图4说明当不良数据偏差值低于1％时，集成学习方法无法检测。当不良数据的偏差值低于4％时，DBSACN方法无法检测到。但是，本发明所提方法能够检测到偏差在0.5％到20％之间的不良数据。

改变不良数据的比例和位置。三种方法对不良数据的检测能力对比如下。

表2不良数据的检测能力

如表2所示，集成学习方法和DBSCAN方法均具有一定的局限性，所提方法可满足系统各类型不良数据的检测要求。

2、实测数据验证。

利用现场实测数据来验证所提方法的有效性。比较结果如图5所示。：

图5结果表明，当不良数据偏差小于1％时，集成学习方法和DBSCAN方法无法检测，与上述仿真结果一致。当存在连续多点不良数据时，集成学习方法仍无法检测。DBSCAN方法可以检测偏差大于4％的不良数据。由此可见，集成学习方法和DBSCAN方法均具有一定的局限性，所提方法可满足系统各类型不良数据的检测要求。

3、不同方法性能比较。

测试三种检测方法在不同时间窗下的运行时间以及对不同比例和不同偏差的不良数据的检测效果。三种检测方法的运行时间结果见表3。

表3三种方法运行时间的比较

结果表明，随着时间窗长的增加，三种方法的运行时间而增加。集成学习法比其他两种方法运行时间长，因为这种方法更复杂。聚类方法和所提方法的运行时间接近。

对不同比例、偏差的不良数据的检测结果见表4。

表4三种方法准确性比较

结果表明，在不同的场景下，本发明所提出的方法比其他两种方法具有更高的准确度。随着不良数据比例的增加，三种方法的检测精度都会降低。随着不良数据偏差范围的增加，准确度也会提高。DBSCAN方法受不良数据比例和偏差范围的影响更大。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于谱聚类的PMU不良数据检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于谱聚类的PMU不良数据检测方法，其特征在于，数据斜率计算公式为：

其中，t_i、t_i+1表示时刻，X_i、X_i+1表示相应时刻的数据，| |为绝对值符号；

将四点数据斜率k_i，k_i+1，k_i+2，k_i+3作为数据X_i的特征，能够区分事件数据、以及正常数据和不良数据。

3.根据权利要求2所述的一种基于谱聚类的PMU不良数据检测方法，其特征在于，构建决策树模型的方式包括：

设置信息增益率阈值ε、决策树深度p，利用现场数据构造训练数据集来构建决策树模型；信息增益率阈值ε用于验证划分特征是否符合要求；深度p表示递归计算的次数；

将训练集中所有数据输入，训练数据集中的数据包含阶跃点数据与其他数据两类，如果t_i+1时刻，出现扰动事件，则t_i时刻的数据X_i为阶跃点数据；计算各数据的四点数据斜率，得到四类特征；使用二分法离散化每个连续特征，提取训练数据集中所有数据的每一类特征的取值，对于每一类特征，将取值从小到大排序，计算排序中相邻特征的中点作为候选划分点，计算每类特征对应不同划分点的信息增益率，选择最大值作为相应类特征的信息增益率，比较四类特征的信息增益率，选出信息增益率最大的特征，并将其信息增益率与设定的信息增益率阈值ε比较；如果小于ε则所有数据为同一类别；如果大于信息增益率阈值ε，则选出信息增益率最大的候选划分点s_b，将数据划分为两部分，特征值b_i≤s_b的所有数据划分为一组，特征值b_i＞s_b的所有数据为另一组，信息增益率最大的候选划分点为分支节点；递归重复，直至某节点中所有数据均为阶跃点数据或非阶跃点数据，或者达到决策树深度p，从而构建出决策树模型。

4.根据权利要求1所述的一种基于谱聚类的PMU不良数据检测方法，其特征在于，3σ准则进行初步筛选表示为：

P(||X_i|-μ|≤3σ)≤99.73％

分布在(μ-σ,μ+σ)之间的数据被视为正常数据，即A1部分；μ-3σ和μ+3σ两侧的数据为不良数据，即A2部分；(μ-3σ,μ-σ)和(μ+σ,μ+3σ)之间的数据，包含了正常数据和不良数据，即A3部分。

5.根据权利要求1或4所述的一种基于谱聚类的PMU不良数据检测方法，其特征在于，利用谱聚类的方法，构造数据之间的权重距离矩阵，从而在A3部分中检测出不良数据包括：

谱聚类将聚类问题转化为图分割问题，将各数据的相似关系映射到空间，在空间中寻找切割线，使正常数据的子图A和不良数据的子图B分开；数据映射时，将产生m个子图，谱聚类目标是求解目标函数