CN114676749A

CN114676749A - 一种基于数据挖掘的配电网运行数据异常判定方法

Info

Publication number: CN114676749A
Application number: CN202210177121.8A
Authority: CN
Inventors: 杨铮宇; 代盛国; 张建伟; 沈鑫; 赵毅涛; 王轶; 刘斌
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-28

Abstract

本发明公开了一种基于数据挖掘的配电网运行数据异常判定方法，包括：设定原始电网运行数据D以及离群点个数m，将其标准化处理后的数据放入K‑means++聚类模型；得到聚类模型结果后，统计聚类后每个簇的数据个数n(i)，判定i的值是否大于设定的离群点个数m；若n(i)大于等于m，采用LOF算法计算该类所有对象的LOF离群因子；生成最终的“离群点候选集”，根据计算并排序所有数据点的离群因子，形成线损异常情况集合；对所述线损异常情况集合中的运行数据进行归纳推理，得到异常发生的时间，将其追溯到配电网结构中后，对异常发生的地点进行定位。本发明能够高效且准确地判定配电网运行数据中异常的发生，并确定异常发生的时间与地点。

Description

一种基于数据挖掘的配电网运行数据异常判定方法

技术领域

本发明涉及电力系统的技术领域，尤其涉及一种基于数据挖掘的配电网运行数据异常判定方法。

背景技术

数据挖掘技术包括数据整理、变换、挖掘、评估和认知等多项内容，可以直接从配电网运行数据的根本出发，全面了解数据的内容。随着智能配电网、高级量测体系的不断发展，配用电数据逐渐呈现出体量大、类型多、增速快等大数据特征。对配线损数据进行有效挖掘，对优化电网运行方式、提高电网服务水平、降低管理成本、提升电力公司经济效益具有重大意义。

在大多数研究领域中，离群点也被称为异常值。在数据挖掘中，往往是要剔除掉这些数据，但是某些情况下离群点本身就是研究对象。比如图3，该图是一个用户一年中的用电线损率情况，明显可见，其中有几天的数据很不正常，这样的点即是离群点。如果需要研究该用户的用电规律时，这些点是理当去除的。可是，它们也反映出了一个信息，在数据统计方式正确的情况下，该用户用电出现异常(异常可能是电表异常、用户窃电、数据记录有误等)。这些线损数据中异常的离群点揭示了线路、台区线损可能存在的异常情况，可以有效反映异常的发生，进而确定异常发生的时间与地点。

基于此，目前亟需对配电网运行数据中的异常进行高效且准确地判定的方法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的技术无法对配电网异常的运行数据进行高效准确的判断。

为解决上述技术问题，本发明提供如下技术方案：设定原始电网运行数据D以及离群点个数m，对D中数据进行标准化处理，将标准化处理后的数据放入K-means++聚类模型；得到聚类模型结果后，统计聚类后每个簇的数据个数n(i)，判定i的值是否大于设定的离群点个数m；若n(i)小于m，则认定该类数据量少于预设值，全部放入“离群点候选集”中；若n(i)大于等于m，采用LOF算法计算该类所有对象的LOF离群因子，将离群因子大于2的对象纳入“离群点候选集”；将两种情况合并形成最终的“离群点候选集”，根据计算并排序所有数据点的离群因子，形成线损异常情况集合；对所述线损异常情况集合中的运行数据进行归纳推理，得到异常发生的时间，将其追溯到配电网结构中后，对异常发生的地点进行定位。

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：所述D中数据包括节点电流、节点电压和对24小时的负荷特征值。

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：所述聚类模型结果的获取过程包括：

利用K-means聚类算法进行聚类分析，其欧式距离的定义为：

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：还包括：平方误差表示为式：

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：还包括：

采用用轮廓系数这一参数来判断聚类效果的优劣，所述轮廓系数s基于聚类的凝聚度和分离度来评估，该值介于±1之间，且值越大表示聚类得到的效果越好；

第i个元素的轮廓系数s(i)如下式所示，所述轮廓系数s表示为所有元素轮廓系数的平均值：

其中，a(i)表示第i个元素与其同一簇内其他所有元素的平均距离，b(i)表示第i个元素与其所有不同簇内所有点的平均距离的最小值。

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：所述采用LOF算法计算该类所有对象的LOF离群因子包括：

定义对象p的k距离为k-distance(p)，在样本空间中，存在对象o，其与所述对象p之间的距离基座d(p,o)，若满足预设的条件，则k-distance(p)＝d(p,o)，即：k-distance(p)＝max|||p-o|||；

与所述对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离领域，记作：Nk(p)。

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：还包括，所述对象p相对于所述对象o的可达距离为：

reachdist(p,o)＝max{k-distance(o),||p-o||}

若所述对象p远离对象o，则两者之间的可达距离就是它们之间的实际距离；但若两者距离近，则实际距离用o的k距离代替。

局部可达密度计算公式：

局部离群点因子：该因子表征了p的离群点的程度，定义如下：

若所述对象p不是局部离群点，则LOF(p)接近于1。

作为本发明所述的基于数据挖掘的配电网运行数据异常判定方法的一种优选方案，其中：配电网运行数据异常的判定标准为：基于离群因子LOF进行异常数据判定，若LOF远大于1，则认为是离群点；LOF接近于1，则判定该点为正常点。

本发明的有益效果：本发明能够高效且准确地判定配电网运行数据中异常的发生，并确定异常发生的时间与地点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的聚类分类示意图；

图2为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的K-means聚类流程示意图；

图3为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的用户线损示意图；

图4为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的基于k-NN算法的离群点检测流程示意图；

图5为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的基于K-means++聚类和LOF离群点检测的配电网运行数据异常判定流程示意图；

图6为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的33节点10kV配电网算例划分示意图；

图7为本发明一个实施例提供的一种基于数据挖掘的配电网运行数据异常判定方法的node19的聚类结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～5，为本发明的一个实施例，提供了一种基于数据挖掘的配电网运行数据异常判定方法，包括：

S1：设定原始电网运行数据D以及离群点个数m，对D中数据进行标准化处理，将标准化处理后的数据放入K-means++聚类模型。

需要说明的是，D中数据包括节点电流、节点电压和对24小时的负荷特征值。

聚类分析的目的是按照相似度或者相异度把数据划分成多个相似的类或者簇，划分的原则是每个样本内的数据尽可能相似，而各类样本之间尽可能相异。尽管如此，对于各种不同的聚类方法提供一个相对有组织的描述依然很有必要，因此根据聚类分析的计算方法主要有以下几种：划分法、层次法、模糊法、密度算法等，具体的聚类分类图如图1所示。

优选的，选用基于改进的K-means聚类：K-means++算法作为本发明的聚类方法，K-means聚类是将n个样本点分成k个簇，使得各簇内所有的样本点具有较好的相似度，而各簇之间样本点的相似度较低。其中，相似度以一个簇中样本点的平均值为依据。K-means算法的实现流程如图2(K-means聚类流程图)所示。

其中，其欧式距离的定义为：

平方误差表示为式：

进一步的，采用用轮廓系数这一参数来判断聚类效果的优劣，轮廓系数s基于聚类的凝聚度和分离度来评估，该值介于±1之间，且值越大表示聚类得到的效果越好；

第i个元素的轮廓系数s(i)如下式所示，轮廓系数s表示为所有元素轮廓系数的平均值：

更进一步的，原始K-means算法最开始随机选取数据集中K个点作为聚类中心，而K-means++按照如下的思想选取K个聚类中心：中心越远的点会有更高的概率被选为第n+1个聚类中心，第一个聚类中心(n＝1)同样通过随机的方法选取，即这K个初始聚类中心相互之间尽可能的远离。

S2：得到聚类模型结果后，统计聚类后每个簇的数据个数n(i)，判定i的值是否大于设定的离群点个数m；

S3：若n(i)小于m，则认定该类数据量少于预设值，全部放入“离群点候选集”中；

S4：若n(i)大于等于m，采用LOF算法计算该类所有对象的LOF离群因子，将离群因子大于2的对象纳入“离群点候选集”；

S5：将两种情况合并形成最终的“离群点候选集”，根据计算并排序所有数据点的离群因子，形成线损异常情况集合；

需要说明的是，S2～S5步骤具体包括：

根据检测原理的不同，离群点挖掘方法可以划分为以下几类：基于统计分布的方法；基于距离的方法；基于偏差的方法；基于密度的方法。

其中基于距离和基于密度的方法适用性较广，因此本发明对其中两种方法的原理进行分析比对，选择更适合用于线损异常点判别的算法。

(1)k-NN算法：基于k-NN的离群点检测算法是一种比较简单的检测方法，k-NN算法的原理简介如下：

假定所有的实例对应于n维空间Pⁿ中的点，将实例x表示为下面的特征向量：

＜a₁(x),a₂(x),...a_n(x)＞

其中，a_r(x)表示对象x的第r个属性值，根据标准欧式距离定义，两个实例x_i和x_j之间的距离定义为d(x_i,x_j)：

基于k-NN算法，对于数据集合D，设置参数k、n，对于每个点计算它的k-近邻距离，再按照k-近邻距离进行降序排列，那么前n个点即可以认为是离群点，其算法流程如图4(基于k-NN算法的离群点检测流程图)所示。

应用于大规模数据集时，该方法存在计算量比较大，算法复杂度比较高的问题，此时可考虑基于密度的LOF算法。

(2)LOF算法：LOF算法(Local Outlier Factor)，即局部离群因子检测方法，是基于密度的离群点检测方法中比较有代表性的算法。该算法对数据集中的每个点计算一个离群因子LOF，若LOF远大于1，则认为是离群点；LOF接近于1，则判定该点为正常点。算法过程如下：

将对象p的k距离记作k-distance(p)，在样本空间中，存在对象o，它与对象p之间的距离基座d(p,o)，如果满足预设条件，则k-distance(p)＝d(p,o)：即：k-distance(p)＝max|||p-o|||；

与对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离领域，记作：Nk(p)。显然，离群度越大的对象的范围往往比较大，而离群度比较小的对象范围小。

对象p相对于对象o的可达距离的计算公式为：

reachdist(p,o)＝max{k-distance(o),||p-o||}

如上式所示，若对象p远离对象o，则两者之间的可达距离就是它们之间的实际距离；但若两者足够近，则实际距离用o的k距离代替。

局部可达密度的计算公式为：

如果对象p不是局部离群点，则LOF(p)接近于1，即p是局部离群点的程度较小，对象o的局部可达密度和对象p的局部可达密度相似，最后得出的LOF(p)值应该接近1，反之，则p是局部离群点的程度越大，LOF(p)值越高，通过这种方式在样本空间数据分布不均匀的情况下也可以准确发现离群点。

S6：对线损异常情况集合中的运行数据进行归纳推理，得到异常发生的时间，将其追溯到配电网结构中后，对异常发生的地点进行定位。

本发明基于线损分布特性分析，提出了配电网运行数据异常判别与异常定位的数据挖掘组合模型。应用该模型对线损异常进行挖掘，精度较高，能精准地实现线损异常发生与否的判断，异常发生日期的确定及异常发生地点的定位。符合智能电网中对线损异常分析实时性和可靠性的要求；本发明提出的线损异常分析方法应用了多种数据挖掘技术，获取数据中蕴含的有效信息，且该方法计算量较小、易于判断，能够直观展示出来自电网的海量运营数据的变化规律。

实施例2

参照图6～7为本发明另一个实施例，该实施例不同于第一个实施例的是，提供了一种基于数据挖掘的配电网运行数据异常判定方法的验证测试，为对本方法中采用的技术效果加以验证说明，本实施例采用本发明方法进行测试，以科学论证的手段验证本方法所具有的真实效果。

根据图6所示的IEEE33节点10kV配电网网架进行仿真，配电网负荷数根据我国实际电网的年8760小时负荷数据进行拓展生成(24个采样点*全年365天)。在此基础上计算线路潮流、全台区的线损率、各条线路线损率、节点电压、节点电流。为了验证本方法的实用性和准确性，在模拟的网络中分别在不同日期以及不同的节点(节点9、节点19和节点29)上的添加了电阻、电感来模拟发生的线损异常现象。为了使得数据挖掘过程更加科学，结构能够更加准确地反映线损异常的实际情况，本实施例将首先对线损数据进行时空分布特性分析，IEEE33网络的节点参数如表1所示：

表1：标准33节点测试系统参数表。

其中，为了能够在进行异常的精确定位的同时，尽可能地减少计算量，将整个配电网划分成四条线路，划分图如6所示：

线路①：23-24-25；

线路②：26-27-28-29-30-31-32-33；

线路③：1-2-…-17-18；

线路④：19-20-21-22。

根据不同线路，应用本发明提出的判别模型进行分析。以第④线路的Node19号节点为例，具体说明分析过程。

对线路上的节点电压和节点电流进行聚类，由于节点电压和节点电流单位不同、数值区间也不同，因此在聚类前需要对两者分别做预处理。本发明采用的方式是求取两类数据各自的z-score值(也称标准分数)，z分数有两个重要的分布特点：一是z分数的平均等于0；二是其标准差等于1。因此它是一种不受原始测量单位影响的数值。其作用除了能够表明原数据在其分布中的位置外，还能对未来不能直接比较的各种不同单位的数据进行比较。

式中z为标准分数；x为某一具体变量，μ为平均数，σ为标准差。

经过z-score处理后，Node19的聚类结果如图7(node19的聚类结果图)所示，根据轮廓系数的判定，选定5作为聚类数，得到5个簇中个数如下表2所示。

表2：节点19的聚类结果。

类别	个数
		0	187
1	118
		2	56
3	3
		4	1

如图7所示，类别3为左下角的三个黄色点，类别4为左上角的一个褐色点包含，由于两类别中的个数少于10，因此将该两个类别中的数据全部放入“离群点候选集”中。对类别0、类别1和类别2分别进行LOF离群点判定，其中，Node19中0号类别的离群因子如下表所示：

表3：节点19的0号类别部分局部离群因子。

根据关于LOF离群因子的说明，将LOF大于2的对象认定为离群点，0号类别中有2个点的LOF值大于2，分别为2.0007和2.0608，因此将这两个点放入离群点候选集中。

对类别1与类别2做相同的工作，并且将得到的所有离群点放入离群点候选集并排序，得到的离群点排序表如下所示：

表4：节点19的离群点排序表。

日期编号	电压z-score值	电流z-score值	离群因子
				0	-1.4545	-0.2806	6.3384998
24	-2.9631	0.7446	4.8781554
				78	0.9433	0.0208	2.060828
49	0.5842	-0.6307	2.0007679

此外，类别3与类别4中的4个点与以上4个离群点便构成了节点19的疑似线损异常集合{0、24、44、49、64、77、78、299}，即{2013/1/1、2013/1/25、2013/2/14、2013/2/19、2013/3/6、2013/3/19、2013/3/20、2013/10/27}

线路④的年平均线损率在[0.61％,0.69％]区间内变化，调取线路④在上述几日的线损参数表，可以得到线路单日的平均线损率和峰值，进而验证出疑似线损异常集合的正确性。

表5：疑似线损异常集合对比表。

通过表5可知，疑似线损异常集合中有3天的线路平均线损率高出正常区间，因此验证了在三天中，节点19于2013/2/14、2013/3/6、2013/10/27发生了线损异常情况。根据本发明实施例中的异常设定：在节点19上的第45、65与300天上添加了电阻、电感来模拟发生的线损异常现象。本发明提出的基于数据挖掘的组合模型在节点19上的线损异常判断的错检率为1.3％，漏检率为0％，准确率为100％，精度较高，对于线损异常的预警与降损措施的制定具有指导意义。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。