CN112001409A

CN112001409A - 一种基于K-means聚类算法的配电网线损异常诊断方法和系统

Info

Publication number: CN112001409A
Application number: CN202010624448.6A
Authority: CN
Inventors: 刘科研; 贾东梨; 孟晓丽; 盛万兴; 何开元; 刁赢龙; 李国栋; 王峥; 满玉岩; 詹惠瑜; 张怀天
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-11-27

Abstract

一种基于K‑means聚类算法的配电网线损异常诊断方法和系统，包括：基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据，功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录；通过轮廓系数作为评价标准，确定最佳聚类中心数；基于所述最佳聚类中心数，对所述特征数据采用K‑means聚类算法进行聚类；从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。本发明利用K‑means聚类算法无监督的特点，设计出具备海量处理线损异常数据的方法，提高了处理大规模数据集的计算效率。

Description

一种基于K-means聚类算法的配电网线损异常诊断方法和系统

技术领域

本发明属于电力系统自动化技术领域,具体涉及一种基于K-means聚类算法的配电网线损异常诊断方法和系统。

背景技术

随着电力系统信息化程度的不断提高和配用电数据量的迅速增长，研究适用于配用电数据挖掘的算法并建立有效的知识发现模型，对配用电业务模式创新和智能电网的发展具有重要意义。然而到目前为止，“数据海量，信息匮乏”仍是电力企业面临的重要问题。电力大数据的内涵是重塑电力核心价值和转变电力发展方式。通过对市场个性化需求和企业自身良性发展的挖掘，实现由以电力生产为中心向以客户为中心转变，推动电力工业向低耗能、低排放、高效率的绿色发展方式转变。通过对配用电大数据的有效挖掘，推动以电网物理模型为核心的传统业务模式向以数据信息相关性为基础的大数据业务模式转变。对于电力公司，检测异常用电模式的主要目的在于降低非技术性损失，即由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失，损失集中在中低压网络，遍布整个电力系统，而目前的处理方法多是基于现场检查，这不仅需要大量的人力资源而且增加了运营成本。

非技术性损失检测的方法有统计学方法、支持向量机、聚类分析法等，从数据挖掘的角度，这些方法可以分为有监督学习和无监督学习两类。有监督学习需要训练集，即需要已知部分用户用电行为的类型(正常、异常)。在实际应用中，足够多的训练集往往很难获取。不需要训练集的无监督异常检测方法，即在所有用户类型都是未知的情况下，通过分析用户之间的关系来找出离群对象，即异常用电模式。无监督学习的特点在于事先没有训练样本，即对没有概念标记(类标号)的数据集进行学习，以发现其中的结构性知识。聚类分析是一种非常重要的无监督学习方法。对于非技术性损失检测的无监督学习，大多是基于不同的聚类算法。每个电力用户的用电模式可以用不同粒度的时间序列表示，因此，无监督异常用电模式检测在本质上可以看作高维空间中离群对象挖掘的问题。

目前国内外对异常用电模式检测的研究中对不同时间尺度负荷序列的特征提取及特征处理缺乏系统性的研究，重点关注模型预测的准确率，而对处理大规模数据集的计算效率缺乏深入研究。因此,发明一种适用于用户数据采集系统中海量线损数据的线损异常诊断的新方法成为亟需解决的问题。

发明内容

为了解决现有技术中的对海量线损数据的线损异常诊断问题，本发明提供一种基于K-means聚类算法的配电网线损异常诊断方法，包括：

基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据；

通过轮廓系数作为评价标准，确定最佳聚类中心数；

基于所述最佳聚类中心数，对所述特征数据采用K-means聚类算法进行聚类；

从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。

优选的，所述特征数据包括：功率因数、供电电量、平均线损率、线损率变化系数和电表开盖记录。

优选的，所述平均线损率的计算公式如下：

式中

表示第i条馈线的平均线损率，L_it表示第i条馈线在第t天的平均线损率，N表示馈线的数量，T表示数据的总天数。

优选的，所述线损率变化系数的计算公式如下：

其中CV_i是第i条馈线的线损率变化系数，σ_i是第i条馈线的线损率标准差,L_it表示第i条馈线在第t天的平均线损率，

表示第i条馈线的平均线损率，N表示馈线的数量，T表示数据的总天数。

优选的，所述电表开盖记录计算公式如下：

式中，O_i表示第i条馈线的电表开盖记录，o_it表示第i条馈线第t天的电表开盖记录，N表示馈线的数量，T表示数据的总天数。

优选的，所述通过轮廓系数作为评价标准，确定最佳聚类中心数，包括：

设定多个聚类中心数，基于每个聚类中心数分别对所述特征数据进行分类；

针对每个初始聚类中心数对应的分类结果，将每个类别设置一个样本点，计算所述样本点所属类别中所有其他特征数据到所述样本点的第一平均距离，以及计算所述样本点相邻最近类别中所有特征数据到所述样本点的第二平均距离；

根据第一平均距离和第二平均距离计算轮廓系数；

选择最大轮廓系数对应的聚类中心数，作为最佳聚类中心数。

优选的，所述轮廓系数的计算式如下：

其中S(k)为以k为样本点的轮廓系数，对于类别中的一个样本点k,a(k)是样本点k到所属类别中其他特征数据的第一平均距离，b(k)是样本点k到与k相邻最近的类别内的所有特征数据的第二平均距离。

优选的，所述基于所述最佳聚类中心数，对所述配电网中导致线损异常的特征数据采用K-means聚类算法进行聚类包括：

步骤1根据最佳聚类中心数中随机选择多个配电网中导致线损异常的特征数据点作为质心；

步骤2计算所有特征数据到每一个质心的距离，根据距离近为原则划分每一个特征数据所属的类别；

步骤3重新计算每个类别的质心，并计算所述质心与重新计算前质心的距离，若所述距离小于预设阈值，算法终止；反之转入步骤2。

优选的,所述连续获取多个配电网中导致线损异常的特征数据之后，且根据所述电网中导致线损异常的特征数据，通过轮廓系数作为评价标准，确定最佳聚类中心数之前，还包括：对配电网中导致线损异常的特征数据进行如下处理：

对于数据缺失的部分，利用三次样条插值法补全缺失数据；

对于统计错误出现的负值以相邻正常数据的平均值代替；

对所有特征数据进行Z-score标准化。

优选的，所述对所有特征数据进行Z-score标准化的计算式如下：

式中，X^Z是由n条馈线的m个特征数据构成的经过标准化得到n×m矩阵，x_ij是第i条馈线第j个未处理的特征数据，

是矩阵X^Z中第i条馈线第j个经过处理的特征数据，n表示馈线的数量，μ_j为所有馈线第j个未处理的特征数据的均值，σ_j为所有馈线第j个未处理的特征数据的标准差。

优选的，所述从所有所述电网中导致线损异常的特征数据中选择与聚类中心聚类大于预设阈值的配电网中导致线损异常的特征数据作为线损异常点，之后，还包括：选用准确率f_ass1和漏检率f_ass2两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果。

优选的，所述的准确率f_ass1的计算式如下：

所述漏检率f_ass2的计算式如下：

其中：m_NT为将正常数据分类为正常的数目，m_AT为将异常数据分类为异常的数目，m_NF为将正常数据分类为异常的数目，m_AF为将异常数据分类为正常的数目。

基于同一发明构思，本申请还提供了一种基于K-means聚类算法的配电网线损异常诊断系统，包括：特征数据模块、最佳聚类中心数模块、聚类模块和线损判断模块；

所述特征数据模块，用于基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据；

所述最佳聚类中心数模块，通过轮廓系数作为评价标准，确定最佳聚类中心数；

所述聚类模块,基于所述最佳聚类中心数，对所述特征数据采用K-means聚类算法进行聚类；

所述线损判断模块，从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。

与最接近的现有技术相比，本发明具有的有益效果如下：

1、本发明提供了一种基于K-means聚类算法的配电网线损异常诊断方法和系统，包括：基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据、通过轮廓系数作为评价标准，确定最佳聚类中心数、所述聚类模块,基于所述最佳聚类中心数，对所述特征数据采用K-means聚类算法进行聚类、所述线损判断模块，从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点，能够处理用户数据采集系统中对海量线损数据的线损异常诊断。

2、本发明实现了配电网线损异常的诊断，提高了线损异常检测的准确性，降低配电网运营成本，进而提升配用电数据的处理能力。

附图说明

图1是本发明提供的一种基于K-means聚类算法的配电网线损异常诊断方法流程示意图；

图2是本发明的一个基于K-means聚类算法的配电网线损异常诊断方法实施例的流程图；

图3是本发明的K-means算法流程图；

图4是本发明提供的一种基于K-means聚类算法的配电网线损异常诊断系统基本结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例1：

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示,本发明实施例的基于K-means聚类算法的配电网线损异常诊断方法包括：

步骤一：基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据；

步骤二：通过轮廓系数作为评价标准，确定最佳聚类中心数；

步骤三：基于所述最佳聚类中心数，对所述特征数据采用K-means聚类算法进行聚类；

步骤四：从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。

具体的，本发明提供的一个基于K-means聚类算法的配电网线损异常诊断系统实施例的流程如图2所示，包括：

S1：聚类特征数据选取。

配电网线损率相关因素众多，对线损率的各种相关因素进行分析比较，最终确定功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录五个聚类特征数据，所确定的聚类特征数据充分考虑了配电网线损的技术因素和管理因素，能够科学、全面的反映不同馈线线损率的特征。

(1)功率因数：功率因数的大小体现了线路的损耗水平。

(2)供电电量：供电电量的大小区分了不同供电等级的馈线。

(3)线损率平均值：第i条馈线的平均线损率

计算公式如下：

其中L_it表示第i条馈线在第t天的平均线损率，N表示馈线的数量，T表示数据的总天数。

(4)线损率变化系数：变化系数反映线损率的波动情况，计算公式如下：

其中CV_i是第i条馈线的线损率变化系数，σ_i是第i条馈线的线损率标准差，L_it表示第i条馈线在第t天的平均线损率，

表示第i条馈线的平均线损率，T表示数据的总天数。

(5)电表开盖记录：电表开盖记录的增加意味着电力偷窃概率的提高,计算公式如下：

式中，O_i表示第i条馈线的电表开盖记录，o_it表示第i条馈线第t天的电表开盖记录，T表示数据的总天数。

S2：特征数据预处理。

收集N条配线30天的运行数据，即由步骤一所确定的聚类特征数据，包括功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录。由于五个不同的特征数据具有不同的量纲和数量级，为方便计算及提高聚类结果的准确性，对影响因素采集数据进行预处理如下：

(1)对采集数据进行缺失值填充，对于数据缺失的部分，利用三次样条插值法补全缺失数据；

(2)对异常样本进行平滑处理与错误修正，对于统计错误出现的负值以相邻正常线损平均值代替；

(3)对所有样本数据进行Z-score标准化，其计算式如下：

S3：确定聚类中心数。

由于K-means聚类算法需预先确定初始的聚类中心数K，聚类中心数的选择是否合理将影响算法的迭代次数及收敛。K-means聚类算法将待分类数据分为K个簇，通过轮廓系数作为评价标准，确定最佳聚类中心数。

式中，a(i)表示第i条馈线到所有它属于的簇中其他样本点的距离平均值，b(i)表示第i条馈线到它非所属簇内的所有样本点的平均距离，S(i)为第i条馈线的轮廓系数，值介于[-1,1],数值越大表示聚类效果越好。

S4：构建基于K-means聚类算法的聚类模型。

如图3所示，基于K-means聚类算法的聚类模型构建流程为：

(1)由步骤三确定K值，即希望将数据集经过聚类得到K个集合；

(2)从数据集中随机选择K个数据点作为质心；

(3)对数据集中每一个点，计算其与每一个质心的距离(如欧式距离)，离哪个质心近，就划分到那个质心所属的集合；

(4)把所有数据归好集合后，一共有K个集合。然后重新计算每个集合的质心；

(5)如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛)，则可以认为聚类已经达到期望的结果，算法终止；

(6)如果新质心和原质心距离变化很大，需要迭代(3)～(5)步骤。

S5：对聚类结果进行准确性评价。

选用两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果，分别为准确率f_ass1和漏检率f_ass2，其计算公式如下所示：

实施例2：

基于同一发明构思，本发明还提供了一种基于K-means聚类算法的配电网线损异常诊断方法系统，由于这些设备解决技术问题的原理与基于K-means聚类算法的配电网线损异常诊断方法相似，重复之处不再赘述。

该系统基本结构如图4所示，包括：特征数据模块、最佳聚类中心数模块、聚类模块和线损判断模块；

其中特征数据模块，用于基于导致线损异常的影响因素获取多个配电网数据，分别计算各配电网各影响因素对应的特征数据；

最佳聚类中心数模块，用于通过轮廓系数作为评价标准，确定最佳聚类中心数；

聚类模块，用于基于所述最佳聚类中心数，对所述特征数据采用K-means聚类算法进行聚类；

线损判断模块，用于从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。

其中最佳聚类中心数模块包括：预设分类单元、计算单元和选择单元；

预设分类单元，用于根据预设的多个聚类中心数，分别对所述特征数据进行多次分类；

计算单元，用于针对每个聚类中心数的分类结果，将每个类别设置一个样本点，计算所述样本点所属类别中所有其他特征数据到所述样本点的第一距离平均距离，以及计算所述样本点相邻最近类别中所有特征数据到所述样本点的第二平均距离；

选择单元，用于根据第一距离平均距离和第二平均距离计算轮廓系数；选择最大轮廓系数对应的聚类中心数，作为最佳聚类中心数。

其中聚类模块包括：质心单元、距离判断单元和质心对比单元；

质心单元，用于根据最佳聚类中心数中随机选择多个配电网中导致线损异常的特征数据点作为质心；

距离判断单元，用于计算所有特征数据到每一个质心的距离，根据距离近为原则划分每一个特征数据所属的类别；

质心对比单元，用于重新计算每个类别的质心，并计算所述质心与重新计算前质心的距离，若所述距离小于预设阈值，则结束；反之调用距离判断单元。

本实施例提供的系统还包括进行数据处理的预处理模块,预处理模块包括：补全单元、代替单元和标准化单元；

补全单元，用于对数据缺失的部分，利用三次样条插值法补全缺失数据；

代替单元，用于对统计错误出现的负值以相邻正常数据的平均值代替；

标准化单元，用于对所有特征数据进行Z-score标准化。

本实施例提供的系统还包括评估模块，用于准确率和漏检率两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。