CN112001409A - 一种基于K-means聚类算法的配电网线损异常诊断方法和系统 - Google Patents

一种基于K-means聚类算法的配电网线损异常诊断方法和系统 Download PDF

Info

Publication number
CN112001409A
CN112001409A CN202010624448.6A CN202010624448A CN112001409A CN 112001409 A CN112001409 A CN 112001409A CN 202010624448 A CN202010624448 A CN 202010624448A CN 112001409 A CN112001409 A CN 112001409A
Authority
CN
China
Prior art keywords
line loss
data
power distribution
characteristic data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010624448.6A
Other languages
English (en)
Inventor
刘科研
贾东梨
孟晓丽
盛万兴
何开元
刁赢龙
李国栋
王峥
满玉岩
詹惠瑜
张怀天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Tianjin Electric Power Co Ltd, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010624448.6A priority Critical patent/CN112001409A/zh
Publication of CN112001409A publication Critical patent/CN112001409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于K‑means聚类算法的配电网线损异常诊断方法和系统,包括:基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据,功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录;通过轮廓系数作为评价标准,确定最佳聚类中心数;基于所述最佳聚类中心数,对所述特征数据采用K‑means聚类算法进行聚类;从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。本发明利用K‑means聚类算法无监督的特点,设计出具备海量处理线损异常数据的方法,提高了处理大规模数据集的计算效率。

Description

一种基于K-means聚类算法的配电网线损异常诊断方法和 系统
技术领域
本发明属于电力系统自动化技术领域,具体涉及一种基于K-means聚类算法的配电网线损异常诊断方法和系统。
背景技术
随着电力系统信息化程度的不断提高和配用电数据量的迅速增长,研究适用于配用电数据挖掘的算法并建立有效的知识发现模型,对配用电业务模式创新和智能电网的发展具有重要意义。然而到目前为止,“数据海量,信息匮乏”仍是电力企业面临的重要问题。电力大数据的内涵是重塑电力核心价值和转变电力发展方式。通过对市场个性化需求和企业自身良性发展的挖掘,实现由以电力生产为中心向以客户为中心转变,推动电力工业向低耗能、低排放、高效率的绿色发展方式转变。通过对配用电大数据的有效挖掘,推动以电网物理模型为核心的传统业务模式向以数据信息相关性为基础的大数据业务模式转变。对于电力公司,检测异常用电模式的主要目的在于降低非技术性损失,即由配电网侧电力用户的窃电、欺诈等一系列欺骗性用电行为所导致的电能损失,损失集中在中低压网络,遍布整个电力系统,而目前的处理方法多是基于现场检查,这不仅需要大量的人力资源而且增加了运营成本。
非技术性损失检测的方法有统计学方法、支持向量机、聚类分析法等,从数据挖掘的角度,这些方法可以分为有监督学习和无监督学习两类。有监督学习需要训练集,即需要已知部分用户用电行为的类型(正常、异常)。在实际应用中,足够多的训练集往往很难获取。不需要训练集的无监督异常检测方法,即在所有用户类型都是未知的情况下,通过分析用户之间的关系来找出离群对象,即异常用电模式。无监督学习的特点在于事先没有训练样本,即对没有概念标记(类标号)的数据集进行学习,以发现其中的结构性知识。聚类分析是一种非常重要的无监督学习方法。对于非技术性损失检测的无监督学习,大多是基于不同的聚类算法。每个电力用户的用电模式可以用不同粒度的时间序列表示,因此,无监督异常用电模式检测在本质上可以看作高维空间中离群对象挖掘的问题。
目前国内外对异常用电模式检测的研究中对不同时间尺度负荷序列的特征提取及特征处理缺乏系统性的研究,重点关注模型预测的准确率,而对处理大规模数据集的计算效率缺乏深入研究。因此,发明一种适用于用户数据采集系统中海量线损数据的线损异常诊断的新方法成为亟需解决的问题。
发明内容
为了解决现有技术中的对海量线损数据的线损异常诊断问题,本发明提供一种基于K-means聚类算法的配电网线损异常诊断方法,包括:
基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
通过轮廓系数作为评价标准,确定最佳聚类中心数;
基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
优选的,所述特征数据包括:功率因数、供电电量、平均线损率、线损率变化系数和电表开盖记录。
优选的,所述平均线损率的计算公式如下:
Figure BDA0002564256370000021
式中
Figure BDA0002564256370000022
表示第i条馈线的平均线损率,Lit表示第i条馈线在第t天的平均线损率,N表示馈线的数量,T表示数据的总天数。
优选的,所述线损率变化系数的计算公式如下:
Figure BDA0002564256370000023
Figure BDA0002564256370000024
其中CVi是第i条馈线的线损率变化系数,σi是第i条馈线的线损率标准差,Lit表示第i条馈线在第t天的平均线损率,
Figure BDA0002564256370000025
表示第i条馈线的平均线损率,N表示馈线的数量,T表示数据的总天数。
优选的,所述电表开盖记录计算公式如下:
Figure BDA0002564256370000026
式中,Oi表示第i条馈线的电表开盖记录,oit表示第i条馈线第t天的电表开盖记录,N表示馈线的数量,T表示数据的总天数。
优选的,所述通过轮廓系数作为评价标准,确定最佳聚类中心数,包括:
设定多个聚类中心数,基于每个聚类中心数分别对所述特征数据进行分类;
针对每个初始聚类中心数对应的分类结果,将每个类别设置一个样本点,计算所述样本点所属类别中所有其他特征数据到所述样本点的第一平均距离,以及计算所述样本点相邻最近类别中所有特征数据到所述样本点的第二平均距离;
根据第一平均距离和第二平均距离计算轮廓系数;
选择最大轮廓系数对应的聚类中心数,作为最佳聚类中心数。
优选的,所述轮廓系数的计算式如下:
Figure BDA0002564256370000031
其中S(k)为以k为样本点的轮廓系数,对于类别中的一个样本点k,a(k)是样本点k到所属类别中其他特征数据的第一平均距离,b(k)是样本点k到与k相邻最近的类别内的所有特征数据的第二平均距离。
优选的,所述基于所述最佳聚类中心数,对所述配电网中导致线损异常的特征数据采用K-means聚类算法进行聚类包括:
步骤1根据最佳聚类中心数中随机选择多个配电网中导致线损异常的特征数据点作为质心;
步骤2计算所有特征数据到每一个质心的距离,根据距离近为原则划分每一个特征数据所属的类别;
步骤3重新计算每个类别的质心,并计算所述质心与重新计算前质心的距离,若所述距离小于预设阈值,算法终止;反之转入步骤2。
优选的,所述连续获取多个配电网中导致线损异常的特征数据之后,且根据所述电网中导致线损异常的特征数据,通过轮廓系数作为评价标准,确定最佳聚类中心数之前,还包括:对配电网中导致线损异常的特征数据进行如下处理:
对于数据缺失的部分,利用三次样条插值法补全缺失数据;
对于统计错误出现的负值以相邻正常数据的平均值代替;
对所有特征数据进行Z-score标准化。
优选的,所述对所有特征数据进行Z-score标准化的计算式如下:
Figure BDA0002564256370000032
Figure BDA0002564256370000041
Figure BDA0002564256370000042
Figure BDA0002564256370000043
式中,XZ是由n条馈线的m个特征数据构成的经过标准化得到n×m矩阵,xij是第i条馈线第j个未处理的特征数据,
Figure BDA0002564256370000044
是矩阵XZ中第i条馈线第j个经过处理的特征数据,n表示馈线的数量,μj为所有馈线第j个未处理的特征数据的均值,σj为所有馈线第j个未处理的特征数据的标准差。
优选的,所述从所有所述电网中导致线损异常的特征数据中选择与聚类中心聚类大于预设阈值的配电网中导致线损异常的特征数据作为线损异常点,之后,还包括:选用准确率fass1和漏检率fass2两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果。
优选的,所述的准确率fass1的计算式如下:
Figure BDA0002564256370000045
所述漏检率fass2的计算式如下:
Figure BDA0002564256370000046
其中:mNT为将正常数据分类为正常的数目,mAT为将异常数据分类为异常的数目,mNF为将正常数据分类为异常的数目,mAF为将异常数据分类为正常的数目。
基于同一发明构思,本申请还提供了一种基于K-means聚类算法的配电网线损异常诊断系统,包括:特征数据模块、最佳聚类中心数模块、聚类模块和线损判断模块;
所述特征数据模块,用于基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
所述最佳聚类中心数模块,通过轮廓系数作为评价标准,确定最佳聚类中心数;
所述聚类模块,基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
所述线损判断模块,从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
与最接近的现有技术相比,本发明具有的有益效果如下:
1、本发明提供了一种基于K-means聚类算法的配电网线损异常诊断方法和系统,包括:基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据、通过轮廓系数作为评价标准,确定最佳聚类中心数、所述聚类模块,基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类、所述线损判断模块,从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点,能够处理用户数据采集系统中对海量线损数据的线损异常诊断。
2、本发明实现了配电网线损异常的诊断,提高了线损异常检测的准确性,降低配电网运营成本,进而提升配用电数据的处理能力。
附图说明
图1是本发明提供的一种基于K-means聚类算法的配电网线损异常诊断方法流程示意图;
图2是本发明的一个基于K-means聚类算法的配电网线损异常诊断方法实施例的流程图;
图3是本发明的K-means算法流程图;
图4是本发明提供的一种基于K-means聚类算法的配电网线损异常诊断系统基本结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例的基于K-means聚类算法的配电网线损异常诊断方法包括:
步骤一:基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
步骤二:通过轮廓系数作为评价标准,确定最佳聚类中心数;
步骤三:基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
步骤四:从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
具体的,本发明提供的一个基于K-means聚类算法的配电网线损异常诊断系统实施例的流程如图2所示,包括:
S1:聚类特征数据选取。
配电网线损率相关因素众多,对线损率的各种相关因素进行分析比较,最终确定功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录五个聚类特征数据,所确定的聚类特征数据充分考虑了配电网线损的技术因素和管理因素,能够科学、全面的反映不同馈线线损率的特征。
(1)功率因数:功率因数的大小体现了线路的损耗水平。
(2)供电电量:供电电量的大小区分了不同供电等级的馈线。
(3)线损率平均值:第i条馈线的平均线损率
Figure BDA0002564256370000061
计算公式如下:
Figure BDA0002564256370000062
其中Lit表示第i条馈线在第t天的平均线损率,N表示馈线的数量,T表示数据的总天数。
(4)线损率变化系数:变化系数反映线损率的波动情况,计算公式如下:
Figure BDA0002564256370000063
Figure BDA0002564256370000064
其中CVi是第i条馈线的线损率变化系数,σi是第i条馈线的线损率标准差,Lit表示第i条馈线在第t天的平均线损率,
Figure BDA0002564256370000065
表示第i条馈线的平均线损率,T表示数据的总天数。
(5)电表开盖记录:电表开盖记录的增加意味着电力偷窃概率的提高,计算公式如下:
Figure BDA0002564256370000066
式中,Oi表示第i条馈线的电表开盖记录,oit表示第i条馈线第t天的电表开盖记录,T表示数据的总天数。
S2:特征数据预处理。
收集N条配线30天的运行数据,即由步骤一所确定的聚类特征数据,包括功率因数、供电电量、线损率平均值、线损率变化系数和电表开盖记录。由于五个不同的特征数据具有不同的量纲和数量级,为方便计算及提高聚类结果的准确性,对影响因素采集数据进行预处理如下:
(1)对采集数据进行缺失值填充,对于数据缺失的部分,利用三次样条插值法补全缺失数据;
(2)对异常样本进行平滑处理与错误修正,对于统计错误出现的负值以相邻正常线损平均值代替;
(3)对所有样本数据进行Z-score标准化,其计算式如下:
Figure BDA0002564256370000071
Figure BDA0002564256370000072
Figure BDA0002564256370000073
Figure BDA0002564256370000074
式中,XZ是由n条馈线的m个特征数据构成的经过标准化得到n×m矩阵,xij是第i条馈线第j个未处理的特征数据,
Figure BDA0002564256370000076
是矩阵XZ中第i条馈线第j个经过处理的特征数据,n表示馈线的数量,μj为所有馈线第j个未处理的特征数据的均值,σj为所有馈线第j个未处理的特征数据的标准差。
S3:确定聚类中心数。
由于K-means聚类算法需预先确定初始的聚类中心数K,聚类中心数的选择是否合理将影响算法的迭代次数及收敛。K-means聚类算法将待分类数据分为K个簇,通过轮廓系数作为评价标准,确定最佳聚类中心数。
Figure BDA0002564256370000075
式中,a(i)表示第i条馈线到所有它属于的簇中其他样本点的距离平均值,b(i)表示第i条馈线到它非所属簇内的所有样本点的平均距离,S(i)为第i条馈线的轮廓系数,值介于[-1,1],数值越大表示聚类效果越好。
S4:构建基于K-means聚类算法的聚类模型。
如图3所示,基于K-means聚类算法的聚类模型构建流程为:
(1)由步骤三确定K值,即希望将数据集经过聚类得到K个集合;
(2)从数据集中随机选择K个数据点作为质心;
(3)对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到那个质心所属的集合;
(4)把所有数据归好集合后,一共有K个集合。然后重新计算每个集合的质心;
(5)如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),则可以认为聚类已经达到期望的结果,算法终止;
(6)如果新质心和原质心距离变化很大,需要迭代(3)~(5)步骤。
S5:对聚类结果进行准确性评价。
选用两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果,分别为准确率fass1和漏检率fass2,其计算公式如下所示:
Figure BDA0002564256370000081
Figure BDA0002564256370000082
其中:mNT为将正常数据分类为正常的数目,mAT为将异常数据分类为异常的数目,mNF为将正常数据分类为异常的数目,mAF为将异常数据分类为正常的数目。
实施例2:
基于同一发明构思,本发明还提供了一种基于K-means聚类算法的配电网线损异常诊断方法系统,由于这些设备解决技术问题的原理与基于K-means聚类算法的配电网线损异常诊断方法相似,重复之处不再赘述。
该系统基本结构如图4所示,包括:特征数据模块、最佳聚类中心数模块、聚类模块和线损判断模块;
其中特征数据模块,用于基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
最佳聚类中心数模块,用于通过轮廓系数作为评价标准,确定最佳聚类中心数;
聚类模块,用于基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
线损判断模块,用于从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
其中最佳聚类中心数模块包括:预设分类单元、计算单元和选择单元;
预设分类单元,用于根据预设的多个聚类中心数,分别对所述特征数据进行多次分类;
计算单元,用于针对每个聚类中心数的分类结果,将每个类别设置一个样本点,计算所述样本点所属类别中所有其他特征数据到所述样本点的第一距离平均距离,以及计算所述样本点相邻最近类别中所有特征数据到所述样本点的第二平均距离;
选择单元,用于根据第一距离平均距离和第二平均距离计算轮廓系数;选择最大轮廓系数对应的聚类中心数,作为最佳聚类中心数。
其中聚类模块包括:质心单元、距离判断单元和质心对比单元;
质心单元,用于根据最佳聚类中心数中随机选择多个配电网中导致线损异常的特征数据点作为质心;
距离判断单元,用于计算所有特征数据到每一个质心的距离,根据距离近为原则划分每一个特征数据所属的类别;
质心对比单元,用于重新计算每个类别的质心,并计算所述质心与重新计算前质心的距离,若所述距离小于预设阈值,则结束;反之调用距离判断单元。
本实施例提供的系统还包括进行数据处理的预处理模块,预处理模块包括:补全单元、代替单元和标准化单元;
补全单元,用于对数据缺失的部分,利用三次样条插值法补全缺失数据;
代替单元,用于对统计错误出现的负值以相邻正常数据的平均值代替;
标准化单元,用于对所有特征数据进行Z-score标准化。
本实施例提供的系统还包括评估模块,用于准确率和漏检率两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (13)

1.一种基于K-means聚类算法的配电网线损异常诊断方法,其特征在于,包括:
基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
通过轮廓系数作为评价标准,确定最佳聚类中心数;
基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
2.根据权利要求1所述的一种基于K-means聚类算法的配电网线损异常诊断方法,其特征在于,所述特征数据包括:功率因数、供电电量、平均线损率、线损率变化系数和电表开盖记录。
3.根据权利要求2所述的诊断方法,其特征在于,所述平均线损率的计算公式如下:
Figure FDA0002564256360000011
式中
Figure FDA0002564256360000012
表示第i条馈线的平均线损率,Lit表示第i条馈线在第t天的平均线损率,N表示馈线的数量,T表示数据的总天数。
4.根据权利要求2所述的诊断方法,其特征在于,所述线损率变化系数的计算公式如下:
Figure FDA0002564256360000013
Figure FDA0002564256360000014
其中CVi是第i条馈线的线损率变化系数,σi是第i条馈线的线损率标准差,Lit表示第i条馈线在第t天的平均线损率,
Figure FDA0002564256360000015
表示第i条馈线的平均线损率,N表示馈线的数量,T表示数据的总天数。
5.根据权利要求2所述的诊断方法,其特征在于,所述电表开盖记录计算公式如下:
Figure FDA0002564256360000016
式中,Oi表示第i条馈线的电表开盖记录,oit表示第i条馈线第t天的电表开盖记录,N表示馈线的数量,T表示数据的总天数。
6.根据权利要求1所述的诊断方法,其特征在于,所述通过轮廓系数作为评价标准,确定最佳聚类中心数,包括:
设定多个聚类中心数,基于每个聚类中心数分别对所述特征数据进行分类;
针对每个初始聚类中心数对应的分类结果,将每个类别设置一个样本点,计算所述样本点所属类别中所有其他特征数据到所述样本点的第一平均距离,以及计算所述样本点相邻最近类别中所有特征数据到所述样本点的第二平均距离;
根据第一平均距离和第二平均距离计算轮廓系数;
选择最大轮廓系数对应的聚类中心数,作为最佳聚类中心数。
7.根据权利要求6所述的诊断方法,其特征在于,所述轮廓系数的计算式如下:
Figure FDA0002564256360000021
其中S(k)为以k为样本点的轮廓系数,对于类别中的一个样本点k,a(k)是样本点k到所属类别中其他特征数据的第一平均距离,b(k)是样本点k到与k相邻最近的类别内的所有特征数据的第二平均距离。
8.根据权利要求1所述的诊断方法,其特征在于,所述基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类包括:
步骤1根据最佳聚类中心数中随机选择多个配电网中导致线损异常的特征数据点作为质心;
步骤2计算所有特征数据到每一个质心的距离,根据距离近为原则划分每一个特征数据所属的类别;
步骤3重新计算每个类别的质心,并计算所述质心与重新计算前质心的距离,若所述距离小于预设阈值,算法终止;反之转入步骤2。
9.根据权利要求1所述的诊断方法,其特征在于,所述基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据之后,且根据所述通过轮廓系数作为评价标准,确定最佳聚类中心数之前,还包括:对配电网中导致线损异常的特征数据进行如下处理:
对于数据缺失的部分,利用三次样条插值法补全缺失数据;
对于统计错误出现的负值以相邻正常数据的平均值代替;
对所有特征数据进行Z-score标准化。
10.根据权利要求9所述的诊断方法,其特征在于,所述对所有特征数据进行Z-score标准化的计算式如下:
Figure FDA0002564256360000031
Figure FDA0002564256360000032
Figure FDA0002564256360000033
Figure FDA0002564256360000034
式中,XZ是由n条配线的m个特征数据构成的经过标准化得到n×m矩阵,xij是第i条馈线第j个未处理的特征数据,
Figure FDA0002564256360000035
是矩阵XZ中第i条配线第j个经过处理的特征数据,n表示馈线的数量,μj为所有馈线第j个未处理的特征数据的均值,σj为所有馈线第j个未处理的特征数据的标准差。
11.根据权利要求1所述的诊断方法,其特征在于,所述从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点之后,还包括:选用准确率fass1和漏检率fass2两种指标来评估基于K-means聚类算法的配电网线损异常诊断方法的诊断效果。
12.根据权利要求11所述的诊断方法,其特征在于,所述的准确率fass1的计算式如下:
Figure FDA0002564256360000036
所述漏检率fass2的计算式如下:
Figure FDA0002564256360000037
其中:mNT为将正常数据分类为正常的数目,mAT为将异常数据分类为异常的数目,mNF为将正常数据分类为异常的数目,mAF为将异常数据分类为正常的数目。
13.一种基于K-means聚类算法的配电网线损异常诊断系统,其特征在于,包括:特征数据模块、最佳聚类中心数模块、聚类模块和线损判断模块;
所述特征数据模块,用于基于导致线损异常的影响因素获取多个配电网数据,分别计算各配电网各影响因素对应的特征数据;
所述最佳聚类中心数模块,通过轮廓系数作为评价标准,确定最佳聚类中心数;
所述聚类模块,基于所述最佳聚类中心数,对所述特征数据采用K-means聚类算法进行聚类;
所述线损判断模块,从所有特征数据中选择与聚类中心距离大于预设阈值的特征数据作为线损异常点。
CN202010624448.6A 2020-07-01 2020-07-01 一种基于K-means聚类算法的配电网线损异常诊断方法和系统 Pending CN112001409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010624448.6A CN112001409A (zh) 2020-07-01 2020-07-01 一种基于K-means聚类算法的配电网线损异常诊断方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010624448.6A CN112001409A (zh) 2020-07-01 2020-07-01 一种基于K-means聚类算法的配电网线损异常诊断方法和系统

Publications (1)

Publication Number Publication Date
CN112001409A true CN112001409A (zh) 2020-11-27

Family

ID=73468147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010624448.6A Pending CN112001409A (zh) 2020-07-01 2020-07-01 一种基于K-means聚类算法的配电网线损异常诊断方法和系统

Country Status (1)

Country Link
CN (1) CN112001409A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613584A (zh) * 2021-01-07 2021-04-06 国网上海市电力公司 一种故障诊断方法、装置、设备及存储介质
CN113125903A (zh) * 2021-04-20 2021-07-16 广东电网有限责任公司汕尾供电局 线损异常检测方法、装置、设备及计算机可读存储介质
CN113435609A (zh) * 2021-06-08 2021-09-24 国网河北省电力有限公司临漳县供电分公司 线损异常检测方法、装置及终端设备
CN113780488A (zh) * 2021-11-15 2021-12-10 常州微亿智造科技有限公司 基于位置聚合程度的刮伤与擦伤缺陷检测方法
CN114241229A (zh) * 2022-02-21 2022-03-25 中煤科工集团西安研究院有限公司 一种电性成像结果中异常体边界智能识别方法
CN114298147A (zh) * 2021-11-23 2022-04-08 深圳无域科技技术有限公司 异常样本的检测方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613584A (zh) * 2021-01-07 2021-04-06 国网上海市电力公司 一种故障诊断方法、装置、设备及存储介质
CN113125903A (zh) * 2021-04-20 2021-07-16 广东电网有限责任公司汕尾供电局 线损异常检测方法、装置、设备及计算机可读存储介质
CN113435609A (zh) * 2021-06-08 2021-09-24 国网河北省电力有限公司临漳县供电分公司 线损异常检测方法、装置及终端设备
CN113780488A (zh) * 2021-11-15 2021-12-10 常州微亿智造科技有限公司 基于位置聚合程度的刮伤与擦伤缺陷检测方法
CN114298147A (zh) * 2021-11-23 2022-04-08 深圳无域科技技术有限公司 异常样本的检测方法、装置、电子设备及存储介质
CN114241229A (zh) * 2022-02-21 2022-03-25 中煤科工集团西安研究院有限公司 一种电性成像结果中异常体边界智能识别方法

Similar Documents

Publication Publication Date Title
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
CN107220732B (zh) 一种基于梯度提升树的停电投诉风险预测方法
CN111724278A (zh) 一种面向电力多元负荷用户的精细分类方法及系统
CN108681973A (zh) 电力用户的分类方法、装置、计算机设备和存储介质
US20060230018A1 (en) Mahalanobis distance genetic algorithm (MDGA) method and system
CN114298863A (zh) 一种智能抄表终端的数据采集方法及系统
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
Khan et al. Segmentation of factories on electricity consumption behaviors using load profile data
CN108345908A (zh) 电网数据的分类方法、分类设备及存储介质
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN115563477B (zh) 谐波数据识别方法、装置、计算机设备和存储介质
CN112001441A (zh) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN111178957A (zh) 一种用电客户电量突增预警的方法
CN115905990A (zh) 一种基于密度聚集算法的变压器油温异常监测方法
CN115422788A (zh) 一种配电网线损分析管理方法、装置、存储介质及系统
CN115033591A (zh) 一种电费数据异常智能检测方法、系统、存储介质及计算机设备
CN114202179A (zh) 目标企业的识别方法以及装置
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN110781959A (zh) 基于birch算法和随机森林算法的电力客户分群方法
CN116307844A (zh) 一种低压台区线损评估分析方法
Wang et al. Application of clustering technique to electricity customer classification for load forecasting
CN113705920B (zh) 火电厂用水数据样本集的生成方法和终端设备
CN115687948A (zh) 一种基于负荷曲线的电力专变用户无监督分类方法
CN109871998B (zh) 一种基于专家样本库的配电网线损率预测方法及装置
CN114626433A (zh) 一种智能电能表故障预测并分类方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination