CN109145957A - 基于大数据的配电网异常指标的识别与处理方法及装置 - Google Patents

基于大数据的配电网异常指标的识别与处理方法及装置 Download PDF

Info

Publication number
CN109145957A
CN109145957A CN201810836346.3A CN201810836346A CN109145957A CN 109145957 A CN109145957 A CN 109145957A CN 201810836346 A CN201810836346 A CN 201810836346A CN 109145957 A CN109145957 A CN 109145957A
Authority
CN
China
Prior art keywords
data
value
cluster
abnormal index
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810836346.3A
Other languages
English (en)
Other versions
CN109145957B (zh
Inventor
陈蕾
阙波
盛晔
陈彤
郑贤舜
叶怡君
夏惠惠
叶清泉
郑圣
涂金金
李莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Wenzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810836346.3A priority Critical patent/CN109145957B/zh
Publication of CN109145957A publication Critical patent/CN109145957A/zh
Application granted granted Critical
Publication of CN109145957B publication Critical patent/CN109145957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于大数据的配电网异常指标的识别与处理方法,包括:采集配电网专公变运行实时数据并发送至配网智能运维管控系统中,实时数据运行数据存放在分布式数据库HBase中;计算时用SPARK将运行实时数据从HBase数据库中加载至内存中,利用iForest算法识别出运行数据的异常值并将其删除,将剩余数据子集用k‑means算法聚类,聚类后用每个类别相应维度处的平均值填补删掉的异常值。上述方法采用的装置包括:数据采集、加载、剔除、聚类、处理模块。本发明利用分布式数据库HBASE存储专公变运行实时数据,通过大数据的分布式与并行计算框架SPARK对海量数据的高效分析,及时发现配电网运行实时数据的缺陷并做出修正。

Description

基于大数据的配电网异常指标的识别与处理方法及装置
技术领域
本发明属于配电网指标分析领域,具体涉及基于大数据的配电网异常指标的识别与处理方法及装置。
背景技术
配网处于整个电网的末梢,是电力企业面向社会的窗口,配网的运行管理直接关系千家万户,社会责任和影响巨大。随着社会的不断发展,对配网的精益化管理提出了越来越高的要求。配电网具有点多、线长、面广的特点,随着用电信息系统的发展,采集装置的日益先进,大部分配网公用配变具备了采集电流、电压、功率的条件,有效的利用公变运行数据对指标进行统计分析,对于及早发现公变运行异常、采集数据质量、传输通道问题具有重要的实际意义。
目前,已提出公变三相不平衡、低电压、重过载等传统指标统计分析,能够较好的反映出配电网公变的运行情况,可以用于及时开展整治工作。然而随着公变运行数据的逐步累积,传统分析方法显得日渐乏力,因此,需要一种能够从数据源头掌控整体情况、更有利于开展整治工作和指定整治措施的分析方法。
发明内容
本发明的目的在于提供基于大数据的配电网异常指标的识别与处理方法及装置,能够有效提高数据质量,从而提高数据分析的效率和准确率,为制定整治措施提供依据,进一步提升配电网运行水平。
为了解决上述技术问题,本发明是通过以下技术方案实现的:基于大数据的配电网异常指标的识别与处理方法,包括以下步骤:
步骤A:采集公变运行数据并发送至用电信息采集系统,并将公变运行数据存放在用电信息采集系统的HBase数据库中;
步骤B:将公变运行数据从HBase库中加载至分布式内存中;
步骤C:利用iForest算法识别出运行数据的异常值并将其删除;
步骤D:将经过步骤C剩余数据子集用k-means算法聚类;
步骤E:将步骤D聚类后用每个类别相应维度处的平均值填补删掉的异常值。
优选的,步骤C中所述iForest算法识别运行数据异常值,具体为:
C1、对运行数据进行无放回随机抽样;
C2、根据样本数据构造iTree树,即随机选择一个维度,在该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前节点的左子叶,大于划分点的数据放在当前节点的右子叶;
C3、按步骤C2所述操作对子叶迭代,直到数据不可再分或树的高度达到阈值;
C4、按步骤C1、C2、C3所述的操作构建更多iTree树,组成iForest森林;
C5、将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来。
优选的,步骤C5中h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649。
优选的,步骤D中所述将剔除掉异常值的剩余数据用k-means算法聚类,具体为:
D1、在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
D2、计算其余所有点与质心点的欧氏距离;
D3、将所有与质心点距离值小于阈值的点归为一个聚类簇;
D4、重新计算每个聚类簇的中心点位置并定义其为新的质心;
D5、迭代步骤D2和步骤D3,直到达到设定的迭代次数或质心点位置收敛;
D6、计算聚类的轮廓系数,修改K值,重复步骤D1至D5,选择轮廓系数最高的聚类模型作为最终模型。
优选的,步骤D6中,聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
基于大数据的配电网异常指标的识别与处理装置,包括:
数据采集模块,采集公变运行数据并发送至用电信息采集系统,以供用电信息采集系统的HBase数据库存放公变运行数据;
数据加载模块,将公变运行数据从HBase库中加载至分布式内存中;
数据剔除模块,利用iForest算法识别出运行数据的异常值并将其删除;
数据聚类模块,将剩余数据子集用k-means算法聚类;
数据处理模块,将聚类后用每个类别相应维度处的平均值填补删掉的异常值。
优选的,所述数据剔除模块具体包括:
随机抽样单元,对运行数据进行无放回随机抽样;
构造iTree树单元,根据样本数据构造iTree树,即随机选择一个维度,在
该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前
节点的左子叶,大于划分点的数据放在当前节点的右子叶;
迭代单元,对子叶迭代,直到数据不可再分或树的高度达到阈值;
组建iForest森林单元,将更多的iTree树组成iForest森林;
异常识别单元,用于将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来。
优选的,在所述异常识别单元中:h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649。
优选的,所述数据聚类模块具体包括:
初始质心建立单元,用于在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
欧氏距离计算单元,用于计算其余所有点与质心点的欧氏距离;
聚类簇归类单元,将所有与质心点距离值小于阈值的点归为一个聚类簇;
新质心计算单元,将重新计算每个聚类簇的中心点位置并定义其为新的质心;
收敛单元,用于重复进行迭代,直到达到设定的迭代次数或质心点位置收敛;
模型建立单元,用于计算聚类的轮廓系数,修改K值,重复计算聚类的轮廓系数,选择轮廓系数最高的聚类模型作为最终模型。
优选的,在模型建立单元中:聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
与现有技术相比,本发明的优点是:本发明结合用电信息采集系统采集的公变电流、电压、功率等运行数据,依托于大数据技术-分布式并行计算框架,采用时间复杂度低、准确率高的iForest算法识别异常数据点,利用收敛速度快、参数少、效果优良的k-means算法对剩余数据子集进行聚类,最终实现将异常值替换为正常值,本发明不但可以提高数据质量,提高后期数据分析的准确率,还能宏观掌控变压器的运行健康情况,发现采集装置和数据传输通道缺陷,对发现设备潜在的故障隐患,确保电力系统安全稳定的运行具有重要的实际意义。
具体实施方式
下面的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例一:
基于大数据的配电网异常指标的识别与处理方法,包括以下步骤:
步骤A:采集公变电流、电压、功率通过电能表传送至用电信息采集系统,并将公变运行数据存放在用电信息采集系统的HBase数据库中;
步骤B:将公变运行数据从HBase库中加载至分布式内存中;
步骤C:利用iForest算法识别出运行数据的异常值并将其删除,具体为:
C1、对运行数据进行无放回随机抽样;
C2、根据样本数据构造iTree树,即随机选择一个维度,在该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前节点的左子叶,大于划分点的数据放在当前节点的右子叶;
C3、按步骤C2所述操作对子叶迭代,直到数据不可再分或树的高度达到阈值;
C4、按步骤C1、C2、C3所述的操作构建更多iTree树,组成iForest森林;
C5、将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来;h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649(欧拉常数);
步骤D:将经过步骤C剩余数据子集用k-means算法聚类,具体为:
D1、在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
D2、计算其余所有点与质心点的欧氏距离,两个数据点x1(x11,x12,x13...)和x2(x21,x22,x23...)的欧氏距离由下式计算:
D3、将所有与质心点距离值小于阈值的点归为一个聚类簇;
D4、重新计算每个聚类簇的中心点位置并定义其为新的质心,每个簇的中心位置由下式计算得到:
其中,N为每个簇中的数据点个数,xi为每个簇中的数据点的坐标向量;
D5、迭代步骤D2和步骤D3,直到达到设定的迭代次数或质心点位置收敛;
D6、计算聚类的轮廓系数,修改K值,重复步骤D1至D5,选择轮廓系数最高的聚类模型作为最终模型,聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
步骤E:将步骤D聚类后用每个类别相应维度处的平均值填补删掉的异常值。
本发明结合用电信息采集系统采集的公变电流、电压、功率等运行数据,依托于大数据技术-分布式并行计算框架,采用时间复杂度低、准确率高的iForest算法识别异常数据点,利用收敛速度快、参数少、效果优良的k-means算法对剩余数据子集进行聚类,最终实现将异常值替换为正常值,本发明不但可以提高数据质量,提高后期数据分析的准确率,还能宏观掌控变压器的运行健康情况,发现采集装置和数据传输通道缺陷,对发现设备潜在的故障隐患,确保电力系统安全稳定的运行具有重要的实际意义。
实施例二:
本申请还提出了基于大数据的配电网异常指标的识别与处理的装置,包括:
数据采集模块,采集公变运行数据并发送至用电信息采集系统,以供用电信息采集系统的HBase数据库存放公变运行数据;
数据加载模块,将公变运行数据从HBase库中加载至分布式内存中;
数据剔除模块,利用iForest算法识别出运行数据的异常值并将其删除;
数据聚类模块,将剩余数据子集用k-means算法聚类;
数据处理模块,将聚类后用每个类别相应维度处的平均值填补删掉的异常值。
具体的,所述数据剔除模块包括:
随机抽样单元,对运行数据进行无放回随机抽样;
构造iTree树单元,根据样本数据构造iTree树,即随机选择一个维度,在
该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前
节点的左子叶,大于划分点的数据放在当前节点的右子叶;
迭代单元,对子叶迭代,直到数据不可再分或树的高度达到阈值;
组建iForest森林单元,将更多的iTree树组成iForest森林;
异常识别单元,用于将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来。
而在异常识别单元中:h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649。
具体的,所述数据聚类模块具体包括:
初始质心建立单元,用于在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
欧氏距离计算单元,用于计算其余所有点与质心点的欧氏距离;
聚类簇归类单元,将所有与质心点距离值小于阈值的点归为一个聚类簇;
新质心计算单元,将重新计算每个聚类簇的中心点位置并定义其为新的质心;
收敛单元,用于重复进行迭代,直到达到设定的迭代次数或质心点位置收敛;
模型建立单元,用于计算聚类的轮廓系数,修改K值,重复计算聚类的轮廓系数,选择轮廓系数最高的聚类模型作为最终模型。
而模型建立单元中:聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.基于大数据的配电网异常指标的识别与处理方法,其特征在于,包括以下步骤:
步骤A:采集公变运行数据并发送至用电信息采集系统,并将公变运行数据存放在用电信息采集系统的HBase数据库中;
步骤B:将公变运行数据从HBase库中加载至分布式内存中;
步骤C:利用iForest算法识别出运行数据的异常值并将其删除;
步骤D:将经过步骤C剩余数据子集用k-means算法聚类;
步骤E:将步骤D聚类后用每个类别相应维度处的平均值填补删掉的异常值。
2.如权利要求1所述的基于大数据的配电网异常指标的识别与处理方法,其特征在于,步骤C中所述iForest算法识别运行数据异常值,具体为:
C1、对运行数据进行无放回随机抽样;
C2、根据样本数据构造iTree树,即随机选择一个维度,在该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前节点的左子叶,大于划分点的数据放在当前节点的右子叶;
C3、按步骤C2所述操作对子叶迭代,直到数据不可再分或树的高度达到阈值;
C4、按步骤C1、C2、C3所述的操作构建更多iTree树,组成iForest森林;
C5、将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来。
3.如权利要求2所述的基于大数据的配电网异常指标的识别与处理方法,其特征在于,步骤C5中h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649。
4.如权利要求1所述的基于大数据的配电网异常指标的识别与处理方法,其特征在于,步骤D中所述将剔除掉异常值的剩余数据用k-means算法聚类,具体为:
D1、在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
D2、计算其余所有点与质心点的欧氏距离;
D3、将所有与质心点距离值小于阈值的点归为一个聚类簇;
D4、重新计算每个聚类簇的中心点位置并定义其为新的质心;
D5、迭代步骤D2和步骤D3,直到达到设定的迭代次数或质心点位置收敛;
D6、计算聚类的轮廓系数,修改K值,重复步骤D1至D5,选择轮廓系数最高的聚类模型作为最终模型。
5.如权利要求4所述的基于大数据的配电网异常指标的识别与处理方法,其特征在于,步骤D6中,聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
6.基于大数据的配电网异常指标的识别与处理装置,其特征在于,包括:
数据采集模块,采集公变运行数据并发送至用电信息采集系统,以供用电信息采集系统的HBase数据库存放公变运行数据;
数据加载模块,将公变运行数据从HBase库中加载至分布式内存中;
数据剔除模块,利用iForest算法识别出运行数据的异常值并将其删除;
数据聚类模块,将剩余数据子集用k-means算法聚类;
数据处理模块,将聚类后用每个类别相应维度处的平均值填补删掉的异常值。
7.如权利要求6所述基于大数据的配电网异常指标的识别与处理装置,其特征在于,所述数据剔除模块具体包括:
随机抽样单元,对运行数据进行无放回随机抽样;
构造iTree树单元,根据样本数据构造iTree树,即随机选择一个维度,在该维度上随机选择一值作为划分点,将该维度里小于划分点的数据放在当前节点的左子叶,大于划分点的数据放在当前节点的右子叶;
迭代单元,对子叶迭代,直到数据不可再分或树的高度达到阈值;
组建iForest森林单元,将更多的iTree树组成iForest森林;
异常识别单元,用于将全部数据遍历所有iTree树,计算每个数据x在iTree上高度h(x),由n个iTree树的h(x)计算异常指数s(x,n),将异常指数超出阈值的数据点作为异常值识别出来。
8.如权利要求7所述基于大数据的配电网异常指标的识别与处理装置,其特征在于,在所述异常识别单元中:h(x)为数据点x距离根节点的层数,异常指数s(x,n)由下式求得:
其中E(h(x))表示h(x)的均值,c(n)则由下式得到:
c(n)=2H(n-1)-(2(n-1)/n)
其中,H(i)为调和级数,H(i)=ln(i)+0.5772156649。
9.如权利要求6所述基于大数据的配电网异常指标的识别与处理装置,其特征在于,所述数据聚类模块具体包括:
初始质心建立单元,用于在剩余数据中随机选择K个点作为初始质心,其中K为指定的参数;
欧氏距离计算单元,用于计算其余所有点与质心点的欧氏距离;
聚类簇归类单元,将所有与质心点距离值小于阈值的点归为一个聚类簇;
新质心计算单元,将重新计算每个聚类簇的中心点位置并定义其为新的质心;收敛单元,用于重复进行迭代,直到达到设定的迭代次数或质心点位置收敛;
模型建立单元,用于计算聚类的轮廓系数,修改K值,重复计算聚类的轮廓系数,选择轮廓系数最高的聚类模型作为最终模型。
10.如权利要求9所述基于大数据的配电网异常指标的识别与处理装置,其特征在于,在模型建立单元中:聚类的轮廓系数S(i)由下式计算得到:
其中a(i)为样本i到同簇其它样本欧氏距离的均值,b(i)为样本i到其它簇所有样本欧氏距离的均值。
CN201810836346.3A 2018-07-26 2018-07-26 基于大数据的配电网异常指标的识别与处理方法及装置 Active CN109145957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810836346.3A CN109145957B (zh) 2018-07-26 2018-07-26 基于大数据的配电网异常指标的识别与处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810836346.3A CN109145957B (zh) 2018-07-26 2018-07-26 基于大数据的配电网异常指标的识别与处理方法及装置

Publications (2)

Publication Number Publication Date
CN109145957A true CN109145957A (zh) 2019-01-04
CN109145957B CN109145957B (zh) 2023-09-12

Family

ID=64798070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810836346.3A Active CN109145957B (zh) 2018-07-26 2018-07-26 基于大数据的配电网异常指标的识别与处理方法及装置

Country Status (1)

Country Link
CN (1) CN109145957B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN110599060A (zh) * 2019-09-20 2019-12-20 南方电网科学研究院有限责任公司 配电网运行效率确定方法、装置及设备
CN111506624A (zh) * 2020-04-16 2020-08-07 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN111505433A (zh) * 2020-04-10 2020-08-07 国网浙江余姚市供电有限公司 一种低压台区户变关系纠错及相位识别方法
CN112001441A (zh) * 2020-08-24 2020-11-27 中国石油大学(华东) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN112036622A (zh) * 2020-08-18 2020-12-04 国网上海能源互联网研究院有限公司 一种基于图谱分析确定配电终端运行状态的方法及系统
CN112905583A (zh) * 2021-04-01 2021-06-04 辽宁工程技术大学 一种高维大数据离群点检测方法
CN112950403A (zh) * 2021-01-29 2021-06-11 上海电气风电集团股份有限公司 风机多工况数据异常处理的方法、装置及计算机可读存储介质
CN113111893A (zh) * 2020-01-09 2021-07-13 中国移动通信集团四川有限公司 一种数据的处理方法、系统以及电子设备
CN113125903A (zh) * 2021-04-20 2021-07-16 广东电网有限责任公司汕尾供电局 线损异常检测方法、装置、设备及计算机可读存储介质
CN113298297A (zh) * 2021-05-10 2021-08-24 内蒙古工业大学 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN113536078A (zh) * 2021-07-15 2021-10-22 长江存储科技有限责任公司 用于筛选数据的方法、设备和计算机存储介质
CN113837458A (zh) * 2020-12-29 2021-12-24 国网江西省电力有限公司南昌供电分公司 一种电力配网数据边缘计算模型及基于边缘计算模型的配网设备消缺辅助系统和消缺方法
CN117689913A (zh) * 2022-12-14 2024-03-12 中国科学院沈阳自动化研究所 一种大数据驱动的油井动液面软测量方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US6006170A (en) * 1996-06-28 1999-12-21 Siemens Corporate Research, Inc. Method and system for ascertaining anomalies in electric motors
US20150363551A1 (en) * 2013-01-31 2015-12-17 Renaud CEZAR Process for identifying rare events
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
CN107169640A (zh) * 2017-05-03 2017-09-15 国网江西省电力公司电力科学研究院 一种基于大数据技术的配电网关键指标分析方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US6006170A (en) * 1996-06-28 1999-12-21 Siemens Corporate Research, Inc. Method and system for ascertaining anomalies in electric motors
US20150363551A1 (en) * 2013-01-31 2015-12-17 Renaud CEZAR Process for identifying rare events
CN107122879A (zh) * 2017-03-03 2017-09-01 广东南方电力通信有限公司 一种基于大数据与设备状态异常跟踪的电网状态检修方法
CN107169640A (zh) * 2017-05-03 2017-09-15 国网江西省电力公司电力科学研究院 一种基于大数据技术的配电网关键指标分析方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NICOLAS GOIX ET AL.: "Sparse representation of multivariate extremes with applications to anomaly detection", 《JOURNAL OF MULTIVARIATE ANALYSIS》 *
谢荣斌;马春雷;张丽娟;靳斌;: "基于改进K-means聚类的变压器异常状态识别模型", 电力大数据 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN109948669B (zh) * 2019-03-04 2021-07-13 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN110599060A (zh) * 2019-09-20 2019-12-20 南方电网科学研究院有限责任公司 配电网运行效率确定方法、装置及设备
CN113111893B (zh) * 2020-01-09 2022-12-16 中国移动通信集团四川有限公司 一种数据的处理方法、系统以及电子设备
CN113111893A (zh) * 2020-01-09 2021-07-13 中国移动通信集团四川有限公司 一种数据的处理方法、系统以及电子设备
CN111505433A (zh) * 2020-04-10 2020-08-07 国网浙江余姚市供电有限公司 一种低压台区户变关系纠错及相位识别方法
CN111506624A (zh) * 2020-04-16 2020-08-07 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN111506624B (zh) * 2020-04-16 2023-05-23 南方电网科学研究院有限责任公司 一种电力缺失数据辨识方法和相关装置
CN112036622B (zh) * 2020-08-18 2023-12-26 国网上海能源互联网研究院有限公司 一种基于图谱分析确定配电终端运行状态的方法及系统
CN112036622A (zh) * 2020-08-18 2020-12-04 国网上海能源互联网研究院有限公司 一种基于图谱分析确定配电终端运行状态的方法及系统
CN112001441A (zh) * 2020-08-24 2020-11-27 中国石油大学(华东) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN113837458A (zh) * 2020-12-29 2021-12-24 国网江西省电力有限公司南昌供电分公司 一种电力配网数据边缘计算模型及基于边缘计算模型的配网设备消缺辅助系统和消缺方法
CN112950403A (zh) * 2021-01-29 2021-06-11 上海电气风电集团股份有限公司 风机多工况数据异常处理的方法、装置及计算机可读存储介质
CN112905583A (zh) * 2021-04-01 2021-06-04 辽宁工程技术大学 一种高维大数据离群点检测方法
CN113125903A (zh) * 2021-04-20 2021-07-16 广东电网有限责任公司汕尾供电局 线损异常检测方法、装置、设备及计算机可读存储介质
CN113298297A (zh) * 2021-05-10 2021-08-24 内蒙古工业大学 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN113536078A (zh) * 2021-07-15 2021-10-22 长江存储科技有限责任公司 用于筛选数据的方法、设备和计算机存储介质
CN117689913A (zh) * 2022-12-14 2024-03-12 中国科学院沈阳自动化研究所 一种大数据驱动的油井动液面软测量方法

Also Published As

Publication number Publication date
CN109145957B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN109145957A (zh) 基于大数据的配电网异常指标的识别与处理方法及装置
CN110231528B (zh) 基于负荷特征模型库的变压器户变异常识别方法及装置
CN106897821B (zh) 一种暂态评估特征选择方法及装置
CN109002933B (zh) 基于ReliefF和t-SNE的配电线路线变关系模型优化方法
CN107402976A (zh) 一种基于多元异构模型的电网多源数据融合方法及系统
CN110082699A (zh) 一种低压台区智能电能表运行误差计算方法及其系统
CN106096810B (zh) 基于配电网运行数据与地理拓扑信息的规划方法及系统
CN112149873B (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN103235743B (zh) 一种基于分解和最优解跟随策略的多目标测试任务调度方法
CN106505593A (zh) 一种基于大数据的配变三相不平衡分析与负荷调整的方法
CN109102146B (zh) 基于多参数线性规划的电力系统风险评估加速方法
CN112491096B (zh) 一种用于生成电网仿真分析算例的方法及系统
CN108832615A (zh) 一种基于改进二进制粒子群算法的配电网重构方法及系统
CN109599896A (zh) 一种10kV电网分布式光伏最大可开放容量的计算方法
CN107729939A (zh) 一种面向新增电网资源的cim模型扩展方法及装置
CN112200458A (zh) 一种配电网规划数据应用方法及系统
CN113852204A (zh) 一种于数字孪生的变电站三维全景监视系统及方法
CN109902133A (zh) 基于电网任意分割区域的多源数据纠错处理方法及系统
CN111864728B (zh) 一种可重构配电网重要设备识别方法和系统
CN106251035A (zh) 用于项目指标计算的数据处理方法和装置
CN108183481B (zh) 一种基于深度学习电网快速判稳方法和系统
CN109934917A (zh) 基于机器学习预测计算强度的并行化点云生成dem方法
CN115579885A (zh) 一种电网拓扑分析方法及装置
CN112488550B (zh) 基于深度学习的不确定性电网静态安全分析方法及系统
CN111553040B (zh) 一种基于gpu加速的电网拓扑分析高性能计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant