CN111126429A - 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 - Google Patents

一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 Download PDF

Info

Publication number
CN111126429A
CN111126429A CN201911091514.1A CN201911091514A CN111126429A CN 111126429 A CN111126429 A CN 111126429A CN 201911091514 A CN201911091514 A CN 201911091514A CN 111126429 A CN111126429 A CN 111126429A
Authority
CN
China
Prior art keywords
data
pca
analysis
clustering
access point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911091514.1A
Other languages
English (en)
Inventor
王伟峰
严华江
胡瑛俊
叶方彬
姜莹
姜驰
戴磊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd, Zhejiang Huayun Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911091514.1A priority Critical patent/CN111126429A/zh
Publication of CN111126429A publication Critical patent/CN111126429A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J13/00Circuit arrangements for providing remote indication of network conditions, e.g. an instantaneous record of the open or closed condition of each circuitbreaker in the network; Circuit arrangements for providing remote control of switching means in a power distribution network, e.g. switching in and out of current consumers by using a pulse code signal carried by the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B70/00Technologies for an efficient end-user side electric power management and consumption
    • Y02B70/30Systems integrating technologies related to power network operation and communication or information technologies for improving the carbon footprint of the management of residential or tertiary loads, i.e. smart grids as climate change mitigation technology in the buildings sector, including also the last stages of power distribution and the control, monitoring or operating management systems at local level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S20/00Management or operation of end-user stationary applications or the last stages of power distribution; Controlling, monitoring or operating thereof
    • Y04S20/20End-user application control systems
    • Y04S20/242Home appliances

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于PCA降维和K‑Means聚类的低压台区用户接入点识别方法,涉及低压台区用户接入识别方法。目前,排查都需要人工上门排查,且无法事先进行预测,只能逐户进行排查,耗费大量人力物力。本发明对标准化处理的数据进行主成分分析法PCA降维处理,经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下,通过寻找新的向量基,将原有高维数据投影在低维空间,剔除方差较小的噪声,保留信息量最大的主成分;聚类分析;对所分析台区进行现场排查,验证分析结果的准确性。本技术方案事先进行预测,不需要逐户进行排查,减少大量人力物力,不影响台区下其他用户的正常用电,且不需要投入载波通信设备,无需增加电力企业的运营成本。

Description

一种基于PCA降维和K-Means聚类的低压台区用户接入点识别 方法
技术领域
本发明涉及低压台区用户接入识别方法,尤其涉及一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法。
背景技术
低压台区处于整个供电网络的最后一个环节,由于供电区域错综复杂,用户种类繁多,因此低压台区的用户拓扑档案往往存在错误多、排查难的问题。目前针对用户台区拓扑信息错误的排查方法主要有两种:人工现场排查和低压载波通信技术,前者主要依靠电力一线员工现场排查,有时还需要进行“拉闸验电”的工作;低压载波通信技术主要依靠新型采集电表装置和手持载波通信仪,通过用户与变压器之间的报文接受情况判断用户拓扑信息是否正确。
然而,这两种排查方式都需要人工上门排查,且无法事先进行预测,只能逐户进行排查,因此将耗费大量人力物力,且前者“拉闸验电”方式极大影响了台区下其他用户的正常用电,后者需要依靠目前新型的用户用电信息采集装置,这一条件在某些老小区中是不具备的,且需要投入载波通信设备,增加了电力企业的运营成本。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,以达到在降低成本的前提下,准确推断用户所属拓扑关系的目的。为此,本发明采取以下技术方案。
一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法包括以下步骤:
1)获取台区用户负荷数据;
2)对获取的台区用户负荷数据进行标准化处理;
3)对标准化处理的数据进行主成分分析法PCA降维处理,经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下,通过寻找新的向量基,将原有高维数据投影在低维空间,剔除方差较小的噪声,保留信息量最大的主成分;变换后的特征值大的维度即代表原有数据中方差较大的维数,取变换后最能反映原始数据方差特征的前五维数据,作为下一步聚类分析的输入数据;
4)聚类分析,对PCA降维后的数据采用K-Means方法进行聚类分析;最后得到各相下用户的接入点拓扑分析结果,并与系统中现有拓扑档案进行比对;
5)对所分析台区进行现场排查,验证分析结果的准确性。
本技术方案采用了PCA降维与K-Means聚类技术,在得到用户的负荷原始数据后,进行特征标准化处理;采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析,减少无用信息的干扰,根据聚类结果分析用户之间的拓扑连接关系,从而可以完成台区内用户拓扑的分类预测;与系统中已有的用户拓扑档案进行比对,可以发现是否有潜在的档案错误用户,从而为人工排查纠错提供参考;本技术方案事先进行预测,不需要逐户进行排查,减少大量人力物力,且避免“拉闸验电”方式,不影响台区下其他用户的正常用电,且不需要投入载波通信设备,无需增加电力企业的运营成本。
作为优选技术手段:在步骤1),从采集系统中选定待分析台区,提取待分析台区下所有用户的96点日负荷数据,根据采集率进行数据清洗,选取日负荷满96点日期的数据进行分析,由于日负荷在24小时内具有较大的波动性,而96点数据在模型中分析时应具有相同地位,对分析结果起到同等作用,因此需要对数据进行特征缩放,在步骤2)中采用z-score标准化方法,反映各数据在原始数据分布中的地位,同时以标准差为单位实现不同维度间数据的等距比较,z-score标准化公式如下:
Figure BDA0002266991970000031
其中,mean(x)表示用户该维度下特征的均值,std(x)表示该维度下用户特征的方差;
作为优选技术手段:在步骤3)中主成分分析法PCA降维处理包括以下步骤:
31)构建原始特征值矩阵[x1,x2,x3...xn],其中n代表个样本的维数,xi是第i维上各样本的特征值列向量;
32)计算各维样本均值ψ和差值向量di
Figure BDA0002266991970000032
di=xi
33)构建协方差矩阵:
Figure BDA0002266991970000033
式中,A=[d1,d2...dn];
34)奇异值分解(Singular Value Decomposition,SVD)求得AAT的特征值,并按照单调递减的顺序排列λ1≥λ2≥...≥λp,与其对应的特征向量分别为:μ12,...μp(p≤n);
35)根据降维目标维度选取前p个特征向量组成线性变换矩阵:
W=[μ12...μp]
36)将原始差值特征投影到p维子空间:
PCp=WTdi(i=1,2,...n)
式中,PCp为所求的p维主成分降维特征。
作为优选技术手段:在步骤4)中,K-Means算法先根据预设聚类数随机初始化聚类中心,对所有样本按照其距离各中心的远近进行归类,计算各类内样本到中心的误差和,并将类内样本均值作为新的聚类中心,不断迭代,直到类内误差和达到最小值范围内,完成聚类分析;其中误差准则函数如下:
Figure BDA0002266991970000041
其中,k表示预设聚类数量,i代表聚类样本序号,Ci代表第i类样本集,xi表示第i类样本的均值。
作为优选技术手段:在步骤3)中,采用主成分分析法进行降维处理,将原始数据降到2-10维,作为后续聚类分析的输入。
作为优选技术手段:采用主成分分析法进行降维处理,将原始数据降到7维后,将其作为后续聚类分析的输入。
作为优选技术手段:当在同一接入点下存在多相用户的情况下,需要预先对各相用户进行分类,或根据台区用户档案中的信息筛选各相用户后,再进行后续的主成分分析法PCA降维处理。
有益效果:本技术方案采用了PCA降维与K-Means聚类技术,在得到用户的负荷原始数据后,进行特征标准化处理;采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析,减少无用信息的干扰,根据聚类结果分析用户之间的拓扑连接关系,从而可以完成台区内用户拓扑的分类预测。与系统中已有的用户拓扑档案进行比对,可以发现是否有潜在的档案错误用户,从而为人工排查纠错提供参考。本技术方案事先进行预测,不需要逐户进行排查,减少大量人力物力,且避免“拉闸验电”方式,不影响台区下其他用户的正常用电,且不需要投入载波通信设备,无需增加电力企业的运营成本。本技术方案不依赖于配电系统中台区实际线路参数与拓扑信息,能够直接采用采集终端96点日负荷信息进行用户所属关系的判断,从而可以集成在用电采集系统中,并可以实现对海量用户进行拓扑分析,最终可以实现大规模推广。
附图说明
图1是本发明的流程图。
图2是本发明的降维呈现图。
图3是不同降维维数的聚类效果比对图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,包括以下步骤:
1)获取台区用户负荷数据;
2)对获取的台区用户负荷数据进行标准化处理;
3)对标准化处理的数据进行主成分分析法PCA降维处理,经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下,通过寻找新的向量基,将原有高维数据投影在低维空间,剔除方差较小的噪声,保留信息量最大的主成分;变换后的特征值大的维度即代表原有数据中方差较大的维数,取变换后最能反映原始数据方差特征的前五维数据,作为下一步聚类分析的输入数据;
4)聚类分析,对PCA降维后的数据采用K-Means方法进行聚类分析;最后得到各相下用户的接入点拓扑分析结果,并与系统中现有拓扑档案进行比对;
5)对所分析台区进行现场排查,验证分析结果的准确性。
本技术方案采用了PCA降维与K-Means聚类技术,在得到用户的负荷原始数据后,进行特征标准化处理;采用主成分分析法(Principal Component Analysis,PCA)对原有高维数据进行降维分析,减少无用信息的干扰,根据聚类结果分析用户之间的拓扑连接关系,从而可以完成台区内用户拓扑的分类预测。与系统中已有的用户拓扑档案进行比对,可以发现是否有潜在的档案错误用户,从而为人工排查纠错提供参考。本技术方案事先进行预测,不需要逐户进行排查,减少大量人力物力,且避免“拉闸验电”方式,不影响台区下其他用户的正常用电,且不需要投入载波通信设备,无需增加电力企业的运营成本。
以下就重要步骤进行具体说明:
首先从采集系统中选定待分析台区,提取待分析台区下所有用户的96点日负荷数据,根据采集率进行数据清洗,选取日负荷满96点日期的数据进行分析。由于日负荷在24小时内具有较大的波动性,而96点数据在模型中分析时应具有相同地位,对分析结果起到同等作用,因此需要对数据进行特征缩放(Feature Scaling),常用的特征缩放方法有最大最小规范化(min-max normalization)、均值归一化(mean normalization)和z-score标准化(standardization),本模型采用z-score标准化方法,不仅可以反映各数据在原始数据分布中的地位,同时以标准差为单位可以实现不同维度间数据的等距比较。z-score标准化公式如下:
Figure BDA0002266991970000071
其中,mean(x)表示用户该维度下特征的均值,std(x)表示该维度下用户特征的方差。
在得到标准化数据后,由于原始数据维数过高,各维度内涵的用户特征信息量不等同,在后续模型中起到的作用也不相同,使用维数过高的特征值将会淹没其中的有用信息,达不到预期效果。因此采用PCA方法对预处理数据进行降维投影,PCA降维又称主成分分析法,思路是在保持各维数据维度内方差最大的前题下,通过寻找新的向量基,将原有高维数据投影在低维空间,剔除方差较小的噪声,保留信息量最大的主成分,此时,变换后的特征值大的维度即代表原有数据中方差较大的维数,取变换后最能反映原始数据方差特征的前五维数据,作为聚类分析的输入数据。经过比较,这样不仅能够提高运算效率,降低模型上线后线上分析的内存和计算资源压力,还能进一步提高聚类结果的准确率,PCA算法的流程如下:
1)构建原始特征值矩阵[x1,x2,x3...xn],其中n代表个样本的维数,xi是第i维上各样本的特征值列向量;
2)计算各维样本均值ψ和差值向量di
Figure BDA0002266991970000072
di=xi
3)构建协方差矩阵:
Figure BDA0002266991970000073
式中,A=[d1,d2...dn]。
4)奇异值分解(Singular Value Decomposition,SVD)求得AAT的特征值,并按照单调递减的顺序排列λ1≥λ2≥...≥λp,与其对应的特征向量分别为:μ12,...μp(p≤n)。
5)根据降维目标维度选取前p个特征向量组成线性变换矩阵:
W=[μ12...μp]
6)将原始差值特征投影到p维子空间:
PCp=WTdi(i=1,2,...n)
式中,PCp为所求的p维主成分降维特征
对PCA降维后的数据采用K-Means方法进行聚类分析,K-Means聚类由于其出色的计算速度和分类性能,应用非常广泛,属于无监督聚类中最为常用的算法,由于用户负荷数据量大,待分类情况较多且属于无监督聚类,因此非常适合采用这一方法挖掘用电负荷信息中内在的用户拓扑信息。K-Means算法的核心点是聚类中心的迭代,先根据预设聚类数随机初始化聚类中心,对所有样本按照其距离各中心的远近进行归类,计算各类内样本到中心的误差和,并将类内样本均值作为新的聚类中心,不断迭代,直到类内误差和达到最小值范围内,完成聚类分析。其中误差准则函数如下:
Figure BDA0002266991970000081
其中,k表示预设聚类数量,i代表聚类样本序号,Ci代表第i类样本集,xi表示第i类样本的均值。
由于实际拓扑中同一台区下的用户分属三相,因此,在分析时需要针对各相下的单相用户进行分析,最后得到各相下用户的接入点拓扑分析结果,并与系统中现有拓扑档案进行比对。最后,派出专人对对所分析台区进行现场排查,验证分析结果的准确性。
以下就海宁市下辖某台区数据为例作具体说明:
1数据来源
数据主要来源于国家电网用电信息采集系统,具体包括海宁市下辖某台区内所有用户的96点日负荷数据,台区用户数为152,总分析时段为一个月,总共包含四十余万条数据。
2数据预处理
筛选各用户都具有满数据的一日内负荷数据,且要求该日内不应出现明显异常数据,且方差保持在一月内均值水平附近,满足条件的分析日共有3天,后续针对3天的数据单独分析接入点归类情况,比较聚类结果。
3主成分分析
将原始数据与PCA降维数据进行对比,可以看出,如果使用原始数据分析用户负荷特性,需要将所有时段都考虑其中,不仅维数过高,造成较大计算压力,且会因为无用信息过多而淹没有价值信息。而使用PCA对数据进行降维后,用户特征曲线聚集程度加大,且明显可见地出现一定的区分度:相似特征曲线的用户间重合度更高,而拓扑相差较大的用户间趋势偏离也变大。这显然更有利于后续使用相关算法进行分析。
观察降维后的数据,可以看出随着维数的增大,后续主成分的绝对值逐渐减小,其在反应用户特性中的作用在逐渐降低,但如何选择才能兼顾分析速度与结果准确率,则需要进行一定的灵敏度分析。
4数据聚类分析与现场拓扑核对
根据采集系统中待分析台区的GIS图信息确定拓扑分接点数量,经过查询,待分析台区的拓扑接入点共17个,设置K-Means无监督聚类的预设分组为17,将用户的归类情况与其实际现场排查得出的用户所属拓扑接入点关系进行比对,根据同一接入点下用户是否被归为一类,筛选出未被正确分类的用户占总用户数的比例,从而得出分析的准确率,比较降维后维数对分析结果准确性的影响,结果如图3所示:
表4降维数=7时各种方法的聚类结果(部分)
Figure BDA0002266991970000101
由图3可以看出在小于10维的范围内,在降维数=7时整体的识别效果最佳,这也说明这一维度在兼顾运行效率的同时,能够最大程度地保留用户负荷特性,并剔除无用特征,提取的用户由于拓扑差异而反应在负荷特性上的差异。表4为部分聚类结果,数字代表各聚类方法下的对应结果,最后三列中,ori代表使用原始数据聚类的结果,sca_tsne代表使用原始数据预处理并使用t-SNE进行降维后的聚类结果,sca_pca代表对原始数据进行预处理并使用PCA降维后的聚类结果,可以看出,t—SNE降维具有最佳的分类效果。
5模型适用条件分析
本发明针对目前低压台区用户拓扑档案关系纠错难的现状提出了一种解决方案,即利用PCA降维和K-Means聚类,线上分析采集系统中的用户用电负荷信息,从而推断用户所属拓扑关系。现场排查的结果已经证明了这一方案的准确性,经过灵敏度分析,得出当原始96点日负荷数据降维到7维时,有最佳的匹配率。
根据现场核对的结果,聚类得出的用户拓扑接入关系与现场核查结果并没有达到100%匹配,根据对实际情况的分析,可能存在以下原因:
1)实际拓扑中,接入点后仍有二级接入点,可能因此出现同一接入点下的用户被分为多类;
2)实际拓扑中可能出现个别用户的接线过长,导致其整体电压水平与同接入点下的其他用户存在较大差异,从而不能正确分类,这一情况可能在农村低压台区中出现较多。
由于本方法分析对象是同相用户,故只适用于同相用户的分类,在同一接入点下存在多相用户的情况下,需要预先对各相用户进行分类,或根据台区用户档案中的信息筛选各相用户,然后再利用PCA降维和K-Means聚类方法展开分析。
以上图1所示的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。

Claims (7)

1.一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于包括以下步骤:
1)获取台区用户负荷数据;
2)对获取的台区用户负荷数据进行标准化处理;
3)对标准化处理的数据进行主成分分析法PCA降维处理,经主成分分析法PCA降维处理的数据在保持各维数据维度内方差最大的前提下,通过寻找新的向量基,将原有高维数据投影在低维空间,剔除方差较小的噪声,保留信息量最大的主成分;变换后的特征值大的维度即代表原有数据中方差较大的维数,取变换后最能反映原始数据方差特征的前五维数据,作为下一步聚类分析的输入数据;
4)聚类分析,对PCA降维后的数据采用K-Means方法进行聚类分析;最后得到各相下用户的接入点拓扑分析结果,并与系统中现有拓扑档案进行比对;
5)对所分析台区进行现场排查,验证分析结果的准确性。
2.根据权利要求1所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:在步骤1),从采集系统中选定待分析台区,提取待分析台区下所有用户的96点日负荷数据,根据采集率进行数据清洗,选取日负荷满96点日期的数据进行分析,由于日负荷在24小时内具有较大的波动性,而96点数据在模型中分析时应具有相同地位,对分析结果起到同等作用,因此需要对数据进行特征缩放,在步骤2)中采用z-score标准化方法,反映各数据在原始数据分布中的地位,同时以标准差为单位实现不同维度间数据的等距比较,z-score标准化公式如下:
Figure FDA0002266991960000021
其中,mean(x)表示用户该维度下特征的均值,std(x)表示该维度下用户特征的方差。
3.根据权利要求2所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:在步骤3)中主成分分析法PCA降维处理包括以下步骤:
31)构建原始特征值矩阵[x1,x2,x3...xn],其中n代表个样本的维数,xi是第i维上各样本的特征值列向量;
32)计算各维样本均值ψ和差值向量di
Figure FDA0002266991960000022
di=xi
33)构建协方差矩阵:
Figure FDA0002266991960000023
式中,A=[d1,d2...dn];
34)奇异值分解(Singular Value Decomposition,SVD)求得AAT的特征值,并按照单调递减的顺序排列λ1≥λ2≥...≥λp,与其对应的特征向量分别为:μ12,...μp(p≤n);
35)根据降维目标维度选取前p个特征向量组成线性变换矩阵:
W=[μ12...μp]
36)将原始差值特征投影到p维子空间:
PCp=WTdi(i=1,2,...n)
式中,PCp为所求的p维主成分降维特征。
4.根据权利要求3所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:在步骤4)中,K-Means算法先根据预设聚类数随机初始化聚类中心,对所有样本按照其距离各中心的远近进行归类,计算各类内样本到中心的误差和,并将类内样本均值作为新的聚类中心,不断迭代,直到类内误差和达到最小值范围内,完成聚类分析;其中误差准则函数如下:
Figure FDA0002266991960000031
其中,k表示预设聚类数量,i代表聚类样本序号,Ci代表第i类样本集,xi表示第i类样本的均值。
5.根据权利要求4所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:在步骤3)中,采用主成分分析法进行降维处理,将原始数据降到2-10维,作为后续聚类分析的输入。
6.根据权利要求5所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:采用主成分分析法进行降维处理,将原始数据降到7维后,将其作为后续聚类分析的输入。
7.根据权利要求6所述的一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法,其特征在于:当在同一接入点下存在多相用户的情况下,需要预先对各相用户进行分类,或根据台区用户档案中的信息筛选各相用户后,再进行后续的主成分分析法PCA降维处理。
CN201911091514.1A 2019-11-10 2019-11-10 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 Pending CN111126429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911091514.1A CN111126429A (zh) 2019-11-10 2019-11-10 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911091514.1A CN111126429A (zh) 2019-11-10 2019-11-10 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Publications (1)

Publication Number Publication Date
CN111126429A true CN111126429A (zh) 2020-05-08

Family

ID=70495188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911091514.1A Pending CN111126429A (zh) 2019-11-10 2019-11-10 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Country Status (1)

Country Link
CN (1) CN111126429A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724278A (zh) * 2020-06-11 2020-09-29 国网吉林省电力有限公司 一种面向电力多元负荷用户的精细分类方法及系统
CN111797899A (zh) * 2020-06-04 2020-10-20 国网江西省电力有限公司电力科学研究院 一种低压台区kmeans聚类方法及系统
CN111859815A (zh) * 2020-07-31 2020-10-30 中国汽车工程研究院股份有限公司 一种电池报警特征数据的模式聚类方法与事故特征识别技术
CN111984466A (zh) * 2020-07-30 2020-11-24 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN112415304A (zh) * 2020-10-30 2021-02-26 国网天津市电力公司 基于低压台区电压数据曲线分群的线路识别方法
CN112699913A (zh) * 2020-11-25 2021-04-23 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN112966567A (zh) * 2021-02-05 2021-06-15 深圳市品致信息科技有限公司 一种基于pca和聚类和k近邻的坐标定位方法、系统、存储介质、终端
CN113298289A (zh) * 2021-04-14 2021-08-24 北京市燃气集团有限责任公司 一种对燃气用户的燃气用气量进行预测的方法及装置
CN113408548A (zh) * 2021-07-14 2021-09-17 贵州电网有限责任公司电力科学研究院 变压器异常数据检测方法、装置、计算机设备和存储介质
CN113572164A (zh) * 2021-08-06 2021-10-29 国网四川省电力公司营销服务中心 一种基于k-means聚类分析的配电网台区识别方法
CN114611869A (zh) * 2022-01-24 2022-06-10 国家电网有限公司 一种低压台区台户识别方法
CN115221980A (zh) * 2022-09-16 2022-10-21 之江实验室 一种基于特征提取和改进K-means算法的负荷聚类方法
CN115249042A (zh) * 2022-06-30 2022-10-28 国网河北省电力有限公司石家庄供电分公司 一种用于非侵入式负荷识别的特征提取和聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734603A (zh) * 2018-05-24 2018-11-02 河南工业大学 基于聚类的大数据相位识别方法
CN109634940A (zh) * 2018-11-12 2019-04-16 国网天津市电力公司电力科学研究院 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法
CN109740641A (zh) * 2018-12-18 2019-05-10 清华四川能源互联网研究院 一种基于主成分分析和k-means聚类的台区用户识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734603A (zh) * 2018-05-24 2018-11-02 河南工业大学 基于聚类的大数据相位识别方法
CN109634940A (zh) * 2018-11-12 2019-04-16 国网天津市电力公司电力科学研究院 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法
CN109740641A (zh) * 2018-12-18 2019-05-10 清华四川能源互联网研究院 一种基于主成分分析和k-means聚类的台区用户识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周喜超;郑晶晶;张建华;: "台区"低电压"智能监测与分析系统研究" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797899A (zh) * 2020-06-04 2020-10-20 国网江西省电力有限公司电力科学研究院 一种低压台区kmeans聚类方法及系统
CN111797899B (zh) * 2020-06-04 2023-11-07 国网江西省电力有限公司电力科学研究院 一种低压台区kmeans聚类方法及系统
CN111724278A (zh) * 2020-06-11 2020-09-29 国网吉林省电力有限公司 一种面向电力多元负荷用户的精细分类方法及系统
CN111984466A (zh) * 2020-07-30 2020-11-24 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN111984466B (zh) * 2020-07-30 2022-10-25 苏州浪潮智能科技有限公司 一种基于icc的数据一致性检验方法及系统
CN111859815A (zh) * 2020-07-31 2020-10-30 中国汽车工程研究院股份有限公司 一种电池报警特征数据的模式聚类方法与事故特征识别技术
CN111859815B (zh) * 2020-07-31 2023-05-23 中国汽车工程研究院股份有限公司 一种电池报警特征数据的模式聚类方法与事故特征识别技术
CN112415304B (zh) * 2020-10-30 2022-08-23 国网天津市电力公司 基于低压台区电压数据曲线分群的线路识别方法
CN112415304A (zh) * 2020-10-30 2021-02-26 国网天津市电力公司 基于低压台区电压数据曲线分群的线路识别方法
CN112699913A (zh) * 2020-11-25 2021-04-23 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
WO2022110557A1 (zh) * 2020-11-25 2022-06-02 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN112699913B (zh) * 2020-11-25 2023-08-29 国网湖南省电力有限公司 一种台区户变关系异常诊断方法及装置
CN112966567B (zh) * 2021-02-05 2021-12-10 深圳市品致信息科技有限公司 一种基于pca和聚类和k近邻的坐标定位方法、系统
CN112966567A (zh) * 2021-02-05 2021-06-15 深圳市品致信息科技有限公司 一种基于pca和聚类和k近邻的坐标定位方法、系统、存储介质、终端
CN113298289A (zh) * 2021-04-14 2021-08-24 北京市燃气集团有限责任公司 一种对燃气用户的燃气用气量进行预测的方法及装置
CN113408548A (zh) * 2021-07-14 2021-09-17 贵州电网有限责任公司电力科学研究院 变压器异常数据检测方法、装置、计算机设备和存储介质
CN113572164A (zh) * 2021-08-06 2021-10-29 国网四川省电力公司营销服务中心 一种基于k-means聚类分析的配电网台区识别方法
CN113572164B (zh) * 2021-08-06 2023-08-29 国网四川省电力公司营销服务中心 一种基于k-means聚类分析的配电网台区识别方法
CN114611869A (zh) * 2022-01-24 2022-06-10 国家电网有限公司 一种低压台区台户识别方法
CN115249042A (zh) * 2022-06-30 2022-10-28 国网河北省电力有限公司石家庄供电分公司 一种用于非侵入式负荷识别的特征提取和聚类方法
CN115249042B (zh) * 2022-06-30 2023-11-07 国网河北省电力有限公司石家庄供电分公司 一种用于非侵入式负荷识别的特征提取和聚类方法
CN115221980A (zh) * 2022-09-16 2022-10-21 之江实验室 一种基于特征提取和改进K-means算法的负荷聚类方法

Similar Documents

Publication Publication Date Title
CN111126429A (zh) 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法
WO2021073462A1 (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN112699913A (zh) 一种台区户变关系异常诊断方法及装置
CN109146705A (zh) 一种用电特征指标降维与极限学习机算法进行窃电检测的方法
US20210109140A1 (en) Method for identifying parameters of 10 kv static load model based on similar daily load curves
CN111080105A (zh) 基于电压时序数据的台区户变关系识别方法及系统
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
CN111242161B (zh) 一种基于智能学习的非侵入式非居民用户负荷辨识方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN113189418B (zh) 一种基于电压数据的拓扑关系识别方法
CN112308459A (zh) 电网户变关系的识别方法及识别装置、电子设备
CN113595071A (zh) 台区用户辨识与电压影响评估方法
CN111539657A (zh) 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法
CN112819649A (zh) 确定台区户变关系的方法及装置
Ramos et al. A data mining framework for electric load profiling
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN115081933B (zh) 一种基于改进谱聚类的低压用户拓扑构建方法和系统
Zhang et al. User power interaction behavior clustering analysis that is based on the self-organizing-center K-means algorithm
CN111191946A (zh) 故障线路识别方法及装置、电子设备
CN114611869B (zh) 一种低压台区台户识别方法
CN114372835B (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
CN113075468A (zh) 一种基于低压用户的相别判定方法
Kohan et al. Comparison of modified k-means and hierarchical algorithms in customers load curves clustering for designing suitable tariffs in electricity market
Soldan et al. Characterization of electric consumers through an automated clustering pipeline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210202

Address after: 310007 No. 8 Huanglong Road, Hangzhou, Zhejiang, Xihu District

Applicant after: STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant after: Marketing service center of State Grid Zhejiang Electric Power Co., Ltd

Applicant after: ZHEJIANG HUAYUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: 310007 No. 8 Huanglong Road, Hangzhou, Zhejiang, Xihu District

Applicant before: STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant before: ELECTRIC POWER SCIENTIFIC RESEARCH INSTITUTE OF STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant before: ZHEJIANG HUAYUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA