CN110796173A - 一种基于改进kmeans的负荷曲线形态聚类算法 - Google Patents
一种基于改进kmeans的负荷曲线形态聚类算法 Download PDFInfo
- Publication number
- CN110796173A CN110796173A CN201910925158.2A CN201910925158A CN110796173A CN 110796173 A CN110796173 A CN 110796173A CN 201910925158 A CN201910925158 A CN 201910925158A CN 110796173 A CN110796173 A CN 110796173A
- Authority
- CN
- China
- Prior art keywords
- load
- value
- clustering
- sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000010606 normalization Methods 0.000 claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000000513 principal component analysis Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000011425 standardization method Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003723 Smelting Methods 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- -1 smelting Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于改进kmeans的负荷曲线形态聚类算法。本发明首先建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大‑最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;根据DBI指标寻优得到最优聚类次数;根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量。本发明所提供的算法在负荷形态曲线无标签分类上准确率高,效率较好。
Description
技术领域
本发明涉及电力负荷分类领域,具体设计一种基于改进kmeans的负荷曲线形态聚类算法。
背景技术
精准把握电力用户的用电特性是现货市场深入建设的必要基础之一。近年来,由于目前云南省计量条件相对较为不完善,每15分钟采集的负荷数据出现较多缺数、异常数的情况,提高计量数据质量已经成为了现货市场背景下亟待解决的问题。因而需要对负荷数据进行处理。同时为了明晰负荷的用电特性,需要根据曲线的形态,选取合适的电力负荷曲线聚类方法进行曲线形态分析。
发明内容
本发明提供了一种基于改进kmeans的负荷曲线形态聚类算法,用以提高典型负荷曲线分类效果的一种新型算法。针对计量端电力数据常易出现缺数、串数等异常情况,需要对数据进行预处理。利用现有的传统聚类算法,负荷分类效果和分类效率之间不能兼顾。
本发明的技术方案为一种基于改进kmeans的负荷曲线形态聚类算法,其特征在于,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤4,根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量;
作为优选,步骤1中所述建立初始样本为:
选择n个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T) i∈(1,...,n)
其中,T=96×N,N为该月的天数;
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
其中,表示第i个样本的第tj个异常值,Ni为第i个样本用户的异常值时刻数量;
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
即第i个用户时刻的异常值电量等于上一周同一时刻的负荷值;
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t:
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
将该月N条负荷曲线xi,t t∈(1,...T)i∈(1,...,n),T=96×N,N为该月的天数,提取成该月典型样本用户曲线
式中,表示提取的第i个样本用户t*时刻的典型负荷曲线;
步骤1中所述利用最大-最小标准化方法进行归一化为:
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
作为优选,步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,ki∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
当累计贡献率am≥90%时,记下此时的主成分m值;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
作为优选,步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest;
作为优选,步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
以聚类中心μq f为中心的样本集合称为簇记为Cq fq∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵i∈(1,...,n)与初始均值向量的欧式距离diq=||Xi-uq f||2。样本i与距离中心μq f的最小欧式距离最小时,样本负荷归属于簇Cq f q∈{1,2,…,Kbest}:
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1-μq f≤ε时,ε为精确度。
本发明优点在于,本发明所提出的数据预处理、高斯滤波、主成分分析、改进kmeans聚类的全流程计量电量处理方案完整性高,在真实电力负荷处理上效果好。基于高斯核估计的改进聚类算法在kmeans聚类算法中修改聚类中心的形成方式,最终在负荷形态曲线无标签分类上准确率高,效率较好。。
附图说明
图1:是本发明方法流程图;
图2:是改进kmeans算法聚类中心更新的计算方法;
图3:改进kmeans算法聚类分类一;
图4:改进kmeans算法聚类分类二;
图5:改进kmeans算法聚类分类三;
图6:改进kmeans算法聚类分类四;
图7:改进kmeans算法聚类分类五;
图8:改进kmeans算法聚类分类六;
图9:改进kmeans算法聚类分类七;
图10:改进kmeans算法聚类分类八。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
选用从2018年7月1日至2019年7月1日的云南全省16市1250家用户涵盖钢铁、冶炼、金属等大工业用户以及超市、酒店等一般工商业用户以15min为粒度的负荷计量数据。首先,对数据进行预处理和典型负荷曲线提取,之后对所有样本库负荷曲线经进行聚类有效性预测算,在不同聚类数目时,DB指标呈现出波动性,当聚类数为8时,DB指标取至极小值。此时意味着聚类效果最好。因而选择聚类数8进行下一步的聚类。
下面结合图1至图3介绍本发的具体实施方式为一种基于改进kmeans的负荷曲线形态聚类算法,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤1中所述建立初始样本为:
选择n=1250个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T)i∈(1,...,n)
其中,T=96×N,N为该月的天数;以四月为例,N=30,T=2880。
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t:
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
将该月N条负荷曲线xi,t t∈(1,...T)i∈(1,...,n),T=96×N,N为该月的天数,提取成该月典型样本用户曲线
步骤1中所述利用最大-最小标准化方法进行归一化为:
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,ki∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
当累计贡献率am≥90%时,记下此时的主成分m值,得m=13;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest,此时求得Kbest=8;
步骤4,根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量;
步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
{μ1 f,μ2 f,…,μKbest f};以聚类中心μq f为中心的样本集合称为簇记为Cq f q∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵i∈(1,...,n)与初始均值向量的欧式距离diq=||Xi-uq f||2。样本i与距离中心μq f的最小欧式距离最小时,样本负荷归属于簇Cq f q∈{1,2,…,Kbest}:
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.4、计算簇Cq f内样本负荷较于最大概率负荷曲线Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T的权重wi
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
其中,簇Cq f内样本μq f为加权得到的簇Cq f聚类中心;
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1-μq f≤ε时,ε为精确度取0.01。
对样本库典型负荷曲线进行主成分分析后,原有的数据进行了降维。原有的一天96维度的负荷数据经主成分分析后,在保持95%的贡献率下,降维成了13维。此时描述负荷曲线能力没有下降,低维描述了原有的高维曲线特性。
利用降维后的负荷数据作为聚类算法的数据矩阵,运用基于核密度估计的Kmeans算法进行聚类。结果如下图3所示;
图中用户用电特性比较明显。用电曲线大致分为单峰(第三类)、双峰(第一类、第六类)、三峰(第八类)、避峰(第七类、第五类、第四类)、平峰(第二类)等。大多数大工业用户为追求效率最大化选用全天24小时连续运行,因而呈现出单峰。部分工业用户对电价敏感采用峰谷运行方式,白天少用电,晚上多用电,呈现出避峰的典型负荷曲线形态。对于超市、商业综合体等营业时间考虑人流量和白天的活动时间,从早上至晚上营业。因而呈现出单峰或者双峰的形态。云南采矿业发达,对于小型的页岩砖厂以及小工业用电,其用电特性与工作人员的休息时间息息相关,呈现出三峰的用电曲线形态。聚类结果与实际全省用户的不同用电规律相契合。
为进一步定量衡量新算法核密度估计聚类中心对聚类结果的影响。选用均值法、正态核、高斯核下产生聚类中心对最终聚类结果的影响进行比较。引入SSE指标对比三类方法,结果如下表1所示,高斯核密度估计的聚类中心相较传统的均值法聚类中心,误差平方和SSE更小,相较能更好的描述簇内各曲线的相似性。
表1三类方法SSE指标比较
算法 | 均值法 | 正态核 | 高斯核 |
SSE指标 | 1.167×10<sup>3</sup> | 1.820×10<sup>3</sup> | 1.166×10<sup>3</sup> |
新算法和传统算法聚类结果比较如下表2所示。本文提出的经过降维后的基于核密度估计的kmeans算法相较其他聚类算法虽然在耗时上有所增加,但是在SSE指标聚类中心的误差平方和最小,意味着在同一个簇的各曲线的相似度更高。且其DB指标较小,因而不同簇之间的相差性更大。故新算法在簇内相似性和簇间相异性均能有较为优异的效果。
表2算法结果比较
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于改进kmeans的负荷曲线形态聚类算法,其特征在于,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤4:根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量。
2.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤1中所述建立初始样本为:
选择n个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T) i∈(1,...,n)
其中,T=96×N,N为该月的天数;
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t:
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
步骤1中所述利用最大-最小标准化方法进行归一化为:
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
3.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,k i∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
当累计贡献率am≥90%时,记下此时的主成分m值;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
4.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest。
5.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
以聚类中心μq f为中心的样本集合称为簇记为Cq f q∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵与初始均值向量的欧式距离diq=||Xi-uq f||2;
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1-μq f≤ε时,ε为精确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925158.2A CN110796173B (zh) | 2019-09-27 | 2019-09-27 | 一种基于改进kmeans的负荷曲线形态聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910925158.2A CN110796173B (zh) | 2019-09-27 | 2019-09-27 | 一种基于改进kmeans的负荷曲线形态聚类算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796173A true CN110796173A (zh) | 2020-02-14 |
CN110796173B CN110796173B (zh) | 2023-05-16 |
Family
ID=69439937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910925158.2A Active CN110796173B (zh) | 2019-09-27 | 2019-09-27 | 一种基于改进kmeans的负荷曲线形态聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796173B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553434A (zh) * | 2020-04-30 | 2020-08-18 | 华北电力大学 | 一种电力系统负荷分类方法及系统 |
CN111950620A (zh) * | 2020-08-07 | 2020-11-17 | 国网能源研究院有限公司 | 基于DBSCAN和K-means算法的用户筛选方法 |
CN112215490A (zh) * | 2020-10-12 | 2021-01-12 | 国网重庆市电力公司电力科学研究院 | 一种基于相关性系数改进K-means的电力负荷聚类分析方法 |
CN112305442A (zh) * | 2020-10-14 | 2021-02-02 | 北方工业大学 | 一种基于kmeans聚类的动力电池SOH快速估计方法 |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
CN113673551A (zh) * | 2021-06-30 | 2021-11-19 | 国网山东省电力公司营销服务中心(计量中心) | 一种电力计量不良数据辨识方法及系统 |
CN114429172A (zh) * | 2021-12-07 | 2022-05-03 | 国网北京市电力公司 | 基于变电站用户构成的负荷聚类方法、装置、设备及介质 |
CN115861672A (zh) * | 2022-12-20 | 2023-03-28 | 中南大学 | 一种基于图像特征联合分布的泡沫浮选运行性能评估方法 |
CN116883059A (zh) * | 2023-09-06 | 2023-10-13 | 山东德源电力科技股份有限公司 | 一种配电终端管理方法及系统 |
CN112381137B (zh) * | 2020-11-10 | 2024-06-07 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017001522A1 (en) * | 2015-06-29 | 2017-01-05 | Suez Groupe | Method for detecting anomalies in a water distribution system |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
CN107657266A (zh) * | 2017-08-03 | 2018-02-02 | 华北电力大学(保定) | 一种基于改进谱多流形聚类的负荷曲线聚类方法 |
CN107679753A (zh) * | 2017-09-30 | 2018-02-09 | 昆明电力交易中心有限责任公司 | 一种基于加权马氏距离的电力市场主体市场力评价方法 |
CN108197837A (zh) * | 2018-02-07 | 2018-06-22 | 沈阳工业大学 | 基于KMeans聚类的光伏发电预测方法 |
CN108280479A (zh) * | 2018-01-25 | 2018-07-13 | 重庆大学 | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 |
CN108345908A (zh) * | 2018-02-10 | 2018-07-31 | 武汉轻工大学 | 电网数据的分类方法、分类设备及存储介质 |
CN108389211A (zh) * | 2018-03-16 | 2018-08-10 | 西安电子科技大学 | 基于改进鲸鱼优化模糊聚类的图像分割方法 |
CN108596362A (zh) * | 2018-03-22 | 2018-09-28 | 国网四川省电力公司经济技术研究院 | 基于自适应分段聚合近似的电力负荷曲线形态聚类方法 |
CN109871860A (zh) * | 2018-11-02 | 2019-06-11 | 湖南大学 | 一种基于核主成分分析的日负荷曲线降维聚类方法 |
CN109948920A (zh) * | 2019-03-11 | 2019-06-28 | 昆明电力交易中心有限责任公司 | 一种基于证据理论的电力市场结算数据风险处理方法 |
CN110069467A (zh) * | 2019-04-16 | 2019-07-30 | 沈阳工业大学 | 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 |
-
2019
- 2019-09-27 CN CN201910925158.2A patent/CN110796173B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017001522A1 (en) * | 2015-06-29 | 2017-01-05 | Suez Groupe | Method for detecting anomalies in a water distribution system |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
CN107657266A (zh) * | 2017-08-03 | 2018-02-02 | 华北电力大学(保定) | 一种基于改进谱多流形聚类的负荷曲线聚类方法 |
CN107679753A (zh) * | 2017-09-30 | 2018-02-09 | 昆明电力交易中心有限责任公司 | 一种基于加权马氏距离的电力市场主体市场力评价方法 |
CN108280479A (zh) * | 2018-01-25 | 2018-07-13 | 重庆大学 | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 |
CN108197837A (zh) * | 2018-02-07 | 2018-06-22 | 沈阳工业大学 | 基于KMeans聚类的光伏发电预测方法 |
CN108345908A (zh) * | 2018-02-10 | 2018-07-31 | 武汉轻工大学 | 电网数据的分类方法、分类设备及存储介质 |
CN108389211A (zh) * | 2018-03-16 | 2018-08-10 | 西安电子科技大学 | 基于改进鲸鱼优化模糊聚类的图像分割方法 |
CN108596362A (zh) * | 2018-03-22 | 2018-09-28 | 国网四川省电力公司经济技术研究院 | 基于自适应分段聚合近似的电力负荷曲线形态聚类方法 |
CN109871860A (zh) * | 2018-11-02 | 2019-06-11 | 湖南大学 | 一种基于核主成分分析的日负荷曲线降维聚类方法 |
CN109948920A (zh) * | 2019-03-11 | 2019-06-28 | 昆明电力交易中心有限责任公司 | 一种基于证据理论的电力市场结算数据风险处理方法 |
CN110069467A (zh) * | 2019-04-16 | 2019-07-30 | 沈阳工业大学 | 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法 |
Non-Patent Citations (2)
Title |
---|
WANG FEIFAN等: "Deep Auto-encoded Clustering Algorithm for Community Detection in Complex Networks" * |
赵文清 等: "基于Kernel K-means的负荷曲线聚类" * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553434A (zh) * | 2020-04-30 | 2020-08-18 | 华北电力大学 | 一种电力系统负荷分类方法及系统 |
CN111950620A (zh) * | 2020-08-07 | 2020-11-17 | 国网能源研究院有限公司 | 基于DBSCAN和K-means算法的用户筛选方法 |
CN112215490A (zh) * | 2020-10-12 | 2021-01-12 | 国网重庆市电力公司电力科学研究院 | 一种基于相关性系数改进K-means的电力负荷聚类分析方法 |
CN112305442A (zh) * | 2020-10-14 | 2021-02-02 | 北方工业大学 | 一种基于kmeans聚类的动力电池SOH快速估计方法 |
CN112305442B (zh) * | 2020-10-14 | 2023-06-20 | 北方工业大学 | 一种基于kmeans聚类的动力电池SOH快速估计方法 |
CN112381137A (zh) * | 2020-11-10 | 2021-02-19 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
CN112381137B (zh) * | 2020-11-10 | 2024-06-07 | 重庆大学 | 新能源电力系统可靠性评估方法、装置、设备及存储介质 |
CN113673551B (zh) * | 2021-06-30 | 2024-05-28 | 国网山东省电力公司营销服务中心(计量中心) | 一种电力计量不良数据辨识方法及系统 |
CN113673551A (zh) * | 2021-06-30 | 2021-11-19 | 国网山东省电力公司营销服务中心(计量中心) | 一种电力计量不良数据辨识方法及系统 |
CN114429172A (zh) * | 2021-12-07 | 2022-05-03 | 国网北京市电力公司 | 基于变电站用户构成的负荷聚类方法、装置、设备及介质 |
CN115861672B (zh) * | 2022-12-20 | 2023-09-19 | 中南大学 | 一种基于图像特征联合分布的泡沫浮选运行性能评估方法 |
CN115861672A (zh) * | 2022-12-20 | 2023-03-28 | 中南大学 | 一种基于图像特征联合分布的泡沫浮选运行性能评估方法 |
CN116883059A (zh) * | 2023-09-06 | 2023-10-13 | 山东德源电力科技股份有限公司 | 一种配电终端管理方法及系统 |
CN116883059B (zh) * | 2023-09-06 | 2023-11-28 | 山东德源电力科技股份有限公司 | 一种配电终端管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110796173B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796173B (zh) | 一种基于改进kmeans的负荷曲线形态聚类算法 | |
Rajabi et al. | A comparative study of clustering techniques for electrical load pattern segmentation | |
CN111444241B (zh) | 一种基于数据挖掘的台区线损异常关联用户精准定位方法 | |
CN111178611B (zh) | 一种日电量预测的方法 | |
CN107248086A (zh) | 基于用户用电行为分析的广告投放辅助分析方法 | |
CN111340065B (zh) | 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法 | |
CN108428055B (zh) | 一种考虑负荷纵向特性的负荷聚类方法 | |
CN115115265A (zh) | 一种基于rfm模型的消费者评估方法、装置及介质 | |
CN115545265A (zh) | 一种基于数据修复和分解序列预测的售电量预测方法 | |
CN116821832A (zh) | 针对高压工商业用户用电负荷的异常数据辨识与修正方法 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
CN117313016B (zh) | 一种新能源电力交易现货电价价差数据处理方法 | |
Grigoras et al. | Processing of smart meters data for peak load estimation of consumers | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN114266457A (zh) | 一种配电线路异损诱因检测的方法 | |
CN110782140B (zh) | 一种用于电费回收风险筛查的多维要素评估方法 | |
CN112785456A (zh) | 基于向量自回归模型的高损线路窃电检测方法 | |
Colley et al. | Queensland load profiling by using clustering techniques | |
CN111797924B (zh) | 一种基于聚类算法的三维度园区画像方法及系统 | |
CN115239201A (zh) | 一种电力指数的评估方法及系统 | |
Xu et al. | An approach to cluster electrical load profiles based on piecewise symbolic aggregation | |
CN107704723A (zh) | 一种基于斜率关联度的显著变量选择方法 | |
CN113589034A (zh) | 一种配电系统的窃电检测方法、装置、设备和介质 | |
Davarzani et al. | Study of missing meter data impact on domestic load profiles clustering and characterization | |
Shamim et al. | Novel technique for feature computation and clustering of smart meter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |