CN110796173A - 一种基于改进kmeans的负荷曲线形态聚类算法 - Google Patents

一种基于改进kmeans的负荷曲线形态聚类算法 Download PDF

Info

Publication number
CN110796173A
CN110796173A CN201910925158.2A CN201910925158A CN110796173A CN 110796173 A CN110796173 A CN 110796173A CN 201910925158 A CN201910925158 A CN 201910925158A CN 110796173 A CN110796173 A CN 110796173A
Authority
CN
China
Prior art keywords
load
value
clustering
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910925158.2A
Other languages
English (en)
Other versions
CN110796173B (zh
Inventor
李维劼
陈玲
吴滇宁
杨颜梦
孙永军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming Electric Power Trading Center LLC
Original Assignee
Kunming Electric Power Trading Center LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming Electric Power Trading Center LLC filed Critical Kunming Electric Power Trading Center LLC
Priority to CN201910925158.2A priority Critical patent/CN110796173B/zh
Publication of CN110796173A publication Critical patent/CN110796173A/zh
Application granted granted Critical
Publication of CN110796173B publication Critical patent/CN110796173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于改进kmeans的负荷曲线形态聚类算法。本发明首先建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大‑最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;根据DBI指标寻优得到最优聚类次数;根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量。本发明所提供的算法在负荷形态曲线无标签分类上准确率高,效率较好。

Description

一种基于改进kmeans的负荷曲线形态聚类算法
技术领域
本发明涉及电力负荷分类领域,具体设计一种基于改进kmeans的负荷曲线形态聚类算法。
背景技术
精准把握电力用户的用电特性是现货市场深入建设的必要基础之一。近年来,由于目前云南省计量条件相对较为不完善,每15分钟采集的负荷数据出现较多缺数、异常数的情况,提高计量数据质量已经成为了现货市场背景下亟待解决的问题。因而需要对负荷数据进行处理。同时为了明晰负荷的用电特性,需要根据曲线的形态,选取合适的电力负荷曲线聚类方法进行曲线形态分析。
发明内容
本发明提供了一种基于改进kmeans的负荷曲线形态聚类算法,用以提高典型负荷曲线分类效果的一种新型算法。针对计量端电力数据常易出现缺数、串数等异常情况,需要对数据进行预处理。利用现有的传统聚类算法,负荷分类效果和分类效率之间不能兼顾。
本发明的技术方案为一种基于改进kmeans的负荷曲线形态聚类算法,其特征在于,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤4,根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量;
作为优选,步骤1中所述建立初始样本为:
选择n个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T) i∈(1,...,n)
其中,T=96×N,N为该月的天数;
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
Figure BDA0002218716680000021
其中,表示第i个样本的第tj个异常值,Ni为第i个样本用户的异常值时刻数量;
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
对于正常时序,对应的电力负荷等于真实值,即
Figure BDA0002218716680000023
对于异常时序,利用三次样条插值和垂直修补法实现电量填补,以形成完整的该月负荷曲线序列
Figure BDA0002218716680000024
连续异常值数少于L时,在当异常时序
Figure BDA0002218716680000025
时,利用区间的三次多项式拟合得到
Figure BDA0002218716680000026
Figure BDA0002218716680000027
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
即第i个用户时刻的异常值电量等于上一周同一时刻的负荷值;
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t
Figure BDA00022187166800000210
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
将该月N条负荷曲线xi,t t∈(1,...T)i∈(1,...,n),T=96×N,N为该月的天数,提取成该月典型样本用户曲线
Figure BDA0002218716680000032
式中,表示提取的第i个样本用户t*时刻的典型负荷曲线;
步骤1中所述利用最大-最小标准化方法进行归一化为:
利用最大-最小标准化方法,实现负荷数据标准化
Figure BDA0002218716680000034
式中,
Figure BDA0002218716680000036
表示第i个样本用户经过标准化后的第t*时刻的负荷值;
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
Figure BDA0002218716680000037
Figure BDA0002218716680000038
其中,
Figure BDA0002218716680000039
表示第i个样本用户经过高斯滤波后的第t*时刻的负荷值;
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
Figure BDA00022187166800000310
作为优选,步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,ki∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
Figure BDA0002218716680000041
其中,
Figure BDA0002218716680000042
是描述输入负荷矩阵X1第i*个时刻和第j*个时刻之间的相关系数;
Figure BDA0002218716680000043
其中,为X1的第i*列的均值,为X1的第j*列的均值,
Figure BDA0002218716680000046
第i个样本用户第i*时刻的负荷值;
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
当累计贡献率am≥90%时,记下此时的主成分m值;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
Figure BDA0002218716680000048
Figure BDA0002218716680000049
表示第i个样本用户经主成分降维后的时序k下的负荷值;
作为优选,步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
Figure BDA00022187166800000410
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest
作为优选,步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为
Figure BDA0002218716680000051
结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵
Figure BDA0002218716680000052
中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
以聚类中心μq f为中心的样本集合称为簇记为Cq fq∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵
Figure BDA0002218716680000054
i∈(1,...,n)与初始均值向量的欧式距离diq=||Xi-uq f||2。样本i与距离中心μq f的最小欧式距离最小时,样本负荷
Figure BDA0002218716680000055
归属于簇Cq f q∈{1,2,…,Kbest}:
Figure BDA0002218716680000056
步骤4.2、利用归属于簇Cq f的样本用户
Figure BDA0002218716680000057
可计算时序k下任意负荷对应的概率密度函数,其表达式为:
Figure BDA0002218716680000058
其中,K为高斯核函数,T为时序k下的样本点数目,h为带宽,
Figure BDA0002218716680000059
为归属于簇Cq f内的第i条曲线时序k的负荷值,xk_num表示时序k下属于簇Cq f内所有样本的负荷值
Figure BDA00022187166800000510
步骤4.3、对每个Cq f簇的样本用户
Figure BDA00022187166800000511
遍历时序k下的簇内所有用户的概率密度函数
Figure BDA00022187166800000512
选取簇内最大概率密度对应的样本用户,其对应的负荷值
Figure BDA00022187166800000513
记为簇Cq f下xq_mp_k,最终形成m个时序的最大概率负荷曲线:
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.4、计算簇Cq f内样本负荷
Figure BDA0002218716680000061
较于最大概率负荷曲线Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T的权重wi
Figure BDA0002218716680000062
其中,
Figure BDA0002218716680000063
λ为用以调整di对wi的影响程度的可调参数,λ∈[0,1];
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
Figure BDA0002218716680000064
其中,簇Cq f内样本
Figure BDA0002218716680000065
μq f为加权得到的簇Cq f聚类中心;
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1q f≤ε时,ε为精确度。
本发明优点在于,本发明所提出的数据预处理、高斯滤波、主成分分析、改进kmeans聚类的全流程计量电量处理方案完整性高,在真实电力负荷处理上效果好。基于高斯核估计的改进聚类算法在kmeans聚类算法中修改聚类中心的形成方式,最终在负荷形态曲线无标签分类上准确率高,效率较好。。
附图说明
图1:是本发明方法流程图;
图2:是改进kmeans算法聚类中心更新的计算方法;
图3:改进kmeans算法聚类分类一;
图4:改进kmeans算法聚类分类二;
图5:改进kmeans算法聚类分类三;
图6:改进kmeans算法聚类分类四;
图7:改进kmeans算法聚类分类五;
图8:改进kmeans算法聚类分类六;
图9:改进kmeans算法聚类分类七;
图10:改进kmeans算法聚类分类八。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
选用从2018年7月1日至2019年7月1日的云南全省16市1250家用户涵盖钢铁、冶炼、金属等大工业用户以及超市、酒店等一般工商业用户以15min为粒度的负荷计量数据。首先,对数据进行预处理和典型负荷曲线提取,之后对所有样本库负荷曲线经进行聚类有效性预测算,在不同聚类数目时,DB指标呈现出波动性,当聚类数为8时,DB指标取至极小值。此时意味着聚类效果最好。因而选择聚类数8进行下一步的聚类。
下面结合图1至图3介绍本发的具体实施方式为一种基于改进kmeans的负荷曲线形态聚类算法,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤1中所述建立初始样本为:
选择n=1250个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T)i∈(1,...,n)
其中,T=96×N,N为该月的天数;以四月为例,N=30,T=2880。
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
Figure BDA0002218716680000081
其中,
Figure BDA0002218716680000082
表示第i个样本的第tj个异常值,Ni为第i个样本用户的异常值时刻数量;
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
对于正常时序,对应的电力负荷等于真实值,即
Figure BDA0002218716680000083
对于异常时序,利用三次样条插值和垂直修补法实现电量填补,以形成完整的该月负荷曲线序列
Figure BDA0002218716680000084
连续异常值数少于L时,其中L=8,在当异常时序
Figure BDA0002218716680000085
时,利用区间的三次多项式拟合得到
Figure BDA0002218716680000086
Figure BDA0002218716680000087
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
Figure BDA0002218716680000088
即第i个用户
Figure BDA0002218716680000089
时刻的异常值电量等于上一周同一时刻的负荷值;
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
将该月N条负荷曲线xi,t t∈(1,...T)i∈(1,...,n),T=96×N,N为该月的天数,提取成该月典型样本用户曲线
Figure BDA0002218716680000091
式中,
Figure BDA0002218716680000092
表示提取的第i个样本用户t*时刻的典型负荷曲线;
步骤1中所述利用最大-最小标准化方法进行归一化为:
利用最大-最小标准化方法,实现负荷数据标准化
Figure BDA0002218716680000093
式中,
Figure BDA0002218716680000095
表示第i个样本用户经过标准化后的第t*时刻的负荷值;
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
Figure BDA0002218716680000096
Figure BDA0002218716680000097
其中,
Figure BDA0002218716680000098
表示第i个样本用户经过高斯滤波后的第t*时刻的负荷值;
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
Figure BDA0002218716680000099
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,ki∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
其中,
Figure BDA0002218716680000101
是描述输入负荷矩阵X1第i*个时刻和第j*个时刻之间的相关系数;
Figure BDA0002218716680000102
其中,为X1的第i*列的均值,为X1的第j*列的均值,
Figure BDA0002218716680000105
第i个样本用户第i*时刻的负荷值;
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
Figure BDA0002218716680000106
当累计贡献率am≥90%时,记下此时的主成分m值,得m=13;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
Figure BDA0002218716680000107
Figure BDA0002218716680000108
表示第i个样本用户经主成分降维后的时序k下的负荷值;
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest,此时求得Kbest=8;
步骤4,根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量;
步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为
Figure BDA0002218716680000111
结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵
Figure BDA0002218716680000112
中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
1 f2 f,…,μKbest f};以聚类中心μq f为中心的样本集合称为簇记为Cq f q∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵
Figure BDA0002218716680000113
i∈(1,...,n)与初始均值向量的欧式距离diq=||Xi-uq f||2。样本i与距离中心μq f的最小欧式距离最小时,样本负荷
Figure BDA0002218716680000114
归属于簇Cq f q∈{1,2,…,Kbest}:
步骤4.2、利用归属于簇Cq f的样本用户
Figure BDA0002218716680000116
可计算时序k下任意负荷对应的概率密度函数,其表达式为:
Figure BDA0002218716680000117
其中,K为高斯核函数,T为时序k下的样本点数目,h为带宽,
Figure BDA0002218716680000118
为归属于簇Cq f内的第i条曲线时序k的负荷值,xk_num表示时序k下属于簇Cq f内所有样本的负荷值
Figure BDA0002218716680000119
步骤4.3、对每个Cq f簇的样本用户
Figure BDA00022187166800001110
遍历时序k下的簇内所有用户的概率密度函数
Figure BDA00022187166800001111
选取簇内最大概率密度对应的样本用户,其对应的负荷值记为簇Cq f下xq_mp_k,最终形成m个时序的最大概率负荷曲线:
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.4、计算簇Cq f内样本负荷较于最大概率负荷曲线Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T的权重wi
Figure BDA0002218716680000122
其中,
Figure BDA0002218716680000123
λ为用以调整di对wi的影响程度的可调参数,λ∈[0,1];
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
Figure BDA0002218716680000124
其中,簇Cq f内样本μq f为加权得到的簇Cq f聚类中心;
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1q f≤ε时,ε为精确度取0.01。
对样本库典型负荷曲线进行主成分分析后,原有的数据进行了降维。原有的一天96维度的负荷数据经主成分分析后,在保持95%的贡献率下,降维成了13维。此时描述负荷曲线能力没有下降,低维描述了原有的高维曲线特性。
利用降维后的负荷数据作为聚类算法的数据矩阵,运用基于核密度估计的Kmeans算法进行聚类。结果如下图3所示;
图中用户用电特性比较明显。用电曲线大致分为单峰(第三类)、双峰(第一类、第六类)、三峰(第八类)、避峰(第七类、第五类、第四类)、平峰(第二类)等。大多数大工业用户为追求效率最大化选用全天24小时连续运行,因而呈现出单峰。部分工业用户对电价敏感采用峰谷运行方式,白天少用电,晚上多用电,呈现出避峰的典型负荷曲线形态。对于超市、商业综合体等营业时间考虑人流量和白天的活动时间,从早上至晚上营业。因而呈现出单峰或者双峰的形态。云南采矿业发达,对于小型的页岩砖厂以及小工业用电,其用电特性与工作人员的休息时间息息相关,呈现出三峰的用电曲线形态。聚类结果与实际全省用户的不同用电规律相契合。
为进一步定量衡量新算法核密度估计聚类中心对聚类结果的影响。选用均值法、正态核、高斯核下产生聚类中心对最终聚类结果的影响进行比较。引入SSE指标对比三类方法,结果如下表1所示,高斯核密度估计的聚类中心相较传统的均值法聚类中心,误差平方和SSE更小,相较能更好的描述簇内各曲线的相似性。
表1三类方法SSE指标比较
算法 均值法 正态核 高斯核
SSE指标 1.167×10<sup>3</sup> 1.820×10<sup>3</sup> 1.166×10<sup>3</sup>
新算法和传统算法聚类结果比较如下表2所示。本文提出的经过降维后的基于核密度估计的kmeans算法相较其他聚类算法虽然在耗时上有所增加,但是在SSE指标聚类中心的误差平方和最小,意味着在同一个簇的各曲线的相似度更高。且其DB指标较小,因而不同簇之间的相差性更大。故新算法在簇内相似性和簇间相异性均能有较为优异的效果。
表2算法结果比较
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于改进kmeans的负荷曲线形态聚类算法,其特征在于,包括以下步骤:
步骤1:建立初始样本,并进行异常值时刻提取,根据异常值时刻进行异常时刻负荷处理,利用计量数据时序差分法还原负荷电量,并提取样本用户典型负荷曲线,利用最大-最小标准化方法进行归一化,并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵;
步骤2:通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵;
步骤3:根据DBI指标寻优得到最优聚类次数;
步骤4:根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,初始均值向量通过高斯核函数估计形成最优聚类均值向量。
2.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤1中所述建立初始样本为:
选择n个用户某月的计量表计读数作为初始样本,以15min为颗粒度,第i个样本用户时刻t的计量数据为:
Pi,t t∈(1,...T) i∈(1,...,n)
其中,T=96×N,N为该月的天数;
步骤1中所述进行异常值时刻提取为:
根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小:
Pi,t+1≥Pi,t
当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时,该时刻对应的计量值定义为异常值,记录第i个样本用户不满足上述条件的所有异常值时刻,异常时刻集合记为:
Figure FDA0002218716670000011
其中,
Figure FDA0002218716670000012
表示第i个样本的第tj个异常值,Ni为第i个样本用户的异常值时刻数量;
步骤1中所述根据异常值时刻进行异常时刻负荷处理为:
对于正常时序,对应的电力负荷等于真实值,即对于异常时序,利用三次样条插值和垂直修补法实现电量填补,以形成完整的该月负荷曲线序列
Figure FDA0002218716670000021
连续异常值数少于L时,在当异常时序
Figure FDA0002218716670000022
时,利用区间的三次多项式拟合得到
Figure FDA0002218716670000023
其中,am为三次项系数,bm为二次项系数,cm为一次项系数,dm为常数项系数;
连续异常值数超过L时,采用垂直修复法:
Figure FDA0002218716670000025
即第i个用户
Figure FDA0002218716670000026
时刻的异常值电量等于上一周同一时刻的负荷值;
步骤1中所述利用计量数据时序差分法还原负荷电量为:
利用计量数据时序差分法还原负荷电量xi,t
Figure FDA0002218716670000027
式中,xi,t表示第i个样本用户t时刻的负荷值;
步骤1中所述提取样本用户典型负荷曲线为:
将该月N条负荷曲线xi,t t∈(1,...T)i∈(1,...,n),T=96×N,N为该月的天数,提取成该月典型样本用户曲线
Figure FDA0002218716670000028
Figure FDA0002218716670000029
式中,
Figure FDA00022187166700000210
表示提取的第i个样本用户t*时刻的典型负荷曲线;
步骤1中所述利用最大-最小标准化方法进行归一化为:
利用最大-最小标准化方法,实现负荷数据标准化
Figure FDA00022187166700000211
Figure FDA00022187166700000212
式中,
Figure FDA00022187166700000213
表示第i个样本用户经过标准化后的第t*时刻的负荷值;
步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为:
基于高斯滤波,实现负荷曲线平滑,得到聚类算法输入数据集:
Figure FDA0002218716670000031
Figure FDA0002218716670000032
其中,
Figure FDA0002218716670000033
表示第i个样本用户经过高斯滤波后的第t*时刻的负荷值;
通过聚类算法输入数据集构建输入矩阵记为X1,矩阵X1如下所示:
Figure FDA0002218716670000034
3.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵,具体步骤为:
将步骤1所述的n×96维输入矩阵X1,经过主成分分析降维成n×m维数据集x””i,k i∈(1,...,n)k∈(1,...,m),具体过程如下:
步骤2.1、原有的矩阵为X1,评价对象有n个,输入的评价指标时间维度为96;
计算自相关系数矩阵:
Figure FDA0002218716670000035
其中,
Figure FDA0002218716670000036
是描述输入负荷矩阵X1第i*个时刻和第j*个时刻之间的相关系数;
Figure FDA0002218716670000037
其中,
Figure FDA0002218716670000038
为X1的第i*列的均值,为X1的第j*列的均值,
Figure FDA00022187166700000310
第i个样本用户第i*时刻的负荷值;
步骤2.2、解特征方程|λI-R|=0,求得特征值λi(i=1,...,n);
步骤2.3、求累计贡献率,am表示主成分的累计贡献率,则有:
Figure FDA00022187166700000311
当累计贡献率am≥90%时,记下此时的主成分m值;
步骤2.4、将特征值λii∈(1...m)对应的特征向量记为ξt,j t∈(1,...,96),j∈(1,...,m),m个特征向量ξt,j能有效映射负荷矩阵X1到低维的m维空间;
步骤2.5、输入数据集X1×(ξt,j)96×m得到时序降维后投影输出矩阵:
Figure FDA0002218716670000041
Figure FDA0002218716670000042
表示第i个样本用户经主成分降维后的时序k下的负荷值。
4.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤3中所述根据DBI指标寻优得到最优聚类次数具体为:
其中,Rk是表征簇内和簇间欧式距离的衡量值,K为聚类次数;
当K∈(1,...,20),通过枚举法搜索当IDBI取最小值时,聚类效果最佳,最优聚类次数记为Kbest
5.根据权利要求1所述的基于改进kmeans的负荷曲线形态聚类算法,其特征在于:步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量,具体为:
步骤2求得投影输出矩阵为
Figure FDA0002218716670000044
结合步骤3得到最优聚类次数为Kbest,初始迭代次数记为f=1,从投影输出矩阵
Figure FDA0002218716670000045
中随机选择Kbest个行向量,即选择Kbest个样本用户负荷作为初始聚类中心,聚类中心记为初始均值向量:
以聚类中心μq f为中心的样本集合称为簇记为Cq f q∈{1,2,…,Kbest}
步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为:
步骤4.1、计算投影输出矩阵与初始均值向量的欧式距离diq=||Xi-uq f||2
样本i与距离中心μq f的最小欧式距离最小时,样本负荷
Figure FDA0002218716670000051
归属于簇Cq f q∈{1,2,…,Kbest}:
Figure FDA0002218716670000052
步骤4.2、利用归属于簇Cq f的样本用户
Figure FDA0002218716670000053
可计算时序k下任意负荷对应的概率密度函数,其表达式为:
其中,K为高斯核函数,T为时序k下的样本点数目,h为带宽,
Figure FDA0002218716670000055
为归属于簇Cq f内的第i条曲线时序k的负荷值,xk_num表示时序k下属于簇Cq f内所有样本的负荷值
Figure FDA0002218716670000056
步骤4.3、对每个Cq f簇的样本用户
Figure FDA0002218716670000057
遍历时序k下的簇内所有用户的概率密度函数
Figure FDA0002218716670000058
选取簇内最大概率密度对应的样本用户,其对应的负荷值
Figure FDA0002218716670000059
记为簇Cq f下xq_mp_k,最终形成m个时序的最大概率负荷曲线:
Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T
其中,xq_mp_k为簇Cq f内时序k下,fk(xk_num)取最大值时对应的负荷值;
步骤4.4、计算簇Cq f内样本负荷
Figure FDA00022187166700000510
较于最大概率负荷曲线Xq_mp=[xq_mp_1,xq_mp_2,…,xq_mp_m]T的权重wi
Figure FDA00022187166700000511
其中,
Figure FDA00022187166700000512
λ为用以调整di对wi的影响程度的可调参数,λ∈[0,1];
步骤4.5、对簇Cq f内所有的样本负荷曲线进行加权叠加,以获得新的聚类中心,如下:
Figure FDA0002218716670000061
其中,簇Cq f内样本
Figure FDA0002218716670000062
μq f为加权得到的簇Cq f聚类中心;
步骤4.6,迭代次数f=f+1,重复步骤4.1至步骤4.5,直至聚类中心μq f+1不再更新即
μq f+1q f≤ε时,ε为精确度。
CN201910925158.2A 2019-09-27 2019-09-27 一种基于改进kmeans的负荷曲线形态聚类算法 Active CN110796173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910925158.2A CN110796173B (zh) 2019-09-27 2019-09-27 一种基于改进kmeans的负荷曲线形态聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910925158.2A CN110796173B (zh) 2019-09-27 2019-09-27 一种基于改进kmeans的负荷曲线形态聚类算法

Publications (2)

Publication Number Publication Date
CN110796173A true CN110796173A (zh) 2020-02-14
CN110796173B CN110796173B (zh) 2023-05-16

Family

ID=69439937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910925158.2A Active CN110796173B (zh) 2019-09-27 2019-09-27 一种基于改进kmeans的负荷曲线形态聚类算法

Country Status (1)

Country Link
CN (1) CN110796173B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553434A (zh) * 2020-04-30 2020-08-18 华北电力大学 一种电力系统负荷分类方法及系统
CN111950620A (zh) * 2020-08-07 2020-11-17 国网能源研究院有限公司 基于DBSCAN和K-means算法的用户筛选方法
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112305442A (zh) * 2020-10-14 2021-02-02 北方工业大学 一种基于kmeans聚类的动力电池SOH快速估计方法
CN112381137A (zh) * 2020-11-10 2021-02-19 重庆大学 新能源电力系统可靠性评估方法、装置、设备及存储介质
CN113673551A (zh) * 2021-06-30 2021-11-19 国网山东省电力公司营销服务中心(计量中心) 一种电力计量不良数据辨识方法及系统
CN114429172A (zh) * 2021-12-07 2022-05-03 国网北京市电力公司 基于变电站用户构成的负荷聚类方法、装置、设备及介质
CN115861672A (zh) * 2022-12-20 2023-03-28 中南大学 一种基于图像特征联合分布的泡沫浮选运行性能评估方法
CN116883059A (zh) * 2023-09-06 2023-10-13 山东德源电力科技股份有限公司 一种配电终端管理方法及系统
CN112381137B (zh) * 2020-11-10 2024-06-07 重庆大学 新能源电力系统可靠性评估方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017001522A1 (en) * 2015-06-29 2017-01-05 Suez Groupe Method for detecting anomalies in a water distribution system
CN106408008A (zh) * 2016-09-08 2017-02-15 国网江西省电力公司赣州供电分公司 一种基于负荷曲线距离和形状的负荷分类方法
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN107679753A (zh) * 2017-09-30 2018-02-09 昆明电力交易中心有限责任公司 一种基于加权马氏距离的电力市场主体市场力评价方法
CN108197837A (zh) * 2018-02-07 2018-06-22 沈阳工业大学 基于KMeans聚类的光伏发电预测方法
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN108345908A (zh) * 2018-02-10 2018-07-31 武汉轻工大学 电网数据的分类方法、分类设备及存储介质
CN108389211A (zh) * 2018-03-16 2018-08-10 西安电子科技大学 基于改进鲸鱼优化模糊聚类的图像分割方法
CN108596362A (zh) * 2018-03-22 2018-09-28 国网四川省电力公司经济技术研究院 基于自适应分段聚合近似的电力负荷曲线形态聚类方法
CN109871860A (zh) * 2018-11-02 2019-06-11 湖南大学 一种基于核主成分分析的日负荷曲线降维聚类方法
CN109948920A (zh) * 2019-03-11 2019-06-28 昆明电力交易中心有限责任公司 一种基于证据理论的电力市场结算数据风险处理方法
CN110069467A (zh) * 2019-04-16 2019-07-30 沈阳工业大学 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017001522A1 (en) * 2015-06-29 2017-01-05 Suez Groupe Method for detecting anomalies in a water distribution system
CN106408008A (zh) * 2016-09-08 2017-02-15 国网江西省电力公司赣州供电分公司 一种基于负荷曲线距离和形状的负荷分类方法
CN107657266A (zh) * 2017-08-03 2018-02-02 华北电力大学(保定) 一种基于改进谱多流形聚类的负荷曲线聚类方法
CN107679753A (zh) * 2017-09-30 2018-02-09 昆明电力交易中心有限责任公司 一种基于加权马氏距离的电力市场主体市场力评价方法
CN108280479A (zh) * 2018-01-25 2018-07-13 重庆大学 一种基于负荷特性指标加权聚类算法的电网用户分类方法
CN108197837A (zh) * 2018-02-07 2018-06-22 沈阳工业大学 基于KMeans聚类的光伏发电预测方法
CN108345908A (zh) * 2018-02-10 2018-07-31 武汉轻工大学 电网数据的分类方法、分类设备及存储介质
CN108389211A (zh) * 2018-03-16 2018-08-10 西安电子科技大学 基于改进鲸鱼优化模糊聚类的图像分割方法
CN108596362A (zh) * 2018-03-22 2018-09-28 国网四川省电力公司经济技术研究院 基于自适应分段聚合近似的电力负荷曲线形态聚类方法
CN109871860A (zh) * 2018-11-02 2019-06-11 湖南大学 一种基于核主成分分析的日负荷曲线降维聚类方法
CN109948920A (zh) * 2019-03-11 2019-06-28 昆明电力交易中心有限责任公司 一种基于证据理论的电力市场结算数据风险处理方法
CN110069467A (zh) * 2019-04-16 2019-07-30 沈阳工业大学 基于皮尔逊系数与MapReduce并行计算的电网尖峰负荷聚类提取法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG FEIFAN等: "Deep Auto-encoded Clustering Algorithm for Community Detection in Complex Networks" *
赵文清 等: "基于Kernel K-means的负荷曲线聚类" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553434A (zh) * 2020-04-30 2020-08-18 华北电力大学 一种电力系统负荷分类方法及系统
CN111950620A (zh) * 2020-08-07 2020-11-17 国网能源研究院有限公司 基于DBSCAN和K-means算法的用户筛选方法
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112305442A (zh) * 2020-10-14 2021-02-02 北方工业大学 一种基于kmeans聚类的动力电池SOH快速估计方法
CN112305442B (zh) * 2020-10-14 2023-06-20 北方工业大学 一种基于kmeans聚类的动力电池SOH快速估计方法
CN112381137A (zh) * 2020-11-10 2021-02-19 重庆大学 新能源电力系统可靠性评估方法、装置、设备及存储介质
CN112381137B (zh) * 2020-11-10 2024-06-07 重庆大学 新能源电力系统可靠性评估方法、装置、设备及存储介质
CN113673551B (zh) * 2021-06-30 2024-05-28 国网山东省电力公司营销服务中心(计量中心) 一种电力计量不良数据辨识方法及系统
CN113673551A (zh) * 2021-06-30 2021-11-19 国网山东省电力公司营销服务中心(计量中心) 一种电力计量不良数据辨识方法及系统
CN114429172A (zh) * 2021-12-07 2022-05-03 国网北京市电力公司 基于变电站用户构成的负荷聚类方法、装置、设备及介质
CN115861672B (zh) * 2022-12-20 2023-09-19 中南大学 一种基于图像特征联合分布的泡沫浮选运行性能评估方法
CN115861672A (zh) * 2022-12-20 2023-03-28 中南大学 一种基于图像特征联合分布的泡沫浮选运行性能评估方法
CN116883059A (zh) * 2023-09-06 2023-10-13 山东德源电力科技股份有限公司 一种配电终端管理方法及系统
CN116883059B (zh) * 2023-09-06 2023-11-28 山东德源电力科技股份有限公司 一种配电终端管理方法及系统

Also Published As

Publication number Publication date
CN110796173B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN110796173B (zh) 一种基于改进kmeans的负荷曲线形态聚类算法
Rajabi et al. A comparative study of clustering techniques for electrical load pattern segmentation
CN111444241B (zh) 一种基于数据挖掘的台区线损异常关联用户精准定位方法
CN111178611B (zh) 一种日电量预测的方法
CN107248086A (zh) 基于用户用电行为分析的广告投放辅助分析方法
CN111340065B (zh) 一种基于复杂用户行为分析的用户负荷窃电模型挖掘系统及方法
CN108428055B (zh) 一种考虑负荷纵向特性的负荷聚类方法
CN115115265A (zh) 一种基于rfm模型的消费者评估方法、装置及介质
CN115545265A (zh) 一种基于数据修复和分解序列预测的售电量预测方法
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN117313016B (zh) 一种新能源电力交易现货电价价差数据处理方法
Grigoras et al. Processing of smart meters data for peak load estimation of consumers
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN110782140B (zh) 一种用于电费回收风险筛查的多维要素评估方法
CN112785456A (zh) 基于向量自回归模型的高损线路窃电检测方法
Colley et al. Queensland load profiling by using clustering techniques
CN111797924B (zh) 一种基于聚类算法的三维度园区画像方法及系统
CN115239201A (zh) 一种电力指数的评估方法及系统
Xu et al. An approach to cluster electrical load profiles based on piecewise symbolic aggregation
CN107704723A (zh) 一种基于斜率关联度的显著变量选择方法
CN113589034A (zh) 一种配电系统的窃电检测方法、装置、设备和介质
Davarzani et al. Study of missing meter data impact on domestic load profiles clustering and characterization
Shamim et al. Novel technique for feature computation and clustering of smart meter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant