CN110796173A

CN110796173A - 一种基于改进kmeans的负荷曲线形态聚类算法

Info

Publication number: CN110796173A
Application number: CN201910925158.2A
Authority: CN
Inventors: 李维劼; 陈玲; 吴滇宁; 杨颜梦; 孙永军
Original assignee: Kunming Electric Power Trading Center LLC
Current assignee: Kunming Electric Power Trading Center LLC
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-02-14
Anticipated expiration: 2039-09-27
Also published as: CN110796173B

Abstract

本发明提出了一种基于改进kmeans的负荷曲线形态聚类算法。本发明首先建立初始样本，并进行异常值时刻提取，根据异常值时刻进行异常时刻负荷处理，利用计量数据时序差分法还原负荷电量，并提取样本用户典型负荷曲线，利用最大‑最小标准化方法进行归一化，并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵；通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵；根据DBI指标寻优得到最优聚类次数；根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量，初始均值向量通过高斯核函数估计形成最优聚类均值向量。本发明所提供的算法在负荷形态曲线无标签分类上准确率高，效率较好。

Description

一种基于改进kmeans的负荷曲线形态聚类算法

技术领域

本发明涉及电力负荷分类领域，具体设计一种基于改进kmeans的负荷曲线形态聚类算法。

背景技术

精准把握电力用户的用电特性是现货市场深入建设的必要基础之一。近年来，由于目前云南省计量条件相对较为不完善，每15分钟采集的负荷数据出现较多缺数、异常数的情况，提高计量数据质量已经成为了现货市场背景下亟待解决的问题。因而需要对负荷数据进行处理。同时为了明晰负荷的用电特性，需要根据曲线的形态，选取合适的电力负荷曲线聚类方法进行曲线形态分析。

发明内容

本发明提供了一种基于改进kmeans的负荷曲线形态聚类算法，用以提高典型负荷曲线分类效果的一种新型算法。针对计量端电力数据常易出现缺数、串数等异常情况，需要对数据进行预处理。利用现有的传统聚类算法，负荷分类效果和分类效率之间不能兼顾。

本发明的技术方案为一种基于改进kmeans的负荷曲线形态聚类算法，其特征在于，包括以下步骤：

步骤1：建立初始样本，并进行异常值时刻提取，根据异常值时刻进行异常时刻负荷处理，利用计量数据时序差分法还原负荷电量，并提取样本用户典型负荷曲线，利用最大-最小标准化方法进行归一化，并通过高斯滤波得到聚类算法输入数据集以构建输入矩阵；

步骤2：通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵；

步骤3：根据DBI指标寻优得到最优聚类次数；

步骤4，根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量，初始均值向量通过高斯核函数估计形成最优聚类均值向量；

作为优选，步骤1中所述建立初始样本为：

选择n个用户某月的计量表计读数作为初始样本，以15min为颗粒度，第i个样本用户时刻t的计量数据为：

P_i,t t∈(1,...T) i∈(1,...,n)

其中，T＝96×N，N为该月的天数；

步骤1中所述进行异常值时刻提取为：

根据计量表计数值累加递增原则即下一个时刻的计量值大于等于此刻的计量值小：

P_i,t+1≥P_i,t

当此时刻计量值小于上一时刻的计量值或此时刻的计量值为空时，该时刻对应的计量值定义为异常值，记录第i个样本用户不满足上述条件的所有异常值时刻，异常时刻集合记为：

其中，表示第i个样本的第t_j个异常值，N_i为第i个样本用户的异常值时刻数量；

步骤1中所述根据异常值时刻进行异常时刻负荷处理为：

对于正常时序，对应的电力负荷等于真实值，即

对于异常时序，利用三次样条插值和垂直修补法实现电量填补，以形成完整的该月负荷曲线序列

连续异常值数少于L时，在当异常时序

时，利用区间的三次多项式拟合得到

其中，a_m为三次项系数，b_m为二次项系数，c_m为一次项系数，d_m为常数项系数；

连续异常值数超过L时，采用垂直修复法：

即第i个用户时刻的异常值电量等于上一周同一时刻的负荷值；

步骤1中所述利用计量数据时序差分法还原负荷电量为：

利用计量数据时序差分法还原负荷电量x_i,t：

式中，x_i,t表示第i个样本用户t时刻的负荷值；

步骤1中所述提取样本用户典型负荷曲线为：

将该月N条负荷曲线x_i,t t∈(1,...T)i∈(1,...,n)，T＝96×N，N为该月的天数，提取成该月典型样本用户曲线

式中，表示提取的第i个样本用户t*时刻的典型负荷曲线；

步骤1中所述利用最大-最小标准化方法进行归一化为：

利用最大-最小标准化方法，实现负荷数据标准化

式中，

表示第i个样本用户经过标准化后的第t^*时刻的负荷值；

步骤1中所述通过高斯滤波得到聚类算法输入数据集以构建输入矩阵为：

基于高斯滤波，实现负荷曲线平滑，得到聚类算法输入数据集：

其中，

表示第i个样本用户经过高斯滤波后的第t^*时刻的负荷值；

通过聚类算法输入数据集构建输入矩阵记为X₁，矩阵X₁如下所示：

作为优选，步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵，具体步骤为：

将步骤1所述的n×96维输入矩阵X₁，经过主成分分析降维成n×m维数据集x””_i,ki∈(1,...,n)k∈(1,...,m)，具体过程如下：

步骤2.1、原有的矩阵为X₁，评价对象有n个，输入的评价指标时间维度为96；

计算自相关系数矩阵：

其中，

是描述输入负荷矩阵X₁第i^*个时刻和第j^*个时刻之间的相关系数；

其中，为X₁的第i^*列的均值，为X₁的第j^*列的均值，

第i个样本用户第i^*时刻的负荷值；

步骤2.2、解特征方程|λI-R|＝0，求得特征值λ_i(i＝1,...,n)；

步骤2.3、求累计贡献率，a_m表示主成分的累计贡献率，则有：

当累计贡献率a_m≥90％时，记下此时的主成分m值；

步骤2.4、将特征值λ_ii∈(1...m)对应的特征向量记为ξ_t,j t∈(1,...,96),j∈(1,...,m)，m个特征向量ξ_t,j能有效映射负荷矩阵X₁到低维的m维空间；

步骤2.5、输入数据集X₁×(ξ_t,j)_96×m得到时序降维后投影输出矩阵：

表示第i个样本用户经主成分降维后的时序k下的负荷值；

作为优选，步骤3中所述根据DBI指标寻优得到最优聚类次数具体为：

其中，R_k是表征簇内和簇间欧式距离的衡量值，K为聚类次数；

当K∈(1,...,20)，通过枚举法搜索当I_DBI取最小值时，聚类效果最佳，最优聚类次数记为K_best；

作为优选，步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量，具体为：

步骤2求得投影输出矩阵为

结合步骤3得到最优聚类次数为K_best，初始迭代次数记为f＝1，从投影输出矩阵

中随机选择K_best个行向量，即选择K_best个样本用户负荷作为初始聚类中心，聚类中心记为初始均值向量：

以聚类中心μ_q ^f为中心的样本集合称为簇记为C_q ^fq∈{1,2,…,K_best}

步骤4中所述初始均值向量利用高斯核函数估计形成最优聚类均值向量具体为：

步骤4.1、计算投影输出矩阵

i∈(1,...,n)与初始均值向量的欧式距离d_iq＝||X_i-u_q ^f||₂。样本i与距离中心μ_q ^f的最小欧式距离最小时，样本负荷

归属于簇C_q ^f q∈{1,2,…,K_best}：

步骤4.2、利用归属于簇C_q ^f的样本用户

可计算时序k下任意负荷对应的概率密度函数，其表达式为：

其中，K为高斯核函数，T为时序k下的样本点数目，h为带宽，

为归属于簇C_q ^f内的第i条曲线时序k的负荷值，x_{k_num}表示时序k下属于簇C_q ^f内所有样本的负荷值

步骤4.3、对每个C_q ^f簇的样本用户

遍历时序k下的簇内所有用户的概率密度函数

选取簇内最大概率密度对应的样本用户，其对应的负荷值

记为簇C_q ^f下x_{q_mp_k}，最终形成m个时序的最大概率负荷曲线：

X_{q_mp}＝[x_{q_mp_1},x_{q_mp_2},…,x_{q_mp_m}]^T

其中，x_{q_mp_k}为簇C_q ^f内时序k下，f_k(x_{k_num})取最大值时对应的负荷值；

步骤4.4、计算簇C_q ^f内样本负荷

较于最大概率负荷曲线X_{q_mp}＝[x_{q_mp_1},x_{q_mp_2},…,x_{q_mp_m}]^T的权重w_i

其中，

λ为用以调整d_i对w_i的影响程度的可调参数，λ∈[0,1]；

步骤4.5、对簇C_q ^f内所有的样本负荷曲线进行加权叠加，以获得新的聚类中心，如下：

其中，簇C_q ^f内样本

μ_q ^f为加权得到的簇C_q ^f聚类中心；

步骤4.6，迭代次数f＝f+1，重复步骤4.1至步骤4.5，直至聚类中心μ_q ^f+1不再更新即

μ_q ^f+1-μ_q ^f≤ε时，ε为精确度。

本发明优点在于，本发明所提出的数据预处理、高斯滤波、主成分分析、改进kmeans聚类的全流程计量电量处理方案完整性高，在真实电力负荷处理上效果好。基于高斯核估计的改进聚类算法在kmeans聚类算法中修改聚类中心的形成方式，最终在负荷形态曲线无标签分类上准确率高，效率较好。。

附图说明

图1：是本发明方法流程图；

图2：是改进kmeans算法聚类中心更新的计算方法；

图3：改进kmeans算法聚类分类一；

图4：改进kmeans算法聚类分类二；

图5：改进kmeans算法聚类分类三；

图6：改进kmeans算法聚类分类四；

图7：改进kmeans算法聚类分类五；

图8：改进kmeans算法聚类分类六；

图9：改进kmeans算法聚类分类七；

图10：改进kmeans算法聚类分类八。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

选用从2018年7月1日至2019年7月1日的云南全省16市1250家用户涵盖钢铁、冶炼、金属等大工业用户以及超市、酒店等一般工商业用户以15min为粒度的负荷计量数据。首先，对数据进行预处理和典型负荷曲线提取，之后对所有样本库负荷曲线经进行聚类有效性预测算，在不同聚类数目时，DB指标呈现出波动性，当聚类数为8时，DB指标取至极小值。此时意味着聚类效果最好。因而选择聚类数8进行下一步的聚类。

下面结合图1至图3介绍本发的具体实施方式为一种基于改进kmeans的负荷曲线形态聚类算法，包括以下步骤：

步骤1中所述建立初始样本为：

选择n＝1250个用户某月的计量表计读数作为初始样本，以15min为颗粒度，第i个样本用户时刻t的计量数据为：

P_i,t t∈(1,...T)i∈(1,...,n)

其中，T＝96×N，N为该月的天数；以四月为例，N＝30，T＝2880。

步骤1中所述进行异常值时刻提取为：

P_i,t+1≥P_i,t

其中，

表示第i个样本的第t_j个异常值，N_i为第i个样本用户的异常值时刻数量；

步骤1中所述根据异常值时刻进行异常时刻负荷处理为：

对于正常时序，对应的电力负荷等于真实值，即

连续异常值数少于L时，其中L＝8，在当异常时序

时，利用区间的三次多项式拟合得到

连续异常值数超过L时，采用垂直修复法：

即第i个用户

时刻的异常值电量等于上一周同一时刻的负荷值；

步骤1中所述利用计量数据时序差分法还原负荷电量为：

利用计量数据时序差分法还原负荷电量x_i,t：

式中，x_i,t表示第i个样本用户t时刻的负荷值；

步骤1中所述提取样本用户典型负荷曲线为：

式中，

表示提取的第i个样本用户t*时刻的典型负荷曲线；

步骤1中所述利用最大-最小标准化方法进行归一化为：

利用最大-最小标准化方法，实现负荷数据标准化

式中，

表示第i个样本用户经过标准化后的第t^*时刻的负荷值；

其中，

表示第i个样本用户经过高斯滤波后的第t^*时刻的负荷值；

步骤2中所述通过输入矩阵经过主成分分析降维得到时序降维后投影输出矩阵，具体步骤为：

计算自相关系数矩阵：

其中，

其中，为X₁的第i^*列的均值，为X₁的第j^*列的均值，

第i个样本用户第i^*时刻的负荷值；

步骤2.2、解特征方程|λI-R|＝0，求得特征值λ_i(i＝1,...,n)；

当累计贡献率a_m≥90％时，记下此时的主成分m值，得m＝13；

表示第i个样本用户经主成分降维后的时序k下的负荷值；

步骤3：根据DBI指标寻优得到最优聚类次数；

步骤3中所述根据DBI指标寻优得到最优聚类次数具体为：

当K∈(1,...,20)，通过枚举法搜索当I_DBI取最小值时，聚类效果最佳，最优聚类次数记为K_best，此时求得K_best＝8；

步骤4中所述根据最优聚类次数从投影输出矩阵中随机选取行向量作为初始均值向量，具体为：

步骤2求得投影输出矩阵为

{μ₁ ^f,μ₂ ^f,…,μ_Kbest ^f}；以聚类中心μ_q ^f为中心的样本集合称为簇记为C_q ^f q∈{1,2,…,K_best}

步骤4.1、计算投影输出矩阵

归属于簇C_q ^f q∈{1,2,…,K_best}：

步骤4.2、利用归属于簇C_q ^f的样本用户

可计算时序k下任意负荷对应的概率密度函数，其表达式为：

其中，K为高斯核函数，T为时序k下的样本点数目，h为带宽，

步骤4.3、对每个C_q ^f簇的样本用户

遍历时序k下的簇内所有用户的概率密度函数

选取簇内最大概率密度对应的样本用户，其对应的负荷值记为簇C_q ^f下x_{q_mp_k}，最终形成m个时序的最大概率负荷曲线：

X_{q_mp}＝[x_{q_mp_1},x_{q_mp_2},…,x_{q_mp_m}]^T

步骤4.4、计算簇C_q ^f内样本负荷较于最大概率负荷曲线X_{q_mp}＝[x_{q_mp_1},x_{q_mp_2},…,x_{q_mp_m}]^T的权重w_i

其中，

λ为用以调整d_i对w_i的影响程度的可调参数，λ∈[0,1]；

其中，簇C_q ^f内样本μ_q ^f为加权得到的簇C_q ^f聚类中心；

μ_q ^f+1-μ_q ^f≤ε时，ε为精确度取0.01。

对样本库典型负荷曲线进行主成分分析后，原有的数据进行了降维。原有的一天96维度的负荷数据经主成分分析后，在保持95％的贡献率下，降维成了13维。此时描述负荷曲线能力没有下降，低维描述了原有的高维曲线特性。

利用降维后的负荷数据作为聚类算法的数据矩阵，运用基于核密度估计的Kmeans算法进行聚类。结果如下图3所示；

图中用户用电特性比较明显。用电曲线大致分为单峰(第三类)、双峰(第一类、第六类)、三峰(第八类)、避峰(第七类、第五类、第四类)、平峰(第二类)等。大多数大工业用户为追求效率最大化选用全天24小时连续运行，因而呈现出单峰。部分工业用户对电价敏感采用峰谷运行方式，白天少用电，晚上多用电，呈现出避峰的典型负荷曲线形态。对于超市、商业综合体等营业时间考虑人流量和白天的活动时间，从早上至晚上营业。因而呈现出单峰或者双峰的形态。云南采矿业发达，对于小型的页岩砖厂以及小工业用电，其用电特性与工作人员的休息时间息息相关，呈现出三峰的用电曲线形态。聚类结果与实际全省用户的不同用电规律相契合。

为进一步定量衡量新算法核密度估计聚类中心对聚类结果的影响。选用均值法、正态核、高斯核下产生聚类中心对最终聚类结果的影响进行比较。引入SSE指标对比三类方法，结果如下表1所示，高斯核密度估计的聚类中心相较传统的均值法聚类中心，误差平方和SSE更小，相较能更好的描述簇内各曲线的相似性。

表1三类方法SSE指标比较

算法	均值法	正态核	高斯核
				SSE指标	1.167×10<sup>3</sup>	1.820×10<sup>3</sup>	1.166×10<sup>3</sup>

新算法和传统算法聚类结果比较如下表2所示。本文提出的经过降维后的基于核密度估计的kmeans算法相较其他聚类算法虽然在耗时上有所增加，但是在SSE指标聚类中心的误差平方和最小，意味着在同一个簇的各曲线的相似度更高。且其DB指标较小，因而不同簇之间的相差性更大。故新算法在簇内相似性和簇间相异性均能有较为优异的效果。

表2算法结果比较

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。