CN112270338A

CN112270338A - 一种电力负荷曲线聚类方法

Info

Publication number: CN112270338A
Application number: CN202011032332.XA
Authority: CN
Inventors: 张刚; 解佗; 张靠社; 罗军刚; 冯培基; 吕蒙; 解梦琰; 徐奔奔; 张丁予; 卿松
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-26

Abstract

本发明公开了一种电力负荷曲线聚类方法，包括：对历史负荷数据进行预处理，得到负荷数据集；对负荷数据集进行降维处理，得到低维负荷数据集；采用GSA肘形判据法对低维负荷数据集进行计算，得到最佳聚类数目K；根据最佳聚类数目K，对低维负荷数据集进行聚类分析，得到聚类结果。通过t‑SNE降维技术对负荷进行处理，结合GSA肘形判据与二分K‑means算法对负荷进行聚类分析，通过实验证明改进后的算法有着更好的聚类质量。

Description

一种电力负荷曲线聚类方法

技术领域

本发明属于负荷分类方法技术领域，涉及一种电力负荷曲线聚类方法。

背景技术

随着电力市场的放开发展，交易主体多元化、交易方式更加灵活、交易次数更加频繁的市场特点也会逐渐凸显，伴随而来的将是海量的交易信息及电力数据，高效的利用市场交易中的各种信息及负荷数据，对于保证市场的稳定健康的发展有着重要的意义。分析不同类型的负荷模式，探索用户用电特点，有助于发电企业及售电公司进一步认知各种用电方式及其行为习惯，根据特点细分出不同的目标客户，推行不同的市场策略，定制个性化的服务，从而保护各交易方的权益及利益。但不同用户的电力负荷又有着随机性和时变性，使得对整个区域的负荷进行建模分析变得十分复杂。因此，针对负荷特点进行分类分析，研究各类别的典型负荷特点及用电行为习惯，以此来规划更细致的管控措施。

由此可见，结合历史信息数据的收集，对电力负荷数据进行聚类划分以及用电行为模式的识别是一项关键的工作，随着电力用户这个群体的规模不断扩大，用电习惯也越来越灵活随机，对这些用户所带来的海量负荷数据运用有效的数据挖掘技术，进行高效的聚类划分、分类识别，挖掘出负荷潜藏的重要信息将对需求侧动态响应及管理、用户异常行为监督检测、大型用户的精细划分等多种应用场合起着重要作用。现有的电力负荷聚类方法聚类质量较差。

发明内容

本发明的目的是提供一种电力负荷曲线聚类方法，解决了现有技术中存在的聚类质量差的问题。

本发明所采用的技术方案是，一种电力负荷曲线聚类方法，包括以下步骤：

步骤1、对历史负荷数据进行预处理，得到负荷数据集；

步骤2、对负荷数据集进行降维处理，得到低维负荷数据集；

步骤3、采用GSA肘形判据法对低维负荷数据集进行计算，得到最佳聚类数目K；

步骤4、根据最佳聚类数目K，对低维负荷数据集进行聚类分析，得到聚类结果。

本发明的特点还在于：

预处理过程包括：

首选删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据，得到初始负荷数据集；

然后对初始负荷数据集进行归一化处理，得到负荷数据集。

步骤2具体包括：

步骤2.1、设{x₁,x₂,...,x_m}为负荷数据集，x_m为集合中的一个n维数据，负荷数据集在低维空间的映射数据集合为{y₁,y₂,...,y_m}，则负荷数据集中x_i、x_j之间的相似性采用概率P_i|j、P_j|i表示为：

上式中，

为x_i的高斯分布方差；

为x_j的高斯分布方差；

步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j，则：

上式中，p_ij为高维空间数据点之间的联合概率，q_ij为低维空间数据点之间的联合概率；

步骤2.3、采用KL散度衡量p_ij、q_ij之间的相似度，P表示原数据集的联合概率分布，Q表示映射集合的联合概率分布，则损失函数E为：

步骤2.4、根据损失函数E，通过梯度下降法对负荷数据集进行降维，直至得到预设维数空间的低维负荷数据集。

步骤3具体包括：

步骤3.1、将聚类数目K分别设定为1、2，设低维负荷数据集为 V＝{d₁,d₂,...,d_n}，聚类划分为K个类簇后得到V₁,V₂,…,V_K，求解V_i的类内所有数据与类均值的距离平方和S_i：

上式中，z_i为类内质心；

通过下式计算每个K值的离散度W(K)、数学期望：

上式中，W_r(K)为第r个类中数据点的离散度，F为第r类中数据点的个数；

步骤3.2、计算聚类数目K为1、2时的间隙值Gap(1)、Gap(2)：

Gap(K)＝Eln[W_r(K)]-ln[W(K)] (13)；

步骤3.3、通过下式对聚类数目K进行验证：

Gap(K)≥Gap(K+1)-Z_k+1 (14)；

其中：

若满足上式，则最佳聚类数目K为1，否则进行下一步：

步骤3.4、计算肘形夹角θ(K)：

θ_b＝arctan(ln[W(K)]-ln[W(K+1)]) (18)；

步骤3.5、寻找θ(K)的最小值，此时K为最佳聚类数目。

步骤4具体包括：

步骤4.1、将低维负荷数据集作为同一种初始类别，记入类别表；

步骤4.2、从类别表中挑选类内数据相似程度最高的类，得到初始簇；

步骤4.3、根据最佳聚类数目K，使用K-means算法对初始簇聚类；

步骤4.3.1、已知初始簇中含有的样本数据量为n，每个样本数据的特征维度是m维，每个样本数据表述为：

X_i＝(x_1i,x_2i,...,x_mi),i＝1,2,3,...,n (19)；

步骤4.3.2、根据最佳聚类数目K，并从初始簇中随机抽取与K相同的数据向量作为初始聚类中心，则聚类中心的表述形式如下：

C_j＝(c_1j,c_2i,...,c_mj),j＝1,2,3,...,k (20)；

步骤4.3.3、计算初始簇中各个数据点到聚类中心的几何距离：

步骤4.3.4、计算误差平方和准则函数J_w，重复步骤4.3.1-步骤4.3.3，直至误差平方和准则函数J_w收敛；

步骤4.4、重复步骤4.3，直到达到预置实验次数；

步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数J_w最小的两个类别计入类别表；

步骤4.6、重复4.2-4.5步，直到类别表中的类别达到预设目标，得到聚类结果。

还包括：

步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。

本发明的有益效果是：

本发明一种电力负荷曲线聚类方法，通过t-SNE降维技术对负荷进行处理，结合GSA肘形判据与二分K-means算法对负荷进行聚类分析，通过实验证明改进后的算法有着更好的聚类质量。

附图说明

图1是本发明一种电力负荷曲线聚类方法的流程图；

图2是本发明一种电力负荷曲线聚类方法中聚类方法的流程图；

图3是本发明一种电力负荷曲线聚类方法中聚类结果图；

图4a是本发明一种电力负荷曲线聚类方法中第一类负荷曲线图；

图4b是本发明一种电力负荷曲线聚类方法中第二类负荷曲线图；

图4c是本发明一种电力负荷曲线聚类方法中第三类负荷曲线图；

图4d是本发明一种电力负荷曲线聚类方法中第四类负荷曲线图；

图4e是本发明一种电力负荷曲线聚类方法中第五类负荷曲线图；

图4f是本发明一种电力负荷曲线聚类方法中第六类负荷曲线图；

图4g是本发明一种电力负荷曲线聚类方法中第七类负荷曲线图；

图4h是本发明一种电力负荷曲线聚类方法中第八类负荷曲线图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

一种电力负荷曲线聚类方法，如图1所示，包括以下步骤：

步骤1、对历史负荷数据进行预处理，得到负荷数据集；

预处理过程包括：

删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据，得到初始负荷数据集；然后对初始负荷数据集进行归一化处理，得到负荷数据集。

修补缺失值时，首先判断缺失值的严重程度，缺失严重的数据所满足的情形应包含以下之一：

(1)一条曲线首末两端的存在多个数据丢失；

(2)曲线中有五分之一以上的数据信息丢失；

(3)曲线相邻的数据出现连续缺失两个及以上的情形。

若数据缺失的情况判断为严重，则可以从负荷数据集中剔除该组负荷，若负荷数据缺失的情况并不严重，则可以借助多阶拉格朗日内插法修补缺失值，其公式为：

上式中，t，k为分别代表设定的前推及后推期数；

通过下式筛选出非用户自身原因导致的毛刺数据，筛选公式表达为：

上式中，p_m,t为用户m在t时间的负荷数据，μ为给定的筛选阈值。

采用最大值归一化来将负荷数据归一化至[0,1]区间内，并保留负荷曲线的特点，公式如下：

上式中，max(L)为负荷序列数据中的最大值。

步骤2、对负荷数据集进行降维处理，得到低维负荷数据集；

上式中，

为x_i的高斯分布方差；

为x_j的高斯分布方差；

上式中，z_i为类内质心；

通过下式计算每个K值的离散度W(K)、数学期望：

上式中，W_r(K)为第r个类中数据点的离散度，F为第r类中数据点的个数。

步骤3.2、计算当聚类数目K为1、2时的间隙值Gap(1)、Gap(2)：

Gap(K)＝Eln[W_r(K)]-ln[W(K)] (13)；

步骤3.3、通过下式对聚类数目K进行验证：

Gap(K)≥Gap(K+1)-Z_k+1 (14)；

其中：

若满足上式，则最佳聚类数目K为1，否则进行下一步：

步骤3.4、计算肘形夹角θ(K)：

θ_b＝arctan(ln[W(K)]-ln[W(K+1)]) (18)；

步骤3.5、寻找θ(K)的最小值，此时K为最佳聚类数目。

X_i＝(x_1i,x_2i,...,x_mi),i＝1,2,3,...,n (19)；

C_j＝(c_1j,c_2i,...,c_mj),j＝1,2,3,...,k (20)；

上式中，n_j为第j类中样本的个数；m_j为第j类样本的均值，代表该数据样本类别的聚类中心。

步骤4.4、重复步骤4.3，直到达到预置实验次数；步骤4.3中，根据预先设定好聚类数量K，从目标数据集中随机抽出K个数据作为初始的样本中心，通过距离计算将与中心相近的数据聚合在一起，然后重新计算新的样本中心，以此迭代，当计算后的中心不再发生变化时，即认为J_w收敛，聚类完成。

步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。

DBI指标的计算公式如下：

上式中，S_i、S_j代表第i、j个类内所有数据与类均值的距离平方和，即分散程度；d_i,j为第i、j个类的类间距离。

DBI指标数值能够表现出各类别之间的离散程度以及类内个数据点的紧凑程度，该值越小，反映出的聚类质量就越高。

CHI指标结合了两个数据的聚类信息，分别用类间的分散性(用B表示) 和类内的紧凑型(用W表示)来度量，其中：

上式中，

为全体数据的平均值；w_k,i为数据集中第i个数据与第k类的隶属度，即：

则CHI指标为：

CHI指标也能够反映出不同类别之间的稀疏分离性，也能够表达出同种类型内各数据集之间的紧凑性，CHI指标数值越大反映出聚类质量越优越。

通过以上方式，本发明一种电力负荷曲线聚类方法，通过t-SNE降维技术对负荷进行处理，避免了因高维数据集中存在大量无关的属性使得在所有维中初始簇的可能性几乎为零，同时，有效处理了因高维空间中数据分布稀疏而导致大量数据间距离几乎相等的情况。结合GSA肘形判据与二分 K-means算法对负荷进行聚类分析，通过实验证明改进后的算法有着更好的聚类质量。

实施例

某市电力用户负荷2014年全年负荷数据，每组负荷数据集按照时间顺序排列，负荷采集间隔为一小时一次，提取出负荷曲线1251条。聚类结果如图3所示。由图3可以看出分类结果将这些负荷曲线分为八种负荷类型，而这八种负荷类型又可以大体分成三大类型，它们的特点如下：

第一大类负荷可称为“迎峰负荷”，如图3中的第3，4，5，7，8类负荷，其负荷特点是白天负荷高，夜间达到负荷谷期。如图4c、4g中，第3，7类负荷有两个明显的峰值时间段，在11:00-14:00以及17:00-20:00，这类典型的负荷企业多是零售业及餐饮饭店等行业，迎合客人的高峰期。如图4d、4e、 4h中，第4，5，8类负荷白天负荷高峰期持续较长，在11:00-18:00，多为白天进行生产活动的企业，比如部分电子元器件制造企业，金属加工企业等。

第二大类负荷可称为“避峰负荷”，如图3、图4b、图4f中的第2类及第6类，其负荷的高峰期与人们正常作息时间相反，可以看出其是在夜间负荷较大，而白天负荷较低，在10:00-20:00之间都存在一定的低谷负荷，有个别企业负荷动荡较大，存在两段谷期，其他企业白天谷期负荷较平稳，持续时间较长。这些企业一般都时为了响应峰谷时段的电价政策采取了夜间生产，白天休息的避锋措施。

第三大类负荷可称为“持续负荷”，如图3、图4a中的第1类负荷，这类企业一般均为连续生产企业，多为三班制工作，整日的生产量都比较平稳，负荷始终保持较高水平。

将本发明采用方法与传统K-means及二分K-means算法进行分析对比，采用DBI、CHI指标进行评价，对比结果如表1：

表1聚类评价指标

根据前文聚类指标的描述，DBI指标的数值应该是越小聚类效果越好， CHI指标则相反，其数值越大聚类效果越好，因此，根据表中数据可以看出，通过评价指标可以看出，K-means算法由于对初始质心的依赖，在随机初始质心的情况下，聚类指标数值波动较大，聚类效果不够稳定，二分K-means 算法聚类效果优于传统K-means算法，且克服了初值的影响，聚类指标浮动很小，且经过t-SNE降维处理负荷数据后，二分K-means在聚类效果上表现更加优秀。