CN114417972A

CN114417972A - 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法

Info

Publication number: CN114417972A
Application number: CN202111552871.0A
Authority: CN
Inventors: 李卿鹏; 康水平; 王煜晗; 彭飞; 李勇平; 杨琴; 尹士豪
Original assignee: Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd; State Grid Corp of China SGCC
Current assignee: Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd; State Grid Corp of China SGCC
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-29

Abstract

本发明公开了一种基于主成分分析和密度峰值聚类的用户用电行为分析方法，将降维后的数据归一化处理，输入样本邻近个数K；然后计算样本间的欧氏距离d_ij；计算出样本i的局部密度ρ_i和样本i的K近邻距离

建立决策图，选取类簇中心；计算出样本i与样本j的共享近邻相似度S(i,j)；获得样本的相似度矩阵；最后通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本，将未分配样本分配给已分配样本所在类簇；循环该操作直至所有剩余样本分配完毕；输出最终聚类结果。本发明用样本邻近个数K取代d_c，容易确定取值；并引入

调节各样本对当前样本的密度贡献，使获得的类簇中心更加准确；通过共享近邻相似度计算局部密度，更易区分决策图中的类簇中心与非类簇中心。

Description

一种基于主成分分析和密度峰值聚类的用户用电行为分析方法

技术领域

本发明属于电力数据检测领域，具体涉及一种基于主成分分析和密度峰值聚类的用户用电行为分析方法。

背景技术

随着电网信息化、数字化和智能化的快速发展，电力行业积累了海量的电力数据。如何挖掘电力数据中隐含的巨大价值，已成为电力领域的研究热点。各行各业的电力用户每日用电量是不确定的，且用电时间段、用电的高峰和低谷也一直在变化，但用户用电行为有其内在规律，其中隐藏着关联性，是用户用电行为的外在表现。挖掘并分析不同类别用户的用电行为特征，可完善电网的精益化管理，为用户提供高质量服务，提升电力部门的管理和经济效益。

大数据、人工智能等技术的兴起，为电力数据的深度挖掘提供了有效手段。聚类分析是数据挖掘领域的研究热点，它基于数据之间的相似性将数据分成类簇，使得同一类簇中的数据相似性高，不同类簇的数据相似性低。聚类分析能够有效获取数据的分布特征，从中发现隐含的模式和规律，在电力领域获得了广泛运用。

近年来，研究人员对用户用电行为进行了深入研究，其主要目的在于对用电负荷曲线进行聚类，从而分析不同用户对电价的敏感度，为电力部门的需求侧管理提供决策支持。用户的用电行为决定了负荷曲线的形态，由于用户的用电行为具有随机性，这给负荷曲线聚类带来了一定的困难。用电负荷数据具有高维度、含噪声和多冗余的复杂特性，选取合适的特征提取算法和聚类分析技术，是准确获取用户用电行为的关键。针对负荷曲线的聚类工作，最常用的聚类方法包括：基于划分的K-Means和FCM算法、基于层次的Chameleon算法、基于模型的GMM算法和基于密度的DBSCAN算法等。然而，这些聚类算法存在初始参数敏感、聚类效率低、聚类精度不高等缺陷。

密度峰值聚类(Density Peaks Clustering,DPC)算法于2014年在Science上发表，该算法原理简单且不需要事先确定类簇个数，在模式识别、图像分析、网络安全和信息检索等领域应用广泛。然而，DPC算法也存在一些缺陷：DPC算法定义的局部密度度量标准不统一，且对参数比较敏感；DPC算法的分配策略容易导致样本分配错误。

发明内容

本发明的目的在于提供一种基于主成分分析和密度峰值聚类的用户用电行为分析方法，采用DPC-KS算法，结合样本K近邻信息和高斯核函数定义样本的局部密度；新的局部密度定义方式统一了局部密度的定义；用K取代d_c，由于K的取值为整数，较截断距离d_c更容易确定取值，可以根据用户用电行为差异，精准地将用户用电行为划分为多种用电模式，形成用电行为档案，实现对用电用户的精准分类，并为用户提供优质的供电服务，提升电网的社会效益和经济效益。

为实现上述目的，本发明采取的技术方案为：一种基于主成分分析和密度峰值聚类的用户用电行为分析方法，步骤如下：

步骤1：对用户的用电负荷数据进行预处理，对缺失数据进行插补，剔除无效数据；

步骤2：采用PCA技术对负荷数据进行降维，计算特征矩阵，提取其主成分；

步骤3：输入降维后的数据，并将数据归一化处理，输入样本邻近个数K；

步骤4：根据归一化是数据设置样本i与样本j，计算样本i与样本j间的欧氏距离d_ij；

步骤5：结合样本K近邻信息和高斯核函数定义样本的局部密度，计算出样本i的局部密度ρ_i和样本i的K近邻距离δ_i ^K；

步骤6：计算所有样本的ρ_i和δ_i ^K，用ρ_i作为横坐标，δ_i ^K作为纵坐标，建立决策图，选取ρ_i和δ_i ^K都较大的点作为类簇中心即密度峰值；

步骤7：将样本i的K个最近样本组成集合KNN(i)，样本j的K个最近样本组成集合KNN(j)，KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j)；

步骤8：根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征，对样本i与样本j的共享近邻SNN(i,j)进行加权，得到样本i与样本j的共享近邻相似度S(i,j)；

步骤9：将确定的密度峰值标记为已分配样本，计算样本间的共享近邻相似度S(i,j)后，获得样本的相似度矩阵；

步骤10：通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本，将未分配样本分配给已分配样本所在类簇，循环步骤10中的分配策略直至所有剩余样本分配完毕；

步骤11：输出最终聚类结果。

8.进一步的，步骤2中PCA技术降维方法为：假设有n个样本{X¹,X²,...,Xⁿ}，每个样本有p维特征

每一个特征x_j都有各自的特征值；

PCA首先对数据每个特征进行零均值化处理，即减去这一特征的均值，如公式

所示；

其后计算协方差矩阵：

式中，

求解公式如下：

在计算完协方差矩阵C后，求解该协方差矩阵C的特征值和对应特征向量，如公式Cu＝λu所示，式中，λ为特征值，每个特征值λ_i对应一个特征向量u_i，选择特征值最大的k个特征向量ui按列叠加，形成矩阵U；

将原始特征投影到选取的特征向量上，得到降维后的新k维特征，新特征的计算公式为：

对于每一个样本Xⁱ，原来的特征是

投影之后的新特征是

即将样本Xⁱ由p维降至k维。

进一步的，步骤5中，δ_i ^K的计算公式为δ_i ^K＝max_j∈KNN(i)d_ij；ρ_i的计算公式为

式中KNN(i)表示样本i的K个近邻构成的集合，δ_i ^K为样本i的K近邻距离。

进一步的，步骤7中，共享近邻SNN(i,j)的计算公式为

SNN(i,j)＝KNN(i)∩KNN(j)。

进一步的，步骤8中，共享近邻相似度S(i,j)的计算公式为

式中

表征样本i的K近邻样本对样本j的隶属度，

表征样本j的K近邻样本对样本i的隶属度，将两隶属度之和为权值对共享近邻SNN(i,j)进行加权，得到两样本的共享近邻相似度，|SNN(i,j)|表示样本i和样本j的共享近邻集合内的元素个数。

进一步的，步骤6中，类簇中心还可以通过决策值γ_i选取，γ_i的定义如式γ_i＝ρ_i×δ_i所示。

进一步的，步骤1中，缺失数据时刻的前后两个时刻数据的求和平均值修复缺失数据。

与现有技术相比，本发明具有如下有益效果：1.本发明基于K近邻和共享近邻相似度的密度峰值聚类算法(Density Peaks Clustering Algorithm based on K-nearestNeighbor and Shared Nearest Neighbor Similarity,DPC-KS)结合样本K近邻信息和高斯核函数定义样本的局部密度；新的局部密度定义方式统一了局部密度的定义；用K取代d_c，由于K的取值为整数，较截断距离d_c更容易确定取值，可以根据用户用电行为差异，精准地将用户用电行为划分为多种用电模式，形成用电行为档案，实现对用电用户的精准分类，并为用户提供优质的供电服务，提升电网的社会效益和经济效益。2.本发明DPC-KS算法从样本的局部分布出发，引入δ_i ^K调节各样本对当前样本的密度贡献，以高斯核函数形式计算样本的局部密度。该局部密度定义充分使用了样本K个最近邻样本的分布信息，能更客观反映样本的实际分布，使获得的类簇中心更加准确。3.本发明使用共享近邻相似度计算局部密度，使样本的局部密度更加准确，更易区分决策图中的类簇中心与非类簇中心。

附图说明

图1为本发明DBI随类簇个数的变化趋势示意图；

图2为本发明类别1用户的用电行为模式示意图；

图3为本发明类别2用户的用电行为模式示意图；

图4为本发明类别3用户的用电行为模式示意图；

图5为本发明类别4用户的用电行为模式示意图；

具体实施方式

参照图1-3，本文的数据集为江西省某地区315户专变用户一年的日用电负荷数据。数据采集频率为30min，每天采集48个数据点，每一时刻的负荷数据可看成一个维度，形成一天的负荷曲线。将该数据通过本发明一种基于主成分分析和密度峰值聚类的用户用电行为分析方法进行分析，步骤如下：

步骤1：电力系统的数据采集装置受各种外部环境和内部因素影响，不可避免会出现数据缺失，影响数据分析。当缺失数据时，本发明选取缺失数据时刻的前后两个时刻数据的求和平均值修复缺失数据。

步骤2：将数据采用PCA技术降维方法，降维过程采用如下：假设有n个样本{X¹,X²,...,Xⁿ}，每个样本有p维特征

每一个特征x_j都有各自的特征值；

所示；

其后计算协方差矩阵：

式中，

求解公式如下：

在计算完协方差矩阵C后，求解该协方差矩阵C的特征值和对应特征向量，如公式Cu＝λu所示，式中，λ为特征值，每个特征值λ_i对应一个特征向量u_i，选择特征值最大的k个特征向量u_i按列叠加，形成矩阵U；

对于每一个样本Xⁱ，原来的特征是

投影之后的新特征是

即将样本Xⁱ由p维降至k维。

步骤3：由于不同类型的用户用电行为有不同的最大负荷值，采用公式

对数据进行归一化处理。其中，x′表示归一化后的数值，x_min表示负荷数据的最小值，x_max表示负荷数据的最大值，输入样本邻近个数13；

步骤5：将样本K近邻信息代入公式δ_i ^K＝max_j∈KNN(i)d_ij，计算出样本i的K近邻距离δ_i ^K；将δ_i ^K和d_ij代入公式

计算出样本i的局部密度ρ_i，式中^KNN(i)表示样本i的K个近邻构成的集合；

步骤6：计算所有样本的ρ_i和δ_i ^K，用ρ_i作为横坐标，δ_i ^K作为纵坐标，建立决策图，选取ρ_i和δ_i ^K都较大的点作为类簇中心即密度峰值；类簇中心通过决策值γ_i选取，γ_i的定义如式γ_i＝ρ_i×δ_i所示。

步骤7：依据公式SNN(i,j)＝KNN(i)∩KNN(j)将样本i的K个最近样本组成集合KNN(i)，样本j的K个最近样本组成集合KNN(j)，KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j)；

步骤8：根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征，对样本i与样本j的共享近邻SNN(i,j)进行加权，得到样本i与样本j的共享近邻相似度S(i,j)，如公式

所示；式中

表征样本i的K近邻样本对样本j的隶属度，

步骤10：通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本，将未分配样本分配给已分配样本所在类簇；循环步骤10中的分配策略直至所有剩余样本分配完毕；

步骤11：输出最终聚类结果。

类簇个数选取

本发明选用聚类分析的内部评价指标——戴维森堡丁指数(Davies-BouldinIndex,DBI)评价聚类效果，其值越小，说明簇内关系越紧密，簇间关系越薄弱，聚类性能越好。依据公式如下：

其中，k为类簇的个数，

为类簇i中所有样本与类簇i中心距离的平均距离，w_i代表类簇i的类簇中心。

为确定上述区域的用户用电行为可分为几类。以DBI评价指标为目标函数，通过PCA和DPC-KS算法对数据进行聚类，获得不同类簇个数下，DBI的取值结果。图1展示了不同类簇个数下，对应的DBI值。可以看出，当类簇个数为4或5时，DBI值较小。本发明选择4作为聚类个数。上述所提到的DPC-KS算法即是本发明基于K近邻和共享近邻相似度的密度峰值聚类算法(Density Peaks Clustering Algorithm based on K-nearest Neighbor andShared Nearest Neighbor Similarity,DPC-KS)

聚类结果分析

采用PCA对电力负荷数据降维后，使用DPC算法和本发明DPC-KS算法分别对本文选用的数据进行聚类，比较两个算法的DBI值。

表1，DPC和DPC-KS算法的DBI值

表1为DPC和DPC-KS算法获得最优聚类结果时的DBI值。表1的“参数”列给出了取得最优聚类结果时的参数取值，DPC算法对应的参数为截断距离d_c的取值，DPC-KS算法对应的参数为近邻个数K的取值。从表1的结果可知，DPC-KS算法比DPC算法的DBI值低，即DPC-KS对电力负荷数据的聚类效果优于DPC算法，证明了DPC-KS算法用于用户用电行为分析的有效性。

依据DPC-KS算法对负荷数据进行聚类，获得315户专变用户的用电行为可分为4类。每类包括的聚类样本数及占比，如表2所示。

表2，DPC-KS算法聚类后的样本分布及占比

315户专变用户的用电行为特征如图2-5所示。从图中可看出，4类用电行为存在较大差异。

类别1的用户上午有两个用电高峰，下午有一个用电高峰。其特征是上午8:30-10:00、10:00-11:00和下午2:00—3:00是用电高峰，峰值出现在上午9:00、11:00以及下午的2:30。该时间段用电量过大，可能是因为接待人数较多导致，常见于公共服务及管理组织，如医疗、教育和科研技术单位等。该类用户有95户，占样本总数的30.2％。对该类用户，电网应确保白天上班时间段有稳定的电力供应。

类别2的用户凌晨用电量较高，上午有一个用电高峰，其余时间的用电量较少，其特征是凌晨0:00—6:00用电量高于其他时间段，其耗电来源可能为大能耗设备，所以避开集中用电时段，选择电价较低的夜晚从事生产活动，常见于制造业和建筑业。该类用户有27户，占样本总数的8.5％。对该类用户，电网应从错峰用电角度出发，为该类用户提供较低的晚间电价，既能降低用户用电成本，又能减小电网高峰时段的供电压力。

类别3的用户上午(8:00)和下午(3:30)各有一个用电高峰，其余时间用电量较少。其典型的特征是除几个用电高峰外，其余时间用电量较平稳，其耗电来源可能为运输设备和仓储，常见于交通运输、仓储和邮政业。该类用户有21户，占样本总数的6.7％。对该类用户，电网应加大其所在区域供电设施的维修和巡检力度，确保不间断持续供电。

类别4的用户凌晨(0:00)、早上(6:00)、上午(8:00)和下午(1:00)各有一个用电高峰，其典型特征是一天有多个用电高峰，不同时间段用电量变化较大，常见于住宿和餐饮业，如一般旅馆、酒店和饭店。该类用户有172户，占样本总数的54.6％。对该类用户，电网应加大高峰期供电，并根据淡季和旺季，合理调控供电份额，如在节假日加大供电量等。

用户用电行为是电力部门对客户进行精准分类和为用户提供优质服务的重要依据。为挖掘用户的用电行为特征，首先，使用主成分分析技术对负荷数据进行降维，降低算法的运行时间；其次，使用本发明基于K近邻和共享近邻相似度的密度峰值聚类算法完成聚类分析，获得用户的用电行为。以江西省某地区315户专变用户的日用电量数据进行实验，验证了DPC-KS算法对用户用电行为分析的有效性。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。