CN114417972A - 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法 - Google Patents

一种基于主成分分析和密度峰值聚类的用户用电行为分析方法 Download PDF

Info

Publication number
CN114417972A
CN114417972A CN202111552871.0A CN202111552871A CN114417972A CN 114417972 A CN114417972 A CN 114417972A CN 202111552871 A CN202111552871 A CN 202111552871A CN 114417972 A CN114417972 A CN 114417972A
Authority
CN
China
Prior art keywords
sample
samples
neighbor
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111552871.0A
Other languages
English (en)
Inventor
李卿鹏
康水平
王煜晗
彭飞
李勇平
杨琴
尹士豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd
State Grid Corp of China SGCC
Original Assignee
Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd, State Grid Corp of China SGCC filed Critical Nanchang Power Supply Branch State Grid Jiangxi Province Electric Power Co ltd
Priority to CN202111552871.0A priority Critical patent/CN114417972A/zh
Publication of CN114417972A publication Critical patent/CN114417972A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,将降维后的数据归一化处理,输入样本邻近个数K;然后计算样本间的欧氏距离dij;计算出样本i的局部密度ρi和样本i的K近邻距离
Figure DDA0003418310070000011
建立决策图,选取类簇中心;计算出样本i与样本j的共享近邻相似度S(i,j);获得样本的相似度矩阵;最后通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本,将未分配样本分配给已分配样本所在类簇;循环该操作直至所有剩余样本分配完毕;输出最终聚类结果。本发明用样本邻近个数K取代dc,容易确定取值;并引入
Figure DDA0003418310070000012
调节各样本对当前样本的密度贡献,使获得的类簇中心更加准确;通过共享近邻相似度计算局部密度,更易区分决策图中的类簇中心与非类簇中心。

Description

一种基于主成分分析和密度峰值聚类的用户用电行为分析 方法
技术领域
本发明属于电力数据检测领域,具体涉及一种基于主成分分析和密度峰值聚类的用户用电行为分析方法。
背景技术
随着电网信息化、数字化和智能化的快速发展,电力行业积累了海量的电力数据。如何挖掘电力数据中隐含的巨大价值,已成为电力领域的研究热点。各行各业的电力用户每日用电量是不确定的,且用电时间段、用电的高峰和低谷也一直在变化,但用户用电行为有其内在规律,其中隐藏着关联性,是用户用电行为的外在表现。挖掘并分析不同类别用户的用电行为特征,可完善电网的精益化管理,为用户提供高质量服务,提升电力部门的管理和经济效益。
大数据、人工智能等技术的兴起,为电力数据的深度挖掘提供了有效手段。聚类分析是数据挖掘领域的研究热点,它基于数据之间的相似性将数据分成类簇,使得同一类簇中的数据相似性高,不同类簇的数据相似性低。聚类分析能够有效获取数据的分布特征,从中发现隐含的模式和规律,在电力领域获得了广泛运用。
近年来,研究人员对用户用电行为进行了深入研究,其主要目的在于对用电负荷曲线进行聚类,从而分析不同用户对电价的敏感度,为电力部门的需求侧管理提供决策支持。用户的用电行为决定了负荷曲线的形态,由于用户的用电行为具有随机性,这给负荷曲线聚类带来了一定的困难。用电负荷数据具有高维度、含噪声和多冗余的复杂特性,选取合适的特征提取算法和聚类分析技术,是准确获取用户用电行为的关键。针对负荷曲线的聚类工作,最常用的聚类方法包括:基于划分的K-Means和FCM算法、基于层次的Chameleon算法、基于模型的GMM算法和基于密度的DBSCAN算法等。然而,这些聚类算法存在初始参数敏感、聚类效率低、聚类精度不高等缺陷。
密度峰值聚类(Density Peaks Clustering,DPC)算法于2014年在Science上发表,该算法原理简单且不需要事先确定类簇个数,在模式识别、图像分析、网络安全和信息检索等领域应用广泛。然而,DPC算法也存在一些缺陷:DPC算法定义的局部密度度量标准不统一,且对参数比较敏感;DPC算法的分配策略容易导致样本分配错误。
发明内容
本发明的目的在于提供一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,采用DPC-KS算法,结合样本K近邻信息和高斯核函数定义样本的局部密度;新的局部密度定义方式统一了局部密度的定义;用K取代dc,由于K的取值为整数,较截断距离dc更容易确定取值,可以根据用户用电行为差异,精准地将用户用电行为划分为多种用电模式,形成用电行为档案,实现对用电用户的精准分类,并为用户提供优质的供电服务,提升电网的社会效益和经济效益。
为实现上述目的,本发明采取的技术方案为:一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,步骤如下:
步骤1:对用户的用电负荷数据进行预处理,对缺失数据进行插补,剔除无效数据;
步骤2:采用PCA技术对负荷数据进行降维,计算特征矩阵,提取其主成分;
步骤3:输入降维后的数据,并将数据归一化处理,输入样本邻近个数K;
步骤4:根据归一化是数据设置样本i与样本j,计算样本i与样本j间的欧氏距离dij
步骤5:结合样本K近邻信息和高斯核函数定义样本的局部密度,计算出样本i的局部密度ρi和样本i的K近邻距离δi K
步骤6:计算所有样本的ρi和δi K,用ρi作为横坐标,δi K作为纵坐标,建立决策图,选取ρi和δi K都较大的点作为类簇中心即密度峰值;
步骤7:将样本i的K个最近样本组成集合KNN(i),样本j的K个最近样本组成集合KNN(j),KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j);
步骤8:根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征,对样本i与样本j的共享近邻SNN(i,j)进行加权,得到样本i与样本j的共享近邻相似度S(i,j);
步骤9:将确定的密度峰值标记为已分配样本,计算样本间的共享近邻相似度S(i,j)后,获得样本的相似度矩阵;
步骤10:通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本,将未分配样本分配给已分配样本所在类簇,循环步骤10中的分配策略直至所有剩余样本分配完毕;
步骤11:输出最终聚类结果。
8.进一步的,步骤2中PCA技术降维方法为:假设有n个样本{X1,X2,...,Xn},每个样本有p维特征
Figure BDA0003418310050000031
每一个特征xj都有各自的特征值;
PCA首先对数据每个特征进行零均值化处理,即减去这一特征的均值,如公式
Figure BDA0003418310050000032
所示;
其后计算协方差矩阵:
Figure BDA0003418310050000033
式中,
Figure BDA0003418310050000034
求解公式如下:
Figure BDA0003418310050000035
在计算完协方差矩阵C后,求解该协方差矩阵C的特征值和对应特征向量,如公式Cu=λu所示,式中,λ为特征值,每个特征值λi对应一个特征向量ui,选择特征值最大的k个特征向量ui按列叠加,形成矩阵U;
将原始特征投影到选取的特征向量上,得到降维后的新k维特征,新特征的计算公式为:
Figure BDA0003418310050000036
对于每一个样本Xi,原来的特征是
Figure BDA0003418310050000037
投影之后的新特征是
Figure BDA0003418310050000038
即将样本Xi由p维降至k维。
进一步的,步骤5中,δi K的计算公式为δi K=maxj∈KNN(i)dij;ρi的计算公式为
Figure BDA0003418310050000039
式中KNN(i)表示样本i的K个近邻构成的集合,δi K为样本i的K近邻距离。
进一步的,步骤7中,共享近邻SNN(i,j)的计算公式为
SNN(i,j)=KNN(i)∩KNN(j)。
进一步的,步骤8中,共享近邻相似度S(i,j)的计算公式为
Figure BDA0003418310050000041
式中
Figure BDA0003418310050000042
表征样本i的K近邻样本对样本j的隶属度,
Figure BDA0003418310050000043
表征样本j的K近邻样本对样本i的隶属度,将两隶属度之和为权值对共享近邻SNN(i,j)进行加权,得到两样本的共享近邻相似度,|SNN(i,j)|表示样本i和样本j的共享近邻集合内的元素个数。
进一步的,步骤6中,类簇中心还可以通过决策值γi选取,γi的定义如式γi=ρi×δi所示。
进一步的,步骤1中,缺失数据时刻的前后两个时刻数据的求和平均值修复缺失数据。
与现有技术相比,本发明具有如下有益效果:1.本发明基于K近邻和共享近邻相似度的密度峰值聚类算法(Density Peaks Clustering Algorithm based on K-nearestNeighbor and Shared Nearest Neighbor Similarity,DPC-KS)结合样本K近邻信息和高斯核函数定义样本的局部密度;新的局部密度定义方式统一了局部密度的定义;用K取代dc,由于K的取值为整数,较截断距离dc更容易确定取值,可以根据用户用电行为差异,精准地将用户用电行为划分为多种用电模式,形成用电行为档案,实现对用电用户的精准分类,并为用户提供优质的供电服务,提升电网的社会效益和经济效益。2.本发明DPC-KS算法从样本的局部分布出发,引入δi K调节各样本对当前样本的密度贡献,以高斯核函数形式计算样本的局部密度。该局部密度定义充分使用了样本K个最近邻样本的分布信息,能更客观反映样本的实际分布,使获得的类簇中心更加准确。3.本发明使用共享近邻相似度计算局部密度,使样本的局部密度更加准确,更易区分决策图中的类簇中心与非类簇中心。
附图说明
图1为本发明DBI随类簇个数的变化趋势示意图;
图2为本发明类别1用户的用电行为模式示意图;
图3为本发明类别2用户的用电行为模式示意图;
图4为本发明类别3用户的用电行为模式示意图;
图5为本发明类别4用户的用电行为模式示意图;
具体实施方式
参照图1-3,本文的数据集为江西省某地区315户专变用户一年的日用电负荷数据。数据采集频率为30min,每天采集48个数据点,每一时刻的负荷数据可看成一个维度,形成一天的负荷曲线。将该数据通过本发明一种基于主成分分析和密度峰值聚类的用户用电行为分析方法进行分析,步骤如下:
步骤1:电力系统的数据采集装置受各种外部环境和内部因素影响,不可避免会出现数据缺失,影响数据分析。当缺失数据时,本发明选取缺失数据时刻的前后两个时刻数据的求和平均值修复缺失数据。
步骤2:将数据采用PCA技术降维方法,降维过程采用如下:假设有n个样本{X1,X2,...,Xn},每个样本有p维特征
Figure BDA0003418310050000051
每一个特征xj都有各自的特征值;
PCA首先对数据每个特征进行零均值化处理,即减去这一特征的均值,如公式
Figure BDA0003418310050000052
所示;
其后计算协方差矩阵:
Figure BDA0003418310050000053
式中,
Figure BDA0003418310050000054
求解公式如下:
Figure BDA0003418310050000055
在计算完协方差矩阵C后,求解该协方差矩阵C的特征值和对应特征向量,如公式Cu=λu所示,式中,λ为特征值,每个特征值λi对应一个特征向量ui,选择特征值最大的k个特征向量ui按列叠加,形成矩阵U;
将原始特征投影到选取的特征向量上,得到降维后的新k维特征,新特征的计算公式为:
Figure BDA0003418310050000061
对于每一个样本Xi,原来的特征是
Figure BDA0003418310050000062
投影之后的新特征是
Figure BDA0003418310050000063
即将样本Xi由p维降至k维。
步骤3:由于不同类型的用户用电行为有不同的最大负荷值,采用公式
Figure BDA0003418310050000066
对数据进行归一化处理。其中,x′表示归一化后的数值,xmin表示负荷数据的最小值,xmax表示负荷数据的最大值,输入样本邻近个数13;
步骤4:根据归一化是数据设置样本i与样本j,计算样本i与样本j间的欧氏距离dij
步骤5:将样本K近邻信息代入公式δi K=maxj∈KNN(i)dij,计算出样本i的K近邻距离δi K;将δi K和dij代入公式
Figure BDA0003418310050000065
计算出样本i的局部密度ρi,式中KNN(i)表示样本i的K个近邻构成的集合;
步骤6:计算所有样本的ρi和δi K,用ρi作为横坐标,δi K作为纵坐标,建立决策图,选取ρi和δi K都较大的点作为类簇中心即密度峰值;类簇中心通过决策值γi选取,γi的定义如式γi=ρi×δi所示。
步骤7:依据公式SNN(i,j)=KNN(i)∩KNN(j)将样本i的K个最近样本组成集合KNN(i),样本j的K个最近样本组成集合KNN(j),KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j);
步骤8:根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征,对样本i与样本j的共享近邻SNN(i,j)进行加权,得到样本i与样本j的共享近邻相似度S(i,j),如公式
Figure BDA0003418310050000071
所示;式中
Figure BDA0003418310050000072
表征样本i的K近邻样本对样本j的隶属度,
Figure BDA0003418310050000073
表征样本j的K近邻样本对样本i的隶属度,将两隶属度之和为权值对共享近邻SNN(i,j)进行加权,得到两样本的共享近邻相似度,|SNN(i,j)|表示样本i和样本j的共享近邻集合内的元素个数。
步骤9:将确定的密度峰值标记为已分配样本,计算样本间的共享近邻相似度S(i,j)后,获得样本的相似度矩阵;
步骤10:通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本,将未分配样本分配给已分配样本所在类簇;循环步骤10中的分配策略直至所有剩余样本分配完毕;
步骤11:输出最终聚类结果。
类簇个数选取
本发明选用聚类分析的内部评价指标——戴维森堡丁指数(Davies-BouldinIndex,DBI)评价聚类效果,其值越小,说明簇内关系越紧密,簇间关系越薄弱,聚类性能越好。依据公式如下:
Figure BDA0003418310050000074
其中,k为类簇的个数,
Figure BDA0003418310050000075
为类簇i中所有样本与类簇i中心距离的平均距离,wi代表类簇i的类簇中心。
为确定上述区域的用户用电行为可分为几类。以DBI评价指标为目标函数,通过PCA和DPC-KS算法对数据进行聚类,获得不同类簇个数下,DBI的取值结果。图1展示了不同类簇个数下,对应的DBI值。可以看出,当类簇个数为4或5时,DBI值较小。本发明选择4作为聚类个数。上述所提到的DPC-KS算法即是本发明基于K近邻和共享近邻相似度的密度峰值聚类算法(Density Peaks Clustering Algorithm based on K-nearest Neighbor andShared Nearest Neighbor Similarity,DPC-KS)
聚类结果分析
采用PCA对电力负荷数据降维后,使用DPC算法和本发明DPC-KS算法分别对本文选用的数据进行聚类,比较两个算法的DBI值。
表1,DPC和DPC-KS算法的DBI值
Figure BDA0003418310050000081
表1为DPC和DPC-KS算法获得最优聚类结果时的DBI值。表1的“参数”列给出了取得最优聚类结果时的参数取值,DPC算法对应的参数为截断距离dc的取值,DPC-KS算法对应的参数为近邻个数K的取值。从表1的结果可知,DPC-KS算法比DPC算法的DBI值低,即DPC-KS对电力负荷数据的聚类效果优于DPC算法,证明了DPC-KS算法用于用户用电行为分析的有效性。
依据DPC-KS算法对负荷数据进行聚类,获得315户专变用户的用电行为可分为4类。每类包括的聚类样本数及占比,如表2所示。
表2,DPC-KS算法聚类后的样本分布及占比
Figure BDA0003418310050000082
315户专变用户的用电行为特征如图2-5所示。从图中可看出,4类用电行为存在较大差异。
类别1的用户上午有两个用电高峰,下午有一个用电高峰。其特征是上午8:30-10:00、10:00-11:00和下午2:00—3:00是用电高峰,峰值出现在上午9:00、11:00以及下午的2:30。该时间段用电量过大,可能是因为接待人数较多导致,常见于公共服务及管理组织,如医疗、教育和科研技术单位等。该类用户有95户,占样本总数的30.2%。对该类用户,电网应确保白天上班时间段有稳定的电力供应。
类别2的用户凌晨用电量较高,上午有一个用电高峰,其余时间的用电量较少,其特征是凌晨0:00—6:00用电量高于其他时间段,其耗电来源可能为大能耗设备,所以避开集中用电时段,选择电价较低的夜晚从事生产活动,常见于制造业和建筑业。该类用户有27户,占样本总数的8.5%。对该类用户,电网应从错峰用电角度出发,为该类用户提供较低的晚间电价,既能降低用户用电成本,又能减小电网高峰时段的供电压力。
类别3的用户上午(8:00)和下午(3:30)各有一个用电高峰,其余时间用电量较少。其典型的特征是除几个用电高峰外,其余时间用电量较平稳,其耗电来源可能为运输设备和仓储,常见于交通运输、仓储和邮政业。该类用户有21户,占样本总数的6.7%。对该类用户,电网应加大其所在区域供电设施的维修和巡检力度,确保不间断持续供电。
类别4的用户凌晨(0:00)、早上(6:00)、上午(8:00)和下午(1:00)各有一个用电高峰,其典型特征是一天有多个用电高峰,不同时间段用电量变化较大,常见于住宿和餐饮业,如一般旅馆、酒店和饭店。该类用户有172户,占样本总数的54.6%。对该类用户,电网应加大高峰期供电,并根据淡季和旺季,合理调控供电份额,如在节假日加大供电量等。
用户用电行为是电力部门对客户进行精准分类和为用户提供优质服务的重要依据。为挖掘用户的用电行为特征,首先,使用主成分分析技术对负荷数据进行降维,降低算法的运行时间;其次,使用本发明基于K近邻和共享近邻相似度的密度峰值聚类算法完成聚类分析,获得用户的用电行为。以江西省某地区315户专变用户的日用电量数据进行实验,验证了DPC-KS算法对用户用电行为分析的有效性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤如下:
步骤1:对用户的用电负荷数据进行预处理,对缺失数据进行插补,剔除无效数据;
步骤2:采用PCA技术对负荷数据进行降维,计算特征矩阵,提取其主成分;
步骤3:输入降维后的数据,并将数据归一化处理,输入样本邻近个数K;
步骤4:根据归一化是数据设置样本i与样本j,计算样本i与样本j间的欧氏距离dij
步骤5:结合样本K近邻信息和高斯核函数定义样本的局部密度,计算出样本i的局部密度ρi和样本i的K近邻距离
Figure FDA0003418310040000011
步骤6:计算所有样本的ρi
Figure FDA0003418310040000012
用ρi作为横坐标,
Figure FDA0003418310040000013
作为纵坐标,建立决策图,选取ρi
Figure FDA0003418310040000014
都较大的点作为类簇中心即密度峰值;
步骤7:将样本i的K个最近样本组成集合KNN(i),样本j的K个最近样本组成集合KNN(j),KNN(i)与KNN(j)的交集为样本i与样本j的共享近邻SNN(i,j);
步骤8:根据样本i的K近邻集合KNN(i)分布特征与样本j的K近邻集合KNN(j)分布特征,对样本i与样本j的共享近邻SNN(i,j)进行加权,得到样本i与样本j的共享近邻相似度S(i,j);
步骤9:将确定的密度峰值标记为已分配样本,计算样本间的共享近邻相似度S(i,j)后,获得样本的相似度矩阵;
步骤10:通过相似性矩阵对所有已分配的样本寻找相似度最高的未分配样本,将未分配样本分配给已分配样本所在类簇,循环步骤10中的分配策略直至所有剩余样本分配完毕;
步骤11:输出最终聚类结果。
2.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤2中PCA技术降维方法为:假设有n个样本{X1,X2,...,Xn},每个样本有p维特征
Figure FDA0003418310040000015
每一个特征xj都有各自的特征值;
PCA首先对数据每个特征进行零均值化处理,即减去这一特征的均值,如公式
Figure FDA0003418310040000021
所示;
其后计算协方差矩阵:
Figure FDA0003418310040000022
式中,
Figure FDA00034183100400000213
求解公式如下:
Figure FDA0003418310040000023
在计算完协方差矩阵C后,求解该协方差矩阵C的特征值和对应特征向量,如公式Cu=λu所示,式中,λ为特征值,每个特征值λi对应一个特征向量ui,选择特征值最大的k个特征向量ui按列叠加,形成矩阵U;
将原始特征投影到选取的特征向量上,得到降维后的新k维特征,新特征的计算公式为:
Figure FDA0003418310040000024
对于每一个样本Xi,原来的特征是
Figure FDA0003418310040000025
投影之后的新特征是
Figure FDA00034183100400000212
即将样本Xi由p维降至k维。
3.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤5中,
Figure FDA0003418310040000026
的计算公式为
Figure FDA0003418310040000027
ρi的计算公式为
Figure FDA0003418310040000028
式中KNN(i)表示样本i的K个近邻构成的集合,
Figure FDA0003418310040000029
为样本i的K近邻距离。
4.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤7中,共享近邻SNN(i,j)的计算公式为
SNN(i,j)=KNN(i)∩KNN(j)。
5.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤8中,共享近邻相似度S(i,j)的计算公式为
Figure FDA00034183100400000210
式中
Figure FDA00034183100400000211
表征样本i的K近邻样本对样本j的隶属度,
Figure FDA0003418310040000031
表征样本j的K近邻样本对样本i的隶属度,将两隶属度之和为权值对共享近邻SNN(i,j)进行加权,得到两样本的共享近邻相似度,|SNN(i,j)|表示样本i和样本j的共享近邻集合内的元素个数。
6.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤6中,类簇中心还可以通过决策值γi选取,γi的定义如式γi=ρi×δi所示。
7.根据权利要求1所述的一种基于主成分分析和密度峰值聚类的用户用电行为分析方法,其特征是:步骤1中,缺失数据时刻的前后两个时刻数据的求和平均值修复缺失数据。
CN202111552871.0A 2021-12-17 2021-12-17 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法 Pending CN114417972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111552871.0A CN114417972A (zh) 2021-12-17 2021-12-17 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111552871.0A CN114417972A (zh) 2021-12-17 2021-12-17 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法

Publications (1)

Publication Number Publication Date
CN114417972A true CN114417972A (zh) 2022-04-29

Family

ID=81266670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111552871.0A Pending CN114417972A (zh) 2021-12-17 2021-12-17 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法

Country Status (1)

Country Link
CN (1) CN114417972A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556288A (zh) * 2023-12-28 2024-02-13 深圳微盐红创设计院有限公司 一种基于物联网的物理空间管理系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556288A (zh) * 2023-12-28 2024-02-13 深圳微盐红创设计院有限公司 一种基于物联网的物理空间管理系统及方法

Similar Documents

Publication Publication Date Title
US11043808B2 (en) Method for identifying pattern of load cycle
Si et al. Electric load clustering in smart grid: Methodologies, applications, and future trends
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN108681744A (zh) 一种基于数据划分的电力负荷曲线层次聚类方法
CN108805213B (zh) 计及小波熵降维的电力负荷曲线双层谱聚类方法
CN110188221B (zh) 一种基于形状距离的负荷曲线层次聚类方法
Zhang et al. Analysis of power consumer behavior based on the complementation of K-means and DBSCAN
CN110866841A (zh) 基于双聚类法的电力用户行业维度用电模式辨识分析方法及系统
CN103632306A (zh) 一种基于聚类分析的配电网供电区域划分方法
CN114417972A (zh) 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法
Pan et al. Kernel-based non-parametric clustering for load profiling of big smart meter data
Lu et al. Research on creating multi-attribute power consumption behavior portraits for massive users
Sharma et al. Aberration detection in electricity consumption using clustering technique
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
CN111898857A (zh) 基于BEMD和kmeans电力用户特征分析方法及系统
Kojury-Naftchali et al. AMI data analytics; an investigation of the self-organizing maps capabilities in customers characterization and big data management
Yang et al. Analysis of electricity consumption behaviors based on principal component analysis and density peak clustering
CN115936291A (zh) 海量数据下基于多能源协同企业能耗动态标准库构建方法
Shen et al. A Novel AI-based Method for EV Charging Load Profile Clustering
CN111768066B (zh) 基于融合特征的园区电热负荷耦合关系分析方法及装置
CN114372835A (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
Wang et al. Analysis of user’s power consumption behavior based on k-means
Zhu et al. Typical scene acquisition strategy for VPP based on multi-scale spectral clustering algorithm
Wang et al. Optimization of clustering analysis of residential electricity consumption behavior
Xiaoman et al. Analysis of power large user segmentation based on affinity propagation and K-means algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination