CN113837311B - 一种基于需求响应数据的居民客户聚类方法及装置 - Google Patents
一种基于需求响应数据的居民客户聚类方法及装置 Download PDFInfo
- Publication number
- CN113837311B CN113837311B CN202111161587.0A CN202111161587A CN113837311B CN 113837311 B CN113837311 B CN 113837311B CN 202111161587 A CN202111161587 A CN 202111161587A CN 113837311 B CN113837311 B CN 113837311B
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- users
- resident
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 title claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 230000005611 electricity Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000005284 excitation Effects 0.000 claims abstract description 5
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 238000013316 zoning Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 57
- 238000005192 partition Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012856 packing Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 abstract description 3
- 238000004220 aggregation Methods 0.000 abstract description 3
- 238000007621 cluster analysis Methods 0.000 abstract description 2
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 101100353526 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) pca-2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于需求响应数据的居民客户聚类方法及装置,该方法包括对台区居民用户进行用电普查,构建数据矩阵;根据居民用户的用电特性,利用相关特性指标对用户的电量数据进行降维处理;基于α‑邻近和数据装箱理论,提出一种新型分区分层聚类算法;基于需求响应激励机制实施前后居民用户用电行为的分析,对用户用电行为进行聚类分析。该装置通过处理器运行存储器中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,实现对居民客户的聚类。本发明将聚合理论方法用于参与需求响应的居民用户分类中,为电网侧针对不同用户定制异质性电力套餐的过程提供科学的依据。
Description
技术领域
本发明涉及电力系统用电负荷领域,特别涉及一种基于需求响应数据的居民客户聚类方法及装置。
背景技术
随着我国经济社会从高速增长向高质量增长转型,用电结构持续优化调整,三产及居民生活用电比重不断上升,负荷尖峰化特征愈发明显。传统电力规划以最大负荷确定电源电网建设规模,存在发电和输变电设备利用率偏低、投资低效、产能浪费、推高全社会用电成本等问题,已不能完全适应新时代电力高质量发展的要求。居民用户是潜力可观的需求响应资源,其参与电力市场可带来显著的安全、经济效益,也将大幅提升分布式能源的消纳能力。国内外研究及实践经验表明,通过采取一系列源、荷资源协调控制措施,可以有效改善负荷特性,削减尖峰负荷规模,延缓电源电网投资,以较小代价满足用电需求,此外还能带来节能减排等其他额外社会效益。因此,科学合理控制尖峰负荷规模是未来电力高质量发展的重点方向。
目前需求响应项目的开展对象多是工商业,面向居民用户的需求响应的项目开展需要进一步加强。
发明内容
针对现有技术中存在的问题,本发明的目的是提供一种基于需求响应数据的居民客户聚类方法及装置。
本发明提供一种基于需求响应数据的居民客户聚类方法,包括以下步骤:
步骤1:根据居民用户的用电特性,利用相关特性指标对用户的电量数据进行降维处理;
步骤2:基于需求响应激励机制实施前后居民用户用电行为变化数据的分析,基于数据装箱和α-邻近的理论,提出一种新型分区分层聚类算法;在每个集群分割中,首先执行数据装箱,然后将对象分组到各自的集群中;对于每一个分割,通过确定一个参考质心向量R,它被用作该聚类分割的中心;选定的R与该聚类分割的最佳α值一起用于选择相关样本,即R在α-邻近范围内的点;在每个分割结束时,得到一个对象聚类;剩下的未分组的数据将再次被装箱,并为接下来的每个簇分割选择一个新的参考质心,直到达到指定的簇数,或者几乎所有的数据都被聚类,未聚集的少数样本被分配到它们最接近的现有集群,实现对用户进行聚类。
步骤1的具体实现方法如下:
步骤1.1,对目标台区居民用户同一时间段内用电负荷进行负荷特性普查,得到负荷特性数据;
步骤1.2,数据准备,清除异常数据,对数据进行预处理,得到N个样本的居民用户用电数据集X,
式中,X为m×n阶的矩阵,xij为X向量中的第i行,第j列的元素,其中1≤i≤m,1≤j≤n,m为矩阵的行数,n为矩阵的列数。
步骤1.3,为方便计算,将X表示成列向量的形式,即X=[x1,x2,x3,…,xm]T。
其中,xi表示矩阵X中的第i行,包含n个元素的行向量,T表示向量的转置。
步骤1.4,我们拿到的用户用电负荷数据因为各个特征的单位不同,会给数据分析造成困扰,故在进行运算之前要对数据进行预处理,去除量纲影响。采用零均值处理和标准化处理。虽然数据经过预处理后消除了量纲影响,但考虑到样本数据特征的重要程度有着差异,选择进行样本特征的协方差矩阵计算。
计算样本的协方差矩阵:
A为协方差矩阵;cov()是求协方差运算;xi表示矩阵X中第i行,包含n个元素的行向量,1≤i≤m;yi为k个新的变量指标;
通过奇异值方法对A矩阵进行求解,得到:
A*Q=Q*D (4)
A是协方差矩阵;Q是正交矩阵,Q的列向量就是A的特征向量;D是由特征值组成的对角矩阵。
通过求解可以得到n个特征值λ,每一个λi都对应一个特征向量ui。将特征值λ按照从大到小的顺序排序,选择最大的前k个并将其相对应的k个特征向量拿出来,我们会得到一组新的特征向量组{(λ1,u1),(λ2,u2),(λ3,u3),...,(λk,uk)}。
步骤1.5,将原始特征投影到选取的特征向量上,得到降维后的新k维特征。如下式:
yi为k个新的变量指标,yi∈R1Xn,其中1≤i≤k≤n;xi为矩阵X的行向量;X为m×n阶的矩阵;ui为X的协方差矩阵第i个特征值由大到小对应的特征向量,uij为特征向量ui内的第j个元素,1≤j≤n;T为转置标识符;i,j为正整数。
uij满足平方和为1,即
uij为特征向量ui内的第j个元素,1≤i≤m,1≤j≤n,i,j为正整数;
步骤1.6,再通过计算主成分的信息贡献率和累积贡献率筛选出k个主成分,按照得分值的从大到小进行选取。
信息贡献率:
其中,Li为第i个有效特征的信息贡献率,1≤i≤n;λi为第i个变量的特征值;
累积贡献率:
其中,Lm为累积贡献率;λi为协方差矩阵A的特征值;m为有效特征值的个数;n为所有特征值的个数;i为1到m的正整数,j为1到n的正整数;当Lm接近为1(一般要大于0.85)时,则选择前m个指标变量为m个主成分代替原来的n个指标。
计算综合得分
其中Li为第i个指标yi的信息贡献率。
选取前m个主要成分就是按照Z值的大小来选取,同时要注意所选取的m个主成分的Lm值要大于0.85。
步骤1.7,得到降维之后的数据集,构成特征向量;
xi=(xi1,xi2,…xin),i=1,2,…m (10)
其中,xi表示第i个样本的特征指标构成,m是样本的个数,n是指标的个数;
所述步骤2的具体实现方法如下:
步骤2.1,装箱过程是将每个指标的值划分为指定数量的箱子。数据集中的每个指标根据标准偏差作为衡量标准,具有较高标准偏差的指标被放入更多的箱子,而标准偏差较低的指标分配较少的箱子,该指标值的整个范围就会被划分为选定的箱子数量。然后,对于每个样本,每个指标都根据指标的值分配一个序数值。至此,居民用电数据集被转换并表示为一个装箱矩阵;
步骤2.2,利用一个参考质心向量R来分割每个类;R作为在每个聚类分割中生成的聚类中心点,是由步骤2.2的装箱矩阵的平均值决定的,R由下式(11)计算:
R={Rj,j=1,2,3,…,k}
式中:Rj表示第j个聚类的参考质心R;ci表示指标的值,i=1,2,3...,n,mk表示用户数;在有k个聚类的情况下,将有相应的k个R;对于每个Rj,计算n个指标的平均值,每个指标都是用ci表示的分类指标或列,其中i的范围从1到分选指标的数量;在mk个用户上计算平均值,在每个聚类中,被聚类的样本数量被从集合中删除,其余的样本将被传递到下一个聚类中处理;因此,m1是包含居民用户数据集的所有用户的集合,而接下来的m2集将包含m1减去第一个聚类分割中选择的用户数,这个过程将持续到所有聚类分割完成。
步骤2.3,使用α-邻近来确定一个用户是否属于某一个聚类。α-邻近是一个特定装箱数据用户的每个指标与参考质心向量R的每个指标值之间的距离,算法在α-邻近空间中执行网格搜索,α-邻近空间是有界的,如公式(12)所示。因为超过平均箱子大小的一半将导致几乎所有的用户被选择到一个单一的集群中,故使用平均装箱尺寸(Average Bin Size)减半来确定α-邻近空间的上界。
0<α≤(AverageBinSize)/2 (12)
平均装箱尺寸的计算如式(13)所示
Bi为指标i的箱子数;n为数据中指标的总数。
为使误差最小化,误差由平均欧氏距离衡量,它是根据被选入一个聚类的样本来计算的,首先计算被分配到一个聚类的每个样本与它的参考质心R的欧氏距离,在这个聚类中所有用户的距离被聚合和平均,得到的值就是平均欧氏距离。选择与最低平均欧氏距离相对应的最佳α值作为停止准则。
每个聚类的目标是将用户分配给一个类,使样本与参考质心向量的平均欧氏距离最小。最小化过程在[αmin,αmax]的α-空间范围内采用网格搜索方法,用以下约束优化问题表示,平均欧氏距离定义为:
向量是根据的α值构造的,表示聚类j的用户数据,l=1,2,3…Nj,αj表示聚类分割的最佳α值,Nj表示聚类j中的样本数,N表示样本总数。聚类j的最优平均欧氏距离定义如下:
式(15)中的有效集定义是数据清洗后的用户数据集;代表平均欧氏距离Dj的最小值。
步骤2.4,由于居民用户数据的规模和高维特性,计算可用平均欧氏距离值的均值/中值,并选择其平均欧氏距离等于或最接近计算的均值/中值的α值。检查剩余的未聚集的用户并计算它们到每个聚类中心的欧氏距离。用户最接近哪个集群,就将用户分配给该集群。按照这种方法,所有用户都被分配,没有用户是未归类到聚类中的,从而到达算法的末端。
本发明还提供一种基于需求响应数据的居民客户聚类装置,包括:
计算模块,配置为计算特定装箱数据用户的每个指标与参考质心向量R的每个值之间的距离α值和用户与参考质心向量R的平均欧氏距离;
判断模块,配置为判断用户与参考质心向量R的平均欧氏距离的大小作比较;
控制模块,配置为根据计算模块和判断模块得到的结果,如果当前用户在与某一聚类中心的平均欧氏距离中,则归为这一类,否则比较与另一聚类中心的平均欧氏距离,用户最接近哪个集群,就将用户分配给该集群。
一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的基于需求响应数据的居民客户聚类方法的步骤。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时前述的基于需求响应数据的居民客户聚类方法的步骤。
本发明的有益效果是:
本发明包括对台区居民用户进行用电普查,构建数据矩阵;根据居民用户的用电特性,利用相关特性指标对用户的电量数据进行降维处理;基于α-邻近和数据装箱理论,提出一种新型分区分层聚类算法;基于需求响应激励机制实施前后居民用户用电行为的分析,对用户用电行为进行聚类分析。该装置通过处理器运行存储器中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,实现对居民客户的聚类。本发明将聚合理论方法用于参与需求响应的居民用户分类中,为电网侧针对不同用户定制异质性电力套餐的过程提供科学的依据。
本发明将聚合理论方法用于参与需求响应的居民用户分类中,为电网侧针对不同用户定制异质性电力套餐的过程提供科学的依据。
附图说明
图1为本发明优选实施例中一种基于需求响应数据的居民客户聚类方法的流程框图;
图2为本发明优选实施例中基于α-邻近的装箱理论聚类方法的流程图;
图3为硬件系统的模块组成图;
图4为电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。
一种基于需求响应数据的居民客户聚类方法,包括以下步骤:
步骤1:根据居民用户的用电特性,利用相关特性指标对用户的电量数据进行降维处理;
步骤2:基于需求响应激励机制实施前后居民用户用电行为变化数据的分析,基于数据装箱和α-邻近的理论,提出一种新型分区分层聚类算法;在每个集群分割中,首先执行数据装箱,然后将对象分组到各自的集群中;对于每一个分割,通过确定一个参考质心向量R,它被用作该聚类分割的中心;选定的R与该聚类分割的最佳α值一起用于选择相关样本,即R在α-邻近范围内的点;在每个分割结束时,得到一个对象聚类;剩下的未分组的数据将再次被装箱,并为接下来的每个簇分割选择一个新的参考质心,直到达到指定的簇数,或者几乎所有的数据都被聚类,未聚集的少数样本被分配到它们最接近的现有集群,实现对用户进行聚类。
步骤1的具体实现方法如下:
步骤1.1,对目标台区居民用户同一时间段内用电负荷进行负荷特性普查,得到负荷特性数据;
步骤1.2,数据准备,清除异常数据,对数据进行预处理,得到N个样本的居民用户用电数据集X,
式中,X为m×n阶的矩阵,xij为X向量中的第i行,第j列的元素,其中1≤i≤m,1≤j≤n,m为矩阵的行数,n为矩阵的列数。
步骤1.3,为方便计算,将X表示成列向量的形式,即X=[x1,x2,x3,…,xm]T。
其中,xi表示矩阵X中的第i行,包含n个元素的行向量,T表示向量的转置。
步骤1.4,我们拿到的用户用电负荷数据因为各个特征的单位不同,会给数据分析造成困扰,故在进行运算之前要对数据进行预处理,去除量纲影响。采用零均值处理和标准化处理。虽然数据经过预处理后消除了量纲影响,但考虑到样本数据特征的重要程度有着差异,选择进行样本特征的协方差矩阵计算。
计算样本的协方差矩阵:
A为协方差矩阵;cov()是求协方差运算;xi表示矩阵X中第i行,包含n个元素的行向量,1≤i≤m;yi为k个新的变量指标;
通过奇异值方法对A矩阵进行求解,得到:
A*Q=Q*D (4)
A是协方差矩阵;Q是正交矩阵,Q的列向量就是A的特征向量;D是由特征值组成的对角矩阵。
通过求解可以得到n个特征值λ,每一个λi都对应一个特征向量ui。将特征值λ按照从大到小的顺序排序,选择最大的前k个并将其相对应的k个特征向量拿出来,我们会得到一组新的特征向量组{(λ1,u1),(λ2,u2),(λ3,u3),...,(λk,uk)}。
步骤1.5,将原始特征投影到选取的特征向量上,得到降维后的新k维特征。如下式:
yi为k个新的变量指标,yi∈R1Xn,其中1≤i≤k≤n;xi为矩阵X的行向量;X为m×n阶的矩阵;ui为X的协方差矩阵第i个特征值由大到小对应的特征向量,uij为特征向量ui内的第j个元素,1≤j≤n;T为转置标识符;i,j为正整数。
uij满足平方和为1,即
uij为特征向量ui内的第j个元素,1≤i≤m,1≤j≤n,i,j为正整数;
步骤1.6,再通过计算主成分的信息贡献率和累积贡献率筛选出k个主成分,按照得分值的从大到小进行选取。
信息贡献率:
其中,Li为第i个有效特征的信息贡献率,1≤i≤n;λi为第i个变量的特征值;
累积贡献率:
其中,Lm为累积贡献率;λi为协方差矩阵A的特征值;m为有效特征值的个数;n为所有特征值的个数;i为1到m的正整数,j为1到n的正整数;当Lm接近为1(一般要大于0.85)时,则选择前m个指标变量为m个主成分代替原来的n个指标。
计算综合得分
其中Li为第i个指标yi的信息贡献率。
选取前m个主要成分就是按照Z值的大小来选取,同时要注意所选取的m个主成分的Lm值要大于0.85。
步骤1.7,得到降维之后的数据集,构成特征向量;
xi=(xi1,xi2,…xin),i=1,2,…m (10)
其中,xi表示第i个样本的特征指标构成,m是样本的个数,n是指标的个数;
所述步骤2的具体实现方法如下:
步骤2.1,装箱过程是将每个指标的值划分为指定数量的箱子。数据集中的每个指标根据标准偏差作为衡量标准,具有较高标准偏差的指标被放入更多的箱子,而标准偏差较低的指标分配较少的箱子,该指标值的整个范围就会被划分为选定的箱子数量。然后,对于每个样本,每个指标都根据指标的值分配一个序数值。至此,居民用电数据集被转换并表示为一个装箱矩阵;
步骤2.2,利用一个参考质心向量R来分割每个类;R作为在每个聚类分割中生成的聚类中心点,是由步骤2.2的装箱矩阵的平均值决定的,R由下式(11)计算:
R={Rj,j=1,2,3,…,k}
式中:Rj表示第j个聚类的参考质心R;ci表示指标的值,i=1,2,3...,n,mk表示用户数;在有k个聚类的情况下,将有相应的k个R;对于每个Rj,计算n个指标的平均值,每个指标都是用ci表示的分类指标或列,其中i的范围从1到分选指标的数量;在mk个用户上计算平均值,在每个聚类中,被聚类的样本数量被从集合中删除,其余的样本将被传递到下一个聚类中处理;因此,m1是包含居民用户数据集的所有用户的集合,而接下来的m2集将包含m1减去第一个聚类分割中选择的用户数,这个过程将持续到所有聚类分割完成。
步骤2.3,使用α-邻近来确定一个用户是否属于某一个聚类。α-邻近是一个特定装箱数据用户的每个指标与参考质心向量R的每个指标值之间的距离,算法在α-邻近空间中执行网格搜索,α-邻近空间是有界的,如公式(12)所示。因为超过平均箱子大小的一半将导致几乎所有的用户被选择到一个单一的集群中,故使用平均装箱尺寸(Average Bin Size)减半来确定α-邻近空间的上界。
0<α≤(AverageBinSize)/2 (12)
平均装箱尺寸的计算如式(13)所示
Bi为指标i的箱子数;n为数据中指标的总数。
为使误差最小化,误差由平均欧氏距离衡量,它是根据被选入一个聚类的样本来计算的,首先计算被分配到一个聚类的每个样本与它的参考质心R的欧氏距离,在这个聚类中所有用户的距离被聚合和平均,得到的值就是平均欧氏距离。选择与最低平均欧氏距离相对应的最佳α值作为停止准则。
每个聚类的目标是将用户分配给一个类,使样本与参考质心向量的平均欧氏距离最小。最小化过程在[αmin,αmax]的α-空间范围内采用网格搜索方法,用以下约束优化问题表示,平均欧氏距离定义为:
向量是根据的α值构造的,表示聚类j的用户数据,l=1,2,3…Nj,αj表示聚类分割的最佳α值,Nj表示聚类j中的样本数,N表示样本总数。聚类j的最优平均欧氏距离定义如下:
式(15)中的有效集定义是数据清洗后的用户数据集;代表平均欧氏距离Dj的最小值。
步骤2.4,由于居民用户数据的规模和高维特性,计算可用平均欧氏距离值的均值/中值,并选择其平均欧氏距离等于或最接近计算的均值/中值的α值。检查剩余的未聚集的用户并计算它们到每个聚类中心的欧氏距离。用户最接近哪个集群,就将用户分配给该集群。按照这种方法,所有用户都被分配,没有用户是未归类到聚类中的,从而到达算法的末端。
为便于对本发明的理解,结合实例对本发明一种基于需求响应数据的居民客户聚类方法进行较为详细的方法过程描述:
随机选取20个有效样本(参与需求响应的居民用户用电信息)进行聚类,根据需求响应开展的进程,以需求响应时间段为核心选取了8个指标维度,如下表1所示:
表1居民用电数据
数据预处理和PCA降维后的数据如下表2所示:
表2PCA降维后的数据
样本编号 | PCA-1 | PCA-2 |
1 | -1.0522 | -0.69507 |
2 | -0.79626 | -0.68217 |
3 | -1.08174 | 1.18496 |
4 | -0.83445 | -0.57332 |
5 | -0.79906 | 0.88717 |
6 | -0.85687 | -0.30508 |
7 | -0.74255 | -0.78495 |
8 | -0.13806 | -0.63012 |
9 | -0.6344 | -0.61705 |
10 | -0.69545 | -0.47163 |
11 | -0.54992 | 1.53085 |
12 | 0.28357 | 0.41641 |
13 | 0.26279 | -0.53526 |
14 | 0.05799 | 0.27672 |
15 | 0.20697 | 0.16946 |
16 | 1.46629 | -1.04992 |
17 | 0.88101 | 2.18404 |
18 | 1.20275 | -1.10228 |
19 | 1.4639 | 1.72307 |
20 | 2.35568 | -0.92583 |
通过α-邻近的装箱理论聚类方法进行聚类,可以得到下表3:
表3基于α-邻近的装箱理论聚类方法的聚类结果
/>
聚类中心见下表3-1:
表3-1聚类中心
可以看出:样本1,5,6,7,8,9,20归为第一类,见下表3-2:
表3-2聚类结果1
样本编号 | 所属类别 |
1 | 1 |
5 | 1 |
6 | 1 |
7 | 1 |
8 | 1 |
9 | 1 |
20 | 1 |
样本2,4,10,11,12,13,14,15,16,18归为第二类,见下表3-3:
表3-3聚类结果2
样本编号 | 所属类别 |
2 | 2 |
4 | 2 |
10 | 2 |
11 | 2 |
12 | 2 |
13 | 2 |
14 | 2 |
15 | 2 |
16 | 2 |
18 | 2 |
样本3,17,19归为第三类,见下表3-4:
表3-4聚类结果3
样本编号 | 所属类别 |
3 | 3 |
17 | 3 |
19 | 3 |
硬件系统实现流程
如图3所示,一种基于需求响应数据的居民客户聚类装置200包括,计算模块210、判断模块220、控制模块230。
其中,计算模块210,配置为计算特定装箱数据用户的每个指标与参考质心向量R的每个值之间的距离α值和用户与参考质心向量R的平均欧氏距离;
判断模块220配置为判断样本与平均欧氏距离的大小作比较,根据计算模块210计算得出的样本间距离判断其归属;
控制模块230配置根据计算模块210,判断模块220得到的结果,配置为根据计算模块和判断模块得到的结果,如果当前样本的距离计算结果处于某一聚类中心的平均欧几里得距离中,则归为这一类,否则比较与另一聚类中心的距离。
应当理解,图3中的诸模块与参考图1,2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述方法实施例中的一种基于需求响应数据的居民客户聚类方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
第1步 将数据进行降维处理
第2步 进行装箱过程,生成装箱矩阵
第3步 进行类的参考质心R计算
第4步 确定α-邻近空间范围
第5步 进行参数校验和选择
第6步 使用α-邻近来确定样本的归属
第7步 循环操作,直至数据全部被分类
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种基于需求响应数据的居民客户聚类装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至一种基于需求响应数据的居民客户聚类装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述一种基于需求响应数据的居民客户聚类方法。
图4是本发明实施例提供的电子设备的结构示意图,如图4所示,该设备包括:一个或多个处理器310以及存储器320,图4中以一个处理器310为例。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例一种基于需求响应数据的居民客户聚类方法。输入装置330可接收输入的数字或字符信息,以及产生与一种基于需求响应数据的居民客户聚类装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于一种基于需求响应数据的居民客户聚类装置中,用于客户端,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行计算机存储介质存储的指令。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于需求响应数据的居民客户聚类方法,其特征在于:
步骤1:根据居民用户的用电特性,利用相关特性指标对用户的电量数据进行降维处理;
步骤2:基于需求响应激励机制实施前后居民用户用电行为变化数据的分析,基于数据装箱和α-邻近的理论,提出一种分区分层聚类算法;在每个集群分割中,首先执行数据装箱,然后将对象分组到各自的集群中;对于每一个分割,通过确定一个参考质心向量R,它被用作聚类分割的中心;选定的R与该聚类分割的最佳α值一起用于选择相关样本,即R在α-邻近范围内的点;在每个分割结束时,得到一个对象聚类;剩下的未分组的数据将再次被装箱,并为接下来的每个簇分割选择一个新的参考质心,直到达到指定的簇数,或者几乎所有的数据都被聚类,未聚集的少数样本被分配到它们最接近的现有集群,实现对用户进行聚类;
步骤2.1,装箱过程将每个指标的值划分为指定数量的箱子;数据集中的每个指标根据标准偏差作为衡量标准,根据标准偏差的高低分配箱子,指标的值的整个范围被划分为选定的箱子数量;然后,对于每个样本,每个指标都根据指标的值分配一个序数值;至此,居民用电数据集被转换并表示为一个装箱矩阵;
步骤2.2,利用一个参考质心向量R来分割每个聚类;R作为在每个聚类分割中生成的聚类中心点,是由步骤2.2的装箱矩阵的平均值决定的,R的计算方法如下:
;
;
在有k个聚类的情况下,将有相应的k个R;对于每个Rj,计算n个指标的平均值,每个指标都是用ci表示的分类指标或列,其中i的范围从1到分选指标的数量;在mk个用户上计算平均值,在每个聚类中,被聚类的样本数量被从集合中删除,其余的样本将被传递到下一个聚类中处理;因此,m1是包含居民用户数据集的所有用户的集合,而接下来的m2集将包含m1减去第一个聚类分割中选择的用户数,这个过程将持续到所有聚类分割完成;
步骤2.3,使用α-邻近来确定一个用户是否属于某一个聚类,α-邻近是一个特定装箱数据用户的每个指标与参考质心向量R的每个值之间的距离,算法在α空间中执行网格搜索,α-空间是有界的;使用平均装箱尺寸减半来确定α范围的上界;
;
平均装箱尺寸的计算如下所示:
;
Bi为指标i的箱子数,n为数据中指标的总数;
为使误差最小化,计算被分配到一个聚类的每个用户与它的参考质心向量R的欧氏距离;在这个聚类中所有用户的距离被聚合和平均,得到平均欧氏距离;选择与最低平均欧氏距离相对应的最佳α值作为停止准则;
每个聚类的目标是将用户分配给一个聚类,使用户与参考质心向量的平均欧氏距离最小;最小化过程在[αmin, αmax]的α-范围内采用网格搜索方法,用以下约束优化问题表示,平均欧氏距离定义为:
j=1,2,3,/>,k;
向量是根据α的值构造的,表示聚类j的用户数据, />=1,2,3/>,/>表示聚类分割的最佳α值,/>表示聚类j中的样本数,N表示样本总数;
聚类j的最优平均欧氏距离定义如下:
;
Subject to;
;
;
;
步骤2.4,由于居民用户数据的规模和高维特性,计算可用的平均欧氏距离值的均值/中值,并选择其平均欧氏距离等于或最接近计算的均值/中值的α值,检查剩余的未聚集的用户并计算它们到每个聚类中心的欧氏距离,用户最接近哪个集群,就将用户分配给该集群;按照这种方法,所有用户都被分配,没有用户是未归类到聚类中的,从而到达算法的末端。
2.根据权利要求1所述的一种基于需求响应数据的居民客户聚类方法,其特征在于:所述步骤1的具体实现方法如下:
步骤1.1,对目标台区居民用户同一时间段内用电负荷进行负荷特性普查,得到负荷特性数据;
步骤1.2,数据准备,清除异常数据,对数据进行预处理,得到N个样本的居民用户用电数据集X,
X=;
式中,X为m×n阶的矩阵,xij为X向量中的第i行,第j列的元素,其中1≤i≤m,1≤j≤n,m为矩阵的行数,n为矩阵的列数;
步骤1.3,将X矩阵表示成列向量的形式,即X=[x1,x2,x3,⋯,xm]T,xi表示矩阵X中的第i行,包含n个元素的行向量,T表示向量的转置;
步骤1.4,选择计算样本特征的协方差矩阵,并对矩阵进行奇异值求解特征值和特征向量,将特征值按照从大到小的顺序排序,选择最大的前k个并将其相对应的k个特征向量拿出来,得到一组新的特征向量组{(λ1,u1),(λ2,u2),(λ3,u3),...,(λk,uk)};
步骤1.5,将原始特征投影到选取的特征向量上,得到降维后的新k维特征;
步骤1.6,计算主成分的综合得分:
;
其中Li为第i个指标yi的信息贡献率;
步骤1.7,根据步骤1得到的降维后的居民用户用电数据,构成特征向量;
;
其中,表示第i个样本的特征指标构成,m是样本的个数,n是指标的个数。
3.一种用于实施权利要求1或2所述的基于需求响应数据的居民客户聚类方法的装置,其特征在于:包括:
计算模块,配置为计算特定装箱数据用户的每个指标与参考质心向量R的每个值之间的距离α值和用户与参考质心向量R的平均欧氏距离;
判断模块,配置为判断用户与参考质心向量R的平均欧氏距离的大小作比较;
控制模块,配置为根据计算模块和判断模块得到的结果,如果当前用户在与某一聚类中心的平均欧氏距离中,则归为这一类,否则比较与另一聚类中心的平均欧氏距离,用户最接近哪个集群,就将用户分配给该集群。
4.一种电子设备,其特征在于:包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1或2所述的基于需求响应数据的居民客户聚类方法的步骤。
5.一种存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现权利要求1或2所述的基于需求响应数据的居民客户聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111161587.0A CN113837311B (zh) | 2021-09-30 | 2021-09-30 | 一种基于需求响应数据的居民客户聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111161587.0A CN113837311B (zh) | 2021-09-30 | 2021-09-30 | 一种基于需求响应数据的居民客户聚类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837311A CN113837311A (zh) | 2021-12-24 |
CN113837311B true CN113837311B (zh) | 2023-10-10 |
Family
ID=78968101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111161587.0A Active CN113837311B (zh) | 2021-09-30 | 2021-09-30 | 一种基于需求响应数据的居民客户聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837311B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897451B (zh) * | 2022-07-13 | 2022-09-13 | 南昌工程学院 | 考虑需求响应用户关键特征的双层聚类修正方法及装置 |
CN115204323B (zh) * | 2022-09-16 | 2022-12-02 | 华智生物技术有限公司 | 基于种子多特征的聚类及综合的方法、系统、设备及介质 |
CN115358640A (zh) * | 2022-10-20 | 2022-11-18 | 四川中电启明星信息技术有限公司 | 一种基于阶梯式激励的居民台区需求响应方法 |
CN116029535B (zh) * | 2023-03-27 | 2023-06-30 | 东莞先知大数据有限公司 | 一种供水压力预警方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109634940A (zh) * | 2018-11-12 | 2019-04-16 | 国网天津市电力公司电力科学研究院 | 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法 |
CN110781332A (zh) * | 2019-10-16 | 2020-02-11 | 三峡大学 | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 |
CN111489188A (zh) * | 2020-03-11 | 2020-08-04 | 国网天津市电力公司电力科学研究院 | 一种居民可调负荷潜力挖掘方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9202178B2 (en) * | 2014-03-11 | 2015-12-01 | Sas Institute Inc. | Computerized cluster analysis framework for decorrelated cluster identification in datasets |
EP3107040A1 (en) * | 2015-06-19 | 2016-12-21 | Tata Consultancy Services Limited | Assurance-enabled linde buzo gray (albg) data clustering based segmentation |
GB2585890B (en) * | 2019-07-19 | 2022-02-16 | Centrica Plc | System for distributed data processing using clustering |
-
2021
- 2021-09-30 CN CN202111161587.0A patent/CN113837311B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109634940A (zh) * | 2018-11-12 | 2019-04-16 | 国网天津市电力公司电力科学研究院 | 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法 |
CN110781332A (zh) * | 2019-10-16 | 2020-02-11 | 三峡大学 | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 |
CN111489188A (zh) * | 2020-03-11 | 2020-08-04 | 国网天津市电力公司电力科学研究院 | 一种居民可调负荷潜力挖掘方法及系统 |
Non-Patent Citations (1)
Title |
---|
奇异值分解方法在日负荷曲线降维聚类分析中的应用;陈烨;吴浩;史俊;商佳宜;孙维真;;电力系统自动化(03);第111-117页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837311A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837311B (zh) | 一种基于需求响应数据的居民客户聚类方法及装置 | |
Sun et al. | An objective-based scenario selection method for transmission network expansion planning with multivariate stochasticity in load and renewable energy sources | |
CN110231528B (zh) | 基于负荷特征模型库的变压器户变异常识别方法及装置 | |
CN109858758A (zh) | 一种配电网电能质量的组合赋权评估方法及系统 | |
CN110738435A (zh) | 一种配电网项目投资决策评价方法 | |
CN104850629A (zh) | 一种基于改进k-means算法的海量智能用电数据分析方法 | |
CN109657884B (zh) | 电网供电优化方法、装置、设备和计算机可读存储介质 | |
CN110689162B (zh) | 一种基于用户侧分类的母线负荷预测方法、装置及系统 | |
CN109255514B (zh) | 一种智能配电网分区独立供电能力评估方法 | |
US9189489B1 (en) | Inverse distribution function operations in a parallel relational database | |
CN108921324A (zh) | 基于配变聚类的台区短期负荷预测方法 | |
CN109544029A (zh) | 一种台区线损的分析方法、分析装置及终端 | |
CN114897451B (zh) | 考虑需求响应用户关键特征的双层聚类修正方法及装置 | |
CN109858667A (zh) | 一种基于雷电气候对负荷影响的短期负荷聚类方法 | |
CN114358378A (zh) | 一种用于考虑需量管理的用户侧储能优化配置系统及方法 | |
CN112464059B (zh) | 配电网用户分类方法、装置、计算机设备和存储介质 | |
CN104809210B (zh) | 一种基于分布式计算框架下海量数据加权top‑k查询方法 | |
CN113595071A (zh) | 台区用户辨识与电压影响评估方法 | |
Wang et al. | Decomposition multi-objective evolutionary algorithm based on adaptive neighborhood adjustment strategy | |
CN111797899B (zh) | 一种低压台区kmeans聚类方法及系统 | |
CN112116205A (zh) | 针对台区用电特征的画像方法、装置和存储介质 | |
Wang et al. | Application of clustering technique to electricity customer classification for load forecasting | |
CN115330201A (zh) | 一种电网数字化项目帕累托优选方法及系统 | |
CN114429172A (zh) | 基于变电站用户构成的负荷聚类方法、装置、设备及介质 | |
CN114185956A (zh) | 基于canopy、k-means算法的数据挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |