CN116451097A - 一种自适应确定聚类数的电力负荷数据加权增量聚类方法 - Google Patents
一种自适应确定聚类数的电力负荷数据加权增量聚类方法 Download PDFInfo
- Publication number
- CN116451097A CN116451097A CN202310418858.9A CN202310418858A CN116451097A CN 116451097 A CN116451097 A CN 116451097A CN 202310418858 A CN202310418858 A CN 202310418858A CN 116451097 A CN116451097 A CN 116451097A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- model
- dcs
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 94
- 238000013179 statistical model Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000035945 sensitivity Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 31
- 230000005611 electricity Effects 0.000 claims description 21
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims 1
- 238000013485 heteroscedasticity test Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 29
- 230000008901 benefit Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002146 bilateral effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Water Supply & Treatment (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Power Engineering (AREA)
- Complex Calculations (AREA)
Abstract
本发明结合了自适应确定聚类数的DCS统计模型与加权增量模糊C均值聚类算法,是针对电力负荷数据存在的高维性和异方差性、传统聚类算法初始化聚类数目难以确定、对噪声点敏感等问题进行的时间序列聚类。首先通过I‑nice算法自适应确定最佳聚类数,构建动态条件评分模型,并计算参数序列的自相关值;然后进行自适应加权模糊C均值聚类分析得到数据权重信息;最后结合DCS模型参数数据集和数据权重信息进行增量聚类。本发明能够自适应确定电力负荷数据集上的最佳聚类数,并通过对数据点分配适当权重来减少噪声点对聚类中心的影响,有效解决数据高维性和异方差性导致的聚类效果差的问题,重点解决随时间推移而出现新的隐藏信息的有效聚类的问题。
Description
技术领域
本发明涉及电力负荷加权增量聚类方法,具体地说是将自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法。
背景技术
用户用电负荷数据聚类是用户用电负荷特性建模的核心内容,将电力负荷聚类用于用户细分能够有效解决用户用电负荷特性随机时变性问题和区域分散性问题,开展用户用电负荷数据聚类研究具有重要的现实意义。Zhang等人在论文“Electricityconsumption pattern analysis beyond traditional clustering methods:A novelself-adapting semi-supervised clustering method and application case study”提出一种新的基于自适应度量学习过程的半监督自动聚类方法,通过对负荷字典和用户日常用电量进行分析,为样本数据集中用户构建了完整的用户用电行为模式。CN112215490A公开了一种基于相关性系数改进的K-means的电力负荷聚类分析方法,其利用小波变换进行数据预处理,然后采用主成分分析对数据进行降维,最后利用皮尔逊相关系数对电力负荷曲线进行聚类。此方法存在对时变数据隐含信息难以挖掘的问题。Kaur等人在论文“Behavior segmentation of electricity consumption patterns:A clusteranalytical approach”中,分别从每个用户用电时间序列中提取用户行为特征,然后采用高斯混合聚类算法进行用户用电聚类研究,从而将用户划分为不同的集群并提取用户用电消费模式。CN108805213B公开了一种涉及小波熵降维的电力负荷曲线双层聚类方法,其利用小波熵值对数据进行降维,结合双层谱聚类获得形态相似和精细化的负荷类簇。该方法存在初始聚类数难以设定的问题。Liu等人在论文“A Moving Shape-based Robust FuzzyK-modes Clustering Algorithm for Electricity Profiles”提出了一种新的基于运动形状的鲁棒模糊K-modes聚类方法,旨在准确识别电力负荷时间序列中的形状模式,实验表明所提方法能够有效捕捉电力用户负荷使用模式。CN111860634A涉及一种基于OCHNN-K-means算法的负荷聚类方法,包括数据的采集与处理,利用Elbow Method和交叉验证获得最佳的聚类个数,通过OCHNN方法获得初始类中心,最后进行K-means聚类方法实现负荷数据划分。该方法存在对噪声点敏感性问题。
电力信息采集技术的不断创新发展,使得电力系统数据来源和种类多样化,数据量急剧增加,所获得的海量数据多具备时序性、高维性和高波动性等大数据特征。传统电力负荷聚类算法已难以适用,人们尝试将统计分析模型和聚类分析算法相结合。Aslan等人在论文“Robust-learning fuzzy c-means clustering algorithm with unknown numberof clusters”提出一种基于阈值自回归模型的时间序列聚类方法,其主要通过拟合线性自回归模型和非线性阈值自回归模型,对每个序列的数据生成机制(DGM)进行逼近,并将模型估计输出用于特征提取,根据模型估计得到的特征向量进行聚类,可用于确定和监控一组跨时间同步移动的时间序列变量。CN113780343A公开提出一种基于LTTB降维的双边斜率DWT距离负荷谱聚类方法,包括数据的采集与处理,利用LTTB进行降维,计算双边斜率距离并作为DWT的相似性度量,对处理后的数据集进行DWT谱聚类算法。即使LTTB降维算法优于平均降采样算法,但由于电力负荷数据具有时变性和异方差性,存在难以从不断增长的电力负荷数据量中有效挖掘细节信息。CN109272058B公开了一种集成电力负荷曲线聚类方法,首先利用SOM神经网络对数据进行粗聚类,随后利用DBSCAN进行再聚类。存在对时序数据特征提取处理不足、难以根据有效的时序信息进行聚类分析。Otranto在论文“Fuzzyclustering with the entropy of attribute weights”提出一种基于模型的异方差时间序列三级聚类分析算法,分别根据时间序列的无条件波动率、时变波动率参数以及GARCH模型相应参数依次分级完成聚类,第一级根据无条件波动率对时间序列进行分类,第二级在第一级分类基础上对具有相似时变波动率的时间序列进行分类,最后在前两级分类基础上区分具有相同GARCH模型参数的时间序列,从而获得时间序列数据的准确分类。
发明内容
本发明所要解决的技术问题是:提供一种自适应确定聚类数的DCS统计模型和自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,电力负荷数据是同时具有时变性、高维性以及异方差性等特点的时间序列数据,在自适应确定聚类数的基础上,建立一种基于高斯分布数据观测驱动的动态条件评分(DCS)统计模型,利用DCS统计模型参数的条件矩估计计算得到自相关值数据集,并通过加权模糊C均值聚类算法(IRFCM)获得数据权重信息,将增量学习聚类方法与加权模糊C均值聚类算法相结合,再结合不同用电负荷数据流时序特性,构建自相关加权增量模糊C均值聚类算法(AWI-FCM)实现聚类分析,能够在不依赖任何聚类算法下,实现电力负荷数据集上最佳聚类数的选取,并且通过对数据点分配恰当的权重值减少噪声点对聚类中心的影响,从而加强聚类的鲁棒性,提高聚类的准确率,能够有效解决电力负荷数据存在的高维性和异方差特性所导致的聚类鲁棒性低、聚类准确率低的问题,同时重点解决新的隐藏信息随着时间的推移不断出现时的有效聚类问题。
本发明解决该技术问题所采用的技术方案是:将自适应确定聚类数DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,针对用户用电负荷时间序列数据的时变性、高维性以及异方差性和其在聚类过程中存在的初始聚类数难设定,对噪声点敏感等问题,采用I-nice算法自适应确定聚类数,建立一种基于高斯分布数据观测驱动的动态条件评分(DCS)统计模型,利用统计模型参数的条件矩估计计算得到自相关值数据集,并通过加权模糊C均值聚类算法(IRFCM)获得权重信息,将增量学习聚类方法与加权模糊C均值聚类算法相结合,再结合不同用电负荷数据流时序特性,构建自相关加权增量模糊C均值聚类算法(AWI-FCM),具体步骤如下:
第一步,用电用户日负荷数据预处理与分析:
获取K个用户的同年同月最大负荷日的日负荷数据集,对数据集进行数据预处理,包括对缺失值的查找与填补和对异常值的检测与修正,得到的新数据集作为电力负荷时间序列模型建立以及聚类分析所用数据,绘制用户日负荷曲线,通过对日负荷曲线的波动情况进行观察分析,对负荷曲线进行初步分类。
第二步,自适应确定聚类数:
通过I-nice算法确定聚类数并不依赖任何聚类算法,其通过对原始数据集的数据分布等特征进行分析得到数据集最佳聚类数:
第2.1步,设观测点个数为q,观测点集合为P={p1,p2,...,pq},数据集为n行m列的矩阵数据点个数为n,任意观测点到数据集的距离集合为Yp={y1,y2,...yn},且满足yk≥0,k=1,2,...n,假设距离分布为混合伽马模型Gamma mixture model(GMM)。
距离集合Yp的GMM模型定义为:
其中θ为模型的参数向量,θj包含了形状参数αj和尺度参数βj,πj是混合比例,每个分量的密度函数为单伽马分布的密度函数:
其中形状参数αj和尺度参数βj应满足αj>0,βj>0,混合比例应满足:伽马函数Γ(x)的定义为:
第2.2步,对于距离集合Yp的GMM模型,运用EM算法通过最大化对数似然函数求解模型参数,其对数似然函数的表达式为:
第2.3步,引入随机变量Z={zi},zi表示Yp中的yi被分配给第j个伽马成分,在E步中根据初始化或上一步参数值计算Yp中yi属于第j个成分的概率p(Zi=j|yi,θn)为:
对数似然函数关于随机变量Z={zi}的期望值计算公式为式(5),在M步中通过最大化对数似然函数的期望值求解下一次迭代中参数θn+1的估计值,如式(6)所示,
第2.4步,运用拉格朗日乘子法求解期望最大化对数似然函数的参数值,得到混合比例的参数估计值其计算公式为:
形状参数和尺度参数的估计值和为:
其中为Digamma函数,式(9)是非线性方程,没有封闭形式的解,运用牛顿法求解参数的值。
第2.5步,每个观测点建立Mmax个GMM模型,运用二阶Akaik信息准则(AICc)计算指标值进行模型的选择,AICc值达到最大时的GMM成分数即为最佳的聚类数。
AICc的计算公式为:
其中L(θ*)为对数似然函数的最大值,N为数据点个数,q为参数的数量,q=3M,通过计算AICc的值确定每个观测点处的最佳GMM模型,比较多个观测点的最佳GMM模型得到最终的聚类数。
第三步,确定DCS的高斯分布用户假设:
随机选取初步分类的每个类别中的用电用户,绘制直方图以及QQ图(Quantile-Quantile Plot)进行可视化,由图可知,QQ图实际上是一个散点图,能够显示数据集与所选理论分布的拟合程度,若日负荷时间序列数据的散点位于红线附近,则说明观察到的向量近似服从高斯分布,将高斯分布(12)作为用户数据yt的基础假设:
其中μt为时变参数均值,为时变参数方差;
第四步,建立DCS模型,并利用极大似然估计法估计模型参数:
建立DCS(p,q)模型,令p=q=1,用电用户数据得到基于高斯分布假设条件下的DCS(1,1)模型,也即ft第t个实现的更新方程,如式(13)所示:
ft=ω+Ast-1+Bft-1 (13)
其中时变参数向量常数向量实矩阵 其中标量参数包括ωμ、aμ等是静态参数向量θ的函数,对ω,A和B运用极大似然估计方法进行参数估计;
第五步,计算模型的相关参数,得到最终的DCS模型:
根据t-1时刻的驱动向量st-1及时变参数向量ft-1计算得到DCS模型中ft,其中驱动向量
第5.1步,计算条件得分向量其计算公式如式(14)(15)所示:
第5.2步,计算缩放矩阵St,其计算公式如式(16)(17)所示:
第5.3步,得到时变参数更新方程,如式(18)(19)所示:
第5.4步,定义无条件矩为:
κ=(IN-B)-1ω (20)
其中IN为单位矩阵,将参数B和ω的估计值带入上述公式即得到时变参数均值和方差的无条件矩的估计值。无条件矩表示长期平均值,随着时间的推移,波动将达到一个平均值,通过对无条件矩进行计算能够对时间序列数据进行长期分布的分析。
将DCS的参数估计值和相应的参数带入时变参数的更新方程得到时变均值和时变方差的条件矩估计值,根据式(20)得到无条件矩估计值,将条件矩估计值和无条件矩估计值分别作为聚类算法的输入数据集。
至此,完成电力负荷数据的自适应确定聚类数的DCS模型建立。
时间序列电力负荷数据基于自适应确定聚类数的DCS模型的AWI-FCM聚
类分析:
第六步,根据DCS模型计算时间序列的自相关值:
在动态条件评分模型中,对每个模型的第r(r=1,2,...,R)个条件矩估计进行R级聚类。DCS(1,1)模型意味着R=2,因此r=1和r=2的时间序列的条件矩估计分别意味着DCS(1,1)模型的参数和的估计。根据第r个条件矩估计来获得第r个估计自相关值将时变均值和时变方差的条件矩估计值作为计算自相关值的数据集分别进行计算,也就是计算时间序列yt的第r个条件矩在滞后l时的估计自相关值,计算公式如(21)所示:
其中是第k个时间序列从时刻t到时刻t-l过程的r阶条件矩的均值,时间序列k和k′基于自相关的r阶条件矩之间的距离为:
第七步,根据所得的序列自相关估计值数据集进行IRFCM聚类:
基于RFCM聚类算法进行改进得到加权模糊C均值聚类算法(IRFCM),其同时考虑数据点和数据特征的不同权重,通过加入可调参数α避免数据集的数据个数对权重信息和聚类中心产生影响,具体算法如下:
第7.1步,设数据集为K行T列的矩阵数据点个数为K,数据特征个数为T,聚类算法的目标函数和约束条件为:
其中,聚类数为C,vi为第i个聚类中心,uik为第k个数据点xk对第i个聚类中心vi的隶属度,rij为第j个数据点对第i个聚类类别的特征权重,wik为第k个数据点xk对第i个聚类类别的数据权重。
第7.2步,利用数据特征权重和数据权重的L2范数正则化协调权重分散。
其中,η是可调参数,δ和ε是正则化参数,通过调整δ的值使得更多数据特征信息参与聚类中心的形成,使得聚类算法聚类准确性更高,α参数用以避免大数据集的数据个数对权重信息产生影响,当数据集数据个数K≤40时,数据个数对权重信息影响较小,当数据个数K>40时,数据个数将影响产生权重矩阵的精确度,权重矩阵的分辨率较低,无法进行有效聚类,通过调整α的值提高权重矩阵的分辨率和精确度。
第7.3步,利用拉格朗日乘子法求解目标函数和约束条件,得到关于模糊隶属度uik、数据特征权重rij、数据权重wik、聚类中心vij的迭代公式:
第八步,根据IRFCM聚类得到的数据权重进行基于DCS模型的AWI-FCM:
将A-wFCM算法作为基础,根据所得自相关估计值数据集进行IRFCM聚类,得到数据权重wik,将权重信息wik和数据集作为增量聚类的算法基础,得到了所提出的自适应加权增量模糊C均值聚类算法,具体算法如下:
第8.1步,将K个时间序列数据点随机分为P(p=1,2,...,P)个数据块,每个数据块有K/P个数据点,对第一个数据块p=1执行A-wFCM聚类。
第8.1.1步,根据I-nice算法得到的聚类数C随机初始化隶属度矩阵,使得其满足以下约束条件:
第8.1.2步,根据得到的隶属度矩阵计算聚类中心,其计算公式为:
第8.1.3步,根据隶属度矩阵和聚类中心计算目标函数J的值,其计算公式如式(31)所示,若前后两次J值之差小于规定的阈值ε,则结束迭代,输出隶属度矩阵和聚类中心,否则进行下一步;
第8.1.4步,根据聚类中心重新计算得到隶属度矩阵并返回步骤8.1.2,隶属度矩阵的计算公式为:
第8.2步,重新根据式(33)赋予计算得到的数据块聚类中心权重,将该数据块聚类中心和计算得到的权重加入下一个数据块中进行A-wFCM聚类(步骤8.1.1至8.1.4);
其中,N为当前数据块中数据点的个数,j为上一个数据块中聚类中心的个数。
第8.3步,重复步骤8.2直到所有数据块完成聚类,最后根据最终的聚类中心结果根据式(32)重新计算所有数据点的隶属度。
至此,完成电力负荷数据的基于自适应确定聚类数的DCS模型的自相关加权增量模糊C均值聚类。
上述第二步中通过I-nice算法自适应确定聚类数,该算法并不依赖任何聚类算法,其通过对原始数据集的数据分布等特征进行分析得到数据集最佳聚类数。假设数据点到数据集的距离分布为混合伽马模型,通过EM算法计算其中参数,运用二阶Akaik信息准则(AICc)计算指标值,当AICc值达到最大时的GMM成分数即为最佳的聚类数。有效解决了传统聚类算法存在的难以设定初始化聚类数目的问题。
上述第三步中时间序列用户数据yt中t的值取决于测量电力负荷数据的分辨率,时变参数是根据每个时间点t以及原始时间序列yt进行计算得到,绘制初步分类中典型用户的直方图和QQ图来确定DCS模型的用户假设,将高斯分布作为全部用户的DCS模型的概率分布假设,用来描述多种情况下的随机变量,具有较高的适普性。
上述第四步中DCS(p,q)模型令p=q=1时,已可以在模型复杂度较低的情况下描述时间序列数据,根据高斯分布用户假设的参数确定时变参数向量ft的向量表达式,同时确定后续待估计参数的向量表达式。
上述第六步中计算时间序列yt的第3r个条件矩在滞后l时的估计自相关值时,滞后的阶数l通过对原时间序列的时序图和自相关图显示的特征进行分析得到。
上述第七步中利用加权模糊C均值聚类算法(IRFCM),其考虑数据点的不同权重,并加入可调参数α避免数据集的数据个数对权重信息和聚类中心产生影响,利用拉格朗日乘子法得到权重信息。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明方法与CN112215490A相比,本发明方法所具有的优点是能够有效挖掘时间序列电力负荷数据中的时变性来建立统计模型并进行聚类分析。
(2)本发明方法与CN108805213B相比,本发明方法所具有的优点是能够自适应确定最佳聚类数目,提高聚类效率。
(3)本发明方法与CN111860634A相比,本发明方法所具有的优点是通过对数据点进行一个权重分配,能够降低噪声点对聚类效果的影响。
(4)本发明方法与CN113780343A相比,本发明方法所具有的优点是能够针对时间序列时变性和异方差性,重点捕捉时间序列数据的细节信息,能够准确地进行聚类分析。
(5)本发明方法与CN109272058B相比,本发明方法所具有的优点是可以充分提取时间序列数据的时变特征,可以对动态更新的用户数据将新增加的用户加入原数据中进行聚类分析。
(6)本发明构建了一种自适应确定聚类数的DCS模型,首先利用I-nice算法自适应确定聚类数,其假设数据集的距离分布为混合伽马模型,通过EM算法计算其中参数,运用二阶Akaik信息准则(AICc)计算指标值,当AICc值达到最大时的GMM成分数即为最佳的聚类数。其次建立DCS模型,其利用似然函数的标度分数随时间更新参数,利用时间序列的数据特征为在广泛的非线性模型中引入时变参数提供了一个统一的框架。以自适应确定聚类数的DCS模型对时间序列数据进行有效的数据分析,再进行聚类分析,提高了时间序列数据聚类的效率和准确率。
(7)本发明方法针对初始聚类数目难以设定的问题,首先自适应确定聚类数,接着根据用户用电日负荷时间序列数据的时变性、高维性以及异方差等特性,建立基于高斯分布数据观测驱动的动态条件评分(DCS)统计模型,为了描述时间序列电力负荷数据的前后关系,节约计算成本,利用DCS模型参数的条件矩估计计算得到自相关值数据集,根据不同的数据点对聚类中心有着不同的重要性,进行IRFCM聚类,最后结合增量聚类,构建自相关加权增量模糊C均值聚类算法(AWI-FCM),因此,本发明方法是一种自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,能够在不依赖任何聚类算法的情况下,实现电力负荷数据集上最佳聚类数的选取,并且通过对数据点分配恰当的权重值能够减少噪声点对聚类中心的影响,从而加强聚类的鲁棒性,提高聚类的准确率,有效解决电力负荷数据存在的高维性和异方差特性所导致的聚类效率低、聚类准确率低的问题,重点解决新的隐藏信息随着时间的推移不断出现时的有效聚类问题。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法的流程示意框图。
图2是本发明实施方案中最大负荷日负荷曲线图。
图3是本发明实施方案中用户用电数据集A-FCM聚类的结果图。
图4是本发明实施方案中典型用户的直方图和QQ图。
图5是本发明实施方案中用户用电负荷数据集在无条件矩估计值情况下进行DCS-FCM聚类的结果图。
图6是本发明实施方案中用户用电负荷数据集在相同条件均值下进行DCS-A-FCM聚类的结果图。
图7是本发明实施方案中用户用电负荷数据集在相同条件方差下进行DCS-A-FCM聚类的结果图。
图8是本发明实施方案中用户用电负荷数据集在相同条件均值下聚类的数据权重。
图9是本发明实施方案中用户用电负荷数据集在相同条件方差下聚类的数据权重。
图10是本发明实施方案中用户用电负荷数据集在相同条件均值DCS-WI-FCM下聚类的结果图。
图11是本发明实施方案中用户用电负荷数据集在相同条件方差DCS-WI-FCM下聚类的结果图。
图12是本发明实施方案中用户用电负荷数据集聚类性能评价指标值示意图。
图13是本发明实施方案中用户用电负荷数据集在两个条件矩上进行DCS-WI-FCM聚类的结果图。
具体实施方式
图1所示实施例表明,本发明DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法的流程如下:
1.用户日电力负荷数据预处理与分析→2.自适应确定聚类数→3.确定DCS模型的高斯分布用户假设→4.建立DCS模型,并利用极大似然估计法估计模型参数→5.计算DCS模型的相关参数,得到最终的DCS模型→6.基于DCS模型计算时间序列的自相关值→7.根据序列自相关估计值进行IRFCM聚类→8.根据IRFCM聚类得到的数据权重进行基于DCS模型的AWI-FCM聚类。
实施例1
本实施例的DCS统计模型与自相关增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,具体步骤如下:
第一步,用户日负荷数据预处理与分析:
获取中国K=11个用电公司的2020年3月最大负荷日的日负荷数据集,对数据集进行数据预处理,包括对缺失值的查找与填补和对异常值的检测与修正,得到的新数据集作为电力负荷时间序列模型建立以及聚类分析所用数据,绘制用户日负荷曲线,通过对日负荷曲线的波动情况进行观察分析,对负荷曲线进行初步分类。
第二步,自适应确定聚类数:
通过I-nice算法确定聚类数并不依赖任何聚类算法,其通过对原始数据集的数据分布等特征进行分析得到数据集最佳聚类数:
第2.1步,设观测点个数为q,观测点集合为P={p1,p2,...,pq},数据集为n行m列的矩阵数据点个数为n,任意观测点到数据集的距离集合为Yp={y1,y2,...yn},且满足yk≥0,k=1,2,...n,假设距离分布为混合伽马模型Gamma mixture model(GMM)。
距离集合Yp的GMM模型定义为:
其中θ为模型的参数向量,θj包含了形状参数αj和尺度参数βj,πj是混合比例,每个分量的密度函数为单伽马分布的密度函数:
其中形状参数αj和尺度参数βj应满足αj>0,βj>0,混合比例应满足:伽马函数Γ(x)的定义为:
第2.2步,对于距离集合Yp的GMM模型,运用EM算法通过最大化对数似然函数求解模型参数,其对数似然函数的表达式为:
第2.3步,引入随机变量Z={zi},zi表示Yp中的yi被分配给第j个伽马成分,在E步中根据初始化或上一步参数值计算Yp中yi属于第j个成分的概率p(Zi=j|yi,θn)为:
对数似然函数关于随机变量Z={zi}的期望值计算公式为式(5),在M步中通过最大化对数似然函数的期望值求解下一次迭代中参数θn+1的估计值,如式(6)所示,
第2.4步,运用拉格朗日乘子法求解期望最大化对数似然函数的参数值,得到混合比例的参数估计值其计算公式为:
形状参数和尺度参数的估计值和为:
其中为Digamma函数,式(9)是非线性方程,没有封闭形式的解,运用牛顿法求解参数的值。
第2.5步,每个观测点建立Mmax个GMM模型,运用二阶Akaik信息准则(AICc)计算指标值进行模型的选择,AICc值达到最大时的GMM成分数即为最佳的聚类数。
AICc的计算公式为:
其中L(θ*)为对数似然函数的最大值,N为数据点个数,q为参数的数量,q=3M,通过计算AICc的值确定每个观测点处的最佳GMM模型,比较多个观测点的最佳GMM模型得到最终的聚类数。
第三步,确定DCS的高斯分布用户假设:
随机选取初步分类的每个类别中的用电用户,绘制直方图以及QQ图(Quantile-Quantile Plot)进行可视化,由图可知,QQ图实际上是一个散点图,若日负荷时间序列数据的散点位于红线附近,则说明观察到的向量近似服从高斯分布,将高斯分布(12)作为用户数据yt的基础假设:
其中μt为时变参数均值,为时变参数方差;
第四步,建立DCS模型,并利用极大似然估计法估计模型参数:
建立DCS(p,q)模型,令p=q=1,用电用户数据得到基于高斯分布假设条件下的DCS(1,1)模型,也即ft第t个实现的更新方程,如式(13)所示:
ft=ω+Ast-1+Bft-1 (13)
其中时变参数向量常数向量实矩阵 其中标量参数包括ωμ、aμ等是静态参数向量θ的函数,对ω,A和B运用极大似然估计方法进行参数估计;
第五步,计算模型的相关参数,得到最终的DCS模型:
根据t-1时刻的驱动向量st-1及时变参数向量ft-1计算得到DCS模型中ft,其中驱动向量
第5.1步,计算条件得分向量其计算公式如式(14)(15)所示:
第5.2步,计算缩放矩阵St,其计算公式如式(16)(17)所示:
第5.3步,得到时变参数更新方程,如式(18)(19)所示:
第5.4步,定义无条件矩为:
κ=(IN-B)-1ω (20)
其中IN为单位矩阵,将参数B和ω的估计值带入上述公式即得到时变参数均值和方差的无条件矩的估计值。无条件矩表示长期平均值,随着时间的推移,波动将达到一个平均值,通过对无条件矩进行计算能够对时间序列数据进行长期分布的分析。
将DCS的参数估计值和相应的参数带入时变参数的更新方程得到时变均值和时变方差的条件矩估计值,根据式(20)得到无条件矩估计值,将条件矩估计值和无条件矩估计值作为聚类算法的输入数据集。
至此,完成电力负荷数据的自适应确定聚类数的DCS模型建立。
时间序列电力负荷数据基于自适应确定聚类数的DCS模型的AWI-FCM聚
类分析:
第六步,根据DCS模型计算时间序列的自相关值:
在动态条件评分模型中,对每个模型的第r(r=1,2,...,R)个条件矩估计进行R级聚类。DCS(1,1)模型意味着R=2,因此r=1和r=2的时间序列的条件矩估计分别意味着DCS(1,1)模型的参数和的估计。根据第r个条件矩估计来获得第r个估计自相关值将时变均值和时变方差的条件矩估计值作为计算自相关值的数据集分别进行计算,也就是计算时间序列yt的第r个条件矩在滞后l时的估计自相关值,计算公式如(21)所示:
其中是第k个时间序列从时刻t到时刻t-l过程的r阶条件矩的均值,时间序列k和k′基于自相关的r阶条件矩之间的距离为:
第七步,根据所得的序列自相关估计值数据集进行IRFCM聚类:
基于RFCM聚类算法进行改进得到加权模糊C均值聚类算法(IRFCM),其同时考虑数据点和数据特征的不同权重,通过加入可调参数α避免数据集的数据个数对权重信息和聚类中心产生影响,具体算法如下:
第7.1步,设数据集为K行T列的矩阵数据点个数为K,数据特征个数为T,聚类算法的目标函数和约束条件为:
其中,聚类数为C,vi为第i个聚类中心,uik为第k个数据点xk对第i个聚类中心vi的隶属度,rij为第j个数据点对第i个聚类类别的特征权重,wik为第k个数据点xk对第i个聚类类别的数据权重。
第7.2步,利用数据特征权重和数据权重的L2范数正则化协调权重分散。
其中,η是可调参数,δ和ε是正则化参数,通过调整δ的值使得更多数据特征信息参与聚类中心的形成,使得聚类算法聚类准确性更高,α参数用以避免大数据集的数据个数对权重信息产生影响,当数据集数据个数K≤40时,数据个数对权重信息影响较小,当数据个数K>40时,数据个数将影响产生权重矩阵的精确度,权重矩阵的分辨率较低,无法进行有效聚类,通过调整α的值提高权重矩阵的分辨率和精确度。
第7.3步,利用拉格朗日乘子法求解目标函数和约束条件,得到关于模糊隶属度uik、数据特征权重rij、数据权重wik、聚类中心vij的迭代公式:
第八步,根据IRFCM聚类得到的数据权重进行基于DCS模型的AWI-FCM:
将A-wFCM算法作为基础,根据所得自相关估计值数据集进行IRFCM聚类,得到数据权重wik,将权重信息wik和数据集作为增量聚类的算法基础,具体算法如下:
第8.1步,将K个时间序列数据点随机分为P(p=1,2,...,P)个数据块,每个数据块有K/P个数据点,对第一个数据块p=1执行A-wFCM聚类。
第8.1.1步,根据I-nice算法得到的聚类数C随机初始化隶属度矩阵,使得其满足以下约束条件:
第8.1.2步,根据得到的隶属度矩阵计算聚类中心,其计算公式为:
第8.1.3步,根据隶属度矩阵和聚类中心计算目标函数J的值,其计算公式如式(31)所示,若前后两次J值之差小于规定的阈值ε,则结束迭代,输出隶属度矩阵和聚类中心,否则进行下一步;
第8.1.4步,根据聚类中心重新计算得到隶属度矩阵并返回步骤8.1.2,隶属度矩阵的计算公式为:
第8.2步,重新根据式(33)赋予计算得到的数据块聚类中心权重,将该数据块聚类中心和计算得到的权重加入下一个数据块中进行A-wFCM聚类(步骤8.1.1至8.1.4);
其中,N为当前数据块中数据点的个数,j为上一个数据块中聚类中心的个数。
第8.3步,重复步骤8.2直到所有数据块完成聚类,最后根据最终的聚类中心结果根据式(32)重新计算所有数据点的隶属度。
至此,完成电力负荷数据的基于DCS模型的自相关加权增量模糊C均值聚类。
图2显示了11家用电公司最大负荷日的负荷曲线图,根据图中各公司的波动情况进行简单分类,具有明显波峰的公司分为一类,波动较平稳的分为一类。
图3显示了A-FCM聚类方法对公司数据集进行聚类的得到的聚类结果,11家公司共分成了4类,第一类包括BEGJ12;第二类包括BEGJ3、HGXX、WLYM、HPJWSZ399、HPJWSZ3、SZPLS和CGC;第三类包括ZXDZKJ与HZDMT;第四类包括WN公司。
图4显示了随机选取4家公司,对其最大负荷日负荷数据进行直方图和QQ图的绘制,图像显示最大日负荷时间序列数据的散点位于红线附近,表明观察到的向量近似服从高斯分布,进而将高斯分布作为用户假设。
图5显示了11家公司的最大日负荷时间序列的基于DCS模型无条件矩下的聚类结果图,共有4个类别,第一个类别包括BEGJ12、HZDMT、ZXDZKJ和WN;第二个类别有BEGJ3、HGXX、WLYM;公司HPJWSZ399、HPJWSZ3、SZPLS属于第三个类别,属于CGC第四个类别。其中公司HGXX有31.0%的概率属于第一个类别,WLYM有9.5%的概率属于第一个类别,隶属度的不确定性较高。
图6和图7显示了运用DCS-A-FCM聚类方法对公司数据集进行聚类得到的聚类结果,根据条件均值进行聚类的结果是:第一个类别包括BEGJ12和HZDMT;第二个类别有BEGJ3、HGXX、WLYM、HPJWSZ399、HPJWSZ3、SZPLS和CGC;WN公司属于第三个类别,ZXDZKJ属于第四个类别。在相同的条件方差下进行的聚类结果时:第一个类别有BEGJ12、HZDMT、ZXDZKJ;第二类包括BEGJ3、HGXX、WLYM、HPJWSZ3和CGC;第三类为WN公司,第四类为HPJWSZ399、SZPLS公司。总的来说,根据条件方差进行的DCS-A-FCM聚类是不确定性水平较高的聚类,因为所有公司对所属类别的隶属度都较小,但基于条件均值的聚类具有更低的不确定性。
图8和图9是用户用电负荷数据集在相同条件均值下和在相同条件方差下聚类的数据权重。根据相同条件均值下数据权重信息图可以看出,第一个类别的形成中数据权重较大的有WLYM公司,第二个类别中BEGJ3公司对该类形成的影响最大,第三类只有一家公司,第四类中BEGJ12公司对该类形成的影响最大;根据相同条件方差下数据权重信息图可以看出,第一个类别的形成中数据权重较大的有BEGJ12公司,其对第一类别的形成影响最大,第二个类别中BEGJ3公司对该类形成的影响最大,第三类和第四类只有一家公司。根据数据特征权重信息图可以看出,在相同的条件方差下进行聚类时,在时间段00:00--16:35的时变参数条件方差对聚类类别中类别二的形成影响较大,其他类别中特征权重均在0.0035上下波动且波动幅度较小。
图10和图11显示了运用DCS-WI-FCM聚类方法对公司数据集进行聚类得到的聚类结果,在条件平均聚类中,第一个聚类包含BEGJ12和HZDMT,ZXDZKJ在第二个聚类中,WN在第三个聚类中;第四个聚类包括BEGJ3、HGXX、WLYM、HPJWSZ399、HPJWSZ3、SZPLS、CGC;在相同的条件方差下,第一个聚类包括BEGJ12、HZDMT、ZXDZKJ;第二集群为BEGJ3、HPJWSZ3、CGC,WN公司位于第三集群,第四集群为HGXX、WLYM、HPJWSZ399、SZPLS。
图12显示了针对11家用电公司的最大负荷日数据进行的A-FCM聚类、PAA-FCM聚类、DCS-A-FCM(mean)聚类、DCS-A-FCM(var)聚类、DCS-WI-FCM(mean)聚类和DCS-WI-FCM(var)聚类结果进行对比,分别采用SC、CHI、DBI、DI内部评价指标并绘制折线图进行有效性评价,四个评价指标值表明,基于条件均值的DCS-A-FCM聚类和DCS-WI-FCM聚类结果是相同的。当根据条件方差进行聚类时,通过比较四个评价指标的值,DCS-WI-FCM聚类比DCS-A-FCM聚类好得多。总之,DCS-WI-FCM算法将自适应确定聚类数的DCS统计模型与自相关加权增量模糊聚类相结合,比A-FCM聚类算法和经典的时间序列聚类方法PAA-FCM更好、更有效。
图13是用户用电负荷数据集在两个条件矩上进行DCS-WI-FCM聚类的结果图。将11家公司中的CGC公司来作为增量验证DCS-WI-FCM聚类算法的有效性,CGC公司按照条件均值进行聚类时属于类别4的概率为99.7%,基于条件方差进行聚类时,CGC属于第二类中的概率为71.8%,属于第4类的概率为17.8%。根据两个条件矩聚类,BEGJ3、HPJWSZ3和CGC公司始终处于同一组中,这意味着CGC公司与BEGJ3和HPJWSZ3公司共享相同的条件分布。
Claims (5)
1.自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,其特征在于:针对当前电力负荷时间序列数据存在的高维性、波动性和相关性等特性,并且传统聚类算法存在初始化聚类数目难以确定,对噪声点敏感等问题,为了描述时间序列数据的前后的依赖关系,降低高维时间序列数据下聚类的计算成本,结合不同用电负荷数据流时序特性,构建基于自适应确定聚类数的DCS统计模型的自相关加权增量模糊C均值聚类算法具体步骤如下:
第一步,用电用户日负荷数据预处理与分析:
获取K个用户的同年同月最大负荷日的日负荷数据集,对数据集进行数据预处理,包括对缺失值的查找与填补和对异常值的检测与修正,得到的新数据集作为电力负荷时间序列模型建立以及聚类分析所用数据,绘制用户日负荷曲线,通过对日负荷曲线的波动情况进行观察分析,对负荷曲线进行初步分类。
第二步,自适应确定聚类数:
通过I-nice算法确定聚类数并不依赖任何聚类算法,其通过对原始数据集的数据分布等特征进行分析得到数据集最佳聚类数:
第2.1步,设观测点个数为q,观测点集合为P={p1,p2,...,pq},数据集为n行m列的矩阵数据点个数为n,任意观测点到数据集的距离集合为Yp={y1,y2,...yn},且满足yk≥0,k=1,2,...n,假设距离分布为混合伽马模型Gamma mixture model(GMM)。
距离集合Yp的GMM模型定义为:
其中θ为模型的参数向量,θj包含了形状参数αj和尺度参数βj,πj是混合比例,每个分量的密度函数为单伽马分布的密度函数:
其中形状参数αj和尺度参数βj应满足αj>0,βj>0,混合比例应满足:伽马函数Γ(x)的定义为:
第2.2步,对于距离集合Yp的GMM模型,运用EM算法通过最大化对数似然函数求解模型参数,其对数似然函数的表达式为:
第2.3步,引入随机变量Z={zi},zi表示Yp中的yi被分配给第j个伽马成分,在E步中根据初始化或上一步参数值计算Yp中yi属于第j个成分的概率p(Zi=j|yi,θn)为:
对数似然函数关于随机变量Z={zi}的期望值计算公式为式(5),在M步中通过最大化对数似然函数的期望值求解下一次迭代中参数θn+1的估计值,如式(6)所示,
第2.4步,运用拉格朗日乘子法求解期望最大化对数似然函数的参数值,得到混合比例的参数估计值其计算公式为:
形状参数和尺度参数的估计值和为:
其中为Digamma函数,式(9)是非线性方程,没有封闭形式的解,运用牛顿法求解参数的值。
第2.5步,每个观测点建立Mmax个GMM模型,运用二阶Akaik信息准则(AICc)计算指标值进行模型的选择,AICc值达到最大时的GMM成分数即为最佳的聚类数。
AICc的计算公式为:
其中L(θ*)为对数似然函数的最大值,N为数据点个数,q为参数的数量,q=3M,通过计算AICc的值确定每个观测点处的最佳GMM模型,比较多个观测点的最佳GMM模型得到最终的聚类数。
第三步,确定DCS的高斯分布用户假设:
随机选取初步分类的每个类别中的用电用户,绘制直方图以及QQ图(Quantile-Quantile Plot)进行可视化,由图可知,QQ图实际上是一个散点图,能够显示数据集与所选理论分布的拟合程度,若日负荷时间序列数据的散点位于红线附近,则说明观察到的向量近似服从高斯分布,将高斯分布(12)作为用户数据yt的基础假设:
其中μt为时变参数均值,为时变参数方差;
第四步,建立DCS模型,并利用极大似然估计法估计模型参数:
建立DCS(p,q)模型,令p=q=1,用电用户数据得到基于高斯分布假设条件下的DCS(1,1)模型,也即ft第t个实现的更新方程,如式(13)所示:
ft=ω+Ast-1+Bft-1 (13)
其中时变参数向量常数向量实矩阵 其中标量参数包括ωμ、αμ等是静态参数向量θ的函数,对ω,A和B运用极大似然估计方法进行参数估计;
第五步,计算模型的相关参数,得到最终的DCS模型:
根据t-1时刻的驱动向量st-1及时变参数向量ft-1计算得到DCS模型中ft,其中驱动向量
第5.1步,计算条件得分向量其计算公式如式(14)(15)所示:
第5.2步,计算缩放矩阵St,其计算公式如式(16)(17)所示:
第5.3步,得到时变参数更新方程,如式(18)(19)所示:
第5.4步,定义无条件矩为:
κ=(IN-B)-1ω (20)
其中IN为单位矩阵,将参数B和ω的估计值带入上述公式即得到时变参数均值和方差的无条件矩的估计值。无条件矩表示长期平均值,随着时间的推移,波动将达到一个平均值,通过对无条件矩进行计算能够对时间序列数据进行长期分布的分析。
将DCS的参数估计值和相应的参数带入时变参数的更新方程得到时变均值和时变方差的条件矩估计值,根据式(20)得到无条件矩估计值,将条件矩估计值和无条件矩估计值作为聚类算法的输入数据集。
至此,完成电力负荷数据的自适应确定聚类数的DCS模型建立。
时间序列电力负荷数据基于自适应确定聚类数的DCS模型的AWI-FCM聚类分析:
第六步,根据DCS模型计算时间序列的自相关值:
在动态条件评分模型中,对每个模型的第r(r=1,2,...,R)个条件矩估计进行R级聚类。DCS(1,1)模型意味着R=2,因此r=1和r=2的时间序列的条件矩估计分别意味着DCS(1,1)模型的参数和的估计。根据第r个条件矩估计来获得第r个估计自相关值将时变均值和时变方差的条件矩估计值作为计算自相关值的数据集分别进行计算,也就是计算时间序列yt的第r个条件矩在滞后l时的估计自相关值,计算公式如(21)所示:
其中是第k个时间序列从时刻t到时刻t-l过程的r阶条件矩的均值,时间序列k和k′基于自相关的r阶条件矩之间的距离为:
第七步,根据所得的序列自相关估计值数据集进行IRFCM聚类:
基于RFCM聚类算法进行改进得到加权模糊C均值聚类算法(IRFCM),其同时考虑数据点和数据特征的不同权重,通过加入可调参数α避免数据集的数据个数对权重信息和聚类中心产生影响,具体算法如下:
第7.1步,设数据集为K行T列的矩阵数据点个数为K,数据特征个数为T,聚类算法的目标函数和约束条件为:
其中,聚类数为C,vi为第i个聚类中心,uik为第k个数据点xk对第i个聚类中心vi的隶属度,rij为第j个数据点对第i个聚类类别的特征权重,wik为第k个数据点xk对第i个聚类类别的数据权重。
第7.2步,利用数据特征权重和数据权重的L2范数正则化协调权重分散。
其中,η是可调参数,δ和ε是正则化参数,通过调整δ的值使得更多数据特征信息参与聚类中心的形成,使得聚类算法聚类准确性更高,α参数用以避免大数据集的数据个数对权重信息产生影响,当数据集数据个数K≤40时,数据个数对权重信息影响较小,当数据个数K>40时,数据个数将影响产生权重矩阵的精确度,权重矩阵的分辨率较低,无法进行有效聚类,通过调整α的值提高权重矩阵的分辨率和精确度。
第7.3步,利用拉格朗日乘子法求解目标函数和约束条件,得到关于模糊隶属度uik、数据特征权重rij、数据权重wik、聚类中心vij的迭代公式:
第八步,根据IRFCM聚类得到的数据权重进行基于DCS模型的AWI-FCM:
将A-wFCM算法作为基础,根据所得自相关估计值数据集进行IRFCM聚类,得到数据权重wik,将权重信息wik和数据集作为增量聚类的算法基础,,具体算法如下:
第8.1步,将K个时间序列数据点随机分为P(p=1,2,...,P)个数据块,每个数据块有K/P个数据点,对第一个数据块p=1执行A-wFCM聚类。
第8.1.1步,根据I-nice算法得到的聚类数C随机初始化隶属度矩阵,使得其满足以下约束条件:
第8.1.2步,根据得到的隶属度矩阵计算聚类中心,其计算公式为:
第8.1.3步,根据隶属度矩阵和聚类中心计算目标函数J的值,其计算公式如式(31)所示,若前后两次J值之差小于规定的阈值ε,则结束迭代,输出隶属度矩阵和聚类中心,否则进行下一步;
第8.1.4步,根据聚类中心重新计算得到隶属度矩阵并返回步骤8.1.2,隶属度矩阵的计算公式为:
第8.2步,重新根据式(33)赋予计算得到的数据块聚类中心权重,将该数据块聚类中心和计算得到的权重加入下一个数据块中进行A-wFCM聚类(步骤8.1.1至8.1.4);
其中,N为当前数据块中数据点的个数,j为上一个数据块中聚类中心的个数。
第8.3步,重复步骤8.2直到所有数据块完成聚类,最后根据最终的聚类中心结果根据式(32)重新计算所有数据点的隶属度。
至此,完成电力负荷数据的基于自适应确定聚类数的DCS模型的自相关加权增量模糊C均值聚类。
2.根据权利要求1所述自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,其特征在于:所述第二步中通过I-nice算法自适应确定聚类数,该算法并不依赖任何聚类算法,其通过对原始数据集的数据分布等特征进行分析得到数据集最佳聚类数。假设数据点到数据集的距离分布为混合伽马模型,通过EM算法计算其中参数,运用二阶Akaik信息准则(AICc)计算指标值,当AICc值达到最大时的GMM成分数即为最佳的聚类数。有效解决了传统聚类算法存在的难以设定初始化聚类数目的问题。
3.根据权利要求1所述自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,其特征在于:所述第三步中时间序列用户数据yt中t的值取决于测量电力负荷数据的分辨率,时变参数是根据每个时间点t以及原始时间序列yt进行计算得到,绘制初步分类中典型用户的直方图和QQ图来确定DCS模型的用户假设,将高斯分布作为全部用户的DCS模型的概率分布假设,用来描述多种情况下的随机变量,具有较高的适普性。
4.根据权利要求1所述自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,其特征在于:所述第四步中DCS(p,q)模型令p=q=1已可以在模型复杂度较低的情况下描述时间序列数据,根据高斯分布用户假设的参数确定时变参数向量ft的向量表达式,同时确定后续待估计参数的向量表达式。
5.根据权利要求1所述自适应确定聚类数的DCS统计模型与自相关加权增量模糊C均值聚类算法相结合的电力负荷增量聚类方法,其特征在于:所述第七步中利用加权模糊C均值聚类算法(IRFCM),其考虑数据点的不同权重,并加入可调参数α避免数据集的数据个数对权重信息和聚类中心产生影响,利用拉格朗日乘子法得到权重信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418858.9A CN116451097A (zh) | 2023-04-19 | 2023-04-19 | 一种自适应确定聚类数的电力负荷数据加权增量聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310418858.9A CN116451097A (zh) | 2023-04-19 | 2023-04-19 | 一种自适应确定聚类数的电力负荷数据加权增量聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116451097A true CN116451097A (zh) | 2023-07-18 |
Family
ID=87121659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310418858.9A Pending CN116451097A (zh) | 2023-04-19 | 2023-04-19 | 一种自适应确定聚类数的电力负荷数据加权增量聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451097A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629709A (zh) * | 2023-07-21 | 2023-08-22 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN116976628A (zh) * | 2023-08-03 | 2023-10-31 | 西安理工大学 | 抽水蓄能机组调节促进新能源消纳的优化方法及系统 |
CN117112999A (zh) * | 2023-07-24 | 2023-11-24 | 西南交通大学 | 基于动态线性分段表示的钻进参数标准化清洗方法及装置 |
CN117906726A (zh) * | 2024-03-19 | 2024-04-19 | 西安艺琳农业发展有限公司 | 一种活牛体尺体重数据异常检测系统 |
-
2023
- 2023-04-19 CN CN202310418858.9A patent/CN116451097A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116629709A (zh) * | 2023-07-21 | 2023-08-22 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN116629709B (zh) * | 2023-07-21 | 2023-10-20 | 国网山东省电力公司青岛市即墨区供电公司 | 一种供电指标的智能化分析报警系统 |
CN117112999A (zh) * | 2023-07-24 | 2023-11-24 | 西南交通大学 | 基于动态线性分段表示的钻进参数标准化清洗方法及装置 |
CN117112999B (zh) * | 2023-07-24 | 2024-03-29 | 西南交通大学 | 基于动态线性分段表示的钻进参数标准化清洗方法及装置 |
CN116976628A (zh) * | 2023-08-03 | 2023-10-31 | 西安理工大学 | 抽水蓄能机组调节促进新能源消纳的优化方法及系统 |
CN117906726A (zh) * | 2024-03-19 | 2024-04-19 | 西安艺琳农业发展有限公司 | 一种活牛体尺体重数据异常检测系统 |
CN117906726B (zh) * | 2024-03-19 | 2024-06-04 | 西安艺琳农业发展有限公司 | 一种活牛体尺体重数据异常检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116451097A (zh) | 一种自适应确定聚类数的电力负荷数据加权增量聚类方法 | |
CN105469034B (zh) | 基于加权式鉴别性稀疏约束非负矩阵分解的人脸识别方法 | |
CN111582610A (zh) | 基于卷积神经网络对家庭能量分解的预测方法 | |
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
CN104680179B (zh) | 基于邻域相似度的数据降维方法 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN110580585A (zh) | 一种基于负荷分解的电力用户聚类用电行为特性分析方法 | |
CN105678261B (zh) | 基于有监督图的直推式数据降维方法 | |
CN112418476A (zh) | 一种超短期电力负荷预测方法 | |
CN110796159A (zh) | 基于k-means算法的电力数据分类方法及系统 | |
CN114881429B (zh) | 基于数据驱动的台区线损量化方法及系统 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
Shi et al. | Clustering framework based on multi-scale analysis of intraday financial time series | |
CN104966075A (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
CN115100466A (zh) | 一种非侵入式负荷监测方法、装置及介质 | |
Zhang et al. | An autocorrelation incremental fuzzy clustering framework based on dynamic conditional scoring model | |
Zhang et al. | Dynamic conditional score model-based weighted incremental fuzzy clustering of consumer power load data | |
Daviet | Inference with Hamiltonian sequential Monte Carlo simulators | |
CN111090679A (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN116343032A (zh) | 结合高斯回归混合模型和mrf高光谱函数数据的分类方法 | |
Clement et al. | Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction | |
Qin | Software reliability prediction model based on PSO and SVM | |
CN109345318B (zh) | 一种基于dtw-lasso-谱聚类的消费者聚类方法 | |
Chunni | SVM visual classification based on weighted feature of genetic algorithm | |
CN115618253A (zh) | 一种电力负荷数据增量聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230718 |