CN115718877A - 一种基于负荷变化特征的电力负荷曲线聚类算法 - Google Patents
一种基于负荷变化特征的电力负荷曲线聚类算法 Download PDFInfo
- Publication number
- CN115718877A CN115718877A CN202210952027.5A CN202210952027A CN115718877A CN 115718877 A CN115718877 A CN 115718877A CN 202210952027 A CN202210952027 A CN 202210952027A CN 115718877 A CN115718877 A CN 115718877A
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- distance
- clustering
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000007621 cluster analysis Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于负荷变化特征的电力负荷曲线聚类算法,从负荷数据本身出发,将数据进行合理的分类,包括:数据预处理和阈值确定;数据聚类;离群点归类;结果上报;其中,簇数k的确定是在聚类过程中自动确定的;聚类中心的获取也是在聚类过程中得到的,根据一定的条件将簇数K控制在合理的范围内。本发明通过参数簇大小阈值t、簇距离阈值d的设定和一定的聚类规则,实现自动获取最优簇数K和最优中心点,使得数据的聚类结果趋于合理化、最优化;采用基于负荷变化特征的距离算法来完善负荷曲线的分类效果,满足负荷变化趋势,适用于用户用电负荷的聚类分析。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种基于负荷变化特征的电力负荷曲线聚类算法。
背景技术
在大数据时代,通过对历史电力负荷数据曲线进行聚类分析,获得用户的用电规律和特性,是电力系统经济调度和需求侧管理的一项重要内容。传统的聚类算法对电力负荷曲线进行聚类的效果并不好,需要指定聚类个数和初始聚类中心,有的神经网络聚类算法对数据进行聚类的时候虽然不用指定聚类个数,但其存在着不一定收敛的缺陷。目前针对用户负荷数据的聚类方法主要有基于中心点距离位移计算的Kmeans算法,该算法简单易用,通过迭代计算聚类中心点,直到中心点不再产生位移为止,但该算法在对用户负荷数据进行聚类的过程中存在以下问题:1)聚类簇数K需要事先确定,研究人员往往较难确定最优K值;2)聚类初始中心点需要指定初始点,该方法通常随机产生初始中心点导致每次聚类结果有较大偏差。此外还有基于距离阈值快速近似的Canpoy聚类算法,该算法的优势在于得到簇的速度非常快,只需一次遍历数据即可得到聚类结果,但在实践中存在以下问题:1)该算法聚类结果会产生一个数据同属于不同类的现象,其聚类结果较为粗糙;2)聚类的簇个数较多,即会产生较多的类别,有些类别样本数较多,有些类别样本数较少,可能会存在较多小类别使聚类结果不佳。另外,目前的聚类算法大多采用欧式距离进行聚类,欧式距离反映了各点之间数值的差距大小,无法体现负荷曲线各点在时间轴上变化的情况。
例如,中国专利授权公告号:CN109272058A,公开了一种集成电力负荷曲线聚类方法,该方法首先使用SOM神经网络对原始电力负荷数据进行粗聚类,获得聚类后的类中心;然后利用DBSCAN算法对粗聚类后的类中心进行聚类,将同类的类中心对应的类簇进行合并;最后将类簇中的偏离元素剔除并放入最相似类中,得到最终的聚类结果。本方案首先使用SOM神经网络对原始电力负荷数据进行粗聚类,虽然不用指定聚类个数,但其存在着不一定收敛的缺陷;然后利用DBSCAN算法对粗聚类后的类中心进行聚类,当数据量增大时,要求较大的内存支持,I/O消耗也很大,当空间聚类的密度不均匀、聚类间距相差很大时,聚类质量较差;同时算法聚类效果依赖于距离公式的选取,实际应用中常用欧式距离,对于高维数据存在“维数灾难”。
因此需要找到一种基于自动确定最优簇数K和最优中心点的聚类算法,使聚类个数、类别大小、类别中心点达到最优。
发明内容
针对上述不足,本发明提供了一种基于负荷变化特征的电力负荷曲线聚类算法,通过参数簇大小阈值t、簇距离阈值d的设定和一定的聚类规则,实现自动判定聚类个数和得到最优中心点的聚类;采用基于负荷变化特征的距离算法来完善负荷曲线的分类效果,满足负荷变化趋势,适用于用户用电负荷的聚类分析。
为了实现上述目的,本发明采用以下技术方案:
一种基于负荷变化特征的电力负荷曲线聚类算法,包括以下步骤:
步骤S1:数据预处理及阈值确定;
步骤S2:数据聚类;
步骤S3:离群点归类;
步骤S4:结果上报;
本发明从负荷数据本身出发,将数据进行合理的分类。其中,簇数k的确定是在聚类过程中自动确定的;聚类中心的获取也是在聚类过程中得到的,根据一定的条件将簇数K控制在合理的范围内。本发明使用的聚类方法可以实现自动获取最优簇数K和最优中心点,使得数据的聚类结果趋于合理化、最优化。
作为优选,步骤S1中所述数据预处理的具体过程为:通过数据补全工具获得完整的数据集并进行归一化,利用滑动窗口技术将整条数据处理成一个个的样本单元,形成二维待聚类样本数组W(n*m)。
作为优选,所述阈值包括簇距离阈值d和簇大小阈值t。通过簇距离阈值的设定,使得所得到的聚类簇之间是没有交集的,使得聚类过程更加精确;通过簇大小阈值的设定,避免离群点对聚类个数的影响,避免产生较多聚类簇。
作为优选,步骤S2的具体过程,包括以下步骤:
步骤S21:在待聚类的数据W中计算每个点i到其它各点的距离,得到一个距离二维数组D(n*n),每一列Di代表一个点到其它点的距离簇;
步骤S22:遍历D中的每个距离簇Di,得到一个满足距离小于簇距离阈值d个数最多的距离簇Dmax;
步骤S24:从待聚类的数据W中删除步骤S23得到的聚类簇Ci,形成新的待聚类数据W;
步骤S25:重复步骤S21-步骤S24直到W中的数据个数或Ci中的数据个数小于簇大小阈值t;
作为优选,步骤S2中,采用基于负荷变化特征的距离算法,所述距离算法整合了负荷均值、标准差和反切角度。本发明提供一种基于负荷变化特征的距离算法来完善负荷曲线的分类效果,该距离算法整合了负荷均值、标准差和反切角度(向前差分倾度),满足负荷变化趋势。
作为优选,步骤S2中,所述距离为距离相似度。根据相似度计算公式可知,样本相似度指标d越小,说明样本相似度越高,则认为两个样本的距离更近些。
因此,本发明的优点是:
(1)提供了整合负荷均值、标准差和反切角度的反映负荷变化趋势的距离算法;
(2)聚类算法实现了自动判定最优簇数和获取最优中心点;
(3)通过簇距离阈值的设定,使得所得到的聚类簇之间是没有交集的,使得聚类过程更加精确;
(4)通过簇大小阈值的设定,避免离群点对聚类个数的影响,避免产生较多聚类簇。
附图说明
图1是本发明实施例一中一种基于负荷变化特征的电力负荷曲线聚类算法的流程图。
图2是本发明实施例三中专变用户一个月的用电负荷数据图。
图3是本发明实施例三中用电较高的负荷曲线图。
图4是本发明实施例三中用电较低的负荷曲线图。
图5是本发明实施例三中用电居中的负荷曲线图。
图6是本发明实施例三中用电上行的负荷曲线图。
图7是本发明实施例三中用电下行的负荷曲线图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步的描述。
实施例一:
本实施例通过参数簇大小阈值t、簇距离阈值d的设定和一定的聚类规则,实现自动判定聚类个数和得到最优中心点的聚类,如图1所示,具体过程包括以下步骤。
S1:数据预处理和阈值确定
主要是进行数据补全,归一化并将一维数组处理成二维数组,然后确定簇大小阈值t和簇距离阈值d,具体包括:
S11:数据预处理
通过数据补全工具得到完整的数据集并进行归一化,利用滑动窗口技术将整条数据处理成一个个的样本单元,形成二维待聚类样本数组W(n*m);
S12:阈值的计算
本实施例簇大小阈值t取样本个数的5%,簇距离阈值d取各样本之间平均距离的50%。
S2:数据聚类
S21:计算距离相似度,找到距离簇Dmax
二维数组W(n*m)与其自身计算距离相似度得到二维数组D(n*n),遍历D中的每个距离簇Di,得到一个满足距离小于簇距离阈值d个数最多的距离簇Dmax;
S22:得到新聚类簇并计算簇心
S23:样本集中剔除已聚类样本,得到新的待聚类样本
从待聚类的数据W中剔除步骤S22得到的聚类簇Ci,形成新的待聚类数据W;
S24:阈值的判断
判断步骤S23所形成的新的待聚类数据W中的样本个数或者步骤S22得到的聚类簇Ci的样本个数,如果新的数据集W中的样本个数或者聚类簇Ci的样本个数小于簇大小阈值t,则执行步骤S25,进行下一步的计算;否则执行步骤S21获取新的聚类簇;
S25:得到不同的聚类簇及簇心
S3:离群点归类
S4:结果上报
S21中,计算距离相似度的具体过程如下:
电网负荷变化趋势的统计特征指标有很多,本实施例选择其中三个:均值、标准差和向前差分倾度;
1)均值:反映数据的集中趋势,如同一用户一个小时负荷的大小水平:
其中,x1,x2,x3,…,xn均为实数;
2)标准差:反映数据的离散程度,如同一用户一小时的负荷分布情况;
3)向前差分倾度:采用首尾数据差值的反正切来判定,反正切函数具有上下确界和单调性,能够反映出数据的走向,正值表示上升,负值表示下降,如同一用户近几小时负荷数据是增加或减少;
其中,λ,η是两个实数,且λ和η有如下赋值规则:
当数据集个数n为偶数时,
当数据集个数n为奇数时,
本实施例借助于Python的numpy库中计算统计指标的方法:numpy.mean(),numpy.std(),numpy.arctan(),计算每个样本单元的统计学指标;
则相似度
根据相似度计算公式可知,样本相似度指标d越小,说明样本相似度越高,则认为两个样本的距离更近些。
实施例二:
本专利通过Python语言,借助于python中的pandas,numpy,scipy库来实现;
1)数据预处理对象类
该模块主要是进行数据补全,归一化并将一维数组处理成二维数组,然后确定簇大小阈值t和簇距离阈值d。该模块通过pandas和numpy实现数据补全和归一化处理;
2)距离计算对象类
该模块利用scipy的距离算法库实现不同距离的计算,可支持欧式距离、余弦距离和本专利距离;
3)数据聚类对象类
实施例三:
本专利可用于用户用电负荷的聚类分析,实现最优中心点选择和聚类个数选择。选取一条专变用户一个月的用电负荷数据,如图2所示,每天96点负荷数据,按1小时时间窗口将数据分割成744个聚类数据点,利用聚类算法对其进行分类,设置簇大小阈值t为数据个数的5%,簇距离阈值d为各点之间平均距离的50%,结果自动分出5类,如图3-7所示,包括用电较高的负荷曲线、用电较低的负荷曲线、用电居中的负荷曲线、用电上行的负荷曲线和用电下行的负荷曲线。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,包括以下步骤:
步骤S1:数据预处理及阈值确定;
步骤S2:数据聚类;
步骤S3:离群点归类;
步骤S4:结果上报。
2.根据权利要求1所述的一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,步骤S1中所述数据预处理的具体过程为:通过数据补全工具获得完整的数据集并进行归一化,利用滑动窗口技术将整条数据处理成一个个的样本单元,形成二维待聚类样本数组W(n*m)。
3.根据权利要求2所述的一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,所述阈值包括簇距离阈值d和簇大小阈值t。
4.根据权利要求3所述的一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,步骤S2的具体过程,包括以下步骤:
步骤S21:在待聚类的数据W中计算每个点i到其它各点的距离,得到一个距离二维数组D(n*n),每一列Di代表一个点到其它点的距离簇;
步骤S22:遍历D中的每个距离簇Di,得到一个满足距离小于簇距离阈值d个数最多的距离簇Dmax;
步骤S24:从待聚类的数据W中删除步骤S23得到的聚类簇Ci,形成新的待聚类数据W;
步骤S25:重复步骤S21-步骤S24直到W中的数据个数或Ci中的数据个数小于簇大小阈值t;
6.根据权利要求1或4所述的一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,步骤S2中,采用基于负荷变化特征的距离算法,所述距离算法整合了负荷均值、标准差和反切角度。
7.根据权利要求6所述的一种基于负荷变化特征的电力负荷曲线聚类算法,其特征在于,步骤S2中,所述距离为距离相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952027.5A CN115718877A (zh) | 2022-08-09 | 2022-08-09 | 一种基于负荷变化特征的电力负荷曲线聚类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210952027.5A CN115718877A (zh) | 2022-08-09 | 2022-08-09 | 一种基于负荷变化特征的电力负荷曲线聚类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115718877A true CN115718877A (zh) | 2023-02-28 |
Family
ID=85253885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210952027.5A Pending CN115718877A (zh) | 2022-08-09 | 2022-08-09 | 一种基于负荷变化特征的电力负荷曲线聚类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115718877A (zh) |
-
2022
- 2022-08-09 CN CN202210952027.5A patent/CN115718877A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199016B (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
CN110991786B (zh) | 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法 | |
CN111476435B (zh) | 基于密度峰值的充电桩负荷预测方法 | |
CN112381137B (zh) | 新能源电力系统可靠性评估方法、装置、设备及存储介质 | |
CN109657891B (zh) | 一种基于自适应k-means++算法的负荷特性分析方法 | |
CN106485262A (zh) | 一种母线负荷预测方法 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN117113126A (zh) | 一种基于改进聚类算法的行业用电特性分析方法 | |
CN117633597A (zh) | 基于自适应谱聚类的居民峰谷用电特性分类方法及系统 | |
CN116933962A (zh) | 一种面向电力用户负荷特性和可调节潜力的聚类方法 | |
CN117786441A (zh) | 一种基于改进K-means聚类算法的多场景光伏用户用电行为分析方法 | |
CN118364316A (zh) | 一种考虑自适应快速搜索密度峰值的电力用户负荷曲线聚类方法及系统 | |
CN117913808A (zh) | 一种分布式光伏发电预测方法及其装置 | |
CN117056591B (zh) | 基于动态预测的电力缴费渠道智能推荐方法及系统 | |
CN112270338A (zh) | 一种电力负荷曲线聚类方法 | |
CN117056761A (zh) | 一种基于x-dbscan算法的客户细分方法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN115718877A (zh) | 一种基于负荷变化特征的电力负荷曲线聚类算法 | |
CN116578893A (zh) | 一种自适应密度峰值的聚类集成系统及方法 | |
CN111459926A (zh) | 一种园区综合能源异常数据识别方法 | |
CN114610234B (zh) | 一种存储系统参数推荐方法及相关装置 | |
CN115795328A (zh) | 同时生成新能源出力常规场景和极端场景的方法及系统 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN117474140A (zh) | 一种基于卷积神经网络的低压重过载分类预测方法 | |
CN114493367A (zh) | 一种考虑差异化用户负荷概率特征的供电可靠性评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Hu Jun Inventor after: Guo Shuangshuang Inventor after: He Zhentao Inventor after: Yuan Qianjun Inventor after: Chen Haihui Inventor before: Hu Jun Inventor before: Guo Shuangshuang Inventor before: He Zhentao Inventor before: Yuan Qianjun Inventor before: Chen Haihui |
|
CB03 | Change of inventor or designer information |