CN113392877B - 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 - Google Patents

一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 Download PDF

Info

Publication number
CN113392877B
CN113392877B CN202110564350.0A CN202110564350A CN113392877B CN 113392877 B CN113392877 B CN 113392877B CN 202110564350 A CN202110564350 A CN 202110564350A CN 113392877 B CN113392877 B CN 113392877B
Authority
CN
China
Prior art keywords
clustering
sample point
algorithm
ant
daily load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110564350.0A
Other languages
English (en)
Other versions
CN113392877A (zh
Inventor
张真源
丁一迪
黄琦
陈浩然
黄宇翔
陈紫晗
王鹏
井实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110564350.0A priority Critical patent/CN113392877B/zh
Publication of CN113392877A publication Critical patent/CN113392877A/zh
Application granted granted Critical
Publication of CN113392877B publication Critical patent/CN113392877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于蚁群算法与C‑K算法的日负荷曲线聚类方法,通过安装在用户侧的智能电表采集多个用户在不同采样时刻的有功功率,从而提取出每个用户的日负荷曲线;然后,先基于密度冠层Canopy改进的K‑means聚类算法对日负荷曲线进行一次聚类,再基于蚁群聚类算法的二次聚类,最终提取用户典型日负荷曲线,通过两次聚类的方式可以有效的提高用户日负荷聚类效果。

Description

一种基于蚁群算法与C-K算法的日负荷曲线聚类方法
技术领域
本发明属于电力大数据处理技术领域,更为具体地讲,涉及一种基于蚁群算法与C-K算法的日负荷曲线聚类方法。
背景技术
近年来国家不断推进智能电网和能源互联网建设发展,越来越多的智能传感设备在电力系统中安装使用,进而形成了完整的高级测量体系。使得电力系统每时每刻都在产生海量数据,这些数据可能来自于智能电表、数字保护装置等。如何利用好采集的电力大数据,是目前电力系统领域的一个重要研究课题。在国内外相关领域,对于电力大数据的研究在逐渐增多,其中利用数据挖掘技术进行电力大数据分析,是目前处理电力大数据问题的常用研究方法。
数据挖掘的基础和前提是采集到的原始数据,电力系统悠久的运行历史积累了大量的基础用电数据,这些数据具有处理难度高,计算复杂、数据量大等特点,但是数据之间又潜藏着密切的关联和相似性。通过分析数据中的关联和相似性,进而可以提取出用户个体及群体的用电行为特征,针对具有不同用电行为特征的对象,制定差异化服务策略,可以使电网公司服务用户更加灵活,有利于支撑电力需求响应策略的实施。因此在电力系统中利用好数据挖掘技术,对需求响应的进一步研究也具有重要意义。
目前,聚类分析是运用最广最有效的方法。聚类是在数据中根据对象及其关系将对象分组,分析数据的潜在关联性等目的的分析方法。与此同时聚类越来越多的被运用在智能用电领域,伴随着计算机技术的进步,群智能算法逐渐成为解决复杂的非线性优化问题新方法,具有代表性的有蚁群算法、遗传算法等。聚类问题就是求解聚类对象到聚类中心的距离问题,选取距离最近的归为一类,因此可以将聚类问题转化为最优化问题进行求解,进而出现蚁群聚类,这种基于群智能算法的聚类方法,同时也出现了基于群智能算法的改进聚类算法,为聚类方法的研究开辟了新的方向。
专利名称为:一种基于改进谱多流形聚类的负荷曲线聚类方法,申请号为:CN107657266B的专利,其主要目的是对用户负荷曲线聚类,并提取用户典型日负荷曲线,取得了一定的聚类效果。但是该方法通过设置不同聚类数依次进行聚类,通过比较CHI指标来确定最优聚类数,无法直接准确得出最优聚类数。因此,该方法并不能直接应用于电力系统的用户负荷曲线聚类。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于蚁群算法与C-K算法的日负荷曲线聚类方法,通过两次聚类的方式提高用户日负荷的聚类效果,进而获取到有价值的用户用电规律,为需求相应及智能用电服务奠定基础。
为实现上述发明目的,本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法,其特征在于,包括以下步骤:
(1)、数据采集;
通过安装在用户侧的智能电表采集N个用户在不同采样时刻的有功功率,其中,第i个用户采集的有功功率记为Xi={xi1,xi2,…,xij,…,xim},xij表示第i个用户在第j个时刻采集的有功功率,j=1,2,…,m,m表示采样时刻数;
以采样时间为X轴,有功功率为Y轴,将每个用户在不同采样时刻的有功功率连平滑曲线,得到每个用户的日负荷曲线;
(2)、用户日负荷曲线预处理;
对每个用户的日负荷曲线进行插值修正和最大最小值的归一化处理;
(3)、基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类;
(3.1)、设置阀值T1、T2,且T1>T2
(3.2)、将每个用户的日负荷曲线看成一个m维的样本点,那么,第i个样本点记为Pi,从而生成样本列表List=[P1,P2,…,Pi,…,PN];
(3.3)、从样本列表List=[P1,P2,…,Pi,…,PN]中随机选择一个样本点,作为第一个Canopy质心,记为O,并为Canopy质心O生成一个子集SO
(3.4)、在样本列表List=[P1,P2,…,Pi,…,PN]剩余的样本点中再随机选择一个样本点,记为Q;
(3.5)、计算样本点Q至Canopy质心O的欧氏距离D;
(3.6)、根据阀值T1、T2对样本点Q进行聚类;
若T2<D≤T1,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D≤T2,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D>T1,则给样本点Q生成一个新的Canopy质心子集,记为SQ,并将样本点Q从列表List中删除;
(3.7)、重复步骤(3.4)直到列表List中样本点个数为零,得到所有Canopy质心子集;
(3.8)、将所有Canopy质心子集对应的质心作为K-means算法初始聚类中心并确定初始聚类数K,完成K-means聚类;
(3.8.1)、将所有的Canopy质心作为K-means聚类算法初始聚类中心,记为mj,j=1,2,…,K;
(3.8.2)、根据欧式距离公式,重新计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到各个初始聚类中心mj的欧式距离,再将各样本点分配到距离最近的类别Wj中;
(3.8.3)、根据聚类类别Wj重新计算每个类别的聚类中心
Figure BDA0003080201250000031
(3.8.4)、将聚类中心
Figure BDA0003080201250000032
与初始聚类中心mj进行比较,如果聚类中心发生变化,则用
Figure BDA0003080201250000033
替换mj,再返回步骤(3.8.2);否则,进入步骤(3.8.5);
(3.8.5)、计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到对应聚类中心
Figure BDA0003080201250000034
的欧式距离,其中,第i个样本点Pi到第j个聚类中心
Figure BDA0003080201250000035
的欧式距离记为dij
(4)、基于蚁群聚类算法的二次聚类,提取用户典型日负荷曲线;
(4.1)、蚁群聚类算法初始化:设定初始参数挥发因子ρ,且ρ∈(0,1);设置蚁群数量M,初始化μ=1,第μ只蚂蚁生成的随机数为qμ,qμ∈[0,1];设置阈值q0、ps;最大迭代次数t_max,初始化当前迭代次数t=1;
(4.2)、设第i个样本点Pi到第j个聚类中心
Figure BDA0003080201250000036
所在路径上的信息素浓度为τij(t),那么蚁群聚类算法中,各条路径的初始信息素浓度τij(1);
Figure BDA0003080201250000037
dij(1)=dij
(4.3)、在第t次迭代时,利用第μ只蚂蚁遍历所有路径,在遍历过程中,第μ只蚂蚁的移动概率;
Figure BDA0003080201250000041
(4.4)、根据概率
Figure BDA0003080201250000042
将样本点Pi分配到类别Wj中;
(4.5)、更新聚类中心并计算目标函数值;
当第μ只蚂蚁遍历完毕后,重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure BDA0003080201250000043
再将聚类中心
Figure BDA0003080201250000044
更新为聚类中心
Figure BDA0003080201250000045
计算第μ只蚂蚁的目标函数值Fμ(t);
Figure BDA0003080201250000046
其中,yij(t)表示样本点Pi对类别Wj的隶属度,且
Figure BDA0003080201250000047
(4.6)、判断M只蚂蚁是否均遍历完成所有路径,如果遍历完成,则进行步骤(4.7);否则,令μ=μ+1,返回步骤(4.3);
(4.7)、从小到大排列所有目标函数值Fμ(t),排序完成后,在前L个Fμ(t)中搜索最小的目标函数值,记为Fl(t),Fl(t)表示第l只蚂蚁对应的目标函数值;然后给Fl(t)对应类别中的每一个样本点Pi分配一个随机数ri
(4.8)、判断随机数ri是否小于给定阈值ps,如果ri<ps,则进入步骤(4.9);否则,进入步骤(4.10);
(4.9)、将样本点Pi随机分配给其他类别,然后重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure BDA0003080201250000048
重新计算第l只蚂蚁的目标函数值Fl'(t),若Fl'(t)<Fl(t),则用分配后的类别及聚类中心
Figure BDA0003080201250000049
更新第l只蚂蚁所对应的类别及聚类中心,同时更新Fl(t)=Fl'(t);否则,保持第l只蚂蚁所对应的类别及聚类中心不变,也保持Fl(t)不变;
(4.10)、输出第l只蚂蚁所对应的聚类类别及聚类中心,作为第t次迭代后的最终聚类结果;
(4.11)、判断当前迭代次数t是否到达最大迭代次数t_max,若到达t_max,则输出第t_max次迭代后的聚类结果,进入步骤(4.15);否则,进入步骤(4.12);
(4.12)、更新各路径的信息素浓度;
Figure BDA0003080201250000051
其中,
Figure BDA0003080201250000052
(4.13)、计算各样本点到各聚类中心的距离;
根据第t次迭代后的聚类结果,计算各个样本点到对应类别的聚类中心的欧式距离,记为dij(t+1);
(4.14)、将当前的迭代次数t加1,再返回步骤(4.3);
(4.15)、根据第t_max次迭代后的聚类结果,提取每个类别的聚类中心,作为每类用户的典型日负荷曲线。
本发明的发明目的是这样实现的:
本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法,通过安装在用户侧的智能电表采集多个用户在不同采样时刻的有功功率,从而提取出每个用户的日负荷曲线;然后,先基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类,再基于蚁群聚类算法的二次聚类,最终提取用户典型日负荷曲线,通过两次聚类的方式可以有效的提高用户日负荷聚类效果。
同时,本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法还具有以下有益效果:
(1)、本发明先基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类,在一次聚类过程中,先利用Canopy算法对用户负荷数据预聚类,根据预聚类结果,将Canopy子集数K作为K-means算法的初始聚类数K,Canopy子集的质心作为K-means算法的初始聚类中心,这样优化K-means聚类算法在用户日负荷数据等高维数据聚类中存在初始聚类中心及聚类数难以确定的问题;
(2)、本发明引入蚁群算法信息素浓度更新的正反馈机制,提高算法聚类精度,这样通过二次蚁群聚类,优化Canopy-K-means聚类结果中存在的局部最优解及聚类精度不佳的问题。
附图说明
图1是本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法流程图;
图2是多个用户的日负荷曲线;
图3是利用密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类的流程图;
图4是利用蚁群算法对日负荷曲线进行二次聚类的流程图;
图5是每类用户提取的典型日负荷曲线。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
C-K算法:全称为Canopy-K-means算法,是基于密度冠层Canopy改进的K-means聚类算法。
图1是本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法流程图。
在本实施例中,如图1所示,本发明一种基于蚁群算法与C-K算法的日负荷曲线聚类方法,包括以下步骤:
S1、数据采集;
通过安装在用户侧的智能电表采集N=120个用户在不同采样时刻的有功功率,其中,第i个用户采集的有功功率记为Xi={xi1,xi2,…,xij,…,xim},xij表示第i个用户在第j个时刻采集的有功功率,j=1,2,…,m,m表示采样时刻数,在本实施例中,取一天24小时作为采样时刻数;
以采样时间为X轴,有功功率为Y轴,将每个用户在不同采样时刻的有功功率连平滑曲线,得到每个用户的日负荷曲线;在本实施例中,120个用户提取到的日负荷曲线如图2所示;
S2、用户日负荷曲线预处理;
对每个用户的日负荷曲线进行插值修正和最大最小值的归一化处理;
S3、基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类,具体过程如图3所示;
S3.1、设置阀值T1、T2,且T1>T2;本实施例中,通过交叉验证方法确定T1的值为6,T2的值为8;
S3.2、将每个用户的日负荷曲线看成一个m维的样本点,那么,第i个样本点记为Pi,从而生成样本列表List=[P1,P2,…,Pi,…,PN];
S3.3、从样本列表List=[P1,P2,…,Pi,…,PN]中随机选择一个样本点,作为第一个Canopy质心,记为O,并为Canopy质心O生成一个子集SO
S3.4、在样本列表List=[P1,P2,…,Pi,…,PN]剩余的样本点中再随机选择一个样本点,记为Q;
S3.5、计算样本点Q至Canopy质心O的欧氏距离D;
S3.6、根据阀值T1、T2对样本点Q进行聚类;
若T2<D≤T1,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D≤T2,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D>T1,则给样本点Q生成一个新的Canopy质心子集,记为SQ,并将样本点Q从列表List中删除;
S3.7、重复步骤S3.4直到列表List中样本点个数为零,得到所有Canopy质心子集;
S3.8、将所有Canopy质心子集对应的质心作为K-means算法初始聚类中心并确定初始聚类数K,完成K-means聚类;
S3.8.1、将所有的Canopy质心作为K-means聚类算法初始聚类中心,记为mj,j=1,2,…,K;在本实施例中,通过以上步骤,最终得到5个Canopy质心子集,将所有Canopy质心子集对应的质心作为K-means算法初始聚类中心并确定初始聚类数K=5,完成K-means聚类;
S3.8.2、根据欧式距离公式,重新计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到各个初始聚类中心mj的欧式距离,再将各样本点分配到距离最近的类别Wj中;
S3.8.3、根据聚类类别Wj重新计算每个类别的聚类中心
Figure BDA0003080201250000071
S3.8.4、将聚类中心
Figure BDA0003080201250000072
与初始聚类中心mj进行比较,如果聚类中心发生变化,则用
Figure BDA0003080201250000073
替换mj,再返回步骤S3.8.2;否则,进入步骤S3.8.5;
S3.8.5、计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到对应聚类中心
Figure BDA0003080201250000074
的欧式距离,其中,第i个样本点Pi到第j个聚类中心
Figure BDA0003080201250000081
的欧式距离记为dij
S4、由基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线一次聚类可以得到初始聚类数K=5,以及5个初始聚类中心
Figure BDA0003080201250000082
此处基础上,如图4所示,我们基于蚁群聚类算法的二次聚类,提取用户典型日负荷曲线;
S4.1、蚁群聚类算法初始化:设定初始参数挥发因子ρ,ρ=0.1;设置蚁群数量M=200,初始化μ=1,第μ只蚂蚁生成的随机数为qμ,qμ∈[0,1];设置阈值q0、ps,取值均为0.9;最大迭代次数t_max=1000,初始化当前迭代次数t=1;
S4.2、设第i个样本点Pi到第j个聚类中心
Figure BDA0003080201250000083
所在路径上的信息素浓度为τij(t),那么蚁群聚类算法中,各条路径的初始信息素浓度τij(1);
Figure BDA0003080201250000084
dij(1)=dij
S4.3、在第t次迭代时,利用第μ只蚂蚁遍历所有路径,在遍历过程中,第μ只蚂蚁的移动概率;
Figure BDA0003080201250000085
S4.4、根据概率
Figure BDA0003080201250000086
将样本点Pi分配到类别Wj中;
S4.5、更新聚类中心并计算目标函数值;
当第μ只蚂蚁遍历完毕后,重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure BDA0003080201250000087
再将聚类中心
Figure BDA0003080201250000088
更新为聚类中心
Figure BDA0003080201250000089
计算第μ只蚂蚁的目标函数值Fμ(t);
Figure BDA00030802012500000810
其中,yij(t)表示样本点Pi对类别Wj的隶属度,且
Figure BDA00030802012500000811
S4.6、判断M只蚂蚁是否均遍历完成所有路径,如果遍历完成,则进行步骤S4.7;否则,令μ=μ+1,返回步骤S4.3;
S4.7、从小到大排列所有目标函数值Fμ(t),排序完成后,在前L个Fμ(t)中搜索最小的目标函数值,记为Fl(t),Fl(t)表示第l只蚂蚁对应的目标函数值;然后给Fl(t)对应类别中的每一个样本点Pi分配一个随机数ri
S4.8、判断随机数ri是否小于给定阈值ps,如果ri<ps,则进入步骤S4.9;否则,进入步骤S4.10;
S4.9、将样本点Pi随机分配给其他类别,然后重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure BDA0003080201250000091
重新计算第l只蚂蚁的目标函数值Fl'(t),若Fl'(t)<Fl(t),则用分配后的类别及聚类中心
Figure BDA0003080201250000092
更新第l只蚂蚁所对应的类别及聚类中心,同时更新Fl(t)=Fl'(t);否则,保持第l只蚂蚁所对应的类别及聚类中心不变,也保持Fl(t)不变;
S4.10、输出第l只蚂蚁所对应的聚类类别及聚类中心,作为第t次迭代后的最终聚类结果;
S4.11、判断当前迭代次数t是否到达最大迭代次数t_max,若到达t_max,则输出第t_max次迭代后的聚类结果,进入步骤S4.15;否则,进入步骤S4.12;
S4.12、更新各路径的信息素浓度;
Figure BDA0003080201250000093
其中,
Figure BDA0003080201250000094
S4.13、计算各样本点到各聚类中心的距离;
根据第t次迭代后的聚类结果,计算各个样本点到对应类别的聚类中心的欧式距离,记为dij(t+1);
S4.14、将当前的迭代次数t加1,再返回步骤S4.3;
S4.15、根据第t_max次迭代后的聚类结果,提取每个类别的聚类中心,作为每类用户的典型日负荷曲线,在本实施例中,提取出5类用户的典型日负荷曲线如图5所示。
最后,采用误差平方和指标来进行聚类准确度的判断,其数学表示为
Figure BDA0003080201250000095
其中
Figure BDA0003080201250000096
其中,K为聚类数,ISSE(j)为第j个聚类类内数据对象到聚类中心的距离
其中,
Figure BDA0003080201250000101
为聚类中心,Wj为第i类对象集合,
Figure BDA0003080201250000102
为第i个样本点Pi到第j个聚类中心
Figure BDA0003080201250000103
的距离。ISSE越小,即每个样本点到所在类簇聚类中心的欧式距离越小,类内相似度越好,聚类效果越好。
表1对比了设置不同迭代次数时,ISSE指标大小,从中可以看出,当迭代次数t_max设置为10000时,ISSE指标最小,聚类效果最优。
表1不同迭代次数聚类SSE指标对比
迭代次数 聚类数 I<sub>SSE</sub>
1000 5 173.73
10000 5 125.98
20000 5 130.34
表2对比了基于蚁群算法与C-K算法的日负荷曲线聚类与目前已有的K-means聚类算法的聚类个数和ISSE指标大小
表2用户日负荷曲线聚类SSE指标对比
聚类方法 聚类数 I<sub>SSE</sub>
K-means算法 5 160.91
蚁群改进Canopy-K-means算法 5 125.98
通过对比可以看出,基于蚁群算法与C-K算法的日负荷曲线聚类相比传统K-means聚类算法ISSE更小,说明改进后各样本点到类簇聚类中心的欧式距离更小,类内相似度更好好,聚类效果更好。经过蚁群算法改进后的混合算法可以避免聚类陷入局部最优,聚类结果跟合理,聚类效果也更好。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于蚁群算法与C-K算法的日负荷曲线聚类方法,其特征在于,包括以下步骤:
(1)、数据采集;
通过安装在用户侧的智能电表采集N个用户在不同采样时刻的有功功率,其中,第i个用户采集的有功功率记为Xi={xi1,xi2,…,xij,…,xim},xij表示第i个用户在第j个时刻采集的有功功率,j=1,2,…,m,m表示采样时刻数;
以采样时间为X轴,有功功率为Y轴,将每个用户在不同采样时刻的有功功率连平滑曲线,得到每个用户的日负荷曲线;
(2)、用户日负荷曲线预处理;
对每个用户的日负荷曲线进行插值修正和最大最小值的归一化处理;
(3)、基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类,获取初始聚类数K,以及对应的初始聚类中心;
(4)、在一次聚类的基础上,基于蚁群聚类算法的二次聚类,提取用户典型日负荷曲线;
其中,所述的基于密度冠层Canopy改进的K-means聚类算法对日负荷曲线进行一次聚类的具体过程为:
(2.1)、设置阀值T1、T2,且T1>T2
(2.2)、将每个用户的日负荷曲线看成一个m维的样本点,那么,第i个样本点记为Pi,从而生成样本列表List=[P1,P2,…,Pi,…,PN];
(2.3)、从样本列表List=[P1,P2,…,Pi,…,PN]中随机选择一个样本点,作为第一个Canopy质心,记为O,并为Canopy质心O生成一个子集SO
(2.4)、在样本列表List=[P1,P2,…,Pi,…,PN]剩余的样本点中再随机选择一个样本点,记为Q;
(2.5)、计算样本点Q至Canopy质心O的欧氏距离D;
(2.6)、根据阀值T1、T2对样本点Q进行聚类;
若T2<D≤T1,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D≤T2,则将样本点Q放入子集SO,再将样本点Q从列表List中删除;
若D>T1,则给样本点Q生成一个新的Canopy质心子集,记为SQ,并将样本点Q从列表List中删除;
(2.7)、重复步骤(2.4)直到列表List中样本点个数为零,得到所有Canopy质心子集;
(2.8)、将所有Canopy质心子集作为K-means算法初始聚类中心并确定初始聚类数K,完成K-means聚类;
(2.8.1)、将所有的Canopy质心作为K-means聚类算法初始聚类中心,记为mj,j=1,2,…,K;
(2.8.2)、根据欧式距离公式,重新计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到各个初始聚类中心mj的欧式距离,再将各样本点分配到距离最近的类别Wj中;
(2.8.3)、根据聚类类别Wj重新计算每个类别的聚类中心
Figure FDA0003520597200000021
(2.8.4)、将聚类中心
Figure FDA0003520597200000022
与初始聚类中心mj进行比较,如果聚类中心发生变化,则用
Figure FDA0003520597200000023
替换mj,再返回步骤(2.8.2);否则,进入步骤(2.8.5);
(2.8.5)、计算列表List=[P1,P2,…,Pi,…,PN]中所有样本点Pi到对应聚类中心
Figure FDA0003520597200000024
的欧式距离,其中,第i个样本点Pi到第j个聚类中心
Figure FDA0003520597200000025
的欧式距离记为dij
其中,所述的基于蚁群聚类算法的二次聚类的具体过程为:
(3.1)、蚁群聚类算法初始化:设定初始参数挥发因子ρ,且ρ∈(0,1);设置蚁群数量M,初始化μ=1,第μ只蚂蚁生成的随机数为qμ,qμ∈[0,1];设置阈值q0、ps;最大迭代次数t_max,初始化当前迭代次数t=1;
(3.2)、设第i个样本点Pi到第j个聚类中心
Figure FDA0003520597200000028
所在路径上的信息素浓度为τij(t),那么蚁群聚类算法中,各条路径的初始信息素浓度τij(1);
Figure FDA0003520597200000026
(3.3)、在第t次迭代时,利用第μ只蚂蚁遍历所有路径,在遍历过程中,第μ只蚂蚁的移动概率;
Figure FDA0003520597200000027
(3.4)、根据概率
Figure FDA0003520597200000031
将样本点Pi分配到类别Wj中;
(3.5)、更新聚类中心并计算目标函数值;
当第μ只蚂蚁遍历完毕后,重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure FDA0003520597200000032
再将聚类中心
Figure FDA0003520597200000033
更新为聚类中心
Figure FDA0003520597200000034
计算第μ只蚂蚁的目标函数值Fμ(t);
Figure FDA0003520597200000035
其中,yij(t)表示样本点Pi对类别Wj的隶属度,且
Figure FDA0003520597200000036
(3.6)、判断M只蚂蚁是否均遍历完成所有路径,如果遍历完成,则进行步骤(3.7);否则,令μ=μ+1,返回步骤(3.3);
(3.7)、从小到大排列所有目标函数值Fμ(t),排序完成后,在前L个Fμ(t)中搜索最小的目标函数值,记为Fl(t),Fl(t)表示第l只蚂蚁对应的目标函数值;然后给Fl(t)对应类别中的每一个样本点Pi分配一个随机数ri
(3.8)、判断随机数ri是否小于给定阈值ps,如果ri<ps,则进入步骤(3.9);否则,进入步骤(3.10);
(3.9)、将样本点Pi随机分配给其他类别,然后重新计算每个类别Wj内所有样本点的均值,得到新的聚类中心
Figure FDA0003520597200000037
重新计算第l只蚂蚁的目标函数值F′l(t),若F′l(t)<Fl(t),则用分配后的类别及聚类中心
Figure FDA0003520597200000038
更新第l只蚂蚁所对应的类别及聚类中心,同时更新Fl(t)=F′l(t);否则,保持第l只蚂蚁所对应的类别及聚类中心不变,也保持Fl(t)不变;
(3.10)、输出第l只蚂蚁所对应的聚类类别及聚类中心,作为第t次迭代后的最终聚类结果;
(3.11)、判断当前迭代次数t是否到达最大迭代次数t_max,若到达t_max,则输出第t_max次迭代后的聚类结果,进入步骤(3.15);否则,进入步骤(3.12);
(3.12)、更新各路径的信息素浓度;
Figure FDA0003520597200000039
其中,
Figure FDA0003520597200000041
(3.13)、计算各样本点到各聚类中心的距离;
根据第t次迭代后的聚类结果,计算各个样本点到对应类别的聚类中心的欧式距离,记为dij(t+1);
(3.14)、将当前的迭代次数t加1,再返回步骤(3.3);
(3.15)、根据第t_max次迭代后的聚类结果,提取每个类别的聚类中心,作为每类用户的典型日负荷曲线。
CN202110564350.0A 2021-05-24 2021-05-24 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法 Active CN113392877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110564350.0A CN113392877B (zh) 2021-05-24 2021-05-24 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110564350.0A CN113392877B (zh) 2021-05-24 2021-05-24 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法

Publications (2)

Publication Number Publication Date
CN113392877A CN113392877A (zh) 2021-09-14
CN113392877B true CN113392877B (zh) 2022-04-19

Family

ID=77619027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110564350.0A Active CN113392877B (zh) 2021-05-24 2021-05-24 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法

Country Status (1)

Country Link
CN (1) CN113392877B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037006B (zh) * 2021-11-01 2024-03-15 北方工业大学 电力系统典型日负荷曲线生成方法
CN117109345B (zh) * 2023-08-24 2024-04-26 华北电力大学 耦合火电机组的高温熔盐储热装置的优化配置方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156841A (zh) * 2016-06-24 2016-11-23 武汉理工大学 一种基于最大‑最小信息素的k‑means数据处理方法
CN108510165A (zh) * 2018-03-16 2018-09-07 电子科技大学 一种用于用户用电行为的分析方法
CN109902953A (zh) * 2019-02-27 2019-06-18 华北电力大学 一种基于自适应粒子群聚类的电力用户分类方法
CN110838055A (zh) * 2019-11-14 2020-02-25 国网河北省电力有限公司沧州供电分公司 一种基于大数据的电力企业财务数据管理系统
CN112150060A (zh) * 2020-08-12 2020-12-29 浙江中医药大学 一种基于蚁群算法的应急医疗物资配送优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11774944B2 (en) * 2016-05-09 2023-10-03 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156841A (zh) * 2016-06-24 2016-11-23 武汉理工大学 一种基于最大‑最小信息素的k‑means数据处理方法
CN108510165A (zh) * 2018-03-16 2018-09-07 电子科技大学 一种用于用户用电行为的分析方法
CN109902953A (zh) * 2019-02-27 2019-06-18 华北电力大学 一种基于自适应粒子群聚类的电力用户分类方法
CN110838055A (zh) * 2019-11-14 2020-02-25 国网河北省电力有限公司沧州供电分公司 一种基于大数据的电力企业财务数据管理系统
CN112150060A (zh) * 2020-08-12 2020-12-29 浙江中医药大学 一种基于蚁群算法的应急医疗物资配送优化方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"50 years beyond K-means";Anil K.Jain 等;《Pattern Recognition Letters》;20100601;第31卷(第8期);第289-297页 *
"Improved K-means algorithm based on density Canopy";G. Zhang 等;《Knowledge-Based Systems》;20180401;第145卷;第100-111页 *
"基于分布式聚类模型的电力负荷特性分析";曾楠 等;《现代电力》;20180228;第35卷(第1期);第71-77页 *
"基于改进Canopy-K-means算法的并行化研究";王林 等;《计算机测量与控制》;20210228;第29卷(第2期);第176-179+186页 *
"基于用电行为分析的用户特征画像及其互动响应策略研究";丁一迪;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20220115;第14-34页 *
"数据挖掘中聚类算法研究进展";周涛 等;《计算机工程与应用》;20120630;第48卷(第12期);第651-666页 *

Also Published As

Publication number Publication date
CN113392877A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111353653B (zh) 一种光伏出力短期区间预测方法
CN111860600B (zh) 一种基于最大相关最小冗余判据的用户用电特征选择方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN113392877B (zh) 一种基于蚁群算法与c-k算法的日负荷曲线聚类方法
CN111178611B (zh) 一种日电量预测的方法
CN105117810A (zh) 一种阶梯电价机制下居民用电中期负载预测方法
CN109783879B (zh) 一种雷达辐射源信号识别效能评估方法及系统
CN109657891B (zh) 一种基于自适应k-means++算法的负荷特性分析方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN113393028A (zh) 一种基于数据挖掘技术的负荷预测方法
CN114528949A (zh) 一种基于参数优化的电能计量异常数据的识别与补偿方法
Liu et al. A moving shape-based robust fuzzy K-modes clustering algorithm for electricity profiles
CN113988426A (zh) 一种基于fcm聚类和lstm的电动汽车充电负荷预测方法及系统
CN109685567A (zh) 一种基于卷积神经网络和模糊聚类的用电客户画像新方法
CN112001441A (zh) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
CN115829105A (zh) 基于历史数据特征搜索的光伏功率预测方法
Chen Mining of instant messaging data in the Internet of Things based on support vector machine
CN112305441A (zh) 一种集成式聚类下的动力电池健康状态评估方法
CN113344288A (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
CN111461921A (zh) 一种基于机器学习的负荷建模典型用户数据库更新方法
CN114881429B (zh) 基于数据驱动的台区线损量化方法及系统
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN116187836A (zh) 一种电力物资质量评价及抽检方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant