CN112270338A - 一种电力负荷曲线聚类方法 - Google Patents
一种电力负荷曲线聚类方法 Download PDFInfo
- Publication number
- CN112270338A CN112270338A CN202011032332.XA CN202011032332A CN112270338A CN 112270338 A CN112270338 A CN 112270338A CN 202011032332 A CN202011032332 A CN 202011032332A CN 112270338 A CN112270338 A CN 112270338A
- Authority
- CN
- China
- Prior art keywords
- clustering
- load
- data set
- data
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 13
- 239000006185 dispersion Substances 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 125000004432 carbon atom Chemical group C* 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000007621 cluster analysis Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力负荷曲线聚类方法,包括:对历史负荷数据进行预处理,得到负荷数据集;对负荷数据集进行降维处理,得到低维负荷数据集;采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚类数目K;根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到聚类结果。通过t‑SNE降维技术对负荷进行处理,结合GSA肘形判据与二分K‑means算法对负荷进行聚类分析,通过实验证明改进后的算法有着更好的聚类质量。
Description
技术领域
本发明属于负荷分类方法技术领域,涉及一种电力负荷曲线聚类方法。
背景技术
随着电力市场的放开发展,交易主体多元化、交易方式更加灵活、交易 次数更加频繁的市场特点也会逐渐凸显,伴随而来的将是海量的交易信息及 电力数据,高效的利用市场交易中的各种信息及负荷数据,对于保证市场的 稳定健康的发展有着重要的意义。分析不同类型的负荷模式,探索用户用电 特点,有助于发电企业及售电公司进一步认知各种用电方式及其行为习惯, 根据特点细分出不同的目标客户,推行不同的市场策略,定制个性化的服务, 从而保护各交易方的权益及利益。但不同用户的电力负荷又有着随机性和时变性,使得对整个区域的负荷进行建模分析变得十分复杂。因此,针对负荷 特点进行分类分析,研究各类别的典型负荷特点及用电行为习惯,以此来规 划更细致的管控措施。
由此可见,结合历史信息数据的收集,对电力负荷数据进行聚类划分以 及用电行为模式的识别是一项关键的工作,随着电力用户这个群体的规模不 断扩大,用电习惯也越来越灵活随机,对这些用户所带来的海量负荷数据运 用有效的数据挖掘技术,进行高效的聚类划分、分类识别,挖掘出负荷潜藏 的重要信息将对需求侧动态响应及管理、用户异常行为监督检测、大型用户 的精细划分等多种应用场合起着重要作用。现有的电力负荷聚类方法聚类质 量较差。
发明内容
本发明的目的是提供一种电力负荷曲线聚类方法,解决了现有技术中存 在的聚类质量差的问题。
本发明所采用的技术方案是,一种电力负荷曲线聚类方法,包括以下步 骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
步骤2、对负荷数据集进行降维处理,得到低维负荷数据集;
步骤3、采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚 类数目K;
步骤4、根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到 聚类结果。
本发明的特点还在于:
预处理过程包括:
首选删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到 初始负荷数据集;
然后对初始负荷数据集进行归一化处理,得到负荷数据集。
步骤2具体包括:
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,负 荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则负荷数据集中xi、xj之 间的相似性采用概率Pi|j、Pj|i表示为:
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之 间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联 合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
步骤2.4、根据损失函数E,通过梯度下降法对负荷数据集进行降维, 直至得到预设维数空间的低维负荷数据集。
步骤3具体包括:
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为 V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所 有数据与类均值的距离平方和Si:
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个 数;
步骤3.2、计算聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
步骤4具体包括:
步骤4.1、将低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据最佳聚类数目K,使用K-means算法对初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征 维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据最佳聚类数目K,并从初始簇中随机抽取与K相同的数 据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到聚类中心的几何距离:
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直 至误差平方和准则函数Jw收敛;
步骤4.4、重复步骤4.3,直到达到预置实验次数;
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最 小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚 类结果。
还包括:
步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。
本发明的有益效果是:
本发明一种电力负荷曲线聚类方法,通过t-SNE降维技术对负荷进行处 理,结合GSA肘形判据与二分K-means算法对负荷进行聚类分析,通过实 验证明改进后的算法有着更好的聚类质量。
附图说明
图1是本发明一种电力负荷曲线聚类方法的流程图;
图2是本发明一种电力负荷曲线聚类方法中聚类方法的流程图;
图3是本发明一种电力负荷曲线聚类方法中聚类结果图;
图4a是本发明一种电力负荷曲线聚类方法中第一类负荷曲线图;
图4b是本发明一种电力负荷曲线聚类方法中第二类负荷曲线图;
图4c是本发明一种电力负荷曲线聚类方法中第三类负荷曲线图;
图4d是本发明一种电力负荷曲线聚类方法中第四类负荷曲线图;
图4e是本发明一种电力负荷曲线聚类方法中第五类负荷曲线图;
图4f是本发明一种电力负荷曲线聚类方法中第六类负荷曲线图;
图4g是本发明一种电力负荷曲线聚类方法中第七类负荷曲线图;
图4h是本发明一种电力负荷曲线聚类方法中第八类负荷曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种电力负荷曲线聚类方法,如图1所示,包括以下步骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
预处理过程包括:
删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到初始 负荷数据集;然后对初始负荷数据集进行归一化处理,得到负荷数据集。
修补缺失值时,首先判断缺失值的严重程度,缺失严重的数据所满足的 情形应包含以下之一:
(1)一条曲线首末两端的存在多个数据丢失;
(2)曲线中有五分之一以上的数据信息丢失;
(3)曲线相邻的数据出现连续缺失两个及以上的情形。
若数据缺失的情况判断为严重,则可以从负荷数据集中剔除该组负荷, 若负荷数据缺失的情况并不严重,则可以借助多阶拉格朗日内插法修补缺失 值,其公式为:
上式中,t,k为分别代表设定的前推及后推期数;
通过下式筛选出非用户自身原因导致的毛刺数据,筛选公式表达为:
上式中,pm,t为用户m在t时间的负荷数据,μ为给定的筛选阈值。
采用最大值归一化来将负荷数据归一化至[0,1]区间内,并保留负荷曲线 的特点,公式如下:
上式中,max(L)为负荷序列数据中的最大值。
步骤2、对负荷数据集进行降维处理,得到低维负荷数据集;
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,负 荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则负荷数据集中xi、xj之 间的相似性采用概率Pi|j、Pj|i表示为:
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之 间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联 合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
步骤2.4、根据损失函数E,通过梯度下降法对负荷数据集进行降维, 直至得到预设维数空间的低维负荷数据集。
步骤3、采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚 类数目K;
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为 V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所 有数据与类均值的距离平方和Si:
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个 数。
步骤3.2、计算当聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
步骤4、根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到 聚类结果。
步骤4.1、将低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据最佳聚类数目K,使用K-means算法对初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征 维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据最佳聚类数目K,并从初始簇中随机抽取与K相同的数 据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到聚类中心的几何距离:
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直 至误差平方和准则函数Jw收敛;
上式中,nj为第j类中样本的个数;mj为第j类样本的均值,代表该数 据样本类别的聚类中心。
步骤4.4、重复步骤4.3,直到达到预置实验次数;步骤4.3中,根据预 先设定好聚类数量K,从目标数据集中随机抽出K个数据作为初始的样本中 心,通过距离计算将与中心相近的数据聚合在一起,然后重新计算新的样本 中心,以此迭代,当计算后的中心不再发生变化时,即认为Jw收敛,聚类完 成。
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最 小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚 类结果。
步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。
DBI指标的计算公式如下:
上式中,Si、Sj代表第i、j个类内所有数据与类均值的距离平方和,即 分散程度;di,j为第i、j个类的类间距离。
DBI指标数值能够表现出各类别之间的离散程度以及类内个数据点的紧 凑程度,该值越小,反映出的聚类质量就越高。
CHI指标结合了两个数据的聚类信息,分别用类间的分散性(用B表示) 和类内的紧凑型(用W表示)来度量,其中:
则CHI指标为:
CHI指标也能够反映出不同类别之间的稀疏分离性,也能够表达出同种 类型内各数据集之间的紧凑性,CHI指标数值越大反映出聚类质量越优越。
通过以上方式,本发明一种电力负荷曲线聚类方法,通过t-SNE降维技 术对负荷进行处理,避免了因高维数据集中存在大量无关的属性使得在所有 维中初始簇的可能性几乎为零,同时,有效处理了因高维空间中数据分布稀 疏而导致大量数据间距离几乎相等的情况。结合GSA肘形判据与二分 K-means算法对负荷进行聚类分析,通过实验证明改进后的算法有着更好的 聚类质量。
实施例
某市电力用户负荷2014年全年负荷数据,每组负荷数据集按照时间顺序 排列,负荷采集间隔为一小时一次,提取出负荷曲线1251条。聚类结果如 图3所示。由图3可以看出分类结果将这些负荷曲线分为八种负荷类型,而 这八种负荷类型又可以大体分成三大类型,它们的特点如下:
第一大类负荷可称为“迎峰负荷”,如图3中的第3,4,5,7,8类负荷, 其负荷特点是白天负荷高,夜间达到负荷谷期。如图4c、4g中,第3,7类 负荷有两个明显的峰值时间段,在11:00-14:00以及17:00-20:00,这类典型 的负荷企业多是零售业及餐饮饭店等行业,迎合客人的高峰期。如图4d、4e、 4h中,第4,5,8类负荷白天负荷高峰期持续较长,在11:00-18:00,多为 白天进行生产活动的企业,比如部分电子元器件制造企业,金属加工企业等。
第二大类负荷可称为“避峰负荷”,如图3、图4b、图4f中的第2类及 第6类,其负荷的高峰期与人们正常作息时间相反,可以看出其是在夜间负 荷较大,而白天负荷较低,在10:00-20:00之间都存在一定的低谷负荷,有 个别企业负荷动荡较大,存在两段谷期,其他企业白天谷期负荷较平稳,持 续时间较长。这些企业一般都时为了响应峰谷时段的电价政策采取了夜间生 产,白天休息的避锋措施。
第三大类负荷可称为“持续负荷”,如图3、图4a中的第1类负荷,这 类企业一般均为连续生产企业,多为三班制工作,整日的生产量都比较平稳, 负荷始终保持较高水平。
将本发明采用方法与传统K-means及二分K-means算法进行分析对比, 采用DBI、CHI指标进行评价,对比结果如表1:
表1聚类评价指标
根据前文聚类指标的描述,DBI指标的数值应该是越小聚类效果越好, CHI指标则相反,其数值越大聚类效果越好,因此,根据表中数据可以看出, 通过评价指标可以看出,K-means算法由于对初始质心的依赖,在随机初始 质心的情况下,聚类指标数值波动较大,聚类效果不够稳定,二分K-means 算法聚类效果优于传统K-means算法,且克服了初值的影响,聚类指标浮动 很小,且经过t-SNE降维处理负荷数据后,二分K-means在聚类效果上表现 更加优秀。
Claims (6)
1.一种电力负荷曲线聚类方法,其特征在于,包括以下步骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
步骤2、对所述负荷数据集进行降维处理,得到低维负荷数据集;
步骤3、采用GSA肘形判据法对所述低维负荷数据集进行计算,得到最佳聚类数目K;
步骤4、根据所述最佳聚类数目K,对所述低维负荷数据集进行聚类分析,得到聚类结果。
2.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,所述预处理过程包括:
首选删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到初始负荷数据集;
然后对所述初始负荷数据集进行归一化处理,得到负荷数据集。
3.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤2具体包括:
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,所述负荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则所述负荷数据集中xi、xj之间的相似性采用概率Pi|j、Pj|i表示为:
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
步骤2.4、根据所述损失函数E,通过梯度下降法对所述负荷数据集进行降维,直至得到预设维数空间的低维负荷数据集。
4.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤3具体包括:
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所有数据与类均值的距离平方和Si:
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个数;
步骤3.2、计算聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对所述聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
5.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤4具体包括:
步骤4.1、将所述低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据所述最佳聚类数目K,使用K-means算法对所述初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据所述最佳聚类数目K,并从初始簇中随机抽取与K相同的数据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到所述聚类中心的几何距离:
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直至误差平方和准则函数Jw收敛;
步骤4.4、重复步骤4.3,直到达到预置实验次数;
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚类结果。
6.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,还包括:
步骤5、通过聚类指标DBI、CHI对所述聚类结果进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032332.XA CN112270338A (zh) | 2020-09-27 | 2020-09-27 | 一种电力负荷曲线聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032332.XA CN112270338A (zh) | 2020-09-27 | 2020-09-27 | 一种电力负荷曲线聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270338A true CN112270338A (zh) | 2021-01-26 |
Family
ID=74348871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011032332.XA Pending CN112270338A (zh) | 2020-09-27 | 2020-09-27 | 一种电力负荷曲线聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270338A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780343A (zh) * | 2021-08-05 | 2021-12-10 | 上海电力大学 | 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法 |
CN115034690A (zh) * | 2022-08-10 | 2022-09-09 | 中国航天科工集团八五一一研究所 | 一种基于改进模糊c-均值聚类的战场态势分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110109971A (zh) * | 2019-04-19 | 2019-08-09 | 国网天津市电力公司电力科学研究院 | 一种低压台区用户用电负荷特性分析方法 |
CN110569316A (zh) * | 2019-08-07 | 2019-12-13 | 浙江大学 | 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法 |
CN110781332A (zh) * | 2019-10-16 | 2020-02-11 | 三峡大学 | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 |
CN111046532A (zh) * | 2019-11-22 | 2020-04-21 | 南瑞集团有限公司 | 一种基于肘形判据的同调机群聚类识别方法 |
CN111259965A (zh) * | 2020-01-17 | 2020-06-09 | 中国电力科学研究院有限公司 | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 |
-
2020
- 2020-09-27 CN CN202011032332.XA patent/CN112270338A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110109971A (zh) * | 2019-04-19 | 2019-08-09 | 国网天津市电力公司电力科学研究院 | 一种低压台区用户用电负荷特性分析方法 |
CN110569316A (zh) * | 2019-08-07 | 2019-12-13 | 浙江大学 | 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法 |
CN110781332A (zh) * | 2019-10-16 | 2020-02-11 | 三峡大学 | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 |
CN111046532A (zh) * | 2019-11-22 | 2020-04-21 | 南瑞集团有限公司 | 一种基于肘形判据的同调机群聚类识别方法 |
CN111259965A (zh) * | 2020-01-17 | 2020-06-09 | 中国电力科学研究院有限公司 | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 |
Non-Patent Citations (3)
Title |
---|
吴军基 等: "基于GSA的肘形判据用于电力系统不良数据辨识", 《中国电机工程学报》 * |
徐学文 等: "《科技信息工作自动化概论》", 31 March 2008 * |
翁颖钧 等: "《数据挖掘建模及其在电力决策支持中的应用研究》", 30 November 2018 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780343A (zh) * | 2021-08-05 | 2021-12-10 | 上海电力大学 | 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法 |
CN113780343B (zh) * | 2021-08-05 | 2024-03-05 | 上海电力大学 | 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法 |
CN115034690A (zh) * | 2022-08-10 | 2022-09-09 | 中国航天科工集团八五一一研究所 | 一种基于改进模糊c-均值聚类的战场态势分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bagnall et al. | Clustering time series with clipped data | |
Rani et al. | Recent techniques of clustering of time series data: a survey | |
Jin et al. | Comparison of clustering techniques for residential energy behavior using smart meter data | |
Beg et al. | Advantages and limitations of genetic algorithms for clustering records | |
Jiang et al. | A fused load curve clustering algorithm based on wavelet transform | |
CN111724278A (zh) | 一种面向电力多元负荷用户的精细分类方法及系统 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN112270338A (zh) | 一种电力负荷曲线聚类方法 | |
CN112819299A (zh) | 一种基于中心优化的差分K-means负荷聚类方法 | |
Narasimhan et al. | Contribution-based clustering algorithm for content-based image retrieval | |
CN111782806A (zh) | 一种基于人工智能算法的相似上市企业检索分类方法及系统 | |
Badapanda et al. | Agriculture data visualization and analysis using data mining techniques: application of unsupervised machine learning | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN112149052A (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN111709460A (zh) | 基于相关系数的互信息特征选择方法 | |
CN115129503A (zh) | 一种设备故障数据清洗方法及系统 | |
Aljumily | Agglomerative hierarchical clustering: an introduction to essentials.(1) proximity coefficients and creation of a vector-distance matrix and (2) construction of the hierarchical tree and a selection of methods | |
CN114417972A (zh) | 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法 | |
CN113988161A (zh) | 一种用户用电行为模式识别方法 | |
CN113159137A (zh) | 一种燃气负荷聚类方法及装置 | |
Ambarsari et al. | Comparison Approaches of the Fuzzy C-Means and Gaussian Mixture Model in Clustering the Welfare of the Indonesian People | |
Zheng et al. | Electricity information big data based load curve clustering | |
Gong et al. | Visual Clustering Analysis of Electricity Data Based on t-SNE | |
Jiang et al. | Incremental electricity consumer behavior learning using smart meter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |