CN112270338A - 一种电力负荷曲线聚类方法 - Google Patents

一种电力负荷曲线聚类方法 Download PDF

Info

Publication number
CN112270338A
CN112270338A CN202011032332.XA CN202011032332A CN112270338A CN 112270338 A CN112270338 A CN 112270338A CN 202011032332 A CN202011032332 A CN 202011032332A CN 112270338 A CN112270338 A CN 112270338A
Authority
CN
China
Prior art keywords
clustering
load
data set
data
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011032332.XA
Other languages
English (en)
Inventor
张刚
解佗
张靠社
罗军刚
冯培基
吕蒙
解梦琰
徐奔奔
张丁予
卿松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202011032332.XA priority Critical patent/CN112270338A/zh
Publication of CN112270338A publication Critical patent/CN112270338A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电力负荷曲线聚类方法,包括:对历史负荷数据进行预处理,得到负荷数据集;对负荷数据集进行降维处理,得到低维负荷数据集;采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚类数目K;根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到聚类结果。通过t‑SNE降维技术对负荷进行处理,结合GSA肘形判据与二分K‑means算法对负荷进行聚类分析,通过实验证明改进后的算法有着更好的聚类质量。

Description

一种电力负荷曲线聚类方法
技术领域
本发明属于负荷分类方法技术领域,涉及一种电力负荷曲线聚类方法。
背景技术
随着电力市场的放开发展,交易主体多元化、交易方式更加灵活、交易 次数更加频繁的市场特点也会逐渐凸显,伴随而来的将是海量的交易信息及 电力数据,高效的利用市场交易中的各种信息及负荷数据,对于保证市场的 稳定健康的发展有着重要的意义。分析不同类型的负荷模式,探索用户用电 特点,有助于发电企业及售电公司进一步认知各种用电方式及其行为习惯, 根据特点细分出不同的目标客户,推行不同的市场策略,定制个性化的服务, 从而保护各交易方的权益及利益。但不同用户的电力负荷又有着随机性和时变性,使得对整个区域的负荷进行建模分析变得十分复杂。因此,针对负荷 特点进行分类分析,研究各类别的典型负荷特点及用电行为习惯,以此来规 划更细致的管控措施。
由此可见,结合历史信息数据的收集,对电力负荷数据进行聚类划分以 及用电行为模式的识别是一项关键的工作,随着电力用户这个群体的规模不 断扩大,用电习惯也越来越灵活随机,对这些用户所带来的海量负荷数据运 用有效的数据挖掘技术,进行高效的聚类划分、分类识别,挖掘出负荷潜藏 的重要信息将对需求侧动态响应及管理、用户异常行为监督检测、大型用户 的精细划分等多种应用场合起着重要作用。现有的电力负荷聚类方法聚类质 量较差。
发明内容
本发明的目的是提供一种电力负荷曲线聚类方法,解决了现有技术中存 在的聚类质量差的问题。
本发明所采用的技术方案是,一种电力负荷曲线聚类方法,包括以下步 骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
步骤2、对负荷数据集进行降维处理,得到低维负荷数据集;
步骤3、采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚 类数目K;
步骤4、根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到 聚类结果。
本发明的特点还在于:
预处理过程包括:
首选删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到 初始负荷数据集;
然后对初始负荷数据集进行归一化处理,得到负荷数据集。
步骤2具体包括:
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,负 荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则负荷数据集中xi、xj之 间的相似性采用概率Pi|j、Pj|i表示为:
Figure BDA0002704123950000031
Figure BDA0002704123950000032
上式中,
Figure BDA0002704123950000033
为xi的高斯分布方差;
Figure BDA0002704123950000034
为xj的高斯分布方差;
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
Figure BDA0002704123950000035
Figure BDA0002704123950000036
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之 间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联 合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
Figure BDA0002704123950000037
Figure BDA0002704123950000038
步骤2.4、根据损失函数E,通过梯度下降法对负荷数据集进行降维, 直至得到预设维数空间的低维负荷数据集。
步骤3具体包括:
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为 V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所 有数据与类均值的距离平方和Si
Figure BDA0002704123950000041
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
Figure BDA0002704123950000042
Figure BDA0002704123950000043
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个 数;
步骤3.2、计算聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
Figure BDA0002704123950000044
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
Figure BDA0002704123950000045
Figure BDA0002704123950000046
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
步骤4具体包括:
步骤4.1、将低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据最佳聚类数目K,使用K-means算法对初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征 维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据最佳聚类数目K,并从初始簇中随机抽取与K相同的数 据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到聚类中心的几何距离:
Figure BDA0002704123950000051
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直 至误差平方和准则函数Jw收敛;
步骤4.4、重复步骤4.3,直到达到预置实验次数;
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最 小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚 类结果。
还包括:
步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。
本发明的有益效果是:
本发明一种电力负荷曲线聚类方法,通过t-SNE降维技术对负荷进行处 理,结合GSA肘形判据与二分K-means算法对负荷进行聚类分析,通过实 验证明改进后的算法有着更好的聚类质量。
附图说明
图1是本发明一种电力负荷曲线聚类方法的流程图;
图2是本发明一种电力负荷曲线聚类方法中聚类方法的流程图;
图3是本发明一种电力负荷曲线聚类方法中聚类结果图;
图4a是本发明一种电力负荷曲线聚类方法中第一类负荷曲线图;
图4b是本发明一种电力负荷曲线聚类方法中第二类负荷曲线图;
图4c是本发明一种电力负荷曲线聚类方法中第三类负荷曲线图;
图4d是本发明一种电力负荷曲线聚类方法中第四类负荷曲线图;
图4e是本发明一种电力负荷曲线聚类方法中第五类负荷曲线图;
图4f是本发明一种电力负荷曲线聚类方法中第六类负荷曲线图;
图4g是本发明一种电力负荷曲线聚类方法中第七类负荷曲线图;
图4h是本发明一种电力负荷曲线聚类方法中第八类负荷曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种电力负荷曲线聚类方法,如图1所示,包括以下步骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
预处理过程包括:
删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到初始 负荷数据集;然后对初始负荷数据集进行归一化处理,得到负荷数据集。
修补缺失值时,首先判断缺失值的严重程度,缺失严重的数据所满足的 情形应包含以下之一:
(1)一条曲线首末两端的存在多个数据丢失;
(2)曲线中有五分之一以上的数据信息丢失;
(3)曲线相邻的数据出现连续缺失两个及以上的情形。
若数据缺失的情况判断为严重,则可以从负荷数据集中剔除该组负荷, 若负荷数据缺失的情况并不严重,则可以借助多阶拉格朗日内插法修补缺失 值,其公式为:
Figure BDA0002704123950000071
上式中,t,k为分别代表设定的前推及后推期数;
通过下式筛选出非用户自身原因导致的毛刺数据,筛选公式表达为:
Figure BDA0002704123950000072
上式中,pm,t为用户m在t时间的负荷数据,μ为给定的筛选阈值。
采用最大值归一化来将负荷数据归一化至[0,1]区间内,并保留负荷曲线 的特点,公式如下:
Figure BDA0002704123950000073
上式中,max(L)为负荷序列数据中的最大值。
步骤2、对负荷数据集进行降维处理,得到低维负荷数据集;
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,负 荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则负荷数据集中xi、xj之 间的相似性采用概率Pi|j、Pj|i表示为:
Figure BDA0002704123950000074
Figure BDA0002704123950000075
上式中,
Figure BDA0002704123950000076
为xi的高斯分布方差;
Figure BDA0002704123950000077
为xj的高斯分布方差;
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
Figure BDA0002704123950000081
Figure BDA0002704123950000082
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之 间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联 合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
Figure BDA0002704123950000083
Figure BDA0002704123950000084
步骤2.4、根据损失函数E,通过梯度下降法对负荷数据集进行降维, 直至得到预设维数空间的低维负荷数据集。
步骤3、采用GSA肘形判据法对低维负荷数据集进行计算,得到最佳聚 类数目K;
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为 V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所 有数据与类均值的距离平方和Si
Figure BDA0002704123950000085
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
Figure BDA0002704123950000086
Figure BDA0002704123950000091
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个 数。
步骤3.2、计算当聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
Figure BDA0002704123950000092
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
Figure BDA0002704123950000093
Figure BDA0002704123950000094
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
步骤4、根据最佳聚类数目K,对低维负荷数据集进行聚类分析,得到 聚类结果。
步骤4.1、将低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据最佳聚类数目K,使用K-means算法对初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征 维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据最佳聚类数目K,并从初始簇中随机抽取与K相同的数 据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到聚类中心的几何距离:
Figure BDA0002704123950000101
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直 至误差平方和准则函数Jw收敛;
Figure BDA0002704123950000102
上式中,nj为第j类中样本的个数;mj为第j类样本的均值,代表该数 据样本类别的聚类中心。
Figure BDA0002704123950000103
步骤4.4、重复步骤4.3,直到达到预置实验次数;步骤4.3中,根据预 先设定好聚类数量K,从目标数据集中随机抽出K个数据作为初始的样本中 心,通过距离计算将与中心相近的数据聚合在一起,然后重新计算新的样本 中心,以此迭代,当计算后的中心不再发生变化时,即认为Jw收敛,聚类完 成。
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最 小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚 类结果。
步骤5、通过聚类指标DBI、CHI对聚类结果进行评价。
DBI指标的计算公式如下:
Figure BDA0002704123950000111
上式中,Si、Sj代表第i、j个类内所有数据与类均值的距离平方和,即 分散程度;di,j为第i、j个类的类间距离。
DBI指标数值能够表现出各类别之间的离散程度以及类内个数据点的紧 凑程度,该值越小,反映出的聚类质量就越高。
CHI指标结合了两个数据的聚类信息,分别用类间的分散性(用B表示) 和类内的紧凑型(用W表示)来度量,其中:
Figure BDA0002704123950000112
Figure BDA0002704123950000113
上式中,
Figure BDA0002704123950000114
为全体数据的平均值;wk,i为数据集中第i个数据与第k类的 隶属度,即:
Figure BDA0002704123950000115
则CHI指标为:
Figure BDA0002704123950000116
CHI指标也能够反映出不同类别之间的稀疏分离性,也能够表达出同种 类型内各数据集之间的紧凑性,CHI指标数值越大反映出聚类质量越优越。
通过以上方式,本发明一种电力负荷曲线聚类方法,通过t-SNE降维技 术对负荷进行处理,避免了因高维数据集中存在大量无关的属性使得在所有 维中初始簇的可能性几乎为零,同时,有效处理了因高维空间中数据分布稀 疏而导致大量数据间距离几乎相等的情况。结合GSA肘形判据与二分 K-means算法对负荷进行聚类分析,通过实验证明改进后的算法有着更好的 聚类质量。
实施例
某市电力用户负荷2014年全年负荷数据,每组负荷数据集按照时间顺序 排列,负荷采集间隔为一小时一次,提取出负荷曲线1251条。聚类结果如 图3所示。由图3可以看出分类结果将这些负荷曲线分为八种负荷类型,而 这八种负荷类型又可以大体分成三大类型,它们的特点如下:
第一大类负荷可称为“迎峰负荷”,如图3中的第3,4,5,7,8类负荷, 其负荷特点是白天负荷高,夜间达到负荷谷期。如图4c、4g中,第3,7类 负荷有两个明显的峰值时间段,在11:00-14:00以及17:00-20:00,这类典型 的负荷企业多是零售业及餐饮饭店等行业,迎合客人的高峰期。如图4d、4e、 4h中,第4,5,8类负荷白天负荷高峰期持续较长,在11:00-18:00,多为 白天进行生产活动的企业,比如部分电子元器件制造企业,金属加工企业等。
第二大类负荷可称为“避峰负荷”,如图3、图4b、图4f中的第2类及 第6类,其负荷的高峰期与人们正常作息时间相反,可以看出其是在夜间负 荷较大,而白天负荷较低,在10:00-20:00之间都存在一定的低谷负荷,有 个别企业负荷动荡较大,存在两段谷期,其他企业白天谷期负荷较平稳,持 续时间较长。这些企业一般都时为了响应峰谷时段的电价政策采取了夜间生 产,白天休息的避锋措施。
第三大类负荷可称为“持续负荷”,如图3、图4a中的第1类负荷,这 类企业一般均为连续生产企业,多为三班制工作,整日的生产量都比较平稳, 负荷始终保持较高水平。
将本发明采用方法与传统K-means及二分K-means算法进行分析对比, 采用DBI、CHI指标进行评价,对比结果如表1:
表1聚类评价指标
Figure BDA0002704123950000131
根据前文聚类指标的描述,DBI指标的数值应该是越小聚类效果越好, CHI指标则相反,其数值越大聚类效果越好,因此,根据表中数据可以看出, 通过评价指标可以看出,K-means算法由于对初始质心的依赖,在随机初始 质心的情况下,聚类指标数值波动较大,聚类效果不够稳定,二分K-means 算法聚类效果优于传统K-means算法,且克服了初值的影响,聚类指标浮动 很小,且经过t-SNE降维处理负荷数据后,二分K-means在聚类效果上表现 更加优秀。

Claims (6)

1.一种电力负荷曲线聚类方法,其特征在于,包括以下步骤:
步骤1、对历史负荷数据进行预处理,得到负荷数据集;
步骤2、对所述负荷数据集进行降维处理,得到低维负荷数据集;
步骤3、采用GSA肘形判据法对所述低维负荷数据集进行计算,得到最佳聚类数目K;
步骤4、根据所述最佳聚类数目K,对所述低维负荷数据集进行聚类分析,得到聚类结果。
2.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,所述预处理过程包括:
首选删除历史负荷数据中的重复值、修补缺失值、去掉毛刺数据,得到初始负荷数据集;
然后对所述初始负荷数据集进行归一化处理,得到负荷数据集。
3.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤2具体包括:
步骤2.1、设{x1,x2,...,xm}为负荷数据集,xm为集合中的一个n维数据,所述负荷数据集在低维空间的映射数据集合为{y1,y2,...,ym},则所述负荷数据集中xi、xj之间的相似性采用概率Pi|j、Pj|i表示为:
Figure FDA0002704123940000011
Figure FDA0002704123940000012
上式中,
Figure FDA0002704123940000013
为xi的高斯分布方差;
Figure FDA0002704123940000014
为xj的高斯分布方差;
步骤2.2、假设高维数据空间、低维数据空间中均包括数据点i、j,则:
Figure FDA0002704123940000021
Figure FDA0002704123940000022
上式中,pij为高维空间数据点之间的联合概率,qij为低维空间数据点之间的联合概率;
步骤2.3、采用KL散度衡量pij、qij之间的相似度,P表示原数据集的联合概率分布,Q表示映射集合的联合概率分布,则损失函数E为:
Figure FDA0002704123940000023
Figure FDA0002704123940000024
步骤2.4、根据所述损失函数E,通过梯度下降法对所述负荷数据集进行降维,直至得到预设维数空间的低维负荷数据集。
4.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤3具体包括:
步骤3.1、将聚类数目K分别设定为1、2,设低维负荷数据集为V={d1,d2,...,dn},聚类划分为K个类簇后得到V1,V2,…,VK,求解Vi的类内所有数据与类均值的距离平方和Si
Figure FDA0002704123940000025
上式中,zi为类内质心;
通过下式计算每个K值的离散度W(K)、数学期望:
Figure FDA0002704123940000026
Figure FDA0002704123940000027
上式中,Wr(K)为第r个类中数据点的离散度,F为第r类中数据点的个数;
步骤3.2、计算聚类数目K为1、2时的间隙值Gap(1)、Gap(2):
Gap(K)=Eln[Wr(K)]-ln[W(K)] (13);
步骤3.3、通过下式对所述聚类数目K进行验证:
Gap(K)≥Gap(K+1)-Zk+1 (14);
其中:
Figure FDA0002704123940000031
若满足上式,则最佳聚类数目K为1,否则进行下一步:
步骤3.4、计算肘形夹角θ(K):
Figure FDA0002704123940000032
Figure FDA0002704123940000033
θb=arctan(ln[W(K)]-ln[W(K+1)]) (18);
步骤3.5、寻找θ(K)的最小值,此时K为最佳聚类数目。
5.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,步骤4具体包括:
步骤4.1、将所述低维负荷数据集作为同一种初始类别,记入类别表;
步骤4.2、从类别表中挑选类内数据相似程度最高的类,得到初始簇;
步骤4.3、根据所述最佳聚类数目K,使用K-means算法对所述初始簇聚类;
步骤4.3.1、已知初始簇中含有的样本数据量为n,每个样本数据的特征维度是m维,每个样本数据表述为:
Xi=(x1i,x2i,...,xmi),i=1,2,3,...,n (19);
步骤4.3.2、根据所述最佳聚类数目K,并从初始簇中随机抽取与K相同的数据向量作为初始聚类中心,则聚类中心的表述形式如下:
Cj=(c1j,c2i,...,cmj),j=1,2,3,...,k (20);
步骤4.3.3、计算初始簇中各个数据点到所述聚类中心的几何距离:
Figure FDA0002704123940000041
步骤4.3.4、计算误差平方和准则函数Jw,重复步骤4.3.1-步骤4.3.3,直至误差平方和准则函数Jw收敛;
步骤4.4、重复步骤4.3,直到达到预置实验次数;
步骤4.5、从步骤4.4得到的聚类结果中挑选出误差平方和准则函数Jw最小的两个类别计入类别表;
步骤4.6、重复4.2-4.5步,直到类别表中的类别达到预设目标,得到聚类结果。
6.根据权利要求1所述的一种电力负荷曲线聚类方法,其特征在于,还包括:
步骤5、通过聚类指标DBI、CHI对所述聚类结果进行评价。
CN202011032332.XA 2020-09-27 2020-09-27 一种电力负荷曲线聚类方法 Pending CN112270338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011032332.XA CN112270338A (zh) 2020-09-27 2020-09-27 一种电力负荷曲线聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011032332.XA CN112270338A (zh) 2020-09-27 2020-09-27 一种电力负荷曲线聚类方法

Publications (1)

Publication Number Publication Date
CN112270338A true CN112270338A (zh) 2021-01-26

Family

ID=74348871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011032332.XA Pending CN112270338A (zh) 2020-09-27 2020-09-27 一种电力负荷曲线聚类方法

Country Status (1)

Country Link
CN (1) CN112270338A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780343A (zh) * 2021-08-05 2021-12-10 上海电力大学 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法
CN115034690A (zh) * 2022-08-10 2022-09-09 中国航天科工集团八五一一研究所 一种基于改进模糊c-均值聚类的战场态势分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109971A (zh) * 2019-04-19 2019-08-09 国网天津市电力公司电力科学研究院 一种低压台区用户用电负荷特性分析方法
CN110569316A (zh) * 2019-08-07 2019-12-13 浙江大学 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN111046532A (zh) * 2019-11-22 2020-04-21 南瑞集团有限公司 一种基于肘形判据的同调机群聚类识别方法
CN111259965A (zh) * 2020-01-17 2020-06-09 中国电力科学研究院有限公司 一种对基于降维的电气特征数据进行均值聚类的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109971A (zh) * 2019-04-19 2019-08-09 国网天津市电力公司电力科学研究院 一种低压台区用户用电负荷特性分析方法
CN110569316A (zh) * 2019-08-07 2019-12-13 浙江大学 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN111046532A (zh) * 2019-11-22 2020-04-21 南瑞集团有限公司 一种基于肘形判据的同调机群聚类识别方法
CN111259965A (zh) * 2020-01-17 2020-06-09 中国电力科学研究院有限公司 一种对基于降维的电气特征数据进行均值聚类的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴军基 等: "基于GSA的肘形判据用于电力系统不良数据辨识", 《中国电机工程学报》 *
徐学文 等: "《科技信息工作自动化概论》", 31 March 2008 *
翁颖钧 等: "《数据挖掘建模及其在电力决策支持中的应用研究》", 30 November 2018 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780343A (zh) * 2021-08-05 2021-12-10 上海电力大学 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法
CN113780343B (zh) * 2021-08-05 2024-03-05 上海电力大学 一种基于lttb降维的双边斜率dtw距离负荷谱聚类方法
CN115034690A (zh) * 2022-08-10 2022-09-09 中国航天科工集团八五一一研究所 一种基于改进模糊c-均值聚类的战场态势分析方法

Similar Documents

Publication Publication Date Title
Bagnall et al. Clustering time series with clipped data
Rani et al. Recent techniques of clustering of time series data: a survey
Jin et al. Comparison of clustering techniques for residential energy behavior using smart meter data
Beg et al. Advantages and limitations of genetic algorithms for clustering records
Jiang et al. A fused load curve clustering algorithm based on wavelet transform
CN111724278A (zh) 一种面向电力多元负荷用户的精细分类方法及系统
CN110795690A (zh) 风电场运行异常数据检测方法
CN112270338A (zh) 一种电力负荷曲线聚类方法
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
Narasimhan et al. Contribution-based clustering algorithm for content-based image retrieval
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及系统
Badapanda et al. Agriculture data visualization and analysis using data mining techniques: application of unsupervised machine learning
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN111914930A (zh) 一种基于自适应微簇融合的密度峰值聚类方法
CN111709460A (zh) 基于相关系数的互信息特征选择方法
CN115129503A (zh) 一种设备故障数据清洗方法及系统
Aljumily Agglomerative hierarchical clustering: an introduction to essentials.(1) proximity coefficients and creation of a vector-distance matrix and (2) construction of the hierarchical tree and a selection of methods
CN114417972A (zh) 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法
CN113988161A (zh) 一种用户用电行为模式识别方法
CN113159137A (zh) 一种燃气负荷聚类方法及装置
Ambarsari et al. Comparison Approaches of the Fuzzy C-Means and Gaussian Mixture Model in Clustering the Welfare of the Indonesian People
Zheng et al. Electricity information big data based load curve clustering
Gong et al. Visual Clustering Analysis of Electricity Data Based on t-SNE
Jiang et al. Incremental electricity consumer behavior learning using smart meter data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210126