CN110503145A - 一种基于k-shape聚类的典型负荷曲线获取方法 - Google Patents
一种基于k-shape聚类的典型负荷曲线获取方法 Download PDFInfo
- Publication number
- CN110503145A CN110503145A CN201910774924.XA CN201910774924A CN110503145A CN 110503145 A CN110503145 A CN 110503145A CN 201910774924 A CN201910774924 A CN 201910774924A CN 110503145 A CN110503145 A CN 110503145A
- Authority
- CN
- China
- Prior art keywords
- curve
- load
- load curve
- cluster centre
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000008569 process Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003442 weekly effect Effects 0.000 claims description 3
- 235000006508 Nelumbo nucifera Nutrition 0.000 claims 1
- 240000002853 Nelumbo nucifera Species 0.000 claims 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 claims 1
- 241000135164 Timea Species 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 3
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种基于k‑shape聚类的用户典型负荷曲线获取方法,属于电力系统需求侧响应领域。该方法包括:负荷曲线归一化、定义负荷曲线相似度、初始化聚类中心、负荷曲线归类、更新聚类中心、分类收敛。本方法基于k‑means聚类改良,用余弦距离代替欧氏距离作为衡量不同负荷曲线之间相似度的标准,能更好地分辨出负荷曲线的形状特点而不受到幅度波动的影响,有助于提取用户典型的负荷特征。此外,相较传统的聚类方法用同类型样本的算术平均作为聚类中心的做法,本方法通过求解一个最大化瑞利熵模型获得聚类中心,使得中心与同类型样本的总相似度最大,更能反映负荷曲线的典型特征,有助于对用户负荷进行准确分析。
Description
技术领域
本发明涉及一种基于k-shape聚类的居民用户典型负荷曲线获取方法,属于电力系统需求侧响应领域。
背景技术
用户负荷作为电力系统运行的末端环节,是保证电网稳定高效运行的关键。近年来,随着电动汽车、分布式可再生能源的普及,用户负荷的波动性和不确定性有较大提高,更是对电网的稳定运行提出了新的挑战。为了对用户负荷进行更深入的研究,并有针对性地提出需求侧响应的策略,需要能够准确把握用户侧的用电特征。然而,当前对于电力系统的研究仍主要集中于配网甚至更高层,对于分散的用户负荷关注度不够,捕捉用户用电特征的方法不多。
因此,分析用户负荷曲线,提取其中的典型特征,对于研究需求侧响应技术,提高能源利用效率具有重要意义。
发明内容
本发明的目的是提出一种基于k-shape聚类的典型负荷曲线获取方法,对海量的用户负荷曲线进行分类,获得每个类别的典型负荷曲线,作为分析用户用电行为特征的基本对象。
本发明提出的基于k-shape聚类的典型负荷曲线获取方法包括以下步骤:
S1:用户负荷数据预处理,包括以下步骤:
S1-1:负荷序列向量化;
S1-2:负荷向量归一化;
S2:定义两条负荷曲线之间的余弦相似度;
S3:聚类中心初始化;
S4:负荷曲线归类;
S5:计算新的聚类中心;
S6:迭代收敛。
进一步,步骤S1-1进行负荷序列向量化的过程为:
将用户每日或者每周各时刻的负荷采样点(一般每15分钟一个采样点)排列成一维曲线,曲线长度由N个时刻的负荷采样点组成,记为:
x=(l1,l2,...,lN)T
其中,lN是第N个时刻的负荷值。
进一步,步骤S1-2进行负荷向量归一化的过程为:
将负荷曲线除以它的模,得到归一化曲线,如下:
其中,
进一步,步骤S2定义两条负荷曲线之间的余弦相似度的过程为:
由于对负荷曲线进行了归一化处理,因此不考虑其中的幅值信息,主要计算曲线之间形状的相似性,可以通过计算两条曲线间的余弦距离:
记负荷曲线x=(l1,l2,...,lN)和y=(k1,k2,...,kN),则余弦相似度为:
由于在步骤S1中已经对负荷进行了归一化处理,故上式可以化简为:
d(x,y)=xT·y
考虑到负荷不可能为负,所以当d(x,y)=1时,两条曲线之间的相似度最高,反之则最低。
进一步,步骤S3进行聚类中心初始化的过程为:
设现在要将M条负荷曲线分为k类,则首先从曲线集合中随机抽取k条曲线作为初次聚类中心即:
进一步,步骤S4进行负荷曲线归类的过程为:
对曲线集合中的每一条曲线,计算其与当前各中心之间的余弦相似度,将曲线归入与之相似度最高的中心所代表的类:
其中,Cj代表第j类曲线构成的集合,代表与当前曲线相似度最高的曲线集合。
进一步,步骤S5计算新的聚类中心的过程为:
对于曲线簇Cj={xi},其中心曲线μj应该满足和簇内各条曲线的相似度之和最大,即求解优化问题:
由于因此该问题等价于:
记其中,L是n×n的矩阵,则优化问题写为:
其中约束条件为易见该问题本质上是瑞利熵问题,用拉格朗日乘子法求解该优化问题:
显然极值在上式导数为0时取得,即:
此时的拉格朗日乘子λ即为矩阵L的特征值,故目标函数值为:
要使得目标函数最大,λ只需取矩阵L最大的特征值即可,此时的变量μj即为λ对应的特征向量:
按照此方法更新每个类的中心,得到新的k个聚类中心。
进一步,步骤S6进行迭代收敛的过程为:
将步骤S5得到的聚类中心与上一次迭代的聚类中心进行对比,若聚类中心发生变化,则执行步骤S4,若聚类中心保持不变,即认为迭代收敛,此时的聚类中心即为最终聚类中心,即为最终分类结果。
本发明的有益效果如下:
本方法基于k-means聚类改良,用余弦距离代替欧氏距离作为衡量不同负荷曲线之间相似度的标准,能更好地分辨出负荷曲线的形状特点而不受到幅度波动的影响,有助于提取用户典型的负荷特征。此外,相较传统的聚类方法用同类型样本的算术平均作为聚类中心的做法,本方法通过求解一个最大化瑞利熵模型获得聚类中心,使得中心与同类型样本的总相似度最大,更能反映负荷曲线的典型特征,有助于对用户负荷进行准确分析。
附图说明
图1是本发明的流程示意图。
具体实施方式
实施例1:
如图1所示,本发明提出的基于k-shape聚类的典型负荷曲线获取方法包括以下步骤:
S1:用户负荷数据预处理,包括以下步骤:
S1-1:负荷序列向量化:
将用户每日或者每周各时刻的负荷采样点(一般每15分钟一个采样点)排列成一维曲线,曲线长度由N个时刻的负荷采样点组成,记为:
x=(l1,l2,...,lN)T
其中,lN是第N个时刻的负荷值;
S1-2:负荷向量归一化:
将负荷曲线除以它的模,得到归一化曲线,如下:
其中,
S2:定义两条负荷曲线之间的余弦相似度:
由于对负荷曲线进行了归一化处理,因此不考虑其中的幅值信息,主要计算曲线之间形状的相似性,可以通过计算两条曲线间的余弦距离:
记负荷曲线x=(l1,l2,...,lN)和y=(k1,k2,...,kN),则余弦相似度为:
由于在步骤S1中已经对负荷进行了归一化处理,故上式可以化简为:
d(x,y)=xT·y
考虑到负荷不可能为负,所以当d(x,y)=1时,两条曲线之间的相似度最高,反之则最低;
S3:聚类中心初始化:
设现在要将M条负荷曲线分为k类,则首先从曲线集合中随机抽取k条曲线作为初次聚类中心即:
S4:负荷曲线归类:
对曲线集合中的每一条曲线,计算其与当前各中心之间的余弦相似度,将曲线归入与之相似度最高的中心所代表的类:
其中,Cj代表第j类曲线构成的集合,代表与当前曲线相似度最高的曲线集合;
S5:计算新的聚类中心:
对于曲线簇Cj={xi},其中心曲线μj应该满足和簇内各条曲线的相似度之和最大,即求解优化问题:
由于因此该问题等价于:
记其中,L是n×n的矩阵,则优化问题写为:
其中约束条件为易见该问题本质上是瑞利熵问题,用拉格朗日乘子法求解该优化问题:
显然极值在上式导数为0时取得,即:
此时的拉格朗日乘子λ即为矩阵L的特征值,故目标函数值为:
要使得目标函数最大,λ只需取矩阵L最大的特征值即可,此时的变量μj即为λ对应的特征向量:
按照此方法更新每个类的中心,得到新的k个聚类中心;
S6:迭代收敛:
将步骤S5得到的聚类中心与上一次迭代的聚类中心进行对比,若聚类中心发生变化,则执行步骤S4,若聚类中心保持不变,即认为迭代收敛,此时的聚类中心即为最终聚类中心,即为最终分类结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,该方法包括以下步骤:
S1:用户负荷数据预处理,包括以下步骤:
S1-1:负荷序列向量化;
S1-2:负荷向量归一化;
S2:定义两条负荷曲线之间的余弦相似度;
S3:聚类中心初始化;
S4:负荷曲线归类;
S5:计算新的聚类中心;
S6:迭代收敛。
2.根据权利要求1所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S1-1进行负荷序列向量化的过程为:
将用户每日或者每周各时刻的负荷采样点排列成一维曲线,曲线长度由N个时刻的负荷采样点组成,记为:
x=(l1,l2,...,lN)T
其中,lN是第N个时刻的负荷值。
3.根据权利要求2所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S1-2进行负荷向量归一化的过程为:
将负荷曲线除以它的模,得到归一化曲线,如下:
其中,
4.根据权利要求3所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S2定义两条负荷曲线之间的余弦相似度的过程为:由于对负荷曲线进行了归一化处理,因此不考虑其中的幅值信息,主要计算曲线之间形状的相似性,可以通过计算两条曲线间的余弦距离:
记负荷曲线x=(l1,l2,...,lN)和y=(k1,k2,...,kN),则余弦相似度为:
由于在步骤S1中已经对负荷进行了归一化处理,故上式可以化简为:
d(x,y)=xT·y
考虑到负荷不可能为负,所以当d(x,y)=1时,两条曲线之间的相似度最高,反之则最低。
5.根据权利要求4所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S3进行聚类中心初始化的过程为:
设现在要将M条负荷曲线分为k类,则首先从曲线集合中随机抽取k条曲线作为初次聚类中心即:
6.根据权利要求5所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S4进行负荷曲线归类的过程为:
对曲线集合中的每一条曲线,计算其与当前各中心之间的余弦相似度,将曲线归入与之相似度最高的中心所代表的类:
其中,Cj代表第j类曲线构成的集合,代表与当前曲线相似度最高的曲线集合。
7.根据权利要求6所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S5计算新的聚类中心的过程为:
对于曲线簇Cj={xi},其中心曲线μj满足和簇内各条曲线的相似度之和最大,即求解优化问题:
由于因此该问题等价于:
记其中,L是n×n的矩阵,则优化问题写为:
其中约束条件为用拉格朗日乘子法求解该优化问题:
显然极值在上式导数为0时取得,即:
此时的拉格朗日乘子λ即为矩阵L的特征值,故目标函数值为:
要使得目标函数最大,λ需取矩阵L最大的特征值,此时的变量μj即为λ对应的特征向量:
按照此方法更新每个类的中心,得到新的k个聚类中心。
8.根据权利要求7所述的一种基于k-shape聚类的典型负荷曲线获取方法,其特征在于,步骤S6进行迭代收敛的过程为:
将步骤S5得到的聚类中心与上一次迭代的聚类中心进行对比,若聚类中心发生变化,则执行步骤S4,若聚类中心保持不变,即认为迭代收敛,此时的聚类中心即为最终聚类中心,即为最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910774924.XA CN110503145A (zh) | 2019-08-21 | 2019-08-21 | 一种基于k-shape聚类的典型负荷曲线获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910774924.XA CN110503145A (zh) | 2019-08-21 | 2019-08-21 | 一种基于k-shape聚类的典型负荷曲线获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110503145A true CN110503145A (zh) | 2019-11-26 |
Family
ID=68588996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910774924.XA Pending CN110503145A (zh) | 2019-08-21 | 2019-08-21 | 一种基于k-shape聚类的典型负荷曲线获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503145A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766543A (zh) * | 2020-12-31 | 2021-05-07 | 清华大学 | 一种用户集群基线负荷估计方法 |
CN112819299A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于中心优化的差分K-means负荷聚类方法 |
CN115310565A (zh) * | 2022-10-12 | 2022-11-08 | 西安道法数器信息科技有限公司 | 一种基于人工智能的网络安全监控方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156814A (zh) * | 2011-04-06 | 2011-08-17 | 广东省电力设计研究院 | 基于聚类的典型日负荷曲线选取方法及装置 |
CN106067034A (zh) * | 2016-05-27 | 2016-11-02 | 中国电力科学研究院 | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 |
CN106204335A (zh) * | 2016-07-21 | 2016-12-07 | 广东工业大学 | 一种电价执行异常判断方法、装置及系统 |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
CN108596362A (zh) * | 2018-03-22 | 2018-09-28 | 国网四川省电力公司经济技术研究院 | 基于自适应分段聚合近似的电力负荷曲线形态聚类方法 |
-
2019
- 2019-08-21 CN CN201910774924.XA patent/CN110503145A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156814A (zh) * | 2011-04-06 | 2011-08-17 | 广东省电力设计研究院 | 基于聚类的典型日负荷曲线选取方法及装置 |
CN106067034A (zh) * | 2016-05-27 | 2016-11-02 | 中国电力科学研究院 | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 |
CN106204335A (zh) * | 2016-07-21 | 2016-12-07 | 广东工业大学 | 一种电价执行异常判断方法、装置及系统 |
CN106408008A (zh) * | 2016-09-08 | 2017-02-15 | 国网江西省电力公司赣州供电分公司 | 一种基于负荷曲线距离和形状的负荷分类方法 |
CN108596362A (zh) * | 2018-03-22 | 2018-09-28 | 国网四川省电力公司经济技术研究院 | 基于自适应分段聚合近似的电力负荷曲线形态聚类方法 |
Non-Patent Citations (3)
Title |
---|
JOHN PAPARRIZOS ET AL.: "k-Shape: Efficient and Accurate Clustering of Time Series", 《SIGMOD RECORD》 * |
王潇笛 等: "采用自适应分段聚合近似的典型负荷曲线形态聚类算法", 《电力系统自动化》 * |
黄宇腾: "负荷形态分析与负荷管理优化研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766543A (zh) * | 2020-12-31 | 2021-05-07 | 清华大学 | 一种用户集群基线负荷估计方法 |
CN112766543B (zh) * | 2020-12-31 | 2022-12-09 | 清华大学 | 一种用户集群基线负荷估计方法 |
CN112819299A (zh) * | 2021-01-21 | 2021-05-18 | 上海电力大学 | 一种基于中心优化的差分K-means负荷聚类方法 |
CN115310565A (zh) * | 2022-10-12 | 2022-11-08 | 西安道法数器信息科技有限公司 | 一种基于人工智能的网络安全监控方法 |
CN115310565B (zh) * | 2022-10-12 | 2023-05-30 | 昆明市网络建设运营有限公司 | 一种基于人工智能的网络安全监控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11043808B2 (en) | Method for identifying pattern of load cycle | |
WO2022110557A1 (zh) | 一种台区户变关系异常诊断方法及装置 | |
CN108280479B (zh) | 一种基于负荷特性指标加权聚类算法的电网用户分类方法 | |
CN107423769B (zh) | 基于形态特征的电力负荷曲线自适应聚类方法 | |
CN110503145A (zh) | 一种基于k-shape聚类的典型负荷曲线获取方法 | |
CN109389180A (zh) | 一款基于深度学习的电力设备图像识别方法及巡查机器人 | |
CN105930862A (zh) | 一种基于密度自适应距离的密度峰聚类算法 | |
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
CN106529707A (zh) | 一种负荷用电模式识别方法 | |
CN109190950B (zh) | 一种电表和水表档案贯通的用能异常识别方法 | |
CN109146252A (zh) | 基于调节潜力指标的用户用电行为聚类分析方法和系统 | |
CN109190890A (zh) | 一种基于用户电力消费数据的用户行为分析方法 | |
CN108345908A (zh) | 电网数据的分类方法、分类设备及存储介质 | |
CN102263790A (zh) | 一种基于集成学习的入侵检测方法 | |
CN109634940A (zh) | 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法 | |
CN106777005A (zh) | 基于大数据技术改进聚类算法的用户用电行为分析方法 | |
CN103745205A (zh) | 一种基于多线性均值成分分析的步态识别方法 | |
CN107248031B (zh) | 一种针对负荷曲线峰谷差的快速电力用户分类方法 | |
CN109242174A (zh) | 一种基于决策树的季节性负荷自适应划分方法 | |
CN106067034A (zh) | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 | |
CN109558467A (zh) | 用电用户类别识别方法及系统 | |
CN110263834A (zh) | 一种新能源电能质量异常值的检测方法 | |
Kangping et al. | Analysis on residential electricity consumption behavior using improved k-means based on simulated annealing algorithm | |
CN112819649A (zh) | 确定台区户变关系的方法及装置 | |
Varghese et al. | Smart grid consumer behavioral model using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191126 |