CN107833153B - 一种基于k-means聚类的电网负荷缺失数据补全方法 - Google Patents

一种基于k-means聚类的电网负荷缺失数据补全方法 Download PDF

Info

Publication number
CN107833153B
CN107833153B CN201711279914.6A CN201711279914A CN107833153B CN 107833153 B CN107833153 B CN 107833153B CN 201711279914 A CN201711279914 A CN 201711279914A CN 107833153 B CN107833153 B CN 107833153B
Authority
CN
China
Prior art keywords
data
power grid
missing data
load
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711279914.6A
Other languages
English (en)
Other versions
CN107833153A (zh
Inventor
华煌圣
董树锋
王莉
王孝慈
刘育权
吴任博
蔡莹
曾顺奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhejiang University ZJU
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Guangzhou Power Supply Bureau Co Ltd filed Critical Zhejiang University ZJU
Priority to CN201711279914.6A priority Critical patent/CN107833153B/zh
Publication of CN107833153A publication Critical patent/CN107833153A/zh
Application granted granted Critical
Publication of CN107833153B publication Critical patent/CN107833153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于k‑means聚类的电网负荷缺失数据补全方法,该方法根据电网负荷数据的规律特点,以日为单位对缺失的数据进行补全;该方法通过将已有的完整的日负荷曲线进行聚类,在此基础上,含有缺失数据的日负荷曲线根据其现有数据信息进行归类,并将缺失日负荷曲线对应的质心向量进行伸缩变换,补全到其空缺部分,完成对缺失数据的补全工作;本发明充分考虑了电网负荷数据具有时间周期性相似性的特点,使补全数据更接近真实数据,补全误差小,可以作为负荷预测必要的数据预处理步骤,使负荷预测具有更高的准确度;本发明数据补全方法同样可以应用于光伏发电缺失数据补全,风力发电缺失数据补全。

Description

一种基于k-means聚类的电网负荷缺失数据补全方法
技术领域
本发明属于新能源及电力需求侧响应中与预测相关的领域,涉及一种基于k-means聚类的电网负荷缺失数据补全方法。
背景技术
负荷预测是实现配电网自动化的重要环节,对配电网的规划与运行都起着极其重要的作用。随着配电网建设发展,负荷预测的准确性、实时性、可靠性和智能性也需要进一步提升。自动化与智能化已成为未来配电网的发展趋势,用户作为智能化用电的行为主体在配电网中起着至关重要的作用。这就要求提供更精确的用户用电信息,即对负荷预测的精度提出了更高的要求。对电力负荷的预测,很大程度上是依靠对大量历史用电负荷的历史数据进行分析处理,或者是对有相关因素的一些资料进行分析,求得预测值。因此,电力负荷预测结果的准确性,往往是跟所提供的以往用电负荷的历史数据的可靠性、以及有相关因素的资料的准确性等因素紧密相关的。目前,配电网负荷缺失数据现象比较严重,传统的缺失数据补全方法补全误差大,研究缺失数据补全方法具有重要意义。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于k-means聚类的电网负荷缺失数据补全方法。
本发明的目的是通过以下技术方案来实现的:一种基于k-means聚类的电网负荷缺失数据补全方法,该方法包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
Figure BDA0001497331050000021
其中,x是电网日负荷向量,i是类Ci的均值向量,即质心向量,其表达式为:
Figure BDA0001497331050000022
类数k的选择通过枚举法,计算一定类数范围内的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
Figure BDA0001497331050000023
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分;补全数据的方法如下:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,为了使得质心向量L2与当日负荷缺失数据相对应的部分更好的贴合到L1中,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
Figure BDA0001497331050000024
其中,
Figure BDA0001497331050000025
表示L1中a点的负荷值;那么,第i(i<m)个缺失数据的补全值
Figure BDA0001497331050000026
为:
Figure BDA0001497331050000031
与现有技术相比,本发明的有益效果是:本发明通过将已有的完整的日负荷曲线进行聚类,在此基础上,含有缺失数据的日负荷曲线根据其现有数据信息进行归类,并将缺失日负荷曲线对应的质心向量进行伸缩变换,补全到其空缺部分,完成对缺失数据的补全工作;相对于现有的电网缺失数据补全方法,本发明充分考虑了电网负荷数据具有时间周期性相似性的特点,更有效地提升了数据补全准确度,进而提高负荷预测的准确度,本发明也适用于不同类型的具有时间周期性相似性特点的缺失数据补全。
附图说明
图1为本发明方法流程图;
图2为数据补全示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于k-means聚类的电网负荷缺失数据补全方法,包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
Figure BDA0001497331050000032
其中,x是电网日负荷向量,i是类Ci的均值向量,即质心向量,其表达式为:
Figure BDA0001497331050000033
类数k的选择通过枚举法,以一定步长,如以1为步长,计算一定类数范围内如1-100的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
Figure BDA0001497331050000041
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分,如图2所示,L1中点a到点b的数据为缺失数据,L2为L1所对应类的质心向量,图中c、d分别与a、b相对应。补全数据的方法为将L2中cd段曲线经过尺度变换,连接到ab段曲线补全数据,具体为:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,为了使得质心向量L2与当日负荷缺失数据相对应的部分更好的贴合到L1中,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
Figure BDA0001497331050000042
其中,
Figure BDA0001497331050000043
表示L1中a点的负荷值;那么,第i(i<m)个缺失数据的补全值
Figure BDA0001497331050000044
为:
Figure BDA0001497331050000045
填补结果如图2中虚线所示。

Claims (1)

1.一种基于k-means聚类的电网负荷缺失数据补全方法,其特征在于,该方法包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
Figure FDA0002610714120000011
其中,x是电网日负荷向量,μi是类Ci的均值向量,即质心向量,其表达式为:
Figure FDA0002610714120000012
类数k的选择通过枚举法,计算一定类数范围内的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
Figure FDA0002610714120000013
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分;补全数据的方法如下:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
Figure FDA0002610714120000021
其中,
Figure FDA0002610714120000022
表示L1中a点的负荷值;那么,第i(i<m)个缺失数据的补全值
Figure FDA0002610714120000023
为:
Figure FDA0002610714120000024
CN201711279914.6A 2017-12-06 2017-12-06 一种基于k-means聚类的电网负荷缺失数据补全方法 Active CN107833153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711279914.6A CN107833153B (zh) 2017-12-06 2017-12-06 一种基于k-means聚类的电网负荷缺失数据补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711279914.6A CN107833153B (zh) 2017-12-06 2017-12-06 一种基于k-means聚类的电网负荷缺失数据补全方法

Publications (2)

Publication Number Publication Date
CN107833153A CN107833153A (zh) 2018-03-23
CN107833153B true CN107833153B (zh) 2020-11-03

Family

ID=61642076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711279914.6A Active CN107833153B (zh) 2017-12-06 2017-12-06 一种基于k-means聚类的电网负荷缺失数据补全方法

Country Status (1)

Country Link
CN (1) CN107833153B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101638B (zh) * 2018-08-20 2019-05-28 河海大学 一种大坝变形监测连续性缺失数据补全方法
CN109460775B (zh) * 2018-09-20 2020-09-11 国家计算机网络与信息安全管理中心 一种基于信息熵的数据填充方法及装置
CN109450604A (zh) * 2018-09-25 2019-03-08 国家电网有限公司客户服务中心 一种面向灾备的异地双活系统业务等级划分方法
CN111611231A (zh) * 2019-02-25 2020-09-01 新奥数能科技有限公司 设备运行数据的清洗方法、装置、可读介质及电子设备
CN111461400B (zh) * 2020-02-28 2023-06-23 国网浙江省电力有限公司 一种基于Kmeans和T-LSTM的负荷数据补全方法
CN112070121A (zh) * 2020-08-12 2020-12-11 国网黑龙江省电力有限公司哈尔滨供电公司 一种基于变分自编码器的智能电表数据填补方法
CN112365939B (zh) * 2020-10-14 2023-04-07 山东大学 一种基于医疗健康大数据的数据治理方法及系统
CN112488228A (zh) * 2020-12-07 2021-03-12 京科互联科技(山东)有限公司 面向风控系统数据补全的双向聚类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174268A1 (en) * 2006-01-13 2007-07-26 Battelle Memorial Institute Object clustering methods, ensemble clustering methods, data processing apparatus, and articles of manufacture
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103218675A (zh) * 2013-05-06 2013-07-24 国家电网公司 一种基于聚类和滑动窗口的短期负荷预测方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN104992238A (zh) * 2015-06-24 2015-10-21 国网山东省电力公司电力科学研究院 一种基于典型日负荷特性的电力负荷预测方法
CN107247737A (zh) * 2017-05-10 2017-10-13 国家电网公司 基于用电量的台区违约用电分析与挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174268A1 (en) * 2006-01-13 2007-07-26 Battelle Memorial Institute Object clustering methods, ensemble clustering methods, data processing apparatus, and articles of manufacture
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103218675A (zh) * 2013-05-06 2013-07-24 国家电网公司 一种基于聚类和滑动窗口的短期负荷预测方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN104992238A (zh) * 2015-06-24 2015-10-21 国网山东省电力公司电力科学研究院 一种基于典型日负荷特性的电力负荷预测方法
CN107247737A (zh) * 2017-05-10 2017-10-13 国家电网公司 基于用电量的台区违约用电分析与挖掘方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adaptive imputation of missing values for incomplete pattern classification;Zhun-ga Liu;《Pattern Recognition》;20160430;第52卷;第85-95页 *
Clustering-based Missing Value Imputation for Data Preprocessing;Chengqi Zhang等;《2006 4th IEEE International Conference on Industrial Informatics》;20070108;第1081-1086页 *
一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法;廖再飞;《计算机研究与发展》;20091015(第46期);第420-427页 *
基于改进的K_means算法研究家庭环境对中学生认知能力的影响;谭彩娟;《电脑知识与技术》;20171130;第13卷(第33期);第178-180页 *

Also Published As

Publication number Publication date
CN107833153A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN107833153B (zh) 一种基于k-means聚类的电网负荷缺失数据补全方法
CN102231144B (zh) 一种基于Boosting算法的配电网理论线损预测方法
CN114792156B (zh) 基于曲线特征指标聚类的光伏输出功率预测方法和系统
CN109325607A (zh) 一种短期风电功率预测方法及系统
CN113822418A (zh) 一种风电场功率预测方法、系统、设备和存储介质
CN113177366B (zh) 一种综合能源系统规划方法、装置和终端设备
CN113112099A (zh) 电网日电量预测模型训练方法和电网日电量预测方法
CN111680841A (zh) 基于主成分分析的短期负荷预测方法、系统及终端设备
CN111177216A (zh) 综合能源消费者行为特征的关联规则生成方法及装置
Bidoki et al. Comparison of several clustering methods in the case of electrical load curves classification
Zhang et al. A regressive convolution neural network and support vector regression model for electricity consumption forecasting
CN115271161A (zh) 一种多能负荷短期预测方法
CN115660182A (zh) 基于最大期望样本加权神经网络模型的光伏出力预测方法
CN112633632A (zh) 一种基于信号分解技术的集成短期风电集群功率预测方法
CN115759590A (zh) 一种基于用电行为特征的工业用户需求响应潜力计算方法
Velasco et al. Day-ahead base, intermediate, and peak load forecasting using k-means and artificial neural networks
CN113344450B (zh) 低压台区线户识别方法、系统、终端设备及存储介质
CN104820942A (zh) 一种基于层次聚类的电力市场交易评价标准测算方法
CN113222281A (zh) 基于改进AlexNet-GRU模型的配电网短期负荷预测方法及装置
Zhang et al. Building energy consumption prediction based on temporal-aware attention and energy consumption states
CN110826750B (zh) 一种电力负荷预测方法、装置、设备及系统
CN116470491A (zh) 基于copula函数的光伏功率概率预测方法及系统
CN110210677A (zh) 一种结合聚类和深度学习算法的母线短期日负荷预测方法和装置
CN116404637A (zh) 电力系统短期负荷预测方法和电力系统短期负荷预测装置
CN109767037A (zh) 一种夏季日最大负荷的预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231018

Address after: 510620, No. two, No. 2, Tianhe South Road, Guangzhou, Guangdong, Tianhe District

Patentee after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Patentee after: ZHEJIANG University

Address before: 510620, No. two, No. 2, Tianhe South Road, Guangzhou, Guangdong, Tianhe District

Patentee before: GUANGZHOU POWER SUPPLY Co.,Ltd.

Patentee before: ZHEJIANG University