CN107833153B - 一种基于k-means聚类的电网负荷缺失数据补全方法 - Google Patents
一种基于k-means聚类的电网负荷缺失数据补全方法 Download PDFInfo
- Publication number
- CN107833153B CN107833153B CN201711279914.6A CN201711279914A CN107833153B CN 107833153 B CN107833153 B CN 107833153B CN 201711279914 A CN201711279914 A CN 201711279914A CN 107833153 B CN107833153 B CN 107833153B
- Authority
- CN
- China
- Prior art keywords
- data
- power grid
- missing data
- load
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003064 k means clustering Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims 1
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000010248 power generation Methods 0.000 abstract 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于k‑means聚类的电网负荷缺失数据补全方法,该方法根据电网负荷数据的规律特点,以日为单位对缺失的数据进行补全;该方法通过将已有的完整的日负荷曲线进行聚类,在此基础上,含有缺失数据的日负荷曲线根据其现有数据信息进行归类,并将缺失日负荷曲线对应的质心向量进行伸缩变换,补全到其空缺部分,完成对缺失数据的补全工作;本发明充分考虑了电网负荷数据具有时间周期性相似性的特点,使补全数据更接近真实数据,补全误差小,可以作为负荷预测必要的数据预处理步骤,使负荷预测具有更高的准确度;本发明数据补全方法同样可以应用于光伏发电缺失数据补全,风力发电缺失数据补全。
Description
技术领域
本发明属于新能源及电力需求侧响应中与预测相关的领域,涉及一种基于k-means聚类的电网负荷缺失数据补全方法。
背景技术
负荷预测是实现配电网自动化的重要环节,对配电网的规划与运行都起着极其重要的作用。随着配电网建设发展,负荷预测的准确性、实时性、可靠性和智能性也需要进一步提升。自动化与智能化已成为未来配电网的发展趋势,用户作为智能化用电的行为主体在配电网中起着至关重要的作用。这就要求提供更精确的用户用电信息,即对负荷预测的精度提出了更高的要求。对电力负荷的预测,很大程度上是依靠对大量历史用电负荷的历史数据进行分析处理,或者是对有相关因素的一些资料进行分析,求得预测值。因此,电力负荷预测结果的准确性,往往是跟所提供的以往用电负荷的历史数据的可靠性、以及有相关因素的资料的准确性等因素紧密相关的。目前,配电网负荷缺失数据现象比较严重,传统的缺失数据补全方法补全误差大,研究缺失数据补全方法具有重要意义。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于k-means聚类的电网负荷缺失数据补全方法。
本发明的目的是通过以下技术方案来实现的:一种基于k-means聚类的电网负荷缺失数据补全方法,该方法包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
其中,x是电网日负荷向量,i是类Ci的均值向量,即质心向量,其表达式为:
类数k的选择通过枚举法,计算一定类数范围内的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分;补全数据的方法如下:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,为了使得质心向量L2与当日负荷缺失数据相对应的部分更好的贴合到L1中,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
与现有技术相比,本发明的有益效果是:本发明通过将已有的完整的日负荷曲线进行聚类,在此基础上,含有缺失数据的日负荷曲线根据其现有数据信息进行归类,并将缺失日负荷曲线对应的质心向量进行伸缩变换,补全到其空缺部分,完成对缺失数据的补全工作;相对于现有的电网缺失数据补全方法,本发明充分考虑了电网负荷数据具有时间周期性相似性的特点,更有效地提升了数据补全准确度,进而提高负荷预测的准确度,本发明也适用于不同类型的具有时间周期性相似性特点的缺失数据补全。
附图说明
图1为本发明方法流程图;
图2为数据补全示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于k-means聚类的电网负荷缺失数据补全方法,包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
其中,x是电网日负荷向量,i是类Ci的均值向量,即质心向量,其表达式为:
类数k的选择通过枚举法,以一定步长,如以1为步长,计算一定类数范围内如1-100的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分,如图2所示,L1中点a到点b的数据为缺失数据,L2为L1所对应类的质心向量,图中c、d分别与a、b相对应。补全数据的方法为将L2中cd段曲线经过尺度变换,连接到ab段曲线补全数据,具体为:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,为了使得质心向量L2与当日负荷缺失数据相对应的部分更好的贴合到L1中,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
填补结果如图2中虚线所示。
Claims (1)
1.一种基于k-means聚类的电网负荷缺失数据补全方法,其特征在于,该方法包括以下步骤:
步骤1:选择k-means聚类的类数,将已有完整的电网日负荷向量进行k-means聚类;类数k的选择方法如下:
假设,类划分为(C1,C2,…,Ck),目标函数为:
其中,x是电网日负荷向量,μi是类Ci的均值向量,即质心向量,其表达式为:
类数k的选择通过枚举法,计算一定类数范围内的累积分类误差和,即目标函数值,绘制累积分类误差和曲线,选择拐点的数值作为分类类数k;
步骤2:把含有缺失数据的电网日负荷向量在已有的分类(C1,C2,…,Ck)上进行归类:计算含有缺失数据的电网日负荷向量中,非缺失数据与各类质心向量的欧氏距离,将电网当日负荷向量归为最小欧氏距离对应的类,其目标函数如下:
其中,n为电网当日负荷向量中不缺失数据的个数,μi (j)为电网当日负荷向量所属类的质心向量的第j个数据,与电网当日负荷向量中不缺失的第j个数据x(j)相对应;
步骤3:用含有缺失数据的电网日负荷向量L1所归类的质心向量L2中与其缺失数据位置对应的曲线部分,经过按比例的伸缩变换,填补到L1的缺失部分;补全数据的方法如下:
假设待补全数据的个数为m,即待补全数据的两个端点a、b之间有m个采样点发生数据缺失,质心向量L2与a、b相对应的两个端点c、d之间的每一个点均按比例伸缩步长step:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279914.6A CN107833153B (zh) | 2017-12-06 | 2017-12-06 | 一种基于k-means聚类的电网负荷缺失数据补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711279914.6A CN107833153B (zh) | 2017-12-06 | 2017-12-06 | 一种基于k-means聚类的电网负荷缺失数据补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107833153A CN107833153A (zh) | 2018-03-23 |
CN107833153B true CN107833153B (zh) | 2020-11-03 |
Family
ID=61642076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711279914.6A Active CN107833153B (zh) | 2017-12-06 | 2017-12-06 | 一种基于k-means聚类的电网负荷缺失数据补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107833153B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101638B (zh) * | 2018-08-20 | 2019-05-28 | 河海大学 | 一种大坝变形监测连续性缺失数据补全方法 |
CN109460775B (zh) * | 2018-09-20 | 2020-09-11 | 国家计算机网络与信息安全管理中心 | 一种基于信息熵的数据填充方法及装置 |
CN109450604A (zh) * | 2018-09-25 | 2019-03-08 | 国家电网有限公司客户服务中心 | 一种面向灾备的异地双活系统业务等级划分方法 |
CN111611231A (zh) * | 2019-02-25 | 2020-09-01 | 新奥数能科技有限公司 | 设备运行数据的清洗方法、装置、可读介质及电子设备 |
CN111461400B (zh) * | 2020-02-28 | 2023-06-23 | 国网浙江省电力有限公司 | 一种基于Kmeans和T-LSTM的负荷数据补全方法 |
CN112070121A (zh) * | 2020-08-12 | 2020-12-11 | 国网黑龙江省电力有限公司哈尔滨供电公司 | 一种基于变分自编码器的智能电表数据填补方法 |
CN112365939B (zh) * | 2020-10-14 | 2023-04-07 | 山东大学 | 一种基于医疗健康大数据的数据治理方法及系统 |
CN112488228A (zh) * | 2020-12-07 | 2021-03-12 | 京科互联科技(山东)有限公司 | 面向风控系统数据补全的双向聚类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174268A1 (en) * | 2006-01-13 | 2007-07-26 | Battelle Memorial Institute | Object clustering methods, ensemble clustering methods, data processing apparatus, and articles of manufacture |
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
CN103218675A (zh) * | 2013-05-06 | 2013-07-24 | 国家电网公司 | 一种基于聚类和滑动窗口的短期负荷预测方法 |
CN104866578A (zh) * | 2015-05-26 | 2015-08-26 | 大连理工大学 | 一种不完整数据混合填充方法 |
CN104992238A (zh) * | 2015-06-24 | 2015-10-21 | 国网山东省电力公司电力科学研究院 | 一种基于典型日负荷特性的电力负荷预测方法 |
CN107247737A (zh) * | 2017-05-10 | 2017-10-13 | 国家电网公司 | 基于用电量的台区违约用电分析与挖掘方法 |
-
2017
- 2017-12-06 CN CN201711279914.6A patent/CN107833153B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174268A1 (en) * | 2006-01-13 | 2007-07-26 | Battelle Memorial Institute | Object clustering methods, ensemble clustering methods, data processing apparatus, and articles of manufacture |
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
CN103218675A (zh) * | 2013-05-06 | 2013-07-24 | 国家电网公司 | 一种基于聚类和滑动窗口的短期负荷预测方法 |
CN104866578A (zh) * | 2015-05-26 | 2015-08-26 | 大连理工大学 | 一种不完整数据混合填充方法 |
CN104992238A (zh) * | 2015-06-24 | 2015-10-21 | 国网山东省电力公司电力科学研究院 | 一种基于典型日负荷特性的电力负荷预测方法 |
CN107247737A (zh) * | 2017-05-10 | 2017-10-13 | 国家电网公司 | 基于用电量的台区违约用电分析与挖掘方法 |
Non-Patent Citations (4)
Title |
---|
Adaptive imputation of missing values for incomplete pattern classification;Zhun-ga Liu;《Pattern Recognition》;20160430;第52卷;第85-95页 * |
Clustering-based Missing Value Imputation for Data Preprocessing;Chengqi Zhang等;《2006 4th IEEE International Conference on Industrial Informatics》;20070108;第1081-1086页 * |
一种基于动态自适应数据窗口的模糊k-均值聚类缺失数据估算算法;廖再飞;《计算机研究与发展》;20091015(第46期);第420-427页 * |
基于改进的K_means算法研究家庭环境对中学生认知能力的影响;谭彩娟;《电脑知识与技术》;20171130;第13卷(第33期);第178-180页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107833153A (zh) | 2018-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833153B (zh) | 一种基于k-means聚类的电网负荷缺失数据补全方法 | |
CN102231144B (zh) | 一种基于Boosting算法的配电网理论线损预测方法 | |
CN114792156B (zh) | 基于曲线特征指标聚类的光伏输出功率预测方法和系统 | |
CN109325607A (zh) | 一种短期风电功率预测方法及系统 | |
CN113822418A (zh) | 一种风电场功率预测方法、系统、设备和存储介质 | |
CN113177366B (zh) | 一种综合能源系统规划方法、装置和终端设备 | |
CN113112099A (zh) | 电网日电量预测模型训练方法和电网日电量预测方法 | |
CN111680841A (zh) | 基于主成分分析的短期负荷预测方法、系统及终端设备 | |
CN111177216A (zh) | 综合能源消费者行为特征的关联规则生成方法及装置 | |
Bidoki et al. | Comparison of several clustering methods in the case of electrical load curves classification | |
Zhang et al. | A regressive convolution neural network and support vector regression model for electricity consumption forecasting | |
CN115271161A (zh) | 一种多能负荷短期预测方法 | |
CN115660182A (zh) | 基于最大期望样本加权神经网络模型的光伏出力预测方法 | |
CN112633632A (zh) | 一种基于信号分解技术的集成短期风电集群功率预测方法 | |
CN115759590A (zh) | 一种基于用电行为特征的工业用户需求响应潜力计算方法 | |
Velasco et al. | Day-ahead base, intermediate, and peak load forecasting using k-means and artificial neural networks | |
CN113344450B (zh) | 低压台区线户识别方法、系统、终端设备及存储介质 | |
CN104820942A (zh) | 一种基于层次聚类的电力市场交易评价标准测算方法 | |
CN113222281A (zh) | 基于改进AlexNet-GRU模型的配电网短期负荷预测方法及装置 | |
Zhang et al. | Building energy consumption prediction based on temporal-aware attention and energy consumption states | |
CN110826750B (zh) | 一种电力负荷预测方法、装置、设备及系统 | |
CN116470491A (zh) | 基于copula函数的光伏功率概率预测方法及系统 | |
CN110210677A (zh) | 一种结合聚类和深度学习算法的母线短期日负荷预测方法和装置 | |
CN116404637A (zh) | 电力系统短期负荷预测方法和电力系统短期负荷预测装置 | |
CN109767037A (zh) | 一种夏季日最大负荷的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231018 Address after: 510620, No. two, No. 2, Tianhe South Road, Guangzhou, Guangdong, Tianhe District Patentee after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd. Patentee after: ZHEJIANG University Address before: 510620, No. two, No. 2, Tianhe South Road, Guangzhou, Guangdong, Tianhe District Patentee before: GUANGZHOU POWER SUPPLY Co.,Ltd. Patentee before: ZHEJIANG University |