CN111768045A - 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 - Google Patents
一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 Download PDFInfo
- Publication number
- CN111768045A CN111768045A CN202010630375.1A CN202010630375A CN111768045A CN 111768045 A CN111768045 A CN 111768045A CN 202010630375 A CN202010630375 A CN 202010630375A CN 111768045 A CN111768045 A CN 111768045A
- Authority
- CN
- China
- Prior art keywords
- data
- electricity consumption
- missing
- resident electricity
- multiple interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000001502 supplementing effect Effects 0.000 title claims abstract description 12
- 241000699670 Mus sp. Species 0.000 claims abstract description 4
- 238000001543 one-way ANOVA Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 6
- 239000013589 supplement Substances 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000007619 statistical method Methods 0.000 abstract 1
- 238000007726 management method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
居民用电数据采集中会有各种原因造成的数据缺失情况,例如在数据处理中事先剔除异常值,运行中的意外如电表损坏,数据传输丢失等在时间序列上造成的居民用电数据缺失等。当这些异常情况出现时,就需要通过数理统计方法分析及补充这些缺失值。通过合理有效的方法补充后的居民用电数据对在模具用电管理中进一步利用数据挖掘至关重要。本发明提出了一种对居民用电数据的缺失值应用多重插补(MICE)方法补充缺失数据的方法,补充缺失数据以保障居民用电数据的完整性。
Description
技术领域
本发明涉及电力负荷预测技术领域,具体涉及一种居民用电管理中对居民哦用电负荷数据中的缺失值应用多重插补(MICE)方法补充缺失数据的方法。
背景技术
近年来,居民生活质量得到了长足进步,从而导致了新一轮的用电增长,社区用电安全问题进一步的突显。潜在的社区用电安全问题在目前的城市化管理中愈发受到重视,如何快速对用电单位存在的潜在用电安全问题进行识别,通过大数据和智能化的方法更好的对社区用能进行管理的需求在近年来也愈发增加。在居民用电大数据的管理中,需要做到的第一步就是得到真实有效的居民用电数据。然而在实际应用中,居民用电数据采集中会有各种原因造成的数据缺失情况,例如在数据处理中事先剔除异常值,运行中的意外如电表损坏,数据传输丢失等在时间序列上造成的居民用电数据缺失等。处理这种数据缺失问题的一种途径是直接删除包含缺失值的各个数据对,但是这种做法存在丢失有价值信息的风险。另一种更优的策略则是插补来补充缺失值,常见的缺失值填充方法有填充默认值、均值、众数、KNN填充、以及把缺失值作为新的标签通过模型来预测等方法。 但采用填充默认值、均值、众数等方法所得到的数据通常效果不佳,主要是由于这种方法人为的增加了数据的噪声。本发明采用从观测的数据中推测出缺失值的大小的方法,这样可以最大限度的保持数据的完整性,进而给未来的数据挖掘应用建立了良好的基础。本发明公开了一种对居民用电数据的缺失值应用多重插补(MICE)的方法补充缺失数据,达到有效获取居民用电的实时数据,为居民用电大数据管理提供基础数据的目的。
发明内容
本发明提出了一种对居民用电负荷数据缺失值进行补充,复原的方法, 其特点在于应用了多重插补(MICE)的方法,包含了缺失值识别和MICE插值补充和填补缺失值验证三大功能模块,多重插补(MICE)是一种基于重复模拟的处理缺失值的方法。在面对复杂的缺失值问题时,它将从一个包含缺失值的数据集中生成一组完整的数据集(通常是3到10个)。每个模拟数据集中,缺失数据将用蒙特卡洛方法来填补。多重插补的实现过程如图1所示,函数mice()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分,因此每个完整数据集都略有不同。然后,with()函数可依次对每个完整数据集应用统计模型(如线性拟合模型LR()或广义线性模型(GLM))。最 后 ,pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。with函数中一般有多个插补数据集的回归模型,通过对数据集进行T检验来确定其中某一个线性模型得出的数据集是否合格。pool函数把多个回归模型汇总后进行数据集整体的F检验来确定整个方法是否合格。合格后的数据即可输出作为填补后的数据集。T检验及F检验的阈值需要由数据质量控制要求决定,填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整with函数数据集的数量,或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著性差异,整体数据集可以保持一定的有效性。
实际收集到的居民用电数据经过上述模块的处理,可以达到补充数据集完整性的效果,提高了原始数据的有效性。将进行过填充处理后的电力负荷历史数据用于电力负荷预测模型将大大的提高电力负荷预测的可靠度与准确性。
附图说明
图1是本发明中多重插补模型的原理示意图。
图2是本发明实施例中历史负荷数据缺失值进行补充的方法的处理流程示意图。
具体实施方式
为使得本发明的内容、目的、特征及优点能够更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护说明书的范围。
如图2所示针对本发明提出的应用多重插补(MICE)插值补充居民用电缺失值的方法 ,具体分为以下步骤。
步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。
步骤二、多重插补算法插值补充数据:多重插补算法通过对标注后的数据进行分布运算来补充数据,一般包括以下部分:
1)Mice函数首先从一个包含缺失数据的数据集开始,返回一个包含多个(默认为5个)完整数据集的对象。每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分,因此每个完整数据集都略有不同;
2)with函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型);
3)pool函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。
步骤三、数据有效性验证:原始居民用电数据集与经过多重插补(MICE)算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据 的有效性。两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整with函数中线性拟合/线性规划模型数量以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
本发明提出了一种应用多重插补算法模型的方法补充居民用电数据中由于各种原因剔除值或者缺失值的方法,其特点为在居民用电数据处理中引入多重插补算法补充缺失值并且比对前后数据集的有效性验证来调整with函数中线性拟合/线性规划模型数量,使得用于居民用电数据更加完整,显著提高了居民用电大数据管理的水平。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
Claims (1)
1.一种居民用电管理中应用多重插补补充居民用电缺失数据的方法其特征在于,包括:
步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;
步骤二、多重插补算法插值补充数据:多重插补算法通过对标注后的数据进行分布运算来补充数据,一般包括以下部分:
1)Mice函数首先从一个包含缺失数据的数据集开始,返回一个包含多个(默认为5个)完整数据集的对象;
每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的;
由于插补有随机的成分,因此每个完整数据集都略有不同;
2)with函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型);
3)pool函数将这些单独的分析结果整合为一组结果;
最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性;
步骤三、数据有效性验证:原始居民用电数据集与经过多重插补(MICE)算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据 的有效性;两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异;如果两组数据验证后存在显著性差异,则需要调整with函数中线性拟合/线性规划模型数量以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630375.1A CN111768045A (zh) | 2020-07-03 | 2020-07-03 | 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010630375.1A CN111768045A (zh) | 2020-07-03 | 2020-07-03 | 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111768045A true CN111768045A (zh) | 2020-10-13 |
Family
ID=72723556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010630375.1A Withdrawn CN111768045A (zh) | 2020-07-03 | 2020-07-03 | 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768045A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705920A (zh) * | 2021-09-02 | 2021-11-26 | 国网河北省电力有限公司电力科学研究院 | 火电厂用水数据样本集的生成方法和终端设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964998A (zh) * | 2009-07-24 | 2011-02-02 | 北京亿阳信通软件研究院有限公司 | 一种电信网络普通节日话务量的预测方法及其装置 |
US20130036082A1 (en) * | 2011-08-05 | 2013-02-07 | International Business Machines Corporation | Multiple imputation of missing data in multi-dimensional retail sales data sets via tensor factorization |
CN107577649A (zh) * | 2017-09-26 | 2018-01-12 | 广州供电局有限公司 | 缺失数据的插补处理方法及装置 |
CN108873401A (zh) * | 2018-06-22 | 2018-11-23 | 西安电子科技大学 | 基于大数据的液晶显示器响应时间预测方法 |
CN110580542A (zh) * | 2019-07-31 | 2019-12-17 | 中国电力科学研究院有限公司 | 一种用电量预测方法和装置 |
CN111160750A (zh) * | 2019-12-23 | 2020-05-15 | 东南大学 | 一种基于关联规则挖掘的配网分析和投资决策方法 |
-
2020
- 2020-07-03 CN CN202010630375.1A patent/CN111768045A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964998A (zh) * | 2009-07-24 | 2011-02-02 | 北京亿阳信通软件研究院有限公司 | 一种电信网络普通节日话务量的预测方法及其装置 |
US20130036082A1 (en) * | 2011-08-05 | 2013-02-07 | International Business Machines Corporation | Multiple imputation of missing data in multi-dimensional retail sales data sets via tensor factorization |
CN107577649A (zh) * | 2017-09-26 | 2018-01-12 | 广州供电局有限公司 | 缺失数据的插补处理方法及装置 |
CN108873401A (zh) * | 2018-06-22 | 2018-11-23 | 西安电子科技大学 | 基于大数据的液晶显示器响应时间预测方法 |
CN110580542A (zh) * | 2019-07-31 | 2019-12-17 | 中国电力科学研究院有限公司 | 一种用电量预测方法和装置 |
CN111160750A (zh) * | 2019-12-23 | 2020-05-15 | 东南大学 | 一种基于关联规则挖掘的配网分析和投资决策方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705920A (zh) * | 2021-09-02 | 2021-11-26 | 国网河北省电力有限公司电力科学研究院 | 火电厂用水数据样本集的生成方法和终端设备 |
CN113705920B (zh) * | 2021-09-02 | 2024-06-07 | 国网河北省电力有限公司电力科学研究院 | 火电厂用水数据样本集的生成方法和终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Big data analytics in China's electric power industry: modern information, communication technologies, and millions of smart meters | |
CN105740975A (zh) | 一种基于数据关联关系的设备缺陷评估与预测方法 | |
CN103514571B (zh) | 一种基于负荷曲线分解的商业居民负荷类型负荷建模方法 | |
CN112287504A (zh) | 一种配电网离线/在线一体化仿真系统和方法 | |
CN103268526B (zh) | 基于区间泰勒模型的电力系统短期负荷预测系统及方法 | |
CN114819374B (zh) | 区域新能源超短期功率预测方法及系统 | |
Zhang et al. | Data-aided offline and online screening for security constraint | |
CN116523140A (zh) | 窃电检测方法、装置、电子设备和存储介质 | |
CN115166625A (zh) | 智能电表误差估计方法及装置 | |
CN111768045A (zh) | 一种居民用电管理中应用多重插补补充居民用电缺失数据的方法 | |
CN117952598A (zh) | 一种基于故障率近似的能源系统安全性评估分析方法及装置 | |
CN116502771B (zh) | 一种基于电力物资预测的配电方法及系统 | |
CN111667123A (zh) | 一种电力负荷预测中应用多重插补补充缺失值的方法 | |
CN117313372A (zh) | 配网数字孪生体优化方法、装置、电子设备及存储介质 | |
CN110222879B (zh) | 一种考虑置信区间的系统-母线负荷预测协调方法及装置 | |
CN111667117A (zh) | 一种电力负荷预测中应用贝叶斯估计补充缺失值的方法 | |
CN116976927A (zh) | 一种基于深度学习的短期电价预测方法、系统、计算机及存储介质 | |
CN116305741A (zh) | 一种用于电力设备数字孪生模型的更新方法及装置 | |
CN114418237A (zh) | 配网供电安全能力评价标准量化方法、系统、设备及介质 | |
Jin et al. | Day-ahead load probabilistic forecasting based on space-time correction | |
Nguyen et al. | Probabilistic risk-based security assessment for power systems with wind power generation | |
CN111222673A (zh) | 一种电量交易计划中断面越限定位方法和系统 | |
CN113723775B (zh) | 一种基于电力大数据的企业及行业运营风险的评估方法 | |
Indralaksono et al. | Hierarchical Clustering and Deep Learning for Short-Term Load Forecasting with Influenced Factors | |
CN111966676A (zh) | 一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201013 |
|
WW01 | Invention patent application withdrawn after publication |