CN111768034A - 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法 - Google Patents

一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法 Download PDF

Info

Publication number
CN111768034A
CN111768034A CN202010601219.2A CN202010601219A CN111768034A CN 111768034 A CN111768034 A CN 111768034A CN 202010601219 A CN202010601219 A CN 202010601219A CN 111768034 A CN111768034 A CN 111768034A
Authority
CN
China
Prior art keywords
data
value
power load
prediction
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010601219.2A
Other languages
English (en)
Inventor
顾一峰
周浩
胡炳谦
韩俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ieslab Energy Technology Co ltd
Original Assignee
Shanghai Ieslab Energy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ieslab Energy Technology Co ltd filed Critical Shanghai Ieslab Energy Technology Co ltd
Priority to CN202010601219.2A priority Critical patent/CN111768034A/zh
Publication of CN111768034A publication Critical patent/CN111768034A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

在电网商业化运营改革中,准确的电力负荷预测数据在经济上以及运营中都有很重要的用途。在电力负荷预测中,准确的历史负荷数据是进行预测计算,模拟的重要基础。要准确高效的运行电力负荷数据预测模型,历史负荷数据的数据质量尤为关键。本发明公开了一种对历史电力负荷数据中的缺失值应用KNN插补方法补充缺失数据的方法,可以有效填补历史电力负荷数据中由于各种原因造成的确失数据和异常剔除数据的目的,切实的提高运用于电力负荷预测模型中的数据质量,进而提高电力负荷预测效果,对电网运营管理以及决策等方面提供有力的支持。

Description

一种电力负荷预测中基于近邻算法进行插补补充缺失值的 方法
技术领域
本发明涉及电力负荷预测技术领域,具体涉及一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法。
背景技术
在电力系统运营中,准确预测未来电力负荷是保证电力系统安全和实现电网科学管理及调度的重要基础, 也是电力能源管理系统的核心组成部分。电力负荷预测通常是利用一系列数学方法或模型, 找到历史数据之间特有的联系,进而确定未来某特定时刻或某些特定时刻的电力负荷数值。所以,准确有效的电力历史负荷数据在电力负荷预测中十分关键,不仅在电力预测数据分析,也在预测模型中起到重要作用。在实际运营中,由于用电实践情况的不规律性,不符合电力预测对象普遍用电规律或者监测值背离实际的情况经常会出现。当这些异常的数值被纳入到电力负荷预测模型或者数学分析中这类异常的数值将会大大的降低电力负荷预测的精度以及模拟效果,进而降低电力负荷预测结果的准确性。当这些异常情况出现时,就需要人为介入,通过相应的数学统计的方式分析及提出这些异常值,再加上运行过程中的缺失值,就会造成历史电力负荷数据的不完整性。如今,如何通过合理有效的方法补充这些电力历史负荷数据中被剔除的的异常值以及缺失值以保证电力负荷预测模型所使用的电力负荷历史数据的完整性已经成为电力负荷 预测模型研究中的一个重要方面。本发明提出了一种对历史电力负荷数据中的缺失值应用KNN插补方法补充缺失数据的方法。
发明内容
本发明提出了一种对电力负荷数据缺失值或者异常剔除数据进行补充,复原的方法, 其特点在于应用了KNN插值补充的方法,包含了缺失值识别和KNN插值补充和填补缺失值验证三大功能模块。
原始历史电力负荷数据集需要先进行缺失值识别,数据集按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。经过识别标记后的原始数据集将被输入到下一步KNN模型进行插值补充计算。
KNN (k-nearst neighbors,K近邻算法法)是一种很有效的机器学习方法。它的基本思想是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。在进行插值补充时,模型根据设定的距离度量选择出缺失值发生位置的k个“邻居”,这一个分类的K个邻居的均值就被用于插补缺失数据。这个方法要求模型选择k的值(最近邻居的数量),以及距离度量。在本发明中,KNN模型的训练集为输入的带有缺失数据值的历史电力负荷数据,模型运算的目标为通过KNN算法针对缺失值的位置找到他的K个邻居并且计算其均值。本发明所述K值选择为通过训练集的反馈实时调整的数值。本发明所述的距离度量方式包括欧氏距离,曼哈顿距离以及余弦距离。原始数据集经过KNN计算后,对相应缺失值进行补充后的数据集需要进行下一步的数据有效性分析。
填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整KNN插值补充模型中的K值的选择,或者改变距离度量的方式,或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著性差异,整体数据集可以保持一定的有效性。
实际收集到的电力负荷历史数据经过上述模块的处理,可以达到补充数据集完整性的效果,提高了原始数据的有效性。将进行过填充处理后的电力负荷历史数据用于电力负荷预测模型将大大的提高电力负荷预测的可靠度与准确性。
附图说明:
图1是本发明实施例中历史负荷数据缺失值进行补充的方法的处理流程示意图。
具体实施方式
为使得本发明的内容、目的、特征及优点能够更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护说明书的范围。
如图1所示,针对本发明提出的应用了KNN插值补充电力负荷缺失值的方法 ,具体分为以下步骤。
步骤一、数据预处理:对采集到的原始历史电力负荷历史数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。
步骤二、KNN算法插值补充数据:经过处理的数据集将会在时间序列上有标记,即在某些时间段没有相对应的历史数据,对于这些缺省值,将使用KNN插值补充的方法进行数据补充,以保证电力负荷历史数据在时间序列上的连贯性。KNN算法是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。在本发明中,主要将KNN算法用于回归计算,以补充时间序列中的缺失值,即最近的K个样本的样本输出的平均值作为回归预测值。具体计算方式如下:
1.确定K值。在填充历史电力负荷数据的具体实施过程中,对于k值的选择,没有一个固定的树脂,一般根据样本的分布,选择一个较小的值,之后可以通过交叉验证选择一个合适的k值。选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,但是泛化误差会增大,K值的减小就意味着整体模型变得复杂,容易发生过拟合。选择较大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但缺点是训练误差会增大。与输入实例较远的(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。在本发明具体实施过程中,一般最小K值选为24(日小时数),最大K值为整体数据集数量的平方根;
2.确定距离计算度量。本发明中,距离度量方式通常使用欧式距离,即:
Figure 72273DEST_PATH_IMAGE001
x,y 为数据点在n维向量上的表示点;
当步骤三数据有效性验证不通过时,也可以使用曼哈顿距离:
Figure 32751DEST_PATH_IMAGE002
或者闵科夫斯基距离:
Figure 175150DEST_PATH_IMAGE003
计算点之间距离;
3.计算预测样本和所有训练集中的样本的距离,通过距离分类,找到与缺失值距离最近的K个距离,计算这些值的平均电力负荷数据进行缺失填充。在具体实施过程中,可以通过计算机蛮力计算所有样本距离,或者通过其他算法如KD树,球树等进行快速运算;
4.按时间序列分步重复以上三过程,填补缺失值至原始数据集。
步骤三、数据有效性验证:原始电力负荷历史数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据 的有效性。两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整k的值(最近邻居的数量)或者改变距离度量方式,改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
本发明提出了一种应用KNN算法模型的方法补充电力负荷预测的历史数据中由于各种原因剔除值或者缺失值的方法,其特点为在电力负荷预测数据处理中引入KNN算法补充缺失值并且比对前后数据集的有效性验证来调整KNN的K值选择和距离度量方式,使得用于电力负荷预测的历史负荷数据更加完整,显著提高了电力负荷模型的预测效果。

Claims (1)

1.本发明一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法其特征在于,包括:
步骤一、数据预处理:对采集到的原始历史电力负荷历史数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;
步骤二、KNN算法插值补充数据:经过处理的数据集将会在时间序列上有标记,即在某些时间段没有相对应的历史数据,对于这些缺省值,将使用KNN插值补充的方法进行数据补充,以保证电力负荷历史数据在时间序列上的连贯性,KNN算法是一个在尺度空间中寻找最近点的优化问题,问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点,在本发明中,主要将KNN算法用于回归计算,以补充时间序列中的缺失值,即最近的K个样本的样本输出的平均值作为回归预测值,具体计算方式如下:
1)确定K值,在填充历史电力负荷数据的具体实施过程中,对于k值的选择,没有一个固定的树脂,一般根据样本的分布,选择一个较小的值,之后可以通过交叉验证选择一个合适的k值;选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,但是泛化误差会增大,K值的减小就意味着整体模型变得复杂,容易发生过拟合;选择较大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但缺点是训练误差会增大;
与输入实例较远的(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单;在本发明具体实施过程中,一般最小K值选为24(日小时数),最大K值为整体数据集数量的平方根;
2)确定距离计算度量;
本发明中,距离度量方式通常使用欧式距离,即:
Figure 68516DEST_PATH_IMAGE001
x,y 为数据点在n维向量上的表示点;
当步骤三数据有效性验证不通过时,也可以使用曼哈顿距离:
Figure 553330DEST_PATH_IMAGE002
或者闵科夫斯基距离:
Figure 545557DEST_PATH_IMAGE003
计算点之间距离;
3)计算预测样本和所有训练集中的样本的距离,通过距离分类,找到与缺失值距离最近的K个距离,计算这些值的平均电力负荷数据进行缺失填充;
在具体实施过程中,可以通过计算机蛮力计算所有样本距离,或者通过其他算法如KD树,球树等进行快速运算;
4)按时间序列分步重复以上三过程,填补缺失值至原始数据集;
步骤三、数据有效性验证:原始电力负荷历史数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据的有效性;
两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异;如果两组数据验证后存在显著性差异,则需要调整k的值(最近邻居的数量)或者改变距离度量方式,改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
CN202010601219.2A 2020-06-29 2020-06-29 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法 Pending CN111768034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601219.2A CN111768034A (zh) 2020-06-29 2020-06-29 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601219.2A CN111768034A (zh) 2020-06-29 2020-06-29 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法

Publications (1)

Publication Number Publication Date
CN111768034A true CN111768034A (zh) 2020-10-13

Family

ID=72722851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601219.2A Pending CN111768034A (zh) 2020-06-29 2020-06-29 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法

Country Status (1)

Country Link
CN (1) CN111768034A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112320963A (zh) * 2020-10-28 2021-02-05 武汉智悦水生态科技有限责任公司 一种基于大数据的鱼草平衡水质环保处理方法
CN112417764A (zh) * 2020-12-01 2021-02-26 江苏省特种设备安全监督检验研究院 一种面向锅炉特种设备蒸汽量预测的k近邻回归预测方法
CN113065574A (zh) * 2021-02-24 2021-07-02 同济大学 一种半导体制造系统数据预处理方法及装置
CN116205355A (zh) * 2023-02-22 2023-06-02 正泰电气股份有限公司 电力负荷的预测方法、装置以及存储介质
CN117878929A (zh) * 2024-03-12 2024-04-12 山东德源电力科技股份有限公司 基于多源数据融合的负荷控制终端预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN108320063A (zh) * 2018-03-26 2018-07-24 上海积成能源科技有限公司 一种电力负荷预测中对异常数据剔除和去噪处理的方法
CN108734355A (zh) * 2018-05-24 2018-11-02 国网福建省电力有限公司 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN108320063A (zh) * 2018-03-26 2018-07-24 上海积成能源科技有限公司 一种电力负荷预测中对异常数据剔除和去噪处理的方法
CN108734355A (zh) * 2018-05-24 2018-11-02 国网福建省电力有限公司 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112320963A (zh) * 2020-10-28 2021-02-05 武汉智悦水生态科技有限责任公司 一种基于大数据的鱼草平衡水质环保处理方法
CN112417764A (zh) * 2020-12-01 2021-02-26 江苏省特种设备安全监督检验研究院 一种面向锅炉特种设备蒸汽量预测的k近邻回归预测方法
CN113065574A (zh) * 2021-02-24 2021-07-02 同济大学 一种半导体制造系统数据预处理方法及装置
CN116205355A (zh) * 2023-02-22 2023-06-02 正泰电气股份有限公司 电力负荷的预测方法、装置以及存储介质
CN116205355B (zh) * 2023-02-22 2023-12-01 正泰电气股份有限公司 电力负荷的预测方法、装置以及存储介质
CN117878929A (zh) * 2024-03-12 2024-04-12 山东德源电力科技股份有限公司 基于多源数据融合的负荷控制终端预测方法
CN117878929B (zh) * 2024-03-12 2024-06-11 山东德源电力科技股份有限公司 基于多源数据融合的负荷控制终端预测方法

Similar Documents

Publication Publication Date Title
CN111768034A (zh) 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法
Venzke et al. Learning optimal power flow: Worst-case guarantees for neural networks
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
CN110826789B (zh) 基于电力系统的电力负荷预测方法、装置及终端设备
CN116031888B (zh) 基于动态负荷预测的潮流优化方法、系统及存储介质
CN113805548A (zh) 一种机械加工智能控制系统、方法及计算机可读介质
CN116306798A (zh) 一种超短时风速预测方法及系统
CN113741362A (zh) 液化天然气接收站操作优化方法、系统、介质及计算设备
CN112529053A (zh) 一种服务器中时序数据短期预测方法及系统
CN117235096A (zh) Kpi数据的时序异常检测方法、装置、设备及介质
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN111080011A (zh) 负荷电量偏差预测方法及装置
CN116341770B (zh) 基于聚苯乙烯生产数据的生产能力预测方法及系统
JPWO2020148904A1 (ja) 異常検知装置、異常検知システム及び学習装置、並びに、これらの方法及びプログラム
Chen et al. Online unsupervised optimization framework for machine performance assessment based on distance metric learning
CN117438618A (zh) 氢燃料电池的性能预测方法、系统、电子设备及存储介质
CN112380763A (zh) 一种基于数据挖掘的堆内构件可靠性分析系统及方法
CN111861798A (zh) 一种基于近邻算法的居民用电数据缺失值插补方法
CN117150237A (zh) 时序数据预测方法、装置、设备及计算机可读存储介质
CN116738169A (zh) 一种数据降维的计算机参数异常预测方法及系统
CN111091243A (zh) 基于pca-gm的电力负荷预测方法、系统、计算机可读存储介质和计算设备
CN111026624A (zh) 电网信息系统的故障预测方法、装置
CN116079498A (zh) 一种刀具异常信号的识别方法
Gong et al. Short-term electricity price forecasting based on novel SVM using artificial fish swarm algorithm under deregulated power
CN111222550B (zh) 一种用户用电行为确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201013

WD01 Invention patent application deemed withdrawn after publication