CN111861798A - 一种基于近邻算法的居民用电数据缺失值插补方法 - Google Patents

一种基于近邻算法的居民用电数据缺失值插补方法 Download PDF

Info

Publication number
CN111861798A
CN111861798A CN202010786988.4A CN202010786988A CN111861798A CN 111861798 A CN111861798 A CN 111861798A CN 202010786988 A CN202010786988 A CN 202010786988A CN 111861798 A CN111861798 A CN 111861798A
Authority
CN
China
Prior art keywords
data
value
residential electricity
knn
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010786988.4A
Other languages
English (en)
Inventor
周浩
顾一峰
胡炳谦
韩俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ieslab Energy Technology Co ltd
Original Assignee
Shanghai Ieslab Energy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ieslab Energy Technology Co ltd filed Critical Shanghai Ieslab Energy Technology Co ltd
Priority to CN202010786988.4A priority Critical patent/CN111861798A/zh
Publication of CN111861798A publication Critical patent/CN111861798A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Water Supply & Treatment (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在居民用电安全管中,准确的居民用电数据在数据挖掘着中有很重要的用途,是通过线性回归、灰色预测等算法搭建数据挖掘模型,实现居民用电消费分析和居民用电安全管理的首要基础。本发明公开了一种基于KNN(k‑nearst neighbors,K近邻算法法)的对居民用电数据补充缺失数据的方法,可以有效填补居民用电数据中由于各种原因造成的缺失数据,达到提高数据挖掘应用模型中的数据质量的目的,并且为城市管理者提供更好的决策的数据依据。

Description

一种基于近邻算法的居民用电数据缺失值插补方法
技术领域
本发明涉及电力负荷预测技术领域,具体涉及一种基于KNN (k-nearstneighbors,K近邻算法法) 的对居民用电数据补充缺失数据的方法。
背景技术
近年来,社区中群租,居民用电工业化应用的情况层出不穷,居民用电的管理对于城市管理者来言是新的挑战。在大数据,智能化管理中,通过对居民用电数据的深度分析,进行居民用电画像,习惯分析的居民用电安全分析可以为城市管理者在异常发生的第一时间发现此类违规的情况。居民用电安全分析旨在通过对大量的居民用电负荷数据,通过智能电表等终端设备采集,进而进行异常值监测,聚类分析,时间序列等方法得出不同居民的用电习惯,发现用电异常情况。但是在实际应用中,由于实践中的种种情况,居民用电数据的收集有很多的困难,会造成用电数据的不完整性。针对这些缺失值,需要通过合理有效的方法来以保证数据的完整性,为之后的综合应用数据提供高质量的 原数据。本发明提出了一种基于近邻算法的居民用电数据缺失值插补方法。
发明内容
本发明提出了一种对居民数据缺失值进行补充,复原的方法, 其特点在于应用了KNN插值补充的方法,包含了缺失值识别和KNN插值补充和填补缺失值验证三大功能模块。
原始居民用电数据集需要先进行缺失值识别,数据集按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。经过识别标记后的原始数据集将被输入到下一步KNN模型进行插值补充计算。
KNN (k-nearst neighbors,K近邻算法法)是一种很有效的机器学习方法。它的基本思想是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类。在进行插值补充时,模型根据设定的距离度量选择出缺失值发生位置的k个“邻居”,这一个分类的K个邻居的均值就被用于插补缺失数据。这个方法要求模型选择k的值(最近邻居的数量),以及距离度量。在本发明中,KNN模型的训练集为输入的带有缺失数据值的历史电力负荷数据,模型运算的目标为通过KNN算法针对缺失值的位置找到他的K个邻居并且计算其均值。本发明所述K值选择为通过训练集的反馈实时调整的数值。本发明所述的距离度量方式包括欧氏距离,曼哈顿距离以及余弦距离。原始数据集经过KNN计算后,对相应缺失值进行补充后的数据集需要进行下一步的数据有效性分析。
填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整KNN插值补充模型中的K值的选择,或者改变距离度量的方式,或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著性差异,整体数据集可以保持一定的有效性。
实际收集到的居民用电数据经过上述模块的处理,可以达到补充数据集完整性的效果,提高了原始数据的有效性。将进行过填充处理后的居民用电数据用于数据挖掘将大大的提高数学模型的可靠度与准确性。
附图说明
图1是本发明实施例中居民用电数据缺失值进行补充的方法的处理流程示意图。
具体实施方式
为使得本发明的内容、目的、特征及优点能够更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护说明书的范围。
如图1所示,针对本发明提出的应用了KNN插值补充居民用电数据缺失值的方法 ,具体分为以下步骤。
步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。
步骤二、KNN算法插值补充数据:经过处理的数据集将会在时间序列上有标记,即在某些时间段没有相对应的历史数据,对于这些缺省值,将使用KNN插值补充的方法进行数据补充,以保证居民用电数据在时间序列上的连贯性。KNN算法是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点。在本发明中,主要将KNN算法用于回归计算,以补充时间序列中的缺失值,即最近的K个样本的样本输出的平均值作为回归预测值。具体计算方式如下:
1)确定K值。在填充居民用电数据的具体实施过程中,对于k值的选择,没有一个固定的树脂,一般根据样本的分布,选择一个较小的值,之后可以通过交叉验证选择一个合适的k值。选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,但是泛化误差会增大,K值的减小就意味着整体模型变得复杂,容易发生过拟合。选择较大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但缺点是训练误差会增大。与输入实例较远的(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。在本发明具体实施过程中,一般最小K值选为24(日小时数),最大K值为整体数据集数量的平方根;
2)确定距离计算度量。本发明中,距离度量方式通常使用欧式距离,即:
Figure 518974DEST_PATH_IMAGE001
x,y 为数据点在n维向量上的表示点,
当步骤三数据有效性验证不通过时,也可以使用曼哈顿距离:
Figure 315023DEST_PATH_IMAGE002
或者闵科夫斯基距离:
Figure 848248DEST_PATH_IMAGE003
计算点之间距离;
3)计算预测样本和所有训练集中的样本的距离,通过距离分类,找到与缺失值距离最近的K个距离,计算这些值的平均电力负荷数据进行缺失填充。在具体实施过程中,可以通过计算机蛮力计算所有样本距离,或者通过其他算法如KD树,球树等进行快速运算;
4)按时间序列分步重复以上三过程,填补缺失值至原始数据集。
步骤三、数据有效性验证:原始居民用电数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据 的有效性。两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整k的值(最近邻居的数量)或者改变距离度量方式,改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
本发明提出了一种应用KNN算法模型的方法补充居民用电数据中由于各种原因的缺失值的方法,其特点为在居民用电数据处理中引入KNN算法补充缺失值并且比对前后数据集的有效性验证来调整KNN的K值选择和距离度量方式,使得居民用电数据更加完整,显著提高了居民用电数据质量,为之后数据挖掘应用提供高质量的原数据。

Claims (2)

1.本发明一种基于近邻算法的居民用电数据缺失值插补方法其特征在于,包括:
步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;
步骤二、KNN算法插值补充数据:经过处理的数据集将会在时间序列上有标记,即在某些时间段没有相对应的历史数据,对于这些缺省值,将使用KNN插值补充的方法进行数据补充,以保证居民用电数据在时间序列上的连贯性;KNN算法是一个在尺度空间中寻找最近点的优化问题;问题描述如下:在尺度空间M中给定一个点集S和一个目标点q ∈ M,在S中找到距离q最近的点;在本发明中,主要将KNN算法用于回归计算,以补充时间序列中的缺失值,即最近的K个样本的样本输出的平均值作为回归预测值;具体计算方式如下:
1)确定K值;在填充居民用电数据的具体实施过程中,对于k值的选择,没有一个固定的树脂,一般根据样本的分布,选择一个较小的值,之后可以通过交叉验证选择一个合适的k值;选择较小的k值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,但是泛化误差会增大,K值的减小就意味着整体模型变得复杂,容易发生过拟合;选择较大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但缺点是训练误差会增大;与输入实例较远的(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单;在本发明具体实施过程中,一般最小K值选为24(日小时数),最大K值为整体数据集数量的平方根;
2)确定距离计算度量;本发明中,距离度量方式通常使用欧式距离,即:
Figure 758816DEST_PATH_IMAGE001
x,y 为数据点在n维向量上的表示点,
当步骤三数据有效性验证不通过时,也可以使用曼哈顿距离:
Figure 551323DEST_PATH_IMAGE002
或者闵科夫斯基距离:
Figure 206426DEST_PATH_IMAGE003
计算点之间距离;
3)计算预测样本和所有训练集中的样本的距离,通过距离分类,找到与缺失值距离最近的K个距离,计算这些值的平均电力负荷数据进行缺失填充;在具体实施过程中,可以通过计算机蛮力计算所有样本距离,或者通过其他算法如KD树,球树等进行快速运算;
4)按时间序列分步重复以上三过程,填补缺失值至原始数据集;
步骤三、数据有效性验证:原始居民用电数据集与经过KNN算法补充的数据集需要进行数据有效性统计差异性的检查以保证数据 的有效性;两组数据将进行单因素方差分析(one way-ANOVA),计算两组数据间显著性差异 值,需要保证两组数据间没有显著性差异;如果两组数据验证后存在显著性差异,则需要调整k的值(最近邻居的数量)或者改变距离度量方式,改善补充值的运算方式以及改变填充处理的维度以确保处理后的数据与原始数据不存在显著性差异,使处理后的数据保持准确性和有效性。
2.本发明提出了一种应用KNN算法模型的方法补充居民用电数据中由于各种原因的缺失值的方法,其特点为在居民用电数据处理中引入KNN算法补充缺失值并且比对前后数据集的有效性验证来调整KNN的K值选择和距离度量方式,使得居民用电数据更加完整,显著提高了居民用电数据质量,为之后数据挖掘应用提供高质量的原数据。
CN202010786988.4A 2020-08-07 2020-08-07 一种基于近邻算法的居民用电数据缺失值插补方法 Pending CN111861798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010786988.4A CN111861798A (zh) 2020-08-07 2020-08-07 一种基于近邻算法的居民用电数据缺失值插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010786988.4A CN111861798A (zh) 2020-08-07 2020-08-07 一种基于近邻算法的居民用电数据缺失值插补方法

Publications (1)

Publication Number Publication Date
CN111861798A true CN111861798A (zh) 2020-10-30

Family

ID=72972116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010786988.4A Pending CN111861798A (zh) 2020-08-07 2020-08-07 一种基于近邻算法的居民用电数据缺失值插补方法

Country Status (1)

Country Link
CN (1) CN111861798A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372666A (zh) * 2021-12-03 2022-04-19 金保数科(北京)技术有限公司 一种评估最大需量超标风险的测算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108320063A (zh) * 2018-03-26 2018-07-24 上海积成能源科技有限公司 一种电力负荷预测中对异常数据剔除和去噪处理的方法
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096324A (zh) * 2016-08-26 2016-11-09 清华大学 基于k近邻回归的输变电主设备负荷数据缺失填补算法
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108320063A (zh) * 2018-03-26 2018-07-24 上海积成能源科技有限公司 一种电力负荷预测中对异常数据剔除和去噪处理的方法
US20190378022A1 (en) * 2018-06-11 2019-12-12 Oracle International Corporation Missing value imputation technique to facilitate prognostic analysis of time-series sensor data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372666A (zh) * 2021-12-03 2022-04-19 金保数科(北京)技术有限公司 一种评估最大需量超标风险的测算方法

Similar Documents

Publication Publication Date Title
CN111768034A (zh) 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法
CN109670549B (zh) 火电机组的数据筛选方法、装置以及计算机设备
CN112911627B (zh) 无线网络性能检测方法、装置以及存储介质
CN113568819A (zh) 异常数据检测方法、装置、计算机可读介质及电子设备
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN114297036A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN115878603A (zh) 基于k近邻算法与gan网络的水质缺失数据插补算法
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN112241606A (zh) 基于cps决策模块的船舶智能设备运维的协同决策方法
CN112529053A (zh) 一种服务器中时序数据短期预测方法及系统
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
CN115827577A (zh) 智能电表高频数据压缩与重构的云端协同自适应分治方法
CN118017502A (zh) 基于数字孪生的配电算力预测方法、系统及介质
CN106375156A (zh) 电力网络流量异常检测方法及装置
CN111861798A (zh) 一种基于近邻算法的居民用电数据缺失值插补方法
CN118003961B (zh) 智能充电桩集群控制系统及方法
CN111623905B (zh) 风电机组轴承温度预警方法及装置
CN117591860A (zh) 一种数据异常检测方法及装置
CN112508278A (zh) 一种基于证据回归多模型的多联供系统负荷预测方法
CN108123436B (zh) 基于主成分分析和多元回归算法的电压越限预测模型
CN113835964B (zh) 基于小样本学习的云数据中心服务器能耗预测方法
JP7458183B2 (ja) エネルギー需要変動パターンの分類方法及びシステム
CN115935285A (zh) 基于掩码图神经网络模型的多元时间序列异常检测方法和系统
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN113111948A (zh) 一种基于特征重校准机制的时序数据分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201030