CN110991866B - 一种基于机器学习的台区数据缺失值补全方法和装置 - Google Patents

一种基于机器学习的台区数据缺失值补全方法和装置 Download PDF

Info

Publication number
CN110991866B
CN110991866B CN201911202211.2A CN201911202211A CN110991866B CN 110991866 B CN110991866 B CN 110991866B CN 201911202211 A CN201911202211 A CN 201911202211A CN 110991866 B CN110991866 B CN 110991866B
Authority
CN
China
Prior art keywords
data
index
sequence
original
data sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911202211.2A
Other languages
English (en)
Other versions
CN110991866A (zh
Inventor
吴伟将
周玉
杨世海
陆婋泉
林鹤
崔高颖
易永仙
夏倩倩
李欣然
孙国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hohai University HHU
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hohai University HHU
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Hohai University HHU, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd, Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911202211.2A priority Critical patent/CN110991866B/zh
Publication of CN110991866A publication Critical patent/CN110991866A/zh
Application granted granted Critical
Publication of CN110991866B publication Critical patent/CN110991866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种台区数据缺失值补全方法和装置,方法包括:获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列。本发明考虑对线损率影响程度大的数据因子,利用机器学习技术对相关的数据缺失值进行补全,可为线损率的计算和线损管理提供可靠数据支撑。

Description

一种基于机器学习的台区数据缺失值补全方法和装置
技术领域
本发明涉及用电信息采集及分析技术领域,特别是一种基于机器学习的台区数据缺失值补全方法和装置。
背景技术
随着科学技术的不断进步和国民经济的不断发展,我国电力工业体制逐步向电力市场转换,电能作为商品走入市场,已成为一种重要能源得到广泛的应用。电能具有宜于大量生产、集中管理、远距离输送、自动控制、有利环保、易于转换成为其它形式的能量等优点。作为清洁能源,电能被广为利用于国民经济和人民的生活的各个方面。
电能通过输电、变电和配电的各个环节供给用户,在电能的输送和分配过程中,电力网络都要产生一定数量的电能损耗,简称线损。电力系统为社会提供着清洁方便的能源,同时它在转换、输送、分配过程中的消耗也是巨大的。随着近年来机器学习和数据挖掘等技术的发展,结合智能用电大数据的电力系统台区线损管理的应用逐渐成为行业研究热点和发展方向。大数据具有海量性、多样性和快速性,基于数据驱动的方法对多元信息的处理更具有直接性和有效性。它以用电信息采集系统的数据为基底,利用各种数据挖掘技术获得其中隐含的有用信息,从而降低线损,保证电网安全稳定运行,是目前非常实用的技术。
在实用的数据库中,数据值缺失的情况是不可避免的。造成数据缺失的原因是多方面的,主要有以下几种:一,有些信息被遗漏,可能是因为输入时认为不重要,忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、一些人为因素等原因而丢失了;二,有些信息暂时无法获取,例如在申请表数据中,对某些问题的反映依赖于其他问题;三,有些对象的某个或某些属性是不可用的即对这个对象来说,该属性是不存在的,等等。对于数据挖掘来说,缺失值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;其次,系统中所表现出的不确定性更加显著;并且,包含缺失值的数据使挖掘过程陷入混乱,导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,数据的缺失值需要通过专门的方法进行推导、补全等,以减少数据挖掘算法与实际应用间的差距。
发明内容
本发明的目的是提供一种基于机器学习的台区数据缺失值补全方法和装置,考虑对线损率影响程度大的数据因子,利用机器学习技术对相关的数据缺失值进行补全,为线损管理提供可靠数据支撑。
本发明采用的技术方案如下:
一方面,本发明提供一种台区数据缺失值补全方法,包括:
获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列。
本发明所述缺失值补全模型可采用支持向量机或其他神经网络构建。
可选的,所述预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型。
k可根据数据指标类型的总数进行调整,如选择为数据指标类型总数的二分之一。
利用本发明的方法,可实现对单个不连续数据或者多个连续数据的补齐。也即缺失值补全模型在训练时,通过机器学习实现对数据本身与时间之间关联关系的学习,这些关联关系也是由数据相关的设备特性所决定的。
可选的,所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到:
Figure BDA0002296144730000021
式中,x1,x2,…xn;y1,y2,…yn分别为X、Y两个随机变量的样本数据序列,n为序列中的数据样本个数,
Figure BDA0002296144730000031
分别表示X、Y的样本均值。
可选的,所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。
进一步的,缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新原训练样本集,对当前SVM缺失值补全模型继续训练,直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。
可选的,补全后数据序列与原测试样本数据序列之间的误差为平均绝对百分比误差 MAPE:
Figure BDA0002296144730000032
n为测试样本中数据样本的个数,yi和
Figure BDA0002296144730000033
分别为原样本数据和补入的数据。
可选的,补全后数据序列与原测试样本数据序列之间的误差为均方根误差RMSE:
Figure BDA0002296144730000041
式中,n为测试样本中数据样本的个数,yi和
Figure BDA0002296144730000042
分别为原样本数据和补入的数据。
以上误差的阈值可根据需要设置或调整,日将MAPE阈值设置为15%,RMSE阈值设置为0.1。当然也可以同时引入MAPE和RMSE进行模型的验证,当同时满足两误差阈值时,即可停止对模型的继续训练。
另一方面,本发明还提供一种台区数据缺失值补全装置,包括:
原始数据获取模块,用于获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
需补齐数据筛选模块,用于按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
以及缺失值补全模块,用于针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列。
可选的,所述预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型。
可选的,所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。
有益效果
本发明通过预先基于台区历史数据利用机器学习算法构建缺失值补全模型,并根据数据指标与线损率的相关度大小确定需要补齐的数据指标类型,使得实际应用中面临台区数据缺失时,能够通过与数据指标类型相应的机器学习缺失值补全模型进行数据指标在时间维度上的补齐,从而确保对线损率影响较大的数据序列的完整性,进而可为线路率的计算和相关管理提供可靠的数据基础。
附图说明
图1所示为本发明方法的一种实施例流程示意图;
图2所示为本发明一种应用例中台区1的负载率补全曲线;
图3所示为与图2同一应用例中台区2的负载率补全曲线。
具体实施方式
以下结合附图和具体实施例进一步描述。
实施例1
本实施例为一种台区数据缺失值补全方法,参考图1,方法包括:
获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列。
本发明所述缺失值补全模型可采用支持向量机或其他神经网络构建。
预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型。
k可根据数据指标类型的总数进行调整,如选择为数据指标类型总数的二分之一。
利用本发明的方法,可实现对单个不连续数据或者多个连续数据的补齐。也即缺失值补全模型在训练时,通过机器学习实现对数据本身与时间之间关联关系的学习,这些关联关系也是由数据相关的设备特性所决定的。
所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到:
Figure BDA0002296144730000061
式中,x1,x2,…xn;y1,y2,…yn分别为X、Y两个随机变量的样本数据序列,n为序列中的数据样本个数,
Figure BDA0002296144730000062
分别表示X、Y的样本均值。
所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。
缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新原训练样本集,对当前SVM缺失值补全模型继续训练,直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。
实施例1-1
参考图1至图3,本实施例基于具体应用例从需补全指标类型确定、模型构建和训练、模型验证以及方法应用几个方面分别进行描述。
一、需补全指标类型的确定
1.1、根据用电采集,营销系统中提取的历史台区数据,判断哪些数据指标类型可能会影响线损率,或者影响较大,需要进行缺失值补全,具体结果显示如下表1所示:
表1 可能需要进行缺失值补全的数据指标
Figure BDA0002296144730000071
1.2、针对表1中的各数据指标类型,分别基于历史数据(历史数据中线损率已知)进行线损率相关程度的比较,此处采用皮尔逊相关系数法,针对各数据指标类型分别计算其与线损率的相关程度:
Figure BDA0002296144730000072
式中,r为皮尔逊相关系数,n为样本个数,x1,x2,…xn;y1,y2,…yn为X,Y两个随机变量的样本数据,
Figure BDA0002296144730000073
分别表示X、Y的样本均值,X变量代表待判断的数据指标,Y代表线损率。
通过计算得到各数据指标对应的皮尔逊相关系数,如下表2:
表2 皮尔逊相关系数
Figure BDA0002296144730000074
Figure BDA0002296144730000081
1.3、此时可选取相关系数较大的一半数量的(即总指标类型个数的前50%)数据指标,作为需补全的数据指标类型,即表3:
表3 相关程度大的数据指标
Figure BDA0002296144730000082
二、模型的构建和训练
本实施例采用支持向量机SVM模型,首先在Python中建立SVM回归补全模型,针对各数据指标类型的每个模型样本训练初步测试为100个。
针对任一需要补全的数据指标类型进行模型训练时,首先从历史台区数据中选取多组时间连续的数据样本序列,或者关联有时间信息的数据样本序列(不要求时间连续)。每个序列作为一个训练样本,对SVM回归补全模型进行训练,得到对应数据指标类型的缺失值补全模型。
三、模型验证
在模型的构建过程中,以及模型的应用中,皆可引入误差指标对模型的可靠性进行衡量。
误差指标可为平均绝对百分比误差MAPE或均方根误差RMSE,或者两者同时引入。
如在模型的构建和训练过程中,当同时满足两误差阈值时,即可停止对模型的继续训练,如在模型的应用时,可通过缺省待补全的数据序列中的部分已知数据,与补全后的数据进行对比,若满足误差则模型可靠。
四、方法应用
以应用例台区1和台区2的数据为例介绍本发明:
首先获取全部当前台区数据,根据前述确定的与线损率相关度较大、需要补全的数据指标类型,选取各需补全数据指标的数据序列。
以相关程度较大的负载率为例,此前已经基于历史数据确定了负载率的缺失值补全模型。
假设根据当前获取的台区数据中的负载率数据,两个台区缺失的数据为2019年4月1日至2019年4月10日的数据。
利用已经构建的负载率SVM回归补全模型,将筛选出的负载率数据序列输入补全模型,得到模型输出即为补全后的数据序列。
实验验证中,假设两个台区缺失的数据为已知数据,为了验证模型可靠性而缺省,经模型补全后,两个台区负载率指标SVM回归补全值与实际值如表4与表5所示:
表4 #台区1的负载率
Figure BDA0002296144730000091
表5#台区2的负载率
Figure BDA0002296144730000092
通过模型验证方法计算误差率结果如表6:
表6 #两台区的误差
Figure BDA0002296144730000093
Figure BDA0002296144730000101
以上误差率的结果结合图1和图2,可以发现利用本发明方法的SVM回归补全值能基本和实际值相吻合,即模型能够满足缺失值补全的要求。
实施例2
本实施例为一种台区数据缺失值补全装置,包括:
原始数据获取模块,用于获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
需补齐数据筛选模块,用于按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
以及缺失值补全模块,用于针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列。
上述各模块的功能实现参考实施例1和实施例1-1中的方法内容。
本实施例根据数据指标与线损率的相关系数确定需补全指标类型,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型。
本实施例的缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。
缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新原训练样本集,对当前SVM缺失值补全模型继续训练,直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。
综上各实施例,本发明的方法和装置,通过预先基于台区历史数据利用机器学习算法构建缺失值补全模型,并根据数据指标与线损率的相关度大小确定需要补齐的数据指标类型,使得实际应用中面临台区数据缺失时,能够通过与数据指标类型相应的机器学习缺失值补全模型进行数据指标在时间维度上的补齐,从而确保对线损率影响较大的数据序列的完整性,进而可为线路率的计算和相关管理提供可靠的数据基础。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (5)

1.一种台区数据缺失值补全方法,其特征是,包括:
获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,输出得到相应数据指标补全后的数据序列;
其中,所述预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型;
所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型;
缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新原训练样本集,对当前SVM缺失值补全模型继续训练,直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。
2.根据权利要求1所述的台区数据缺失值补全方法,其特征是,所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到:
Figure FDA0003736168860000021
式中,x1,x2,…xn;y1,y2,…yn分别为X、Y两个随机变量的样本数据序列,n为序列中的数据样本个数,
Figure FDA0003736168860000022
分别表示X、Y的样本均值。
3.根据权利要求1所述的台区数据缺失值补全方法,其特征是,补全后数据序列与原测试样本数据序列之间的误差为平均绝对百分比误差MAPE:
Figure FDA0003736168860000023
n为测试样本中数据样本的个数,yi
Figure FDA0003736168860000024
分别为原样本数据和补入的数据。
4.根据权利要求1所述的台区数据缺失值补全方法,其特征是,补全后数据序列与原测试样本数据序列之间的误差为均方根误差RMSE:
Figure FDA0003736168860000025
式中,n为测试样本中数据样本的个数,yi
Figure FDA0003736168860000026
分别为原样本数据和补入的数据。
5.一种台区数据缺失值补全装置,其特征是,包括:
原始数据获取模块,用于获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
需补齐数据筛选模块,用于按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
以及缺失值补全模块,用于针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,得到缺失值补全模型的输出,即为相应数据指标补全后的数据序列;
其中,所述预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型;
所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型;
缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新原训练样本集,对当前SVM缺失值补全模型继续训练,直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。
CN201911202211.2A 2019-11-29 2019-11-29 一种基于机器学习的台区数据缺失值补全方法和装置 Active CN110991866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911202211.2A CN110991866B (zh) 2019-11-29 2019-11-29 一种基于机器学习的台区数据缺失值补全方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911202211.2A CN110991866B (zh) 2019-11-29 2019-11-29 一种基于机器学习的台区数据缺失值补全方法和装置

Publications (2)

Publication Number Publication Date
CN110991866A CN110991866A (zh) 2020-04-10
CN110991866B true CN110991866B (zh) 2022-09-06

Family

ID=70088366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911202211.2A Active CN110991866B (zh) 2019-11-29 2019-11-29 一种基于机器学习的台区数据缺失值补全方法和装置

Country Status (1)

Country Link
CN (1) CN110991866B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732694A (zh) * 2021-01-19 2021-04-30 国网上海市电力公司 一种用电时序数据的清洗方法
CN113360486B (zh) * 2021-05-28 2023-11-21 北京百度网讯科技有限公司 数据预测方法、装置、电子设备和介质
CN113344585A (zh) * 2021-06-22 2021-09-03 中国银行股份有限公司 反欺诈预测模型的训练方法及装置、存储介质及电子设备
CN113554105B (zh) * 2021-07-28 2023-04-18 桂林电子科技大学 一种基于时空融合的物联网缺失数据补全方法
CN113554106B (zh) * 2021-07-28 2022-03-18 桂林电子科技大学 一种面向电力缺失数据的协同补全方法
CN113872185A (zh) * 2021-09-06 2021-12-31 广西电网有限责任公司电力科学研究院 基于模仿学习的微电网控制策略推荐模型训练方法
CN114189313B (zh) * 2021-11-08 2023-11-24 广东电网有限责任公司广州供电局 一种电表数据重构方法及装置
CN118071176A (zh) * 2024-04-15 2024-05-24 国网浙江省电力有限公司金华供电公司 适用台区源网荷储一体化管理平台的数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
CN110348713A (zh) * 2019-06-28 2019-10-18 广东电网有限责任公司 一种基于关联性分析和数据挖掘的台区线损计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
CN110348713A (zh) * 2019-06-28 2019-10-18 广东电网有限责任公司 一种基于关联性分析和数据挖掘的台区线损计算方法

Also Published As

Publication number Publication date
CN110991866A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991866B (zh) 一种基于机器学习的台区数据缺失值补全方法和装置
Sun et al. Using Bayesian deep learning to capture uncertainty for residential net load forecasting
Liu et al. Key factors of project characteristics affecting project delivery system decision making in the Chinese construction industry: Case study using Chinese data based on rough set theory
CN112633604B (zh) 一种基于i-lstm的短期用电量预测方法
CN110910026B (zh) 一种跨省输电线路线损智能管理与决策方法及系统
CN109214426A (zh) 一种物体外观检测的方法及深度神经网络模型
CN109858798B (zh) 关联改造措施与电压指标的电网投资决策建模方法及装置
CN113822481A (zh) 基于多任务学习策略和深度学习的综合能源负荷预测方法
CN109461016A (zh) 数据评分方法、装置、计算机设备及存储介质
Kim et al. Extracting baseline electricity usage using gradient tree boosting
CN112528762B (zh) 一种基于数据关联分析的谐波源识别方法
CN111192158A (zh) 一种基于深度学习的变电站日负荷曲线相似度匹配方法
CN109378834A (zh) 基于信息最大相关的大规模电网电压稳定裕度评估系统
CN109190749A (zh) 一种用于智能电表寿命的预测方法及装置
Dos Santos et al. Preprocessing in fuzzy time series to improve the forecasting accuracy
Kalidindi et al. Indoor temperature prediction with context-aware models in residential buildings
CN115187134A (zh) 基于网格的配电网规划方法、装置及终端设备
CN110689168B (zh) 一种用电负荷预测方法及预测装置
CN114759579A (zh) 一种基于数据驱动的电网有功优化控制系统、方法和介质
Freeman et al. Socio-technical modelling of UK energy transition under three global SSPs, with implications for IAM scenarios
Guan et al. A novel demand response potential assessment method for industrial users
CN109829574A (zh) 基于acde和bp神经网络的电力负荷预测方法
Madadkhani et al. Toward high-resolution projection of electricity prices: A machine learning approach to quantifying the effects of high fuel and CO2 prices
Cao et al. Data processing strategies in short term electric load forecasting
Hou et al. Performance prediction of automotive fuel cell stack with genetic algorithm-BP neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant