CN110991866B

CN110991866B - 一种基于机器学习的台区数据缺失值补全方法和装置

Info

Publication number: CN110991866B
Application number: CN201911202211.2A
Authority: CN
Inventors: 吴伟将; 周玉; 杨世海; 陆婋泉; 林鹤; 崔高颖; 易永仙; 夏倩倩; 李欣然; 孙国强
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-09-06
Anticipated expiration: 2039-11-29
Also published as: CN110991866A

Abstract

本发明公开一种台区数据缺失值补全方法和装置，方法包括：获取待补全的原始数据集，原始数据集包括多个数据指标的原始数据序列；按照预先确定的需补全指标类型，从原始数据集中筛选出需要进行补全的数据指标的原始数据序列；针对各待补全的数据指标，将其原始数据序列及序列中数据的时间信息，作为预先构建的缺失值补全模型的输入，得到缺失值补全模型的输出，即为相应数据指标补全后的数据序列。本发明考虑对线损率影响程度大的数据因子，利用机器学习技术对相关的数据缺失值进行补全，可为线损率的计算和线损管理提供可靠数据支撑。

Description

一种基于机器学习的台区数据缺失值补全方法和装置

技术领域

本发明涉及用电信息采集及分析技术领域，特别是一种基于机器学习的台区数据缺失值补全方法和装置。

背景技术

随着科学技术的不断进步和国民经济的不断发展，我国电力工业体制逐步向电力市场转换，电能作为商品走入市场，已成为一种重要能源得到广泛的应用。电能具有宜于大量生产、集中管理、远距离输送、自动控制、有利环保、易于转换成为其它形式的能量等优点。作为清洁能源，电能被广为利用于国民经济和人民的生活的各个方面。

电能通过输电、变电和配电的各个环节供给用户，在电能的输送和分配过程中，电力网络都要产生一定数量的电能损耗，简称线损。电力系统为社会提供着清洁方便的能源，同时它在转换、输送、分配过程中的消耗也是巨大的。随着近年来机器学习和数据挖掘等技术的发展，结合智能用电大数据的电力系统台区线损管理的应用逐渐成为行业研究热点和发展方向。大数据具有海量性、多样性和快速性，基于数据驱动的方法对多元信息的处理更具有直接性和有效性。它以用电信息采集系统的数据为基底，利用各种数据挖掘技术获得其中隐含的有用信息，从而降低线损，保证电网安全稳定运行，是目前非常实用的技术。

在实用的数据库中，数据值缺失的情况是不可避免的。造成数据缺失的原因是多方面的，主要有以下几种：一，有些信息被遗漏，可能是因为输入时认为不重要，忘记填写了或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障、一些人为因素等原因而丢失了；二，有些信息暂时无法获取，例如在申请表数据中，对某些问题的反映依赖于其他问题；三，有些对象的某个或某些属性是不可用的即对这个对象来说，该属性是不存在的，等等。对于数据挖掘来说，缺失值的存在，造成了以下影响：首先，系统丢失了大量的有用信息；其次，系统中所表现出的不确定性更加显著；并且，包含缺失值的数据使挖掘过程陷入混乱，导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，数据的缺失值需要通过专门的方法进行推导、补全等，以减少数据挖掘算法与实际应用间的差距。

发明内容

本发明的目的是提供一种基于机器学习的台区数据缺失值补全方法和装置，考虑对线损率影响程度大的数据因子，利用机器学习技术对相关的数据缺失值进行补全，为线损管理提供可靠数据支撑。

本发明采用的技术方案如下：

一方面，本发明提供一种台区数据缺失值补全方法，包括：

获取待补全的原始数据集，原始数据集包括多个数据指标的原始数据序列；

按照预先确定的需补全指标类型，从原始数据集中筛选出需要进行补全的数据指标的原始数据序列；

针对各待补全的数据指标，将其原始数据序列及序列中数据的时间信息，作为预先构建的缺失值补全模型的输入，得到缺失值补全模型的输出，即为相应数据指标补全后的数据序列。

本发明所述缺失值补全模型可采用支持向量机或其他神经网络构建。

可选的，所述预先确定的需补全指标类型，根据数据指标与线损率的相关系数确定，确定方法包括：

获取历史台区数据集样本，从中得到对应各数据指标的历史数据序列样本；

基于各数据指标的历史数据序列样本，分别计算各数据指标与线损率的相关系数；

按照相关系数大小顺序，选取相关系数较大的前k个数据指标类型，即为需补全的指标类型。

k可根据数据指标类型的总数进行调整，如选择为数据指标类型总数的二分之一。

利用本发明的方法，可实现对单个不连续数据或者多个连续数据的补齐。也即缺失值补全模型在训练时，通过机器学习实现对数据本身与时间之间关联关系的学习，这些关联关系也是由数据相关的设备特性所决定的。

可选的，所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到：

式中，x₁,x₂,…x_n；y₁,y₂,…y_n分别为X、Y两个随机变量的样本数据序列，n为序列中的数据样本个数，

分别表示X、Y的样本均值。

可选的，所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型；

针对任一需补全的指标类型，缺失值补全模型的构建包括：

从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本；

将各历史数据序列样本中的各数据样本关联其时间信息；

利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。

进一步的，缺失值补全模型的构建还包括，对训练得到的SVM缺失值补全模型进行模型验证：

从多个历史数据序列样本中选取测试样本；

缺省测试样本中的部分数据；

将数据缺省后的样本作为SVM缺失值补全模型的输入，得到补全后的数据序列；

将补全后的数据序列与原测试样本数据序列进行比较，计算两者误差；

若两者误差大于设定阈值，则更新原训练样本集，对当前SVM缺失值补全模型继续训练，直至补全后的数据序列与测试样本原数据序列的误差不大于设定值阈值。

可选的，补全后数据序列与原测试样本数据序列之间的误差为平均绝对百分比误差 MAPE：

n为测试样本中数据样本的个数，yi和

分别为原样本数据和补入的数据。

可选的，补全后数据序列与原测试样本数据序列之间的误差为均方根误差RMSE：

式中，n为测试样本中数据样本的个数，yi和

分别为原样本数据和补入的数据。

以上误差的阈值可根据需要设置或调整，日将MAPE阈值设置为15％，RMSE阈值设置为0.1。当然也可以同时引入MAPE和RMSE进行模型的验证，当同时满足两误差阈值时，即可停止对模型的继续训练。

另一方面，本发明还提供一种台区数据缺失值补全装置，包括：

原始数据获取模块，用于获取待补全的原始数据集，原始数据集包括多个数据指标的原始数据序列；

需补齐数据筛选模块，用于按照预先确定的需补全指标类型，从原始数据集中筛选出需要进行补全的数据指标的原始数据序列；

以及缺失值补全模块，用于针对各待补全的数据指标，将其原始数据序列及序列中数据的时间信息，作为预先构建的缺失值补全模型的输入，得到缺失值补全模型的输出，即为相应数据指标补全后的数据序列。

针对任一需补全的指标类型，缺失值补全模型的构建包括：

将各历史数据序列样本中的各数据样本关联其时间信息；

有益效果

本发明通过预先基于台区历史数据利用机器学习算法构建缺失值补全模型，并根据数据指标与线损率的相关度大小确定需要补齐的数据指标类型，使得实际应用中面临台区数据缺失时，能够通过与数据指标类型相应的机器学习缺失值补全模型进行数据指标在时间维度上的补齐，从而确保对线损率影响较大的数据序列的完整性，进而可为线路率的计算和相关管理提供可靠的数据基础。

附图说明

图1所示为本发明方法的一种实施例流程示意图；

图2所示为本发明一种应用例中台区1的负载率补全曲线；

图3所示为与图2同一应用例中台区2的负载率补全曲线。

具体实施方式

以下结合附图和具体实施例进一步描述。

实施例1

本实施例为一种台区数据缺失值补全方法，参考图1，方法包括：

预先确定的需补全指标类型，根据数据指标与线损率的相关系数确定，确定方法包括：

所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到：

分别表示X、Y的样本均值。

所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型；

针对任一需补全的指标类型，缺失值补全模型的构建包括：

将各历史数据序列样本中的各数据样本关联其时间信息；

缺失值补全模型的构建还包括，对训练得到的SVM缺失值补全模型进行模型验证：

从多个历史数据序列样本中选取测试样本；

缺省测试样本中的部分数据；

实施例1-1

参考图1至图3，本实施例基于具体应用例从需补全指标类型确定、模型构建和训练、模型验证以及方法应用几个方面分别进行描述。

一、需补全指标类型的确定

1.1、根据用电采集，营销系统中提取的历史台区数据，判断哪些数据指标类型可能会影响线损率，或者影响较大，需要进行缺失值补全，具体结果显示如下表1所示：

表1 可能需要进行缺失值补全的数据指标

1.2、针对表1中的各数据指标类型，分别基于历史数据(历史数据中线损率已知)进行线损率相关程度的比较，此处采用皮尔逊相关系数法，针对各数据指标类型分别计算其与线损率的相关程度：

式中，r为皮尔逊相关系数，n为样本个数，x₁,x₂,…x_n；y₁,y₂,…y_n为X，Y两个随机变量的样本数据，

分别表示X、Y的样本均值，X变量代表待判断的数据指标，Y代表线损率。

通过计算得到各数据指标对应的皮尔逊相关系数，如下表2：

表2 皮尔逊相关系数

1.3、此时可选取相关系数较大的一半数量的(即总指标类型个数的前50％)数据指标，作为需补全的数据指标类型，即表3：

表3 相关程度大的数据指标

二、模型的构建和训练

本实施例采用支持向量机SVM模型，首先在Python中建立SVM回归补全模型，针对各数据指标类型的每个模型样本训练初步测试为100个。

针对任一需要补全的数据指标类型进行模型训练时，首先从历史台区数据中选取多组时间连续的数据样本序列，或者关联有时间信息的数据样本序列(不要求时间连续)。每个序列作为一个训练样本，对SVM回归补全模型进行训练，得到对应数据指标类型的缺失值补全模型。

三、模型验证

在模型的构建过程中，以及模型的应用中，皆可引入误差指标对模型的可靠性进行衡量。

误差指标可为平均绝对百分比误差MAPE或均方根误差RMSE，或者两者同时引入。

如在模型的构建和训练过程中，当同时满足两误差阈值时，即可停止对模型的继续训练，如在模型的应用时，可通过缺省待补全的数据序列中的部分已知数据，与补全后的数据进行对比，若满足误差则模型可靠。

四、方法应用

以应用例台区1和台区2的数据为例介绍本发明：

首先获取全部当前台区数据，根据前述确定的与线损率相关度较大、需要补全的数据指标类型，选取各需补全数据指标的数据序列。

以相关程度较大的负载率为例，此前已经基于历史数据确定了负载率的缺失值补全模型。

假设根据当前获取的台区数据中的负载率数据，两个台区缺失的数据为2019年4月1日至2019年4月10日的数据。

利用已经构建的负载率SVM回归补全模型，将筛选出的负载率数据序列输入补全模型，得到模型输出即为补全后的数据序列。

实验验证中，假设两个台区缺失的数据为已知数据，为了验证模型可靠性而缺省，经模型补全后，两个台区负载率指标SVM回归补全值与实际值如表4与表5所示：

表4 #台区1的负载率

表5#台区2的负载率

通过模型验证方法计算误差率结果如表6：

表6 #两台区的误差

以上误差率的结果结合图1和图2，可以发现利用本发明方法的SVM回归补全值能基本和实际值相吻合，即模型能够满足缺失值补全的要求。

实施例2

本实施例为一种台区数据缺失值补全装置，包括：

上述各模块的功能实现参考实施例1和实施例1-1中的方法内容。

本实施例根据数据指标与线损率的相关系数确定需补全指标类型，确定方法包括：

本实施例的缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型；

针对任一需补全的指标类型，缺失值补全模型的构建包括：

将各历史数据序列样本中的各数据样本关联其时间信息；

从多个历史数据序列样本中选取测试样本；

缺省测试样本中的部分数据；

综上各实施例，本发明的方法和装置，通过预先基于台区历史数据利用机器学习算法构建缺失值补全模型，并根据数据指标与线损率的相关度大小确定需要补齐的数据指标类型，使得实际应用中面临台区数据缺失时，能够通过与数据指标类型相应的机器学习缺失值补全模型进行数据指标在时间维度上的补齐，从而确保对线损率影响较大的数据序列的完整性，进而可为线路率的计算和相关管理提供可靠的数据基础。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/ 或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。