CN113672871A

CN113672871A - 一种高比例缺失数据填补方法及相关装置

Info

Publication number: CN113672871A
Application number: CN202110970618.0A
Authority: CN
Inventors: 侯祖锋; 徐春华; 冯铭倩; 赵瑞锋; 林敏洪; 丘冠新; 曹安瑛
Original assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-19

Abstract

本申请公开了一种高比例缺失数据填补方法及相关装置，方法包括：计算预处理操作后的目标缺失数据的缺失率，预处理操作包括归一化处理和缺失位标记操作；根据缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，预置误差列表中不同梯级的历史缺失率、目标评价指标和最优缺失数据填补方法之间存在一一对应关系；根据最优缺失数据填补方法生成目标填补数据，并采用目标填补数据填补目标缺失数据。本申请能够解决现有技术对缺失较严重的数据缺乏有效性的填补方案，导致填补效果较差的技术问题。

Description

一种高比例缺失数据填补方法及相关装置

技术领域

本申请涉及缺失数据填补技术领域，尤其涉及一种高比例缺失数据填补方法及相关装置。

背景技术

在大多数涉及依托采集数据进行分析的科学研究中，缺失数据的存在是一个普遍的现象。电力数据也不例外，往往由于各种原因，会导致采集的电力数据存在缺失的情况。例如，设备故障和信号传输错误等会导致丢失一个或几个时刻的数据，有时甚至可能丢失一天或者几天的数据。电力系统的很多运管工作是依托历史数据进行的，为了提高数据的后续分析处理效率，对电力数据的准确填补工作显得尤为重要。

在电力缺失数据的填补中，对于缺失率较低的情况，通常可以使用删除法和回归插补法；相比于删除法，回归插补法保留了预期的数据量。回归插补法采用均值处理会忽视数据的趋势与分散特征；此外每个丢失的数据模式都需要唯一的回归方程，因此多个丢失的数据模式的存在会使插补过程复杂化。但是，回归插补类方法未考虑推定值的不确定性，并且无法对多变量数据缺失的情况进行插补；且在数据缺失较严重的情况下，其结果会有较大偏差。从统计领域的原理出发提出的热卡插补、冷卡插补、多重插补等方法，则需要用已有的数据替代缺失数据，对于较大缺失数据的填补效果仍然较差。

发明内容

本申请提供了一种高比例缺失数据填补方法及相关装置，用于解决现有技术对缺失较严重的数据缺乏有效性的填补方案，导致填补效果较差的技术问题。

有鉴于此，本申请第一方面提供了一种高比例缺失数据填补方法，包括：

计算预处理操作后的目标缺失数据的缺失率，所述预处理操作包括归一化处理和缺失位标记操作；

根据所述缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，所述预置误差列表中不同梯级的历史缺失率、所述目标评价指标和所述最优缺失数据填补方法之间存在一一对应关系；

根据所述最优缺失数据填补方法生成目标填补数据，并采用所述目标填补数据填补所述目标缺失数据。

优选地，所述预置误差列表的构建过程为：

通过在无缺失历史数据中添加预置扰动得到历史缺失数据集，所述历史缺失数据集包括多个历史缺失数据片段；

在对所述历史缺失数据片段作所述预处理操作后，通过预置窗口在所述历史缺失数据片段中提取目标历史缺失数据；

计算所述目标历史缺失数据的历史缺失率，并将所述历史缺失率进行升序式梯级划分；

计算不同的缺失数据填补方法在不同梯级的历史缺失率和不同评价指标下对应的误差值，得到预置误差列表，所述预置误差列表中每个梯级的历史缺失率对应的每个评价指标均存在一个误差值最小的最优缺失数据填补方法。

优选地，所述根据所述最优缺失数据填补方法生成目标填补数据，并采用所述目标填补数据填补所述目标缺失数据，还包括：

计算所述目标填补数据在所述目标评价指标下的当前误差值；

若所述当前误差值超过所述最优缺失数据填补方法对应的误差值，则更新所述预置误差列表。

优选地，所述若所述当前误差值超过所述最优缺失数据填补方法对应的误差值，则更新所述预置误差列表，还包括：

若所述预置误差列表的时限超过预设时间，则更新所述预置误差列表。

本申请第二方面提供了一种高比例缺失数据填补装置，包括：

缺失计算模块，用于计算预处理操作后的目标缺失数据的缺失率，所述预处理操作包括归一化处理和缺失位标记操作；

列表查询模块，用于根据所述缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，所述预置误差列表中不同梯级的历史缺失率、所述目标评价指标和所述最优缺失数据填补方法之间存在一一对应关系；

缺失填补模块，用于根据所述最优缺失数据填补方法生成目标填补数据，并采用所述目标填补数据填补所述目标缺失数据。

优选地，所述预置误差列表的构建过程为：

优选地，还包括：

计算模块，用于计算所述目标填补数据在所述目标评价指标下的当前误差值；

第一更新模块，用于若所述当前误差值超过所述最优缺失数据填补方法对应的误差值，则更新所述预置误差列表。

优选地，还包括：

第二更新模块，用于若所述预置误差列表的时限超过预设时间，则更新所述预置误差列表。

本申请第三方面提供了一种高比例缺失数据填补设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的任一项高比例缺失数据填补方法。

本申请第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于第一方面所述的任一项高比例缺失数据填补方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种高比例缺失数据填补方法，包括：计算预处理操作后的目标缺失数据的缺失率，预处理操作包括归一化处理和缺失位标记操作；根据缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，预置误差列表中不同梯级的历史缺失率、目标评价指标和最优缺失数据填补方法之间存在一一对应关系；根据最优缺失数据填补方法生成目标填补数据，并采用目标填补数据填补目标缺失数据。

本申请提供的高比例缺失数据填补方法，以目标缺失数据的缺失率为依据，按照预置误差列表给出的评价指标选取不同的缺失数据填补方法，通过不同的缺失率和不同的目标评价指标均可以选取到最佳的缺失数据填补方法，提升了数据填补的自适应性，针对不同的缺失率均有对应的高效数据填补方法。因此，本申请能够解决现有技术对缺失较严重的数据缺乏有效性的填补方案，导致填补效果较差的技术问题。

附图说明

图1为本申请实施例提供的一种高比例缺失数据填补方法的流程示意图；

图2为本申请实施例提供的一种高比例缺失数据填补装置的结构示意图；

图3为本申请应用例提供的电力负荷数据缺失曲线示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种高比例缺失数据填补方法的实施例，包括：

步骤101、计算预处理操作后的目标缺失数据的缺失率，预处理操作包括归一化处理和缺失位标记操作。

目标缺失数据是一段选取的数据，也可以是一条数据，为了增加缺失数据的填补准确性和自适应性，可以将一条完整的目标数据按照预置窗口进行数据段提取，按照不同数据段的缺失率进行自适应的数据填补操作；采用单一的方法处理整条数据段不利于提升数据填补的准确性。

对于数据的归一化处理，若是连续型数据，则直接采用minmax法对数据进行归一化处理，若是离散型数据，则使用独热编码后通过minmax法对数据进行归一化处理。

缺失位标记操作主要是将数据段或者数据块中存在缺失数据的位置进行标记操作，例如标记为用0表示。

步骤102、根据缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，预置误差列表中不同梯级的历史缺失率、目标评价指标和最优缺失数据填补方法之间存在一一对应关系。

每个缺失率均能在预置误差列表中查找到对应的缺失数据填补方法，而预置误差列表中的评价指标和缺失数据填补方法均为多个，目标评价指标是指针对每个数据分析或者处理任务的需求更加关注的一种评价指标，即特定任务下的预先选取的评价指标，在该评价指标下，每种缺失数据填补方法对于缺失数据的填补性能不一，通过比较指标优劣就可以选取出最优确实数据填补方法，作针对性数据填补。

进一步地，预置误差列表的构建过程为：

通过在无缺失历史数据中添加预置扰动得到历史缺失数据集，历史缺失数据集包括多个历史缺失数据片段；

在对历史缺失数据片段作预处理操作后，通过预置窗口在历史缺失数据片段中提取目标历史缺失数据；

计算目标历史缺失数据的历史缺失率，并将历史缺失率进行升序式梯级划分；

计算不同的缺失数据填补方法在不同梯级的历史缺失率和不同评价指标下对应的误差值，得到预置误差列表，预置误差列表中每个梯级的历史缺失率对应的每个评价指标均存在一个误差值最小的最优缺失数据填补方法。

请参阅表1，表1即为预置误差列表的样例，其中将缺失率进行不同级别的划分，对应不同级别的缺失率可以存在不同的评价指标，每一种缺失数据填补方法都可以在对应的指标下计算得到相应的误差值。

表1预置误差列表示例1

可以发现，同一种缺失数据填补方法在不同的缺失率下的误差值，以及同一评价指标下的不同缺失数据填补方法的误差值均不相同，且差异明显，因此，不同的缺失率选取不同的填补方法是非常必要的。

表1中的评价指标包括MAE(均方误差)、RMSE(均方根误差)、MAPE(平均绝对百分比误差)和R²。缺失数据填补方法包括线性插值法、K近邻法、均值差值法、多层感知机神经网络法和对抗生成网络法(GAN)。类似于线性插值法和K近邻法均为较为成熟的缺失数据填补方法，具体的操作过程在此不赘述，可以参考现有技术实现，特别的，本实施例可以给出对抗生成网络填补缺失数据的具体过程。

随着机器学习的发展，通过建立深层神经网络模型进行数据填充提供了新的思路，本实施例中的生成对抗网络(GAN)主要是模型训练和缺失数据生成两个部分，其中模型训练部分是需要完成生成器和判别器的训练，生成器的输入是含有缺失的数据的样本经过网络模型输出逼近原始数据分布的假样本；采用不同缺失率数据，对生成器和对抗器分别训练。大致的训练过程是：在初始情况下这两个模型都是没有经过训练的，而后这两个模型一起对抗训练，生成器的目的是生成接近真实的伪造数据去骗过判别器，判别器通过学习来区分真假，就是在这样的博弈下促使两个模型的能力逐渐增加，最终达到理想的均衡状态。

GAN的实际训练过程为：首先对获取的样本数据进行归一化处理，使用minmax法对训练集进行归一化；将训练集数据输入到生成器中，得到生成的伪数据；将伪数据和真实数据输入到判别器中，使其尽可能区分真假，判别器会判断数据的真假输出0到1之间的概率值，判别器输出结果在0-0.5之间被认为是假数据，0.5-1之间被为真实数据；判断判别器输出的判别概率是否为0.5，若是，则训练完成，若不是，则进行后续操作；循环更新训练生成器，使判别器尽可能无法区分真假数据；多次更新迭代后，判别器无法区分数据来自真实数据还是生成器生成的伪数据，此时判别器判别的概率为0.5，完成训练；将训练完成的生成器用于缺失数据集的填补。

历史缺失率的升序式梯级划分就是以一定的缺失率为步长，将所有的缺失率进行级别划分，表1中的缺失率步长是5％，且每一个等级的缺失率为定值，也可以设置为每个等级的缺失率为一个范围，形成缺失率范围的梯级分布；两种方式均不影响本实施例中的方案执行，具体可以根据实际需要选择。

若是以确定值的形式建表，那么缺失率与表中历史缺失率的比对就是近似比对，即当前缺失率与哪一个历史缺失率更接近，则选择该历史缺失率对应的评价指标和填补方法；具体的接近度可以通过现有技术的各种距离计算方法确定，在此不作赘述。若是以缺失率范围的方式制表，则当前缺失率在哪一个取值范围内，则选择该范围对应的评价指标和填补方法。

步骤103、根据最优缺失数据填补方法生成目标填补数据，并采用目标填补数据填补目标缺失数据。

进一步地，步骤103，还包括：

计算目标填补数据在目标评价指标下的当前误差值；

若当前误差值超过最优缺失数据填补方法对应的误差值，则更新预置误差列表。

进一步地，若当前误差值超过最优缺失数据填补方法对应的误差值，则更新预置误差列表，还包括：

若预置误差列表的时限超过预设时间，则更新预置误差列表。

每个缺失率对应的方法也并非是一成不变的，还需要根据实际生成的目标填补数据和时限进行判定，最优缺失数据填补方法并非一直是适用的，所以需要在误差值超出应有误差，或者预置误差列表长期未作更新的情况下更新预置误差列表，提升缺失数据填补的准确性。

为了便于理解，本申请提出一种应用例，使用4年的电力负荷数据为例，数据时间粒度为1小时。采用二值掩码矩阵进行数据不同缺失率的设定。二值掩码矩阵是由0、1构成的矩阵。0代表了设置成为缺失的数据、1代表保留的数据。将原始数据与二值掩码矩阵进行点乘便可得到缺失数据。二值掩码矩阵的好处在于只需要根据不同缺失率设置0、1的个数便可，同时二值掩码矩阵方便统计0、1的位置，对于在伪造出来的数据上很容易选定出新生成数据；二值掩码矩阵设置缺失率的方法如下：

考虑到在电力负荷预测方面，通常采用距离预测日最近的一周前的数据或一部分数据作为模型的输入，同时负荷具有明显的周期性，因此示例中采用对一周的数据进行5％、10％、20％、30％、50％、60％、70％、80％等缺失率下的缺失值填补，具体请参阅图3。在不同缺失率下，不同方法数据填充效果的好坏程度采用不同的评价指标进行评估，得到不同的误差。根据历史数据进行缺失数据填补，可以得到预置误差列表2。

表2预置误差列表示例2

在电力运维在线应用中，先读取最新采集的数据，若为错误或缺失数据，则进入以下数据重建操作，否则，不进行数据重建，直接保存当前数据进入历史数据库。如数据缺失，这里选择168点为一个数据窗口(对应7天，每天1小时1个采样值)，作为计算缺失率的总时段，重新计算当前的采样值的数据缺失率。假设此时缺失率为60％，其更关注MAPE指标，则选择60％缺失率对应字段下的MAPE行中的最小值(1.255)对应的方法，即GAN法做为该次重建的缺失数据的生成方法。同时计数器加1，并判断是否需要更新统计表的数据。

本申请实施例提供的高比例缺失数据填补方法，以目标缺失数据的缺失率为依据，按照预置误差列表给出的评价指标选取不同的缺失数据填补方法，通过不同的缺失率和不同的目标评价指标均可以选取到最佳的缺失数据填补方法，提升了数据填补的自适应性，针对不同的缺失率均有对应的高效数据填补方法。因此，本申请实施例能够解决现有技术对缺失较严重的数据缺乏有效性的填补方案，导致填补效果较差的技术问题。

为了便于理解，请参阅图2，本申请提供了一种高比例缺失数据填补装置的实施例，包括：

缺失计算模块201，用于计算预处理操作后的目标缺失数据的缺失率，预处理操作包括归一化处理和缺失位标记操作；

列表查询模块202，用于根据缺失率在预置误差列表中查找目标评价指标对应的最优缺失数据填补方法，预置误差列表中不同梯级的历史缺失率、目标评价指标和最优缺失数据填补方法之间存在一一对应关系；

缺失填补模块203，用于根据最优缺失数据填补方法生成目标填补数据，并采用目标填补数据填补目标缺失数据。

进一步地，预置误差列表的构建过程为：

进一步地，还包括：

计算模块204，用于计算目标填补数据在目标评价指标下的当前误差值；

第一更新模块205，用于若当前误差值超过最优缺失数据填补方法对应的误差值，则更新预置误差列表。

进一步地，还包括：

第二更新模块206，用于若预置误差列表的时限超过预设时间，则更新预置误差列表。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种高比例缺失数据填补方法，其特征在于，包括：

2.根据权利要求1所述的高比例缺失数据填补方法，其特征在于，所述预置误差列表的构建过程为：

3.根据权利要求2所述的高比例缺失数据填补方法，其特征在于，所述根据所述最优缺失数据填补方法生成目标填补数据，并采用所述目标填补数据填补所述目标缺失数据，还包括：

4.根据权利要求3所述的高比例缺失数据填补方法，其特征在于，所述若所述当前误差值超过所述最优缺失数据填补方法对应的误差值，则更新所述预置误差列表，还包括：

5.一种高比例缺失数据填补装置，其特征在于，包括：

6.根据权利要求5所述的高比例缺失数据填补装置，其特征在于，所述预置误差列表的构建过程为：

7.根据权利要求6所述的高比例缺失数据填补装置，其特征在于，还包括：

8.根据权利要求7所述的高比例缺失数据填补装置，其特征在于，还包括：

9.一种高比例缺失数据填补设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的高比例缺失数据填补方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的高比例缺失数据填补方法。