CN114090561A

CN114090561A - 电网数据清洗方法、系统和存储介质

Info

Publication number: CN114090561A
Application number: CN202111382849.6A
Authority: CN
Inventors: 明哲; 余芸; 萧展辉; 甘杉; 甘莹; 邓丽娟; 李文俊; 马赟; 冯志宏
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-25

Abstract

本申请公开了一种电网负荷异常预测方法、系统和存储介质，涉及智能电网和人工智能，包括以下步骤：获取电网负荷序列数据；将所述电网负荷序列数据输入到预先训练好的负荷异常预测模型中进行预测，得到下一个时间段的预测结果；将下一个时间段的预测结果和预警值进行比较，判断是否产生异常；其中，所述负荷异常预测模型包括第一序列模型和第二序列模型，所述下一个时间段的预测结果根据所述第一序列模型和第二序列模型分别对电网负荷序列数据的预测结果的加权结果确定。本申请可以提前预测未来的负荷状态，并以此判断是否存在负荷异常的情况，可以及时进行处理。

Description

电网数据清洗方法、系统和存储介质

技术领域

本申请涉及智能电网和人工智能，特别是一种电网数据清洗方法、系统和存储介质。

背景技术

随着电力技术的发展，越来越多的新技术融合到电网中，形成一张“智能的电网”。智能电网对电网的性能提出了更高的要求。诸如电网数据的可视化、实时化。

为了实现智能电网的更多需求，相关企业引入多种人工智能模型对相关的数据进行预测。然而训练这些人工智能模型需要大量的数据。“不干净”的数据会导致训练得到的模型在做预测是准确度出现问题。因此，需要对其进行清洗。对于电网而言很多数据是时序数据，部分时序数据中的数据点因为采样设备或者传输问题会出现明显偏差，这些不合理的数据点可以通过统计手段去发现和剔除。但是剔除后形成了数据空缺，数据需要被填补。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种电网数据清洗方法、系统和存储介质，可以自动在清洗过程中完成数据填补的工作。

一方面，本申请实施例提供了一种电网数据清洗方法，包括以下步骤：

获取原始数据；

剔除所述原始数据的异常数据点；

对被剔除的异常数据点进行补全；

其中，所述被剔除的异常数据点进行补全时，获取位于所述异常数据点前的预设个连续数据点作为第一输入数据，获取位于所述异常数据点后的预设个连续数据点作为第二输入数据，将所述第一输入数据输入正向序列预测模型进行预测得到第一结果，将所述第二输入数据输入反向序列预测模型进行预测得到第二结果，将第一结果和第二结果的加权结果作为该异常数据点的补全数据。

在一些实施例中，所述正向序列预测模型通过以下方式得到：

获取第一训练集，所述训练集中包括多个第一序列数据，其中，所述第一序列数据的前预设个数据点作为训练样本的输入值，最后一个数据点作为训练样本的标注值；

利用第一训练集对第一LSTM模型进行训练，得到正向序列预测模型。

在一些实施例中，所述反向序列预测模型通过以下方式得到：

获取第二训练集，所述训练集中包括多个第二序列数据，其中，所述第二序列数据的后预设个数据点作为训练样本的输入值，第一个数据点作为训练样本的标注值；

利用第二训练集对第二LSTM模型进行训练，得到反向序列预测模型。

在一些实施例中，利用第一训练集的样本对第一LSTM模型进行训练时，输入值按正向顺序输入模型；

利用第二训练集的样本对第二LSTM模型进行训练时，输入值按反向顺序输入模型。

在一些实施例中，在对被剔除的异常数据点进行补全之前，还包括以下步骤：

根据原始数据被剔除的异常数据点的数量和在原始数据中的分布确定是否对被剔除数据点的原始数据进行补全。

在一些实施例中，所述根据原始数据被剔除的异常数据点的数量和在原始数据中的分布确定是否对被剔除数据点的原始数据进行补全，包括：

当原始数据被剔除的异常数据点的数量大于等于二，且任意两个异常数据点之间的数据点数量少于预设个时，不对原始数据进行补全；

当原始数据的前预设个或者后预设个数据点被剔除时，不对原始数据进行补全；

当原始数据的前预设个数据点和后预设个数据点均未被剔除，且原始数据被剔除的异常数据点的数量小于二时，对原始数据进行补全；

当原始数据的前预设个数据点和后预设个数据点均未被剔除，且任意两个异常数据点之间的数据点数量大于等于预设个时，对原始数据进行补全。

在一些实施例中，当判定不对所述原始数据进行补全后，将原始数据标注为待人工处理。

在一些实施例中，所述剔除所述原始数据的异常数据点，包括：

剔除大于上限值或者小于下限值的数据点；

剔除波动比例超过阈值的数据点。

另一方面本实施例提供了一种电网数据清洗系统，包括：

获取模块，用于获取原始数据；

剔除模块，用于剔除所述原始数据的异常数据点；

补全模块，用于对被剔除的异常数据点进行补全；

另一方面，本实施例提供了一种计算机可读存储介质，其存储有程序，所述程序被处理器执行时实现所述的电网数据清洗方法。

本申请的有益效果是：通过对原始数据中的异常数据点进行剔除，然后采用正向序列预测模型和反向序列预测模型对缺失的数据点进行预测，并将两个模型的预测结果进行加权得到补全数据，这样的补全数据更加接近于真实情况，可以提升数据质量，同时适合自动化处理，效率更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电网数据清洗方法的流程图；

图2是本申请实施例提供的LSTM网络的模型单元示意图；

图3是本申请实施例提供的一种原始数据的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下将参照本申请实施例中的附图，通过实施方式清楚、完整地描述本申请的技术方案，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

智能电网：就是电网的智能化，也被称为“电网2.0”，是建立在集成的、高速双向通信网络的基础上，通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用，实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标，其主要特征包括自愈、激励和保护用户、抵御攻击、提供满足用户需求的电能质量、容许各种不同发电形式的接入、启动电力市场以及资产的优化高效运行。在本申请中，将人工智能技术融合到智能电网中，实现电网一部分功能的智能化。

人工智能：Artificial Intelligence，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。在本申请中，涉及人工智能技术，具体地，是时间序列预测技术。

长短期记忆网络(LSTM，Long Short-Term Memory)是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

参照图1、图2和图3，本申请实施例提供了一种电网数据清洗方法，包括以下步骤：

S100、获取原始数据。如图3所示，原始数据中有两个数据点属于异常数据点，即点A和点B。

S200、剔除所述原始数据的异常数据点。在一些实施例中，所述剔除所述原始数据的异常数据点，包括：剔除大于上限值或者小于下限值的数据点；剔除波动比例超过阈值的数据点。在本实施例中，点A是超过了上限值，而点B则是波动超过了预设的幅度，因此判定这两个点是异常数据点。在本步骤中，对点A和点B进行剔除，在剔除后，数据中点A和点B的两个位置产生了空缺。如果需要对这个原始数据进行使用，则需要对其进行补全，只有在补全之后，才能得到清洗完毕，满足使用需求的数据。

S300、对被剔除的异常数据点进行补全。

从上述实施例可知，在本实施例中采用一个正向序列预测模型和反向序列预测模型对同一个数据点进行预测，并根据两者预测的结果进行加权得到补全数据，这一方式利用了异常数据点前后的数据来估算缺失的数据，相对于单向预测的方式更加准确，更加有利于数据补全的有效性。

在本实施例中，正向序列预测模型和反向序列预测模型都可以采用LSTM模型训练得到。两者可以采用相同的模型结构，只需要在训练和预测时对数据进行预处理，其中，反向序列预测模型的数据需要反向输入。例如，对于正向预测模型，其输入的顺序是按照时序数据的正向顺序的，而反向预测模型则是相反，按照时间的倒叙来输入数据。

参照图2，所述LSTM模型由多个模型单元组成，各所述模型单元包括遗忘门、输入门和输出门；

其中，LSTM模型中第1个模型单元根据第1时刻的输入数据产生输出数据，第m个模型单元根据前一单元的输出数据集和第m时刻的输入数据产生输出数据。

参照图2，LSTM网络是以多个重复结构组成的神经网络，图2是它其中一个结构(模型单元)的原理图，该模型单元的工作原理如下：首先，模型单元每一个时刻都有一个输出和细胞状态，图2中，以t时刻表示当前时刻，输出就是所示的h_t，细胞状态就是C_t。对于当前时刻，把上一个时刻的输出h_t-1连带着当前时刻的输入作为整体，作为当前时刻细胞状态的输入x_t，同时也是控制三个门(Gate)的输入。

在处理时：首先，上一个时刻的输出经过一个遗忘门(Forget Gate)，如果遗忘门的输出结果接近0，表示尽量忘掉上一个时刻的输出，而接近1表示尽可能进行记忆上一个时刻的输出；然后，经过遗忘门后的细胞内上一个状态残存的部分继续向前，通过输入门(Input Gate)加上当前时刻的输入，这个门表征通过多少量的输入，经过输入门处理后当前时刻的输入(在进入输入门之前要对输入做tanh运算，把值域压缩到[-1,1]范围内)和前面的上一个细胞状态C_t-1的残余加起来，就是这个时刻的细胞状态。这样，细胞状态就完成了从上一个时刻到当前时刻的更新。而经过tanh运算后的细胞状态C_t与输出门(OutputGate)相乘，结果就是当前时刻的输出h_t。长短期记忆神经网络能够克服简单的RNN神经网络在处理长期依赖的时间序列时出现的梯度消失问题，在时间序列预测任务上的预测性能优秀。

上述实施例通过对原始数据中的异常数据点进行剔除，然后采用正向序列预测模型和反向序列预测模型对缺失的数据点进行预测，并将两个模型的预测结果进行加权得到补全数据，这样的补全数据更加接近于真实情况，可以提升数据质量，同时适合自动化处理，效率更高。

在以上实施例中，可以通过正常的序列数据来构建训练样本，例如，在本实施例中训练样本的输入值是5维向量，表示为V＝{x1、x2、x3、x4、x5}。则这些训练样本可以从一些正常的数据中截取得到，如正常的数据是100维的数据，用{y1、y2、y3、……、y100}表示。可以将V＝{y1、y2、y3、y4、y5}作为训练样本的输入数据，y6作为标签值，也可以将V＝{y15、y16、y17、y18、y19}作为训练样本的输入数据，y20作为标签值。通过这样的方式，通过一个比较长的原始序列数据，就可以获得很多的训练样本，而且标注过程完全自动化，无需人工参与。

与前面的实施例类似，但是本实施例中的模型由于是反向的，因此，所生成的训练样本不同。在这些实施例中，假如正常的数据是100维的数据，用{y1、y2、y3、……、y100}表示。可以将V＝{y2、y3、y4、y5、y6}作为训练样本的输入数据，y1作为标签值。

在一些实施例中，利用第一训练集的样本对第一LSTM模型进行训练时，输入值按正向顺序输入模型。假设训练样本为V＝{y2、y3、y4、y5、y6}，则输入的次序则是y2先于y3、y3先于y4、y4先于y5、y5先于y6。

利用第二训练集的样本对第二LSTM模型进行训练时，输入值按反向顺序输入模型。假设训练样本为V＝{y2、y3、y4、y5、y6}，则输入的次序则是y6先于y5、y5先于y4、y4先于y3、y3先于y2。

一般而言，假设模型的输入长度为5，则需要5个连续的数据点作为输入值才能进行预测，由于本申请采用双模型的预测方式，因此要求缺失的数据前后至少有5个连续的数据点。因此，根据缺失点数量和缺失点的分布情况可以确定是否有必要对原始数据进行补偿。

从以上实施例中可见，针对一个原始数据，各缺失点之间的数据点数量要大于预设个数(即模型的输入长度)。原始数据前后预设个数据点都没有被剔除才有补全的可能。

对于不能自动补全的数据，可以将其进行标注，然后留给人工进行处理。因此，在一些实施例中，当判定不对所述原始数据进行补全后，将原始数据标注为待人工处理。配合一定的人工参与，可以将现有数据的利用率最大化。

本施例提供了一种电网数据清洗系统，包括：

获取模块，用于获取原始数据；

剔除模块，用于剔除所述原始数据的异常数据点；

补全模块，用于对被剔除的异常数据点进行补全；

本申请实施例通过对原始数据中的异常数据点进行剔除，然后采用正向序列预测模型和反向序列预测模型对缺失的数据点进行预测，并将两个模型的预测结果进行加权得到补全数据，这样的补全数据更加接近于真实情况，可以提升数据质量，同时适合自动化处理，效率更高。

本实施例公开了一种计算机可读存储介质，其存储有程序，所述程序被处理器执行时实现所述的电网数据清洗方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。存储介质可包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种电网数据清洗方法，其特征在于，包括以下步骤：

获取原始数据；

剔除所述原始数据的异常数据点；

对被剔除的异常数据点进行补全；

2.根据权利要求1所述的电网数据清洗方法，其特征在于，所述正向序列预测模型通过以下方式得到：

3.根据权利要求2所述的电网数据清洗方法，其特征在于，所述反向序列预测模型通过以下方式得到：

4.根据权利要求3所述的电网数据清洗方法，其特征在于，利用第一训练集的样本对第一LSTM模型进行训练时，输入值按正向顺序输入模型；

5.根据权利要求1所述的电网数据清洗方法，其特征在于，在对被剔除的异常数据点进行补全之前，还包括以下步骤：

6.根据权利要求5所述的电网数据清洗方法，其特征在于，所述根据原始数据被剔除的异常数据点的数量和在原始数据中的分布确定是否对被剔除数据点的原始数据进行补全，包括：

7.根据权利要求6所述的电网数据清洗方法，其特征在于，当判定不对所述原始数据进行补全后，将原始数据标注为待人工处理。

8.根据权利要求1所述的电网数据清洗方法，其特征在于，所述剔除所述原始数据的异常数据点，包括：

剔除大于上限值或者小于下限值的数据点；

剔除波动比例超过阈值的数据点。

9.一种电网数据清洗系统，其特征在于，包括：

获取模块，用于获取原始数据；

剔除模块，用于剔除所述原始数据的异常数据点；

补全模块，用于对被剔除的异常数据点进行补全；

10.一种计算机可读存储介质，其特征在于，其存储有程序，所述程序被处理器执行时实现如权利要求1-8任一项所述的电网数据清洗方法。