CN113469189A

CN113469189A - 一种用电采集数据缺失值填充方法、系统及装置

Info

Publication number: CN113469189A
Application number: CN202111024585.7A
Authority: CN
Inventors: 汤克艰; 唐文升; 刘向向; 刘强; 舒骁骁; 卢婕; 冯颖; 田静; 熊茹; 俞林刚; 严勤; 刘波; 李昊翔; 范志夫; 曾子厦; 胡志强
Original assignee: State Grid Jiangxi Electric Power Co ltd; Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd
Current assignee: State Grid Jiangxi Electric Power Co ltd; Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-10-01
Anticipated expiration: 2041-09-02
Also published as: CN113469189B

Abstract

本发明公开了一种用电采集数据缺失值填充方法、系统及装置，所述方法包括：利用平均值‑方差法对用电采集数据异常值处理；利用用电采集数据去训练降噪自编码器模型，基于训练好的降噪自编码器网络模型去重构原始的用电样本数据，利用重构数据来填充缺失的用电采集样本数据，且模型中加入新提出的Depreciation‑FourOrder正则化方法；结合k‑means聚类技术利用数据的标准差来矫正填充的数据值。本发明通过降噪自编码器模型填充用电采集数据的缺失值，加入提出的新的正则化项，提高模型性能。根据网络层的单元数设置噪声水平。利用数据的标准差来矫正填充的数据值，使得填充值更加准确。

Description

一种用电采集数据缺失值填充方法、系统及装置

技术领域

本发明属于配电网控制与信息科学的交叉领域，具体涉及一种用电采集数据缺失值填充方法、系统及装置。

背景技术

随着电网系统信息化和数据化程度的提高以及用户用电采集数据的迅速增加，与人们各方面息息相关的电力能源的地位也变得越来越重要。目前，电网公司实现了电力数据高频采集的功能，并且为了更好地实现对这些数据的管理和分析，电力企业普遍建立了统一、可复用的大数据中台。通过对用电采集数据进行数据分析可以实现对电网状态的智能感知，保障电力系统的安全平稳运行又能提高电网企业的经济效益。

然而，电网系统在收集用电采集数据时总是因为一些因素导致某些用电采集数据的缺失。不对缺失数据采取措施，可能会导致在后续用电采集数据的数据分析出现不好的影响。如果直接删除缺失的用电采集数据，那么会造成资源的浪费，减少隐藏在这些缺失数据中有价值的信息，甚至有可能会影响结果分析的正确性。因此，对用电采集数据进行填充是很有必要的。

发明内容

本发明的目的在于提供一种用电采集数据缺失值填充方法、系统及装置，为了避免用电采集数据中的异常数据对训练模型的不利影响，对样本数据的异常值进行了检测进行删除处理。为了填充用电采集数据中的缺失数据，用训练好的降噪自编码器模型去重构原始数据，从而用重构数据填充缺失值，并且模型中加入了新的正则化项，防止模型过拟合，提高模型的性能。其次，为了获得较佳的噪声衰减比，噪声值的比值设置为前一层的一半。最终，为了提高填充数据的精确性，通过标准差来对填充的数据值进行校正。

为实现上述目的，本发明提供一种用电采集数据缺失值填充方法、系统及装置。所述方法首先对用电采集数据利用平均值-方差法检测用电采集数据中的异常值，然后将异常的用电采集数据删除；接着利用用电采集数据去训练降噪自编码器模型，基于训练好的降噪自编码器网络模型去重构原始的用电样本数据，利用重构数据来填充缺失的用电采集样本数据；防止模型过拟合，提出了新的Depreciation-FourOrder正则化项；为了获得较佳的噪声衰减比，根据网络层的单元数降低噪声水平；然后，结合k-means聚类方法、邻近数据点到类簇中心的平均距离并利用数据的标准差来矫正填充的数据值。最终，通过系统和装置来完成上述的功能。

本发明提供一种用电采集数据缺失值填充方法，包括如下步骤：

步骤1：获取异常值处理后的用电采集数据；

步骤2：基于预先训练的降噪自编码器模型得到原始数据的重构数据，降噪自编码器模型通过以下步骤训练得到：

将缺失的值全部置零，并引入一个损坏过程，随机对原始输入数据进行损坏；

利用编码网络对损坏后的数据进行训练，转换为相对原始数据低维度隐含变量；

利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量；

为了防止过拟合，模型中提出一种Depreciation-FourOrder正则化方法；

步骤3：重构数据被用来填充用电采集数据中缺失的部分，作为临时的填充值，利用缺失数据的标准差校正填充的重构数据，得到最终的填充值。

进一步的，步骤1中所述异常值处理为平均值-方差法检测用电采集数据中的异常值，并将异常的用电采集数据删除，步骤如下：

首先，先计算用电采集数据的平均值，假设用电采集数据向量用

表示，那么用电采集数据平均值计算公式如下所示：

(1)

其中，

(i=1，2，3，...n)表示第i条用电采集数据；

表示用电采集数据的期望，

表示用电采集数据的平均值，用电采集数据的期望值和平均值相等。

接着，计算用电采集数据的方差向量，假设方差向量用

表示，其中

表示

的方差，其计算公式如下所示：

(2)

然后，用电采集数据向量

中的n条数据分别减平均值

并对结果取绝对值，计算得到n个非零实数，取其中最大非零实数定义为最大偏差；

最后用方差向量

除以这一最大偏差，得到一新的向量，求得该向量的模d；如果用电采集数据

的模大于d，那么该条用电采集数据为正常的数据，否则为异常的数据。

进一步的，步骤2中所述降噪自编码器模型训练的具体步骤如下：

①输入的用电采集数据中采样一个样本

；

②降噪自编码器引入一个损坏过程

，

表示样本

产生损坏样本

的概率；然后，从损坏过程

中采样一个损坏样本

；

③将

作为训练样本去重构原始输入的样本数据的分布；

编码过程的数学表达式如公式（3）所示；

(3)

其中，

表示编码函数，

表示编码函数的参数，

表示

维的输入向量，

表示经过编码器处理后提取到的

维的隐含特征向量，并且

；

解码过程的数学表达式如公式（4）所示；

(4)

其中，

表示解码器根据隐含特征向量解码得出的重构向量，并且其维度与原始的输入向量的维度一致，

表示解码函数，

表示解码函数的参数；

降噪自编码器的无监督训练过程是不断调整编码函数的参数

和解码函数的参数

来最小化损失函数，其损失函数的表达式如公式（5）所示；

(5)

其中，

表示解码器根据隐含特征向量解码得出的重构向量，

表示训练样本的平均重构误差，

表示训练样本的总数目，

表示原始向量和重构向量之间

的差；

编码函数和解码函数采用的均为非线性激活函数，编码函数和解码函数的表达式如公式（6）、（7）所示；

(6)

(7)

则公式（4）可改写为如下：

（8）

其中，

表示权重矩阵，

表示权重矩阵的转置，

表示编码函数的偏置向量，

表示解码函数的偏置向量，s _f表示编码函数的映射，s _g表示解码函数的映射；

原始向量和重构向量之间的差如公式（9）所示；

(9)

解码和编码网络都采用LSTM；

其次，根据层的单元数降低噪声水平，噪声值的比值设置为前一层的一半；

接着，在模型中引入一种Depreciation-FourOrder正则化方法，加入正则化项的目标函数表达式被更新为如公式(10)所示：

(10)

其中，

表示惩罚参数一，

表示惩罚参数二，

表示权重系数。

进一步的，步骤3包括以下步骤：

将降噪自编码器重构得到的变量值填充到相应的缺失值中；

对填充后的用电样本数据进行聚类，得到若干个类簇，然后选择距离需要被填充的样本点

最近的

个样本点

，计算这

个样本点距离类簇中心的平均距离，如公式(11)所示；

(11)

其中，

表示类簇的类簇中心，

表示

最近的

个样本点中的第j个样本点；

接着，通过对用电采集数据缺失值的填充数据加减对应属性列的标准差来矫正填充数据；计算加减标准差后的填充数据与类簇中心的距离以及通过降噪自编码器得到的填充数据与类簇中心的距离，通过比较哪种情况下得到的距离最接近

就选择该种情况下的数据作为最终的用电采集数据缺失的值的填充数据。

本发明还提供一种用电采集数据缺失值填充系统，包括：

获取模块：用于获取去除异常值后的去噪用电采集数据；

训练模块：用于通过以下步骤训练得到降噪自编码器模型：

重构模块：用于利用训练好的降噪自编码器模型去得到原始输入的重构变量；

填充以及校正模块：用于降噪自编码器得到的重构变量值去填充缺失数据，得到临时的缺失数据填充值，并利用数据的标准差结合聚类、邻近点平均类簇中心距离去校正临时的填充值，确定最终的数据填充值。

本发明还提供一种用电采集数据缺失值填充装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行上述用电采集数据缺失值填充方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被设置为运行时执行上述用电采集数据缺失值填充方法的步骤。

本发明的有益效果是：

本发明针对用电采集数据的缺失值问题，提出了一种用电采集数据缺失值填充方法、系统及装置。通过对用电采集数据的缺失值进行填充，可以保留住缺失数据中蕴藏的数据价值，为后续数据分析带来有益的结果，从而更好地提高电力企业的服务水平。首选对原始样本数据进行了异常值检测和处理，避免了异常值对训练模型的不利影响。利用降噪自编码器模型训练正常的样本数据，得到输入数据和重构数据之间的关系，然后基于训练好的降噪自动编码器网络模型得到真实数据的重构数据，利用重构数据以及数据的标准差去填充用电采集数据中的缺失值。降噪自编码器模型中加入了新的正则化项，防止模型过拟合，提高模型的性能。其次，为了获得较佳的噪声衰减比，噪声值的比值设置为前一层的一半。最终，为了提高填充数据的精确性，通过标准差来对填充的数据值进行校正。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合实施例对本发明做进一步的描述，有必要在此指出的是以下实施例只是用于对本发明进行进一步的说明，不能理解为对本发明保护范围的限制，该领域的技术熟练人员根据上述发明内容所做出的一些非本质的改进和调整，仍属于本发明的保护范围。

本发明实施方式的一方面提供一种用电采集数据缺失值填充方法，其流程图如图1所示。首先对用电采集数据利用平均值-方差法检测用电采集数据中的异常值，然后将异常的用电采集数据删除；接着利用用电采集数据去训练降噪自编码器模型，基于训练好的降噪自编码器网络模型去重构原始的用电采集数据，利用重构数据来填充缺失的用电采集数据，作为临时的填充数据；为了防止模型过拟合，提出了新的Depreciation-FourOrder正则化项；为了获得较佳的噪声衰减比，根据网络层的单元数降低噪声水平；然后，结合k-means聚类方法、填充数据距离类簇中心的距离、邻近数据点到类簇中心的平均距离并利用数据的标准差选择最接近平均距离的数据来矫正填充的数据值，得到最终的填充缺失数据。

首先，对异常值进行处理。

用电采集数据是指电能表采集回的用户侧电压、电流、有功功率、电量数据。用电采集数据过程中可能由于设备等问题采集到一些异常的数据信息。对于异常的用电采集数据要进行处理，否则在后续分析处理中会造成不良的影响。异常值是采集数据中的个例数据，因此，本发明将异常的用电采集数据直接删除。异常值的检查采用平均值-方差检测法。

（1）先计算用电采集数据的平均值。假设用电采集数据向量用

表示，那么用电采集数据平均值计算公式如下所示：

(1)

其中，

(i=1，2，3，...n)表示第i条用电采集数据；

表示用电采集数据的期望，

（2）接着，计算用电采集数据的方差向量。假设方差向量用

表示，其中

表示

的方差，其计算公式如下所示：

(2)

（3）然后，用电采集数据向量

中的n条数据分别减平均值

并对结果取绝对值，计算得到n个非零实数，取其中最大非零实数定义为最大偏差。

（4）最后用方差向量

除以这一最大偏差，得到一新的向量，求得该向量的模d。如果用电采集数据

其次，对缺失值进行填充。

(1)建立降噪自编码器模型

降噪自编码器是一种深度无监督模型，可以对采集的用电采集数据先进行数据降维，然后对降维得到的用电采集数据进行重构，得到重构的用电采集数据。相比较于传统的自编码器，其可以接受受损的用电采集数据作为输入，然后预测未受损的用电采集数据。预测的用电采集数据值可以被用来填充缺失的数据。

降噪自编码器是通过最小化输入与重构信号之间的误差来对网络参数进行调整，但是其的隐含层表示并不是由原始的用电输入数据直接映射得到，而是先将原始用电采集数据的一定比例的数据损坏，其它停电数据不做处理。对于缺失的用电采集数据，直接做置零处理。这样的话，原始输入中就会减少一定比例的用电采集数据信息。降噪自编码器可以通过学习的方式去填充这些缺失的信息，从而缺失的数据就可以通过这种方式被填充。

降噪自编码器是一种由编码网络和解码网络构成的无监督网络模型。编码网络是将原始数据转换为相对原始数据低维度隐含变量，解码网络就是将前面得到的低维度隐含变量重构得到原始维度的输入变量。降噪自编码的输入不会等同于输出，如果两者相同的话，降噪自编码器的处理就失去了意义。其编码过程是为了提取输入数据中更为重要、敏感的信息，解码过程就是利用这些被提取的特征去重构出接近原始输入的数据。解码和编码网络均采用LSTM。降噪自编码器模型的训练过程具体步骤如下所示：

①输入的用电采集数据中采样一个样本

；

②降噪自编码器引入一个损坏过程

，

表示样本

产生损坏样本

的概率。然后，从损坏过程

中采样一个损坏样本

；

③将

作为训练样本去重构原始输入的样本数据的分布。

编码过程数学表达式如公式（3）所示。

(3)

其中，

表示编码函数，

表示编码函数的参数，

表示

维的输入向量，

表示经过编码器处理后提取到的

维的隐含特征向量，并且

。

解码过程数学表达式如公式（4）所示。

(4)

其中，

表示解码函数，

表示解码函数的参数。

降噪自编码器的无监督训练过程是不断调整编码函数的参数

和解码函数的参数

来最小化损失函数，以此来保证重构得到的向量尽可能地接近原始输入向量。其损失函数的表达式如公式（5）所示。

(5)

其中，

表示解码器根据隐含特征向量解码得出的重构向量，

表示训练样本的平均重构误差，

表示训练样本的总数目，

表示原始向量和重构向量之间

的差；

为了能够学习到更为深层次的特征，编码函数和解码函数采用的均为非线性激活函数，编码函数和解码函数的表达式如公式（6）、（7）所示。

（6）

(7)

则公式（4）可改写为如下：

（8）

其中，

表示权重矩阵，

表示权重矩阵的转置，

表示编码函数的偏置向量，

原始向量和重构向量之间的差如公式（9）所示；

(9)

为了提高模型的效果，解码和编码网络都采用LSTM。

其次，根据层的单元数降低噪声水平。为了获得较佳的噪声衰减比，噪声值的比值设置为前一层的一半。

接着，为了防止模型过拟合，在模型中引入一种称为Depreciation-FourOrder正则化的方法，加入正则化项的目标函数表达式被更新为如公式(10)所示：

(10)

其中，

表示惩罚参数一，

表示惩罚参数二，

表示权重系数。

通过降噪自编码模型重构的用电样本数据，重构得到的值就可以作为填充的缺失值。

(2) 对缺失值填充校正

接下来对用电样本数据聚类，得到若干个类簇，聚类的方法采用k-means方法，过程如下所示：

1)选取k个点做为初始聚集的簇心；

2)分别计算每个样本数据到k个簇核心的距离，根据计算得到的距离找到离该点最近的簇中心，那么该条样本数据就划分到对应的簇；

3)所有样本数据都划分到到相应的簇后，整个样本就分为了k个簇。然后重新计算每个簇的中心；

4)反复迭代 2 )- 3 )步骤，直到达到某个中止条件。

然后选择距离需要被填充的样本点

最近的

个样本点

，计算这

个样本点距离类簇中心的平均距离，如公式(11)所示。

(11)

其中，

表示类簇的类簇中心，

表示

最近的

个样本点中的第j个样本点。

接着，通过对用电采集数据缺失值的填充数据加减对应属性列的标准差来矫正填充数据。

第j列标准差的计算如公式（12）所示：

(12)

其中，

表示第j列的数据平均值，

第j列的第i数据。

计算加减标准差后的填充数据与类簇中心的距离以及通过降噪自编码器得到的填充数据与类簇中心的距离，通过比较哪种情况下得到的距离最接近

本发明实施方式的另一方面还提供一种用电采集数据缺失值填充系统，系统一共包括四个模块，分别是获取模块、训练模块、重构模块、填充以及校正模块。

对于获取模块，它是用来获取去除异常值后的去噪用电采集数据的模块。用电采集数据过程中可能由于设备等问题采集到一些异常的用电采集数据信息。对于异常的用电采集数据要进行处理，否则可能会产生一些不利的影响，该模块就是用来实现该功能的。

对于训练模块，它是用于通过以下步骤训练得到降噪自编码器模型：

为了防止过拟合，模型中提出一种Depreciation-FourOrder正则化方法。通过训练得到训练好的降噪自编码器模型，该模块就是用来实现该功能的。

对于重构模块，它是用于利用降噪自编码器模型去得到原始输入的重构变量。通过对采集的用电采集数据先进行数据降维，然后对降维得到的用电采集数据进行重构，得到重构的用电采集数据，该模块就是用来实现该功能的。

对于填充以及校正模块，它是用来降噪自编码器得到的重构变量值去填充缺失数据，得到临时的缺失数据填充值，并利用数据的标准差结合聚类、邻近点平均类簇中心距离去校正临时的填充值，确定最终的数据填充值，该模块就是用来实现该功能的。

训练模块中降噪自编码器模型训练的具体步骤如下：

①输入的用电采集数据中采样一个样本

；

②降噪自编码器引入一个损坏过程

，

表示样本

产生损坏样本

的概率；然后，从损坏过程

中采样一个损坏样本

；

③将

作为训练样本去重构原始输入的样本数据的分布；

编码过程的数学表达式如公式（3）所示；

(3)

其中，

表示编码函数，

表示编码函数的参数，

表示

维的输入向量，

表示经过编码器处理后提取到的

维的隐含特征向量，并且

；

解码过程的数学表达式如公式（4）所示；

(4)

其中，

表示解码函数，

表示解码函数的参数；

降噪自编码器的无监督训练过程是不断调整编码函数的参数

和解码函数的参数

来最小化损失函数，其损失函数的表达式如公式（5）所示；

(5)

其中，

表示解码器根据隐含特征向量解码得出的重构向量，

表示训练样本的平均重构误差，

表示训练样本的总数目，

表示原始向量和重构向量之间

的差；

(6)

(7)

则公式（4）可改写为如下：

（8）

其中，

表示权重矩阵，

表示权重矩阵的转置，

表示编码函数的偏置向量，

原始向量和重构向量之间的差如公式（9）所示；

(9)

解码和编码网络都采用LSTM；

(10)

其中，

表示惩罚参数一，

表示惩罚参数二，

表示权重系数。

本发明实施方式的另一方面还提供一种用电采集数据缺失值填充装置，填充装置包括存储介质和处理器。存储介质用来存储计算机程序指令，这些计算机程序用来实现系统功能。存储介质是通过一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。通过计算机或其他可编程数据处理设备的处理器执行计算机程序指令可以用于实现系统中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。