CN114091615A

CN114091615A - 一种基于生成对抗网络的电能计量数据补全方法和系统

Info

Publication number: CN114091615A
Application number: CN202111425843.2A
Authority: CN
Inventors: 刘德荣; 叶佳锐; 王永华; 魏庆来
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-25

Abstract

本发明公开了一种基于生成对抗网络的电能计量数据补全方法和系统，涉及数据补全的技术领域，所述方法包括：获取矩阵形式的电能计量数据的完整历史数据集和缺失数据集；构建生成对抗网络，利用完整历史数据集对生成对抗网络进行训练，获得训练好的生成对抗网络；根据缺失数据集中缺失数据的位置生成掩码矩阵；对缺失数据集进行预处理，获得预处理后的缺失数据集；将预处理后的缺失数据集和掩码矩阵输入训练好的生成对抗网络，获得初始补全数据集；对初始补全数据集进行处理，利用处理后的初始补全数据集对缺失数据集进行补充，获得最终补全数据集。本发明可以在数据缺失较多时对数据准确补充，获得完整的数据。

Description

一种基于生成对抗网络的电能计量数据补全方法和系统

技术领域

本发明涉及数据补全的技术领域，更具体地，涉及一种基于生成对抗网络的电能计量数据补全方法和系统。

背景技术

数据缺失在电力负荷采集过程中经常发生，对后续利用电能计量数据进行大数据分析造成了极大的阻碍。目前的针对缺失时间序列数据缺失补全的算法只适用于缺失数据量较小的情况下，对于缺失数据较多的情况往往表现不佳。数据缺失的主要原因如下：(1)使用过程中设备损坏；(2)外界原因如气候因素对数据采集设备造成影响导致数据缺失；(3)计量过程中，由于检测仪器的精度或外部影响，采集的数据中存在异常值，在数据处理的过程中缺失异常值产生的数据缺失。综上，为了能够更好的利用电能计量数据，如将收集的电能计量数据用于电力负荷的预测或对用电客户的用电行为习惯大数据分析时，需要对缺失的数据进行补全处理。目前，已有方法对缺失数据进行补全时，基于最简单的插值的方法，如线性插值、三次样条插值和Hermite插值等。上述方法具有容易实现、计算简洁的优点，但随着缺失数据的增多，补全效果无法令人满意。基于机器学习的方法如利用支持向量机构造缺失数据补全框架，也不适用于缺失数据较多的情况。

现有技术公开了一种基于Kmeans和T-LSTM的负荷数据补全方法，包括以下步骤：构建数据模型；K种负荷区间的数据分别训练得到对应的K种数据模型；定时取待补全数据的当天负荷数据；计算当天负荷数据的平均值；根据平均值获取对应的数据模型；将待补全负荷数据输入对应的数据模型中，计算得到补全的完整负荷数据。该技术方案需要利用的当天负荷数据把相似特征的负荷数据归为一类，当某天负荷数据确实较多时，就无法实现对数据的准确补全。

发明内容

本发明为克服上述现有技术在缺失较多数据时，无法准确对数据进行补全的缺陷，提供一种基于生成对抗网络的电能计量数据补全方法和系统，可以在数据缺失较多时准确补充，获得完整的数据。

为解决上述技术问题，本发明的技术方案如下：

本发明提供了一种基于生成对抗网络的电能计量数据补全方法，包括：

S1：获取矩阵形式的电能计量数据的完整历史数据集和缺失数据集；

S2：构建生成对抗网络，利用完整历史数据集对生成对抗网络进行训练，获得训练好的生成对抗网络；

S3：根据缺失数据集中缺失数据的位置生成掩码矩阵；

S4：对缺失数据集进行预处理，获得预处理后的缺失数据集；

S5：将预处理后的缺失数据集和掩码矩阵输入训练好的生成对抗网络，获得初始补全数据集；

S6：对初始补全数据集进行处理，利用处理后的初始补全数据集对缺失数据集进行补充，获得最终补全数据集。

优选地，所述步骤S3中，根据缺失数据集中缺失数据的位置生成掩码矩阵的具体方法为：

掩码矩阵M维度与缺失数据集X的维度相同，包含的元素由0，1构成；若缺失数据集X中第i行第j列的元素x_ij缺失时，掩码矩阵M中对应第i行第j列的元素m_ij取值置为0；若缺失数据集X中第i行第j列的元素x_ij没有缺失时，掩码矩阵M中对应第i行第j列的元素m_ij取值置为1。

优选地，所述步骤S4的具体方法为：

S4.1：对缺失数据集X进行归一化处理，获得归一化处理后的缺失数据集X^*；

S4.2：生成0到1之间的随机数，填入归一化处理后的缺失数据集X^*中数据缺失的位置，获得预处理后的缺失数据集

优选地，所述步骤S4.1中，对缺失数据集中的数据进行归一化处理的具体方法为：

对缺失数据集X中数据在时间维度上进行归一化处理，归一化公式为：

式中，x_ij表示缺失数据集X中第i行第j列的元素，min(X[:,j])表示缺失数据集X中第j列元素的最小值，max(X[:,j])表示缺失数据集X中第j元素的最大值。

优选地，所述步骤S4.2的具体方法为：

利用随机矩阵生成器生成随机矩阵Z，维度与掩码矩阵M维度相同，元素z_ij均为0-1之间的随机数；全1矩阵的维度与掩码矩阵M维度相同，利用全1矩阵与掩码矩阵M维度相减后，与随机矩阵Z进行哈达玛乘积运算，使随机矩阵Z中的元素位置与归一化处理后的缺失数据集X^*中数据缺失的位置一一对应，相加后形成预处理后的缺失数据集

表示为：

式中，Z表示随机矩阵，⊙表示哈达玛乘积，1表示全1矩阵。

优选地，所述步骤S5的具体过程为：

S5.1：生成对抗网络包括生成器和判别器；将预处理后的缺失数据集

和掩码矩阵M拼接后输入生成器，产生补充矩阵X_g，利用补充矩阵X_g中的元素

替换预处理后的缺失数据集

中的元素z_ij，生成器输出初始补全数据集

S5.2：利用随机数生成器生成提示矩阵H，将初始补全数据集

与提示矩阵H拼接后输入辨别器，同时将掩码矩阵M也输入辨别器中，辨别器输出概率矩阵P；

S5.3：根据预处理后的缺失数据集

补充矩阵X_g、掩码矩阵M、概率矩阵P构建生成器和辨别器的损失函数，并计算损失函数的损失值，利用反向传播算法对生成器和辨别器的网络参数进行更新；

S5.4：重复步骤S5.1-S5.3，直到生成对抗网络收敛，输出生成对抗网络收敛时对应的初始补全数据集

生成对抗网络中的生成器和判别器具有相同的网络结构，均是三层的全连接神经网络，输入维度均为2L_t，输出维度均为L_t，其中L_t表示矩阵形式的缺失数据集在时间维度上的长度。

优选地，所述步骤S5.3中，生成器的损失函数为：

辨别器的损失函数为：

L_D＝∑[M_ilog(P_i)+(1-M_i)log(1-P_i)]

式中，G表示生成器，

表示补充矩阵X_g中第i行元素，

表示预处理后的缺失数据集

中第i行元素，M_i表示掩码矩阵M中第i行元素，P_i表示概率矩阵P中第i行元素。

优选地，所述步骤S6中，对初始补全数据集进行处理为去归一化操作，具体方法为：

对初始补全数据集中的元素

进行去归一化处理，去归一化公式为：

式中，min(X[:,j])表示缺失数据集X中第j列元素的最小值，max(X[:,j])表示缺失数据集X中第j列元素的最大值。初始补全数据集中的元素均是经过了归一化处理的，在利用归一化处理时使用的缺失数据集X中第j列元素的最小值和最大值执行去归一化操作后，数据的数值区间才可适应缺失数据集。

优选地，所述步骤S2中，获得训练好的生成对抗网络的具体方法为：

S2.1：随机对完整历史数据集中的数据进行剔除，使其转化为缺失数据集；

S2.2：根据缺失数据集中缺失数据的位置生成掩码矩阵；

S2.3：对缺失数据集进行预处理，获得预处理后的缺失数据集；

S2.4：利用预处理后的缺失数据集和掩码矩阵对构建的生成对抗网络进行训练，直到生成对抗网络收敛，保存相应的网络参数，获得训练好的生成对抗网络。

本发明还提供了一种基于生成对抗网络的电能计量数据补全系统，包括：

数据获取模块，用于获取矩阵形式的电能计量数据的完整历史数据集和缺失数据集；

网络训练模块，用于构建生成对抗网络，利用完整历史数据集对生成对抗网络进行训练，获得训练好的生成对抗网络；

矩阵生成模块，根据缺失数据集中缺失数据的位置生成掩码矩阵；

预处理模块，用于对缺失数据集进行预处理，获得预处理后的缺失数据集；

初始补全模块，用于将预处理后的缺失数据集和掩码矩阵输入训练好的生成对抗网络，获得初始补全数据集；

最终补全模块，用于对初始补全数据集进行处理，利用处理后的初始补全数据集对缺失数据集进行补充，获得最终补全数据集。

与现有技术相比，本发明技术方案的有益效果是：

本发明同时收集电能计量数据的完整历史数据集和缺失数据集，利用完整历史数据集对构建的生成对抗网络进行训练，充分挖掘利用了完整历史数据隐藏的统计信息特征，获得的训练好的生成对抗网络具备完整历史数据的隐藏的统计信息特征，可以适应大量数据缺失的情况；之后根据缺失数据的位置生成掩码矩阵，结合预处理后的缺失数据集，共同输入训练好的生成对抗网络，获得初始补全数据集，进行处理后再对缺失数据集进行补充，获得准确的最终补全数据集。本发明可以在数据缺失较多时对数据准确补充，获得完整的数据。

附图说明

图1为实施例1所述的一种基于生成对抗网络的电能计量数据补全方法的流程图；

图2为实施例2所述的一种基于生成对抗网络的电能计量数据补全方法的数据示意图；

图3为实施例3所述的一种基于生成对抗网络的电能计量数据补全系统的结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供了一种基于生成对抗网络的电能计量数据补全方法，如图1所示，包括：

S3：根据缺失数据集中缺失数据的位置生成掩码矩阵；

在具体实施过程中，同时收集完整历史数据集和缺失数据集，利用完整历史数据集对构建的生成对抗网络进行训练，充分挖掘利用了完整历史数据隐藏的统计信息特征，获得的训练好的生成对抗网络具备完整历史数据的隐藏的统计信息特征，可以适应大量数据缺失的情况；之后根据缺失数据集中缺失数据的位置生成掩码矩阵，同时对缺失数据集进行预处理，将预处理后的缺失数据集和掩码矩阵共同输入训练好的生成对抗网络，获得初始补全数据集；对初始补全数据集进行处理，再对缺失数据集进行补充，获得准确的最终补全数据集。本实施例可以在数据缺失较多时对数据准确补充，获得完整的数据。

实施例2

本实施例提供了一种基于生成对抗网络的电能计量数据补全方法，尤其适用于电能计量数据，包括：

生成对抗网络包括生成器和判别器，生成器和判别器具有相同的网络结构，均是三层的全连接神经网络，输入维度均为2L_t，输出维度均为L_t，其中L_t表示矩阵形式的缺失数据集在时间维度上的长度；训练过程具体为：

S2.2：根据缺失数据集中缺失数据的位置生成掩码矩阵；

掩码矩阵M维度与缺失数据集X的维度相同，包含的元素由0，1构成；若缺失数据集X中第i行第j列的元素x_ij缺失时，掩码矩阵M中对应第i行第j列的元素m_ij取值置为0；若缺失数据集X中第i行第j列的元素x_ij没有缺失时，掩码矩阵M中对应第i行第j列的元素m_ij取值置为1；

S2.3：对缺失数据集进行预处理，获得预处理后的缺失数据集，具体为：

S2.3.1：对缺失数据集X进行归一化处理，获得归一化处理后的缺失数据集X^*；对缺失数据集X中数据在时间维度上进行归一化处理，归一化公式为：

式中，x_ij表示缺失数据集X中第i行第j列的元素，min(X[:,j])表示缺失数据集X中第j列元素的最小值，max(X[:,j])表示缺失数据集X中第j列元素的最大值；

S2.3.2：生成0到1之间的随机数，填入归一化处理后的缺失数据集X^*中数据缺失的位置，获得预处理后的缺失数据集

具体为：

表示为：

式中，Z表示随机矩阵，⊙表示哈达玛乘积，1表示全1矩阵。

S2.4：利用预处理后的缺失数据集和掩码矩阵对构建的生成对抗网络进行训练，直到生成对抗网络收敛，保存相应的网络参数，获得训练好的生成对抗网络，具体的：

S2.4.1：将预处理后的缺失数据集

替换预处理后的缺失数据集

中的元素z_ij，生成器输出初始补全数据集

S2.4.2：利用随机数生成器生成提示矩阵H，将初始补全数据集

S2.4.3：根据预处理后的缺失数据集

生成器的损失函数为：

辨别器的损失函数为：

式中，G表示生成器，

表示补充矩阵X_g中第i行元素，

表示预处理后的缺失数据集

中第i行元素，M_i表示掩码矩阵M中第i行元素，P_i表示概率矩阵P中第i行元素；

在生成对抗网络训练过程中，计算

时，选取第i行的所有元素进行计算。

S2.4.4：重复步骤S2.4.1-S2.4.3，直到生成对抗网络收敛，保存相应的网络参数，获得训练好的生成对抗网络。

S3：如图2所示，根据缺失数据集中缺失数据的位置生成掩码矩阵；

S4：对缺失数据集进行预处理，获得预处理后的缺失数据集，具体为：

式中，x_ij表示缺失数据集X中第i行第j列的元素，min(X[:,j])表示缺失数据集X中第j列元素的最小值，max(X[:,j])表示缺失数据集X中第j元素的最大值；

表示为：

式中，Z表示随机矩阵，⊙表示哈达玛乘积，1表示全1矩阵；

S5：将预处理后的缺失数据集和掩码矩阵输入训练好的生成对抗网络，获得初始补全数据集，具体为：

S5.1：将预处理后的缺失数据集

替换预处理后的缺失数据集

中的元素z_ij，生成器输出初始补全数据集

S5.2：利用随机数生成器生成提示矩阵H，将初始补全数据集

S5.3：根据预处理后的缺失数据集

生成器的损失函数为：

辨别器的损失函数为：

L_D＝∑[M_ilog(P_i)+(1-M_i)log(1-P_i)]

式中，G表示生成器，

表示补充矩阵X_g中第i行元素，

表示预处理后的缺失数据集

在数据补全过程中，计算

时，仅取第i行中不是缺失位置的元素进行计算；

对初始补全数据集进行处理为去归一化操作，具体方法为：

对初始补全数据集中的元素

进行去归一化处理，去归一化公式为：

在具体实施过程中，本实施例提供的方法包含预训练和补全两个过程；对获取的完整历史数据随机剔除部分数据，人工构造出缺失数据集，利用与补全过程相同的步骤对人工构造出的缺失数据集进行处理，对构建的生成对抗网络进行训练，通过计算损失函数的损失值，对网络参数进行更新，直到网络收敛，获得对应的初始补全数据集，进而获得最终补全数据集；计算最终补全数据集的均方根误差，重复上述步骤，直到均方根误差小于预设的误差阈值时，保存此时生成对抗网络的网络参数，获得训练好的生成对抗网络，此时的生成对抗网络具备完整历史数据的隐藏的统计信息特征，可以适应大量数据缺失的情况；之后再将自然的缺失数据集进行相同处理，输入训练好的生成对抗网络，最后获得的最终补全数据集准确完整，符合历史数据的隐藏的统计信息特征。S2.5：对初始补全数据集进行处理，利用处理后的初始补全数据集对缺失数据集进行补充，获得最终补全数据集X_out；计算最终补全数据集的均方根误差对补全效果就行评价，均方根误差的计算公式为：

下面基于公开数据集ElectricityLoadDiagrams20112014 Data Set对本实施例提出的一种基于生成对抗网络的电能计量数据补全方法进行验证：

ElectricityLoadDiagrams20112014 Data Set是从2011年到2014年之间，321个客户每15分钟记录一次千瓦时的用电量，在本实施例中将数据转换为反映每小时的消耗量，取2014年1月到2014年6月的数据作为完整历史数据，2014年9月的数据作为缺失数据集，以20％的数据缺失对完整历史数据进行剔除，利用上述方法对构建的生成对抗网络进行训练；训练完成后，对缺失数据集进行补全，计算出的均方根误差为0.064437，补全结果准确。

实施例3

本实施例提供了一种基于生成对抗网络的电能计量数据补全系统，如图3所示，包括：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。