CN115345297A

CN115345297A - 一种基于生成对抗网络的台区样本生成方法及系统

Info

Publication number: CN115345297A
Application number: CN202210968966.9A
Authority: CN
Inventors: 谢红涛; 李乐萍; 陈芳; 许皓; 贾轩; 刘希峰; 任艺婧; 王予希; 武乃虎; 何荣凯; 许强; 李先栋; 马红杰
Original assignee: State Grid Corp of China SGCC; Liaocheng Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Liaocheng Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-15

Abstract

本发明提出了一种基于生成对抗网络的台区样本生成方法及系统，包括：获取原始台区样本并进行预处理；生成式对抗网络模型的搭建与训练，将预处理后的台区样本数据输入该模型进行训练，获得训练后的生成式对抗网络模型；改变生成式对抗网络模型的生成器生成数据规模，对生成数据：原始数据不同情况下的生成式对抗网络模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。在一定程度上降低了对台区样本的依赖，扩大了数据驱动算法在台区分析的应用范围。

Description

一种基于生成对抗网络的台区样本生成方法及系统

技术领域

本发明属于电力大数据处理技术领域，尤其涉及一种基于生成对抗网络的台区样本生成方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

光伏、风电等可再生能源高比例的接入电网，导致电网运行和拓扑结构的复杂性显著增强，通过传统机理建模已难以满足精益化分析的需要。随着先进计量技术及信息系统的发展，电力数据大量积累，大数据建模逐渐成为主流。充足数量的训练样本是大数据分析的前提和基础，然而在实际的运行工况下台区终端采集数据整体数据质量不稳定，存在“大数据、小样本”的问题。训练样本不充足会导致模型泛化能力和鲁棒性差，从而影响台区线损分析与计算的准确性，这成为数据挖掘技术在台区实际应用的瓶颈之一。

通过合理的方式利用有限的数据进行数据扩充生成更多的高度仿真数据，从而提高大数据处理算法的准确率的方式称为数据增强。目前对于工业领域的数据来说，数据增强的方法可分为传统数据增强方法和深度生成式数据增强方法。传统的数据增强方法通过对数据集中样本量较少的类别进行重复采样进而实现样本扩充。然而简单的复制原始样本会使得新样本与原始数据过于相似，出现过拟合的问题。与此同时，传统的过采样方法大都是根据低维数据的特征空间设计的，因此难以处理高维数据。高维数据复杂度高且表征难度大，通过传统的数据增强方法需要极大的计算量，且精度难以满足实际工况分析的需要。

深度学习在传统机器学习的基础上，通过多隐层挖掘数据更深层次特征，在处理高维数据横向和纵向的关联性方面有较好的表现。

在深度生成式数据增强方法中，变分自动编码器(Variational Autoencoder，VAE)和生成式对抗网络(Generative Adversarial Network，GAN)为两个常见且被广泛应用的模型。VAE算法是指通过显式方法找到原始数据的概率密度并最小化对数似然函数下限来得到最优解。但把数据拟合到有限维度的混合高斯或者其他分布上，不符合预设分布的数据，生成效果就会很差。

台区样本数据具有维度高、复杂度高且非线性的特点，并且高质量样本匮乏，这限制了数据驱动算法在台区运行分析中的应用。因此，如何针对台区样本的特征对其进行扩容处理是需要解决的关键技术问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于生成对抗网络的台区样本生成方法，实现在保证样本多样性的条件下增大样本容量，以满足后续数据挖掘的需要。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了一种基于生成对抗网络的台区样本生成方法，包括：

获取原始台区样本并进行预处理；

生成式对抗网络模型的搭建与训练，将预处理后的台区样本数据输入该模型进行训练，获得训练后的生成式对抗网络模型；

改变生成式对抗网络模型的生成器生成数据规模，对生成数据：原始数据不同情况下的生成式对抗网络模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。

作为进一步的技术方案，所述生成式对抗网络模型的训练过程为：

初始化生成器和判别器的网络超参数；

将噪声向量输入生成器用以生成伪数据，将原始台区样本和伪数据共同输入判别器中，判别器输出判别概率；

交替迭代训练生成器和判别器，最终判别器输入概率为0.5，即判别器无法判断数据的真实来源，达到纳什平衡，此时生成器输出数据最接近原始台区样本数据的分布。

作为进一步的技术方案，获取原始台区样本并进行预处理，具体为：

在获取台区样本数据后，首先进行属性数据的剔除，属性数据指的是目标台区的专属特征数据，包括台区ID、所属地市和台区名称。

作为进一步的技术方案，原始台区样本进行预处理还包括：

进行异常数据的识别，设某组数据点为X＝{x₁,x₂,x₃,...,x₂₄}，通过t-1和t-2时刻的量测值预测t时刻的量测值，并通过预测值与真实值之间的差值是否超过阈值判断t时刻的量测值是否为异常值，公式如下：

设定阈值为ΔE，当

时，则判定t时刻量测值为异常值，标记并进行下一步异常值处理操作。

作为进一步的技术方案，还包括：针对识别出的异常数据点进行修正，设某组数据点中存在异常值x_i，将该异常值附近前后各K个邻近的数据点求取平均值作为该异常值的修正值。

作为进一步的技术方案，对于台区样本数据中缺失值的补齐，采用滚动修正法，公式如下：

其中，x_i表示填充后的时序类运行数据，i表示时间点取值为1到24；α₁和α₂表示缺失值前后两天对应时刻和前后两个时间点台区时序类运行数据的加权系数，设置为0.5。

第二方面，公开了一种基于生成对抗网络的台区样本生成系统，包括：

原始台区样本获取模块，被配置为：获取原始台区样本并进行预处理；

生成式对抗网络模型训练模块，被配置为：生成式对抗网络模型的搭建与训练，将预处理后的台区样本数据输入该模型进行训练，获得训练后的生成式对抗网络模型；

生成数据输出模块，被配置为：改变生成式对抗网络模型的生成器生成数据规模，对生成数据：原始数据不同情况下的生成式对抗网络模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。

以上一个或多个技术方案存在以下有益效果：

本发明通过生成对抗网络，实现了对台区样本的扩容处理，特别适用于某些工况下无法获得大量高质量的台区样本数据，进一步限制了数据挖掘技术应用的场景。台区作为电网的最末端环节，数据采集、传输的基础设施条件并不好，导致样本数据的质量不理想，有效样本的数量不足。生成对抗网络可在此类情况下基于少量台区样本生成与原始样本分布相似的伪数据，为进一步基于台区样本数据进行的台区理论线损分析、台区异常研判或台区故障快速定位等提供了良好的数据支撑。

本发明根据台区样本特性进行数据预处理工作，经过数据质量校核、异常值及缺失值的处理和标准化处理后，台区线损样本“生数据”变成可供数据挖掘处理的“熟数据”，极大地提高的数据的可用性。

本发明通过观察数据规模变化对GAN模型性能的影响，可为台区样本扩容过程中生成数据规模的选择提供有益的借鉴。

本发明利用生成对抗网络进行数据增强，在保证样本多样性的条件下增大样本容量。与此同时，相比于传统的数据增强方法来说，通过生成对抗网络进行数据增强，无需对原始数据的分布进行假设，提供了一种便捷、快速且有效的台区样本生成方法，在一定程度上降低了对台区样本的依赖，扩大了数据驱动算法在台区分析的应用范围。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例方法的流程图；

图2为本发明实施例步骤二的具体实现过程示意图；

图3为本发明实施例步骤七的具体实现过程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

正如背景技术中所描述的，目前的技术现状是：当前对于台区样本数据处理方面，缺少针对台区特性的样本生成方法。

采用传统的数据增强方法进行样本扩容是一种可行的解决思路，但现有的传统方法是对原始数据的简单复制或需对数据分布进行预设，无法便捷、快速且有效的进行台区样本扩容。

实施例一

参见附图1所示，本实施例公开了一种基于生成对抗网络的台区样本生成方法，，包括：

在数据中台获取所需要的台账数据和台区运行数据等；

针对台区样本数据的特性，通过合理的方式对其开展预处理工作，其中包括台区样本质量校核、异常数据的识别及修正、缺失值的补齐及数据的归一化处理，得到可直接供数据挖掘所用的“熟数据”；

然后根据台区样本多维和非线性的特点，搭建GAN模型；

为使GAN模型具有最佳性能；改变生成数据集规模大小，观察模型性能变化，以确定模型性能最佳时的最优生成数据集规模并输出生成数据。

为了更加高效的实现台区样本数据预处理工作，本实施例子还公开了：在获取台区样本数据后，首先通过决策树模型进行数据质量校核。进一步对异常数据进行识别，并通过K邻近互补法进行修正。通过类比电力负荷曲线缺失值处理的滚动修正法，对台区的时间序列数据中的缺失值进行补齐处理。最后，通过max-min标准化法对台区原始数据进行归一化处理。

为了实现更加便捷、快速且有效的台区样本生成方法，本实施例子还公开了：在GAN模型的搭建中，生成器G用于生成新的台区样本数据，具体过程为：将一随机噪声向量输入至生成器G中，输出为生成的台区样本数据，通过迭代训练判别器D和生成器G，使得生成器生成数据越来越接近于原始数据的分布。

其结构由三层全连接网络构成，第一层与第二层激活函数选择tanh，第三层网络的激活函数选择linear。tanh函数即为双曲正切函数，能够将分布差异巨大的各数据映射至[0,1]区间内，其公式如下：

linear函数即为线性激活函数，即不做任何的改变，其公式如下：

linear(x)＝x

在第三层网络激活函数的选择中，选择linear作为激活函数的原因是为了保持生成数据本身的差异性。判别器D结构与生成器G结构相似，也是由三层全连接网络组成，区别在于第三层激活函数选择为sigmoid，将输出映射至[0,1]区间，表示判别器D的判别概率，其公式如下：

参见附图1所示，上述方法的具体步骤如下：

步骤一：调用数据中台的台区样本数据，其中包括台区的台账数据和运行数据等。台账数据包括如非居民用户数、居民用户数、光伏用户数、台区变压器容量、居民用电量占台区总用电量比例、台区月总供入电量、台区月总售电量、电能表总数、抄表成功率及对应的台区月线损率等。

步骤二：在数据处理之前，还应进行属性数据的剔除。属性数据指的是目标台区的专属特征数据，包括台区ID、所属地市和台区名称等。进一步，通过决策树模型进行台区样本的数据质量校核。

需要说明的是：数据中台是所有台区样本调用时的一个平台，一般选择数据质量较好的样本数据作为目标台区样本，将这些个目标台区样本挑选出来作为实验数据。

步骤三：进行异常数据的识别与修正，设某组数据点为X＝{x₁,x₂,x₃,...,x₂₄}。通过t-1和t-2时刻的量测值预测t时刻的量测值，并通过预测值与真实值之间的差值是否超过阈值判断t时刻的量测值是否为异常值，公式如下：

设定阈值为ΔE，当

设数据点X中存在异常值x_i，将该异常值附近前后各K个邻近的数据点求取平均值作为该异常值的修正值，公式如下：

步骤四：对于缺失值，由于台区时序类运行数据一般具有波动周期特性，按照该特性分别计算缺失值前后相邻两日相同时间点的用能值、缺失值前后两个时间点的用能的均值，结合后一日相对前一日的用能变化率法，以时序类运行数据的均值加上用能变化量填充空缺值，公式如下：

其中，x_i表示填充后的时序类运行数据，i表示时间点取值为1到24；α₁和α₂表示缺失值前后两天对应时刻和前后两个时间点时序类运行数据的加权系数，一般设置为0.5。

步骤五：通过max-min标准化法对台区原始数据进行归一化处理，公式如下：

在所获取的台区样本中，各特征参数数量级可能差别较大，例如台区用户个数与台区售电量等。因此，在进行数据标准化时，可采用每个特征参数分别进行标准化的方式，公式如下：

上述步骤二的具体实现过程如图2所示。

步骤六：按照上述步骤对台区样本数据进行预处理后，搭建GAN模型。GAN模型包括两部分，生成器G和判别器D，其中生成器G的结构由三层全连接网络构成，第一层与第二层激活函数选择tanh函数，第三层网络的激活函数选择linear函数；判别器D网络结构与生成器网络结构相似，也是由三层全连接网络组成，区别在于第三层激活函数选择为sigmoid，将输出映射至[0,1]区间，表示判别器的判别概率。

步骤七：生成器G和判别器D交替迭代训练，完成整个GAN模型的训练。生成器G的作用为将输入的随机噪声生成接近于真实数据点X_real分布的生成数据点X_generated＝G(z)，以使得判别器D无法判别数据为真实数据点还是生成数据点。GAN的目标函数为

D(x)＝p_data/(p_data+p_z)

D(G(z))＝p_z/(p_data+p_z)

其中，x为真实数据，p_data为真实数据分布，p_z为生成数据分布，D(x)表示判别器判断数据来自于原始数据库的概率，D(G(z))表示判别器判断数据来自于生成器的概率，

是指在真实数据分布下的期望输出，

是指在生成数据分布下的期望输出。

对于生成器G来说，因为是对生成样本的期望，所以只有后面部分，期望D(G(z))趋向于1，所以使得目标函数减小。其优化公式为：

对于判别器D来说，目的是判断数据的真实来源，当真实样本的标签为1，生成样本的标签为0时，期望真实图像越来越接近于1，也就是说使得D(x)为1，而生成的图像越来越接近于0，D(G(z))＝0，所以目标函数会增大。其优化公式为：

针对台区样本生成的生成器G损失函数为均方误差MSE，判别器D损失函数为交叉熵损失函数(Cross-entropy)。均方误差用来反映输出与期望的差，交叉熵损失函数用来评估当前训练得到的概率分布与期望输出的概率分布的差异情况。在训练GAN的过程中，生成器G和判别器D通过交替训练，更新网络参数，目标函数在连续迭代过程中得到优化，直到达到纳什平衡。

步骤八：改变生成器生成数据规模，如对生成数据：原始数据＝1:1、1:2、2:1三种情况下的GAN模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供了基于生成对抗网络的台区样本生成系统，包括：

数据采集模块，被配置为：用于调用数据中台的台区样本数据，其中包括台区的台账数据和运行数据等；

数据预处理模块，被配置为：通过合理的数据预处理方法进行数据质量校核、数据清洗和归一化处理，使得台区样本“生数据”转化为可供数据挖掘处理的“熟数据”；

台区样本生成模块，被配置为：通过GAN模型进行台区样本生成；

GAN模型性能优化模块，被配置为：改变生成器生成数据规模，如对生成数据：原始数据＝1:1、1:2、2:1三种情况下的GAN模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。

上述数据预处理模块中，具体对台区样本数据进行处理的方式为：作为更进一步的技术方案，原始数据预处理工作的具体实现方式为：

在获取台区样本数据后，首先进行属性数据的剔除。属性数据指的是目标台区的专属特征数据，包括台区ID、所属地市和台区名称等；

建立数据质量校核决策树模型；

进行异常数据的识别，设某组数据点为X＝{x₁,x₂,x₃,...,x₂₄}。通过t-1和t-2时刻的量测值预测t时刻的量测值，并通过预测值与真实值之间的差值是否超过阈值判断t时刻的量测值是否为异常值，公式如下：

设定阈值为ΔE，当

进一步的，针对识别出的异常数据点进行修正。设某组数据点中存在异常值x_i，将该异常值附近前后各K个邻近的数据点求取平均值作为该异常值的修正值，公式如下：

对于台区样本数据中缺失值的补齐，类比对于电力负荷曲线的缺失值处理—滚动修正法，公式如下：

其中，x_i表示填充后的时序类运行数据，i表示时间点取值为1到24；α₁和α₂表示缺失值前后两天对应时刻和前后两个时间点台区时序类运行数据的加权系数，一般设置为0.5。

通过max-min标准化法对台区原始数据进行归一化处理，公式如下：

上述台区样本生成模块中，GAN模型的结构设计具体为：

GAN模型包括两部分，生成器G和判别器D，其中生成器G的结构由三层全连接网络构成，第一层与第二层激活函数选择tanh函数，第三层网络的激活函数选择linear函数；

判别器D网络结构与生成器网络结构相似，也是由三层全连接网络组成，区别在于第三层激活函数选择为sigmoid，将输出映射至[0,1]区间，表示判别器的判别概率。

上述台区样本生成模块中，GAN模型具体的训练过程为：

初始化生成器D和判别器G的网络超参数；

将噪声向量输入生成器G用以生成伪数据，将原始台区样本和伪数据共同输入判别器G中，判别器输出判别概率；

交替迭代训练生成器G和判别器D，最终判别器D输入概率为0.5，即判别器无法判断数据的真实来源，达到纳什平衡。此时生成器G输出数据最接近原始台区样本数据的分布。

本实施例子的生成对抗网络作为一种无监督的数据生成模型，是通过对抗的方式缩小模型与目标分布的差距，使得生成结果不局限于原始数据的分布，且克服了需要人工预设数据分布的缺陷。

实施例二

本实施例的目的是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

实施例四

本实施例的目的是提供基于生成对抗网络的台区样本生成系统，包括：

GAN模型性能优化模块，被配置为：改变生成数据规模，观察生成数据规模改变对于GAN模型性能的影响，如对生成数据：原始数据＝1:1、1:2、2:1三种情况下的GAN模型损失函数进行分析，以确定最佳生成数据集规模，并输出生成数据。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于生成对抗网络的台区样本生成方法，其特征是，包括：

获取原始台区样本并进行预处理；

2.如权利要求1所述的一种基于生成对抗网络的台区样本生成方法，其特征是，所述生成式对抗网络模型的训练过程为：

初始化生成器和判别器的网络超参数；

3.如权利要求1所述的一种基于生成对抗网络的台区样本生成方法，其特征是，获取原始台区样本并进行预处理，具体为：

4.如权利要求3所述的一种基于生成对抗网络的台区样本生成方法，其特征是，原始台区样本进行预处理还包括：

设定阈值为ΔE，当

5.如权利要求4所述的一种基于生成对抗网络的台区样本生成方法，其特征是，还包括：针对识别出的异常数据点进行修正，设某组数据点中存在异常值x_i，将该异常值附近前后各K个邻近的数据点求取平均值作为该异常值的修正值。

6.如权利要求5所述的一种基于生成对抗网络的台区样本生成方法，其特征是，对于台区样本数据中缺失值的补齐，采用滚动修正法，公式如下：

7.一种基于生成对抗网络的台区样本生成系统，其特征是，包括：

8.如权利要求7所述的一种基于生成对抗网络的台区样本生成系统，其特征是，生成式对抗网络模型包括生成器及判别器；

所述生成器用于生成新的台区样本数据，由三层全连接网络构成，第一层与第二层激活函数选择tanh，第三层网络的激活函数选择linear，在第三层网络激活函数的选择中，选择linear作为激活函数用于保持生成数据本身的差异性；

判别器结构与生成器G结构相似，也是由三层全连接网络组成，区别在于第三层激活函数选择为sigmoid，将输出映射至[0,1]区间，表示判别器的判别概率。

9.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-6任一所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-6任一所述的方法的步骤。