CN114860709A - 一种基于Bi-GAN的电力系统缺失值填补方法 - Google Patents

一种基于Bi-GAN的电力系统缺失值填补方法 Download PDF

Info

Publication number
CN114860709A
CN114860709A CN202210555802.3A CN202210555802A CN114860709A CN 114860709 A CN114860709 A CN 114860709A CN 202210555802 A CN202210555802 A CN 202210555802A CN 114860709 A CN114860709 A CN 114860709A
Authority
CN
China
Prior art keywords
data
gan
generator
missing
power system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210555802.3A
Other languages
English (en)
Inventor
崔婧
刘晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210555802.3A priority Critical patent/CN114860709A/zh
Publication of CN114860709A publication Critical patent/CN114860709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Water Supply & Treatment (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Bi‑GAN的电力系统缺失值填补方法,涉及智能化电力系统技术领域,包括以下步骤:步骤1:收集来自于包含有缺失值的电力数据,首先对数据进行归一化预处理和特殊值处理,并构建缺失位置编码向量;步骤2:双向对抗生成对抗网络Bi‑GAN是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由生成器G、判别器D、编码器E组成,当将预处理后的数据传入Bi‑GAN网络的中,通过生成器G与判别器D之间的博弈,最终生成一份与原始数据集有着同样分布的完整数据集;步骤3:使用损失函数来降低新生成样本G(E(x))与原始数据x之间的差异;步骤4:使用填充损失函数来对电力系统中的缺失数据进行填充。

Description

一种基于Bi-GAN的电力系统缺失值填补方法
技术领域
本发明涉及智能化电力系统技术领域,具体为一种基于Bi-GAN的电力系统缺失值填补方法。
背景技术
随着智能化电力系统的建设,爆炸式的海量数据带来了新的挑战,测量采样、信息传输和数据存储处理不当会导致数据丢失,从而破坏数据完整性,使得数据质量下降,影响电力消耗预测精度。
目前国内外电力系统缺失值填补方法主要分为直接删除法、基于统计分析的数据填补法、基于机器学习的数据填补方法。直接删除法主要以删除缺失的数据来使得数据完整,当样本缺失数量比较大时,不利于挖掘电力消耗预测的隐含发展规律。基于统计分析的数据填补法根据原始数据的统计信息来填充缺失值,主要包括平均值填补、热卡填补、冷卡填补、特殊值填补、回归等方法,这类填补方法缺乏对每个样本的独立特性的考虑。基于机器学习的数据填补方法利用机器学习算法包括K最邻近法(K-Nearest Neighbor,KNN)、自编码器(Autoencoder,AE)等,这些方法虽然准确率较高,但是没有考虑两个相邻数据间的时序信息。
本发明提供了一种基于Bi-GAN的电力系统缺失值填补方法,将改善电力系统中因设备故障、采集设备覆盖不足或操作人员错误等原因引起的所收集的数据存在丢失而导致数据质量降低的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于Bi-GAN的电力系统缺失值填补方法,解决了上述背景技术中提出的电力系统中因设备故障、采集设备覆盖不足或操作人员错误等原因引起的所收集的数据存在丢失而导致数据质量降低的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于Bi-GAN的电力系统缺失值填补方法,包括以下步骤:
步骤1:收集来自于包含有缺失值的电力数据,首先对数据进行归一化预处理和特殊值处理,并构建缺失位置编码向量;
步骤2:双向对抗生成对抗网络Bi-GAN是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由生成器G、判别器D、编码器E组成,当将预处理后的数据传入Bi-GAN网络的中,通过生成器G与判别器D之间的博弈,最终生成一份与原始数据集有着同样分布的完整数据集;
步骤3:使用损失函数来降低新生成样本G(E(x))与原始数据x之间的差异;
步骤4:使用填充损失函数来对电力系统中的缺失数据进行填充。
优选的,所述步骤1中,从电力系统中获取包含缺失值的电力数据,经过归一化处理使数据介于0~1之间,将数据中的空值替为特殊符号NULL,离散数值变量采用one hot编码,构建缺失值位置编码向量。
优选的,所述步骤2中,通过生成器与判别器之间的博弈
Figure BDA0003654929720000021
其中V(D,E,G)由下式计算:
Figure BDA0003654929720000022
其中,G是生成器、D为判别器,E为编码器,x代表包含缺失值的电力系统中的真实样本,z是先验分布的随机抽样,G(z)表示z生成的样本,y为数据源,若待判别数据来自真实样本x,则y=1;如果他来自生产的样本G(z),则y=0,Bi-GAN将原始数据x与其他提取的特征E(X)绑定,生成的样本G(z)与其先验分布样本z绑定,然后将两对标记为1和0;
训练BI-WAN网络中的判别器:将带有缺失值的电力数据X通过编码器映射到E(x),同时将任意分布采样的任意噪声z通过生成器映射G(z),然后分别将把合成后的数据(G(z),z)和(x,E(x))送入判别器中学习,通过更反向传播不断优化生成器和编码器,同时训练BI-WAN网络中的生成器和编码器:将训练数据输入编码器中,输出得到隐变量;将隐变量输入到生成器中,输出真实空间的特征表示,重构训练数据得到新生成样本G(E(x))形成双向学习;
在训练过程中编码器E与生成器G同时训练,使得在训练生成器G实现编码到潜在空间中的映射的同时,编码器E也实现了从数据空间至潜在空间的逆映射,这样就能快速准确的实现重构误差的计算。
优选的,所述步骤3中,为了使生成器的联合分布逼近编码器的联合分布,在Bi-GAN网络中使用KL散度衡量两个分布的差异,只要KL散度收敛达到最小时,BI-GAN达到最优解,但是KL散度在某些情况下会出现梯度爆炸的情况,为了解决这个问题,本专利中使用Wasserstein距离来优化原始GAN中的优化目标,增强训练过程中的稳定性,Wasserstein距离的数学定义式如下所示:
Figure BDA0003654929720000031
其中,Π(pr,pg)是以pr和pg为边缘分布的所有可能的联合概率分布γ的集合,E(x,y)~γ[||x-y||]是联合分布γ(x,y)的期望值,W(pr,pg)表示将pr移到pg需要将x移动到的最小距离,Wasserstein利用梯度下降的方法来优化参数模型。
优选的,所述步骤4中,由于预测处理数据的时候使用了数据归一化,因此在填充的时候要根据记录的属性的最大值和最小值还原得到最终的填充结果,如果要填充的数据预测是分类的问题是,采用交叉熵作为损失函数;归一化问题采用L2范数作为损失函数。
本发明提供了一种基于Bi-GAN的电力系统缺失值填补方法,具备以下有益效果:
该基于Bi-GAN的电力系统缺失值填补方法,通过利用双向生成对抗网络重建完整数据,与传统的缺失值补全算法相比,该发明具有更好的重建精度并且不需要大量完整的历史数据,可以在使用的过程中极大的降低使用时占用的数据资源和算力资源。
附图说明
图1为一种基于Bi-GAN的电力系统缺失值填补方法流程图;
图2为Bi-GAN模型的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1至图2,本发明提供一种技术方案:一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:包括以下步骤:
步骤1:收集来自于包含有缺失值的电力数据,首先对数据进行归一化预处理和特殊值处理,并构建缺失位置编码向量;
从电力系统中获取包含缺失值的电力数据,经过归一化处理使数据介于0~1之间,将数据中的空值替为特殊符号NULL,离散数值变量采用one hot编码,构建缺失值位置编码向量。
步骤2:双向对抗生成对抗网络Bi-GAN是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由生成器G、判别器D、编码器E组成,当将预处理后的数据传入Bi-GAN网络的中,通过生成器G与判别器D之间的博弈,最终生成一份与原始数据集有着同样分布的完整数据集;
通过生成器与判别器之间的博弈
Figure BDA0003654929720000051
其中V(D,E,G)由下式计算:
Figure BDA0003654929720000052
其中,G是生成器、D为判别器,E为编码器,x代表包含缺失值的电力系统中的真实样本,z是先验分布的随机抽样,G(z)表示z生成的样本,y为数据源,若待判别数据来自真实样本x,则y=1;如果他来自生产的样本G(z),则y=0,Bi-GAN将原始数据x与其他提取的特征E(X)绑定,生成的样本G(z)与其先验分布样本z绑定,然后将两对标记为1和0;
训练BI-WAN网络中的判别器:将带有缺失值的电力数据X通过编码器映射到E(x),同时将任意分布采样的任意噪声z通过生成器映射G(z),然后分别将把合成后的数据(G(z),z)和(x,E(x))送入判别器中学习,通过更反向传播不断优化生成器和编码器,同时训练BI-WAN网络中的生成器和编码器:将训练数据输入编码器中,输出得到隐变量;将隐变量输入到生成器中,输出真实空间的特征表示,重构训练数据得到新生成样本G(E(x))形成双向学习;
在训练过程中编码器E与生成器G同时训练,使得在训练生成器G实现编码到潜在空间中的映射的同时,编码器E也实现了从数据空间至潜在空间的逆映射,这样就能快速准确的实现重构误差的计算。
步骤3:使用损失函数来降低新生成样本G(E(x))与原始数据x之间的差异;
为了使生成器的联合分布逼近编码器的联合分布,在Bi-GAN网络中使用KL散度衡量两个分布的差异,只要KL散度收敛达到最小时,BI-GAN达到最优解,但是KL散度在某些情况下会出现梯度爆炸的情况,为了解决这个问题,本专利中使用Wasserstein距离来优化原始GAN中的优化目标,增强训练过程中的稳定性,Wasserstein距离的数学定义式如下所示:
Figure BDA0003654929720000061
其中,Π(pr,pg)是以pr和pg为边缘分布的所有可能的联合概率分布γ的集合,E(x,y)~γ[||x-y||]是联合分布γ(x,y)的期望值,W(pr,pg)表示将pr移到pg需要将x移动到的最小距离,Wasserstein利用梯度下降的方法来优化参数模型。
步骤4:使用填充损失函数来对电力系统中的缺失数据进行填充;
由于预测处理数据的时候使用了数据归一化,因此在填充的时候要根据记录的属性的最大值和最小值还原得到最终的填充结果,如果要填充的数据预测是分类的问题是,采用交叉熵作为损失函数;归一化问题采用L2范数作为损失函数。
综上所述,该基于Bi-GAN的电力系统缺失值填补方法,使用时,
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:包括以下步骤:
步骤1:收集来自于包含有缺失值的电力数据,首先对数据进行归一化预处理和特殊值处理,并构建缺失位置编码向量;
步骤2:双向对抗生成对抗网络Bi-GAN是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由生成器G、判别器D、编码器E组成,当将预处理后的数据传入Bi-GAN网络的中,通过生成器G与判别器D之间的博弈,最终生成一份与原始数据集有着同样分布的完整数据集;
步骤3:使用损失函数来降低新生成样本G(E(x))与原始数据x之间的差异;
步骤4:使用填充损失函数来对电力系统中的缺失数据进行填充。
2.根据权利要求1所述的一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:所述步骤1中,从电力系统中获取包含缺失值的电力数据,经过归一化处理使数据介于0~1之间,将数据中的空值替为特殊符号NULL,离散数值变量采用one hot编码,构建缺失值位置编码向量。
3.根据权利要求1所述的一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:所述步骤2中,通过生成器与判别器之间的博弈
Figure FDA0003654929710000011
其中V(D,E,G)由下式计算:
Figure FDA0003654929710000012
其中,G是生成器、D为判别器,E为编码器,x代表包含缺失值的电力系统中的真实样本,z是先验分布的随机抽样,G(z)表示z生成的样本,y为数据源,若待判别数据来自真实样本x,则y=1;如果他来自生产的样本G(z),则y=0,Bi-GAN将原始数据x与其他提取的特征E(X)绑定,生成的样本G(z)与其先验分布样本z绑定,然后将两对标记为1和0;
训练BI-WAN网络中的判别器:将带有缺失值的电力数据X通过编码器映射到E(x),同时将任意分布采样的任意噪声z通过生成器映射G(z),然后分别将把合成后的数据(G(z),z)和(x,E(x))送入判别器中学习,通过更反向传播不断优化生成器和编码器,同时训练BI-WAN网络中的生成器和编码器:将训练数据输入编码器中,输出得到隐变量;将隐变量输入到生成器中,输出真实空间的特征表示,重构训练数据得到新生成样本G(E(x))形成双向学习;
在训练过程中编码器E与生成器G同时训练,使得在训练生成器G实现编码到潜在空间中的映射的同时,编码器E也实现了从数据空间至潜在空间的逆映射,这样就能快速准确的实现重构误差的计算。
4.根据权利要求1所述的一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:所述步骤3中,为了使生成器的联合分布逼近编码器的联合分布,在Bi-GAN网络中使用KL散度衡量两个分布的差异,只要KL散度收敛达到最小时,BI-GAN达到最优解,但是KL散度在某些情况下会出现梯度爆炸的情况,为了解决这个问题,本专利中使用Wasserstein距离来优化原始GAN中的优化目标,增强训练过程中的稳定性,Wasserstein距离的数学定义式如下所示:
Figure FDA0003654929710000021
其中,Π(pr,pg)是以pr和pg为边缘分布的所有可能的联合概率分布γ的集合,E(x,y)~γ[||x-y||]是联合分布γ(x,y)的期望值,W(pr,pg)表示将pr移到pg需要将x移动到的最小距离,Wasserstein利用梯度下降的方法来优化参数模型。
5.根据权利要求1所述的一种基于Bi-GAN的电力系统缺失值填补方法,其特征在于:所述步骤4中,由于预测处理数据的时候使用了数据归一化,因此在填充的时候要根据记录的属性的最大值和最小值还原得到最终的填充结果,如果要填充的数据预测是分类的问题是,采用交叉熵作为损失函数;归一化问题采用L2范数作为损失函数。
CN202210555802.3A 2022-05-20 2022-05-20 一种基于Bi-GAN的电力系统缺失值填补方法 Pending CN114860709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210555802.3A CN114860709A (zh) 2022-05-20 2022-05-20 一种基于Bi-GAN的电力系统缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210555802.3A CN114860709A (zh) 2022-05-20 2022-05-20 一种基于Bi-GAN的电力系统缺失值填补方法

Publications (1)

Publication Number Publication Date
CN114860709A true CN114860709A (zh) 2022-08-05

Family

ID=82639470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555802.3A Pending CN114860709A (zh) 2022-05-20 2022-05-20 一种基于Bi-GAN的电力系统缺失值填补方法

Country Status (1)

Country Link
CN (1) CN114860709A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150231A (zh) * 2023-10-27 2023-12-01 国网江苏省电力有限公司苏州供电分公司 基于相关性和生成对抗网络的量测数据填补方法与系统
CN117556267A (zh) * 2024-01-12 2024-02-13 闪捷信息科技有限公司 缺失样本数据填充方法、装置、存储介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150231A (zh) * 2023-10-27 2023-12-01 国网江苏省电力有限公司苏州供电分公司 基于相关性和生成对抗网络的量测数据填补方法与系统
CN117150231B (zh) * 2023-10-27 2024-01-26 国网江苏省电力有限公司苏州供电分公司 基于相关性和生成对抗网络的量测数据填补方法与系统
CN117556267A (zh) * 2024-01-12 2024-02-13 闪捷信息科技有限公司 缺失样本数据填充方法、装置、存储介质和电子设备
CN117556267B (zh) * 2024-01-12 2024-04-02 闪捷信息科技有限公司 缺失样本数据填充方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN109614981B (zh) 基于斯皮尔曼等级相关的卷积神经网络的电力系统智能故障检测方法及系统
CN114860709A (zh) 一种基于Bi-GAN的电力系统缺失值填补方法
CN110212528B (zh) 一种配电网量测数据缺失重构方法
CN109102032A (zh) 一种基于深度森林和自编码的泵站机组诊断方法
CN110726898B (zh) 一种配电网故障类型识别方法
CN114019370B (zh) 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法
CN112491797B (zh) 一种基于非平衡工控数据集的入侵检测方法及系统
CN114692665B (zh) 基于度量学习的辐射源开集个体识别方法
CN111275108A (zh) 基于生成对抗网络对局部放电数据进行样本扩展的方法
CN109787821B (zh) 一种大规模移动客户流量消费智能预测方法
CN115131560A (zh) 基于全局特征学习和局部特征判别聚合的点云分割方法
CN111612906A (zh) 一种三维地质模型的生成方法、系统及计算机存储介质
CN113505477A (zh) 一种基于svae-wgan的过程工业软测量数据补充方法
CN114863062B (zh) 基于点、体素特征表示的工业场景3d点云模型构建方法
Uzun et al. GAN as a generative architectural plan layout tool: A case study for training DCGAN with Palladian Plans and evaluation of DCGAN outputs
CN114723950A (zh) 一种基于对称自适应网络的跨模态医学图像分割方法
CN114462509A (zh) 一种分布式物联网设备异常检测方法
CN112559316A (zh) 软件测试方法和设备、计算机存储介质以及服务器
CN114037001A (zh) 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法
CN112862946A (zh) 基于级联条件生成对抗网络的灰度岩心图像三维重建方法
CN116258274A (zh) 一种基于纵向联邦学习的配电网分区母线电压预测方法
CN115345192A (zh) 一种变工况和复杂噪音环境下滚动轴承的故障诊断方法
CN115630612A (zh) 一种基于vae与wgan的软件度量缺陷数据增广方法
CN114630207A (zh) 基于降噪自编码器的多传感节点感知数据收集方法
CN117975174B (zh) 一种基于改进vqgan的三维数字岩心重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination