CN112070121A - 一种基于变分自编码器的智能电表数据填补方法 - Google Patents

一种基于变分自编码器的智能电表数据填补方法 Download PDF

Info

Publication number
CN112070121A
CN112070121A CN202010808883.4A CN202010808883A CN112070121A CN 112070121 A CN112070121 A CN 112070121A CN 202010808883 A CN202010808883 A CN 202010808883A CN 112070121 A CN112070121 A CN 112070121A
Authority
CN
China
Prior art keywords
data
curve
historical
daily load
daily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010808883.4A
Other languages
English (en)
Inventor
唐晓博
王东
郭玉
崔春
徐新亮
于喆
张鑫鹏
李字霞
刘晶淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Heilongjiang Electric Power Co Ltd Harbin Power Supply Co
State Grid Corp of China SGCC
Northeast Electric Power University
Original Assignee
State Grid Heilongjiang Electric Power Co Ltd Harbin Power Supply Co
State Grid Corp of China SGCC
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Heilongjiang Electric Power Co Ltd Harbin Power Supply Co, State Grid Corp of China SGCC, Northeast Dianli University filed Critical State Grid Heilongjiang Electric Power Co Ltd Harbin Power Supply Co
Priority to CN202010808883.4A priority Critical patent/CN112070121A/zh
Publication of CN112070121A publication Critical patent/CN112070121A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于变分自编码器的智能电表数据填补方法,具体按照以下步骤实施:以智能电表中获取的历史日负荷数据集为聚类样本进行聚类分析,得到具有不同用电特征的类型日即聚类结果;以聚类结果所含日期中的历史负荷数据为输入,生成基于VAE的海量日负荷曲线;建立离散曲线相似性的数学模型,通过与每个聚类中心比较选取与缺失数据日相似度最高的组,在相似度最高的组中找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线;通过改进的加权平均法处理相似历史日负荷曲线对应的数据,得到对应缺失数据预测值,实现缺失日智能电表负荷数据填补。能够通过历史负荷数据精确填补缺失数据。

Description

一种基于变分自编码器的智能电表数据填补方法
技术领域
本发明属于电气数据监测技术领域,具体涉及一种基于变分自编码器的智能电表数据填补方法。
背景技术
大量智能电表的部署和应用,使得电力公司能获取高频率、广覆盖且时标一致的配电网末端的实测数据。然而用户用电负荷数据的观测值受到各种因素的影响,在采集和传输中可能会出现缺失。这些数据的缺失对正确的建立负荷模型,挖掘智能电表数据内在关联和深层价值,为电力公司的商业运营、电网规划和运行维护等提供决策支持有很大的负面影响。因此在对智能电表数据进行分析前需要将这些缺失负荷数据有效的辨识出来并且进行相应的修正。
目前在智能电表缺失数据填补方面的研究较少,因此,需要提供一种或多种至少能够解决上述技术问题的技术方案。利用变分自编码器生成海量场景,通过加权平均算法填补智能电表缺失数据是目前文献中没有的。需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的是提供一种基于变分自编码器的智能电表数据填补方法,能够通过历史负荷数据精确填补缺失数据。
本发明采用的技术方案是,一种基于变分自编码器的智能电表数据填补方法,具体按照以下步骤实施:
步骤1、以智能电表中获取的历史日负荷数据集为聚类样本进行聚类分析,得到具有不同用电特征的类型日即聚类结果;
步骤2、以聚类结果所含日期中的历史负荷数据为输入,生成基于VAE 的海量日负荷曲线;
步骤3、建立离散曲线相似性的数学模型,通过与每个聚类中心比较选取与缺失数据日相似度最高的组,在相似度最高的组中找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线;
步骤4、通过改进的加权平均法处理相似历史日负荷曲线对应的数据,得到对应缺失数据预测值,实现缺失日智能电表负荷数据填补。
本发明的特点还在于:
步骤1具体过程为:
步骤1.1、从历史日负荷数据集中选取n个样本数据,从n个样本数据中随机选择其中的多个数据作为初始聚类中心对象;
步骤1.2、分别计算n个样本数据中每个对象与每个中心对象的距离,并根据最小距离把n个样本数据中每个对象划分到不同的组;
步骤1.3、得到分组后,计算聚类数,进而获得新的聚类中心对象;
步骤1.4、循环步骤1.2和步骤1.3的操作,直到中心对象不再发生变化或者差值在要求的范围内为止。
步骤1.3中计算聚类数过程为:采用轮廓系数作为选定最优聚类数评估标准;每个用户样本的轮廓系数SC表示为:
SC=(b-a)/max{b,a}
其中,b为该样本与其他组内样本间最小平均距离,a为该样本与该样本所在组内样本平均距离,max{b,a}为a与b的最大值;
将求得的轮廓系数作为聚类数。
步骤2具体过程为:
步骤2.1、采用变分自编码器,定义生成网络为pθ(x|z),识别网络为qφ(z|x),以聚类结果所含日期中的历史负荷数据为输入,构建基于数据驱动的VAE 场景生成模型;
步骤2.2、将聚类结果所含日期中的历史负荷数据为输入输入基于数据驱动的VAE场景生成模型,生成基于VAE的海量日负荷曲线。
步骤2.1中VAE场景生成模型中,
VAE的最大化下界为:
Figure RE-GDA0002752309280000031
通过识别模型qφ(z|x)逼近观测数据后验概率pθ(x|z),采用KL散度 divKL衡量这2个分布的相似程度;则有:
logpθ(x(i))=divKL(qφ(z|x(i)),pθ(z|x(i)))+L(θ,φ;x(i))
使用变分的思想优化下界L(θ,φ;x(i)),由概率乘法得到:
L(θ,φ;x(i))=-divKL(qφ(z|x(i)),pθ(z|x(i)))+Eqφ(z|x)[logpθ(x(i)|z]
令qφ(z|x)取独立高斯分布,pθ(x|z)取标准正态分布,则由KL散度可计算如下:
Figure RE-GDA0002752309280000032
Eqφ(z|x)[logpθ(x(i)|z)]是关于x(i)后验概率的对数似然,通过蒙特卡洛抽样的方式可得:
Figure RE-GDA0002752309280000033
如果每次只采样一个点,则有
Figure RE-GDA0002752309280000041
该式形式与神经网络损失函数一致,假设pθ(x|z)服从伯努利分布,则对应损失函数floss为互熵损失:
Figure RE-GDA0002752309280000042
步骤3中离散曲线相似性的数学模型具体为离散Fréchet距离模型。
步骤3具体过程为:
步骤3.1、建立离散Fréchet距离模型;
步骤3.2、将数据缺失日负荷曲线作为基准曲线,分别找出基准曲线和基于VAE的海量日负荷曲线的至高点与至低点,将它们表示成 A=<a1,...,am>,B=<b1,...,bn>,其中,a1,...,am是基准曲线的m个至高点或至低点,b1,...,bn是基于VAE的海量日负荷曲线的n个至高点或至低点,且m≤n,若n-m>2则认为它们不相似,否则执行下一步;
步骤3.3、以峰值点少的曲线为基准,将峰值点多的曲线划分成m步,划分时保证同一时刻的曲线A和曲线B的峰值相互对应,即ai只能对应空或者与bi-1,bi,bi+1,之中的某个峰值点对应,假设有K种划分,每一种划分Wj={(Ai,Bi)},(1≤i≤m,1≤j≤k);
步骤3.4、在每一种划分中,先计算出每一步中所有对应点之间的最大距离,再求出这种划分的所有步中的最大距离中的最大值;
步骤3.5、找出所有划分中的距离的最小值,则为基准曲线和基于VAE 的海量日负荷曲线之间的离散Fréchet距离;
步骤3.6、分别得到至高点和至低点的最小离散Fréchet距离,让两个最小距离相减,如果结果的绝对值小于一个特定的阈值ε,则两条曲线相似,找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线。
步骤4中改进的加权平均法公式为:
Figure RE-GDA0002752309280000051
其中,n为合成负荷数据数,Qi为权重,由第i个历史负荷数据相似度决定。
权重Qi的计算过程为:
将十条与缺失数据日负荷曲线形状相似的曲线上的数据根据同一时间对应的数据进行相加平均,得到平均数据
Figure RE-GDA0002752309280000052
Figure RE-GDA0002752309280000053
计算得出需要加权平均处理的数据与对应的平均数据
Figure RE-GDA0002752309280000058
之间的相对距离Dj
Figure RE-GDA0002752309280000054
根据各数据的相对距离Dj,求出各数据的支持度Supj
Figure RE-GDA0002752309280000055
将同一时刻对应的历史日负荷曲线上各数据的支持度进行归一化处理,得出每个数据的可信度权值sj
Figure RE-GDA0002752309280000056
对可信度权值进行修正,得到最终用于加权平均的权值Qj
Figure RE-GDA0002752309280000057
本发明的有益效果是:
本发明一种基于变分自编码器的智能电表数据填补方法,一方面,对历史负荷数据进行聚类后,通过VAE生成海量场景,能够更直观的分析各类型日负荷数据,便于获取相似日负荷场景;另一方面,使用改进的加权平均算法相较于直接求取平均值等方法可以使填补数据更精确。
附图说明
图1为本发明一种基于变分自编码器的智能电表数据填补方法流程图;
图2为本发明实施例中聚类后各类内负荷的聚类中心示意图;
图3为本发明实施例中聚类后各类内日负荷场景图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于变分自编码器的智能电表数据填补方法,如图1所示,具体按照以下步骤实施:
步骤1、以智能电表中获取的历史日负荷数据集为聚类样本进行聚类分析,得到具有不同用电特征的类型日即聚类结果;
通过对历史日负荷数据进行K-Means聚类分析:
K-Means聚类算法的主要思想是将以日为单位的负荷数据作为聚类样本,通过聚类把所有的日期划分到多个不同的类中,通过逐次迭代从而使得目标函数最小,使得最终生成的各个类别中的对象尽可能地相似而与其它类中的对象又尽可能地相异。K-means算法采用距离作为相似性的评价指标:两个对象的距离越近,就认为其相似度就越大,把距离最近的对象聚集为一个簇。算法最终目标是使所有类的平方误差和最小,得到紧凑并且独立的簇。
步骤1具体过程为:
步骤1.1、从历史日负荷数据集中选取n个样本数据,从n个样本数据中随机选择其中的多个数据作为初始聚类中心对象;
令历史负荷数据集X={xi},i=1,2,...,n表示负荷数据集中需要进行聚类的n个历史日负荷数据,将n个历史日负荷数据分为k个负荷类型,每个对象的维度为d。
步骤1.2、分别计算n个样本数据中每个对象与每个中心对象的距离,并根据最小距离把n个样本数据中每个对象划分到不同的组;
K-means算法将数据集X进行划分,使得类中心与类内每一个对象的误差平方最小公式为:
Figure RE-GDA0002752309280000071
其中,ck为第k类的数据集合,αk为类ck的类中心,xi为第i个日负荷样本数据x。
步骤1.3、得到分组后,计算聚类数,进而获得新的聚类中心对象;在应用聚类方法将聚类样本进行细化分组之前,需要设置适当的聚类数;计算聚类数过程为:采用轮廓系数作为选定最优聚类数评估标准;每个用户样本的轮廓系数SC表示为:
SC=(b-a)/max{b,a}
其中,b为该样本与其他组内样本间最小平均距离,a为该样本与该样本所在组内样本平均距离,max{b,a}为a与b的最大值;
将求得的轮廓系数作为聚类数。
步骤1.4、循环步骤1.2和步骤1.3的操作,直到中心对象不再发生变化或者差值在要求的范围内为止。
步骤2、以聚类结果所含日期中的历史负荷数据为输入,生成基于VAE 的海量日负荷曲线;
步骤2具体过程为:
步骤2.1、采用变分自编码器,若真实样本x与潜变量z(z∈R)存在特殊的映射关系,为使生成场景更加合理,则潜变量必须服从单位正态高斯分布。采用VAE生成场景时,定义生成网络为pθ(x|z),识别网络为qφ(z|x),以聚类结果所含日期中的历史负荷数据为输入,构建基于数据驱动的VAE场景生成模型;
VAE场景生成模型中,
VAE的最大化下界为:
Figure RE-GDA0002752309280000081
通过识别模型qφ(z|x)逼近观测数据后验概率pθ(x|z),采用KL散度 divKL衡量这2个分布的相似程度;则有:
logpθ(x(i))=divKL(qφ(z|x(i)),pθ(z|x(i)))+L(θ,φ;x(i))
使用变分的思想优化下界L(θ,φ;x(i)),由概率乘法得到:
L(θ,φ;x(i))=-divKL(qφ(z|x(i)),pθ(z|x(i)))+Eqφ(z|x)[logpθ(x(i)|z]
令qφ(z|x)取独立高斯分布,pθ(x|z)取标准正态分布,则由KL散度可计算如下:
Figure RE-GDA0002752309280000082
Eqφ(z|x)[logpθ(x(i)|z)]是关于x(i)后验概率的对数似然,通过蒙特卡洛抽样的方式可得:
Figure RE-GDA0002752309280000083
如果每次只采样一个点,则有
Figure RE-GDA0002752309280000084
该式形式与神经网络损失函数一致,假设pθ(x|z)服从伯努利分布,则对应损失函数floss为互熵损失:
Figure RE-GDA0002752309280000085
步骤2.2、将聚类结果所含日期中的历史负荷数据为输入输入基于数据驱动的VAE场景生成模型,生成基于VAE的海量日负荷曲线。
步骤3、建立离散曲线相似性的数学模型,通过与每个聚类中心比较选取与缺失数据日相似度最高的组,在相似度最高的组中找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线;
离散曲线相似性的数学模型具体为离散Fréchet距离模型。
步骤3具体过程为:
步骤3.1、建立离散Fréchet距离模型;
离散Fréchet距离的定义如下:
给定一个有n个至高点的多边形链P={P1,P2,...Pn},一个沿着P的k 步,分割P的至高点成为k个不相交的非空子{Pi}i=1,...k,使得
Figure RE-GDA0002752309280000091
和1=n0<n1<...<nk=n。
给定两个多边形链A=<a1,...,am>,B=<b1,...,bn>,一个沿着A和B的组合步是一个沿着A的k步{Ai}i=1,...,k和一个沿着B的K步{Bi}i=1,...,k组成,使得对于1≤i≤k,且Ai,Bi中有一个恰好包含一个至高点。
一个沿着链A和B的组合步Wj={(Ai,Bi)}的花费为:
Figure RE-GDA0002752309280000092
其中,dist(a,b)为a,b间的欧式距离,则链A和B间的离散Fréchet距离为:
Figure RE-GDA0002752309280000093
设A=<a1,...,am>,B=<b1,...,bn>组成的曲线,称d1 F(A,B)为它们的至高点间的离散Fréchet距离,d2 F(A,B)为它们的至低点间的离散Fréchet 距离;如果对于给定的值ε,如果A,B相似,则|d1 F(A,B)-d2 F(A,B)|≤ε,否则称它们不相似。
步骤3.2、将数据缺失日负荷曲线作为基准曲线,分别找出基准曲线和基于VAE的海量日负荷曲线的至高点与至低点,将它们表示成 A=<a1,...,am>,B=<b1,...,bn>,其中,a1,...,am是基准曲线的m个至高点或至低点,b1,...,bn是基于VAE的海量日负荷曲线的n个至高点或至低点,且m≤n,若n-m>2则认为它们不相似,否则执行下一步。
步骤3.3、以峰值点少的曲线为基准,将峰值点多的曲线划分成m步,划分时保证同一时刻的曲线A和曲线B的峰值相互对应,即ai只能对应空或者与bi-1,bi,bi+1,之中的某个峰值点对应,假设有K种划分,每一种划分Wj={(Ai,Bi)},(1≤i≤m,1≤j≤k);
步骤3.4、在每一种划分中,先计算出每一步中所有对应点之间的最大距离,再求出这种划分的所有步中的最大距离中的最大值;
步骤3.5、找出所有划分中的距离的最小值,则为基准曲线和基于VAE 的海量日负荷曲线之间的离散Fréchet距离;
步骤3.6、分别得到至高点和至低点的最小离散Fréchet距离,让两个最小距离相减,如果结果的绝对值小于一个特定的阈值ε,则两条曲线相似,找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线。
步骤4、通过改进的加权平均法处理相似历史日负荷曲线对应的数据,得到对应缺失数据预测值,实现缺失日智能电表负荷数据填补;
其中,改进的加权平均法公式为:
Figure RE-GDA0002752309280000101
其中,n为合成负荷数据数,Qi为权重,由第i个历史负荷数据相似度决定。
权重Qi的计算过程为:
将十条与缺失数据日负荷曲线形状相似的曲线上的数据根据同一时间对应的数据进行相加平均,得到平均数据
Figure RE-GDA0002752309280000102
Figure RE-GDA0002752309280000103
计算得出需要加权平均处理的数据与对应的平均数据
Figure RE-GDA0002752309280000111
之间的相对距离Dj
Figure RE-GDA0002752309280000112
根据各数据的相对距离Dj,求出各数据的支持度Supj
Figure RE-GDA0002752309280000113
将同一时刻对应的历史日负荷曲线上各数据的支持度进行归一化处理,得出每个数据的可信度权值sj
Figure RE-GDA0002752309280000114
对确定的可信度权值进行修正,得到最终用于加权平均的权值Qj
Figure RE-GDA0002752309280000115
实施例
对东北某电网的负荷数据进行提取,通过上述方法对其进行聚类和场景生成,聚类后各类内负荷的聚类中心如图2所示,得到四个簇,聚类后各类内日负荷场景如图3所示,从每个簇中分别选取了七条原始数据曲线,分别对其设置了不同的缺失数据时间段,即每日共获取96个时刻的数据,每隔15分钟一个,分别对这七条曲线设置0:00到1:00、3:00到4:00、6:00到7:00等不同的缺失时间段,表1所示为其中某两条曲线的填补效果,曲线一的缺失时间段为0:00到1:00,曲线二的缺失时间段为3:00到4:00;
表1
Figure RE-GDA0002752309280000116
将填补数据与相应原始数据对比的误差用平均绝对百分比(MAPE) 衡量,
Figure RE-GDA0002752309280000121
MAPE为0证明该模型为完美模型,即 MAPE值越小填补数据越精确,对上述实施例求取MAPE值,如表2所示:
表2
曲线1 曲线2 曲线3 曲线4 曲线5 曲线6 曲线7
簇一 2.21% 4.07% 3.43% 3.12% 2.45% 4.13% 2.83%
簇二 4.15% 2.31% 2.08% 3.52% 2.54% 3.06% 3.31%
簇三 2.61% 3.21% 3.57% 2.32% 2.37% 3.26% 3.42%
簇四 4.23% 3.42% 2.93% 3.45% 2.76% 4.31% 2.27%
由表2中数据可知,在不同的时段对不同的曲线进行数据填补都能得到很好的效果。
通过上述方式,本发明一种基于变分自编码器的智能电表数据填补方法,通过以智能电表中获取的历史日负荷数据为聚类样本进行聚类分析,得到具有不同用电特征的类型日即聚类结果;以聚类结果所含日期中的历史负荷数据为输入,生成基于VAE的海量日负荷曲线;通过与聚类中心比较选取与缺失数据日相似度最高的簇,。建立离散曲线相似性的数学模型,找出十条与缺失数据日负荷曲线形状相似的历史日负荷曲线;通过改进的加权平均法处理相似历史日负荷数据,得到对应缺失数据预测值,实现缺失日智能电表负荷数据填补。

Claims (9)

1.一种基于变分自编码器的智能电表数据填补方法,其特征在于,具体按照以下步骤实施:
步骤1、以智能电表中获取的历史日负荷数据集为聚类样本进行聚类分析,得到具有不同用电特征的类型日即聚类结果;
步骤2、以聚类结果所含日期中的历史负荷数据为输入,生成基于VAE的海量日负荷曲线;
步骤3、建立离散曲线相似性的数学模型,通过与每个聚类中心比较选取与缺失数据日相似度最高的组,在相似度最高的组中找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线;
步骤4、通过改进的加权平均法处理相似历史日负荷曲线对应的数据,得到对应缺失数据预测值,实现缺失日智能电表负荷数据填补。
2.根据权利要求1所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤1具体过程为:
步骤1.1、从历史日负荷数据集中选取n个样本数据,从n个样本数据中随机选择其中的多个数据作为初始聚类中心对象;
步骤1.2、分别计算n个样本数据中每个对象与每个中心对象的距离,并根据最小距离把n个样本数据中每个对象划分到不同的组;
步骤1.3、得到分组后,计算聚类数,进而获得新的聚类中心对象;
步骤1.4、循环步骤1.2和步骤1.3的操作,直到中心对象不再发生变化或者差值在要求的范围内为止。
3.根据权利要求1所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤1.3中所述计算聚类数过程为:采用轮廓系数作为选定最优聚类数评估标准;每个用户样本的轮廓系数SC表示为:
SC=(b-a)/max{b,a}
其中,b为该样本与其他组内样本间最小平均距离,a为该样本与该样本所在组内样本平均距离,max{b,a}为a与b的最大值;
将求得的轮廓系数作为聚类数。
4.根据权利要求1所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤2具体过程为:
步骤2.1、采用变分自编码器,定义生成网络为pθ(x|z),识别网络为qφ(z|x),以聚类结果所含日期中的历史负荷数据为输入,构建基于数据驱动的VAE场景生成模型;
步骤2.2、将聚类结果所含日期中的历史负荷数据为输入输入基于数据驱动的VAE场景生成模型,生成基于VAE的海量日负荷曲线。
5.根据权利要求4所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤2.1中所述VAE场景生成模型中,
VAE的最大化下界为:
Figure FDA0002630184270000021
通过识别模型qφ(z|x)逼近观测数据后验概率pθ(x|z),采用KL散度divKL衡量这2个分布的相似程度;则有:
logpθ(x(i))=divKL(qφ(z|x(i)),pθ(z|x(i)))+L(θ,φ;x(i))
使用变分的思想优化下界L(θ,φ;x(i)),由概率乘法得到:
L(θ,φ;x(i))=-divKL(qφ(z|x(i)),pθ(z|x(i)))+Eqφ(z|x)[logpθ(x(i)|z]
令qφ(z|x)取独立高斯分布,pθ(x|z)取标准正态分布,则由KL散度可计算如下:
Figure FDA0002630184270000031
Eqφ(z|x)[logpθ(x(i)|z)]是关于x(i)后验概率的对数似然,通过蒙特卡洛抽样的方式可得:
Figure FDA0002630184270000032
如果每次只采样一个点,则有
Figure FDA0002630184270000033
该式形式与神经网络损失函数一致,假设pθ(x|z)服从伯努利分布,则对应损失函数floss为互熵损失:
Figure FDA0002630184270000034
6.根据权利要求1所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤3中所述离散曲线相似性的数学模型具体为离散Fréchet距离模型。
7.根据权利要求6所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤3具体过程为:
步骤3.1、建立离散Fréchet距离模型;
步骤3.2、将数据缺失日负荷曲线作为基准曲线,分别找出基准曲线和基于VAE的海量日负荷曲线的至高点与至低点,将它们表示成A=<a1,...,am>,B=<b1,...,bn>,其中,a1,...,am是基准曲线的m个至高点或至低点,b1,...,bn是基于VAE的海量日负荷曲线的n个至高点或至低点,且m≤n,若n-m>2则认为它们不相似,否则执行下一步;
步骤3.3、以峰值点少的曲线为基准,将峰值点多的曲线划分成m步,划分时保证同一时刻的曲线A和曲线B的峰值相互对应,即ai只能对应空或者与bi-1,bi,bi+1,之中的某个峰值点对应,假设有K种划分,每一种划分Wj={(Ai,Bi)},(1≤i≤m,1≤j≤k);
步骤3.4、在每一种划分中,先计算出每一步中所有对应点之间的最大距离,再求出这种划分的所有步中的最大距离中的最大值;
步骤3.5、找出所有划分中的距离的最小值,则为基准曲线和基于VAE的海量日负荷曲线之间的离散Fréchet距离;
步骤3.6、分别得到至高点和至低点的最小离散Fréchet距离,让两个最小距离相减,如果结果的绝对值小于一个特定的阈值ε,则两条曲线相似,找出十条与缺失数据日负荷曲线形状相似的曲线作为历史日负荷曲线。
8.根据权利要求1所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,步骤4中所述改进的加权平均法公式为:
Figure FDA0002630184270000041
其中,n为合成负荷数据数,Qi为权重,由第i个历史负荷数据相似度决定。
9.根据权利要求8所述一种基于变分自编码器的智能电表数据填补方法,其特征在于,权重Qi的计算过程为:
将十条与缺失数据日负荷曲线形状相似的曲线上的数据根据同一时间对应的数据进行相加平均,得到平均数据
Figure FDA0002630184270000042
计算得出需要加权平均处理的数据与对应的平均数据
Figure FDA0002630184270000045
之间的相对距离Dj
Figure FDA0002630184270000043
根据各数据的相对距离Dj,求出各数据的支持度Supj
Figure FDA0002630184270000044
将同一时刻对应的历史日负荷曲线上各数据的支持度进行归一化处理,得出每个数据的可信度权值sj
Figure FDA0002630184270000051
对可信度权值进行修正,得到最终用于加权平均的权值Qj
Figure FDA0002630184270000052
CN202010808883.4A 2020-08-12 2020-08-12 一种基于变分自编码器的智能电表数据填补方法 Pending CN112070121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010808883.4A CN112070121A (zh) 2020-08-12 2020-08-12 一种基于变分自编码器的智能电表数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010808883.4A CN112070121A (zh) 2020-08-12 2020-08-12 一种基于变分自编码器的智能电表数据填补方法

Publications (1)

Publication Number Publication Date
CN112070121A true CN112070121A (zh) 2020-12-11

Family

ID=73662714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010808883.4A Pending CN112070121A (zh) 2020-08-12 2020-08-12 一种基于变分自编码器的智能电表数据填补方法

Country Status (1)

Country Link
CN (1) CN112070121A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094647A (zh) * 2021-04-02 2021-07-09 新疆大学 一种台区最大负荷辨识方法
CN113467881A (zh) * 2021-09-01 2021-10-01 南方电网数字电网研究院有限公司 图表样式自动化调整方法、装置、计算机设备和存储介质
CN113780347A (zh) * 2021-08-09 2021-12-10 上海电力大学 负荷曲线多重聚类集成方法、系统及存储介质
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203042A1 (en) * 2013-06-21 2014-12-24 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
WO2019155065A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Neural network systems implementing conditional neural processes for efficient learning
CN111046026A (zh) * 2019-11-03 2020-04-21 复旦大学 一种基于约束优化的缺失能耗数据填补方法
CN111091223A (zh) * 2019-10-30 2020-05-01 华电电力科学研究院有限公司 一种基于物联网智能感知技术的配变短期负荷预测方法
CN111191835A (zh) * 2019-12-27 2020-05-22 国网辽宁省电力有限公司阜新供电公司 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统
CN111199016A (zh) * 2019-09-29 2020-05-26 国网湖南省电力有限公司 一种基于DTW的改进K-means的日负荷曲线聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203042A1 (en) * 2013-06-21 2014-12-24 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
WO2019155065A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Neural network systems implementing conditional neural processes for efficient learning
CN111199016A (zh) * 2019-09-29 2020-05-26 国网湖南省电力有限公司 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN111091223A (zh) * 2019-10-30 2020-05-01 华电电力科学研究院有限公司 一种基于物联网智能感知技术的配变短期负荷预测方法
CN111046026A (zh) * 2019-11-03 2020-04-21 复旦大学 一种基于约束优化的缺失能耗数据填补方法
CN111191835A (zh) * 2019-12-27 2020-05-22 国网辽宁省电力有限公司阜新供电公司 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAIYAN ZHENG等: "Electricity information big data based load curve clustering", 2014 CHINA INTERNATIONAL CONFERENCE ON ELECTRICITY DISTRIBUTION (CICED), 26 September 2014 (2014-09-26) *
吴迪,王正风: "基于逐日分段气象算法的日前负荷预测", 电气应用, vol. 39, no. 06, 15 June 2020 (2020-06-15) *
陈彦翔;秦川;鞠平;赵静波;金宇清;施佳君;: "基于关联分析及堆栈自编码器的气象敏感负荷功率估算方法", 电力自动化设备, no. 05, 4 May 2018 (2018-05-04) *
黄南天等: "计及复杂气象耦合特性的模块化去噪变分自编码器多源–荷联合场景生成", 中国电机工程学报, vol. 39, no. 10, 20 May 2019 (2019-05-20) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094647A (zh) * 2021-04-02 2021-07-09 新疆大学 一种台区最大负荷辨识方法
CN113780347A (zh) * 2021-08-09 2021-12-10 上海电力大学 负荷曲线多重聚类集成方法、系统及存储介质
CN113780347B (zh) * 2021-08-09 2024-03-01 上海电力大学 负荷曲线多重聚类集成方法、系统及存储介质
CN113467881A (zh) * 2021-09-01 2021-10-01 南方电网数字电网研究院有限公司 图表样式自动化调整方法、装置、计算机设备和存储介质
CN113467881B (zh) * 2021-09-01 2021-11-16 南方电网数字电网研究院有限公司 图表样式自动化调整方法、装置、计算机设备和存储介质
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法

Similar Documents

Publication Publication Date Title
CN112070121A (zh) 一种基于变分自编码器的智能电表数据填补方法
CN112699913B (zh) 一种台区户变关系异常诊断方法及装置
CN111199016B (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN110488204B (zh) 一种储能元件soh-soc联合在线估计方法
CN110991786A (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN110796173B (zh) 一种基于改进kmeans的负荷曲线形态聚类算法
CN108428055B (zh) 一种考虑负荷纵向特性的负荷聚类方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN111460001A (zh) 一种配电网理论线损率评估方法及系统
CN112834927A (zh) 锂电池剩余寿命预测方法、系统、设备及介质
CN112701675A (zh) 基于筛选电压数据的配电台区用户相别辨识方法及系统
CN111539657B (zh) 结合用户日用电量曲线的典型用电行业负荷特性分类与综合方法
CN111274543A (zh) 一种基于高维空间映射的航天器系统异常检测方法
CN113657678A (zh) 一种基于信息新鲜度的电网电力数据预测方法
CN117214637A (zh) 充电枪耐压测试方法、装置、设备及存储介质
CN111882114A (zh) 一种短时交通流量预测模型构建方法及预测方法
CN114626487A (zh) 基于随机森林分类算法的线变关系校核方法
CN113595071A (zh) 台区用户辨识与电压影响评估方法
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN115051363B (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN111932081A (zh) 一种电力信息系统运行状态评估方法及系统
CN114118587B (zh) 分布式光伏的电能质量评估方法及系统、设备、存储介质
CN115409317A (zh) 基于特征选择和机器学习的台区线损检测方法及装置
CN112990533B (zh) 一种稀疏约束和动态权重分配的风电集群功率预测方法
CN115293090A (zh) 基于重构数据处理的多谐波源责任量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination