CN114925767A - 一种基于变分自编码器的场景生成方法和装置 - Google Patents

一种基于变分自编码器的场景生成方法和装置 Download PDF

Info

Publication number
CN114925767A
CN114925767A CN202210579747.1A CN202210579747A CN114925767A CN 114925767 A CN114925767 A CN 114925767A CN 202210579747 A CN202210579747 A CN 202210579747A CN 114925767 A CN114925767 A CN 114925767A
Authority
CN
China
Prior art keywords
sub
scene
distribution
scene sample
sample points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210579747.1A
Other languages
English (en)
Inventor
陈鸿琳
余浩
左郑敏
邓卓明
高志华
刘新苗
郭知非
卢洵
周保荣
罗澍忻
田宝烨
黄东启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202210579747.1A priority Critical patent/CN114925767A/zh
Publication of CN114925767A publication Critical patent/CN114925767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E10/00Energy generation through renewable energy sources
    • Y02E10/70Wind energy
    • Y02E10/76Power conversion electric or electronic aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于变分自编码器的场景生成方法和装置,所述方法包括:获取高维历史时序数据;通过变分自编码器降维到二维隐变量空间,获得若干组场景样本点集合;对每个场景样本点进行概率分布建模并分类,获得子分布分类结果;通过DBSCAN密度聚类,典型场景样本点和极端场景样本点;通过变分自解码器进行解码,获得典型场景时序数据和极端场景时序数据。相比于现有技术,充分利用历史时序数据并保留历史数据特性,生成符合历史数据分布特性和时序特性的新能源负荷场景;通过聚类思想识别出典型场景样本点和极端场景样本点,有效反映系统可能出现的运行状况,提高了拟合精度。

Description

一种基于变分自编码器的场景生成方法和装置
技术领域
本发明涉及新能源承载能力评估领域,尤其涉及一种基于变分自编码器的场景生成方法和装置。
背景技术
近年来,随着电网中风电和光伏等新能源机组容量的快速增长,新能源渗透率大幅提高,新能源的发电功率随着气象条件变化影响而呈现波动性。为考虑新能源大规模入网所造成的电网运行不确定性,需定量测算未来年度电网的新能源承载能力。对于指定电网中长期运行方式、合理规划各类型机组时序有重要意义。
当下,电网研究的重点逐渐转移到新能源的消纳问题上。新能源消纳问题的重要评价为时序生产模拟,为适应新能源电网承载能力评估方法的革新,需要对新能源机组的模型、多时间尺度场景生成方法进行相应研究。传统的场景生成方法包括Monte Carlo抽样、鲁棒优化等。Monte Carlo抽样的方法假设新能源出力服从某种分布状态(一般为正态分布),在典型场景的基础上通过计算机抽样,生成大量的运行场景,并通过大量的计算,获得满足所有场景的运行方式,但是这种方式需要耗费大量的计算资源。鲁棒优化则通过某种特殊的方式,获取新能源出力的最极端的方式,在最极端场景下获得运行方式可认为满足所有运行方式。但是这些方法没有利用尽量少的数据和信息体现电网运行场景的不确定性,进而构建时序运行场景,也没有识别出场景的出现概率。
发明内容
本发明提供了一种基于变分自编码器的场景生成方法和装置,对历史数据场景变量进行了压缩降维,并识别出降维后场景样本点的出现概率,能够从典型-极端两个层面反映系统可能出现的运行状况。
为了解决上述技术问题,本发明实施例提供了一种基于变分自编码器的场景生成方法,包括:
获取高维历史时序数据;
根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;
基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;
对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;
将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
作为优选方案,所述基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
作为优选方案,所述对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点;
其中,根据下式计算每个场景样本点的密度:
den(xi)={q|d(xi,xj)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,den(xi)为场景样本点xi的密度,xj为第j个场景样本点xj,cmean为场景样本点之间的平均距离,α为密度半径系数,,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
作为优选方案,所述分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点,具体为:
从每个子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
作为优选方案,所述根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
基于高维历史时序数据,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量;
通过变分自编码器对每组变量样本集合进行编码,并降维到二维隐变量空间,得到场景样本点的集合
Figure BDA0003661839720000031
Figure BDA0003661839720000041
其中,
Figure BDA0003661839720000042
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据。
相应的,本发明实施例还提供了一种基于变分自编码器的场景生成装置,包括获取模块、编码模块、概率建模模块、聚类模块和解码模块,其中,
所述获取模块用于获取高维历史时序数据;
所述编码模块用于根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;
所述概率建模模块用于基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;
所述聚类模块用于对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;
所述解码模块用于将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
作为优选方案,所述概率建模模块基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
所述概率建模模块初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
作为优选方案,所述聚类模块对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
所述聚类模块将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点;
其中,根据下式计算每个场景样本点的密度:
den(xi)={q|d(xi,xj)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,den(xi)为场景样本点xi的密度,xj为第j个场景样本点xj,cmean为场景样本点之间的平均距离,α为密度半径系数,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
作为优选方案,所述聚类模块分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点,具体为:
所述聚类模块从每个子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
作为优选方案,所述编码模块根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
所述编码模块基于高维历史时序数据,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量;
通过变分自编码器对每组变量样本集合进行编码,并降维到二维隐变量空间,得到场景样本点的集合
Figure BDA0003661839720000061
Figure BDA0003661839720000062
其中,
Figure BDA0003661839720000063
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据。
相比于现有技术,本发明实施例具有如下有益效果:
本发明实施例提供了一种基于变分自编码器的场景生成方法和装置,所述方法包括:获取高维历史时序数据;根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。相比于现有技术,充分利用历史时序数据并保留历史数据特性,生成符合历史数据分布特性和时序特性的新能源负荷场景;通过聚类思想识别出典型场景样本点和极端场景样本点,有效反映系统可能出现的运行状况,提高了拟合精度。
附图说明
图1:为本发明提供的一种基于变分自编码器的场景生成方法的一种实施例的流程示意图。
图2:为本发明提供的一种基于变分自编码器的场景生成方法的一种实施例的另一张流程示意图。
图3:为本发明提供的一种基于变分自编码器的场景生成方法的一种VAE架构的示意图。
图4:为本发明提供的一种基于变分自编码器的场景生成方法的一种聚类的示意图。
图5:为本发明提供的一种基于变分自编码器的场景生成装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参照图1和图2,图1和图2本发明实施例提供的一种基于变分自编码器的场景生成方法的流程示意图,包括步骤S1至S5,其中,
步骤S1,获取高维历史时序数据。
在本实施例中,获取96维的原始风电时序数据、96维的原始光伏时序数据以及96维的原始负荷时序数据,并将96维的原始风电时序数据、96维的原始光伏时序数据以及96维的原始负荷时序数据输入至变分自编码器(VAE)。
步骤S2,根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合。
在本实施例中,由于采用的是变分自编码器(VAE),变分自编码器(VAE)是一种强大的深层生成模型,目前广泛用于通过无监督学习的低维潜在空间来表示高维复杂数据。其最大的特点是模仿自动编码机的学习预测机制,在可测函数之间进行编码或解码。其中编码是通过VAE框架中的编码器即一种基于DNN的参数近似后验分布的推理模型来实现,能将输入数据自动发现并映射到隐变量空间。本实施步骤S5的解码步骤则同样是通过基于DNN的生成模型实现,将隐变量空间中的数据还原回输入数据的维数。
此外,本实施例提供的VAE方法支持深度无监督表示学习,在贝叶斯框架中能够提供有效的推理和参数估计。VAE与潜在变量和无监督表示学习的概念直接相关:假设观察到的、可能是高维的以及表示感兴趣数据的随机变量是通过概率过程从未被观察到的低维隐变量生成的。这个隐变量在某种程度上是整个模型的核心:假设以连续函数“编码”观察到的数据,就可以从隐变量的新值生成新数据。此外,该方法可以提取一种可求解的隐变量的表示方法,即不同的隐变量表示参数可以表征被编码的原始数据的不同属性或不同变化因素,这将为数据生成或转换过程提供良好的可解释性。
VAE架构的示意图参照图3,左梯形表示从高到低维的编码器(记为ez),右梯形表示从低维到高维的解码器(记为dx)。从输入x到计算隐变量z,以及输出
Figure BDA0003661839720000081
的过程是完全确定的,如菱形所示。
对于VAE训练,编码器和解码器是级联的,因此误差主要由两部分构成,一部分是由解码器中隐变量空间变量还原回高维原始数据时造成的信息损失,即隐变量空间变量的概率分布p1与原始高维数据的概率分布p2之间的重构损失(Reconstruction loss)。另一部分则是编码器中实际高维数据映射到结构良好的隐变量空间中时造成的信息损失,由于理想先验正态分布难以求解,实际数据只能通过尽量接近正态分布的分布函数来描述,这两者之间的差异,实际上是隐变量空间变量的实际概率分布p1与理想先验标准正态分布之间的差异,用Kullback-Leibler(KL)散度来衡量,称为KL损失(KL_loss)。
对于两组误差之间的矛盾,本实施例使用的方法一方面将隐变量空间分布尽量贴近高维数据分布,保留了历史数据特性,另一方面又使隐变量空间分布尽量符合具有良好结构、易于拟合的正态分布,在保留实际数据的实际特性和可求解性之间做到一个良好的平衡。
示例性地,所述根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
基于高维(N维)的风光荷历史时序数据,选取样本变量,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量,RN为N维隐变量空间;
通过变分自编码器对每组变量样本集合进行编码,从而进行降维,为了后续概率建模,将降维得到的隐变量空间维数设定为2,得到场景样本点的集合
Figure BDA0003661839720000091
Figure BDA0003661839720000092
其中,
Figure BDA0003661839720000093
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据,R2为二维隐变量空间。
由于VAE的映射特性,在理想条件下,任意样本场景的时序数据xa可经由VAE映射到符合标准正态分布的
Figure BDA0003661839720000094
即有
Figure BDA0003661839720000095
Figure BDA0003661839720000096
因此场景样本点
Figure BDA0003661839720000097
实际上可以被映射为无限接近标准正态分布的某种正态分布,即有
Figure BDA0003661839720000098
步骤S3,基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率。
在本实施例中,步骤S2的编码器将高维的历史时序数据例如每日出力数据或一条日出力曲线,映射到一个二维空间的高斯分布上,因此步骤S3通过高斯混合模型(GMM)对这些符合多个高斯分布的场景样本点进行概率建模。
对于单高斯模型,遵从概率密度函数(PDF):
Figure BDA0003661839720000099
其中,P为概率密度,x为x轴上的变量(如新能源出力等)的取值,μ为标准差,σ2为方差,θ为概率密度函数的比例参数系数。而本申请使用拟合精度更好的高斯混合模型(GMM),其对应的概率密度函数是若干个高斯概率密度函数的加权。
通过最大似然法来估算概率密度函数的比例参数系数θ:
θ=argmaxθL(θ);
其中,第j个场景样本点xj的似然函数L(θ)由概率密度函数(pdf)给出:
Figure BDA0003661839720000101
由于每个点发生的概率会很小,乘积也会相应变得很小,不利于计算和观察,因此通过最大似然函数对数logL(θ)来计算:
Figure BDA0003661839720000102
其中,xj为第j个场景样本点,N为x轴输入变量的数量,L()为拉格朗日多项式,k为隐空间变量的维数,αk为权重系数,φ为密度函数。
为了求解隐变量空间中建立的高斯混合模型的参数,采用EM(期望最大化)算法,其基本思想为:首先根据已有观测数据估计模型参数值,根据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测到的数据重新再对参数值进行估计,反复迭代直至最后收敛,求得使得似然函数最大的θ值,即θ的最大似然函数估计值。因此根据该思路,所述基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
实施本申请实施例,通过使用输入数据的概率分布PDF模型的显性公式进行分组这一思想,可以容易地插入更通用的贝叶斯框架,不仅可以生成数据,还可以对数据结构进行建模,例如去噪或数据转换,这一点满足了时序场景映射到隐变量空间后,如何对场景样本点进行分类的同时,建立概率模型以便后续建立与现实物理空间相联系、可解释、可还原回时序场景的场景生成模型的要求。
步骤S4,对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点。
在本实施例中,参照图4,对于二维隐变量空间中的任意场景样本点(x,y),横坐标x表征了原有96维时序数据的低频波动,纵坐标y则表征了原有时序数据的高频波动。因此,每一子分布内各场景样本点本身均反映了原时序数据的波动特征,而每个子分布内各场景样本点在空间内不同位置的密集程度则反映了具有该波动特征的曲线的占比。
假设待聚类的具有p维特征的数据集为X={x1,x2,…,xn},k个初始聚类中心为C1,C2,…,Ck,用W1,W2,…,Wk表示k个类所包含的样本集合,所有样本集合为W。
则第i个场景样本点xi与第j个场景样本点xj之间的欧氏距离d(xi,xj)为:
Figure BDA0003661839720000111
进而,根据下式计算场景样本点间的平均距离cmean
Figure BDA0003661839720000112
其中,n为场景样本点总数。
继而得到场景样本点xi的密度den(xi):
den(xi)={q|d(xj,xi)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,xj为第j个场景样本点xj,α为密度半径系数,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
在本实施例中,所述对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点:
在W中寻找密度最大的样本
Figure BDA0003661839720000121
将其作为第c个类别的初始聚类中心,并删除处于密度半径圆内的场景样本点,具体地:
Figure BDA0003661839720000122
其中,n为场景样本点的总数,r为聚类的序列。
重复寻找初始聚类中心的步骤直至找出每个子分布对应的初始聚类中心,获得k个典型场景样本点。
在确定典型的风电-光伏-负荷场景的基础上,在每一子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
E={ej|d(ej,cj)=max d(pj,cj),ej∈RN′,j=1,2,…,k};
其中,ej为第j个极端场景样本点,pj为第j个子分布的初始聚类中心,RN’为N’维隐变量空间。
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
步骤S5,将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
由于所有典型场景样本点和所有极端场景样本点为在隐变量空间中被压缩过的场景样本点,因此还需要将所有典型场景样本点和所有极端场景样本点放入VAE解码器中进行还原,恢复为高维历史数据,得到对应的典型场景时序数据和极端场景时序数据。
参照图5,相应的,本发明实施例还提供了一种基于变分自编码器的场景生成装置,包括获取模块101、编码模块102、概率建模模块103、聚类模块104和解码模块105,其中,
所述获取模块101用于获取高维历史时序数据;
所述编码模块102用于根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;
所述概率建模模块103用于基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;
所述聚类模块104用于对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;
所述解码模块105用于将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
示例性地,所述概率建模模块103基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
所述概率建模模块103初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
优选地,所述聚类模块104对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
所述聚类模块104将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点;
其中,根据下式计算每个场景样本点的密度den(xi):
den(xi)={q|d(xj,xi)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,xj为第j个场景样本点xj,cmean为场景样本点之间的平均距离,α为密度半径系数,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
可选地,所述聚类模块104分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点,具体为:
所述聚类模块104从每个子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
在本实施例中,所述编码模块102根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
所述编码模块102基于高维历史时序数据,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量;
通过变分自编码器对每组变量样本集合进行编码,并降维到二维隐变量空间,得到场景样本点的集合
Figure BDA0003661839720000151
Figure BDA0003661839720000152
其中,
Figure BDA0003661839720000153
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据。
相比于现有技术,本发明实施例具有如下有益效果:
本发明实施例提供了一种基于变分自编码器的场景生成方法和装置,所述方法包括:获取高维历史时序数据;根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。相比于现有技术,充分利用历史时序数据并保留历史数据特性,生成符合历史数据分布特性和时序特性的新能源负荷场景;通过聚类思想识别出典型场景样本点和极端场景样本点,有效反映系统可能出现的运行状况,提高了拟合精度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于变分自编码器的场景生成方法,其特征在于,包括:
获取高维历史时序数据;
根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;
基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;
对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;
将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
2.如权利要求1所述的一种基于变分自编码器的场景生成方法,其特征在于,所述基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
3.如权利要求1所述的一种基于变分自编码器的场景生成方法,其特征在于,所述对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点;
其中,根据下式计算每个场景样本点的密度:
den(xi)={q|d(xi,xj)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,den(xi)为场景样本点xi的密度,xj为第j个场景样本点xj,cmean为场景样本点之间的平均距离,α为密度半径系数,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
4.如权利要求1所述的一种基于变分自编码器的场景生成方法,其特征在于,所述分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点,具体为:
从每个子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
5.如权利要求1至4任意一项所述的一种基于变分自编码器的场景生成方法,其特征在于,所述根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
基于高维历史时序数据,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量;
通过变分自编码器对每组变量样本集合进行编码,并降维到二维隐变量空间,得到场景样本点的集合
Figure FDA0003661839710000031
Figure FDA0003661839710000032
其中,
Figure FDA0003661839710000033
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据。
6.一种基于变分自编码器的场景生成装置,其特征在于,包括获取模块、编码模块、概率建模模块、聚类模块和解码模块,其中,
所述获取模块用于获取高维历史时序数据;
所述编码模块用于根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合;
所述概率建模模块用于基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果;其中,所述子分类分布结果包括各场景样本点对应的子分布、子分布参数和各场景样本点的概率;
所述聚类模块用于对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,作为典型场景样本点,并分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点;其中,每个子分布包含不少于一个极端场景样本点;
所述解码模块用于将所有典型场景样本点和所有极端场景样本点通过变分自解码器进行解码,获得与所有典型场景样本点对应的典型场景时序数据和与所有极端场景样本点对应的极端场景时序数据。
7.如权利要求6所述的一种基于变分自编码器的场景生成装置,其特征在于,所述概率建模模块基于高斯混合模型对每个场景样本点进行概率分布建模并分类,获得各场景样本点对应的子分布分类结果,具体为:
所述概率建模模块初始化所有预设子分布的正态分布参数;计算各场景样本点对应的概率密度,进而确定各场景样本点对应的子分布;通过对各场景样本点进行最大似然估计,迭代更新各子分布的子分布参数,直至所有子分布的子分布参数不再变化,获得子分布分类结果。
8.如权利要求6所述的一种基于变分自编码器的场景生成装置,其特征在于,所述聚类模块对每个子分布内的所有场景样本点通过DBSCAN密度聚类,确定每个子分布中处于初始聚类中心的场景样本点,具体为:
所述聚类模块将子分布内密度最大的场景样本点作为子分布的初始聚类中心,确定每个子分布的初始聚类中心,进而获得处于初始聚类中心的场景样本点,并删除各子分布中处于密度半径圆内的场景样本点;
其中,根据下式计算每个场景样本点的密度:
den(xi)={q|d(xi,xj)<cmeanα,j≤n,i≤n};
其中,xi为第i个场景样本点xi,den(xi)为场景样本点xi的密度,xj为第j个场景样本点xj,cmean为场景样本点之间的平均距离,α为密度半径系数,q为样本集中处于密度半径内的场景样本点个数,n为场景样本点总数。
9.如权利要求6所述的一种基于变分自编码器的场景生成装置,其特征在于,所述聚类模块分别从每个子分布中,选取与初始聚类中心的欧氏距离符合预设条件的场景样本点,作为极端场景样本点,具体为:
所述聚类模块从每个子分布中,选取与初始聚类中心的欧氏距离最远的场景样本点,作为极端场景样本点;
或,从每个子分布中,选取符合欧式距离符合以下条件的若干场景样本点,作为极端场景样本点:
E={ejr|d(ejr,cj)=max d(pj,cj),ejr∈RN′,j=1,2,…,k,r=1,2,…,m-1};
其中,k为子分布数量,j为第j个子分布,E为子分布中第r层极端场景样本点的集合,cj为第j个子分布的场景样本点,ejr为第j个子分布对应的第r层极端场景样本点,pj为第j个初始聚类中心,d(pj,cj)为第j个子分布的场景样本点和第j个子分布的初始聚类中心的欧氏距离,m为极端场景样本点的层数,RN’为N’维隐变量空间。
10.如权利要求6至9任意一项所述的一种基于变分自编码器的场景生成装置,其特征在于,所述编码模块根据获取的高维历史时序数据,通过变分自编码器进行编码,降维到二维隐变量空间,获得若干组场景样本点的集合,具体为:
所述编码模块基于高维历史时序数据,构建变量样本集合X:
X={xa|xa∈RN};
其中,a为样本编号,xa为包含N维特征变量的向量;
通过变分自编码器对每组变量样本集合进行编码,并降维到二维隐变量空间,得到场景样本点的集合
Figure FDA0003661839710000051
Figure FDA0003661839710000052
其中,
Figure FDA0003661839710000053
为包含二维特征变量的向量;所述高维历史时序数据包括原始风电数据、原始光伏数据和原始负荷数据。
CN202210579747.1A 2022-05-25 2022-05-25 一种基于变分自编码器的场景生成方法和装置 Pending CN114925767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210579747.1A CN114925767A (zh) 2022-05-25 2022-05-25 一种基于变分自编码器的场景生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210579747.1A CN114925767A (zh) 2022-05-25 2022-05-25 一种基于变分自编码器的场景生成方法和装置

Publications (1)

Publication Number Publication Date
CN114925767A true CN114925767A (zh) 2022-08-19

Family

ID=82811095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210579747.1A Pending CN114925767A (zh) 2022-05-25 2022-05-25 一种基于变分自编码器的场景生成方法和装置

Country Status (1)

Country Link
CN (1) CN114925767A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795328A (zh) * 2022-11-08 2023-03-14 国网能源研究院有限公司 同时生成新能源出力常规场景和极端场景的方法及系统
CN116185722A (zh) * 2023-04-28 2023-05-30 北京环球医疗救援有限责任公司 一种用于医疗保险主数据存储的数据安全管理系统
CN116523351A (zh) * 2023-07-03 2023-08-01 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795328A (zh) * 2022-11-08 2023-03-14 国网能源研究院有限公司 同时生成新能源出力常规场景和极端场景的方法及系统
CN115795328B (zh) * 2022-11-08 2023-09-01 国网能源研究院有限公司 同时生成新能源出力常规场景和极端场景的方法及系统
CN116185722A (zh) * 2023-04-28 2023-05-30 北京环球医疗救援有限责任公司 一种用于医疗保险主数据存储的数据安全管理系统
CN116523351A (zh) * 2023-07-03 2023-08-01 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备
CN116523351B (zh) * 2023-07-03 2023-09-22 广东电网有限责任公司湛江供电局 一种源-荷联合典型场景集生成方法、系统和设备

Similar Documents

Publication Publication Date Title
CN114925767A (zh) 一种基于变分自编码器的场景生成方法和装置
CN111091233B (zh) 一种风电场短期风电预测建模方法
CN109783682B (zh) 一种基于点对相似度的深度非松弛哈希图像检索方法
CN112381137B (zh) 新能源电力系统可靠性评估方法、装置、设备及存储介质
Gu et al. Clustering-driven unsupervised deep hashing for image retrieval
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111178427B (zh) 一种基于Sliced-Wasserstein距离的深度自编码进行图像降维并嵌入聚类的方法
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
CN109993208A (zh) 一种有噪声图像的聚类处理方法
CN111371611B (zh) 一种基于深度学习的加权网络社区发现方法及装置
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
Lin et al. A deep clustering algorithm based on gaussian mixture model
CN114880538A (zh) 基于自监督的属性图社团检测方法
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
CN113344589A (zh) 一种基于vaegmm模型的发电企业串谋行为的智能识别方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116595479A (zh) 基于图双重自编码器的社区发现方法、系统、设备及介质
Dessein et al. Parameter estimation in finite mixture models by regularized optimal transport: A unified framework for hard and soft clustering
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
CN115952906A (zh) 一种基于lsgan-gru的短期光伏功率预测方法、系统、设备及介质
Zhang et al. An optimized dimensionality reduction model for high-dimensional data based on restricted Boltzmann machines
CN114331883A (zh) 一种基于局部协方差优化的点云补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination