CN111709672A

CN111709672A - 基于场景和深度强化学习的虚拟电厂经济调度方法

Info

Publication number: CN111709672A
Application number: CN202010701145.XA
Authority: CN
Inventors: 胡本然; 李俊; 孙迪; 彭宇; 关心; 房大伟
Original assignee: Mudanjiang university; State Grid Heilongjiang Electric Power Co Ltd; Heilongjiang University
Current assignee: Mudanjiang university; State Grid Heilongjiang Electric Power Co Ltd; Heilongjiang University
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-09-25
Anticipated expiration: 2040-07-20
Also published as: CN111709672B

Abstract

一种基于场景和深度强化学习的虚拟电厂经济调度方法，解决了现有虚拟电厂经济调度方法通用性差的问题，属于智能电网经济调度领域。本发明包括：S1、建立虚拟电厂经济调度的目标函数及相应约束条件，使电力系统正常运行；S2、根据设定阈值对历史数据进行分类，分为极端场景的数据和常态场景的数据；S3、利用生成式对抗网络GAN分别对极端场景的数据和常态场景的数据进行扩充，获取极端场景数据集和常态场景数据集；S4、利用深度确定性策略梯度算法，分别以极端场景数据集及常态场景数据集作为训练集，对神经网络进行训练，求解目标函数的参数，确定虚拟电厂经济调度策略。使具有储能和接入配电网的虚拟发电厂(VPP)在不确定条件下稳定运行。

Description

基于场景和深度强化学习的虚拟电厂经济调度方法

技术领域

本发明涉及一种基于场景和深度强化学习的虚拟电厂经济调度方法，属于智能电网经济调度领域。

背景技术

随着在传统的电力设施中大量的分布式新能源发电机的接入，对于传统电网的正常运行提出了挑战。这是由于新能源发电机相较于传统的火力发电机组而言，新能源发电机不具有传统火力发电的性质：如持续性,稳定性等，新能源在出力过程中更多的依赖与天气和自然情况，那么新能源出力就具有间歇性，不确定性等缺点。但是新能源相比于传统能源也是具有成本低廉，对于环境污染少的特点。由于以上原由，一种新型的电厂模型虚拟电厂(VPP)就被提出来，用来整合分布式的传统能源和新能源。VPP通常都是通过合理的技术手段：如通信技术、信息技术和相对应的软件系统来对于分布式能源、储能系统和用户负载进行整合进行并网运行，并可参与到大型的能量市场中，以获得更大的经济效益。以达到更好整合大范围内容量小，分布不均匀，出力不稳定的分布式能源的目的。将这些分布式能源进行并网时会对于电网稳定运行造成影响，如潮流改变，线路拥塞等问题。由于VPP接入了大量的具有不确定性的能源出力的问题，稳定的运行电网是所有问题的前提。负载、新能源的不确定性因素会导致电厂不稳定。为了更好的解决不确定性的问题，提出具有鲁棒性的策略来更好的对VPP进行能源管理，但是现有针对VPP的鲁棒性问题的解决方法具有两个缺点：

一、鲁棒问题对于不确定性集合的保守性问题；

二、鲁棒性问题不能够直接对于非线性、非凸问题进行求解；

这两个缺点导致现有虚拟电厂经济调度策略方法的通用性差。

发明内容

针对现有虚拟电厂经济调度方法通用性差的问题，本发明提供一种更加通用的基于场景和深度强化学习的虚拟电厂经济调度方法。

本发明的一种基于场景和深度强化学习的虚拟电厂经济调度方法，所述方法包括：

S1、建立虚拟电厂经济调度的目标函数及相应约束条件，使电力系统正常运行；

S2、根据设定阈值对历史数据进行分类，分为极端场景的数据和常态场景的数据；

S3、利用生成式对抗网络GAN分别对极端场景的数据和常态场景的数据进行扩充，获取极端场景数据集和常态场景数据集；

S4、利用深度确定性策略梯度算法，分别以极端场景数据集及常态场景数据集作为训练集，对神经网络进行训练，求解目标函数的参数，确定虚拟电厂经济调度策略。

作为优选，所述S2中，通过夜间用电高峰的平均用电值作为设定阈值，将历史数据与该设定阈值进行对比，超过该设定阈值的历史数据为极端场景数据，否则，作为常态场景数据。

作为优选，所述S3包括：

S31、生成式对抗网络GAN包括生成网络模型G和辨别网络模型D；

S32、利用极端场景和常态场景的历史真实数据分别对生成式对抗网络GAN进行训练，获取极端场景数据生成网络模型G和常态场景数据生成网络模型G，训练过程包括：

将历史真实数据和随机噪声输入到生成网络模型G，生成网络模型G用于生成与所述真实数据相同类型的数据；

将极端场景或常态场景的真实数据与生成网络模型G生成的数据同时输入至辨别网络模型D中，辨别网络模型D用于判断生成网络模型G生成的数据是真实数据分布的概率；

通过真实数据与生成的数据的JS散度来更新辨别网络模型D，通过辨别网络模型D的结果来对于生成网络模型G进行训练，直到生成的数据是真实数据分布的概率大过设定值，停止训练；

S33、利用训练好的极端场景数据生成网络模型G和常态场景数据生成网络模型G分别对极端场景的数据和常态场景的数据进行扩充，获取极端场景数据集和常态场景数据集。

作为优选，所述方法S4中：

S41、根据目标函数确定状态集和动作集，其中动作集中的a为：

a＝π_θ(s)+N

其中，π_θ(s)表示输入状态s时的动作集合的概率分布情况，N表示噪声；

S42、构建深度确定性策略梯度算法中的Critic网络和Actor网络；

S43、设定Critic网络中估计网络的损失函数为：

其中，J(ω)表示训练时的均方误差，Q(s_j,a_j,ω)表示表示(s_j,a_j)时以ω参数的行为值函数，s_j表示状态，a_j表示动作，y_j表示行为值函数的真实值，m表示经验回放池的大小；

设定Actor网络中估计网络的损失梯度为：

Actor网络中的估计网络的损失函数为：

S44、以极端场景数据集或常态场景数据集作为训练集，训练Critic网络中的估计网络和Actor网络中的估计网络，并根据Critic网络中的估计网络的损失函数、Actor网络中的估计网络的损失梯度及其损失函数，对Critic网络中的估计网络和Actor网络中的估计网络的参数进行更新：

ω′←τω+(1-τ)ω′

θ′←τθ+(1-τ)θ′

其中，ω′表示Critic网络中的目标网络的参数；

θ′表示Actor网络中的目标网络的参数；

ω表示Critic网络中的估计网络的参数；θ表示Actor网络中的估计网络的参数；τ是更新系数。

作为优选，所述约束条件包括功率平衡约束、传统能源出力约束、新能源出力约束、储能容量约束、储能充放电约束和配电网交互约束。

作为优选，所述目标函数为：

T表示时域；I表示传统能源发电机的数量；

表示传统能源的成本函数，U_t,E表示储能的成本函数，U_t,p表示与配电交互电力的成本函数，

表示在t时刻传统能源发电机i的输出功率；Δp_t表示在t时刻购买或出售配电网络的电力数量；E_t,d和E_t,c分别表示在t时刻能源存储管理系统ESS的放电功率和充电功率；

功率平衡约束为：

其中，

表示功率是在t时刻由光伏发电机j输出的，J是光伏发电机的数量；

表示功率是在t时刻由风力涡轮发电机k输出的，K是风力涡轮发电机的数量，P_t,D是用户负载的需求；

表示在t时刻台风力涡轮发电机k的输出功率；

传统能源出力约束：

表示传统能源的成本，α,β,γ是正常数成本因子，

是传统能源发电机i输出的最小功率，

是输出的最大功率；

新能源出力约束：

其中，

和

分别是光伏发电机j和风力发电机k的额定功率；

储能容量约束：

E_min≤E_t≤E_max，

E_t表示为t时刻储能的状态，E_min和E_max分别表示储能容量的上下限，η_ch表示储能充电因子，η_dis表示储能放电因子；Δt表示时间变化；

表示t时刻的储能的充电电量；

表示表示t时刻的储能的放电电量；

储能充放电约束

其中

和

分别表示为单次充放电的最大值，并且在同一时刻储能只能进行充电或者放电单一操作；

0≤B_c+B_d≤1,

B_c,B_d∈[0,1],

其中，B_c和B_d分别表示充放电的状态，是一个二进制变量，取值0或1；

配电网交互约束：

U_t,p(Δp_t)＝Δp_t.p_g,

其中

和

表示与配电网交互电力的上限和下限，p_g表示最低购电价格。

本发明的有益效果：本发明考虑到负载的不确定性，采用了一种具有储能和接入配电网的虚拟发电厂(VPP)，在不确定条件下可以稳定运行使电厂运行稳健。而且使电厂的经济效益最大化。本发明突破了传统稳健问题的局限性和保守性，首次利用GAN生成场景和增强数据来降低它的保守性问题和使问题仍然满足问题的约束，使调度方法更加通用。对于现有的鲁棒性问题，只能解决线性问题和凸优化问题，本发明提出利用历史数据对DRL进行训练，并将训练后的模型作为求解器。当问题作为鲁棒性问题的解时，非线性问题可以直接解决，本发明的方法使策略具有鲁棒性和稳定性。

附图说明

图1为本发明的流程示意图；

图2为生成网络模型G的丢失结果；

图3为辨别网络模型D的丢失结果；

图4为生成式对抗网络GAN的准确度；

图5为DDPG的迭代结果；

图6为本发明DDPG与GAN收敛性的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施方式的一种基于场景和深度强化学习的虚拟电厂经济调度方法，包括：

步骤一、建立虚拟电厂经济调度的目标函数及相应约束条件，使电力系统正常运行；

本实施方式中，使用了一个并网虚拟发电厂，它主要由以下几个主要部分组成。组成部分是常规能源发电机、可再生能源发电机和储能系统。通过能源调度，最大限度地提高虚拟发电厂的成本。并满足基本要求负荷用户对电力的需求。本步骤中，描述了VPP的目标函数和约束条件。而对于电力系统的基本稳定运行，可以通过控制来达到稳定运行的目的储能的运行约束和传输容量的约束；

步骤二、根据设定阈值对历史数据进行分类，分为极端场景的数据和常态场景的数据；

步骤三、利用生成式对抗网络GAN分别对极端场景的数据和常态场景的数据进行扩充，获取极端场景数据集和常态场景数据集；

步骤四、利用深度确定性策略梯度算法，分别以极端场景数据集及常态场景数据集作为训练集，对神经网络进行训练，求解目标函数的参数，确定虚拟电厂经济调度策略。

由于VPP接入了大量的具有不确定性的能源出力的问题，那么稳定的运行电网是所有问题的前提。当具有负载，新能源等不确定性因素就会导致电厂的不稳定。本实施方式对于不确性设置为一种通用的表达，并认为在经济调度的模型下存在的不确定性都是随时间变化的不确定性，而且存在周期性。这样我们可以认为不确定性周期的对于成本进行影响，则通过满足迪利克雷条件来使不确定性进行离散的傅里叶变换。并且在加入了通用的不确定性结构的考虑可能会改变问题的性质如将凸优化问题变为一个非凸的优化问题。

首先，对于鲁棒问题的第一个问题，鲁棒问题对于不确定性集合的保守性问题。本实施方式提出了一种场景生成的数据增强的方法来解决这个问题。通过一定的尺度将历史数据分为两大类，常态场景和极端场景。然后通过对数据标记的方式来记录分类。通过区分不同的场景来训练两个场景生成器。常态场景的场景生成是为了弥补数据不足，数据缺失，数据集较小的缺点，使提出的方法更具有普适性。极端场景的生成是为了在解决鲁棒性问题的对于不确定性集的度量能够放开更大的尺度，已解决过于保守的问题。并且也为后续解决问题时能够寻找的更优的解提供帮助。传统的数据曾强通常采用一些统计学，和概率的方法来解决这个问题，通常使用一个高斯分布来对于数据进行估计和生成。传统的统计学方法具有效率低不准确不能分类等缺点。本实施方式将提出使用深度学习来进行数据增强，对于这样的历史数据集合通常选用的时递归神经网络(RNN)或者是长短时间记忆网络(LSTM)这两种方法通常对于连续时间域上进行生成和预测具有良好的效果，但本问题需将历史数据分类也即是打破了时间连续性，则使用RNN或者LSTM的效果就不是很优良。本实施方式提出通过生成式对抗网络(GAN)来进行数据生成。GAN对于历史数据只要求都来自于同一个分布即可。没有离散或者连续的要求。GAN是一种“二人零和博弈”的方式来训练。这有益于能够更加准确拟合历史数据的分布，以达到数据增强和生成场景的目的，并且其还具有如下优点，GAN是一种生成式模型，和其余的生成模型(玻尔兹曼机和深度置信网络)对比，仅仅只用都了反向传播,而对于马尔科夫链的使用不做需求，而比较其余模型,GAN对于真实的样本分布的拟合程度较高，能够更好的生成准确的数据。GAN采用的是一种无监督的学习方式训练，可以被广泛用在无监督学习和半监督学习领域。相比于变分自编码器(VAE),GAN没有引入任何决定性偏置(deterministic bias),变分方法引入决定性偏置,因为他们优化对数似然的下界,而不是似然度本身,这看起来导致了VAEs生成的实例比GAN更不够准确，相比VAE,GAN没有变分下界,如果鉴别器训练良好,那么生成器可以完美的学习到训练样本的分布.换句话说,GANs是渐进一致的,但是VAE是有偏差的。

对于传统鲁棒性问题的第二个缺点：鲁棒性问题不能够直接对于非线性，非凸问题进行求解，本实施方式将采用一种深度强化学习(DRL)的方法来解决这个问题。为了求得更好的鲁棒性策略，首先我们将通过历史数据来对于DRL进行训练以让它可以更好的可以对于问题的求解，为了更好的训练DRL应采用更多的场景来训练DRL使算法性能提高，本实施方式中所提的数据增强和场景生成就是为了能够具有更多的场景进行训练。这样就不太依赖于历史数据集合的大小，使算法更具有普适性。传统的对于非线性问题主要采用两种方法来解决，第一是尽可能的将非线性问题转换为线性问题来进行求解，这样就可以直接使用线性规划来解决，第二是采用分治的方法将问题分割成许多子问题，将一个非线性问题分割成若干个线性的子问题来进行求解。而对于非凸的优化问题，在之前的研究中并没有可以直接求解的方法，这是由于非凸的优化问题是一个NP-hard问题，对于非凸优化问题想求得其全局最优的解是基本不可能的。只能通过方法来求的其一些局部最优的解。但是最新的成果表明在机器学习中所存在的一些非凸问题如随机梯度下降法(SGD)时非凸优化可以将局部最优的解当作全局最优的解。那么对于鲁棒性问题的非凸优化时本实施方式通过使用策率梯度(PG)的强化学习方法，就可以满足最新成果，难么只需对其进行求解找到其局部最优的解来视为全局最优的解即可。

本实施方式的步骤一中，为了解决经济调度问题，提出了解决经济调度问题的目标函数，实现了效益的最大化，目标函数为：

T表示时域；I表示传统能源发电机的数量；

表示在t时刻传统能源发电机i的输出功率；Δp_t表示在t时刻购买或出售配电网络的电力数量；E_t,d和E_t,c分别表示在t时刻能源存储管理系统ESS的放电功率和充电功率；当Δp_t大于零时，它表示输出功率大于用户负载，为了增加收益，它将足够的功率传输到配电网络；而当Δp_t小于零时，它会输出功率。与之相反。

为了满足VPP的正常运行条件，VPP应该在约束条件下运行。发电厂的电力输出系统和ESS均应满足条件和操作。由于本实施方式的VPP已连接到配电网络，因此在配电网络中也应考虑连接传输容量的限制。因此，描述了VPP正常运行的约束条件。

对于VPP，满足负载需求是VPP的基本任务。为了满足用户的基本需求，应当在功率不小于负载需求的每时每刻产生提供负载的需求。但是，出于成本考虑，有必要减少供电时产生的多余功率，以降低成本并提高VPP的效益。功率平衡约束为：

其中，

表示在t时刻台风力涡轮发电机k的输出功率；

在VPP环境中，传统能源的输出是最关键的能源输出方法，它还可以为用户需求提供更连续和稳定的供应。然而，由于传统能源的高能源输出成本，这是经济调度的主要考虑因素之一。传统能源出力约束：

表示传统能源的成本，α,β,γ是正常数成本因子，传统能源的输出受到发电机本身的额定功率和某些条件的限制。

是传统能源发电机i输出的最小功率，

是输出的最大功率；

由于天气和环境因素，可再生能源发电机的输出是不确定的且不可控制的。这也导致可再生能源仅在整个虚拟电厂的电力系统中作为辅助能源存在。但是，由于其低成本可以有效降低发电厂的成本，因此也考虑了可再生能源。新能源出力约束：

其中，

和

分别是光伏发电机j和风力发电机k的额定功率；

根据以前的研究，添加ESS可以降低VPP的运行成本。当ESS用作为过剩功率的存储设备时，ESS可以减少电力资源的浪费，或者当功率不足时，ESS可以用作输出的一部分。为了更好地表明其充电或放电过程，储能容量约束：

E_min≤E_t≤E_max，

表示t时刻的储能的充电电量；

表示表示t时刻的储能的放电电量；

储能系统的单次充电和放电受ESS条件的限制。ESS的充电或放电具有固定的上限。储能充放电约束：

其中

和

0≤B_c+B_d≤1，

B_e,B_d∈[0,1],

为了考虑虚拟电厂的稳定性和安全性，虚拟电厂与配电网之间的电力传输应受到传输容量的约束，配电网交互约束：

U_t，p(Δp_t)＝Δp_t·p_g，

其中

和

本实施方式采用数据增强的方式来进行场景生成。数据增强的目的就是对于机器学习的训练时由于训练样本过小，样本缺失等问题。进行数据的扩大和弥补数据缺失的问题。来增强机器学习的学习能力和泛化能力。数据增强通常分为有监督的数据增强和无监督的数据增强。有监督的数据增强就是指通过设置好的规则来进行数据增强的方法。而无监督的数据增强就是与之相反的。这样能够更好的学习到数据的分布来生成更多贴近真实场景的数据。本实施方式采用的就属于无监督的数据增强。传统的有监督的数据增强方式又分为单样本的数据增强和多样本的数据增强。单样本的数据增强具有两种主流的方法几何变换法和颜色变换法。几何变换法就是指对于图像的数据，简单的进行旋转，平移，反转，变形和裁剪等简单的手段进行变换。这对于单一图像就可造成产生多个相似的样本增加数据的数量。但是对于本实施方式所要解决的问题中场景多是以数值形式表现的那么几何变换法对于本问题就不能够进行。而几何变换法并没有改变样本只是单纯的几何变换，而颜色变换法是通过增加噪声，阴影，模糊，颜色变换的方法来进行数据增强的。除了增加的噪声的数据生成的方法可以勉强在本问题使用，其余的方法都不能直接用于数值形式的场景生成。也就是说对于传统的单样本数据增强的方法在本实施方式中是不适用的。

传统的有监督的数据增强的方法还具有多样本的数据生成方法如SyntheticMinority Over-sampling Technique(SMOTE)，SamplePairing(SP)和Mixup。SMOTE是通过人为的合成已有的数据样本来进行数据生成的。其主要的目的是解决数据不平衡的问题，也即是数据中大小样本比例失衡的问题。来通过数据增强的方式来产生数据来平衡大小样本的比例。SMOTE首先是确定样本比例失衡的倍率。然后通过想要生成数据的样本(x,y)通过欧式距离找到其最近K个样本从中挑选一个记为(x_n,y_n)然后通过如下公式计算来进行生成，直到满足失衡的倍率即可。

(x_new，y_new)＝(x，y)+rand(0-1)*((x_n-x)-(y_n-x))

虽然SOMTE可以对于数值样本进行生成但是其主要是解决数据不平衡的问题的。对于本实施方式所要求的目的不满足。SP是通过在样本中随机选个几个样本将样本进行简单的线性变换然后通过加和去平均值的方式来进行数据生成的。虽然这种方法对于数值数据可以生成但是由于其在选取样本时可能引入不同标签的样本就会造成使用这样的数据进行训练产生较大的误差。Mixup是一种基于邻域风险最小化原则的数据增强方法，是使用线性插值的方式来进行数据生成的。也即从样本中随机抽取两组数据(x_i,y_i)和(x_j,y_j)然后通过公式来进行数据生成的方法。

(x_new，y_new)＝λ(x_i，y_i)+(1-λ)(x_j，y_j)

这样方法对于生成数据进行模型训练具有较好的效果可以有效的增加机器学习的训练效果。但对于本实施方式的问题不适用。但对于数据缺失的问题不能进行很好的弥补。SMOTE，SamplePairing，Mixup三者思路上有相同之处，都是试图将离散样本点连续化来拟合真实样本分布，不过所增加的样本点在特征空间中仍位于已知小样本点所围成的区域内。这样不具有较高的泛化能力。

传统的有监督的数据增强的方法，上述的方法都因为其自身的局限性或者方法的性能较差等原因而不能在本实施方式中使用。本实施方式将使用一种无监督的数据增强的方法来进行场景生成的任务。即使用生成式对抗网络(GAN)来完成任务。生成式对抗网络是由Ian Goodfellow提出的一种对抗式训练的一种深度学习方法。可以用来学习已有数据的分布来生成符合真实的分布的‘假’数据。生成对抗网络是博弈论中的二人零和博弈(two-player game)的过程，两位博弈方的利益之和为零或一个常数，即在博弈双方必有一方获得利益，另一方具有损失。生成对抗网络通常是由生成网络G和辨别网络D来组成对抗学习的双方。生成模型G是通过已有的历史数据来生成数据，这些生成的数据是符合历史数据的分布的。判别模型是一个分类任务，用来分辨生成网络所生成的数据是真实的数据分布的概率。生成网络和辨别网络都是非线性的函数映射过程，通常使用常见的深度学习的方法如深度神经网络，卷积神经网络等方法。GAN的构造基本fig.2所示，输入一些服从某一简单分布(例如高斯分布)的随机噪声z和历史数据，输出是与历史数据相符合的相同的数据类型。将由生成网络所生成的数据输入到辨别网络中，辨别网络的目的是识别出输入的数据是否来自真的数据分也即期望输出低概率来判断生成的数据，对于生成网络G来说要尽量生成符合真实数据分布的数据来欺骗D，使判别模型输出高概率(误判为真实样本)，从而形成竞争与对抗。GAN模型没有损失函数，优化过程是一个“二元极小极大博弈(minimax two-player game)”问题。这是关于判别网络D和生成网络G的价值函数(Value Function)，训练网络D使得最大概率地区分对训练样本的标签(最大化log D(x))，训练网络G最小化log(1–D(G(z)))，即最大化D的损失。训练过程中固定一方，更新另一个网络的参数，交替迭代，使得对方的错误最大化，最终，G能估测出样本数据的分布。生成模型G隐式地定义了一个概率分布Pg，我们希望Pg收敛到数据真实分布Pdata。,这个极小化极大博弈当且仅当Pg＝Pr时存在最优解，即达到纳什均衡，此时生成模型G恢复了训练数据的分布。判别模型D的准确率等于0.5。

本实施方式的步骤二中，通过夜间用电高峰的平均用电值作为设定阈值，将历史数据与该设定阈值进行对比，超过该设定阈值的历史数据为极端场景数据，否则，作为常态场景数据。

本实施方式通过将数据分为常态数据和极端数据。本实施方式场景主要是由新能源出力和负载需求构成。而新能源出力由于受限于发电机的额定功率上限所以不会产生超过额定功率的异常极端数据。本实施方式中所提到的极端数据通常是指负载需求的极端。本实施方式通过夜间用电高峰使得平均用电来当做阈值来进行数据的分类。当超过阈值的数据就为极端场景，反之则为常态场景。常态场景可以用来扩大数据集合的大小。而极端场景的扩充可以更大的放宽鲁棒性策略的尺度以来减少鲁棒性问题保守的缺点。对于这两种生成模型数据分类方式如上。其模型训练都采用相同的方式来训练出不同的模型。

本实施方式的步骤三包括：

将历史真实数据和随机噪声z输入到生成网络模型G，生成网络模型G用于生成与所述真实数据相同类型的数据；z是服从高斯分布的噪声，均值为0，方差为1。

S33、利用训练好的极端场景数据生成网络模型G和常态场景数据生成网络模型G分别对极端场景的数据和常态场景的数据进行扩充，获取极端场景数据集和常态场景数据集。由于极端场景可能过少而不足以训练则可以通过SamplePairing的方式来简单的扩充数据集。然后在进行训练这样就可以产生大量的符合真实分布的极端场景的数据。

解决鲁棒性问题有很多致命的缺点。鲁棒性问题是将不确定性问题转变为确定性问题，然后使用线性规划来解决该问题。这样，对于传统的鲁棒性问题，它不能直接解决非线性和非凸性问题。即使保证非凸问题对凸问题有统一的解决方案，它也存在变换复杂度和求解难度的问题。针对上述问题，本实施方式提出了一种基于DRL的方法来解决。DRL的培训用作问题解决者。在不失去鲁棒性优势的情况下，它可以更有效，更直接地解决问题。本实施方式采用DRL算法来解决传统鲁棒方法无法解决非线性和非凸问题的缺点。针对此缺点，采用了基于随机优化的方法，即深度强化学习。对于虚拟电厂的电力系统，决策和状态通常是连续的空间。因此，应该选择深度强化学习的算法来解决连续状态空间的问题。基于价值函数和策略梯度，深度强化学习通常可以分为两种类型。两种DRL都可以解决连续空间的问题，但是基于值函数DRL的连续动作空间问题似乎有所延伸。因此，本实施方式选择基于策略梯度的算法，即深度确定性策略梯度(DDPG)算法。这弥补了它在解决非线性和非凸问题上的失败，而又没有失去强大策略方法的优势。

本实施方式的S4中：

S41、根据目标函数确定状态集和动作集，为了学习过程可以增加一些随机性，增加学习的覆盖，DDPG对选择出来的动作a会增加一定的噪声N，即最终和环境交互的动作a为：

a＝π_θ(s)+N

S43、设定Critic网络中估计网络的损失函数为：

设定Actor网络中估计网络的损失梯度为：

Actor网络中的估计网络的损失函数为：

ω'←τω+(1-τ)ω'

θ′←τg+(1-τ)θ′

其中，ω′表示Critic网络中的目标网络的参数；

θ′表示Actor网络中的目标网络的参数；

ω表示Critic网络中的估计网络的参数；θ表示Actor网络中的估计网络的参数；τ是更新系数，通常取值较小多采用0.1或者0.01这样数值。

由于深度神经网络参数的训练是一个非凸的优化过程，那么陷入局部最优解就会对于神经网络的性能具有影响，从而会影响到整体算法的优化结果。那么当神经网络陷入到局部最优是否对于算法性能具有影响就是至关重要的。本实施方式来证明在神经网络中通过梯度下降的方式进行参数更新时，所有局部最优的解都是全局最优的解。对于神经网络的训练我们认为神经网络的参数矩阵为W,则认为存在最优的参数矩阵W^*。则目标函数为：

令W＝PQ^T,W^*＝P^*Q^*T则目标函数就可以变为：

其中H₀为Hessian，U₀(P,Q)为正则项用来防止参数过拟合。W:H:W表示为二次型。则对于解决这个问题，我们需要找到一个(d₁+d₂)*r的矩阵来解决问题，那么对于最优解W^*进行奇异值分解(SVD)则W^*＝X^*D^*Y^*,那么分别令

则通过如下方法转化为对称阵。

N＝MM^T，N*＝M*M*^T

将Hessian算子也变为(d₁+d₂)*r矩阵，定义Hessian H，G得:

N：H_i：N＝W：H₀：W

那么令Q(M)＝Q(P,Q)则f(P,Q)变为f(M)得：

则将问题矩阵转为对称阵。由公式知：

其中H＝4H₁+G。则知，当Q(M)＝0,则

代入eq.42中得到

那么可以认为MM^T＝N^*也即是所有局部最优的解都可认为时全局最优，也即是PQ^T＝W^*

本实施方式验证GAN在DA中的性能，以说明采用的GAN有效解决了保守性问题。通过演示DDPG算法的性能，它展示了使用该算法作为求解器的优势。并通过比较DDPG和DPG算法来说明DRL算法与RL算法相比的优势。

在本实施方式中，虚拟发电厂主要由传统能源，可再生能源和储能系统组成。为了更好地降低虚拟电厂的成本，常规能源发生器的下限为10KW，上限为80KW，成本常数为α＝0.01，β＝5.16和γ＝46.1。可再生能源主要分为光伏发电机和风力发电机。PV发电机的最大输出为60KW，风力涡轮机的最大输出为50KW。最大储能容量为140KW，最小为15KW。单次充放电不大于35KW。50千瓦。模拟的数据集来自NREL的测量和仪器数据中心(MIDC)和开放式能源信息和数据(O penEI)。

GAN网络的训练结果:

GAN生成模型用于解决鲁棒性策略的问题。GAN网络由生成和歧视网络构成。本实施方式使用的生成网络是一个BP神经网络，具有4层隐层，每层神经元的数量为64，激活函数为Relu函数。输出层输出包含光伏，风和负载的矢量。激活函数是线性激活函数。分辨率网络也是具有4个隐藏层的BP神经网络。每层神经元的数量为64，激活功能为RELU功能。输出层使用Sigmod激活功能进行区分。通过展示GAN的生成和判别网络的损失函数，主要描述GAN的性能。它可以描述实际分布的准确性。GAN中生成网络的主要目的是能够生成可以欺骗鉴别网络并符合实际分布的数据。如图2所示，本实施方式中使用的生成网络收敛到1，即生成的数据可以满足生成的数据，该生成的数据可以欺骗判别网络并且可以很好地拟合真实的分布。GAN中的判别网络尽可能通过发电网络产生的数据来区分，以发现发电网络产生的数据为假。然后如图3所示，本实施方式使用的判别网络收敛于0。它可以满足本实施方式的需求。如图4所示，本实施方式中GAN数据生成的准确性约为0.7。对于DA部分，可以满足以下内容解决方案的需求。DDPG的训练结果:

为了更好地利用DDPG解决虚拟电厂的经济调度问题，本实施方式采用马尔可夫决策过程(MDP)通过状态，作用，转移概率，收益函数和折现因子等要素构建算法模型。本实施方式设定的状态包括光伏，风力，负载和储能能力。该动作集包括传统能量的输出，能量存储的充放电以及与配电网络相互作用的电量。该问题的转移概率未知。返回函数由传统能源的输出成本，储能的充放电损失成本以及与配电网络的交互成本组成。折现系数0.1。

本实施方式使用的深度强化学习算法是DDPG，其中DDPG是一种具有AC结构的基于策略的算法。在本实施方式中，主要离线训练DDPG，并使用该算法作为求解器来解决鲁棒性策略。为了更好地显示性能，通过比较传统算法和DRL来比较算法的优缺点。其次，采用鲁棒策略解将负载作为不确定集，并通过时间变化来证明算法的鲁棒性。如图5中所示，DDPG算法可以随着时间的迭代逐渐优化vpp的成本，并且还可以看到有明显的下降趋势。为了更好地说明本实施方式使用的DDPG算法的性能，本实施方式设计了一个对比实验，以表明所使用的DRL算法的性能优于简单RL算法的性能。通过比较一天(24小时)的最佳成本来比较算法的性能。在24小时比较下，每小时DRL算法的性能要优于RL算法的性能。与RL算法相比，DRL算法在计算一天的总费用时优化了约20％的性能。这是将DRL算法用作求解器的原因之一。

为了更好地说明本实施方式中数据增强的效果，设计了一个迭代步数，以比较采用或不采用GAN的DDPG算法，以通过收敛到预设的最佳结果来解决虚拟电厂的经济调度问题。在图6中可以清楚地看到，本发明的GAN与DDPG结合的方法在200步收敛到最佳结果，而仅采用DPPG算法在300步收敛。通过GAN，原始数据集的扩展可以提高训练速度和模型结果。这也表明该算法可以有效解决本实施方式提出的问题。

本发明中，虚拟电厂的经济调度是通过鲁棒的策略解决的，并且在求解过程中，考虑到负荷的不确定性，本发明的虚拟电厂具有储能功能并连接到配电网，该虚拟电厂可以在不确定的条件下稳定运行，并使电厂的运行稳定。此外，利用本发明的调度方法使发电厂的经济利益得以最大化。本发明突破了传统鲁棒问题的局限性和保守性，首次使用GAN生成场景并增强数据以减少问题的保守性，使问题仍然满足问题的约束。它使调度方法更加通用。针对无法解决的非线性和非凸问题，对传统的鲁棒性问题进行了优化。

虽然在本实施方式中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本实施方式中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。