CN118174355A

CN118174355A - 一种微电网能量优化调度方法

Info

Publication number: CN118174355A
Application number: CN202410270038.4A
Authority: CN
Inventors: 张占强; 王阔; 孟克其劳; 王瑞; 杨雯璐
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-06-11

Abstract

本发明涉及微电网技术领域的一种微电网能量优化调度方法，提出了一种面向微电网能量优化调度的带有Wasserstein距离的生成对抗模仿学习GAIL算法，该方法与近端策略优化算法相结合，以降低微电网运行成本为目标，实现微电网的能量调度优化。首先，智能体通过模仿专家策略自适应学习动作探索过程。其次，基于生成对抗理论，增设判别器网络；并在判别器网络中引入Wasserstein距离用来辨别生成策略与专家策略之间的差异，以此来辅助神经网络参数更新；最后，通过算例分析，验证了该方法的有效性。解决了由于微电网中可再生能源发电单元输出存在波动性、间歇性等问题，以实现可再生能源的高效利用以及微电网的稳定运行。

Description

一种微电网能量优化调度方法

技术领域

本发明属于微电网技术领域，具体涉及一种基于GAIL With WassersteinDistance的微电网能量优化调度方法。

背景技术

为了解决当前传统化石能源短缺和环境污染问题，电网中可再生能源的比例大幅度增加。然而，由于受自然条件影响，风电、光伏发电等可再生能源普遍存在较大的波动性、间歇性等不确定因素影响，使得大规模可再生能源并网消纳面临着巨大挑战。微电网作为解决可再生能源消纳问题的重要途径，近年来受到了广泛的关注，其可通过先进的信息控制技术对分布式发电单元及可再生能源进行能量调度。

针对含不确定性的微电网能量优化调度问题，目前比较成熟的应对方法有启发式算法、鲁棒优化算法和模型预测控制算法。但是三种算法各有一定的优缺点,由于新能源的大规模并网加重了源-荷-侧的不确定性，很多实际的微电网系统很难得到一个准确的预测模型。

近年来，随着人工智能的迅猛发展，深度强化学习凭借“去模型化”的优势被用来解决微电网中的能量优化调度问题。如采用深度Q网络(deep Qnetwork，DQN)与环境的交互来优化微电网的运行指标，提高了可再生能源的利用率。双深度Q网络(doubledeep Qnetwork，DDQN)算法实现了微电网复合储能的协调控制，DDQN算法避免了DQN算法中Q值被高估了的问题。竞争深度Q网络(dueling deep Q network)算法实现了微电网的能量管理与优化，克服了DQN训练过程中的不稳定性，但是当其面对大量信息或者应用到高维状态空间时，则会出现“维度爆炸”。

为了解决DQN算法中“维度爆炸”的问题，又提出了基于深度确定性策略梯度(deepdeterministic policy gradient，DDPG)的电压控制方法，验证了深度强化学习方法在系统物理参数不确定情况下的适用性。但是该算法只适用于连续动作空间的问题。于是又提出了将柔性演员-评论家(soft actor-critic，SAC)算法与拉格朗日乘子结合，能够满足复杂的网络潮流约束。基于近端策略优化(proximal policy optimization，PPO)的实时动态最优能源管理方法，可以较好地应对可再生能源的不确定性带来的影响。

然而，尽管深度强化学习方法很受欢迎，但在处理高维空间和连续动作的决策任务时，它们普遍存在训练时间长和奖励函数设计困难的问题。模仿学习(ImitativeLearning，IL)可以有效解决以上问题，通过模仿专家演示的策略来让智能体学习到更好的策略。常见的模仿学习有三种，行为克隆(behavior cloning，BC)，逆强化学习(inversereinforcement learning，IRL)和生成对抗模仿学习(generative adversarialimitation learning，GAIL)。

GAIL与BC和IRL相比有以下优点，第一，GAIL不受限于专家样本的数量，样本的利用率较高，且具有一定的“创造性”；第二，GAIL避免了先通过专家经验获取奖励函数，再通过奖励函数重新学习策略的繁琐计算过程，可以直接学习得到策略；此外，GAIL更容易实现，且效果更好。由于GAIL的这些优点，有学者将其应用到电力能源领域，在深度强化学习的基础上，引入模仿学习思想，提出了一种基于GAIL的电力系统动态经济调度方法，可减少无意义动作空间的探索，加速智能体的学习进程。将GAIL方法应用到综合能源系统的优化调度中，算法训练过程中收敛速度与收敛效果较传统的深度强化学习有明显提升，在线应用时可做到快速实时调度。

生成对抗模仿学习较好地解决了微电网中高维连续控制任务中的智能体学习问题，但是GAIL中由于生成对抗网络(generative adversarial nets，GAN)中Jensen-Shannon(JS)散度的数学性质会导致梯度消失，从而使训练过程不稳定，生成较差的策略，仍然不能作为最优化的微电网能量调度方法，因此，微电网能量优化调度方法仍需进一步深入探索研究。

发明内容

针对上述情况，本发明引入了Wasserstein距离，提出了一种面向微电网能量优化调度的基于Wasserstein距离的生成对抗模仿学习(Generative Adversarial ImitationLearning With Wasserstein Distance，WGAIL)方法。该方法具体包括以下步骤：

S1、构建微电网系统模型；

微电网系统包括主电网，以及与主电网并网连接的可再生能源发电单元、传统化石能源发电单元、储能设备和用户负荷；在并网模式下，微电网与主电网进行能量交互，根据可再生能源发电功率和电力负荷的用电功率，进行合理地功率分配，最终达到系统能量优化调度的目的；

具体功率分配公式描述为：

式中，P_wt(t)为t时刻风机输出功率(kW)，P_b(t)为t时刻储能电池的输出功率(kW)，为t时刻第m台柴油发电机的输出功率(kW)，P_MG(t)为t时刻微电网与主电网的交互功率(kW)，P_pv(t)为t时刻光伏输出功率(kW)，P_load(t)为t时刻负荷需求功率(kW)；

S2、能量优化调度问题转化；

将微电网系统能量优化调度问题建模为马尔科夫决策过程通过智能体和环境间的不断交互学习得到最优能量调度策略；马尔科夫决策过程由一个四元组{S,A,R,P}组成，以最小化经济成本和保障能源供需关系平衡为优化目标进行优化调度问题的转化，其中S是状态空间，A是动作空间，R是奖励函数，P是状态转移概率；

S3、基于WGAIL的能量优化调度求解算法；

该算法结构由专家策略数据、生成器网络和判别器网络组成；其中，智能体的策略网络通过强化学习算法进行更新，经过判别器的反馈迭代更新后，最终得到LDR场景下能量调度问题的最优决策，结合Wasserstein距离和PPO算法的生成对抗模仿学习方法；

S4、算例分析；

最后通过算例分析，对步骤S3中算法的收敛稳定性以及处理微电网能量优化调度问题时的有效性进行验证。

具体地，步骤S1中，微电网系统中的可再生能源发电单元包括风力发电和光伏发电；为了微电网能够稳定运行，微电网系统还需要满足以下约束：

(1)风力发电约束条件为：

式中，为风机最大输出功率(kW)；

(2)光伏发电约束条件为：

式中，为光伏最大允许输出功率(kW)；

(3)储能设备约束条件为：

式中，SOC_t-1为上一时段储能电池的荷电状态，采样二进制数δ_t表示电池在t时刻的状态，当δ_t＝1时为充电状态，δ_t＝0时为放电状态；μ_c和ρ_disc分别为充电效率和放电效率，为储能电池的最大容量，P_t ^bat,ch-^,dis-为t时刻储能的充、放电功率；为了避免过度充放电，还需要对荷电状态添加约束：

SOC_min≤SOC_t≤SOC_max

式中，SOC_min和SOC_max分别为储能电池的最低和最高荷电状态；

(4)与主电网交互功率约束条件为：

式中，分别为系统与主电网交互的输出功率的下限及上限；

(5)柴油发电机运行约束：

为了减少微电网对主电网的依赖，当可再生能源发电单元出力不足时，可利用柴油发电机补足电力，其运行约束条件为：

式中，和/>分别为柴油发电机最小输出功率和最大输出功率；

微电网系统的目标函数为：

式中，C_wt(t)、C_MG(t)和分别为t时刻风力发电、光伏发电、主电网交互成本和第m台柴油发电机的运行总成本，表达式如下：

其中，c_wt为风电的每千瓦发电单价(元/kW)，c_MG(t)是主电网t时刻的实时电价，a_m、b_m、c_m分别是发电机的系数。

具体地，步骤S2中，马尔科夫决策过程的四元组{S,A,R,P}分别为：

(1)状态空间

根据微电网环境，定义t时刻的状态空间，描述为：

式中，P_t ^pv是t时刻光伏的输出功率，P_t ^load为t时刻负荷需求功率，为t时刻储能电池的荷电状态；

(2)动作空间

动作空间中定义的智能体动作，是为了满足系统能量平衡等式，通过控制风电、柴油发电机、储能电池和主电网的动作，来实现负荷需求响应场景下的实时需求，动作空间定义为：

式中，P_t ^wt、和P_t ^MG分别表示t时刻风电、柴油发电机和主电网的输出功率，P_t ^bat,ch-,dis-为t时刻储能电池的充、放电功率；

(3)奖励函数

基于LDR的能量调度目的是达到最小化用电成本和实现供需功率平衡，以设备发电成本、未满足功率平衡情况的代价函数构建奖励函数，t时刻的奖励函数定义为：

式中，t时刻的用电成本定义为C(t)＝C_wt(t)+C_MG(t)+C_DG(t)，为t时刻未满足功率平衡情况的代价函数，n₁、n₂分别为二者权重系数；/>具体描述为：

其中，χ_t＝P_t ^wt+P_t ^pv+P_t ^DGm+P_t ^MG-P_t ^load为能源供需关系变量，根据χ_t的正负性选择储能电池的充、放电动作，n₂₁和n₂₂分别为储能调节后系统能量供大于求和供不应求时的能量平衡奖励系数；

(4)状态转移概率

表示为系统从t时刻的状态采取动作a_k后，转换到t+1时刻状态的概率。

具体地，步骤S3中，结合Wasserstein距离和PPO算法的生成对抗模仿学习方法WGAIL算法如下所示：

WGAIL算法

在专家数据采集方面，利用基于截断目标函数法的近端策略优化算法在微电网环境中训练专家策略模型，并保存模型，以此获得专家样本数据；

生成器网络由一个完整的强化学习框架构成，包括智能体和环境，判别器网络使用的是由全连接层构成的神经网络，其输入为状态-动作专家样本数据{s_E,a_E}和状态-动作生成样本数据{s_G,a_G}，经过神经网络传递后得到输出；

(1)专家经验采集

模仿学习需要对专家数据集进行拟合，专家数据的质量决定了学习的成功与否；通过近端策略优化算法在微电网环境中训练得到最终决策模型，训练后的模型为专家策略模型，通过专家策略模型采集状态-动作专家数据样本；

(2)生成器

生成器结构是由完整的强化学习框架构成，其中，强化学习算法采用近端策略优化算法，该算法中包含了两种神经网络，分别是策略网络Actor和价值网络Critic；策略网络Actor的输入是环境的状态，输出的是每个动作的概率，价值网络Critic则对当前的状态进行评估并输出评估值，且一般策略网络和价值网络有共同的特征提取层；

其状态空间为3维，动作空间为4维，据此设置来构建神经网络；具体来说，策略网络Actor的输入层神经元个数为状态空间的维数，即输入层有3个神经元；

隐藏层采用了10层的多层感知机神经网络，每层含有256个神经元；前8层的神经元激活函数为Tanh，目的是将神经元的输出限制在(-1,1)之间，而第9和第10层的神经元激活函数为Identity，即恒等函数，不对输出产生影响。

输出层神经元个数为动作空间的维数，输出层有4个神经元；价值网络Critic用于评估动作的好坏程度，其输入层包含4个神经元；

隐藏层共有7层，每层含有256个神经元；前5层的激活函数为Tanh，第6和第7层的激活函数为Identity；输出层只有1个神经元；

(3)判别器

判别器是由全连接层构成的神经网络，包括输入层、隐藏层和输出层，用于识别真实数据和生成数据之间的差异性；

输入层的输入是状态-动作对，所以输入层的神经元个数为状态空间维数和动作空间维数之和，共7个神经元；

隐藏层共有5层，每层100个神经元，其中激活函数为Tanh；输出层仅有一个神经元；在判别器网络中，生成策略与专家策略之间的距离采用Wasserstein距离来度量：

对于满足Lipschitz约束条件的Wasserstein距离，提出了一种梯度惩罚的方法来增加对判别器网络梯度的约束，描述为：

式中λ取为10；

判别器网络的目标函数为：

由于多数强化学习的奖励值都为负数，于是，判别器网络中的奖励函数描述为：

r_D(s,a)＝exp(D(s,a))

计算得到关于生成数据的奖励值反馈到生成器中，并存储起来，以便后续计算优势函数。

本发明还包括能够使其正常使用的其它组件，均为本领域的常规手段，另外，本发明中未加限定的装置或组件，均采用本领域的现有技术。

本发明的有益效果如下：

本发明提供的微电网能量优化调度方法，将PPO算法与GAIL相结合对优化调度策略进行求解，通过PPO算法构建生成器；并且在构建的判别器中引入了Wasserstein距离，以此来指导生成器生成策略；最后通过算例分析，验证了该算法的收敛稳定性以及处理微电网能量优化调度问题时的有效性。

本发明面向微电网能量优化调度的带有Wasserstein距离的生成对抗模仿学习算法，与近端策略优化算法相结合，以降低微电网运行成本为目标，实现微电网的能量调度优化。

本发明将微电网能量优化调度问题描述为马尔科夫决策过程，生成对抗模仿学习中JS散度引起的模型崩塌，从而导致训练不稳定，获得较差策略的问题，本发明基于Wasserstein距离的生成对抗模仿学习方法，通过引入Wasserstein距离来提高训练过程的稳定性，以获得更好的策略。该方法在训练过程中的收敛效果较GAIL算法和PPO算法都有明显提升；在经济调度方面，系统的运行成本都有明显降低，在算法运行时间方面，较其他两种方法更短，能够实现微电网的能量优化调度。

附图说明

图1为本发明中的微电网系统模型拓扑结构图。

图2为本发明中的WGAIL算法结构示意图。

图3为本发明中的算法奖励函数曲线对比图。

图4为本发明中的算法策略损失函数曲线图。

图5为本发明中的损失函数曲线图。

图6为本发明中的delta损失函数曲线图。

图7为本发明中的LDR场景下WGAIL调度结果图：a)光伏输出功率和负荷需求功率图；b)风电、柴油发电设备以及主电网调度结果图；c)储能电池状态图。

具体实施方式

下面将结合具体的实施例，对本发明的技术方案进行清晰完整地描述，显然，所描述实施例仅是本发明的部分实施例，而非全部实施例。

需要说明的是，术语“上”、“下”、“前”、“后”、“内”、“外”等指示方位或位置关系均为基于附图所示，仅为便于描述。

实施例

一种基于GAIL With Wasserstein Distance的微电网能量优化调度方法，具体包括以下步骤：

S1、构建微电网系统模型；

微电网系统包括主电网，以及与主电网并网连接的可再生能源发电单元、传统化石能源发电单元、储能设备和用户负荷；微电网系统模型如图1所示。在并网模式下，微电网与主电网进行能量交互，根据可再生能源发电功率和电力负荷的用电功率，进行合理地功率分配，最终达到系统能量优化调度的目的；

微电网能量管理目标通常是在满足能量需求的同时，降低运行成本或减少排放污染物对环境的影响。为了满足负荷稳定运行，需要遵守功率平衡约束，即调度能量与需求能量相等，具体功率分配公式可描述为：

微电网系统中的可再生能源发电单元包括风力发电和光伏发电；为了微电网能够稳定运行，微电网系统还需要满足以下约束：

(1)风力发电约束条件为：

式中，为风机最大输出功率(kW)；

(2)光伏发电约束条件为：

式中，为光伏最大允许输出功率(kW)；

(3)储能设备约束条件为：

SOC_min≤SOC_t≤SOC_max

(4)与主电网交互功率约束条件为：

式中，分别为系统与主电网交互的输出功率的下限及上限；

(5)柴油发电机运行约束：

微电网系统的目标函数为：

其中，c_wt为风电的每千瓦发电单价(元/kW)，c_MG(t)是主电网t时刻的实时电价，a_m、b_m、c_m分别是发电机的系数。具体参数由发电机的特性决定，本发明中所涉及的柴油发电机特性参数均一致。

S2、能量优化调度问题转化；

本发明将微电网系统能量优化调度问题建模为马尔科夫决策过程通过智能体和环境间的不断交互学习得到最优能量调度策略；马尔科夫决策过程MDP由一个四元组{S,A,R,P}组成，以最小化经济成本和保障能源供需关系平衡为优化目标进行优化调度问题的转化，其中S是状态空间，A是动作空间，R是奖励函数，P是状态转移概率；

(1)状态空间

根据微电网环境，定义t时刻的状态空间，描述为：

(2)动作空间

(3)奖励函数

式中，t时刻的用电成本定义为C(t)＝C_wt(t)+C_MG(t)+C_DG(t)，C_wt(t)、C_MG(t)和分别为t时刻风力发电、光伏发电、主电网交互成本和第m台柴油发电机的运行总成本，具体表达式参见上述微电网系统的目标函数；/>为t时刻未满足功率平衡情况的代价函数，n₁、n₂分别为二者权重系数；/>具体描述为：

其中，为能源供需关系变量，根据χ_t的正负性选择储能电池的充、放电动作，n₂₁和n₂₂分别为储能调节后系统能量供大于求和供不应求时的能量平衡奖励系数；

(4)状态转移概率

S3、基于WGAIL的能量优化调度求解算法；

本发明在构建的MDP问题基础上，提出了一种面向微电网能量优化调度的WGAIL算法，该算法结构由专家策略数据、生成器网络和判别器网络组成；其中，新智能体的策略网络通过强化学习算法进行更新，经过判别器的反馈迭代更新后，最终得到LDR场景下能量调度问题的最优决策；

结合Wasserstein距离和PPO算法的生成对抗模仿学习方法WGAIL算法如下所示：

WGAIL算法

生成器网络由一个完整的强化学习框架构成，包括智能体和环境，判别器网络使用的是由全连接层构成的神经网络，其输入为状态-动作专家样本数据{s_E,a_E}和状态-动作生成样本数据{s_G,a_G}，经过神经网络传递后得到输出；WGAIL算法框架结构如图2所示。

(1)专家经验采集

(2)生成器

本发明的状态空间为3维，动作空间为4维，据此设置来构建神经网络；策略网络Actor和价值网络Critic的神经网络参数如表1和表2所示。

表1Actor网络结构与参数

表2Critic网络结构与参数

具体来说，策略网络Actor的输入层神经元个数为状态空间的维数，即输入层有3个神经元；

(3)判别器

判别器是由全连接层构成的神经网络，包括输入层、隐藏层和输出层，用于识别真实数据和生成数据之间的差异性；判别器的神经网络参数如表3所示。

表3判别器神经网络结构及参数设置

式中λ取为10；

判别器网络的目标函数为：

r_D(s,a)＝exp(D(s,a))

S4、算例分析；

(1)算例参数

本发明采用CASIO 2019年的开源数据集进行模型训练，模型训练后，使用某区域实测数据集测试，其中，本发明的微电网环境配置如表4所示。WGAIL算法的其他参数设置如表5所示。

表4微电网各出力设备的运行参数

表5WGAIL算法的参数

(2)算法性能分析

为了论证本发明算法的有效性，本发明分别使用了WGAIL算法、GAIL算法和PPO算法进行训练，并观察了它们的奖励函数曲线，算法奖励函数曲线对比如图3所示。从曲线可以看出，WGAIL具有更快的学习速度。在初始学习阶段，WGAIL算法在专家策略轨迹的基础上对环境进行探索，智能体未能探索到较好的策略，奖励曲线呈下降趋势，之后，随着智能体不断进行探索并更新策略，探索到了专家策略，因此奖励函数曲线迅速上升，并逐渐趋于收敛，最终收敛于-7600附近。相比之下，GAIL算法奖励函数曲线上升较为缓慢，最终收敛于-7700附近。PPO算法完全依靠智能体对环境的探索后，逐步学习策略，奖励函数曲线最终上升到-7800附近。结果表示，WGAI算法相比于其他两种算法有更好的收敛效果。

智能体的策略函数曲线反映了整个训练学习过程中的变化。最终的目标是使智能体得到最优策略，从而最大化期望奖励回报。WGAIL算法的策略损失函数曲线如图4所示。从策略损失函数曲线图可以看出，在前700个回合中，智能体的损失函数曲线波动较大，这表明智能体需要对环境进行探索。随着训练的进行，在700回合之后，策略损失函数曲线的波动范围逐渐缩小，表明智能体通过不断地探索环境和更新策略网络，使得智能体的策略输出趋于稳定。最终，智能体达到了最优策略，使得期望奖励回报最大化。

价值损失函数，如图5所示，它表示价值神经网络的拟合输出与实际值的动态差值，可以从曲线看出，曲线呈现下降趋势，表明网络一开始与实际值之间的误差较大，智能体处于学习阶段，随着学习的增加，在700回合左右曲线逐渐放缓，表明智能体已经学习到了好的策略。

图6所示为价值损失函数的delta误差值，即t时刻与t+1时刻的差值，可以看出一开始误差较大，说明智能体在学习阶段，到700回合左右，曲线趋于平缓。

(3)调度决策

为了进一步验证本发明方法的有效性，本发明选取某一天的数据进行测试，调度结果如图7所示。光伏输出功率和负荷需求如图7(a)所示。在状态信息已知的前提下，利用算法对风电、柴油发电机和主电网进行调度，结果如图7(b)所示。储能装置在系统中起着“削峰填谷”的作用，满足负荷需求并实现系统的稳定运行，其调度结果如图7(c)所示。

结合图7中三个图的分析，所有的可控设备的调度都是为了满足系统功率平衡。当光伏发电不足以维持负荷所需时(如0-6时、13-23时)，从图7(b)中可以看出在对应的时间下，风机、柴油发电机和电网都在出力维持负荷所需的能量。同时，从图7(c)中可以看出，相应时间下储能装置处于放电状态。当光伏发电功率高于负荷所需功率时(如7-12时)，从图7(b)中可以看出在相应的时间下，风机、柴油发电机和电网的输出功率全部降低。同时，从图7(c)中可以看出，储能电池处于充电状态。例如，10时，光伏出力超出负载需求44.7kW，柴油发电机，风机以及主电网分别出力0.14kW,0.46kW,和0.27kW。由于供电量超出需求量约45.57kW，多余的电量可以存储在储能装置中，此时储能电池充电功率约为45.21kW，能够在最大程度上保持系统能量的平衡，同时减小能量的损失，降低微电网的运行成本。

表6展示了三种算法在测试时的总运行时间和用电成本。根据表5可知，本发明提出的方法相比于GAIL与传统的强化学习算法PPO，具有更快的运行时间，对于在线实时调度方面有更快的响应能力。此外，由于WGAIL方法与GAIL方法是基于专家数据生成的策略，所以用电成本更低，经济性更好。PPO算法需要自身不断探索与更新，因此需要更长的时间来学习策略，且表现稍差，用电成本也偏高。

表6不同算法实时调度结果对比

本发明将微电网能量优化调度问题描述为马尔科夫决策过程，生成对抗模仿学习中JS散度引起的模型崩塌，从而导致训练不稳定，获得较差策略的问题，提出了一种基于Wasserstein距离的生成对抗模仿学习方法，通过引入Wasserstein距离来提高训练过程的稳定性，以获得更好的策略。最后通过真实的电力数据进行算例分析，结果表明，本发明所提供的方法，在训练过程中的收敛效果较GAIL算法和PPO算法分别提升了1.3％和2.6％，在经济调度方面，系统的运行成本分别降低了7.13％和15.05％，在算法运行时间方面较其他两种方法更短，能够实现微电网的能量优化调度。

本发明的技术方案并不限于上述具体实施例的限制，在不偏离所说明实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的，凡在本发明的精神和原则之内，所作的任何技术变形，均落入本发明的保护范围之内。

Claims

1.一种微电网能量优化调度方法，其特征在于，包括以下步骤：

S1、构建微电网系统模型；

微电网系统包括主电网，以及与主电网并网连接的可再生能源发电单元、传统化石能源发电单元、储能设备和用户负荷；在并网模式下，微电网与主电网进行能量交互，根据可再生能源发电功率和电力负荷的用电功率，进行合理地功率分配，最终达到系统能量优化调度的目的；具体功率分配公式描述为：

S2、能量优化调度问题转化；

S3、基于WGAIL的能量优化调度求解算法；

该算法是一种结合Wasserstein距离和PPO算法的生成对抗模仿学习方法，其结构由专家策略数据、生成器网络和判别器网络组成；其中，智能体的策略网络通过强化学习算法进行更新，经过判别器的反馈迭代更新后，最终得到LDR场景下能量调度问题的最优决策；

S4、算例分析；

2.根据权利要求1所述的微电网能量优化调度方法，其特征在于：步骤S1中，微电网系统中的可再生能源发电单元包括风力发电和光伏发电；为了微电网能够稳定运行，微电网系统还需要满足以下约束：

(1)风力发电约束条件为：

式中，为风机最大输出功率(kW)；

(2)光伏发电约束条件为：

式中，为光伏最大允许输出功率(kW)；

(3)储能设备约束条件为：

SOC_min≤SOC_t≤SOC_max

(4)与主电网交互功率约束条件为：

式中，分别为系统与主电网交互的输出功率的下限及上限；

(5)柴油发电机运行约束：

微电网系统的目标函数为：

3.根据权利要求1所述的微电网能量优化调度方法，其特征在于：步骤S2中，马尔科夫决策过程的四元组{S,A,R,P}分别为：

(1)状态空间

根据微电网环境，定义t时刻的状态空间，描述为：

式中，是t时刻光伏的输出功率，P_t ^load为t时刻负荷需求功率，/>为t时刻储能电池的荷电状态；

(2)动作空间

式中，和/>分别表示t时刻风电、柴油发电机和主电网的输出功率，为t时刻储能电池的充、放电功率；

(3)奖励函数

(4)状态转移概率

4.根据权利要求1所述的微电网能量优化调度方法，其特征在于：步骤S3中，在专家数据采集方面，利用基于截断目标函数法的近端策略优化算法在微电网环境中训练专家策略模型，并保存模型，以此获得专家样本数据；

(1)专家经验采集

(2)生成器

隐藏层采用了10层的多层感知机神经网络，每层含有256个神经元；前8层的神经元激活函数为Tanh，目的是将神经元的输出限制在(-1,1)之间，而第9和第10层的神经元激活函数为Identity，即恒等函数，不对输出产生影响；

(3)判别器

式中λ取为10；

判别器网络的目标函数为：

r_D(s,a)＝exp(D(s,a))