CN116451880A

CN116451880A - 一种基于混合学习的分布式能源优化调度方法及装置

Info

Publication number: CN116451880A
Application number: CN202310713665.6A
Authority: CN
Inventors: 刘念; 孙浩男; 谭露
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-07-18
Anticipated expiration: 2043-06-16
Also published as: CN116451880B

Abstract

本发明公开一种基于混合学习的分布式能源优化调度方法及装置，属于分布式能源调度领域。本发明采用XGBoost及MADDPG算法，同时考虑多个微电网之间的能量共享以及微电网内部光伏产消者之间基于电能需求响应的能量共享，通过云端离线集中式训练以及边端在线分布式决策，实时获取含光伏产消者的微电网群系统的优化运行策略。

Description

一种基于混合学习的分布式能源优化调度方法及装置

技术领域

本发明涉及分布式能源调度领域，特别是涉及一种基于混合学习的分布式能源优化调度方法及装置。

背景技术

微电网由于能够容纳高比例的分布式能源，已被认为是智能电网的基础组成部分。多个微电网系统互联形成的微电网群系统通过对分布式能源协同优化调度，可以实现更广泛的能效提升。然而，由于可再生能源的随机性、系统非线性网络约束，以及微电网群运营商、微电网运营商和微电网内部光伏产消者等多层利益主体的参与，微电网群系统的实时优化运行面临着严峻的挑战。

针对微电网群系统的协同优化调度，目前的研究一般可以分为集中式和分布式两类。集中式结构通常需要一个集中的控制器来管理全局优化过程，并与所有的代理进行通信，这导致了可扩展性和可靠性受到计算瓶颈、通信负担和单点故障的限制。为了解决集中式方法的挑战，已有研究提出了微电网群能量管理的分层分布式结构。如双边合同、纳什谈判、拍卖模型和多代理联盟博弈等方法被设计用来组织多个微电网之间的协同优化运行问题。但上述工作都是传统的模型驱动方法，存在求解效率低、难以精细建模、难以处理不确定因素等问题，难以满足微电网群实时在线优化调度的需求。

为了避免基于模型的优化方法的缺点，数据驱动和基于学习的优化方法受到了极大的关注。深度强化学习融合了深度学习和强化学习的优点，由于其无模型特性、较强的表示能力和决策能力，在智能电网中得到了广泛的应用。但在现有的研究中，关于单个微电网或多个互联微电网的优化调度工作大多使用单主体深度强化学习算法，在具有竞争或合作关系的多主体环境中不能很好地适用。在微电网群系统中，各个微电网智能体本身作为环境的一部分，其行为也会影响其他微电网智能体的学习，导致单主体的训练环境不稳定。

多智能体深度强化学习方法通过不同智能体之间的经验共享，更适合于多智能体环境，少数研究将多智能体深度强化学习方法用于微电网群的协同优化调度问题中，然而已有研究在实现多个微电网之间的能量共享时，均忽略了微电网内部光伏产消者之间的能量共享，无法解决含光伏等产消者的微电网群双层分布式能量共享优化调控问题。

发明内容

本发明的目的是提供一种基于混合学习的分布式能源优化调度方法及装置，以解决含光伏等产消者的微电网群双层分布式能量共享优化调控问题。

为实现上述目的，本发明提供了如下方案：

一种基于混合学习的分布式能源优化调度方法，所述方法应用于分布式能源系统，所述分布式能源系统包括多个微电网，每个所述微电网内设置有边缘节点、多个终端用户和多个分布式电源，每个所述终端用户对应一个光伏产消者，所述方法包括：

根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作；所述联合状态包括每个所述微电网的本地观测状态，所述本地观测状态至少包含微电网内部所有光伏产消者进行能量共享后的总净负荷值，所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得；

调整每个所述微电网内的每个光伏产消者的最优动作，使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束，获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作；

调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作，使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束，获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作；

基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作，对分布式能源系统进行优化调度。

可选的，所述根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作，之前还包括：

获取数据集；所述数据集包括多个数据样本，每个所述数据样本中的输入向量为，每个所述数据样本中的输出向量为；其中，为第d个数据样本中的输入向量，为第d个数据样本中的输出向量，和分别为售电能激励因子和购电能激励因子，和分别为光伏产消者基准负荷和光伏出力，为光伏产消者的负荷调节量；

基于所述数据集，采用监督学习的方式对XGBoost模型进行训练，获得训练后的XGBoost模型；

将训练后的XGBoost模型嵌入至多智能体深度确定性策略梯度算法中，采用训练后的XGBoost模型，确定每个微电网中每个光伏产消者的负荷调节量，进而确定每个微电网内部所有光伏产消者进行能量共享后的总净负荷值，并将每个微电网内部所有光伏产消者进行能量共享后的总净负荷值添加至用于确定决策函数的本地观测向量中；

采用嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得决策函数。

可选的，所述基于所述数据集，采用监督学习的方式对XGBoost模型进行训练，获得训练后的XGBoost模型，具体包括：

基于所述数据集采用递增的训练方法对XGBoost模型进行迭代训练，直到目标损失函数的值小于预设阈值；所述目标损失函数为：

；

其中，为目标损失函数，表示数据样本上的模型量化误差，表示避免模型过拟合的模型复杂度正则化，表示第轮迭代的预测结果，为第i个微电网的模型量化误差，第轮迭代增加的新树的输出结果，表示避免模型过拟合的第k棵树复杂度正则化，K为前轮迭代获得的树的总棵树，N表示微电网的数量。

可选的，所述采用嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得决策函数，具体为：

将每个微电网视为一个智能体，包括多个微电网的分布式能源系统的策略集表示为：；

其中，表示策略集，、和分别表示第1个、第i个和第N个微电网的策略函数，N表示微电网的数量；

对于每个所述微电网，根据t时刻的本地观测状态，基于在线策略网络和目标策略网络，决策出t时刻的动作；其中，为t时刻第i个微电网的本地观测状态向量，为t-1时刻第i个微电网内部柴油发电机的出力，为t时刻第i个微电网内部风机的预测出力，为t时刻第i个微电网内部所有光伏产消者进行能量共享后的总净负荷值，为t时刻第i个微电网内部储能的SOC值，和为t时刻外部大电网的购分时电价和售分时电价，为t时刻第i个微电网的动作，为t时刻第i个微电网内部柴油发电机的出力，和分别为t时刻第i个微电网内部储能的充电功率和放电功率，和分别为t时刻第i个微电网内部购电能激励因子和内部售电能激励因子；

根据决策出的每个所述微电网t时刻的动作，基于在线评价网络输出每个微电网的在线评价函数值，基于目标评价网络输出目标评价函数值；

基于所述每个微电网的线评价函数值和目标评价函数值，更新每个微电网的在线策略网络的参数和在线评价网络的参数，并更新目标策略网络的参数和目标评价网络的参数；

返回对于每个所述微电网，根据t时刻的本地观测状态，基于在线策略网络，决策出t时刻的动作的步骤，直到预设迭代次数，输出参数更新后的每个微电网的在线策略网络分别作为每个微电网的决策函数。

可选的，更新在线评价网络的参数的公式为：

；

其中，和分别为更新前在线评价网络的参数和更新后在线评价网络的参数，是预设的价值网络学习率，为数据样本的数量，为在线评价网络的输出，为第个数据样本中t时刻第i个微电网的本地观测状态向量，为第个数据样本中第i个微电网在线策略网络决策出的t时刻的动作，为第个数据样本中除第i个微电网外其余微电网决策出的t时刻的动作，为在线评价函数的梯度，为第个数据样本的经验估计回报；

更新在线策略网络的参数的公式为：

；

其中，和分别为更新后和更新前的在线策略网络的参数，为预设的策略网络学习率，为采样策略梯度函数；

更新目标评价网络的参数的公式为：

；

其中，和分别为更新后和更新前的目标评价网络的参数，为预设的更新参数；

更新目标策略网络的参数的公式为：

；

其中，和分别为更新后和更新前的目标策略网络的参数。

可选的，所述设备运行约束包括：

；

其中，和分别为第i个微电网内部柴油发电机在t时刻和t-1时刻的出力，和分别为第i个微电网内部柴油发电机的下爬坡限值和上爬坡限值，为第i个微电网内部储能在t时刻的SOC值，和分别为第i个微电网内部储能的SOC值的下限和上限。

可选的，所述网络运行约束包括：

；

其中，表示边缘节点m的电压，和分别表示边缘节点m的电压的下限和上限，表示支路mu的潮流，表示支路mu的潮流上限。

一种基于混合学习的分布式能源优化调度装置，所述装置应用于上述的方法，所述装置包括：

最优动作决策模块，用于根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作；所述联合状态包括每个所述微电网的本地观测状态，所述本地观测状态至少包含微电网内部所有光伏产消者进行能量共享后的总净负荷值，所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得；

一次调整模块，用于调整每个所述微电网内的每个光伏产消者的最优动作，使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束，获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作；

二次调整模块，用于调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作，使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束，获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作；

调度模块，用于基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作，对分布式能源系统进行优化调度。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种基于混合学习的分布式能源优化调度方法，所述方法包括：根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作，所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得；调整每个所述微电网内的每个光伏产消者的最优动作，使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束，获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作；调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作，使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束，获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作；基于每个所述微电网内的每个光伏产消者的二次调整后的最优动作，对分布式能源系统进行优化调度。本发明采用XGBoost及MADDPG算法，同时考虑多个微电网之间的能量共享以及微电网内部光伏产消者之间基于电能需求响应的能量共享，通过云端离线集中式训练以及边端在线分布式决策，实时获取含光伏等产消者的微电网群系统的优化运行策略。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于混合学习的分布式能源优化调度方法的原理框图；

图2为本发明实施例提供的XGBoost模型的离线训练的原理图；

图3为本发明实施例提供的云端集中离线训练阶段的原理图；

图4为本发明实施例提供的边端去中心化在线决策阶段的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

现有技术的缺点：

（1）现有模型驱动方法存在求解效率低、难以精细建模、难以处理不确定因素等问题，难以满足微电网群实时在线优化调度的需求。

（2）现有数据驱动的多智能体深度强化学习方法一般侧重于单个层级的多主体能量管理，即通常只研究多个互联微电网之间的能量共享优化或者微电网内部光伏产消者之间的能量共享优化，在进行多个微电网之间协同优化调度时忽略了微电网内部光伏产消者的电能需求响应行为，微电网运营商和内部光伏产消者之间的互动通常被简化为一个预先知道的或预测的负荷聚合值；

（3）针对光伏产消者能量共享优化中电能需求响应模型的构建，现有建模方法主要有价格弹性系数矩阵和对数效用函数模型，存在理想化、不准确的特点。模型中的关键参数，如价格弹性系数、效用参数等往往难以获得，在研究中一般都是主观给定的，缺乏可靠的验证手段。

本发明实施例提出一种结合有监督学习、多智能体深度强化学习与云边端协同计算架构的含光伏等产消者的微电网群智能优化调度方法，以高效解决含光伏等产消者的微电网群系统双层分布式能量共享优化调控问题。其中，本发明实施例建立了基于XGBoost的需求响应模型（即训练后的XGBoost模型）以描述微电网内部光伏产消者的电能需求响应行为，并将其嵌入到用于获取多个微电网之间协同优化调度策略的多智能体深度强化学习环境中（即嵌入到多智能体深度确定性策略梯度算法中），采用训练后的XGBoost模型嵌入的多智能体深度确定性策略梯度（multi-agent deep deterministic policy gradient，MADDPG）混合学习算法，通过云端离线集中式训练以及边端在线分布式决策，实时获取含光伏等产消者的微电网群系统的优化运行策略。

可见本发明实施例提出一种基于混合学习的微电网群云边端协同智能优化调度技术，以解决含光伏等产消者的微电网群双层分布式能量共享优化调控问题。该问题同时考虑多个微电网之间的能量共享以及考虑电能需求响应的微电网内部光伏产消者之间的能量共享。

含光伏产消者的微电网群双层分布式能量共享优化调控问题描述如下：

（1）多个微电网之间的合作能量共享优化：对于互联的多个微电网，它们可以通过配电网相互共享能源，实现对多个微电网的协同优化调度，以降低总运营成本。当多微电网系统功率不平衡时，系统需要根据外部价格与电网进行交易，以保持电力系统的平衡。

（2）微电网运营商协调的内部多光伏产消者能量共享优化：对于每个微电网内部大量的光伏产消者，每个光伏产消者都配备了光伏电池板。每个微电网都配备了柴油发电机、风力发电机、负荷和储能系统，各微电网运营商作为协调者设定内部激励因子激励光伏产消者进行电能需求响应，以促进光伏产消者光伏能源的本地消纳并提高光伏产消者和运营商的效用。

（3）含光伏产消者的微电网群双层能量共享优化调控：上述双层能量优化调控问题通过微电网耦合，从而形成了一个闭环框架，即各微电网运营商通过多个微电网之间的合作能量共享优化设定与光伏产消者的激励因子，微电网内部所有光伏产消者以电能需求响应的形式参与能量优化调控。反过来，光伏产消者的电能需求响应行为将进一步影响各微电网运营商对激励因子的决策。对于每个微电网来说，它不仅是其内部光伏产消者需求响应资源的聚合者，也是微电网之间的分布式能源优化的参与者。因此，含光伏产消者的微电网群分布式能源优化调度本质上是一个双层能量优化调控问题。

该双层能量优化调控的过程涉及微电网群、微电网和光伏产消者的能量管理系统分别部署在云、边和端。云、边、端的角色和功能如下：

云：部署在云上的微电网群能量管理系统MMG-EMS(其中，MMG用于表征微电网群，EMS表示能量管理系统，其英文全拼为Energy Management System)用以协调多个微电网之间的能量共享，以最大限度地降低总运营成本。在云上执行的任务包括：建立包含微电网群运行状态和执行动作信息的历史数据库、算法的集中训练、检查物理网络约束以及将训练好的模型发送到部署在边缘节点的微电网能量管理系统MG-EMS（MG用于表征微电网）。

边：部署在边缘节点的MG-EMS用于对每个微电网进行自主优化。在边缘节点执行的任务包括接收来自云端训练好的模型，收集微电网内部状态信息，实时制定微电网内部优化策略，训练微电网内部光伏产消者的电能优化调控模型，实时向部署在终端的用户能量管理系统U-EMS（U用于表征用户）发送激励因子。

端：终端部署U-EMS负责进行微电网内光伏产消者的优化调控决策。终端执行的任务包括实时数据采集、电能优化调控决策以及将调控决策结果上传到MG-EMS。

本发明针对含光伏产消者的微电网群双层分布式能量共享优化调控问题，提出了如下技术方案。

实施例1

本发明实施例1提供一种基于混合学习的分布式能源优化调度方法，所述方法应用于分布式能源系统，所述分布式能源系统包括多个微电网，每个所述微电网内设置有边缘节点、多个终端用户和多个分布式电源，每个所述终端用户对应一个光伏产消者，所述方法包括：

根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作；微电网的联合状态至少包含所述微电网内部所有光伏产消者进行能量共享后的总净负荷值，所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得。

调整每个所述微电网内的每个光伏产消者的最优动作，使每个所述微电网内的每个光伏产消者的最优动作均满足设备运行约束，获得每个所述微电网内的每个光伏产消者的一次调整后的最优动作。

调整每个所述微电网内的每个光伏产消者的一次调整后的最优动作，使每个所述微电网内的每个光伏产消者的一次调整后的最优动作均满足网络运行约束，获得每个所述微电网内的每个光伏产消者的二次调整后的最优动作。

如图1所示，本发明实施例1提供的方法的原理具体为：

步骤1：XGBoost模型的训练阶段。

微电网运营商可以通过一定的电能激励与其内部光伏产消者之间充分互动，激励内部光伏产消者之间进行能量共享，进而可以在降低微电网运营成本的同时促进微电网内部可再生能源的就地消纳。本发明首先建立一个基于数据驱动的XGBoost模型来描述微电网内部光伏产消者之间进行能量共享的电能需求响应行为，以代替传统模型驱动的主观和理想化的利用价格弹性系数矩阵和对数效用函数的需求响应建模方法。基于此模型，微电网运营商可以快速预测光伏产消者的电能需求响应行为进而获得微电网内部所有光伏产消者进行能量共享后的总净负荷值。

XGBoost模型的离线训练过程在部署在边缘节点的微电网能量管理系统（MG-EMS）中进行，历史数据通过部署在终端的用户能量管理系统（U-EMS）上传到MG-EMS。一旦XGBoost模型参数经过良好训练，训练后的XGBoost模型即可作为基于XGBoost的需求响应模型，实时自动生成光伏产消者的负荷调节量，进而得到微电网内部所有光伏产消者的净负荷需求预估值。

如图2所示，具体的训练过程为：给定一个数据集，其中包括D组光伏产消者在内部电能激励下进行需求响应的数据样本。XGBoost模型输入向量为，包括微电网运营商设置的购、售电能激励因子和、光伏产消者基准负荷和光伏出力；输出向量，包括光伏产消者的负荷调节量，进一步的表示光伏产消者针对微电网设置的激励因子参与能量优化调控后的负荷调节量。XGBoost树的集成模型表示为：

(1)

其中是集成树的集合空间，是第k棵树的预测值，K是树的总数。

XGBoost模型采用递增的训练方法，即在每次迭代时，添加一个新函数（即一个新树）到先前的XGBoost模型中。对于第轮迭代的预测结果，其包括第轮迭代的预测结果和一颗新树，迭代训练过程中的目标损失函数定义为：

(2)

基于XGBoost的光伏产消者电能需求响应模型经过良好的训练后便被嵌入到多微电网系统环境中，以实时获取光伏产消者的负荷调节量。且每个微电网系统都有训练好的基于XGBoost的光伏产消者优化调控模型，一旦输入相应的数据，该模型就可以自动快速地生成光伏产消者实时的负荷调节量，进而得到t时刻第i个微电网内部所有光伏产消者进行能量共享后的总净负荷值，其计算表达式为：

(3)

其中，是第i个微电网内部光伏产消者的数量，是时刻t微电网i内第n个光伏产消者的基准负荷，是第n个光伏产消者的光伏输出功率，是第n个光伏产消者的负荷调节量，是该步骤中XGBoost模型输出值。

步骤2：计及微电网内部产消者需求响应的多微网马尔可夫博弈模型构建。

将计及光伏产消者需求响应的多微电网双层能量共享优化调控问题建模成一个多智能体深度强化学习（multi-agent deep reinforcement learning，MADRL）问题，该问题可以用马尔可夫博弈来描述，定义一个元组表示马尔可夫博弈过程，包括智能体数量（一个智能体即为一个微电网，智能体数量即为微电网的数量N）、联合状态S、联合动作A、即时奖励以及状态转换函数f，分别介绍如下：

（1）智能体：每个微电网的能量管理系统(MG-EMS)是一个智能体，是MADRL问题的决策者和学习者。智能体决策各微电网分布式能源的输出和电能激励因子，并接收环境给出的奖励信号。在多微电网系统中，共包括N个智能体。

（2）联合状态S：表示在时段t所有智能体的联合状态，对于第i个微电网智能体，其状态由下式给出：

(4)

其中，为t时刻第i个微电网的本地观测状态向量，为t-1时刻第i个微电网内部柴油发电机的出力，为t时刻第i个微电网内部风机的预测出力，为t时刻第i个微电网内部所有光伏产消者进行能量共享后的总净负荷值，为t时刻第i个微电网内部储能的SOC值，和为t时刻外部大电网的购分时电价和售分时电价。

（3）联合动作A：所有智能体的联合动作表示为，对于第i个微电网智能体，其动作由下式给出：

(5)

其中，为t时刻第i个微电网的动作，为t时刻第i个微电网内部柴油发电机的出力，和分别为t时刻第i个微电网内部储能的充电功率和放电功率，和分别为t时刻第i个微电网内部购电能激励因子和内部售电能激励因子。

（4）即时奖励：多微电网系统的实时优化调控目标是通过多个微电网的合作最小化总运行成本，因此，在多智能体深度强化学习的方法中，将每个智能体的奖励函数设置为相同，以体现合作关系，在时刻t的即时奖励函数建模为：

(6)

(7)

(8)

(9)

(10)

其中，为t时刻的即时奖励函数，、和分别为t时刻第i个微电网的柴油发电机的成本函数，储能系统的成本函数和储能系统的成本系数，为微电网运营商与内部光伏产消者之间交易电能的成本函数；，和是柴油发电机的成本系数；是储能系统的成本系数，和是储能系统的充放电效率；和是第i个微电网内部买家和卖家光伏产消者的数量，和是第i个微电网内部卖家n和买家光伏产消者m的净负荷量；是微电网与外部电网交易的电能，是一个很小的数，是不满足系统约束时给智能体的惩罚。系统约束条件由如下式子给出：

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

(21)

(22)

其中，式（11）表示第i个微电网的电力平衡约束，是第i个微电网内风机出力，式（12）-式（13）是柴油发电机的运行约束，和是第i个微电网内部柴油发电机出力的下限和上限，和是第i个微电网内部柴油发电机爬坡功率的下限和上限，式（14）-式(18)是储能系统的运行约束，和是第i个微电网内部储能系统充放电功率的上限，和分别为第i个微电网内部储能系统充放电功率的修正系数，和分别为t时刻和t-1时刻第i个微电网内储能系统的荷电量，为储能系统的额定容量，和分别为第i个微电网内储能系统的荷电量的下限和上限，式（19）-式(22)是网络约束，和是节点m和u的节点电压，和是节点m的注入有功功率和无功功率，和是支路mu的阻抗和导纳，为支路mu的相角，和是节点m的电压下限和上限，是支路mu的潮流上限，支路mu为节点m和u之间支路，表示支路mu的潮流。

本发明实施例在多个微电网之间的上层能量优化调控中考虑了非线性网络约束（式(19)-(22)给出），使用Newton-Raphson方法获得潮流计算结果，即如果不满足约束条件（式（21）和式（22）），则根据式（6），将一个非常小的值添加到奖励函数中作为惩罚，然后反馈给微电网智能体，该步骤嵌入到环境里计算奖励的过程中。此外，式（10）中的多微电网互联系统中各微电网与外部电网交易的电能的和是多微电网互联系统与外部电网交易的总能量，这是平衡节点的注入功率，可以通过潮流计算获得。

状态转移f：对于第i个微电网主体，状态转移的过程受动作和t时刻系统的不确定性决定，其从t时刻到t+1时刻的状态转移表示为：

(23)

其中，为t+1时刻第i个微电网的本地观测状态向量，可控的柴油发电机出力的状态转移受动作决定，风机出力和净负荷的状态转移结果受不确定性的影响，因为风机的功率输出和光伏产消者的净负荷需求无法提前知道；储能系统的状态转变根据式（17）更新。

步骤3：云端集中离线训练阶段，本发明步骤3基于XGBoost-MADDPG混合学习算法的云端离线集中训练。

本发明实施例采用XGBoost-MADDPG混合学习方法来求解上述马尔可夫博弈模型，如图3所示。基于XGBoost的光伏产消者需求响应模型首先通过步骤1的监督学习训练，嵌入到MADRL环境中，然后采用嵌入XGBoost的MADDPG算法，训练多个相互协作的微电网智能体以保证所训练的智能体在做出最优决策时考虑内部光伏产消者的电能需求响应行为。

MADDPG算法基于行动者-评论家（actor-critic）框架。每个微电网智能体被视为一个分散的行动者，只需要根据本地的观察做出决策。每个行动者都可以在一个集中的评论家的帮助下进行训练，这需要使用所有智能体的观察和策略以及额外的环境信息。此外，在MADDPG算法中采用了经验重放缓冲区和目标网络，以稳定学习过程。

在具有N个微电网的多微电网系统中，其策略集表示为，其中，表示策略集，、和分别表示第1个、第i个和第N个微电网的策略函数，N表示微电网的数量。对于微电网i来说，需要被训练的参数有，其中和是在线策略网络和目标策略网络的参数，和是在线评价网络和目标评价网络的参数，在线网络和目标网络具有相同的网络结构。

假设训练过程中有M个回合，每个回合包括T个时段。在每个时段，引入在时序上具有良好相关性的UO随机噪声以充分探索动作空间。对于微电网i对应的智能体，基于本地观测状态由策略函数决策出动作，即。然后在环境中执行所有智能体的联合动作。特别地，此时微电网内部光伏产消者的净负荷值基于中的内部购售电能激励因子和环境中基于XGBoost模型的电能需求响应模型进行更新。接下来，可以观察到即时奖励，并且联合状态转移到下一个新状态。上述四元组将会存放在经验回放缓冲区D中，每个微电网智能体都会从经验回放缓冲区D中随机采样一批数据样本，以指导actor和critic网络参数的更新。

对于在线评价网络，其输入为状态和所有智能体的动作和，其中为除了第i个微电网外其余微电网智能体的动作，输出为中心化的评价函数，该评价函数不仅考虑自身的动作，还会考虑其余智能体的动作。

评价网络的神经网络参数的更新公式为：

(24)

(25)

其中，和分别为更新前在线评价网络的参数和更新后在线评价网络的参数，是预设的价值网络学习率，为数据样本的数量，为在线评价网络的输出，为第个数据样本中t时刻第i个微电网的本地观测状态向量，为第个数据样本中第i个微电网在线策略网络决策出的t时刻的动作，为第个数据样本中除第i个微电网外其余微电网决策出的t时刻的动作，为更新前的在线评价网络的参数，为在线评价函数的梯度，为第个数据样本的经验估计回报。为第个数据样本第i个微电网的即时奖励；为折扣因子；为目标评价网络的输出，为更新前的目标评价网络的参数，为第个数据样本中t时刻第i个微电网的更新后的本地观测状态向量，为第个数据样本中第i个微电网的目标策略网络决策出的新的动作，，为更新前的目标决策函数，为第个数据样本中除第i个微电网外其余微电网决策出的新的动作。

对于在线策略网络，其以本地观测状态作为输入，以动作作为输出，其中采样策略梯度值的计算方法为：

(26)

其中，为采样策略梯度函数，表示的梯度，为第i个微电网的在线决策函数，其输出结果为第i个微电网的在线决策函数基于和决策出的新的动作。

策略网络的神经网络参数的更新公式为：

(27)

最后，根据预设的更新参数对目标策略网络的参数和目标评价网络的参数进行更新，为了使学习过程稳定，DDPG算法采用了软更新的方法，可以表示为：

(28)

(29)

步骤4：边端去中心化在线决策阶段。

当离线集中训练过程完成后，训练好的模型（即决策函数）被发送到部署在边缘节点的MG-EMS。当在线最优调度任务到来时，每个微电网智能体MG-EMS只需要通过本地的观测来确定最优动作。如果该决策不满足设备运行约束，如式（13）和式（18），则根据约束的上界和下界进行修正；如果该决策不满足网络运行约束，如式（21）和式（22），则根据功率传输分布因子进行修正。参见图4，此时步骤4的具体实现过程为：获取分布式能源系统中所有微电网的联合状态，所述联合状态包括每个微电网的本地观测状态，该本地观测状态包括柴、储当前状态、外部电价、负荷需求和风机预测处理，将该本地观测状态输入至在云端训练好的微电网控制器模型（即决策函数），然后获得最优动作（包括柴油机组出力、储能充放电功率、内部购售电能激励因子），并进一步的基于式（13）和式（18）及（21）和式（22）进行修正。

实施例2

本发明实施例2提供一种基于混合学习的分布式能源优化调度装置，所述装置应用于上述的方法，所述装置包括：

最优动作决策模块，用于根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作；微电网的联合状态至少包含所述微电网内部所有光伏产消者进行能量共享后的总净负荷值，所述决策函数基于嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得；

本发明实施例2提供的装置与上述实施例1所述的方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述方法实施例的介绍。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的方法。

本发明实施例提供的技术方案的优点：

本发明实施例结合有监督学习、多智能体深度强化学习与云边端协同计算架构，高效解决含光伏等产消者的微电网群系统双层分布式能量共享优化调控问题。

本发明实施例针对微电网内部光伏产消者的电能需求响应行为，建立了基于数据驱动的XGBoost监督学习模型，代替主观理想化的价格弹性系数或对数效用函数模型。

本发明实施例采用XGBoost嵌入的MADDPG算法，同时考虑多个微电网之间的能量共享以及微电网内部光伏产消者之间基于电能需求响应的能量共享，通过云端离线集中式训练以及边端在线分布式决策，实时获取含光伏等产消者的微电网群系统的优化运行策略。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于混合学习的分布式能源优化调度方法，其特征在于，所述方法应用于分布式能源系统，所述分布式能源系统包括多个微电网，每个所述微电网内设置有边缘节点、多个终端用户和多个分布式电源，每个所述终端用户对应一个光伏产消者，所述方法包括：

2.根据权利要求1所述的基于混合学习的分布式能源优化调度方法，其特征在于，所述根据分布式能源系统中所有微电网的联合状态，采用每个所述微电网的决策函数，确定每个所述微电网内的每个所述光伏产消者的最优动作，之前还包括：

3.根据权利要求2所述的基于混合学习的分布式能源优化调度方法，其特征在于，所述基于所述数据集，采用监督学习的方式对XGBoost模型进行训练，获得训练后的XGBoost模型，具体包括：

；

4.根据权利要求2所述的基于混合学习的分布式能源优化调度方法，其特征在于，所述采用嵌入有训练后的XGBoost模型的多智能体深度确定性策略梯度算法训练获得决策函数，具体为：

将每个微电网视为一个智能体，包括多个微电网的分布式能源系统的策略集表示为：

；

5.根据权利要求4所述的基于混合学习的分布式能源优化调度方法，其特征在于，更新在线评价网络的参数的公式为：

；

更新在线策略网络的参数的公式为：

；

更新目标评价网络的参数的公式为：

；

更新目标策略网络的参数的公式为：

；

其中，和分别为更新后和更新前的目标策略网络的参数。

6.根据权利要求1所述的基于混合学习的分布式能源优化调度方法，其特征在于，所述设备运行约束包括：

；

7.根据权利要求1所述的基于混合学习的分布式能源优化调度方法，其特征在于，所述网络运行约束包括：

；

8.一种基于混合学习的分布式能源优化调度装置，其特征在于，所述装置应用于权利要求1-7任一项所述的方法，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1至7中任一项所述的方法。