CN117151308A

CN117151308A - 基于联邦强化学习的综合能源系统优化调度方法及系统

Info

Publication number: CN117151308A
Application number: CN202311412348.7A
Authority: CN
Inventors: 孙智卿; 陈益芳; 樊立波; 韩荣杰; 宣羿; 漏亦楠; 屠永伟; 来益博; 王亿; 黄佳斌; 王奇锋; 方响; 蒋建; 陈元中; 张逸琦
Original assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01

Abstract

本发明公开了基于联邦强化学习的综合能源系统优化调度方法及系统，包括在配电网区域内划分若干分布式智能体；设计每个分布式智能体对应的本地模型；对各本地模型进行训练得到对应的状态值数据、动作值数据和奖励值数据；对各本地模型参数进行保护和隐私处理；根据状态值、动作值和奖励值数据，进行Actor网络和Critic网络的训练并将训练好的模型参数上传至联邦服务器；基于联邦平均算法更新全局模型参数并下发，以供对应的各本地模型在下一轮训练中使用；在满足条件时完成训练。本发明提供的基于联邦强化学习的综合能源系统优化调度方法及系统，将联邦学习与强化学习相结合，智能体在学习中既通过交换经验和模型参数来共同提升性能，又保护了数据的隐私。

Description

基于联邦强化学习的综合能源系统优化调度方法及系统

技术领域

本发明涉及综合能源系统优化调度技术领域，尤其是涉及基于联邦强化学习的综合能源系统优化调度方法及系统。

背景技术

综合能源系统是多种能源形式（如电能、天然气、热能等）和能源需求（如供电、供电、供气等）进行耦合和优化配置的系统，旨在实现能源的高效、稳定供应，同时能最小化经济成本和碳排放，该系统将不同形式的能源进行转换和储存，能源系统被视为高度灵活、互补性强的整体，包括能源供应、转换、储存和需求等各个环节，但由于引入了新能源（如风能、光能），导致电力系统存在较高的不确定性，不仅如此，本地的数据也存在信息泄露的风险。

传统的优化方法例如动态规划、飞蛾扑火算法等，虽然可以解决在某个特定场景下的调度问题，对于综合能源系统中负荷不确定性和新能源的时变性仍存在不足，因为它们无法做到动态地对负荷和新能源的随机变化做出快速响应。

针对这些方法的缺陷，随着人工智能、大数据等机器学习方法的发展，基于数据驱动的强化学习在处理不确定模型、复杂的问题上具有较大优势。数据驱动的方法主要通过综合能源系统的历史数据，以训练神经网络的方法实现对系统的优化调度。但是数据驱动的方法涉及到大量隐私数据，因此如何既保证强化学习的模型性能，又能够对隐私数据进行保护，已成为本领域技术人员所要亟待解决的技术问题。

发明内容

本发明提供基于联邦强化学习的综合能源系统优化调度方法及系统，将联邦学习与强化学习相结合，智能体在学习中既通过交换经验和模型参数来共同提升性能，又保护了数据的隐私。

为了解决上述技术问题，本发明实施例提供了一种基于联邦强化学习的综合能源系统优化调度方法，包括：

在配电网区域内划分若干个分布式智能体，各个所述分布式智能体用于表征对应区域内的综合能源系统；

在强化学习过程中，分别设计每个所述分布式智能体对应的本地模型，并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数；

根据神经网络学习技术，使用本地数据对各个所述本地模型进行训练，通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据；

基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理；

根据所述状态值，进行Actor网络和Critic网络的训练得到动作值和奖励值数据，并将训练后的本地模型参数上传至联邦服务器，其中，所述联邦服务器用于协调各个所述分布式智能体的学习过程；

所述联邦服务器基于联邦平均算法更新全局模型参数，并将更新后的所述全局模型参数下发至每一所述分布式智能体，以供对应的每一所述本地模型在下一轮训练中使用；

在满足停止训练条件时，完成强化学习训练。

作为其中一种优选方案，所述方法还包括：

为每一所述分布式智能体设定缓冲区，所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的动作信息。

作为其中一种优选方案，所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理，具体包括：

在每个所述分布式智能体的本地训练过程中，应用差分隐私保护机制对各个本地模型参数进行处理，以实现参数的随机化。

作为其中一种优选方案，所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段；

所述动作值数据包括每一能源设备对应的出力；

所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。

作为其中一种优选方案，所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。

本发明另一实施例提供了一种基于联邦强化学习的综合能源系统优化调度系统，包括处理器，所述处理器被配置为：

在满足停止训练条件时，完成强化学习训练。

作为其中一种优选方案，所述处理器还被配置为：

所述动作值数据包括每一能源设备对应的出力；

相比于现有技术，本发明实施例的有益效果在于以下所述中的至少一点：

（1）采用差分隐私能够保护客户端的原始数据隐私，确保个体数据不被泄露。联邦学习框架运用到强化学习MADDPG上，它运行不同的综合能源系统之间共享模型，促进之间的知识交流，但不会直接共享原始数据。

（2）在强化学习MADDPG算法中，每个智能体之间可收集其他智能体的信息来做出决策，以集中训练分散执行的方式快速求解综合能源系统模型不确定性的复杂问题。而且更是在联邦学习框架的基础上允许智能体在不共享原始数据的情况下进行模型更新，可以协作地学习全局模型，从而获得更好的性能，也增强了其泛化能力。

附图说明

图1是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程示意图；

图2是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程框图；

图3是本发明其中一种实施例中建立的单区域综合能源系统模型建构图；

图4是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度系统的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请描述中，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

在本申请的描述中，需要说明的是，除非另有定义，本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明，对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

本发明一实施例提供了一种基于联邦强化学习的综合能源系统优化调度方法，具体的，请参见图1~图2，图1示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程示意图，图2示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程框图，基于联邦强化学习的综合能源系统优化调度方法具体包括步骤S1~S7：

S1、在配电网区域内划分若干个分布式智能体，各个所述分布式智能体用于表征对应区域内的综合能源系统；

S2、在强化学习过程中，分别设计每个所述分布式智能体对应的本地模型，并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数；

S3、根据神经网络学习技术，使用本地数据对各个所述本地模型进行训练，通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据；

S4、基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理；

S5、根据所述状态值，进行Actor网络和Critic网络的训练得到动作值和奖励值数据，并将训练后的本地模型参数上传至联邦服务器，其中，所述联邦服务器用于协调各个所述分布式智能体的学习过程；

S6、所述联邦服务器基于联邦平均算法更新全局模型参数，并将更新后的所述全局模型参数下发至每一所述分布式智能体，以供对应的每一所述本地模型在下一轮训练中使用；

S7、在满足停止训练条件时，完成强化学习训练。

具体来说，为了克服多种能源资源、动态负载需求和高度动态的环境，首先，本发明收集综合能源系统的各种状态参数，这包括能源供给、需求情况、环境因素等。具体的，请参见图3，图3示出为本发明其中一种实施例中的建立的单区域综合能源系统模型建构图，每个分布式智能体代表一个能源子系统，将本地的状态参数传送到本地的Actor神经网络中，以选取适当的行动。基于选定的动作，系统更新下一时间步的状态参数。在此刻，进行约束条件的检查，以验证是否满足能源系统的要求。若满足约束条件则计算代价函数作为奖励值，若不满足则将惩罚函数作为奖励值。Actor和Critic神经网络从经验池中提取样本数据，包括当前时刻和下一时刻的状态参数、动作参数以及奖励值。这些数据用于反向传播算法，以调整神经网络的权重和参数。这个过程在分布式环境中进行，各个分布式智能体独立学习，并且不需要共享原始数据，而只是共享其模型参数。此外，环境中的动态变化会导致状态参数的变化，本发明通过将下一时刻的状态参数引入到当前时刻来更新环境参数。同时，在每个时间步检查回合是否结束，如果没有结束，智能体将继续选择动作以进行下一时刻的学习。

具体的，请参见如下步骤：

步骤1、初始化环境及全局服务器模型参数，具体包括：

步骤1-1、创建并初始化一个联邦服务器glabal_model，用于协调各个分布式智能体的学习和通信。

步骤1-2、定义多个智能体，将配电网分为N个区域，每个区域代表一个智能体，各区域含有本地热电联供机组、电锅炉、电转气设备、燃气锅炉、储能、光伏、风电和负荷。综合能源系统中的各种能源之间相互耦合，运行优化的首要目标是提升系统的经济效益，即在满足用户负荷需求的前提下，以最优经济运行为目标，有效地安排各设备在每个时间段出力。

步骤1-3、上传每个智能体环境下的训练数据，设计各自的状态空间、动作空间、惩罚项和奖励函数。强化学习地基本组成部分包括表征环境状态的集合S、智能体动作的动作集合A及对智能体的奖励R。在t时刻，环境向智能体提供状态，智能体基于自身的策略将状态/>映射得到动作/>。

在这其中，综合能源系统的状态集合包括用户电负荷需求量、热负荷、气负荷需求量、光伏和风力发电功率、电储能的荷电状态以及所处的调度时段。对于综合能源系统，其状态表示为：

在t时刻，综合能源系统的动作集合可由一些设备的出力大小来表示，由于设备出力可由效率公式得到，且等式约束也可减少动作的维度，则动作集合可表示为：

在t时刻的奖励R由两部分组成，一部分是满足约束时系统经济成本C的负数，和不满足约束所加入的惩罚项P。即其中/>为惩罚系数。

所述的基于联邦强化学习的综合能源系统优化调度方法，所描述的综合能源系统经济低碳优化模型的目标函数，将目标函数的负数作为其奖励值，设计如下：

式中，包括t时刻的配电网所划分的N个区域总成本，具体包含向主电网购售电成本、天然气网购气成本、系统的运维成本、购买碳配额成本。其函数如下：

（1）主电网电力交易成本表示为：

式中，为与主电网交易时的分时电价，/>为与主电网在t时刻的交互的电功率。

（2）天然气网购气成本表示为：

式中，为t时刻购买天然气的价格，/>为在t时刻向天然气网的购气量。

（3）系统的运维成本表示为：

式中，为t时刻设备i单位容量的运维成本，/>为t时刻设备i的功率。

（4）碳交易市场购买的碳配额成本表示为：

式中，为热电联产机组CHP碳交易的成本，/>为燃气锅炉GB碳交易成本，为电转气装置P2G碳交易成本。

将以下有关的综合能源系统经济低碳优化模型的不等式约束函数设定为惩罚项：

（1）功率平衡约束：在t时刻，综合能源系统模型的功率平衡约束可表示为：

式中，、/>、/>为t时刻的电负荷、热负荷、气负荷，/>、/>为t时刻的光伏发电和风力发电功率。对于热电联供机组，一般设定热电比，用k表示，即/>。

（2）设备运行约束

综合能源系统的每个设备均有运行的上下限约束，其热电联供机组、电锅炉、电转气设备、燃气锅炉的功率输出范围可表示为：

式中，，/>为热电联供机组耗气量的上下限；/>，/>为电转气设备输出功率的上下限；/>，/>为电锅炉输出功率的上下限；/>，/>为燃气锅炉输出功率上下限。

（3）爬坡约束

各类的爬坡约束可类似的表示为：

式中，，/>分别表示为设备的滑坡率和爬坡率。

（4）储能单元约束

对于充放能设备，还需要避免深度充放能对储能的损害，因此储能的荷电状态要求限定在一定范围内，可表示为：

式中，，/>分别为储能荷电状态上下限。

下一时刻的储能状态可表示为：

其中，，/>分别为t时刻的充能和放能，/>，/>分别对应各自的系数，其充放功率大小的上下限为：

式中，为放能最大值，/>为充能最大值。

步骤1-4、为智能体设定缓冲区，用于储存智能体本地训练数据以及其他智能体的状态信息。

在智能体训练过程中，经验池的数据可有效打断其数据间的相关性，更有益于模型的收敛。

步骤2、使用差分隐私噪声技术对智能体的本地模型参数进行保护和隐私处理。在本地智能体训练过程中，依靠储能充放电的动作作为隐私预算。在每个本地智能体的训练过程中，将本地的模型参数应用差分隐私机制（拉普拉斯机制）以实现参数的随机化。

步骤3、每个智能体训练的本地Actor网络和Critic网络。使用本地状态、动作和奖励值数据，进行Actor网络和Critic网络的训练。Actor网络的训练旨在最大化奖励值，以更好地选择动作。Critic网络的训练旨在减小奖励值与Critic网络估计的Q值之间的差距。训练后定期将各个智能体的本地模型参数上传至联邦服务器，在联邦服务器接收来自所有智能体的本地模型参数，在联邦服务器上执行参数联邦平均算法。联邦服务器更新全局模型的参数，其反映了所有智能体的共享知识。

步骤4、将更新后的全局模型下发到每一个智能体，返回步骤2继续本地训练，以供它们在下一轮本地训练中使用，满足停止要求后，完成训练。

具体的，请参见图4，图4示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度系统的流程示意图，基于联邦强化学习的综合能源系统优化调度系统包括处理器，所述处理器被配置为：

根据神经网络学习技术，使用本地数据对各个所述本地模型进行训练，得到各个所述本地模型在当前一轮训练对应的状态值数据、动作值数据和奖励值数据；

根据所述状态值、所述动作值和所述奖励值数据，进行Actor网络和Critic网络的训练，并将训练后的本地模型参数上传至联邦服务器，其中，所述联邦服务器用于协调各个所述分布式智能体的学习过程；

在满足停止训练条件时，完成强化学习训练。

进一步地，在上述实施例中，所述处理器还被配置为：

为每一所述分布式智能体设定缓冲区，所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的状态信息。

进一步地，在上述实施例中，所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理，具体包括：

进一步地，在上述实施例中，所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段；

所述动作值数据包括每一能源设备对应的出力；

进一步地，在上述实施例中，所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。

本发明实施例提供的基于联邦强化学习的综合能源系统优化调度方法及系统，有益效果在于以下所述中的至少一点：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于联邦强化学习的综合能源系统优化调度方法，其特征在于，包括：

在满足停止训练条件时，完成强化学习训练。

2.如权利要求1所述的基于联邦强化学习的综合能源系统优化调度方法，其特征在于，所述方法还包括：

3.如权利要求2所述的基于联邦强化学习的综合能源系统优化调度方法，其特征在于，所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理，具体包括：

4.如权利要求3所述的基于联邦强化学习的综合能源系统优化调度方法，其特征在于，所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段；

所述动作值数据包括每一能源设备对应的出力；

5.如权利要求4所述的基于联邦强化学习的综合能源系统优化调度方法，其特征在于，所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。

6.一种基于联邦强化学习的综合能源系统优化调度系统，其特征在于，包括处理器，所述处理器被配置为：

在满足停止训练条件时，完成强化学习训练。

7.如权利要求6所述的基于联邦强化学习的综合能源系统优化调度系统，其特征在于，所述处理器还被配置为：

8.如权利要求7所述的基于联邦强化学习的综合能源系统优化调度系统，其特征在于，所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理，具体包括：

9.如权利要求8所述的基于联邦强化学习的综合能源系统优化调度系统，其特征在于，所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段；

所述动作值数据包括每一能源设备对应的出力；

10.如权利要求9所述的基于联邦强化学习的综合能源系统优化调度系统，其特征在于，所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。