CN115860789B

CN115860789B - 一种基于frl的ces日前调度方法

Info

Publication number: CN115860789B
Application number: CN202310191179.2A
Authority: CN
Inventors: 邱日轩; 肖子洋; 李帆; 郑锦坤; 余腾龙; 陈明亮; 井思桐; 吴灵芝
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-30
Anticipated expiration: 2043-03-02
Also published as: CN115860789A

Abstract

本发明公开了一种基于FRL的CES日前调度方法，包括多个社区储能系统LCES和单个全局服务器GS；所述FRL的训练过程包括以下步骤：LCES训练和更新局部模型，并对更新梯度使用噪音扰动；GS对多个LCES的噪音梯度求和，更新GS的全局模型，广播最新GS模型给LCES；局部模型和全局模型迭代更新，满足停止要求，完成训练。本发明基于联邦强化学习框架来进行CES调度，整个算法以分层分布式架构运行，本地社区调度代理以最小化社区的每日能源成本为目标，所提出的方法无需在社区之间共享能源消耗数据，只需共享扰动的模型梯度，保护了社区家庭的隐私。

Description

一种基于FRL的CES日前调度方法

技术领域

本发明涉及储能调度技术领域，具体涉及一种基于FRL的CES日前调度方法。

背景技术

社区内家庭共享大容量储能设备，可在分时电价计划下实现家庭需求的时空转移、能源套利，储能（ES）是新型电力系统的重要组成部分，可以缓解可再生能源的随机性、波动性，在分时电价（ToU）计划下，ES还可以通过在非高峰期存储能量并在高峰期释放能量来实现能源套利，随着时代的发展，出现了社区共享储能系统（CES），然而，传统调度方法无法满足动态变化的家庭需求，且储能调度需要家庭详细的能源消耗数据，涉及隐私问题。

发明内容

本发明的目的是提供一种基于FRL（联邦强化学习）的CES（社区共享储能系统）日前调度方法，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种基于FRL的CES日前调度方法，包括多个社区储能系统LCES和单个全局服务器GS；

所述FRL的训练过程包括以下步骤：

LCES训练和更新局部模型，并对更新梯度使用噪音扰动；

GS对多个LCES的噪音梯度求和，更新GS的全局模型，广播最新GS模型给LCES；

局部模型和全局模型迭代更新，满足停止要求，完成训练。

优选的，所述FRL以分层分布式架构运行，GS通过聚合本地模型梯度来更新全局模型，LCES使用本地数据训练DRL代理，并对GS报告模型梯度，GS和LCES之间仅交换模型梯度或模型参数实现CES代理的计算。

优选的，所述CES构建社区总能源消耗最小化的目标优化模型包括：

目标函数：社区总能源消耗最小化定义为：

，

式中，包括

时刻CES充电量/>

的成本，以及/>

时刻CES无法满足的部分需求

的成本，CES服务费/>

，/>

表示CES单位充电量需要的服务费；

其中

是/>

时刻的ToU电价，/>

是/>

时刻CES充电量，/>

是/>

时刻CES输送给社区内家庭的放电量，/>

是/>

时刻社区内家庭总需求；

约束条件：

，

约束

：考虑CES充电效率比/>

和放电效率比/>

的情况下更新荷电状态，/>

是/>

时刻CES剩余容量，/>

表示CES总容量；

约束Ⅱ：约束CES状态，设初始时间的SOE为0；

约束Ⅲ和约束Ⅳ：约束CES充电速率

和放电速率/>

在合理范围内，防止CES过度充放电；

约束Ⅴ：保证社区总需求的平衡。

优选的，约束Ⅲ和约束Ⅳ中，通过下式约束参数合理范围：

，

是最大时间戳，以小时为间隔的日前调度，则/>

。

优选的，对于任意

时刻，CES代理的状态空间定义为：

，

式中，状态

是/>

时刻CES剩余容量所占总容量的比例，/>

表示/>

时刻CES代理所处环境的状态，将储能的静态因素作为状态输入模型网络，动作空间/>

包括CES在不同时刻的充电量和放电量系数，定义为：

，

式中，

表示CES在/>

时刻从电网充电量系数，其值的范围在/>

之间，与/>

时刻从电网充电量/>

的关系为/>

，/>

表示CES在/>

时刻放给社区的放电量系数，与/>

的关系为

，/>

表示 />

时刻CES代理在环境/>

下执行的动作；

奖励函数R表示CES代理在环境的探索获得的反馈，用于指导代理实现预定的目标，奖励函数包括代理执行正确动作的奖励，以及执行错误动作导致环境不满足CES设备基本约束的惩罚，定义为：

，

约束

中的/>

表示当代理执行完24小时的CES调度后，整个系统节省的能源成本的金额，定义如下：

，

当

越大，调度节省金额越大，系统就给予代理奖励，/>

是负数时，系统给予代理惩罚，/>

均为系数，调整奖励和惩罚的力度。

优选的，设每个LCES在本地训练固定次数之后，上传最终噪音梯度给GS，构造满足

的噪音梯度，/>

是隐私要求；

LCES模型训练得到的原始梯度

，需要限制/>

的敏感度，计算公式为：

，

其中

是LCES本地训练得到的梯度，/>

是敏感度，也就是说任意两个梯度/>

满足：

，

基于剪切后的梯度

和敏感度/>

，每个LCES本地生成Laplace噪音/>

，/>

满足：

，

其中，

是噪音/>

的第/>

个维度。

优选的，所述LCES和GS相互迭代的交互梯度和模型，LCES代理在连续的状态和动作空间中调度，将PPO算法应用到LCES代理的学习过程中，PPO算法以固定策略运行多个episode，将运行轨迹保留，LCES代理获得的奖励，是当整个episode结束时，节省的金额与相关系数的乘积。

优选的，所述LCES代理的策略模型输入每个时刻的状态，输出连续动作的均值和方差，再从均值与方差确定的分布当中采样动作，LCES构造满足LDP定义的噪音梯度，并报告给全局GS，全局GS将接收到的扰动梯度缓存，当到达一定数量后使用这些梯度更新GS模型，并将更新的模型广播给所有LCES。

优选的，所述FRL的框架中，每个LCES代理报告一个满足

的噪音梯度，GS利用LCES的噪音梯度更新/>

，独立于LCES的任何隐私信息，进入下一轮后，GS将更新的/>

广播给所有LCES，LCES在本地环境训练。

优选的，设

是原始函数，没有加噪音，不符合LDP的定义，/>

是符合

定义的函数，/>

，/>

是两个不同的梯度，敏感度定义为：

，

式中，噪音

服从/>

，则得到满足严格差分隐私定义的函数/>

。

在上述技术方案中，本发明提供的技术效果和优点：

1、本发明基于联邦强化学习框架来进行CES调度，整个算法以分层分布式架构运行，本地社区调度代理以最小化社区的每日能源成本为目标，所提出的方法无需在社区之间共享能源消耗数据，只需共享扰动的模型梯度，保护了社区家庭的隐私。

2、本发明与静态的CES调度方法做了对比，实验证明所提出的调度方法的有效性，且联邦学习的方法可以更快的收敛，达到最优解，代理可以在不同的环境中训练，同时针对不同的隐私要求，所提出的方法取得了不同的实验效果，展示了成本节约金额与隐私保护力度之间的权衡。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的社区储能调度架构图。

图2为本发明基于FRL的CES调度架构图。

图3为本发明基于FRL的CES系统框图。

图4为本发明社区能源需求与ToU电价示意图。

图5为本发明不同社区的CES调度结果图。

图6为本发明CES容量大小对社区成本节约金额的影响折线图。

图7为本发明在不同社区中，强化学习、联邦强化学习、结合差分隐私的方法以及静态分配策略的对比示意图。

图8为本发明强化学习与联邦强化学习训练曲线图。

图9为本发明不同隐私保护力度下的模型收敛速度对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1、图2和图3所示，本实施例所述一种基于FRL的CES日前调度方法，由N个社区储能系统LCES和单个全局服务器GS组成，联邦强化学习FRL的训练过程包括两个步骤：

LCES训练和更新局部模型，并对更新梯度使用噪音扰动；

GS对N个LCES的噪音梯度求和，以更新GS的全局模型，然后广播最新GS模型给LCES；局部模型和全局模型迭代更新，直到满足某个停止要求。

强化学习代理使用近端策略优化（PPO）算法，执行CES日前调度。

代理的任务是在满足社区内家庭的能源需求下，尽可能的减少社区总能源开支。

基于联邦强化学习框架来进行CES调度。整个算法以分层分布式架构运行，本地社区调度代理以最小化社区的每日能源成本为目标。所提出的方法无需在社区之间共享能源消耗数据，只需共享扰动的模型梯度，保护了社区家庭的隐私。

对于CES代理，给定状态包括ToU电价、当日社区能源总需求、CES总容量、CES当前容量占比及当前时刻。

CES代理计算最优充电和放电时间表。

因为CES容量的限制，若某时刻无法满足社区总能源需求，那么此时用户需要从电网购买差额能量。

所述的FRL数学模型和算法—状态和动作空间的公式、奖励函数、LDP、基于FRL的CES调度算法和强化学习PPO算法。

调度算法以分层分布式架构运行，GS通过聚合本地模型梯度来更新全局模型，对于LCES，使用本地数据训练DRL代理，并对GS报告模型梯度，GS和LCES之间仅交换模型梯度或模型参数即可实现最优CES代理的计算；

将LDP结合到FRL框架当中，实现了隐私保护的CES调度算法，LCES在上传本地训练的模型梯度之前，将使用拉普拉斯噪音扰动本地模型梯度。实现了隐私保护的梯度聚合，保护了本地环境隐私；

相较于单独的DRL，提出的FRL具有更快的收敛速度，同时，通过调整LDP参数，可以在隐私保护与模型精度之间权衡最优解。

实施例2

本实施例中，通过数学的形式定义了CES调度系统的优化目标和约束条件，描述基于深度强化学习DRL的CES调度模型，以及结合本地差分隐私LDP的CES调度模型。

CES日前调度需要用户提前一天预约，然后安排相应的储能服务，目的是使得整个系统的总能源支出最小。

由于CES建造成本高，需要长时间维护，单个家庭也无法充分利用储能资源。

因此，社区内多个家庭共用储能设备，提高储能设备利用率，初期建造成本和长期维护成本可以共同分摊，总体上降低了社区总能源消耗。

为此，我们构建了社区总能源消耗最小化的目标优化模型，包括：

1）目标函数。

社区总能源消耗最小化定义如下

（1）

公式(1)的目标是社区总能源消耗最小，包括

时刻CES充电量/>

的成本，以及

时刻CES无法满足的部分需求/>

的成本，以及CES服务费

，/>

表示CES单位充电量需要的服务费。

其中

是/>

时刻的ToU电价，/>

是/>

时刻CES充电量，/>

是/>

时刻CES输送给社区内家庭的放电量，/>

是/>

时刻社区内家庭总需求。

2）约束条件。

（2），

约束

：在考虑CES充电效率比/>

和放电效率比/>

的情况下更新荷电状态，

是t时刻CES剩余容量，/>

表示CES总容量。

约束Ⅱ：确保可行的CES状态，假设初始时间的SOE为0。

约束Ⅲ和约束Ⅳ：确保CES充电速率

和放电速率/>

在合理范围内，防止CES过度充放电。

约束Ⅴ：保证社区总需求的平衡，即社区内家庭用电需求可以完全满足。

（3），

公式(3)约束了系统中参数的合理范围，

是最大时间戳，本申请考虑以小时为间隔的日前调度，因此/>

。

A、基于DRL的CES调度模型：

1）状态空间：对于任意

时刻，CES代理的状态空间定义如下：

（4），

在上述状态空间的定义当中，状态

是/>

时刻CES剩余容量所占总容量的比例。/>

表示/>

时刻CES代理所处环境的状态。

现有技术中，对于储能代理的状态空间只考虑了与时间相关的动态变量，但是我们通过实验发现，将储能相关的静态因素也作为状态输入模型网络，可以加速代理收敛速度。

原因也是直接的，将更多的相关信息输入模型网络，可以让代理更加全面和细致的了解环境，从而更快的做出优秀决策。

2）动作空间：动作空间

包括CES在不同时刻的充电量和放电量系数，定义如下：

（5），

表示CES在/>

时刻从电网充电量系数，其值的范围在/>

之间，与/>

时刻从电网充电量/>

的关系为/>

，/>

表示CES在/>

时刻放给社区的放电量系数，与/>

的关系为

，/>

表示/>

时刻CES代理在环境/>

下执行的动作。

3）奖励函数：奖励函数R表示CES代理在环境S的探索获得的反馈，用于指导代理实现预定的目标。

奖励函数的设定应该包括代理执行正确动作的奖励，以及执行错误动作导致环境不满足CES设备基本约束的惩罚，因此，奖励函数定义如下：

（6），

其中约束Ⅶ-约束Ⅸ表示当CES执行的动作超出P(1)中约束时，系统给予惩罚，若在约束范围内，则给予奖励。

约束

中的/>

（7），

因此当

越大，说明本次日前调度节省金额越大，系统就会给予代理越多的奖励。若/>

是负数时，系统会给予代理严厉的惩罚。

均为系数，用来调整奖励和惩罚的力度，我们通过实验结果来调整最优的奖励和惩罚系数。

对于24小时的日前调度场景，考虑每个时刻代理的操作可能会超出P(1)的约束条件，以及在日前调度最后时刻总节省的金额来优化代理的执行动作。

4）PPO算法：CES代理在以指定策略执行动作，在整局结束之后，通过提高好动作的概率、减少坏动作的概率，来优化CES代理。

PPO算法使用重要性采样技术，解决了策略梯度算法中样本只能一次利用的问题，PPO算法使用优势函数替换奖励函数，使得模型更加注重动作带来的平均奖励。

我们记轨迹为

，参数化策略/>

，其中/>

为分布近似的参数。PPO算法的目的是最大化策略/>

下的奖励期望/>

，因此其似然函数如下：

（8），

其中，

分别表示策略/>

下，执行某动作的概率，/>

是隐私要求，限定了裁剪范围，与敏感度相关。

表示CES代理在状态/>

下执行动作/>

所带来的平均优势。

B、结合LDP的CES调度模型：

LCES在报告本地梯度之前，会生成拉普拉斯噪音去扰动本地梯度，防止恶意方从梯度中分析出本地的隐私信息。

因此，在LCES报告训练结果之前，本地差分隐私对训练结果提供了严格的隐私保证，我们假设LCES使用随机函数

扰动训练结果，随机函数的值域为/>

，定义域为/>

。/>

定义1：对于任意可能的输入

，以及任意输出的子集/>

，当且仅当下列不等式成立，则随机函数/>

满足/>

：

（9），

定义1要求随机函数中，两个近似输入得到的输出不可区分，即对于LCES中近似的训练结果，经过随机函数

后得到的输出是不可区分的。

定义2：对于任意输入

，随机函数/>

的敏感度定义如下：

（10），

敏感度定义了随机函数的最大变化，当输入的数据集变动时，随机函数

的输出所发生的最大变化。

拉普拉斯机制：拉普拉斯机制是一个随机机制，其根据目标函数的敏感度从拉普拉斯分布中随机采样，定义为：

（11），

对于在随机函数

上定义的任意确定或者随机函数/>

，如果/>

满足/>

，则

也对于任意的输入/>

满足/>

。

我们设GS有一个参数化全局模型

，/>

是/>

的维数；

在本地训练过程中，CES代理输入

，并获取下一个动作；

在多个轮次之后，代理根据历史轨迹信息与获得的奖励，通过损失函数更新模型

；

多轮更新之后，代理求得最终更新梯度，并在向GS报告之前，LCES计算扰动的随机梯度；

期望通过随机函数

得到满足/>

的噪音梯度。

定义3（满足

的噪音梯度）：对于任意本地社区调度系统/>

，任意两个本地梯度/>

和任意随机梯度子集/>

，以下不等式必须成立：

（12），

其中

是扰动后的噪音梯度，/>

是LCES本地训练得到的真实梯度。

对于LCES报告的噪音梯度，GS会聚合求梯度均值，然后用于更新全局模型，并与所有LCES共享最新的GS模型。

我们假设每个LCES在本地训练固定次数之后，上传最终噪音梯度给GS。

通过上述定义，我们可以构造出满足

的噪音梯度。

对于LCES模型训练得到的原始梯度

，首先需要限制/>

的敏感度，计算公式为：/>

（13），

其中

是LCES本地训练得到的梯度，/>

是敏感度，也就是说任意两个梯度/>

满足：

（14），

基于剪切后的梯度

和敏感度/>

，每个LCES可以本地生成Laplace噪音/>

，/>

满足：

（15），

其中，

是噪音/>

的第/>

个维度。

实施例3

本实施例提出基于FRL的CES调度算法，见算法一：

首先初始化相关输入参数，包括社区各时刻能源需求、ToU电价、CES相关参数，GS强化学习模型

，维数/>

，并广播给所有LCES，裁剪参数/>

，本地隐私要求/>

，然后开始循环，最大循环次数为最大通信次数，对于所有的LCES开始计算，从episode=0到LCES最大更新次数迭代，

依据策略

运行96个时间戳，并记载策略轨迹/>

，计算每个状态的优势函数/>

，计算损失函数：

，

然后使用Adamw优化器更新LCES强化学习模型，既可计算模型梯度

，以及扰动梯度/>

，并将扰动后的噪音梯度/>

报告给GS， GS可以缓存接收到的所有噪音梯度，如果GS缓存已满，便计算噪音梯度的均值/>

，并更新全局模型/>

，最后清空缓存，输出结果，完成算法。

算法以分布式运行，LCES和GS相互迭代的交互梯度和模型。LCES代理在连续的状态和动作空间中调度，我们将PPO算法应用到LCES代理的学习过程中。

PPO算法会以固定策略运行多个episode，将运行轨迹保留，本申请中我们设定为96个时间戳。然后根据已有轨迹，增加那些平均奖励大的动作的概率，减少平均奖励小的动作的概率。

本系统中LCES代理获得的奖励，是当整个episode结束时，节省的金额与相关系数的乘积。

LCES代理的策略模型输入每个时刻的状态，输出连续动作的均值和方差，再从均值与方差确定的分布当中采样动作。

这样让LCES代理可以尝试到动作空间的所有可能，避免陷入极值区域。

完成本地训练后，LCES根据算法二：

要计算

噪音梯度/>

，首先是输入相应的参数，包括原始梯度/>

，维数/>

，隐私要求/>

，裁剪范围/>

，根据公式(13)，可以根据原始梯度/>

计算出剪切梯度/>

，后续根据同公式(15)进行多次的循环计算，直到循环次数达到d，然后生成噪音/>

，最后返回结果/>

，完成算法。

构造满足LDP定义的噪音梯度，并报告给全局GS，全局GS将接收到的扰动梯度缓存，当到达一定数量后使用这些梯度更新GS模型，并将更新的模型广播给所有LCES，本申请中，我们使用FedSGD聚合算法以及ADAM优化算法构建模型。

本申请所述基于FRL框架的算法一中，所有LCES均满足

。

在FRL的框架中，每个LCES代理报告一个满足

的噪音梯度，GS仅利用LCES的噪音梯度更新/>

，这一步独立于LCES的任何隐私信息；

且更新模型不会违反

，进入下一轮后，GS将更新的/>

广播给所有LCES，LCES在本地环境训练，本地学习过程独立于所有其他代理，因此也不会违反其他代理的

定义。

拉普拉斯噪音扰动的梯度满足

定义。

假设

是原始函数，没有加噪音，不符合LDP的定义，/>

是符合/>

定义的函数，即/>

，/>

是两个不同的梯度。敏感度定义为见公式(10)，隐私预算为/>

，可以得到：

（16），

即随机函数输出指定值的概率，等于相关噪音的概率分布，我们令噪音

服从/>

，则可以得到满足严格差分隐私定义的函数/>

，便得到如下公式：

（17），

此时若函数

的输出时一个标量，则有：

，

（18），

上述公式表明，梯度

经过噪音函数得到指定结果/>

的概率，同理得到梯度/>

与/>

的概率公式：

，/>

二者相比，可以得到：

，

因此，扰动的梯度满足

定义。

实施例4

本实施例中，使用真实数据验证相关工作。考虑三个不同CES规格的社区，如表1所示：

，

表1，

各社区的能源需求与ToU电价如图4所示，我们假设LCES训练50个迭代后与GS发生一轮通信，实验使用Python3.9和Pytorch1.12.1在Ubuntu系统上运行。

首先评估了所提出方法的调度效果。展示3个社区的CES调度服务情况如图5所示。

每个社区都可以在电价高峰期利用CES设备放电，实现能源套利，从图5中可以看到，在电价低峰期，社区主要的能源需求都来自电网。

由于初始CES没有存储能量，因此在每日0点开始直到高峰期之前，CES都在充电储备能源。

当时间来到电价高峰期，社区的主要能源消耗由CES提供，若某些时刻CES无法完全满足社区家庭需求时，社区家庭会从电网补充差额需求。

如图6所示，可以观察到，当CES容量较小时，随着CES容量增加，社区成本节约金额有显著的上升，但CES容量超过某些上限之后带来的成本节约金额并不可观，甚至不会再有上升，对于社区二来说，CES最大容量阈值位于70-80kWh，因此，我们的方法也可以结合用户历史数据来预测社区最优CES容量。

在图7中，我们比较了四种不同调度方法的成本节约金额，分别是本申请提出的强化学习、联邦强化学习、结合差分隐私的方法以及静态分配策略。

在静态分配策略中，社区共享储能容量将平分给不同的社区用户，用户独立操作自己的储能容量。

当不考虑隐私问题的时候，强化学习与联邦强化的表现都优于静态分配的策略。

而且动态的电池分配策略始终优于静态策略，这是因为静态分配无法重复利用CES的容量，无法达到最优CES调度解。

从图8可知，联邦强化不仅会提高模型表现能力，也会加快模型收敛速度。

这是因为联邦强化中的代理可以从更多的环境当中学习知识。

当考虑隐私时，CES代理会牺牲一些性能来换取隐私保护，这表明了隐私与效用之间的权衡。

同时我们也可以看到，即使考虑了隐私保护，所提出的方法表现依然优于静态的分配策略。

图9展示了不同隐私保护力度下的模型收敛速度对比，可以看到，

代表的实线不论是收敛速度还是成本节约金额都优于/>

的虚线。

这是因为

越大，增加的噪音就越小，对梯度的隐私保护力度也越小，但是可以获得更优秀的模型表现和更快的收敛速度。

随着模型的训练，二者最终收敛处的差距并不是很大，这也说明了即使在较为严格的隐私保护要求下，模型也能学习到正确的知识。

这是因为往模型添加噪音也是一种防止模型过拟合的方法，可以提高模型的推理能力。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于FRL的CES日前调度方法，其特征在于：包括多个社区储能系统LCES和单个全局服务器GS；

所述FRL的训练过程包括以下步骤：

LCES训练和更新局部模型，并对更新梯度使用噪音扰动；

局部模型和全局模型迭代更新，满足停止要求，完成训练；

所述FRL以分层分布式架构运行，GS通过聚合本地模型梯度来更新全局模型，LCES使用本地数据训练DRL代理，并对GS报告模型梯度，GS和LCES之间仅交换模型梯度或模型参数实现CES代理的计算；

所述CES构建社区总能源消耗最小化的目标优化模型包括：

目标函数：社区总能源消耗最小化定义为：

，

式中，包括

时刻CES充电量/>

的成本，以及/>

时刻CES无法满足的部分需求

的成本，CES服务费/>

，/>

表示CES单位充电量需要的服务费；T是最大时间戳，以小时为间隔的日前调度，则T=24；

其中

是/>

时刻的ToU电价，/>

是/>

时刻CES充电量，/>

是/>

时刻CES输送给社区内家庭的放电量，/>

是/>

时刻社区内家庭总需求；

约束条件：

，

，

，

，

，

约束

：考虑CES充电效率比/>

和放电效率比/>

的情况下更新荷电状态，/>

是/>

时刻CES剩余容量，/>

表示CES总容量；

约束Ⅱ：约束CES状态，设初始时间的SOE为0；

约束Ⅲ和约束Ⅳ：约束CES充电速率

和放电速率/>

在合理范围内，防止CES过度充放电；

约束Ⅴ：保证社区总需求的平衡。

2.根据权利要求1所述的一种基于FRL的CES日前调度方法，其特征在于：约束Ⅲ和约束Ⅳ中，通过下式约束参数合理范围：

，

是最大时间戳，以小时为间隔的日前调度，则/>

。/>

3.根据权利要求2所述的一种基于FRL的CES日前调度方法，其特征在于：对于任意

时刻，CES代理的状态空间定义为：

，

式中，状态

是/>

时刻CES剩余容量所占总容量的比例，/>

，/>

表示/>

包括CES在不同时刻的充电量和放电量系数，定义为：

，

式中，

表示CES在/>

时刻从电网充电量系数，其值的范围在/>

之间，与/>

时刻从电网充电量/>

的关系为/>

，/>

表示CES在/>

时刻放给社区的放电量系数，与/>

的关系为/>

，/>

表示/>

时刻CES代理在环境/>

下执行的动作；

，

约束

中的/>

当

越大，调度节省金额越大，系统就给予代理奖励，/>

是负数时，系统给予代理惩罚，

均为系数，调整奖励和惩罚的力度。

4.根据权利要求3所述的一种基于FRL的CES日前调度方法，其特征在于：设每个LCES在本地训练固定次数之后，上传最终噪音梯度给GS，构造满足

的噪音梯度，/>

是隐私要求；

LCES模型训练得到的原始梯度

，需要限制/>

的敏感度，计算公式为：

，

其中

是LCES本地训练得到的梯度，/>

是敏感度，也就是说任意两个梯度/>

满足：

，

基于剪切后的梯度

和敏感度/>

，每个LCES本地生成Laplace噪音/>

，/>

满足：/>

，

其中，

是噪音/>

的第/>

个维度。

5.根据权利要求4所述的一种基于FRL的CES日前调度方法，其特征在于：所述LCES和GS相互迭代的交互梯度和模型，LCES代理在连续的状态和动作空间中调度，将PPO算法应用到LCES代理的学习过程中，PPO算法以固定策略运行多个episode，将运行轨迹保留，LCES代理获得的奖励，是当整个episode结束时，节省的金额与相关系数的乘积。

6.根据权利要求5所述的一种基于FRL的CES日前调度方法，其特征在于：所述LCES代理的策略模型输入每个时刻的状态，输出连续动作的均值和方差，再从均值与方差确定的分布当中采样动作，LCES构造满足LDP定义的噪音梯度，并报告给全局GS，全局GS将接收到的扰动梯度缓存，当到达一定数量后使用这些梯度更新GS模型，并将更新的模型广播给所有LCES。

7.根据权利要求6所述的一种基于FRL的CES日前调度方法，其特征在于：所述FRL的框架中，每个LCES代理报告一个满足