CN115860789A - 一种基于frl的ces日前调度方法 - Google Patents

一种基于frl的ces日前调度方法 Download PDF

Info

Publication number
CN115860789A
CN115860789A CN202310191179.2A CN202310191179A CN115860789A CN 115860789 A CN115860789 A CN 115860789A CN 202310191179 A CN202310191179 A CN 202310191179A CN 115860789 A CN115860789 A CN 115860789A
Authority
CN
China
Prior art keywords
ces
lces
model
agent
frl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310191179.2A
Other languages
English (en)
Other versions
CN115860789B (zh
Inventor
邱日轩
肖子洋
李帆
郑锦坤
余腾龙
陈明亮
井思桐
吴灵芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202310191179.2A priority Critical patent/CN115860789B/zh
Publication of CN115860789A publication Critical patent/CN115860789A/zh
Application granted granted Critical
Publication of CN115860789B publication Critical patent/CN115860789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于FRL的CES日前调度方法,包括多个社区储能系统LCES和单个全局服务器GS;所述FRL的训练过程包括以下步骤:LCES训练和更新局部模型,并对更新梯度使用噪音扰动;GS对多个LCES的噪音梯度求和,更新GS的全局模型,广播最新GS模型给LCES;局部模型和全局模型迭代更新,满足停止要求,完成训练。本发明基于联邦强化学习框架来进行CES调度,整个算法以分层分布式架构运行,本地社区调度代理以最小化社区的每日能源成本为目标,所提出的方法无需在社区之间共享能源消耗数据,只需共享扰动的模型梯度,保护了社区家庭的隐私。

Description

一种基于FRL的CES日前调度方法
技术领域
本发明涉及储能调度技术领域,具体涉及一种基于FRL的CES日前调度方法。
背景技术
社区内家庭共享大容量储能设备,可在分时电价计划下实现家庭需求的时空转移、能源套利,储能(ES)是新型电力系统的重要组成部分,可以缓解可再生能源的随机性、波动性,在分时电价(ToU)计划下,ES还可以通过在非高峰期存储能量并在高峰期释放能量来实现能源套利,随着时代的发展,出现了社区共享储能系统(CES),然而,传统调度方法无法满足动态变化的家庭需求,且储能调度需要家庭详细的能源消耗数据,涉及隐私问题。
发明内容
本发明的目的是提供一种基于FRL(联邦强化学习)的CES(社区共享储能系统)日前调度方法,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种基于FRL的CES日前调度方法,包括多个社区储能系统LCES和单个全局服务器GS;
所述FRL的训练过程包括以下步骤:
LCES训练和更新局部模型,并对更新梯度使用噪音扰动;
GS对多个LCES的噪音梯度求和,更新GS的全局模型,广播最新GS模型给LCES;
局部模型和全局模型迭代更新,满足停止要求,完成训练。
优选的,所述FRL以分层分布式架构运行,GS通过聚合本地模型梯度来更新全局模型,LCES使用本地数据训练DRL代理,并对GS报告模型梯度,GS和LCES之间仅交换模型梯度或模型参数实现CES代理的计算。
优选的,所述CES构建社区总能源消耗最小化的目标优化模型包括:
目标函数:社区总能源消耗最小化定义为:
Figure SMS_1
式中,包括
Figure SMS_2
时刻CES充电量
Figure SMS_3
的成本,以及
Figure SMS_4
时刻CES无法满足的部分需求
Figure SMS_5
的成本,CES服务费
Figure SMS_6
Figure SMS_7
表示CES单位充电量需要的服务费;
其中
Figure SMS_9
Figure SMS_10
时刻的ToU电价,
Figure SMS_11
Figure SMS_12
时刻CES充电量,
Figure SMS_13
Figure SMS_14
时刻CES输送给社区内家庭的放电量,
Figure SMS_15
Figure SMS_8
时刻社区内家庭总需求;
约束条件:
Figure SMS_16
约束
Figure SMS_17
:考虑CES充电效率比
Figure SMS_18
和放电效率比
Figure SMS_19
的情况下更新荷电状态,
Figure SMS_20
Figure SMS_21
时刻CES剩余容量,
Figure SMS_22
表示CES总容量;
约束Ⅱ:约束CES状态,设初始时间的SOE为0;
约束Ⅲ和约束Ⅳ:约束CES充电速率
Figure SMS_23
和放电速率
Figure SMS_24
在合理范围内,防止CES过度充放电;
约束Ⅴ:保证社区总需求的平衡。
优选的,约束Ⅲ和约束Ⅳ中,通过下式约束参数合理范围:
Figure SMS_25
Figure SMS_26
是最大时间戳,以小时为间隔的日前调度,则
Figure SMS_27
优选的,对于任意
Figure SMS_28
时刻,CES代理的状态空间定义为:
Figure SMS_29
式中,状态
Figure SMS_30
Figure SMS_31
时刻CES剩余容量所占总容量的比例,
Figure SMS_32
表示
Figure SMS_33
时刻CES代理所处环境的状态,将储能的静态因素作为状态输入模型网络,动作空间
Figure SMS_34
包括CES在不同时刻的充电量和放电量系数,定义为:
Figure SMS_35
式中,
Figure SMS_37
表示CES在
Figure SMS_39
时刻从电网充电量系数,其值的范围在
Figure SMS_41
之间,与
Figure SMS_43
时刻从电网充电量
Figure SMS_45
的关系为
Figure SMS_47
Figure SMS_48
表示CES在
Figure SMS_36
时刻放给社区的放电量系数,与
Figure SMS_38
的关系为
Figure SMS_40
Figure SMS_42
表示
Figure SMS_44
时刻CES代理在环境
Figure SMS_46
下执行的动作;
奖励函数R表示CES代理在环境的探索获得的反馈,用于指导代理实现预定的目标,奖励函数包括代理执行正确动作的奖励,以及执行错误动作导致环境不满足CES设备基本约束的惩罚,定义为:
Figure SMS_49
约束
Figure SMS_50
中的
Figure SMS_51
表示当代理执行完24小时的CES调度后,整个系统节省的能源成本的金额,定义如下:
Figure SMS_52
Figure SMS_53
越大,调度节省金额越大,系统就给予代理奖励,
Figure SMS_54
是负数时,系统给予代理惩罚,
Figure SMS_55
均为系数,调整奖励和惩罚的力度。
优选的,设每个LCES在本地训练固定次数之后,上传最终噪音梯度给GS,构造满足
Figure SMS_56
的噪音梯度,
Figure SMS_57
是隐私要求;
LCES模型训练得到的原始梯度
Figure SMS_58
,需要限制
Figure SMS_59
的敏感度,计算公式为:
Figure SMS_60
其中
Figure SMS_61
是LCES本地训练得到的梯度,
Figure SMS_62
是敏感度,也就是说任意两个梯度
Figure SMS_63
满足:
Figure SMS_64
基于剪切后的梯度
Figure SMS_65
和敏感度
Figure SMS_66
,每个LCES本地生成Laplace噪音
Figure SMS_67
Figure SMS_68
满足:
Figure SMS_69
其中,
Figure SMS_70
是噪音
Figure SMS_71
的第
Figure SMS_72
个维度。
优选的,所述LCES和GS相互迭代的交互梯度和模型,LCES代理在连续的状态和动作空间中调度,将PPO算法应用到LCES代理的学习过程中,PPO算法以固定策略运行多个episode,将运行轨迹保留,LCES代理获得的奖励,是当整个episode结束时,节省的金额与相关系数的乘积。
优选的,所述LCES代理的策略模型输入每个时刻的状态,输出连续动作的均值和方差,再从均值与方差确定的分布当中采样动作,LCES构造满足LDP定义的噪音梯度,并报告给全局GS,全局GS将接收到的扰动梯度缓存,当到达一定数量后使用这些梯度更新GS模型,并将更新的模型广播给所有LCES。
优选的,所述FRL的框架中,每个LCES代理报告一个满足
Figure SMS_73
的噪音梯度,GS利用LCES的噪音梯度更新
Figure SMS_74
,独立于LCES的任何隐私信息,进入下一轮后,GS将更新的
Figure SMS_75
广播给所有LCES,LCES在本地环境训练。
优选的,设
Figure SMS_76
是原始函数,没有加噪音,不符合LDP的定义,
Figure SMS_77
是符合
Figure SMS_78
定义的函数,
Figure SMS_79
Figure SMS_80
是两个不同的梯度,敏感度定义为:
Figure SMS_81
式中,噪音
Figure SMS_82
服从
Figure SMS_83
,则得到满足严格差分隐私定义的函数
Figure SMS_84
在上述技术方案中,本发明提供的技术效果和优点:
1、 本发明基于联邦强化学习框架来进行CES调度,整个算法以分层分布式架构运行,本地社区调度代理以最小化社区的每日能源成本为目标,所提出的方法无需在社区之间共享能源消耗数据,只需共享扰动的模型梯度,保护了社区家庭的隐私。
2、 本发明与静态的CES调度方法做了对比,实验证明所提出的调度方法的有效性,且联邦学习的方法可以更快的收敛,达到最优解,代理可以在不同的环境中训练,同时针对不同的隐私要求,所提出的方法取得了不同的实验效果,展示了成本节约金额与隐私保护力度之间的权衡。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的社区储能调度架构图。
图2为本发明基于FRL的CES调度架构图。
图3为本发明基于FRL的CES系统框图。
图4为本发明社区能源需求与ToU电价示意图。
图5为本发明不同社区的CES调度结果图。
图6为本发明CES容量大小对社区成本节约金额的影响折线图。
图7为本发明在不同社区中,强化学习、联邦强化学习、结合差分隐私的方法以及静态分配策略的对比示意图。
图8为本发明强化学习与联邦强化学习训练曲线图。
图9为本发明不同隐私保护力度下的模型收敛速度对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1、图2和图3所示,本实施例所述一种基于FRL的CES日前调度方法,由N个社区储能系统LCES和单个全局服务器GS组成,联邦强化学习FRL的训练过程包括两个步骤:
LCES训练和更新局部模型,并对更新梯度使用噪音扰动;
GS对N个LCES的噪音梯度求和,以更新GS的全局模型,然后广播最新GS模型给LCES;局部模型和全局模型迭代更新,直到满足某个停止要求。
强化学习代理使用近端策略优化(PPO)算法,执行CES日前调度。
代理的任务是在满足社区内家庭的能源需求下,尽可能的减少社区总能源开支。
基于联邦强化学习框架来进行CES调度。整个算法以分层分布式架构运行,本地社区调度代理以最小化社区的每日能源成本为目标。所提出的方法无需在社区之间共享能源消耗数据,只需共享扰动的模型梯度,保护了社区家庭的隐私。
对于CES代理,给定状态包括ToU电价、当日社区能源总需求、CES总容量、CES当前容量占比及当前时刻。
CES代理计算最优充电和放电时间表。
因为CES容量的限制,若某时刻无法满足社区总能源需求,那么此时用户需要从电网购买差额能量。
所述的FRL数学模型和算法—状态和动作空间的公式、奖励函数、LDP、基于FRL的CES调度算法和强化学习PPO算法。
调度算法以分层分布式架构运行,GS通过聚合本地模型梯度来更新全局模型,对于LCES,使用本地数据训练DRL代理,并对GS报告模型梯度,GS和LCES之间仅交换模型梯度或模型参数即可实现最优CES代理的计算;
将LDP结合到FRL框架当中,实现了隐私保护的CES调度算法,LCES在上传本地训练的模型梯度之前,将使用拉普拉斯噪音扰动本地模型梯度。实现了隐私保护的梯度聚合,保护了本地环境隐私;
相较于单独的DRL,提出的FRL具有更快的收敛速度,同时,通过调整LDP参数,可以在隐私保护与模型精度之间权衡最优解。
实施例2
本实施例中,通过数学的形式定义了CES调度系统的优化目标和约束条件,描述基于深度强化学习DRL的CES调度模型,以及结合本地差分隐私LDP的CES调度模型。
CES日前调度需要用户提前一天预约,然后安排相应的储能服务,目的是使得整个系统的总能源支出最小。
由于CES建造成本高,需要长时间维护,单个家庭也无法充分利用储能资源。
因此,社区内多个家庭共用储能设备,提高储能设备利用率,初期建造成本和长期维护成本可以共同分摊,总体上降低了社区总能源消耗。
为此,我们构建了社区总能源消耗最小化的目标优化模型,包括:
1)目标函数。
社区总能源消耗最小化定义如下
Figure SMS_85
(1)
公式(1)的目标是社区总能源消耗最小,包括
Figure SMS_86
时刻CES充电量
Figure SMS_87
的成本,以及
Figure SMS_88
时刻CES无法满足的部分需求
Figure SMS_89
的成本,以及CES服务费
Figure SMS_90
Figure SMS_91
表示CES单位充电量需要的服务费。
其中
Figure SMS_92
Figure SMS_94
时刻的ToU电价,
Figure SMS_95
Figure SMS_96
时刻CES充电量,
Figure SMS_97
Figure SMS_98
时刻CES输送给社区内家庭的放电量,
Figure SMS_99
Figure SMS_93
时刻社区内家庭总需求。
2)约束条件。
Figure SMS_100
(2),
约束
Figure SMS_101
:在考虑CES充电效率比
Figure SMS_102
和放电效率比
Figure SMS_103
的情况下更新荷电状态,
Figure SMS_104
是t时刻CES剩余容量,
Figure SMS_105
表示CES总容量。
约束Ⅱ:确保可行的CES状态,假设初始时间的SOE为0。
约束Ⅲ和约束Ⅳ:确保CES充电速率
Figure SMS_106
和放电速率
Figure SMS_107
在合理范围内,防止CES过度充放电。
约束Ⅴ:保证社区总需求的平衡,即社区内家庭用电需求可以完全满足。
Figure SMS_108
(3),
公式(3)约束了系统中参数的合理范围,
Figure SMS_109
是最大时间戳,本申请考虑以小时为间隔的日前调度,因此
Figure SMS_110
A、基于DRL的CES调度模型:
1)状态空间:对于任意
Figure SMS_111
时刻,CES代理的状态空间定义如下:
Figure SMS_112
(4),
在上述状态空间的定义当中,状态
Figure SMS_113
Figure SMS_114
时刻CES剩余容量所占总容量的比例。
Figure SMS_115
表示
Figure SMS_116
时刻CES代理所处环境的状态。
现有技术中,对于储能代理的状态空间只考虑了与时间相关的动态变量,但是我们通过实验发现,将储能相关的静态因素也作为状态输入模型网络,可以加速代理收敛速度。
原因也是直接的,将更多的相关信息输入模型网络,可以让代理更加全面和细致的了解环境,从而更快的做出优秀决策。
2)动作空间:动作空间
Figure SMS_117
包括CES在不同时刻的充电量和放电量系数,定义如下:
Figure SMS_118
(5),
Figure SMS_120
表示CES在
Figure SMS_121
时刻从电网充电量系数,其值的范围在
Figure SMS_123
之间,与
Figure SMS_125
时刻从电网充电量
Figure SMS_126
的关系为
Figure SMS_128
Figure SMS_129
表示CES在
Figure SMS_119
时刻放给社区的放电量系数,与
Figure SMS_122
的关系为
Figure SMS_124
Figure SMS_127
表示
Figure SMS_130
时刻CES代理在环境
Figure SMS_131
下执行的动作。
3)奖励函数:奖励函数R表示CES代理在环境S的探索获得的反馈,用于指导代理实现预定的目标。
奖励函数的设定应该包括代理执行正确动作的奖励,以及执行错误动作导致环境不满足CES设备基本约束的惩罚,因此,奖励函数定义如下:
Figure SMS_132
(6),
其中约束Ⅶ-约束Ⅸ表示当CES执行的动作超出P(1)中约束时,系统给予惩罚,若在约束范围内,则给予奖励。
约束
Figure SMS_133
中的
Figure SMS_134
表示当代理执行完24小时的CES调度后,整个系统节省的能源成本的金额,定义如下:
Figure SMS_135
(7),
因此当
Figure SMS_136
越大,说明本次日前调度节省金额越大,系统就会给予代理越多的奖励。若
Figure SMS_137
是负数时,系统会给予代理严厉的惩罚。
Figure SMS_138
均为系数,用来调整奖励和惩罚的力度,我们通过实验结果来调整最优的奖励和惩罚系数。
对于24小时的日前调度场景,考虑每个时刻代理的操作可能会超出P(1)的约束条件,以及在日前调度最后时刻总节省的金额来优化代理的执行动作。
4)PPO算法:CES代理在以指定策略执行动作,在整局结束之后,通过提高好动作的概率、减少坏动作的概率,来优化CES代理。
PPO算法使用重要性采样技术,解决了策略梯度算法中样本只能一次利用的问题,PPO算法使用优势函数替换奖励函数,使得模型更加注重动作带来的平均奖励。
我们记轨迹为
Figure SMS_139
,参数化策略
Figure SMS_140
,其中
Figure SMS_141
为分布近似的参数。PPO算法的目的是最大化策略
Figure SMS_142
下的奖励期望
Figure SMS_143
,因此其似然函数如下:
Figure SMS_144
(8),
其中,
Figure SMS_145
分别表示策略
Figure SMS_146
下,执行某动作的概率,
Figure SMS_147
是隐私要求,限定了裁剪范围,与敏感度相关。
Figure SMS_148
表示CES代理在状态
Figure SMS_149
下执行动作
Figure SMS_150
所带来的平均优势。
B、结合LDP的CES调度模型:
LCES在报告本地梯度之前,会生成拉普拉斯噪音去扰动本地梯度,防止恶意方从梯度中分析出本地的隐私信息。
因此,在LCES报告训练结果之前,本地差分隐私对训练结果提供了严格的隐私保证,我们假设LCES使用随机函数
Figure SMS_151
扰动训练结果,随机函数的值域为
Figure SMS_152
,定义域为
Figure SMS_153
定义1:对于任意可能的输入
Figure SMS_154
,以及任意输出的子集
Figure SMS_155
,当且仅当下列不等式成立,则随机函数
Figure SMS_156
满足
Figure SMS_157
Figure SMS_158
(9),
定义1要求随机函数中,两个近似输入得到的输出不可区分,即对于LCES中近似的训练结果,经过随机函数
Figure SMS_159
后得到的输出是不可区分的。
定义2:对于任意输入
Figure SMS_160
,随机函数
Figure SMS_161
的敏感度定义如下:
Figure SMS_162
(10),
敏感度定义了随机函数的最大变化,当输入的数据集变动时,随机函数
Figure SMS_163
的输出所发生的最大变化。
拉普拉斯机制:拉普拉斯机制是一个随机机制,其根据目标函数的敏感度从拉普拉斯分布中随机采样,定义为:
Figure SMS_164
(11),
对于在随机函数
Figure SMS_165
上定义的任意确定或者随机函数
Figure SMS_166
,如果
Figure SMS_167
满足
Figure SMS_168
,则
Figure SMS_169
也对于任意的输入
Figure SMS_170
满足
Figure SMS_171
我们设GS有一个参数化全局模型
Figure SMS_172
Figure SMS_173
Figure SMS_174
的维数;
在本地训练过程中,CES代理输入
Figure SMS_175
,并获取下一个动作;
在多个轮次之后,代理根据历史轨迹信息与获得的奖励,通过损失函数更新模型
Figure SMS_176
多轮更新之后,代理求得最终更新梯度,并在向GS报告之前,LCES计算扰动的随机梯度;
期望通过随机函数
Figure SMS_177
得到满足
Figure SMS_178
的噪音梯度。
定义3(满足
Figure SMS_179
的噪音梯度):对于任意本地社区调度系统
Figure SMS_180
,任意两个本地梯度
Figure SMS_181
和任意随机梯度子集
Figure SMS_182
,以下不等式必须成立:
Figure SMS_183
(12),
其中
Figure SMS_184
是扰动后的噪音梯度,
Figure SMS_185
是LCES本地训练得到的真实梯度。
对于LCES报告的噪音梯度,GS会聚合求梯度均值,然后用于更新全局模型,并与所有LCES共享最新的GS模型。
我们假设每个LCES在本地训练固定次数之后,上传最终噪音梯度给GS。
通过上述定义,我们可以构造出满足
Figure SMS_186
的噪音梯度。
对于LCES模型训练得到的原始梯度
Figure SMS_187
,首先需要限制
Figure SMS_188
的敏感度,计算公式为:
Figure SMS_189
(13),
其中
Figure SMS_190
是LCES本地训练得到的梯度,
Figure SMS_191
是敏感度,也就是说任意两个梯度
Figure SMS_192
满足:
Figure SMS_193
(14),
基于剪切后的梯度
Figure SMS_194
和敏感度
Figure SMS_195
,每个LCES可以本地生成Laplace噪音
Figure SMS_196
Figure SMS_197
满足:
Figure SMS_198
(15),
其中,
Figure SMS_199
是噪音
Figure SMS_200
的第
Figure SMS_201
个维度。
实施例3
本实施例提出基于FRL的CES调度算法,见算法一:
首先初始化相关输入参数,包括社区各时刻能源需求、ToU电价、CES相关参数,GS强化学习模型
Figure SMS_202
,维数
Figure SMS_203
,并广播给所有LCES,裁剪参数
Figure SMS_204
,本地隐私要求
Figure SMS_205
,然后开始循环,最大循环次数为最大通信次数,对于所有的LCES开始计算,从episode=0到LCES最大更新次数迭代,
依据策略
Figure SMS_206
运行96个时间戳,并记载策略轨迹
Figure SMS_207
,计算每个状态的优势函数
Figure SMS_208
, 计算损失函数:
Figure SMS_209
然后使用Adamw优化器更新LCES强化学习模型,既可计算模型梯度
Figure SMS_210
,以及扰动梯度
Figure SMS_211
,并将扰动后的噪音梯度
Figure SMS_212
报告给GS, GS可以缓存接收到的所有噪音梯度,如果GS缓存已满,便计算噪音梯度的均值
Figure SMS_213
,并更新全局模型
Figure SMS_214
,最后清空缓存,输出结果,完成算法。
算法以分布式运行,LCES和GS相互迭代的交互梯度和模型。LCES代理在连续的状态和动作空间中调度,我们将PPO算法应用到LCES代理的学习过程中。
PPO算法会以固定策略运行多个episode,将运行轨迹保留,本申请中我们设定为96个时间戳。然后根据已有轨迹,增加那些平均奖励大的动作的概率,减少平均奖励小的动作的概率。
本系统中LCES代理获得的奖励,是当整个episode结束时,节省的金额与相关系数的乘积。
LCES代理的策略模型输入每个时刻的状态,输出连续动作的均值和方差,再从均值与方差确定的分布当中采样动作。
这样让LCES代理可以尝试到动作空间的所有可能,避免陷入极值区域。
完成本地训练后,LCES根据算法二:
要计算
Figure SMS_215
噪音梯度
Figure SMS_218
,首先是输入相应的参数,包括原始梯度
Figure SMS_220
,维数
Figure SMS_221
,隐私要求
Figure SMS_222
,裁剪范围
Figure SMS_223
,根据公式(13),可以根据原始梯度
Figure SMS_224
计算出剪切梯度
Figure SMS_216
,后续根据同公式(15)进行多次的循环计算,直到循环次数达到d,然后生成噪音
Figure SMS_217
,最后返回结果
Figure SMS_219
,完成算法。
构造满足LDP定义的噪音梯度,并报告给全局GS,全局GS将接收到的扰动梯度缓存,当到达一定数量后使用这些梯度更新GS模型,并将更新的模型广播给所有LCES,本申请中,我们使用FedSGD聚合算法以及ADAM优化算法构建模型。
本申请所述基于FRL框架的算法一中,所有LCES均满足
Figure SMS_225
在FRL的框架中,每个LCES代理报告一个满足
Figure SMS_226
的噪音梯度,GS仅利用LCES的噪音梯度更新
Figure SMS_227
,这一步独立于LCES的任何隐私信息;
且更新模型不会违反
Figure SMS_228
,进入下一轮后,GS将更新的
Figure SMS_229
广播给所有LCES,LCES在本地环境训练,本地学习过程独立于所有其他代理,因此也不会违反其他代理的
Figure SMS_230
定义。
拉普拉斯噪音扰动的梯度满足
Figure SMS_231
定义。
假设
Figure SMS_232
是原始函数,没有加噪音,不符合LDP的定义,
Figure SMS_233
是符合
Figure SMS_234
定义的函数,即
Figure SMS_235
Figure SMS_236
是两个不同的梯度。敏感度定义为见公式(10),隐私预算为
Figure SMS_237
,可以得到:
Figure SMS_238
(16),
即随机函数输出指定值的概率,等于相关噪音的概率分布,我们令噪音
Figure SMS_239
服从
Figure SMS_240
,则可以得到满足严格差分隐私定义的函数
Figure SMS_241
,便得到如下公式:
Figure SMS_242
(17),
此时若函数
Figure SMS_243
的输出时一个标量,则有:
Figure SMS_244
Figure SMS_245
(18),
上述公式表明,梯度
Figure SMS_246
经过噪音函数得到指定结果
Figure SMS_247
的概率,同理得到梯度
Figure SMS_248
Figure SMS_249
的概率公式:
Figure SMS_250
二者相比,可以得到:
Figure SMS_251
因此,扰动的梯度满足
Figure SMS_252
定义。
实施例4
本实施例中,使用真实数据验证相关工作。考虑三个不同CES规格的社区,如表1所示:
Figure SMS_253
表1,
各社区的能源需求与ToU电价如图4所示,我们假设LCES训练50个迭代后与GS发生一轮通信,实验使用Python3.9和Pytorch1.12.1在Ubuntu系统上运行。
首先评估了所提出方法的调度效果。展示3个社区的CES调度服务情况如图5所示。
每个社区都可以在电价高峰期利用CES设备放电,实现能源套利,从图5中可以看到,在电价低峰期,社区主要的能源需求都来自电网。
由于初始CES没有存储能量,因此在每日0点开始直到高峰期之前,CES都在充电储备能源。
当时间来到电价高峰期,社区的主要能源消耗由CES提供,若某些时刻CES无法完全满足社区家庭需求时,社区家庭会从电网补充差额需求。
如图6所示,可以观察到,当CES容量较小时,随着CES容量增加,社区成本节约金额有显著的上升,但CES容量超过某些上限之后带来的成本节约金额并不可观,甚至不会再有上升,对于社区二来说,CES最大容量阈值位于70-80kWh,因此,我们的方法也可以结合用户历史数据来预测社区最优CES容量。
在图7中,我们比较了四种不同调度方法的成本节约金额,分别是本申请提出的强化学习、联邦强化学习、结合差分隐私的方法以及静态分配策略。
在静态分配策略中,社区共享储能容量将平分给不同的社区用户,用户独立操作自己的储能容量。
当不考虑隐私问题的时候,强化学习与联邦强化的表现都优于静态分配的策略。
而且动态的电池分配策略始终优于静态策略,这是因为静态分配无法重复利用CES的容量,无法达到最优CES调度解。
从图8可知,联邦强化不仅会提高模型表现能力,也会加快模型收敛速度。
这是因为联邦强化中的代理可以从更多的环境当中学习知识。
当考虑隐私时,CES代理会牺牲一些性能来换取隐私保护,这表明了隐私与效用之间的权衡。
同时我们也可以看到,即使考虑了隐私保护,所提出的方法表现依然优于静态的分配策略。
图9展示了不同隐私保护力度下的模型收敛速度对比,可以看到,
Figure SMS_254
代表的实线不论是收敛速度还是成本节约金额都优于
Figure SMS_255
的虚线。
这是因为
Figure SMS_256
越大,增加的噪音就越小,对梯度的隐私保护力度也越小,但是可以获得更优秀的模型表现和更快的收敛速度。
随着模型的训练,二者最终收敛处的差距并不是很大,这也说明了即使在较为严格的隐私保护要求下,模型也能学习到正确的知识。
这是因为往模型添加噪音也是一种防止模型过拟合的方法,可以提高模型的推理能力。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本申请中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于FRL的CES日前调度方法,其特征在于:包括多个社区储能系统LCES和单个全局服务器GS;
所述FRL的训练过程包括以下步骤:
LCES训练和更新局部模型,并对更新梯度使用噪音扰动;
GS对多个LCES的噪音梯度求和,更新GS的全局模型,广播最新GS模型给LCES;
局部模型和全局模型迭代更新,满足停止要求,完成训练。
2.根据权利要求1所述的一种基于FRL的CES日前调度方法,其特征在于:所述FRL以分层分布式架构运行,GS通过聚合本地模型梯度来更新全局模型,LCES使用本地数据训练DRL代理,并对GS报告模型梯度,GS和LCES之间仅交换模型梯度或模型参数实现CES代理的计算。
3.根据权利要求2所述的一种基于FRL的CES日前调度方法,其特征在于:所述CES构建社区总能源消耗最小化的目标优化模型包括:
目标函数:社区总能源消耗最小化定义为:
Figure QLYQS_1
,
式中,包括
Figure QLYQS_2
时刻CES充电量
Figure QLYQS_3
的成本,以及
Figure QLYQS_4
时刻CES无法满足的部分需求
Figure QLYQS_5
的成本,CES服务费
Figure QLYQS_6
Figure QLYQS_7
表示CES单位充电量需要的服务费;
其中
Figure QLYQS_9
Figure QLYQS_10
时刻的ToU电价,
Figure QLYQS_11
Figure QLYQS_12
时刻CES充电量,
Figure QLYQS_13
Figure QLYQS_14
时刻CES输送给社区内家庭的放电量,
Figure QLYQS_15
Figure QLYQS_8
时刻社区内家庭总需求;
约束条件:
Figure QLYQS_16
,
约束
Figure QLYQS_17
:考虑CES充电效率比
Figure QLYQS_18
和放电效率比
Figure QLYQS_19
的情况下更新荷电状态,
Figure QLYQS_20
Figure QLYQS_21
时刻CES剩余容量,
Figure QLYQS_22
表示CES总容量;
约束Ⅱ:约束CES状态,设初始时间的SOE为0;
约束Ⅲ和约束Ⅳ:约束CES充电速率
Figure QLYQS_23
和放电速率
Figure QLYQS_24
在合理范围内,防止CES过度充放电;
约束Ⅴ:保证社区总需求的平衡。
4.根据权利要求3所述的一种基于FRL的CES日前调度方法,其特征在于:约束Ⅲ和约束Ⅳ中,通过下式约束参数合理范围:
Figure QLYQS_25
Figure QLYQS_26
是最大时间戳,以小时为间隔的日前调度,则
Figure QLYQS_27
5.根据权利要求4所述的一种基于FRL的CES日前调度方法,其特征在于:对于任意
Figure QLYQS_28
时刻,CES代理的状态空间定义为:
Figure QLYQS_29
式中,状态
Figure QLYQS_30
Figure QLYQS_31
时刻CES剩余容量所占总容量的比例,
Figure QLYQS_32
Figure QLYQS_33
表示
Figure QLYQS_34
时刻CES代理所处环境的状态,将储能的静态因素作为状态输入模型网络,动作空间
Figure QLYQS_35
包括CES在不同时刻的充电量和放电量系数,定义为:
Figure QLYQS_36
式中,
Figure QLYQS_38
表示CES在
Figure QLYQS_39
时刻从电网充电量系数,其值的范围在
Figure QLYQS_41
之间,与
Figure QLYQS_43
时刻从电网充电量
Figure QLYQS_45
的关系为
Figure QLYQS_47
Figure QLYQS_49
表示CES在
Figure QLYQS_37
时刻放给社区的放电量系数,与
Figure QLYQS_40
的关系为
Figure QLYQS_42
Figure QLYQS_44
表示
Figure QLYQS_46
时刻CES代理在环境
Figure QLYQS_48
下执行的动作;
奖励函数R表示CES代理在环境的探索获得的反馈,用于指导代理实现预定的目标,奖励函数包括代理执行正确动作的奖励,以及执行错误动作导致环境不满足CES设备基本约束的惩罚,定义为:
Figure QLYQS_50
,
约束
Figure QLYQS_51
中的
Figure QLYQS_52
表示当代理执行完24小时的CES调度后,整个系统节省的能源成本的金额,定义如下:
Figure QLYQS_53
,
Figure QLYQS_54
越大,调度节省金额越大,系统就给予代理奖励,
Figure QLYQS_55
是负数时,系统给予代理惩罚,
Figure QLYQS_56
均为系数,调整奖励和惩罚的力度。
6.根据权利要求5所述的一种基于FRL的CES日前调度方法,其特征在于:设每个LCES在本地训练固定次数之后,上传最终噪音梯度给GS,构造满足
Figure QLYQS_57
的噪音梯度,
Figure QLYQS_58
是隐私要求;
LCES模型训练得到的原始梯度
Figure QLYQS_59
,需要限制
Figure QLYQS_60
的敏感度,计算公式为:
Figure QLYQS_61
,
其中
Figure QLYQS_62
是LCES本地训练得到的梯度,
Figure QLYQS_63
是敏感度,也就是说任意两个梯度
Figure QLYQS_64
满足:
Figure QLYQS_65
基于剪切后的梯度
Figure QLYQS_66
和敏感度
Figure QLYQS_67
,每个LCES本地生成Laplace噪音
Figure QLYQS_68
Figure QLYQS_69
满足:
Figure QLYQS_70
,
其中,
Figure QLYQS_71
是噪音
Figure QLYQS_72
的第
Figure QLYQS_73
个维度。
7.根据权利要求6所述的一种基于FRL的CES日前调度方法,其特征在于:所述LCES和GS相互迭代的交互梯度和模型,LCES代理在连续的状态和动作空间中调度,将PPO算法应用到LCES代理的学习过程中,PPO算法以固定策略运行多个episode,将运行轨迹保留,LCES代理获得的奖励,是当整个episode结束时,节省的金额与相关系数的乘积。
8.根据权利要求7所述的一种基于FRL的CES日前调度方法,其特征在于:所述LCES代理的策略模型输入每个时刻的状态,输出连续动作的均值和方差,再从均值与方差确定的分布当中采样动作,LCES构造满足LDP定义的噪音梯度,并报告给全局GS,全局GS将接收到的扰动梯度缓存,当到达一定数量后使用这些梯度更新GS模型,并将更新的模型广播给所有LCES。
9.根据权利要求8所述的一种基于FRL的CES日前调度方法,其特征在于:所述FRL的框架中,每个LCES代理报告一个满足
Figure QLYQS_74
的噪音梯度,GS利用LCES的噪音梯度更新
Figure QLYQS_75
,独立于LCES的任何隐私信息,进入下一轮后,GS将更新的
Figure QLYQS_76
广播给所有LCES,LCES在本地环境训练。
10.根据权利要求1-9任一项所述的一种基于FRL的CES日前调度方法,其特征在于:设
Figure QLYQS_77
是原始函数,没有加噪音,不符合LDP的定义,
Figure QLYQS_78
是符合
Figure QLYQS_79
定义的函数,
Figure QLYQS_80
Figure QLYQS_81
是两个不同的梯度,敏感度定义为:
Figure QLYQS_82
,
式中,噪音
Figure QLYQS_83
服从
Figure QLYQS_84
,则得到满足严格差分隐私定义的函数
Figure QLYQS_85
CN202310191179.2A 2023-03-02 2023-03-02 一种基于frl的ces日前调度方法 Active CN115860789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310191179.2A CN115860789B (zh) 2023-03-02 2023-03-02 一种基于frl的ces日前调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310191179.2A CN115860789B (zh) 2023-03-02 2023-03-02 一种基于frl的ces日前调度方法

Publications (2)

Publication Number Publication Date
CN115860789A true CN115860789A (zh) 2023-03-28
CN115860789B CN115860789B (zh) 2023-05-30

Family

ID=85659704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310191179.2A Active CN115860789B (zh) 2023-03-02 2023-03-02 一种基于frl的ces日前调度方法

Country Status (1)

Country Link
CN (1) CN115860789B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端
CN112214788A (zh) * 2020-08-28 2021-01-12 国网江西省电力有限公司信息通信分公司 一种基于差分隐私的泛在电力物联网动态数据发布方法
US20210089910A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Reinforcement learning using meta-learned intrinsic rewards
CN112818394A (zh) * 2021-01-29 2021-05-18 西安交通大学 具有本地隐私保护的自适应异步联邦学习方法
CN113570155A (zh) * 2021-08-13 2021-10-29 常州工程职业技术学院 一种基于储能装置计及欺诈行为的多社区能源合作博弈管理模型
CN113591145A (zh) * 2021-07-28 2021-11-02 西安电子科技大学 基于差分隐私和量化的联邦学习全局模型训练方法
CN114330743A (zh) * 2021-12-24 2022-04-12 浙江大学 一种用于最小-最大化问题的跨设备联邦学习方法
CN115310121A (zh) * 2022-07-12 2022-11-08 华中农业大学 车联网中基于MePC-F模型的实时强化联邦学习数据隐私安全方法
WO2022257730A1 (zh) * 2021-06-11 2022-12-15 支付宝(杭州)信息技术有限公司 实现隐私保护的多方协同更新模型的方法、装置及系统
CN115511054A (zh) * 2022-09-27 2022-12-23 中国科学技术大学 一种面向非平衡数据的代价感知隐私保护联邦学习方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210089910A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Reinforcement learning using meta-learned intrinsic rewards
CN111611610A (zh) * 2020-04-12 2020-09-01 西安电子科技大学 联邦学习信息处理方法、系统、存储介质、程序、终端
CN112214788A (zh) * 2020-08-28 2021-01-12 国网江西省电力有限公司信息通信分公司 一种基于差分隐私的泛在电力物联网动态数据发布方法
CN112818394A (zh) * 2021-01-29 2021-05-18 西安交通大学 具有本地隐私保护的自适应异步联邦学习方法
WO2022257730A1 (zh) * 2021-06-11 2022-12-15 支付宝(杭州)信息技术有限公司 实现隐私保护的多方协同更新模型的方法、装置及系统
CN113591145A (zh) * 2021-07-28 2021-11-02 西安电子科技大学 基于差分隐私和量化的联邦学习全局模型训练方法
CN113570155A (zh) * 2021-08-13 2021-10-29 常州工程职业技术学院 一种基于储能装置计及欺诈行为的多社区能源合作博弈管理模型
CN114330743A (zh) * 2021-12-24 2022-04-12 浙江大学 一种用于最小-最大化问题的跨设备联邦学习方法
CN115310121A (zh) * 2022-07-12 2022-11-08 华中农业大学 车联网中基于MePC-F模型的实时强化联邦学习数据隐私安全方法
CN115511054A (zh) * 2022-09-27 2022-12-23 中国科学技术大学 一种面向非平衡数据的代价感知隐私保护联邦学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张伟伟;王博斌;叶正寅;: "跨音速极限环型颤振的高效数值分析方法", 力学学报 *
王燕舞;崔世常;肖江文;施阳;: "社区产消者能量分享研究综述", 控制与决策 *
董业;侯炜;陈小军;曾帅;: "基于秘密分享和梯度选择的高效安全联邦学习", 计算机研究与发展 *
陈明昊: ""基于纵向联邦强化学习的居民社区综合能源系统协同训练与优化管理方法"", 《中国电机工程学报》 *

Also Published As

Publication number Publication date
CN115860789B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Wang Multi-objective optimization based on decomposition for flexible job shop scheduling under time-of-use electricity prices
Ciupageanu et al. Real-time stochastic power management strategies in hybrid renewable energy systems: A review of key applications and perspectives
Huang et al. A novel hybrid deep neural network model for short‐term electricity price forecasting
Duan et al. A novel hybrid prediction model for aggregated loads of buildings by considering the electric vehicles
Raglend et al. Solution to profit based unit commitment problem using particle swarm optimization
Sun et al. Predictive-trend-aware composition of web services with time-varying quality-of-service
Liu et al. Optimal reserve management of electric vehicle aggregator: Discrete bilevel optimization model and exact algorithm
Liu et al. Worst-case conditional value-at-risk based bidding strategy for wind-hydro hybrid systems under probability distribution uncertainties
Latifi et al. A Bayesian real-time electric vehicle charging strategy for mitigating renewable energy fluctuations
Wu et al. A deadline-aware estimation of distribution algorithm for resource scheduling in fog computing systems
Gao et al. Deep reinforcement learning based task scheduling in mobile blockchain for IoT applications
Peng et al. Review on bidding strategies for renewable energy power producers participating in electricity spot markets
Konda et al. Impact of load profile on dynamic interactions between energy markets: a case study of power exchange and demand response exchange
de Mars et al. Reinforcement learning and A* search for the unit commitment problem
Wang et al. Multi-agent reinforcement learning based distributed renewable energy matching for datacenters
Chu et al. Optimal home energy management strategy: A reinforcement learning method with actor-critic using Kronecker-factored trust region
Gulotta et al. Short-term uncertainty in the dispatch of energy resources for VPP: A novel rolling horizon model based on stochastic programming
Yang et al. Snape: Reliable and low-cost computing with mixture of spot and on-demand vms
Dirin et al. Optimal offering strategy for wind-storage systems under correlated wind production
Bessa et al. Forecasting issues for managing a portfolio of electric vehicles under a smart grid paradigm
Kamhuber et al. An efficient hybrid multi-criteria optimization approach for rolling production smoothing of a European food manufacturer
Wang et al. Solving system-level synthesis problem by a multi-objective estimation of distribution algorithm
CN115860789A (zh) 一种基于frl的ces日前调度方法
Huang et al. An adapted firefly algorithm for product development project scheduling with fuzzy activity duration
Wang et al. Adaptive personalized federated reinforcement learning for multiple-ESS optimal market dispatch strategy with electric vehicles and photovoltaic power generations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant