CN116031923A - 基于分层强化学习的电动汽车充电场站协同调峰方法 - Google Patents

基于分层强化学习的电动汽车充电场站协同调峰方法 Download PDF

Info

Publication number
CN116031923A
CN116031923A CN202310163928.0A CN202310163928A CN116031923A CN 116031923 A CN116031923 A CN 116031923A CN 202310163928 A CN202310163928 A CN 202310163928A CN 116031923 A CN116031923 A CN 116031923A
Authority
CN
China
Prior art keywords
charging
time
station
state
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163928.0A
Other languages
English (en)
Inventor
唐昊
方道宏
李端超
王正风
王吉文
王海伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
State Grid Anhui Electric Power Co Ltd
Original Assignee
Hefei University of Technology
State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, State Grid Anhui Electric Power Co Ltd filed Critical Hefei University of Technology
Priority to CN202310163928.0A priority Critical patent/CN116031923A/zh
Publication of CN116031923A publication Critical patent/CN116031923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries

Landscapes

  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

本发明涉及电力系统技术领域,尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法,该方法包括以下步骤:S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式。S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统。S3、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数,采用TD3算法进行求解。

Description

基于分层强化学习的电动汽车充电场站协同调峰方法
技术领域
本发明涉及电力系统技术领域,尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法。
背景技术
近年来,在全球能源紧缺和环境恶化的背景下,电动汽车由于其节能、环保等优势在国内外得到了广泛推广。随着越来越多的电动汽车涌入,原有的充电站规模很有可能无法满足其充电需求,由此可能会出现严重的充电排队的现象,这不仅浪费驾驶人员单位时间产出率,而且严重时可能影响配电网电能质量。如何制定有效的电动汽车充电引导策略来缓解电网压力,是未来电动汽车大规模普及的基础和保障。
为适应新一代电力系统发展和安全稳定优质运行的需要,构建清洁低碳安全高效的能源体系,控制化石能源总量,着力提高利用效能,本发明在当新能源波动导致电网供需不平衡时,调度中心将启动削峰响应,引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应,在缓解电网压力的同时,额外获得响应收益。
目前,针对电动汽车充电场站协同调峰方法模型的求解方法主要有传统求解器求解和传统强化学习算法求解。传统基于数学模型的求解器求解方法和强化学习方法可以得到最优解,但环境较为复杂、任务较为困难时,会导致需要学习的参数以及所需的存储空间急速增长,上述方法难以取得理想的效果。分层强化学习将复杂问题分解成若干子问题,通过分而治之的方法,逐个解决子问题从而最终解决一个复杂问题。分层强化学习算法求解为解决此类问题提供了新思路。
Figure BDA0004095218240000021
该状态下的动作定义为
Figure BDA0004095218240000022
令状态动作到充电桩功率的映射关系记为
Figure BDA0004095218240000023
Figure BDA0004095218240000024
如下所示:
Figure BDA0004095218240000025
Figure BDA0004095218240000026
Figure BDA0004095218240000027
其中sgn(z,j)为0/1变量,表示在决策时刻
Figure BDA0004095218240000028
时充电桩csj是否有电动充电,若有sgn(z,j)=1;反之,sgn(z,j)=0,
假设在决策时刻
Figure BDA0004095218240000029
上层智能体处于状态slow(z)采取动作alow(z)的单步转移奖励记为rlow(z),如下所示:
Figure BDA00040952182400000210
考虑初始状态随机,则下层智能体的优化目标函数为:
Figure BDA00040952182400000211
优化策略υ*为最大化
Figure BDA00040952182400000212
所得的控制策略,即
Figure BDA00040952182400000213
下层智能体采用TD3算法进行求解。
本技术方案进一步的优化,所述步骤S4具体包括以下步骤,
S41、将充电服务价格空间
Figure BDA00040952182400000214
用常量εpr离散为2Nup+1个等级,其中
Figure BDA00040952182400000215
则第k个决策时刻的动作aup(k)∈{-Nup,-Nup+1,…0,,…,Nup}对应的充电服务价格为
Figure BDA00040952182400000216
上层智能体在决策时刻
Figure BDA00040952182400000217
的决策状态为
Figure BDA00040952182400000218
其中
Figure BDA00040952182400000219
表示
Figure BDA00040952182400000220
内的充电场站基线,
Figure BDA00040952182400000221
W=Δtou/δ;
Figure BDA00040952182400000222
表示
Figure BDA0004095218240000031
内削峰功率总量;PRk,οk,
Figure BDA0004095218240000032
分别表示在
Figure BDA0004095218240000033
时电网分时电价、充电桩占用比及等待队列长度;
S42、在决策时刻
Figure BDA0004095218240000034
上层智能体处于状态sup(k)采取动作aup(k)后,在下一时刻
Figure BDA0004095218240000035
智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(Sup(k),aup(k),sup(k′)),如下所示:
Figure BDA0004095218240000036
Figure BDA0004095218240000037
其中
Figure BDA0004095218240000038
为单位时间内下层满意度代价,r单位时间内经济性,其中若
Figure BDA0004095218240000039
时段内没有电网削峰指令,γ(t),
Figure BDA00040952182400000310
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
Figure BDA00040952182400000311
建立上层智能体的优化目标函数为:
Figure BDA00040952182400000312
优化策略π*为最大化
Figure BDA00040952182400000313
所得的控制策略,即
Figure BDA00040952182400000314
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解;
S45、令状态动作到充电桩功率的映射关系记为
Figure BDA00040952182400000315
Figure BDA00040952182400000316
如下所示:
Figure BDA00040952182400000317
Figure BDA00040952182400000318
Figure BDA00040952182400000319
其中
Figure BDA0004095218240000041
为中间变量,下层智能体在决策时刻
Figure BDA0004095218240000042
的决策状态为
Figure BDA0004095218240000043
该状态下的动作定义为
Figure BDA0004095218240000044
Figure BDA0004095218240000045
sgn(z,j)为0/1变量,表示在决策时刻
Figure BDA0004095218240000046
时充电桩csj是否有电动充电,若有sgn(z,j)=1;反之,sgn(z,j)=0;
S46、在决策时刻
Figure BDA0004095218240000047
下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻
Figure BDA0004095218240000048
智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
Figure BDA0004095218240000049
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
Figure BDA00040952182400000410
考虑初始状态随机,设下层智能体的优化目标函数为:
Figure BDA00040952182400000411
优化策略υ*为最大化
Figure BDA00040952182400000412
所得的控制策略,即
Figure BDA00040952182400000413
S48、使用TD3算法对下层智能体进行求解。
区别于现有技术,上述技术方案有如下有益效果:
基于分层强化学习的电动汽车充电场站协同调峰方法能够有效解决庞大状态空间和行为空间组合以及奖励稀疏的问题,以此加快计算的速度,获得更优的行为策略。利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
附图说明
图1为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。本发明优选一实施例一种基于分层强化学习的电动汽车充电场站协同调峰方法,该方法包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态。根据服务电价制定单元及充电功率控制单元制定系统运行模式。
制定系统运行模式包括以下步骤:
S11、确定直流快充桩数量为J个,充电等待车位数量为L个。
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ。在t时刻,充电桩CSj的状态记为
Figure BDA0004095218240000051
其中,mj,
Figure BDA0004095218240000052
分别表示CSj所接电动汽车的种类,电池最大容量以及额定充电功率。
Figure BDA0004095218240000053
pj(t)分别表示当前电动汽车的电池的荷电状态(State of Charge,简称SOC)以及充电功率。若CSj空闲,则mj,
Figure BDA0004095218240000054
pj(t)=0。进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)}。
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL。在t时刻,充电等待车位Ql状态记为ql={ml,hll}
其中ml,hll分别表示Ql上停留电动汽车的种类、荷电状态SoC以及到达时间。
S13、若Ql无电动汽车等待,则ml,hll=0。当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
Figure BDA0004095218240000061
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车(Electric Vehicle,简称EV)接入CSj开始充电服务,如下所示:
Figure BDA0004095218240000062
ql=ql+1,l∈[1,lrear-1]
Figure BDA0004095218240000063
Figure BDA0004095218240000064
其中p0表示EV接入充电桩的初始充电功率,为了保证电动汽车电池寿命,其值为一个较小常量。
本发明考虑实际系统,将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M}。M为电动车的种类数量。将电动汽车到达场站的时间序列记为
Figure BDA0004095218240000065
Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间。当第k辆EV到达场站时,将该触发事件记为e(τk)={mek),hek),τk},mek),hek)分别表示到达电动汽车的种类和电池荷电状态(SoC)。
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
Figure BDA0004095218240000071
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统。
建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令
Figure BDA0004095218240000072
为第k个分时电价PRt下发的时刻,则记分时电价序列为
Figure BDA0004095218240000073
其中,PRk∈ΦPR,令
Figure BDA0004095218240000074
S22、在第k个电价周期下发时刻
Figure BDA0004095218240000075
SPM根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定
Figure BDA0004095218240000076
内的充电服务电价
Figure BDA0004095218240000077
为了方便表示,将服务电价简记为
Figure BDA0004095218240000078
Figure BDA0004095218240000079
Φpr为充电场站服务价格调节区间。
S23、当服务电价制定单元(Service Price Maker,简称SPM)在决策时刻
Figure BDA00040952182400000710
发布
Figure BDA00040952182400000711
内的服务电价计划
Figure BDA00040952182400000712
后,获得该时段电动汽车的到达率
Figure BDA00040952182400000713
S24、当电网无调峰需求时,
Figure BDA00040952182400000714
Tps为电网调峰时段的集合。充电功率控制单元(Charging Power Controller,简称CPC)将各个充电功率调整为电动汽车的额定充电功率充电,
Figure BDA00040952182400000715
其中令第d个调度时刻
Figure BDA00040952182400000716
下发的削峰指令记为
Figure BDA00040952182400000717
一天的决策总数为Z=T/δ。T为一天总时长,δ为调度指令下发周期。在CPC的z个决策时刻
Figure BDA00040952182400000718
Figure BDA00040952182400000719
CPC下发充电功率控制指令为
Figure BDA00040952182400000720
简记为
Figure BDA00040952182400000721
S25、当电网有调峰需求时,
Figure BDA00040952182400000722
CPC根据当前充电桩状态
Figure BDA00040952182400000723
削峰指令
Figure BDA00040952182400000724
充电服务价格
Figure BDA00040952182400000725
和电网分时电价
Figure BDA00040952182400000726
下发充电功率控制指令
发明内容
针对现有技术的不足,本发明提供了一种基于分层强化学习的电动汽车充电场站协同调峰方法,能够根据电网分时电价等广域信息发布下一时段充电服务价格,根据上级调度机构的调峰需求及当前断面的场站状态控制快充桩的充电功率。利用协同调峰系统,引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应,在缓解电网压力的同时,额外获得响应收益。利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
为解决上述技术问题,本发明提供了如下技术方案:
一种基于分层强化学习的电动汽车充电场站协同调峰方法,包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式;
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统;
S3、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型;
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解,建立下层智能体的优化目标函数,采用TD3算法进行求解。
本技术方案进一步的优化,所述步骤S1中,制定系统运行模式包括以下步骤,
S11、确定直流快充桩数量为J个,充电等待车位数量为L个;
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ,在t时刻,充电桩CSj的状态记为
Figure BDA0004095218240000091
其中,mj,
Figure BDA0004095218240000092
分别表示CSj所接电动汽车的种类,电池最大容量以及额定充电功率,
Figure BDA0004095218240000093
pj(t)分别表示当前电动汽车的荷电状态以及充电功率,若CSj空闲,则mj,
Figure BDA0004095218240000094
pj(t)=0,进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)};
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL,在t时刻,充电等待车位Ql状态记为ql={ml,hll},其中ml,hll分别表示Ql上停留电动汽车的种类、荷电状态以及到达时间;
S13、若Ql无电动汽车等待,则ml,hll=0,当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
Figure BDA0004095218240000095
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车接入CSj开始充电服务,如下所示:
Figure BDA0004095218240000096
ql=ql+1,l∈[1,lrear-1]
Figure BDA0004095218240000097
Figure BDA0004095218240000098
其中p0表示电动汽车接入充电桩的初始充电功率,
将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M},将电动汽车到达场站的时间序列记为
Figure BDA0004095218240000101
Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间,当第k辆电动汽车到达场站时,将该触发事件记为e(τk)={mek),hek),τk},mek),hek)分别表示到达电动汽车的种类和电池荷电状态,
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
qlrear=e(τm)。
本技术方案进一步的优化,所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令
Figure BDA0004095218240000102
为第k个分时电价PRt下发的时刻,则记分时电价序列为
Figure BDA0004095218240000103
其中,PRk∈ΦPR,令
Figure BDA0004095218240000104
S22、在第k个电价周期下发时刻
Figure BDA0004095218240000105
服务电价制定单元根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定
Figure BDA0004095218240000106
内的充电服务电价
Figure BDA0004095218240000107
为了方便表示,将服务电价简记为
Figure BDA0004095218240000108
Figure BDA0004095218240000109
Φpr为充电场站服务价格调节区间;
S23、当服务电价制定单元在决策时刻
Figure BDA00040952182400001010
发布
Figure BDA00040952182400001011
内的服务电价计划
Figure BDA00040952182400001012
后,获得该时段电动汽车的到达率
Figure BDA00040952182400001013
S24、当电网无调峰需求时,
Figure BDA00040952182400001014
Tps为电网调峰时段的集合,CPC将各个充电功率调整为电动汽车的额定充电功率充电,
Figure BDA0004095218240000111
其中令第d个调度时刻
Figure BDA0004095218240000112
下发的削峰指令记为
Figure BDA0004095218240000113
一天的决策总数为Z=T/δ,T为一天总时长,δ为调度指令下发周期,在CPC的z个决策时刻
Figure BDA0004095218240000114
Figure BDA0004095218240000115
充电功率控制单元下发充电功率控制指令为
Figure BDA0004095218240000116
简记为
Figure BDA0004095218240000117
S25、当电网有调峰需求时,
Figure BDA0004095218240000118
充电功率控制单元根据当前充电桩状态
Figure BDA0004095218240000119
削峰指令
Figure BDA00040952182400001110
充电服务价格
Figure BDA00040952182400001111
和电网分时电价
Figure BDA00040952182400001112
下发充电功率控制指令
Figure BDA00040952182400001113
如下所示:
Figure BDA00040952182400001114
Figure BDA00040952182400001115
为J维的向量,向量各个数值为充电桩的充电调整功率,
Figure BDA00040952182400001116
为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c,
Figure BDA00040952182400001117
各个充电桩充电功率变化如下:
Figure BDA00040952182400001118
S26、充电场站将在决策时段
Figure BDA00040952182400001119
内,CPC以历史运行曲线为基准削减
Figure BDA00040952182400001120
的用电功率,同时调度中心会根据场站的实际响应情况对场站的削峰行为进行奖惩,将削峰时段内任意时刻t下的单位时间削峰奖惩记为γ(t)
Figure BDA00040952182400001121
Figure BDA00040952182400001122
其中,Pt bl为充电场站基线,kcop为惩罚系数,
Figure BDA00040952182400001123
为削峰量,kint为奖励系数,εt为实际削减量,ΦJ为充电桩的集合,pj(t)为第j个充电桩t时刻的充电功率。
本技术方案进一步的优化,所述步骤S3中,建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型,上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷,下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构;
S32、在第k个分时电价周期内的任意时刻t,令充电桩状态为C(t),充电服务电价为
Figure BDA0004095218240000121
将场站充电服务单位时间收益记为
Figure BDA0004095218240000122
如下所示:
Figure BDA0004095218240000123
Figure BDA0004095218240000124
其中,
Figure BDA0004095218240000125
为充电桩csj所连电动汽车刚抵达场站时的充电服务价格,若电动汽车在等待过程中充电服务费用上涨,出于对用户的补偿,该电动汽车的充电服务费用不变;
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,对于该部分用户给予一定的补偿,记为ccom,则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
Figure BDA0004095218240000126
Figure BDA0004095218240000131
Figure BDA0004095218240000132
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬,
Figure BDA0004095218240000133
表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数
Figure BDA0004095218240000134
决定,如下:
Figure BDA0004095218240000135
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益,于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
Figure BDA0004095218240000136
Figure BDA0004095218240000137
Figure BDA0004095218240000138
其中
Figure BDA0004095218240000139
为充电服务价格空间Φpr内的原始充电服务电价,DSPM为固定代价系数,上层智能体在考虑服务价格满意度情况下,实现场站一天的经济效益最优,其优化目标记为goalspm,如下所示
Figure BDA00040952182400001310
其中
Figure BDA00040952182400001311
为子目标权重系数;
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,
Figure BDA00040952182400001312
导致电动汽车用户充电时间延长,假设在下层智能体的削峰时段内的任意决策时刻
Figure BDA0004095218240000141
其充电控制指令为
Figure BDA0004095218240000142
则在决策时段内任意时刻t下,
Figure BDA0004095218240000143
单位时间内下层满意度代价为
Figure BDA0004095218240000144
如下所示:
Figure BDA0004095218240000145
Figure BDA0004095218240000146
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc
Figure BDA0004095218240000147
其中
Figure BDA0004095218240000148
为子目标权重系数。
本技术方案进一步的优化,所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解:
上层智能体的目标是在有限时间范围内最大化累积奖励,由于车辆流量的随机性,它自然是一个随机变量,当从初始状态sup(0)开始时经过K步转移累计的总收益为:
Figure BDA0004095218240000149
如果考虑初始状态随机,则上层智能体的优化目标函数为:
Figure BDA00040952182400001410
优化策略π*为最大化
Figure BDA00040952182400001411
所得的控制策略,即
Figure BDA00040952182400001412
上层智能体采用Dueling DQN算法进行求解;
下层智能体在决策时刻
Figure BDA00040952182400001413
的决策状态为
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc
Figure BDA0004095218240000151
其中
Figure BDA0004095218240000152
为子目标权重系数。
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数,采用TD3算法进行求解。
制定基于分层强化学习的充电场站协同调峰优化策略包括以下步骤:
S41、将充电服务价格空间
Figure BDA0004095218240000153
用常量εpr离散为2Nup+1个等级,其中
Figure BDA0004095218240000154
则第k个决策时刻的动作aup(k)∈{-Nup,-Nup+1,…0,…,Nup}对应的充电服务价格为
Figure BDA0004095218240000155
上层智能体在决策时刻
Figure BDA0004095218240000156
的决策状态为
Figure BDA0004095218240000157
其中
Figure BDA0004095218240000158
表示
Figure BDA0004095218240000159
内的充电场站基线,
Figure BDA00040952182400001510
W=Δtou/δ;
Figure BDA00040952182400001511
表示
Figure BDA00040952182400001512
内削峰功率总量;PRk,οk,
Figure BDA00040952182400001513
分别表示在
Figure BDA00040952182400001514
时电网分时电价、充电桩占用比及等待队列长度。
S42、在决策时刻
Figure BDA00040952182400001515
上层智能体处于状态sup(k)采取动作aup(k)后,在下一时刻
Figure BDA00040952182400001516
智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(sup(k),aup(k),sup(k′)),如下所示:
Figure BDA00040952182400001517
Figure BDA00040952182400001518
其中
Figure BDA00040952182400001519
为单位时间内下层满意度代价,r单位时间内经济性若
Figure BDA00040952182400001520
时段内没有电网削峰指令,γ(t),
Figure BDA00040952182400001521
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
Figure BDA0004095218240000161
建立上层智能体的优化目标函数为:
Figure BDA0004095218240000162
优化策略π*为最大化
Figure BDA0004095218240000163
所得的控制策略,即
Figure BDA0004095218240000164
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解。
S45、令状态动作到充电桩功率的映射关系记为
Figure BDA0004095218240000165
Figure BDA0004095218240000166
如下所示:
Figure BDA0004095218240000167
Figure BDA0004095218240000168
Figure BDA0004095218240000169
为中间变量
Figure BDA00040952182400001610
其中下层智能体在决策时刻
Figure BDA00040952182400001611
的决策状态为
Figure BDA00040952182400001612
该状态下的动作定义为
Figure BDA00040952182400001613
Figure BDA00040952182400001614
为下层智能体在决策时刻
Figure BDA00040952182400001615
的基线功率,sgn(z,j)为0/1变量,表示在决策时刻
Figure BDA00040952182400001616
时充电桩csj是否有电动充电。若有sgn(z,j)=1;反之,sgn(z,j)=0。
S46、在决策时刻
Figure BDA00040952182400001617
下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻
Figure BDA00040952182400001618
智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
Figure BDA00040952182400001619
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
Figure BDA0004095218240000171
考虑初始状态随机,设下层智能体的优化目标函数为:
Figure BDA0004095218240000172
优化策略υ*为最大化
Figure BDA0004095218240000173
所得的控制策略,即
Figure BDA0004095218240000174
S48、使用TD3算法(Twin Delayed Deep Deterministic policy gradientalgorithm)对下层智能体进行求解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Figure BDA0004095218240000181
如下所示:
Figure BDA0004095218240000182
Figure BDA0004095218240000183
为J维的向量,向量各个数值为充电桩的充电调整功率,
Figure BDA0004095218240000184
为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c。
Figure BDA0004095218240000185
各个充电桩充电功率变化如下:
Figure BDA0004095218240000186
S26、充电场站将在决策时段
Figure BDA0004095218240000187
内,CPC以历史运行曲线为基准削减
Figure BDA0004095218240000188
的用电功率。同时调度中心会根据场站的实际响应情况对场站的削峰行为进行奖惩,将削峰时段内任意时刻t下的单位时间削峰奖惩记为γ(t)
Figure BDA0004095218240000189
Figure BDA00040952182400001810
其中,Pt bl为充电场站基线,一般由充电场站典型运行日历史运行数据统计获得。kcop为惩罚系数,
Figure BDA00040952182400001811
为削峰量,kint为奖励系数,εt为实际削减量,ΦJ为充电桩的集合,pj(t)为第j个充电桩t时刻的充电功率。
S3、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。
建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷。下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构。
S32、在第k个分时电价周期内的任意时刻t,令充电桩状态为C(t),充电服务电价为
Figure BDA0004095218240000191
将场站充电服务单位时间收益记为
Figure BDA0004095218240000192
如下所示:
Figure BDA0004095218240000193
Figure BDA0004095218240000194
其中,
Figure BDA0004095218240000195
为充电桩csj所连电动汽车刚抵达场站时的充电服务价格,若电动汽车在等待过程中充电服务费用上涨,出于对用户的补偿,该电动汽车的充电服务费用不变。
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,我们对于该部分用户给予一定的补偿,记为ccom。则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
Figure BDA0004095218240000196
Figure BDA0004095218240000197
Figure BDA0004095218240000198
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬。
Figure BDA0004095218240000199
表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数
Figure BDA00040952182400001910
决定,如下:
Figure BDA0004095218240000201
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益。于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
Figure BDA0004095218240000202
Figure BDA0004095218240000203
Figure BDA0004095218240000204
其中
Figure BDA0004095218240000205
为充电服务价格空间Φpr内的原始充电服务电价,DSPM为固定代价系数。上层智能体在考虑服务价格满意度情况下,实现场站一天的经济效益最优,其优化目标记为goalspm,如下所示
Figure BDA0004095218240000206
其中
Figure BDA0004095218240000207
为子目标权重系数。
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,
Figure BDA0004095218240000208
导致电动汽车用户充电时间延长。因此,设计基于相对延长充电时间的用户满意度指标。假设在下层智能体的削峰时段内的任意决策时刻
Figure BDA0004095218240000209
其充电控制指令为
Figure BDA00040952182400002010
则在决策时段内任意时刻t下,
Figure BDA00040952182400002011
单位时间内下层满意度代价为
Figure BDA00040952182400002012
如下所示:
Figure BDA00040952182400002013
Figure BDA00040952182400002014

Claims (6)

1.一种基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于,包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式;
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统;
S3、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型;
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解,建立下层智能体的优化目标函数,采用TD3算法进行求解。
2.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S1中,制定系统运行模式包括以下步骤,
S11、确定直流快充桩数量为J个,充电等待车位数量为L个;
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ,在t时刻,充电桩CSj的状态记为
Figure FDA0004095218230000011
其中,mj,
Figure FDA0004095218230000012
分别表示CSj所接电动汽车的种类,电池最大容量以及额定充电功率,
Figure FDA0004095218230000013
pj(t)分别表示当前电动汽车的荷电状态以及充电功率,若CSj空闲,则mj,
Figure FDA0004095218230000014
pj(t)=0,进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)};
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL,在t时刻,充电等待车位Ql状态记为ql={ml,hll},其中ml,hll分别表示Ql上停留电动汽车的种类、荷电状态以及到达时间;
S13、若Ql无电动汽车等待,则ml,hll=0,当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
Figure FDA0004095218230000021
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车接入CSj开始充电服务,如下所示:
Figure FDA0004095218230000022
ql=ql+1,l∈[1,lrear-1]
Figure FDA0004095218230000025
Figure FDA0004095218230000023
其中p0表示电动汽车接入充电桩的初始充电功率,
将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M},M为电动车的种类数量,将电动汽车到达场站的时间序列记为
Figure FDA0004095218230000024
Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间,当第k辆电动汽车到达场站时,将该触发事件记为e(τk)={mek),hek),τk},mek),hek)分别表示到达电动汽车的种类和电池荷电状态,
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
Figure FDA0004095218230000026
3.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令
Figure FDA0004095218230000031
为第k个分时电价PRt下发的时刻,则记分时电价序列为
Figure FDA0004095218230000032
其中,PRk∈ΦPR,令
Figure FDA0004095218230000033
S22、在第k个电价周期下发时刻
Figure FDA0004095218230000034
服务电价制定单元根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定
Figure FDA0004095218230000035
内的充电服务电价
Figure FDA00040952182300000324
为了方便表示,将服务电价简记为
Figure FDA0004095218230000036
Φpr为充电场站服务价格调节区间;
S23、当服务电价制定单元在决策时刻
Figure FDA0004095218230000037
发布
Figure FDA0004095218230000038
内的服务电价计划
Figure FDA00040952182300000325
后,获得该时段电动汽车的到达率
Figure FDA0004095218230000039
S24、当电网无调峰需求时,
Figure FDA00040952182300000310
Tps为电网调峰时段的集合,CPC将各个充电功率调整为电动汽车的额定充电功率充电,
Figure FDA00040952182300000311
其中令第d个调度时刻
Figure FDA00040952182300000312
下发的削峰指令记为
Figure FDA00040952182300000313
一天的决策总数为Z=T/δ,T为一天总时长,δ为调度指令下发周期,在CPC的z个决策时刻
Figure FDA00040952182300000314
充电功率控制单元下发充电功率控制指令为
Figure FDA00040952182300000315
简记为
Figure FDA00040952182300000316
S25、当电网有调峰需求时,
Figure FDA00040952182300000317
充电功率控制单元根据当前充电桩状态
Figure FDA00040952182300000318
削峰指令
Figure FDA00040952182300000319
充电服务价格
Figure FDA00040952182300000320
和电网分时电价
Figure FDA00040952182300000321
下发充电功率控制指令
Figure FDA00040952182300000322
如下所示:
Figure FDA00040952182300000323
Figure FDA0004095218230000041
为J维的向量,向量各个数值为充电桩的充电调整功率,
Figure FDA0004095218230000042
为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c,
Figure FDA0004095218230000043
各个充电桩充电功率变化如下:
Figure FDA0004095218230000044
S26、充电场站将在决策时段
Figure FDA0004095218230000045
内,CPC以历史运行曲线为基准削减
Figure FDA0004095218230000046
的用电功率,同时调度中心会根据场站的实际响应情况对场站的削峰行为进行奖惩,将削峰时段内任意时刻t下的单位时间削峰奖惩记为γ(t)
Figure FDA0004095218230000047
Figure FDA0004095218230000048
其中,Pt bl为充电场站基线,kcop为惩罚系数,
Figure FDA0004095218230000049
为削峰量,kint为奖励系数,εt为实际削减量,ΦJ为充电桩的集合,pj(t)为第j个充电桩t时刻的充电功率。
4.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S3中,建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型,上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷,下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构;
S32、在第k个分时电价周期内的任意时刻t,令充电桩状态为C(t),充电服务电价为
Figure FDA0004095218230000051
将场站充电服务单位时间收益记为
Figure FDA0004095218230000052
如下所示:
Figure FDA0004095218230000053
Figure FDA0004095218230000054
其中,
Figure FDA0004095218230000055
为充电桩csj所连电动汽车刚抵达场站时的充电服务价格,若电动汽车在等待过程中充电服务费用上涨,出于对用户的补偿,该电动汽车的充电服务费用不变;
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,对于该部分用户给予一定的补偿,记为ccom,则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
Figure FDA0004095218230000056
Figure FDA0004095218230000057
Figure FDA0004095218230000058
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬,
Figure FDA0004095218230000059
表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数
Figure FDA00040952182300000510
决定,如下:
Figure FDA00040952182300000511
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益,于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
Figure FDA0004095218230000061
Figure FDA0004095218230000062
Figure FDA0004095218230000063
其中
Figure FDA0004095218230000064
为充电服务价格空间Φpr内的原始充电服务电价,DSPM为固定代价系数,上层智能体在考虑服务价格满意度情况下,实现场站一天的经济效益最优,其优化目标记为goalspm,如下所示
Figure FDA0004095218230000065
其中
Figure FDA0004095218230000066
为子目标权重系数;
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,
Figure FDA0004095218230000067
导致电动汽车用户充电时间延长,假设在下层智能体的削峰时段内的任意决策时刻
Figure FDA0004095218230000068
其充电控制指令为
Figure FDA0004095218230000069
则在决策时段内任意时刻t下,
Figure FDA00040952182300000610
单位时间内下层满意度代价为
Figure FDA00040952182300000611
如下所示:
Figure FDA00040952182300000612
Figure FDA00040952182300000613
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc
Figure FDA0004095218230000071
其中
Figure FDA0004095218230000072
为子目标权重系数。
5.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解:
上层智能体的目标是在有限时间范围内最大化累积奖励,由于车辆流量的随机性,它自然是一个随机变量,当从初始状态sup(0)开始时经过K步转移累计的总收益为:
Figure FDA0004095218230000073
如果考虑初始状态随机,则上层智能体的优化目标函数为:
Figure FDA0004095218230000074
优化策略π*为最大化
Figure FDA0004095218230000075
所得的控制策略,即
Figure FDA0004095218230000076
上层智能体采用DuelingDQN算法进行求解;
下层智能体在决策时刻
Figure FDA0004095218230000077
的决策状态为
Figure FDA0004095218230000078
该状态下的动作定义为
Figure FDA0004095218230000079
令状态动作到充电桩功率的映射关系记为
Figure FDA00040952182300000710
如下所示:
Figure FDA00040952182300000711
Figure FDA00040952182300000712
Figure FDA00040952182300000713
其中sgn(z,j)为0/1变量,表示在决策时刻
Figure FDA0004095218230000081
时充电桩csj是否有电动充电,若有sgn(z,j)=1;反之,sgn(z,j)=0,
假设在决策时刻
Figure FDA0004095218230000082
上层智能体处于状态slow(z)采取动作alow(z)的单步转移奖励记为rlow(z),如下所示:
Figure FDA0004095218230000083
考虑初始状态随机,则下层智能体的优化目标函数为:
Figure FDA0004095218230000084
优化策略υ*为最大化
Figure FDA0004095218230000085
所得的控制策略,即
Figure FDA0004095218230000086
下层智能体采用TD3算法进行求解。
6.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S4具体包括以下步骤,
S41、将充电服务价格空间
Figure FDA0004095218230000087
用常量εpr离散为2Nup+1个等级,其中
Figure FDA0004095218230000088
则第k个决策时刻的动作aup(k)∈{-Nup,-Nup+1,…0,…,Nup}对应的充电服务价格为
Figure FDA0004095218230000089
上层智能体在决策时刻
Figure FDA00040952182300000810
的决策状态为
Figure FDA00040952182300000811
其中
Figure FDA00040952182300000812
表示
Figure FDA00040952182300000813
内的充电场站基线,
Figure FDA00040952182300000814
W=Δtou/δ;
Figure FDA00040952182300000822
表示
Figure FDA00040952182300000815
内削峰功率总量;PRk,οk,
Figure FDA00040952182300000816
分别表示在
Figure FDA00040952182300000817
时电网分时电价、充电桩占用比及等待队列长度;
S42、在决策时刻
Figure FDA00040952182300000818
上层智能体处于状态sup(k)采取动作aup(k)后,在下一时
Figure FDA00040952182300000819
Figure FDA00040952182300000820
智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(sup(k),aup(k),sup(k′)),如下所示:
Figure FDA00040952182300000821
Figure FDA0004095218230000091
其中
Figure FDA0004095218230000092
为单位时间内下层满意度代价,r单位时间内经济性,其中若
Figure FDA0004095218230000093
时段内没有电网削峰指令,
Figure FDA0004095218230000094
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
Figure FDA0004095218230000095
建立上层智能体的优化目标函数为:
Figure FDA0004095218230000096
优化策略π*为最大化
Figure FDA0004095218230000097
所得的控制策略,即
Figure FDA0004095218230000098
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解;
S45、令状态动作到充电桩功率的映射关系记为
Figure FDA0004095218230000099
如下所示:
Figure FDA00040952182300000910
Figure FDA00040952182300000911
Figure FDA00040952182300000912
其中
Figure FDA00040952182300000920
为中间变量,下层智能体在决策时刻
Figure FDA00040952182300000913
的决策状态为
Figure FDA00040952182300000914
该状态下的动作定义为
Figure FDA00040952182300000915
Figure FDA00040952182300000916
sgn(z,j)为0/1变量,表示在决策时刻
Figure FDA00040952182300000917
时充电桩csj是否有电动充电,若有sgn(z,j)=1;反之,sgn(z,j)=0;
S46、在决策时刻
Figure FDA00040952182300000918
下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻
Figure FDA00040952182300000919
智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
Figure FDA0004095218230000101
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
Figure FDA0004095218230000102
考虑初始状态随机,设下层智能体的优化目标函数为:
Figure FDA0004095218230000103
优化策略υ*为最大化
Figure FDA0004095218230000104
所得的控制策略,即
Figure FDA0004095218230000105
S48、使用TD3算法对下层智能体进行求解。
CN202310163928.0A 2023-02-24 2023-02-24 基于分层强化学习的电动汽车充电场站协同调峰方法 Pending CN116031923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310163928.0A CN116031923A (zh) 2023-02-24 2023-02-24 基于分层强化学习的电动汽车充电场站协同调峰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310163928.0A CN116031923A (zh) 2023-02-24 2023-02-24 基于分层强化学习的电动汽车充电场站协同调峰方法

Publications (1)

Publication Number Publication Date
CN116031923A true CN116031923A (zh) 2023-04-28

Family

ID=86077712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163928.0A Pending CN116031923A (zh) 2023-02-24 2023-02-24 基于分层强化学习的电动汽车充电场站协同调峰方法

Country Status (1)

Country Link
CN (1) CN116031923A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077934A (zh) * 2023-07-27 2023-11-17 国网江苏省电力有限公司灌云县供电分公司 基于深度强化学习算法的省地多元灵活资源协同调峰决策方法
CN118037334A (zh) * 2024-04-11 2024-05-14 国网江苏省电力有限公司电力科学研究院 一种电动汽车充电动态定价方法及相关装置
CN118082598A (zh) * 2024-04-25 2024-05-28 国网天津市电力公司电力科学研究院 电动车辆充电方法、装置、设备、介质和程序产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077934A (zh) * 2023-07-27 2023-11-17 国网江苏省电力有限公司灌云县供电分公司 基于深度强化学习算法的省地多元灵活资源协同调峰决策方法
CN118037334A (zh) * 2024-04-11 2024-05-14 国网江苏省电力有限公司电力科学研究院 一种电动汽车充电动态定价方法及相关装置
CN118082598A (zh) * 2024-04-25 2024-05-28 国网天津市电力公司电力科学研究院 电动车辆充电方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN116031923A (zh) 基于分层强化学习的电动汽车充电场站协同调峰方法
CN109398149B (zh) 基于分布式能源应用的智能电动汽车充放电系统及其运行控制方法
CN108390421B (zh) 计及用户满意度的电动汽车双尺度充电引导方法及系统
CN109177802B (zh) 一种基于无线通信的电动汽车有序充电系统及其方法
CN111422094B (zh) 分布式充电桩的充放电协调优化控制方法
CN112633571B (zh) 源网荷互动环境下基于lstm的超短期负荷预测方法
CN107618393B (zh) 一种基于杠杆电价的电动汽车充电负荷调控系统及方法
CN107719180B (zh) 基于电动汽车柔性充电的混合型停车场多源互补充电方法
CN112193116B (zh) 一种考虑奖励机制的电动汽车充电优化引导策略
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN103269107B (zh) 一种电动汽车充换电站充换电控制方法
CN110509788A (zh) 深化调峰的电动汽车群组合优化充放电方法
CN110472785A (zh) 一种基于负荷分类的电动汽车群调度方法
CN113147482B (zh) 一种电动汽车有序充电优化方法及系统
CN108320064A (zh) 一种电动汽车与风电协同充电双层优化调度方法
CN109948823B (zh) 一种光储充电塔自适应鲁棒日前优化调度方法
CN105896674B (zh) 电动汽车群的充电控制方法和系统
CN110556822B (zh) 一种含电动汽车消纳大规模风电机组的组合计算方法
CN113054669B (zh) 一种基于区块链技术的配网错峰平谷自适应自平衡方法
CN111798121B (zh) 一种面向电动汽车能源管理调度的分布式协同优化方法
CN112406564B (zh) 增程器控制方法、装置、驱动系统及增程式混合动力车辆
CN104951614A (zh) 一种计及电动汽车充电可控性的机组组合模型及建模方法
CN112183882B (zh) 一种基于电动汽车快充需求的智慧充电站充电优化方法
CN112332433B (zh) 一种电动汽车参与填谷辅助服务可转移负荷容量分析方法
CN114619907B (zh) 基于分布式深度强化学习的协调充电方法及协调充电系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination