CN116031923A - 基于分层强化学习的电动汽车充电场站协同调峰方法 - Google Patents
基于分层强化学习的电动汽车充电场站协同调峰方法 Download PDFInfo
- Publication number
- CN116031923A CN116031923A CN202310163928.0A CN202310163928A CN116031923A CN 116031923 A CN116031923 A CN 116031923A CN 202310163928 A CN202310163928 A CN 202310163928A CN 116031923 A CN116031923 A CN 116031923A
- Authority
- CN
- China
- Prior art keywords
- charging
- time
- station
- state
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 230000005611 electricity Effects 0.000 claims abstract description 69
- 238000005457 optimization Methods 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000002045 lasting effect Effects 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 84
- 230000009471 action Effects 0.000 claims description 23
- 230000008901 benefit Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 20
- 238000011217 control strategy Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 6
- 239000010931 gold Substances 0.000 claims description 6
- 229910052737 gold Inorganic materials 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 239000010410 layer Substances 0.000 claims 29
- 239000002355 dual-layer Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000004941 influx Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/70—Energy storage systems for electromobility, e.g. batteries
Landscapes
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明涉及电力系统技术领域,尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法,该方法包括以下步骤:S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式。S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统。S3、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数,采用TD3算法进行求解。
Description
技术领域
本发明涉及电力系统技术领域,尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法。
背景技术
近年来,在全球能源紧缺和环境恶化的背景下,电动汽车由于其节能、环保等优势在国内外得到了广泛推广。随着越来越多的电动汽车涌入,原有的充电站规模很有可能无法满足其充电需求,由此可能会出现严重的充电排队的现象,这不仅浪费驾驶人员单位时间产出率,而且严重时可能影响配电网电能质量。如何制定有效的电动汽车充电引导策略来缓解电网压力,是未来电动汽车大规模普及的基础和保障。
为适应新一代电力系统发展和安全稳定优质运行的需要,构建清洁低碳安全高效的能源体系,控制化石能源总量,着力提高利用效能,本发明在当新能源波动导致电网供需不平衡时,调度中心将启动削峰响应,引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应,在缓解电网压力的同时,额外获得响应收益。
目前,针对电动汽车充电场站协同调峰方法模型的求解方法主要有传统求解器求解和传统强化学习算法求解。传统基于数学模型的求解器求解方法和强化学习方法可以得到最优解,但环境较为复杂、任务较为困难时,会导致需要学习的参数以及所需的存储空间急速增长,上述方法难以取得理想的效果。分层强化学习将复杂问题分解成若干子问题,通过分而治之的方法,逐个解决子问题从而最终解决一个复杂问题。分层强化学习算法求解为解决此类问题提供了新思路。
考虑初始状态随机,则下层智能体的优化目标函数为:
本技术方案进一步的优化,所述步骤S4具体包括以下步骤,
S42、在决策时刻上层智能体处于状态sup(k)采取动作aup(k)后,在下一时刻智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(Sup(k),aup(k),sup(k′)),如下所示:
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
建立上层智能体的优化目标函数为:
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解;
S46、在决策时刻下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
考虑初始状态随机,设下层智能体的优化目标函数为:
S48、使用TD3算法对下层智能体进行求解。
区别于现有技术,上述技术方案有如下有益效果:
基于分层强化学习的电动汽车充电场站协同调峰方法能够有效解决庞大状态空间和行为空间组合以及奖励稀疏的问题,以此加快计算的速度,获得更优的行为策略。利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
附图说明
图1为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1所示,为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。本发明优选一实施例一种基于分层强化学习的电动汽车充电场站协同调峰方法,该方法包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态。根据服务电价制定单元及充电功率控制单元制定系统运行模式。
制定系统运行模式包括以下步骤:
S11、确定直流快充桩数量为J个,充电等待车位数量为L个。
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ。在t时刻,充电桩CSj的状态记为
pj(t)分别表示当前电动汽车的电池的荷电状态(State of Charge,简称SOC)以及充电功率。若CSj空闲,则mj,pj(t)=0。进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)}。
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL。在t时刻,充电等待车位Ql状态记为ql={ml,hl,τl}
其中ml,hl,τl分别表示Ql上停留电动汽车的种类、荷电状态SoC以及到达时间。
S13、若Ql无电动汽车等待,则ml,hl,τl=0。当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车(Electric Vehicle,简称EV)接入CSj开始充电服务,如下所示:
ql=ql+1,l∈[1,lrear-1]
其中p0表示EV接入充电桩的初始充电功率,为了保证电动汽车电池寿命,其值为一个较小常量。
本发明考虑实际系统,将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M}。M为电动车的种类数量。将电动汽车到达场站的时间序列记为Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间。当第k辆EV到达场站时,将该触发事件记为e(τk)={me(τk),he(τk),τk},me(τk),he(τk)分别表示到达电动汽车的种类和电池荷电状态(SoC)。
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统。
建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令为第k个分时电价PRt下发的时刻,则记分时电价序列为其中,PRk∈ΦPR,令
S22、在第k个电价周期下发时刻SPM根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定内的充电服务电价为了方便表示,将服务电价简记为 Φpr为充电场站服务价格调节区间。
发明内容
针对现有技术的不足,本发明提供了一种基于分层强化学习的电动汽车充电场站协同调峰方法,能够根据电网分时电价等广域信息发布下一时段充电服务价格,根据上级调度机构的调峰需求及当前断面的场站状态控制快充桩的充电功率。利用协同调峰系统,引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应,在缓解电网压力的同时,额外获得响应收益。利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
为解决上述技术问题,本发明提供了如下技术方案:
一种基于分层强化学习的电动汽车充电场站协同调峰方法,包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式;
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统;
S3、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型;
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解,建立下层智能体的优化目标函数,采用TD3算法进行求解。
本技术方案进一步的优化,所述步骤S1中,制定系统运行模式包括以下步骤,
S11、确定直流快充桩数量为J个,充电等待车位数量为L个;
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ,在t时刻,充电桩CSj的状态记为
其中,mj,分别表示CSj所接电动汽车的种类,电池最大容量以及额定充电功率,pj(t)分别表示当前电动汽车的荷电状态以及充电功率,若CSj空闲,则mj,pj(t)=0,进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)};
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL,在t时刻,充电等待车位Ql状态记为ql={ml,hl,τl},其中ml,hl,τl分别表示Ql上停留电动汽车的种类、荷电状态以及到达时间;
S13、若Ql无电动汽车等待,则ml,hl,τl=0,当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车接入CSj开始充电服务,如下所示:
ql=ql+1,l∈[1,lrear-1]
其中p0表示电动汽车接入充电桩的初始充电功率,
将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M},将电动汽车到达场站的时间序列记为Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间,当第k辆电动汽车到达场站时,将该触发事件记为e(τk)={me(τk),he(τk),τk},me(τk),he(τk)分别表示到达电动汽车的种类和电池荷电状态,
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
qlrear=e(τm)。
本技术方案进一步的优化,所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令为第k个分时电价PRt下发的时刻,则记分时电价序列为其中,PRk∈ΦPR,令
S22、在第k个电价周期下发时刻服务电价制定单元根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定内的充电服务电价为了方便表示,将服务电价简记为 Φpr为充电场站服务价格调节区间;
S24、当电网无调峰需求时,Tps为电网调峰时段的集合,CPC将各个充电功率调整为电动汽车的额定充电功率充电,其中令第d个调度时刻下发的削峰指令记为一天的决策总数为Z=T/δ,T为一天总时长,δ为调度指令下发周期,在CPC的z个决策时刻 充电功率控制单元下发充电功率控制指令为简记为
各个充电桩充电功率变化如下:
本技术方案进一步的优化,所述步骤S3中,建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型,上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷,下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构;
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,对于该部分用户给予一定的补偿,记为ccom,则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬,表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数决定,如下:
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益,于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,导致电动汽车用户充电时间延长,假设在下层智能体的削峰时段内的任意决策时刻其充电控制指令为则在决策时段内任意时刻t下,单位时间内下层满意度代价为如下所示:
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc,
本技术方案进一步的优化,所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解:
上层智能体的目标是在有限时间范围内最大化累积奖励,由于车辆流量的随机性,它自然是一个随机变量,当从初始状态sup(0)开始时经过K步转移累计的总收益为:
如果考虑初始状态随机,则上层智能体的优化目标函数为:
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc,
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数,采用TD3算法进行求解。
制定基于分层强化学习的充电场站协同调峰优化策略包括以下步骤:
S42、在决策时刻上层智能体处于状态sup(k)采取动作aup(k)后,在下一时刻智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(sup(k),aup(k),sup(k′)),如下所示:
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
建立上层智能体的优化目标函数为:
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解。
其中下层智能体在决策时刻的决策状态为该状态下的动作定义为 为下层智能体在决策时刻的基线功率,sgn(z,j)为0/1变量,表示在决策时刻时充电桩csj是否有电动充电。若有sgn(z,j)=1;反之,sgn(z,j)=0。
S46、在决策时刻下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
考虑初始状态随机,设下层智能体的优化目标函数为:
S48、使用TD3算法(Twin Delayed Deep Deterministic policy gradientalgorithm)对下层智能体进行求解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
各个充电桩充电功率变化如下:
其中,Pt bl为充电场站基线,一般由充电场站典型运行日历史运行数据统计获得。kcop为惩罚系数,为削峰量,kint为奖励系数,εt为实际削减量,ΦJ为充电桩的集合,pj(t)为第j个充电桩t时刻的充电功率。
S3、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。
建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以SPM为上层,CPC为下层,设计双层协同优化模型。上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷。下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构。
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,我们对于该部分用户给予一定的补偿,记为ccom。则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬。表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数决定,如下:
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益。于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,导致电动汽车用户充电时间延长。因此,设计基于相对延长充电时间的用户满意度指标。假设在下层智能体的削峰时段内的任意决策时刻其充电控制指令为则在决策时段内任意时刻t下,单位时间内下层满意度代价为如下所示:
Claims (6)
1.一种基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于,包括以下步骤:
S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态,根据服务电价制定单元及充电功率控制单元制定系统运行模式;
S2、确定充电服务电价与用户到达率映射关系,调整充电桩充电功率,构造单位时间内削峰奖励函数,建立充电场站双中心协同调峰系统;
S3、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型;
S4、建立上层智能体的优化目标函数,采用Dueling DQN算法进行求解,建立下层智能体的优化目标函数,采用TD3算法进行求解。
2.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S1中,制定系统运行模式包括以下步骤,
S11、确定直流快充桩数量为J个,充电等待车位数量为L个;
将J个直流快充桩分别记为CS1,CS2,…,CSj,…,CSJ,在t时刻,充电桩CSj的状态记为
其中,mj,分别表示CSj所接电动汽车的种类,电池最大容量以及额定充电功率,pj(t)分别表示当前电动汽车的荷电状态以及充电功率,若CSj空闲,则mj,pj(t)=0,进而,将J个充电桩在t时刻的联合状态记为C(t)={c1(t),c2(t),…,cj(t),…cJ(t)};
S12、记录完充电桩的联合状态后,再将L个充电等待车位分别记为Q1,Q2,…,QI,…,QL,在t时刻,充电等待车位Ql状态记为ql={ml,hl,τl},其中ml,hl,τl分别表示Ql上停留电动汽车的种类、荷电状态以及到达时间;
S13、若Ql无电动汽车等待,则ml,hl,τl=0,当等待区域有lrear辆电动汽车停留时,则L个等待车位的联合状态记为
Q={q1,q2,…,ql,…qL}
S14、当有电动汽车结束充电服务离开充电桩CSj时,若等待队列有电动汽车,则等待车位Q1中的电动汽车接入CSj开始充电服务,如下所示:
ql=ql+1,l∈[1,lrear-1]
其中p0表示电动汽车接入充电桩的初始充电功率,
将电动汽车到达作为触发事件,假定M种电动汽车以泊松过程依次到达充电场站,到达率为λm(t),m∈ΦM={1,2,…,M},M为电动车的种类数量,将电动汽车到达场站的时间序列记为Kev表示抵达充电场站电动汽车的总数,τk为第k个电动汽车到达场站的时间,当第k辆电动汽车到达场站时,将该触发事件记为e(τk)={me(τk),he(τk),τk},me(τk),he(τk)分别表示到达电动汽车的种类和电池荷电状态,
当第m辆电动汽车在τm时刻抵达充电场站时,若等待区域没有空余车位,即lrear=L,该电动汽车立即离开场站;若等待区域有空余车位,lrear<L,则该电动汽车进入等待车位,与此同时等待队列状态响应变化,如下所示
lrear=lrear+1
3.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤:
S21、令Δtou为分时电价下发的时间间隔且对应分时电价周期总数为K,将一天内任意t时刻电网的调峰电价记为PRt,令PRt∈ΦPR,ΦPR是有限的电价状态空间;令为第k个分时电价PRt下发的时刻,则记分时电价序列为其中,PRk∈ΦPR,令
S22、在第k个电价周期下发时刻服务电价制定单元根据场站未来时间窗口Δtou内的场站基线、电网分时电价PRk、上级削峰指令以及当前时刻排队电动汽车数量lrear、充电桩的占用比ο,制定内的充电服务电价为了方便表示,将服务电价简记为Φpr为充电场站服务价格调节区间;
S24、当电网无调峰需求时,Tps为电网调峰时段的集合,CPC将各个充电功率调整为电动汽车的额定充电功率充电,其中令第d个调度时刻下发的削峰指令记为一天的决策总数为Z=T/δ,T为一天总时长,δ为调度指令下发周期,在CPC的z个决策时刻充电功率控制单元下发充电功率控制指令为简记为
各个充电桩充电功率变化如下:
4.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S3中,建立双层协同优化模型包括以下步骤:
S31、根据场站的运行模式,以服务电价制定单元为上层,充电功率控制单元为下层,设计双层协同优化模型,上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度,制定充电服务价格改变电动汽车用户的到达率,使场站初步实现削峰填谷,下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价,在削峰时段控制充电桩的充电功率以响应上层调度机构;
S33、当削峰时段ΤPS削减部分充电桩的充电功率时,对于该部分用户给予一定的补偿,记为ccom,则场站在一天的运行过程获得的整体收益reco,如下所示:
reco=rser+rps-ccom
令rser为动车用户提供充电服务获得服务收益,rps为通过参与电网的削峰响应获取响应报酬,表示单位时间内给予充电桩CPSj上电动汽车的补偿成本,该值由当前电动汽车的充电功率,额定充电功率和补偿系数决定,如下:
S34、由于上层智能体通过制定不同电价周期Δtou内的充电服务价格,影响电动汽车用户在峰谷时段的到达率,进而提高场站充电桩的利用率以提高场站的充电收益,于此同时,部分充电用户会由于服务电价的上涨而降到充电服务的满意度,因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为
S35、下层智能体在削峰时段ΤPS内会削减部分充电桩的充电功率,导致电动汽车用户充电时间延长,假设在下层智能体的削峰时段内的任意决策时刻其充电控制指令为则在决策时段内任意时刻t下,单位时间内下层满意度代价为如下所示:
上层智能体在兼顾用户满意度代价及补偿的情况下,实现削峰响应经济收益最大,其优化目标记为goalcpc,
5.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解:
上层智能体的目标是在有限时间范围内最大化累积奖励,由于车辆流量的随机性,它自然是一个随机变量,当从初始状态sup(0)开始时经过K步转移累计的总收益为:
如果考虑初始状态随机,则上层智能体的优化目标函数为:
考虑初始状态随机,则下层智能体的优化目标函数为:
6.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法,其特征在于:所述步骤S4具体包括以下步骤,
S42、在决策时刻上层智能体处于状态sup(k)采取动作aup(k)后,在下一时 智能体状态转移至sup(k′),该过程产生的单步转移奖励记为rup(sup(k),aup(k),sup(k′)),如下所示:
S43、考虑电动车到达率为λ(t)情况下,计算从初始状态sup(0)开始时上层智能体按照控制策略π进行决策,经过K步转移累计的总期望收益:
建立上层智能体的优化目标函数为:
S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解;
S46、在决策时刻下层智能体处于状态slow(z)采取动作alow(z)后,在下一时刻智能体状态转移至slow(z′),该过程产生的单步转移奖励记为rlow(slow(z),alow(z),slow(z′)),如下所示:
S47、考虑电动车到达率为λ(t)情况下,计算从初始状态slow(0)开始时上层智能体按照控制策略υ进行决策,经过Z步转移累计的总期望收益:
考虑初始状态随机,设下层智能体的优化目标函数为:
S48、使用TD3算法对下层智能体进行求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163928.0A CN116031923A (zh) | 2023-02-24 | 2023-02-24 | 基于分层强化学习的电动汽车充电场站协同调峰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163928.0A CN116031923A (zh) | 2023-02-24 | 2023-02-24 | 基于分层强化学习的电动汽车充电场站协同调峰方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116031923A true CN116031923A (zh) | 2023-04-28 |
Family
ID=86077712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310163928.0A Pending CN116031923A (zh) | 2023-02-24 | 2023-02-24 | 基于分层强化学习的电动汽车充电场站协同调峰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116031923A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077934A (zh) * | 2023-07-27 | 2023-11-17 | 国网江苏省电力有限公司灌云县供电分公司 | 基于深度强化学习算法的省地多元灵活资源协同调峰决策方法 |
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
CN118082598A (zh) * | 2024-04-25 | 2024-05-28 | 国网天津市电力公司电力科学研究院 | 电动车辆充电方法、装置、设备、介质和程序产品 |
-
2023
- 2023-02-24 CN CN202310163928.0A patent/CN116031923A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117077934A (zh) * | 2023-07-27 | 2023-11-17 | 国网江苏省电力有限公司灌云县供电分公司 | 基于深度强化学习算法的省地多元灵活资源协同调峰决策方法 |
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
CN118082598A (zh) * | 2024-04-25 | 2024-05-28 | 国网天津市电力公司电力科学研究院 | 电动车辆充电方法、装置、设备、介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116031923A (zh) | 基于分层强化学习的电动汽车充电场站协同调峰方法 | |
CN109398149B (zh) | 基于分布式能源应用的智能电动汽车充放电系统及其运行控制方法 | |
CN108390421B (zh) | 计及用户满意度的电动汽车双尺度充电引导方法及系统 | |
CN109177802B (zh) | 一种基于无线通信的电动汽车有序充电系统及其方法 | |
CN111422094B (zh) | 分布式充电桩的充放电协调优化控制方法 | |
CN112633571B (zh) | 源网荷互动环境下基于lstm的超短期负荷预测方法 | |
CN107618393B (zh) | 一种基于杠杆电价的电动汽车充电负荷调控系统及方法 | |
CN107719180B (zh) | 基于电动汽车柔性充电的混合型停车场多源互补充电方法 | |
CN112193116B (zh) | 一种考虑奖励机制的电动汽车充电优化引导策略 | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN103269107B (zh) | 一种电动汽车充换电站充换电控制方法 | |
CN110509788A (zh) | 深化调峰的电动汽车群组合优化充放电方法 | |
CN110472785A (zh) | 一种基于负荷分类的电动汽车群调度方法 | |
CN113147482B (zh) | 一种电动汽车有序充电优化方法及系统 | |
CN108320064A (zh) | 一种电动汽车与风电协同充电双层优化调度方法 | |
CN109948823B (zh) | 一种光储充电塔自适应鲁棒日前优化调度方法 | |
CN105896674B (zh) | 电动汽车群的充电控制方法和系统 | |
CN110556822B (zh) | 一种含电动汽车消纳大规模风电机组的组合计算方法 | |
CN113054669B (zh) | 一种基于区块链技术的配网错峰平谷自适应自平衡方法 | |
CN111798121B (zh) | 一种面向电动汽车能源管理调度的分布式协同优化方法 | |
CN112406564B (zh) | 增程器控制方法、装置、驱动系统及增程式混合动力车辆 | |
CN104951614A (zh) | 一种计及电动汽车充电可控性的机组组合模型及建模方法 | |
CN112183882B (zh) | 一种基于电动汽车快充需求的智慧充电站充电优化方法 | |
CN112332433B (zh) | 一种电动汽车参与填谷辅助服务可转移负荷容量分析方法 | |
CN114619907B (zh) | 基于分布式深度强化学习的协调充电方法及协调充电系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |