CN116031923A

CN116031923A - 基于分层强化学习的电动汽车充电场站协同调峰方法

Info

Publication number: CN116031923A
Application number: CN202310163928.0A
Authority: CN
Inventors: 唐昊; 方道宏; 李端超; 王正风; 王吉文; 王海伟
Original assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd
Current assignee: Hefei University of Technology; State Grid Anhui Electric Power Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-04-28

Abstract

本发明涉及电力系统技术领域，尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法，该方法包括以下步骤：S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态，根据服务电价制定单元及充电功率控制单元制定系统运行模式。S2、确定充电服务电价与用户到达率映射关系，调整充电桩充电功率，构造单位时间内削峰奖励函数，建立充电场站双中心协同调峰系统。S3、根据场站的运行模式，以SPM为上层，CPC为下层，设计双层协同优化模型。S4、建立上层智能体的优化目标函数，采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数，采用TD3算法进行求解。

Description

基于分层强化学习的电动汽车充电场站协同调峰方法

技术领域

本发明涉及电力系统技术领域，尤其涉及一种基于分层强化学习的电动汽车充电场站协同调峰方法。

背景技术

近年来，在全球能源紧缺和环境恶化的背景下，电动汽车由于其节能、环保等优势在国内外得到了广泛推广。随着越来越多的电动汽车涌入，原有的充电站规模很有可能无法满足其充电需求，由此可能会出现严重的充电排队的现象，这不仅浪费驾驶人员单位时间产出率，而且严重时可能影响配电网电能质量。如何制定有效的电动汽车充电引导策略来缓解电网压力，是未来电动汽车大规模普及的基础和保障。

为适应新一代电力系统发展和安全稳定优质运行的需要，构建清洁低碳安全高效的能源体系，控制化石能源总量，着力提高利用效能，本发明在当新能源波动导致电网供需不平衡时，调度中心将启动削峰响应，引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应，在缓解电网压力的同时，额外获得响应收益。

目前，针对电动汽车充电场站协同调峰方法模型的求解方法主要有传统求解器求解和传统强化学习算法求解。传统基于数学模型的求解器求解方法和强化学习方法可以得到最优解，但环境较为复杂、任务较为困难时，会导致需要学习的参数以及所需的存储空间急速增长，上述方法难以取得理想的效果。分层强化学习将复杂问题分解成若干子问题，通过分而治之的方法，逐个解决子问题从而最终解决一个复杂问题。分层强化学习算法求解为解决此类问题提供了新思路。

该状态下的动作定义为

令状态动作到充电桩功率的映射关系记为

如下所示：

其中sgn(z,j)为0/1变量，表示在决策时刻

时充电桩cs_j是否有电动充电，若有sgn(z,j)＝1；反之，sgn(z,j)＝0，

假设在决策时刻

上层智能体处于状态s_low(z)采取动作a^low(z)的单步转移奖励记为r_low(z)，如下所示：

考虑初始状态随机，则下层智能体的优化目标函数为：

优化策略υ^*为最大化

所得的控制策略，即

下层智能体采用TD3算法进行求解。

本技术方案进一步的优化，所述步骤S4具体包括以下步骤，

S41、将充电服务价格空间

用常量ε^pr离散为2N^up+1个等级，其中

则第k个决策时刻的动作a^up(k)∈{-N^up,-N^up+1,…0,，…,N^up}对应的充电服务价格为

上层智能体在决策时刻

的决策状态为

其中

表示

内的充电场站基线，

W＝Δ_tou/δ；

表示

内削峰功率总量；PR_k,ο_k,

分别表示在

时电网分时电价、充电桩占用比及等待队列长度；

S42、在决策时刻

上层智能体处于状态s_up(k)采取动作a^up(k)后，在下一时刻

智能体状态转移至s_up(k′)，该过程产生的单步转移奖励记为r_up(S_up(k),a^up(k),s_up(k′))，如下所示：

其中

为单位时间内下层满意度代价，r单位时间内经济性，其中若

时段内没有电网削峰指令，γ(t),

S43、考虑电动车到达率为λ(t)情况下,计算从初始状态s_up(0)开始时上层智能体按照控制策略π进行决策，经过K步转移累计的总期望收益：

建立上层智能体的优化目标函数为：

优化策略π^*为最大化

所得的控制策略，即

S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解；

S45、令状态动作到充电桩功率的映射关系记为

如下所示：

其中

为中间变量，下层智能体在决策时刻

的决策状态为

该状态下的动作定义为

sgn(z,j)为0/1变量，表示在决策时刻

时充电桩cs_j是否有电动充电，若有sgn(z,j)＝1；反之，sgn(z,j)＝0；

S46、在决策时刻

下层智能体处于状态s_low(z)采取动作a^low(z)后，在下一时刻

智能体状态转移至s_low(z′)，该过程产生的单步转移奖励记为r_low(s_low(z),a_low(z),s_low(z′))，如下所示：

S47、考虑电动车到达率为λ(t)情况下,计算从初始状态s_low(0)开始时上层智能体按照控制策略υ进行决策，经过Z步转移累计的总期望收益：

考虑初始状态随机，设下层智能体的优化目标函数为：

优化策略υ^*为最大化

所得的控制策略，即

S48、使用TD3算法对下层智能体进行求解。

区别于现有技术，上述技术方案有如下有益效果：

基于分层强化学习的电动汽车充电场站协同调峰方法能够有效解决庞大状态空间和行为空间组合以及奖励稀疏的问题，以此加快计算的速度，获得更优的行为策略。利用奖励约束策略优化方法对智能体进行训练，将约束作为惩罚信号引入奖励函数中，解决了强化学习寻找奖励函数漏洞的问题。

附图说明

图1为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1所示，为基于分层强化学习的电动汽车充电场站协同调峰方法流程示意图。本发明优选一实施例一种基于分层强化学习的电动汽车充电场站协同调峰方法，该方法包括以下步骤：

S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态。根据服务电价制定单元及充电功率控制单元制定系统运行模式。

制定系统运行模式包括以下步骤：

S11、确定直流快充桩数量为J个，充电等待车位数量为L个。

将J个直流快充桩分别记为CS₁,CS₂,…,CS_j,…,CS_J。在t时刻，充电桩CS_j的状态记为

其中，m_j,

分别表示CS_j所接电动汽车的种类，电池最大容量以及额定充电功率。

p_j(t)分别表示当前电动汽车的电池的荷电状态(State of Charge，简称SOC)以及充电功率。若CS_j空闲，则m_j,

p_j(t)＝0。进而，将J个充电桩在t时刻的联合状态记为C(t)＝{c₁(t),c₂(t),…,c_j(t),…c_J(t)}。

S12、记录完充电桩的联合状态后，再将L个充电等待车位分别记为Q₁,Q₂,…,Q_I,…,Q_L。在t时刻，充电等待车位Q_l状态记为q_l＝{m_l,h_l,τ_l}

其中m_l,h_l,τ_l分别表示Q_l上停留电动汽车的种类、荷电状态SoC以及到达时间。

S13、若Q_l无电动汽车等待，则m_l,h_l,τ_l＝0。当等待区域有l_rear辆电动汽车停留时，则L个等待车位的联合状态记为

Q＝{q₁,q₂,…,q_l,…q_L}

S14、当有电动汽车结束充电服务离开充电桩CS_j时，若等待队列有电动汽车，则等待车位Q₁中的电动汽车(Electric Vehicle，简称EV)接入CS_j开始充电服务，如下所示：

q_l＝q_l+1，l∈[1,l_rear-1]

其中p₀表示EV接入充电桩的初始充电功率，为了保证电动汽车电池寿命，其值为一个较小常量。

本发明考虑实际系统，将电动汽车到达作为触发事件，假定M种电动汽车以泊松过程依次到达充电场站，到达率为λ_m(t),m∈Φ_M＝{1,2,…,M}。M为电动车的种类数量。将电动汽车到达场站的时间序列记为

K_ev表示抵达充电场站电动汽车的总数，τ_k为第k个电动汽车到达场站的时间。当第k辆EV到达场站时，将该触发事件记为e(τ_k)＝{m_e(τ_k),h_e(τ_k),τ_k}，m_e(τ_k),h_e(τ_k)分别表示到达电动汽车的种类和电池荷电状态(SoC)。

当第m辆电动汽车在τ_m时刻抵达充电场站时，若等待区域没有空余车位，即l_rear＝L，该电动汽车立即离开场站；若等待区域有空余车位，l_rear＜L，则该电动汽车进入等待车位，与此同时等待队列状态响应变化，如下所示

l_rear＝l_rear+1

S2、确定充电服务电价与用户到达率映射关系，调整充电桩充电功率，构造单位时间内削峰奖励函数，建立充电场站双中心协同调峰系统。

建立充电场站双中心协同调峰系统包括以下步骤：

S21、令Δ_tou为分时电价下发的时间间隔且对应分时电价周期总数为K，将一天内任意t时刻电网的调峰电价记为PR_t，令PR_t∈Φ_PR，Φ_PR是有限的电价状态空间；令

为第k个分时电价PR_t下发的时刻，则记分时电价序列为

其中，PR_k∈Φ_PR，令

S22、在第k个电价周期下发时刻

SPM根据场站未来时间窗口Δ_tou内的场站基线、电网分时电价PR_k、上级削峰指令以及当前时刻排队电动汽车数量l_rear、充电桩的占用比ο，制定

内的充电服务电价

为了方便表示，将服务电价简记为

Φ_pr为充电场站服务价格调节区间。

S23、当服务电价制定单元(Service Price Maker，简称SPM)在决策时刻

发布

内的服务电价计划

后，获得该时段电动汽车的到达率

S24、当电网无调峰需求时，

T_ps为电网调峰时段的集合。充电功率控制单元(Charging Power Controller，简称CPC)将各个充电功率调整为电动汽车的额定充电功率充电，

其中令第d个调度时刻

下发的削峰指令记为

一天的决策总数为Z＝T/δ。T为一天总时长，δ为调度指令下发周期。在CPC的z个决策时刻

CPC下发充电功率控制指令为

简记为

S25、当电网有调峰需求时，

CPC根据当前充电桩状态

削峰指令

充电服务价格

和电网分时电价

下发充电功率控制指令

发明内容

针对现有技术的不足，本发明提供了一种基于分层强化学习的电动汽车充电场站协同调峰方法，能够根据电网分时电价等广域信息发布下一时段充电服务价格，根据上级调度机构的调峰需求及当前断面的场站状态控制快充桩的充电功率。利用协同调峰系统，引导用户参与电网运行调节。电动汽车动作电站可以通过直接或间接的方式参与削峰响应，在缓解电网压力的同时，额外获得响应收益。利用奖励约束策略优化方法对智能体进行训练，将约束作为惩罚信号引入奖励函数中，解决了强化学习寻找奖励函数漏洞的问题。

为解决上述技术问题，本发明提供了如下技术方案：

一种基于分层强化学习的电动汽车充电场站协同调峰方法，包括以下步骤：

S1、定义充电桩的状态、充电等待车位的状态、等待车位的联合状态，根据服务电价制定单元及充电功率控制单元制定系统运行模式；

S2、确定充电服务电价与用户到达率映射关系，调整充电桩充电功率，构造单位时间内削峰奖励函数，建立充电场站双中心协同调峰系统；

S3、根据场站的运行模式，以服务电价制定单元为上层，充电功率控制单元为下层，设计双层协同优化模型；

S4、建立上层智能体的优化目标函数，采用Dueling DQN算法进行求解，建立下层智能体的优化目标函数，采用TD3算法进行求解。

本技术方案进一步的优化，所述步骤S1中,制定系统运行模式包括以下步骤，

S11、确定直流快充桩数量为J个，充电等待车位数量为L个；

将J个直流快充桩分别记为CS₁,CS₂,…,CS_j,…,CS_J，在t时刻，充电桩CS_j的状态记为

其中，m_j,

分别表示CS_j所接电动汽车的种类，电池最大容量以及额定充电功率，

p_j(t)分别表示当前电动汽车的荷电状态以及充电功率，若CS_j空闲，则m_j,

p_j(t)＝0，进而，将J个充电桩在t时刻的联合状态记为C(t)＝{c₁(t),c₂(t),…,c_j(t),…c_J(t)}；

S12、记录完充电桩的联合状态后，再将L个充电等待车位分别记为Q₁,Q₂,…,Q_I,…,Q_L，在t时刻，充电等待车位Q_l状态记为q_l＝{m_l,h_l,τ_l}，其中m_l,h_l,τ_l分别表示Q_l上停留电动汽车的种类、荷电状态以及到达时间；

S13、若Q_l无电动汽车等待，则m_l,h_l,τ_l＝0，当等待区域有l_rear辆电动汽车停留时，则L个等待车位的联合状态记为

Q＝{q₁,q₂,…,q_l,…q_L}

S14、当有电动汽车结束充电服务离开充电桩CS_j时，若等待队列有电动汽车，则等待车位Q₁中的电动汽车接入CS_j开始充电服务，如下所示：

q_l＝q_l+1，l∈[1,l_rear-1]

其中p₀表示电动汽车接入充电桩的初始充电功率，

将电动汽车到达作为触发事件，假定M种电动汽车以泊松过程依次到达充电场站，到达率为λ_m(t),m∈Φ_M＝{1,2,…,M}，将电动汽车到达场站的时间序列记为

K_ev表示抵达充电场站电动汽车的总数，τ_k为第k个电动汽车到达场站的时间，当第k辆电动汽车到达场站时，将该触发事件记为e(τ_k)＝{m_e(τ_k),h_e(τ_k),τ_k}，m_e(τ_k),h_e(τ_k)分别表示到达电动汽车的种类和电池荷电状态，

l_rear＝l_rear+1

q_lrear＝e(τ_m)。

本技术方案进一步的优化，所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤：

为第k个分时电价PR_t下发的时刻，则记分时电价序列为

其中，PR_k∈Φ_PR，令

S22、在第k个电价周期下发时刻

服务电价制定单元根据场站未来时间窗口Δ_tou内的场站基线、电网分时电价PR_k、上级削峰指令以及当前时刻排队电动汽车数量l_rear、充电桩的占用比ο，制定

内的充电服务电价

为了方便表示，将服务电价简记为

Φ_pr为充电场站服务价格调节区间；

S23、当服务电价制定单元在决策时刻

发布

内的服务电价计划

后，获得该时段电动汽车的到达率

S24、当电网无调峰需求时，

T_ps为电网调峰时段的集合，CPC将各个充电功率调整为电动汽车的额定充电功率充电，

其中令第d个调度时刻

下发的削峰指令记为

一天的决策总数为Z＝T/δ，T为一天总时长，δ为调度指令下发周期，在CPC的z个决策时刻

充电功率控制单元下发充电功率控制指令为

简记为

S25、当电网有调峰需求时，

充电功率控制单元根据当前充电桩状态

削峰指令

充电服务价格

和电网分时电价

下发充电功率控制指令

如下所示：

为J维的向量，向量各个数值为充电桩的充电调整功率，

为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c，

各个充电桩充电功率变化如下：

S26、充电场站将在决策时段

内，CPC以历史运行曲线为基准削减

的用电功率，同时调度中心会根据场站的实际响应情况对场站的削峰行为进行奖惩，将削峰时段内任意时刻t下的单位时间削峰奖惩记为γ(t)

其中，P_t ^bl为充电场站基线，k_cop为惩罚系数，

为削峰量，k_int为奖励系数，ε_t为实际削减量，Φ_J为充电桩的集合，p_j(t)为第j个充电桩t时刻的充电功率。

本技术方案进一步的优化，所述步骤S3中,建立双层协同优化模型包括以下步骤：

S31、根据场站的运行模式，以服务电价制定单元为上层，充电功率控制单元为下层，设计双层协同优化模型，上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度，制定充电服务价格改变电动汽车用户的到达率，使场站初步实现削峰填谷，下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价，在削峰时段控制充电桩的充电功率以响应上层调度机构；

S32、在第k个分时电价周期内的任意时刻t，令充电桩状态为C(t)，充电服务电价为

将场站充电服务单位时间收益记为

如下所示：

其中，

为充电桩cs_j所连电动汽车刚抵达场站时的充电服务价格，若电动汽车在等待过程中充电服务费用上涨，出于对用户的补偿，该电动汽车的充电服务费用不变；

S33、当削峰时段Τ_PS削减部分充电桩的充电功率时，对于该部分用户给予一定的补偿，记为c_com，则场站在一天的运行过程获得的整体收益r_eco，如下所示：

r_eco＝r_ser+r_ps-c_com

令r_ser为动车用户提供充电服务获得服务收益，r_ps为通过参与电网的削峰响应获取响应报酬，

表示单位时间内给予充电桩CPS_j上电动汽车的补偿成本，该值由当前电动汽车的充电功率，额定充电功率和补偿系数

决定，如下：

S34、由于上层智能体通过制定不同电价周期Δ_tou内的充电服务价格，影响电动汽车用户在峰谷时段的到达率，进而提高场站充电桩的利用率以提高场站的充电收益，于此同时，部分充电用户会由于服务电价的上涨而降到充电服务的满意度，因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为

其中

为充电服务价格空间Φ_pr内的原始充电服务电价，D^SPM为固定代价系数，上层智能体在考虑服务价格满意度情况下，实现场站一天的经济效益最优，其优化目标记为goal_spm，如下所示

其中

为子目标权重系数；

S35、下层智能体在削峰时段Τ_PS内会削减部分充电桩的充电功率，

导致电动汽车用户充电时间延长，假设在下层智能体的削峰时段内的任意决策时刻

其充电控制指令为

则在决策时段内任意时刻t下，

单位时间内下层满意度代价为

如下所示：

上层智能体在兼顾用户满意度代价及补偿的情况下，实现削峰响应经济收益最大，其优化目标记为goal_cpc，

其中

为子目标权重系数。

本技术方案进一步的优化，所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解：

上层智能体的目标是在有限时间范围内最大化累积奖励，由于车辆流量的随机性，它自然是一个随机变量，当从初始状态s_up(0)开始时经过K步转移累计的总收益为：

如果考虑初始状态随机，则上层智能体的优化目标函数为：

优化策略π^*为最大化

所得的控制策略，即

上层智能体采用Dueling DQN算法进行求解；

下层智能体在决策时刻

的决策状态为

其中

为子目标权重系数。

S4、建立上层智能体的优化目标函数，采用Dueling DQN算法进行求解。建立下层智能体的优化目标函数，采用TD3算法进行求解。

制定基于分层强化学习的充电场站协同调峰优化策略包括以下步骤：

S41、将充电服务价格空间

用常量ε^pr离散为2N^up+1个等级，其中

则第k个决策时刻的动作a^up(k)∈{-N^up,-N^up+1,…0,…,N^up}对应的充电服务价格为

上层智能体在决策时刻

的决策状态为

其中

表示

内的充电场站基线，

W＝Δ_tou/δ；

表示

内削峰功率总量；PR_k,ο_k,

分别表示在

时电网分时电价、充电桩占用比及等待队列长度。

S42、在决策时刻

上层智能体处于状态s_up(k)采取动作a^up(k)后，在下一时刻

其中

为单位时间内下层满意度代价，r单位时间内经济性若

时段内没有电网削峰指令，γ(t),

建立上层智能体的优化目标函数为：

优化策略π^*为最大化

所得的控制策略，即

S44、使用深度强化学习Dueling DQN算法对上层智能体进行求解。

S45、令状态动作到充电桩功率的映射关系记为

如下所示：

为中间变量

其中下层智能体在决策时刻

的决策状态为

该状态下的动作定义为

为下层智能体在决策时刻

的基线功率，sgn(z,j)为0/1变量，表示在决策时刻

时充电桩cs_j是否有电动充电。若有sgn(z,j)＝1；反之，sgn(z,j)＝0。

S46、在决策时刻

下层智能体处于状态s_low(z)采取动作a^low(z)后，在下一时刻

考虑初始状态随机，设下层智能体的优化目标函数为：

优化策略υ^*为最大化

所得的控制策略，即

S48、使用TD3算法(Twin Delayed Deep Deterministic policy gradientalgorithm)对下层智能体进行求解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

如下所示：

为J维的向量，向量各个数值为充电桩的充电调整功率，

为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c。

各个充电桩充电功率变化如下：

S26、充电场站将在决策时段

内，CPC以历史运行曲线为基准削减

的用电功率。同时调度中心会根据场站的实际响应情况对场站的削峰行为进行奖惩，将削峰时段内任意时刻t下的单位时间削峰奖惩记为γ(t)

其中，P_t ^bl为充电场站基线，一般由充电场站典型运行日历史运行数据统计获得。k_cop为惩罚系数，

S3、根据场站的运行模式，以SPM为上层，CPC为下层，设计双层协同优化模型。

建立双层协同优化模型包括以下步骤：

S31、根据场站的运行模式，以SPM为上层，CPC为下层，设计双层协同优化模型。上层智能体综合考虑场站运行收益以及用户对于服务电价的满意度，制定充电服务价格改变电动汽车用户的到达率，使场站初步实现削峰填谷。下层智能体综合削峰响应收益以及用户对于削减充电功率的满意度代价，在削峰时段控制充电桩的充电功率以响应上层调度机构。

将场站充电服务单位时间收益记为

如下所示：

其中，

为充电桩cs_j所连电动汽车刚抵达场站时的充电服务价格，若电动汽车在等待过程中充电服务费用上涨，出于对用户的补偿，该电动汽车的充电服务费用不变。

S33、当削峰时段Τ_PS削减部分充电桩的充电功率时，我们对于该部分用户给予一定的补偿，记为c_com。则场站在一天的运行过程获得的整体收益r_eco，如下所示：

r_eco＝r_ser+r_ps-c_com

令r_ser为动车用户提供充电服务获得服务收益，r_ps为通过参与电网的削峰响应获取响应报酬。

决定，如下：

S34、由于上层智能体通过制定不同电价周期Δ_tou内的充电服务价格，影响电动汽车用户在峰谷时段的到达率，进而提高场站充电桩的利用率以提高场站的充电收益。于此同时，部分充电用户会由于服务电价的上涨而降到充电服务的满意度，因此将[t,t′]时段内用户对于充电服务价格的满意度代价记为

其中

为充电服务价格空间Φ_pr内的原始充电服务电价，D^SPM为固定代价系数。上层智能体在考虑服务价格满意度情况下，实现场站一天的经济效益最优，其优化目标记为goal_spm，如下所示

其中

为子目标权重系数。

导致电动汽车用户充电时间延长。因此，设计基于相对延长充电时间的用户满意度指标。假设在下层智能体的削峰时段内的任意决策时刻

其充电控制指令为

则在决策时段内任意时刻t下，

单位时间内下层满意度代价为

如下所示：

Claims

1.一种基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于：所述步骤S1中,制定系统运行模式包括以下步骤，

S11、确定直流快充桩数量为J个，充电等待车位数量为L个；

其中，m_j,

Q＝{q₁,q₂,…,q_l,…q_L}

q_l＝q_l+1，l∈[1,l_rear-1]

其中p₀表示电动汽车接入充电桩的初始充电功率，

将电动汽车到达作为触发事件，假定M种电动汽车以泊松过程依次到达充电场站，到达率为λ_m(t),m∈Φ_M＝{1,2,…,M}，M为电动车的种类数量，将电动汽车到达场站的时间序列记为

l_rear＝l_rear+1

3.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于：所述步骤S2中建立充电场站双中心协同调峰系统包括以下步骤：

为第k个分时电价PR_t下发的时刻，则记分时电价序列为

其中，PR_k∈Φ_PR，令

S22、在第k个电价周期下发时刻

内的充电服务电价

为了方便表示，将服务电价简记为

Φ_pr为充电场站服务价格调节区间；

S23、当服务电价制定单元在决策时刻

发布

内的服务电价计划

后，获得该时段电动汽车的到达率

S24、当电网无调峰需求时，

其中令第d个调度时刻

下发的削峰指令记为

充电功率控制单元下发充电功率控制指令为

简记为

S25、当电网有调峰需求时，

充电功率控制单元根据当前充电桩状态

削峰指令

充电服务价格

和电网分时电价

下发充电功率控制指令

如下所示：

为J维的向量，向量各个数值为充电桩的充电调整功率，

为下层智能体在第Z个决策时刻第j个充电桩的充电功率为c，

各个充电桩充电功率变化如下：

S26、充电场站将在决策时段

内，CPC以历史运行曲线为基准削减

其中，P_t ^bl为充电场站基线，k_cop为惩罚系数，

4.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于：所述步骤S3中,建立双层协同优化模型包括以下步骤：

将场站充电服务单位时间收益记为

如下所示：

其中，

r_eco＝r_ser+r_ps-c_com

决定，如下：

其中

其中

为子目标权重系数；

其充电控制指令为

则在决策时段内任意时刻t下，

单位时间内下层满意度代价为

如下所示：

其中

为子目标权重系数。

5.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于：所述步骤S4中建立上下层智能体的优化目标函数并使用相关算法进行求解：

如果考虑初始状态随机，则上层智能体的优化目标函数为：

优化策略π^*为最大化

所得的控制策略，即

上层智能体采用DuelingDQN算法进行求解；

下层智能体在决策时刻

的决策状态为

该状态下的动作定义为

令状态动作到充电桩功率的映射关系记为

如下所示：

其中sgn(z,j)为0/1变量，表示在决策时刻

假设在决策时刻

考虑初始状态随机，则下层智能体的优化目标函数为：

优化策略υ^*为最大化

所得的控制策略，即

下层智能体采用TD3算法进行求解。

6.根据权利要求1所述的基于分层强化学习的电动汽车充电场站协同调峰方法，其特征在于：所述步骤S4具体包括以下步骤，

S41、将充电服务价格空间

用常量ε^pr离散为2N^up+1个等级，其中

上层智能体在决策时刻

的决策状态为

其中

表示

内的充电场站基线，

W＝Δ_tou/δ；

表示

内削峰功率总量；PR_k,ο_k,

分别表示在

时电网分时电价、充电桩占用比及等待队列长度；

S42、在决策时刻

上层智能体处于状态s_up(k)采取动作a^up(k)后，在下一时

其中

为单位时间内下层满意度代价，r单位时间内经济性，其中若

时段内没有电网削峰指令，

建立上层智能体的优化目标函数为：

优化策略π^*为最大化

所得的控制策略，即

S45、令状态动作到充电桩功率的映射关系记为

如下所示：

其中

为中间变量，下层智能体在决策时刻

的决策状态为

该状态下的动作定义为

sgn(z,j)为0/1变量，表示在决策时刻

S46、在决策时刻

下层智能体处于状态s_low(z)采取动作a^low(z)后，在下一时刻

考虑初始状态随机，设下层智能体的优化目标函数为：

优化策略υ^*为最大化

所得的控制策略，即

S48、使用TD3算法对下层智能体进行求解。