CN111934335A

CN111934335A - 一种基于深度强化学习的集群电动汽车充电行为优化方法

Info

Publication number: CN111934335A
Application number: CN202010830378.XA
Authority: CN
Inventors: 胡俊杰; 赵星宇
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-13
Anticipated expiration: 2040-08-18
Also published as: CN111934335B

Abstract

本发明公开了属于新能源汽车优化管理技术领域的一种基于深度强化学习的集群电动汽车充电行为优化方法。本发明为基于双延迟深度确定性策略梯度算法，实现对电动汽车的功率连续可调充电过程进行建模，训练智能体控制充电功率，优化电动汽车充电行为，将分时电价高时的负荷向电价低时进行转移，达到减少用户充电开销，平抑电网峰时负荷的目的；相较于传统的优化控制方法，TD3在速度和灵活性上优势明显，且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。为增强智能体的泛化能力，本发明在原有状态观测上添加噪声，模拟一组初始SOC不同，到达与驶离时间各异的电动汽车，并扩展到集群电动汽车充电行为控制。

Description

一种基于深度强化学习的集群电动汽车充电行为优化方法

技术领域

本发明属于电力系统优化调度领域，特别涉及一种基于深度强化学习的集群电动汽车充电行为优化方法。

背景技术

中国高度重视新能源汽车产业发展；预计到2025年，新能源汽车销量占比将达到25％左右，以2025年汽车当年累计产销总量2800万为基数计算，2025年新能源汽车产销总量将达到700万辆左右。电动汽车的大功率与时空不确定性会改变电网现有的负荷水平，进一步加大峰谷差，对电网的安全稳定性造成冲击。

作为需求侧管理的重要手段，峰谷分时电价在引导规范用电行为，辅助电网削峰填谷等方面发挥着重要作用。负荷聚合商(aggregator)可以响应充电分时电价(time-of-use tariff for charging)，合理调整电动汽车充电行为，平抑负荷波动，减少用户充电成本。相较于其他可控负荷与储能设备，电动汽车具有特殊性，其调控要以满足用户出行与充放电意愿为前提。如何在满足不同用户的出行需求的基础上，快速响应电价信号，实时优化集群电动汽车充电行为，有重要的研究意义。

对集群电动汽车的充电行为优化问题，学术界传统的思路是对电动汽车的整个充电周期建模，构造优化目标与约束条件，然后用传统运筹学的方法，或是用交叉熵算法、交叉遗传粒子群算法、模拟退火算法等智能算法进行求解。当电动汽车集群规模较大时，上述方法的求解过程会耗费大量的时间和计算资源，甚至遇到“维度灾难”使结果无法收敛；此外，面对用户需要临时改变充电计划的情形，上述方法需要改变约束条件再次求解，使其在灵活性方面有所欠缺。

强化学习是一种数据驱动的机器学习方法，其特点在于不需要系统的先验知识，通过构造序列决策问题，训练智能体迭代完成对历史运行状态的动态学习，基于经验积累与回报分析得到问题的最优解。强化学习与深度学习结合形成的深度强化学习(deepreinforcement learning，DRL)，集合深度学习强大的信息表征能力与强化学习对序列决策的优化能力，为诸多复杂优化调度问题的求解提供了新的思路。在智能电网需求侧管理领域，深度强化学习已经有相关结合点：例如在家庭能量管理系统(Home EnergyManagement Systems,HEMS)中引入深度强化学习方法控制可中断负荷投切时间以辅助用户优化用电行为；此前已经有相关工作用深度强化学习方法控制电动汽车入网(vehicleto Grid，V2G)模式下电动汽车的充放电行为，合理消纳可再生能源发电，但该文献仅仅考虑充电与不充电两种充电桩工作状态，且没有对用户取车时的目标SOC做出约束，难以满足用户的实际出行需求。

本发明的目的是，基于深度强化学习这一技术，提供一种在充分考虑电动汽车特性的基础上，既能降低计算复杂度，又能保证调度优化性的集群电动汽车的电动汽车充电行为管理方法。

当前最先进的强化学习算法之一是双延迟深度确定性策略梯度(twin delayDDPG,TD3)对单辆电动汽车功率连续可调假设下的充电过程进行建模，控制充电功率，优化电动汽车充电行为。相较于传统的优化控制方法，TD3在速度和灵活性上优势明显，且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。通过在训练智能体时向其状态中引入随机噪声，该模型获得了对不同状态下电动汽车充电行为的泛化控制能力。通过对训练得到的智能体进行分布式部署，该方法实现了对集群电动汽车充电行为的高速实时分布式优化。最终，通过算例对该方法的优化效果进行了展示与分析。

发明内容

本发明的目的是提供一种基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法；该优化方法是基于双延迟深度确定性策略梯度法，实现对电动汽车的功率连续可调充电过程进行建模，训练智能体控制充电功率，优化电动汽车充电行为，将分时电价高时的负荷向电价低时进行转移，达到减少用户充电开销，平抑电网峰时负荷的目的；该集群电动汽车充电行为优化方法包含如下步骤：

步骤A.建立集群电动汽车充电管理的数学优化模型。

步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程，确定时刻t对应的状态s_t、动作a_t和奖励r_t。

步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程，并通过在初始状态上增加随机噪声，训练获得包含任意状态s_t到动作a_t映射的鲁棒智能体。

步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上，实现集群电动汽车的充电优化管理，并通过算例对控制性能进行了验证。

所述步骤A.建立集群电动汽车充电管理的数学优化模型包括如下步骤：

步骤A1.确定优化模型的目标函数，作为电网与用户的中间环节，负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额；在充电管理服务费额定时，通过响应分时电价优化电动汽车集群的充电行为，降低电网购买电量的开销，负荷聚合商可以获得更大的利润空间；故电动汽车集群的充电行为的优化目标为是全时段下集群电动汽车充电的总电费开销f，

式中：P_i,t为第i辆车在时刻t时的充电功率；λ_t是时刻t时的分时电价；N_t是t时刻接入电网的EV数目；t_i,arr与t_i,dep分别是第i辆车到达充电站与驶离充电站的时刻；

步骤A2.拟合充电桩的平均充电效率

与充电功率P间的函数关系，对于充电功率连续的充电桩,其平均充电效率

与充电功率P的关系列表，对表内数据做多项式拟合，得到平均充电效率

关于充电功率P函数关系的近似表达式

步骤A3.确定优化模型的约束条件，为满足用户的出行需求，合理规避过充与欠充的情况，在取车离开时，EV电池的SOC应该在用户期望的区间内，综上所述，对任意第i辆EV的约束条件为

0≤P_i,t≤P_max (5)

t_i,arr≤t<t_i,dep (7)

式中：

是第i辆车在时刻t时的SOC大小；

是用户离开时期望的SOC大小；

是第i辆车的电池容量大小；

是第i辆车在时刻t时，充电功率P_i,t下由式(2)对应的充电效率；δ是离开取车时的SOC与期望的SOC之间的可以允许的差值；Δt是输出功率改变时刻间的间隔。

所述步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤：

步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标；强化学习是一类求解序列决策问题的有效方法，其中的主要角色是智能体和环境，环境是智能体存在和交互的世界；智能体在每一步的交互中，都会获得对于所处环境状态的观测(观测是状态的一个子集)，然后依靠某个策略决定下一步要执行的动作；环境会因为智能体对它的动作而改变，也可能自己改变；智能体也会从环境中感知到一个表明当前状态好坏的奖励信号的数字，智能体的目标是最大化累计奖励，即

式中：r_t是每一步获得的奖励，γ∈(0,1)称为折扣因子，表示奖励随时间步数增长衰减的速率，R(τ)指代所有可能的情况下奖励的集合；强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法；

步骤B2.定义马尔可夫决策过程的状态，状态s_t是对当前时刻t下情景的描述，所选取的s_t应为智能体的决策提供足够的参考，同时也要减少冗余的信息对决策的干扰；对任意选取的第i辆车，选择变量

构成s_t，即

步骤B3.定义马尔可夫决策过程的动作，动作a_t是当前时刻t下智能体在从环境中观测到状态s_t后，向环境做出的反应，对任意选取的第i辆车，选择充电功率作为a_t，即

a_t＝P_i,t (10)

步骤B4.定义马尔可夫决策过程的奖励，由式(8)可知，模型的优化目标为最小化EV集群的充电开销，故对任意选取的第i辆车，设计奖励函数

为

是一个负奖励，在时刻t下，充电开销越大，

的值越小；反之，充电开销越小，

的值越大；故

鼓励节约充电开销的充电行为；对任意第i辆EV，为满足式(4)表示的取车时SOC区间约束条件，设置SOC区间奖励

仅在取车时刻t_i,dep且满足

时为1，其余情况下均为0；考虑到智能体在探索阶段不易获得使

的样本，难以学到有效经验，给算法的收敛带来了困难；为此，提出一种奖励塑形(reward shaping)技术，通过松弛约束条件，逐步引导算法向目标方向收敛，奖励塑形后SOC区间

重新定义为

最终，定义r_t为

的加权线性组合

所述步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程，包括如下步骤：

步骤C1.在初始状态中添加噪声，考虑到式(2)中引入的非线性因子，当大量电动汽车接入构建的场景中时，该模型的求解会消耗大量的时间与算力资源；同时，EV用户的取车行为具有不确定性，当第i辆车的车主临时改变取车计划时，即t_i,dep改变时，N_ti,dep也会随之变化，这意味着需要对上述模型重新进行求解；在大量EV接入的场景下，改变充电计划的可能性随接入EV数目按指数关系激增，这无疑又增大了求解的难度，为此提出一种基于分布式部署与深度强化学习的解决方案，首先，由于电动汽车集群中，不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面，利用不同EV主体间的结构相似性，该专利对电动汽车集群进行解耦。接下来，该专利将解耦后的第i辆EV的充电行为构造为序列决策过程，并利用深度强化学习方法进行求解，训练神经网络获得每一个时刻从

到待优化变量P_i,t的映射关系；考虑到，不同的EV主体

存在差异，在强化学习求解序列决策时对

分别加上随机噪声，以方便在后续的步骤中获得鲁棒的，适用于所有EV主体的智能体；

步骤C2.利用TD3对优化问题进行迭代求解，训练智能体；假设充电桩功率连续可调，动作a_t具有连续的取值，选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器；TD3算法由估值网络和策略网络两个部分组成；策略网络建立由状态s_t到动作a_t的映射，而估值网络对策略网络建立的映射做出的量化评估，称为价值函数Q，以上映射关系描述为

由式(16)，以将[s_t,a_t]下的价值函数用Q(s_t,a_t)表示。Q(s_t,a_t)越大，表示在状态s_t下选择a_t更有可能获得高收益，故可以向增大Q(s_t,a_t)的梯度方向更新策略网络，改善策略网络性能；而价值函数Q(s_t,a_t)的估计值与真实值的误差可以通过基于Q(s_t,a_t)的时间差分误差迭代修正。

所述步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上，包括：

步骤D1.智能体的部署，在训练收敛后，策略网络可以通过前向传播获得任意状态s_t下对应的最优动作a_t，训练好的策略网络即EV充电控制的智能体；在假设的电动汽车集群充电站环境中，充电优化过程可以由智能体分布式部署实现，其具体技术方案为

(1)设计微型充电控制器，具有存储，计算，通信的功能，将其加装在EV充电桩上，当充电桩接入EV时，充电控制器启动；

(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信；

(3)将训练好的智能体存储到微型充电控制电路中，编写程序，实现模型的调用功能，与通信系统配合，优化充电行为；

步骤D2.通过算例对控制效果进行验证，参数设置为任意第i辆EV驶入充电站的时间t_i,arr满足正态分布

t_i,arr～N(8,1) (17)

设置任意第i辆EV驶离充电站的时间t_i,dep满足正态分布

t_i,dep～N(18,1) (18)

设置任意第i辆EV到达充电站时的初始SOC值

满足正态分布

t_i,dep～N(18,1) (19)

在训练智能体时，设置式(17)中的衰减因子ρ

式中：eps是训练过程中当前的批次数，meps是训练过程中的总批次数，当eps→meps，训练过程趋于完结；

所述的策略迭代过程是始终向着增大价值函数Q(s_t,a_t)的方向进行更新的，这一性质会导致在训练智能体时Q(s_t,a_t)的估计值远大于真实值，为算法的收敛带来困难；智能体最后都在EV即将驶离时将SOC控制在了0.85～0.90的目标范围内；其均匀充电策略的充电功率

通过求解方程

解出，该策略可以将充电功率在EV驶入时间t_i,arr与EV驶离时间t_i,dep之间进行平均分配。

本发明有益效果是本发明为基于双延迟深度确定性策略梯度算法，实现对电动汽车的功率连续可调充电过程进行建模，训练智能体控制充电功率，通过优化单体电动汽车充电行为实现集群电动汽车的充电行为优化，将分时电价高时的负荷向电价低时进行转移，达到减少用户充电开销，平抑电网峰时负荷的目的；相较于传统的优化控制方法，本发明对训练得到的智能体进行分布式部署，该方法实现了对集群电动汽车充电行为的高速实时分布式优化。本发明具有如下特点：

(1)通过双延迟深度确定性策略梯度算法(TD3)训练的智能体鲁棒性好，泛化能力强，在不同的初始条件下均能满足用户的出行需求，在集群电动汽车充电行为优化问题上控制效果出色，实现响应分时电价、节约充电开销，平抑电网峰值的目。

(2)灵活性强，面对控制过程中用户需求临时改变的情况，智能体可以做出即时、有效的反应，不需重新训练或部署。

(3)相较传统运筹优化方法，该方法计算速度快，训练好的智能体仅需要对策略网络做一次前向传播就可以做出决策。

附图说明

图1为系统的整体控制框架示意图。

图2为充电效率与充电功率关系近似表达式拟合情况。

图3为强化学习中的核心概念。

图4为TD3算法训练流程图。

图5为分时电价。

图6为TD3算法学习曲线。

图7为SOC优化结果展示。

图8为充电开销优化结果展示。

具体实施方式

本发明提供一种基于深度强化学习的集群电动汽车充电行为优化方法，所述该优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法；该优化方法是基于双延迟深度确定性策略梯度(twin delay DDPG,TD3)算法，实现对电动汽车的功率连续可调充电过程进行建模，训练智能体控制充电功率，优化电动汽车充电行为，将分时电价高时的负荷向电价低时进行转移，达到减少用户充电开销，平抑电网峰时负荷的目的；通过双延迟深度确定性策略梯度算法(twin delay deep deterministic policy gradient,TD3)对单辆电动汽车充电过程进行建模。通过在训练智能体时向其状态中引入随机噪声，该模型获得了对不同状态下的电动汽车充电行为的泛化控制能力。下面结合附图对本发明予以进一步说明。该方法其具体实施方式主要包含如下步骤：

步骤A.建立集群电动汽车充电管理的数学优化模型。

步骤A1.确定优化模型的目标函数。作为电网与用户的中间环节，负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额。在充电管理服务费额定时，通过响应分时电价优化电动汽车集群的充电行为，降低电网购买电量的开销，负荷聚合商可以获得更大的利润空间。故电动汽车集群的充电行为的优化目标为

式中：P_i,t为第i辆车在时刻t时的充电功率；λ_t是时刻t时的分时电价；N_t是t时刻接入电网的EV数目；t_i,arr与t_i,dep分别是第i辆车到达充电站与驶离充电站的时刻；f是全时段下集群电动汽车充电的总电费开销。

步骤A2.拟合充电桩的平均充电效率

与充电功率P间的函数关系。对于充电功率连续的充电桩,其关系如表1所示。通过对表内数据做多项式拟合，拟合情况如图2所示，得到平均充电效率

关于充电功率P函数关系的近似表达式

表1平均充电效率、随充电功率范围变化表

平均充电效率(单位：p.u)随充电功率P(单位：KW).

步骤A3.确定优化模型的约束条件。为满足用户的出行需求，合理规避过充与欠充的情况，在取车离开时，EV电池的SOC应该在用户期望的区间内，综上所述，对任意第i辆EV，该问题的约束条件为

0≤P_i,t≤P_max (26)

t_i,arr≤t<t_i,dep (28)

式中：

是第i辆车在时刻t时的SOC大小；

是用户离开时期望的SOC大小；

是第i辆车的电池容量大小；

步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标。强化学习是一类求解序列决策问题的有效方法，其核心概念如图3所示，其中的主要角色是智能体和环境，环境是智能体存在和交互的世界。智能体在每一步的交互中，都会获得对于所处环境状态的观测(观测是状态的一个子集)，然后依靠某个策略决定下一步要执行的动作。环境会因为智能体对它的动作而改变，也可能自己改变。智能体也会从环境中感知到奖励信号，一个表明当前状态好坏的数字。智能体的目标是最大化累计奖励，即

式中：r_t是每一步获得的奖励，γ∈(0,1)称为折扣因子，表示奖励随时间步数增长衰减的速率，R(τ)指代所有可能的情况下奖励的集合。强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法。

步骤B2.定义马尔可夫决策过程的状态。状态s_t是对当前时刻t下情景的描述，所选取的s_t应为智能体的决策提供足够的参考，同时也要减少冗余的信息对决策的干扰。对任意选取的第i辆车，我们选择变量

构成s_t，即

步骤B3.定义马尔可夫决策过程的动作。动作a_t是当前时刻t下智能体在从环境中观测到状态s_t后，向环境做出的反应，对任意选取的第i辆车，选择充电功率作为a_t，即

a_t＝P_i,t (31)

步骤B4.定义马尔可夫决策过程的奖励。由式(8)可知，模型的优化目标为最小化EV集群的充电开销，故对任意选取的第i辆车，设计奖励函数

为

是一个负奖励，在时刻t下，充电开销越大，

的值越小；反之，充电开销越小，

的值越大；故

鼓励节约充电开销的充电行为。对任意第i辆EV，为满足式(4)表示的取车时SOC区间约束条件，设置SOC区间奖励

仅在取车时刻t_i,dep且满足

时为1，其余情况下均为0。考虑到智能体在探索阶段不易获得使

的样本，难以学到有效经验，给算法的收敛带来了困难。为解决该问题，提出一种奖励塑形技术，通过松弛约束条件，逐步引导算法向目标方向收敛，奖励塑形后SOC区间

重新定义为

最终，定义r_t为

的加权线性组合

步骤C1.在初始状态中添加噪声。考虑到式(2)中引入的非线性因子，当大量电动汽车接入构建的场景中时，该模型的求解会消耗大量的时间与算力资源；同时，EV用户的取车行为具有不确定性，例如：当第i辆车的车主临时改变取车计划时，即t_i,dep改变时，

也会随之变化，这意味着我们需要对上述模型重新进行求解；在大量EV接入的场景下，改变充电计划的可能性随接入EV数目按指数关系激增，这无疑又增大了求解的难度。面对这样一个大规模、动态的优化问题，该专利提出一种基于分布式部署与深度强化学习的解决方案。首先，由于电动汽车集群中，不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面，利用不同EV主体间的结构相似性，该专利对电动汽车集群进行解耦。接下来，该专利将解耦后的第i辆EV的充电行为构造为序列决策过程，并利用深度强化学习方法进行求解，训练神经网络获得每一个时刻从

到待优化变量P_i,t的映射关系。考虑到，不同的EV主体

存在差异，本文在强化学习求解序列决策时对

分别加上随机噪声，以方便在后续的步骤中获得鲁棒的，适用于所有EV主体的智能体。

步骤C2.利用TD3对优化问题进行迭代求解，训练智能体。由于我们假设充电桩功率连续可调，动作a_t具有连续的取值，本文选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器，该算法是目前最先进的针对连续动作空间设计的深度强化学习算法之一，具有训练过程收敛速度快，稳定性好的优势。TD3算法由估值网络和策略网络两个部分组成。策略网络建立由状态s_t到动作a_t的映射，而估值网络对策略网络建立的映射做出的量化评估，称为价值函数Q，以上映射关系描述为

由式(16)，以将[s_t,a_t]下的价值函数用Q(s_t,a_t)表示。Q(s_t,a_t)越大，表示在状态s_t下选择a_t更有可能获得高收益，故可以向增大Q(s_t,a_t)的梯度方向更新策略网络，改善策略网络性能；而价值函数Q(s_t,a_t)的估计值与真实值的误差可以通过动态规划中的策略迭代方法，基于Q(s_t,a_t)的时间差分误差迭代修正。

在策略迭代过程中，策略网络是始终向着增大价值函数Q(s_t,a_t)的方向进行更新的，这一性质会导致在训练智能体时Q(s_t,a_t)的估计值远大于真实值，为算法的收敛带来困难；TD3算法为解决价值函数的高估问题，采用以下手段：

(1)将估值网络分解为两个通道输出一对价值函数Q₁(s_t,a_t)与Q₂(s_t,a_t)，取两者的最小值作为估值网络结果；

(2)构造目标估值网络与目标策略网络，其结构通估值网络与策略网络完全一致，通过软更新从原先的策略网络与估值网络向目标网络传递参数，延缓目标网络的更新速度；TD3算法使用经验回放技术,对探索过程中智能体获得的经验，即[s_t,a_t,r_t,s_t+1]组成的四元组数据进行存储；经验回放中的数据为队列结构，当经验回放数据存满后，按照“先进先出”规则对存储数据进行替换；在更新网络参数时从经验回放中随机按批量抽取四元组数据用于梯度更新。

TD3算法训练智能体的具体步骤如下

(1)分别初始化估值网络、目标估值网络、策略网络、目标策略网络的参数θ,θ',

(2)与环境交互获取当前状态s_t，利用策略网络得到该状态下对应的动作a_t。

(3)为对环境进行探索,在动作a_t上叠加动作噪声σ得到随机动作

即

式中：ρ为噪声衰减因子，训练刚开始时，为全面探索环境，ρ较大；随着训练过程的进行，ρ逐渐衰减，使

减少动作a_t因噪声∈带来的误差。

(4)利用随机动作

与环境进行交互，得到下一时刻的状态st₊₁与奖励rt,利用经验回放技术将交互获得的四元组数据

当经验回放中的数据量足够时，从经验回放中按批量随机抽取四元组

(5)通过目标策略网络获得状态s_t'+1下的目标动作a_t′_'+1，这里以及下文以t',t'+1为下标的变量都是对批量进行操作，之后不再赘述。

(6)为提高训练过程的鲁棒性，在目标动作a′_t'+1上叠加动作噪声σ'得到随机目标动作

(7)通过估值网络，状态s_t'下动作

对应的价值函数

与

(8)用目标估值网络，得到状态st'₊1下随机目标动作

对应的目标价值函数

与

由贝曼方程(Bellman equation),可以求得状态s_t下动作a_t对应的目标价值函数Q^target

(9)通过最小化损失函数对估值网络参数θ进行更新，关于参数θ的损失函数LossCritic(θ)可以表示为

(10)通过最小化损失函数对策略网络参数

进行更新，关于参数

的损失函数

可以表示为

(11)目标网络的参数θ',

由估值网络与策略网络参数θ通过软更新得到

θ′＝(1-τ)·θ′+τ·θ (43)

式中：τ为软更新速率因子，当τ越大时，估值网络参数θ与策略网络参数

向目标网络参数θ',

的传递速度越快。

上述TD3算法训练过程如图4框图所示

步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上，实现集群电动汽车的充电优化管理，并通过算例对控制性能进行了验证。步骤D1.智能体的部署。在训练收敛后，策略网络可以通过前向传播获得任意状态s_t下对应的最优动作a_t，训练好的策略网络即EV充电控制的智能体。在本文假设的电动汽车集群充电站环境中，充电优化过程可以由智能体分布式部署实现，其具体技术方案为

(1)设计微型充电控制器，具有存储，计算，通信的功能，将其加装在EV充电桩上，当充电桩接入EV时，充电控制器启动。

(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信

(3)将训练好的智能体存储到微型充电控制电路中，编写程序，实现模型的调用功能，与通信系统配合，优化充电行为。

与集中式优化求解方法相比较，分布式部署方案避免了维度灾难，通过前向传播就可得到当前时刻下的优化充电功率，节省海量算力，降低微型充电控制器的硬件成本，相较传统方案，该方案在经济性与灵活性方面优势明显。

步骤D2.通过算例对控制效果进行验证。为验证该方法在集群电动汽车充电优化问题上的效果，选取一座充电桩数N＝200的电动汽车充电站作为算例。该区域的商用分时电价设置如表2所示；分时电价可视化如图5所示。

表2分时电价

该区域的商用分时电价设置的参数做如下设置：任意第i辆EV驶入充电站的时间t_i,arr满足正态分布

t_i,arr～N(8,1) (45)

设置任意第i辆EV驶离充电站的时间t_i,dep满足正态分布

t_i,dep～N(18,1) (46)

设置任意第i辆EV到达充电站时的初始SOC值

满足正态分布

t_i,dep～N(18,1) (47)

由于分时电价按小时变化，设置Δt＝1h；设置EV电池容量

设置EV驶离时的期望SOC值

设置EV驶离时SOC的偏差容忍度δ＝0.025；设置EV充电桩的功率上限P_max＝10KW·h；设置充电过程中允许的SOC上限

在训练智能体时，对参数进行如下设置；设置式(14)中的奖励权重α＝1,β＝10；设置式(17)中的噪声σ＝2；设置式(17)中的衰减因子ρ

式中：eps是训练过程中当前的批次数，meps是训练过程中的总批次数，当eps→meps，训练过程趋于完结，式(17)中的噪声项ρ·∈→0；设置式(18)中的噪声σ'＝0.2；设置折扣因子γ＝0.99；设置式(22)(23)中的软更新速率因子τ＝0.005；选取MXnet-14.0深度学习框架搭建策略网络与估值网络，网络都为四层结构，具有两个单元数为128的中间层，通过泽维尔(Xavier)初始化网络参数，拷贝到目标策略网络与目标估值网络中；对损失函数式(20)与式(21)进行更新时,选择Adam优化器并设置学习率lr＝10^-4；设置经验回放长度l＝10⁶；设置批量大小batchsize＝128；总训练批次meps＝3×10⁴。为加速算法的收敛速度，每与环境进行一轮交互，就对网络参数进行20次更新，即每一训练批次eps内进行20次对(20)(21)的梯度更新过程与式(22)(23)的软更新过程。整个训练过程如图6所示。为方便训练过程的可视化，计算每20批次的平均奖励显示在图6中，并对奖励做了平滑处理。由图6知，训练过程中奖励大小逐步提升，最终收敛在7.5附近。最终SOC的优化结果如图7所示。取编号为7、52、93、142、169、194的6辆EV对集群电动汽车的SOC的优化结果进行展示，结合图7中原始SOC优化结果图线与图5中的分时电价图线可以看出，在不同的初始条件下，该方法训练出的智能体都选择在分时电价较高的尖峰时段减小充电功率，在分时电价较低的时段增大充电功率；分时电价是电网峰谷趋势的价格反映，该行为模式不但能节省充电电费开销，也能缓解电网的峰时负荷压力；同时，在不同的初始条件下，智能体最后都在EV即将驶离时将SOC控制在了0.85～0.90的目标范围内。由此可见，该方法训练的智能体鲁棒性好，泛化能力强，可以通过分布部署的放式，应用到集群EV的充电优化问题中。考虑到在实际应用中可能遇到的用户临时改变取车计划，提前取车的情况，本文对训练得到智能体的应变能力进行测试，具体方法为：在12：00时向EV对应的控制智能体发送提前取车时间t_i,dep一小时的控制信号。在接受控制型号后EV的SOC状态如图7中的浅色图线所示，可以看出，智能体会在当前状态下灵活改变自身策略，以满足用户的出行需求为最优目标，兼顾节约电费开支，合理增大充电功率，在用户取车时将SOC控制在期望值区间。该实验说明，当用户需求发生改变时，智能体可以做出即时、有效的反应，而不需要重新训练和部署，具有高度的灵活性。最终的充电开销优化结果如图8所示，采用随机模拟方法，与快速充电、均匀充电策略比较每日200车次的集群电动汽车充电站一周内的日开销情况。算例中的快速充电策略即在EV接入后，以P_i,t＝6KW·h的恒定功率对EV进行充电，当

时，停止充电；均匀充电策略的充电功率

通过求解方程

解出，该策略可以将充电功率在EV驶入时间t_i,arr与EV驶离时间t_i,dep之间进行平均分配。由图8可得，相较于快速充电与均匀充电策略，智能体控制下的优化充电行为可以节约30％左右的充电开销。通过优化充电行为，负荷聚合商获得了更大的盈利空间。算例同时对计算时间进行测试。通过MXnet-14.0框架的Python API编写TD3算法，并将智能体网络部署在NVIDIA GeForce RTX 2060上；本专利建立的集群电动汽车模拟环境运行在IntelCore i7-9750H CPU@2.60GHz和8GB的RAM上，在此计算平台上，智能体，即策略网络的一次前向传播仅仅需要0.0015s。在分布式部署后，尽管计算用时会因计算平台算力的降低而延长，但相较于计算复杂度随车辆数按指数增长的传统方法，该方法在大规模的充电优化问题上计算速度仍然优势明显。由于该方法降低了对算力的要求，在分布式部署时也可以减少在硬件层面的经费投入，具有更好的经济性。

Claims

1.一种基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法；该优化方法是基于双延迟深度确定性策略梯度法，实现对电动汽车的功率连续可调充电过程进行建模，训练智能体控制充电功率，优化电动汽车充电行为，将分时电价高时的负荷向电价低时进行转移，达到减少用户充电开销，平抑电网峰时负荷的目的；该集群电动汽车充电行为优化方法包含如下步骤：

步骤A.建立集群电动汽车充电管理的数学优化模型；

步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程，确定时刻t对应的状态s_t、动作a_t和奖励r_t；

步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程，并通过在初始状态上增加随机噪声，训练获得包含任意状态s_t到动作a_t映射的鲁棒智能体；

2.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述步骤A.建立集群电动汽车充电管理的数学优化模型包括如下步骤：

步骤A2.拟合充电桩的平均充电效率

关于充电功率P函数关系的近似表达式

0≤P_i,t≤P_max (5)

t_i,arr≤t<t_i,dep (7)

式中：

是第i辆车在时刻t时的SOC大小；

是用户离开时期望的SOC大小；

是第i辆车的电池容量大小；

3.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤：

构成s_t，即

a_t＝P_i,t (10)

为

是一个负奖励，在时刻t下，充电开销越大，

的值越小；反之，充电开销越小，

的值越大；故

仅在取车时刻t_i,dep且满足

重新定义为

最终，定义r_t为r_t ^cos r_t ^bound的加权线性组合

r_t＝α·r_t ^cos+β·r_t ^bound (14)。

4.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述步骤C.利用双延迟深度确定性策略梯度算法TD3求解该马尔可夫决策过程，包括如下步骤：

步骤C1.在初始状态中添加噪声，考虑到式(2)中引入的非线性因子，当大量电动汽车接入构建的场景中时，该模型的求解会消耗大量的时间与算力资源；同时，EV用户的取车行为具有不确定性，当第i辆车的车主临时改变取车计划时，即t_i,dep改变时，

也会随之变化，这意味着需要对上述模型重新进行求解；在大量EV接入的场景下，改变充电计划的可能性随接入EV数目按指数关系激增，这无疑又增大了求解的难度，为此提出一种基于分布式部署与深度强化学习的解决方案，首先，由于电动汽车集群中，不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面，利用不同EV主体间的结构相似性，该专利对电动汽车集群进行解耦；接下来，该专利将解耦后的第i辆EV的充电行为构造为序列决策过程，并利用深度强化学习方法进行求解，训练神经网络获得每一个时刻从

到待优化变量P_i,t的映射关系；考虑到，不同的EV主体

存在差异，在强化学习求解序列决策时对

由式(16)，以将[s_t,a_t]下的价值函数用Q(s_t,a_t)表示；Q(s_t,a_t)越大，表示在状态s_t下选择at更有可能获得高收益，故可以向增大Q(s_t,at)的梯度方向更新策略网络，改善策略网络性能；而价值函数Q(s_t,a_t)的估计值与真实值的误差可以通过基于Q(s_t,a_t)的时间差分误差迭代修正。

5.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法，其特征在于，所述步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上，包括：

t_i,arr～N(8,1) (17)设置任意第i辆EV驶离充电站的时间t_i,dep满足正态分布

t_i,dep～N(18,1) (18)设置任意第i辆EV到达充电站时的初始SOC值