CN111934335B - 一种基于深度强化学习的集群电动汽车充电行为优化方法 - Google Patents

一种基于深度强化学习的集群电动汽车充电行为优化方法 Download PDF

Info

Publication number
CN111934335B
CN111934335B CN202010830378.XA CN202010830378A CN111934335B CN 111934335 B CN111934335 B CN 111934335B CN 202010830378 A CN202010830378 A CN 202010830378A CN 111934335 B CN111934335 B CN 111934335B
Authority
CN
China
Prior art keywords
charging
network
time
vehicle
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010830378.XA
Other languages
English (en)
Other versions
CN111934335A (zh
Inventor
胡俊杰
赵星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN202010830378.XA priority Critical patent/CN111934335B/zh
Publication of CN111934335A publication Critical patent/CN111934335A/zh
Application granted granted Critical
Publication of CN111934335B publication Critical patent/CN111934335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • H02J3/322Arrangements for balancing of the load in a network by storage of energy using batteries with converting means the battery being on-board an electric or hybrid vehicle, e.g. vehicle to grid arrangements [V2G], power aggregation, use of the battery for network load balancing, coordinated or cooperative battery charging
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/60Monitoring or controlling charging stations
    • B60L53/64Optimising energy costs, e.g. responding to electricity rates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/40The network being an on-board power network, i.e. within a vehicle
    • H02J2310/48The network being an on-board power network, i.e. within a vehicle for electric vehicles [EV] or hybrid vehicles [HEV]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/7072Electromobility specific charging systems or methods for batteries, ultracapacitors, supercapacitors or double-layer capacitors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/12Electric charging stations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Quality & Reliability (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了属于新能源汽车优化管理技术领域的一种基于深度强化学习的集群电动汽车充电行为优化方法。本发明为基于双延迟深度确定性策略梯度算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;相较于传统的优化控制方法,TD3在速度和灵活性上优势明显,且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。为增强智能体的泛化能力,本发明在原有状态观测上添加噪声,模拟一组初始SOC不同,到达与驶离时间各异的电动汽车,并扩展到集群电动汽车充电行为控制。

Description

一种基于深度强化学习的集群电动汽车充电行为优化方法
技术领域
本发明属于电力系统优化调度领域,特别涉及一种基于深度强化学习的集群电动汽车充电行为优化方法。
背景技术
中国高度重视新能源汽车产业发展;预计到2025年,新能源汽车销量占比将达到25%左右,以2025年汽车当年累计产销总量2800万为基数计算,2025年新能源汽车产销总量将达到700万辆左右。电动汽车的大功率与时空不确定性会改变电网现有的负荷水平,进一步加大峰谷差,对电网的安全稳定性造成冲击。
作为需求侧管理的重要手段,峰谷分时电价在引导规范用电行为,辅助电网削峰填谷等方面发挥着重要作用。负荷聚合商(aggregator)可以响应充电分时电价(time-of-use tariff for charging),合理调整电动汽车充电行为,平抑负荷波动,减少用户充电成本。相较于其他可控负荷与储能设备,电动汽车具有特殊性,其调控要以满足用户出行与充放电意愿为前提。如何在满足不同用户的出行需求的基础上,快速响应电价信号,实时优化集群电动汽车充电行为,有重要的研究意义。
对集群电动汽车的充电行为优化问题,学术界传统的思路是对电动汽车的整个充电周期建模,构造优化目标与约束条件,然后用传统运筹学的方法,或是用交叉熵算法、交叉遗传粒子群算法、模拟退火算法等智能算法进行求解。当电动汽车集群规模较大时,上述方法的求解过程会耗费大量的时间和计算资源,甚至遇到“维度灾难”使结果无法收敛;此外,面对用户需要临时改变充电计划的情形,上述方法需要改变约束条件再次求解,使其在灵活性方面有所欠缺。
强化学习是一种数据驱动的机器学习方法,其特点在于不需要系统的先验知识,通过构造序列决策问题,训练智能体迭代完成对历史运行状态的动态学习,基于经验积累与回报分析得到问题的最优解。强化学习与深度学习结合形成的深度强化学习(deepreinforcement learning,DRL),集合深度学习强大的信息表征能力与强化学习对序列决策的优化能力,为诸多复杂优化调度问题的求解提供了新的思路。在智能电网需求侧管理领域,深度强化学习已经有相关结合点:例如在家庭能量管理系统(Home EnergyManagement Systems,HEMS)中引入深度强化学习方法控制可中断负荷投切时间以辅助用户优化用电行为;此前已经有相关工作用深度强化学习方法控制电动汽车入网(vehicleto Grid,V2G)模式下电动汽车的充放电行为,合理消纳可再生能源发电,但该文献仅仅考虑充电与不充电两种充电桩工作状态,且没有对用户取车时的目标SOC做出约束,难以满足用户的实际出行需求。
本发明的目的是,基于深度强化学习这一技术,提供一种在充分考虑电动汽车特性的基础上,既能降低计算复杂度,又能保证调度优化性的集群电动汽车的电动汽车充电行为管理方法。
当前最先进的强化学习算法之一是双延迟深度确定性策略梯度(twin delayDDPG,TD3)对单辆电动汽车功率连续可调假设下的充电过程进行建模,控制充电功率,优化电动汽车充电行为。相较于传统的优化控制方法,TD3在速度和灵活性上优势明显,且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。通过在训练智能体时向其状态中引入随机噪声,该模型获得了对不同状态下电动汽车充电行为的泛化控制能力。通过对训练得到的智能体进行分布式部署,该方法实现了对集群电动汽车充电行为的高速实时分布式优化。最终,通过算例对该方法的优化效果进行了展示与分析。
发明内容
本发明的目的是提供一种基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;该集群电动汽车充电行为优化方法包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型。
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt
步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体。
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证。
所述步骤A.建立集群电动汽车充电管理的数学优化模型包括如下步骤:
步骤A1.确定优化模型的目标函数,作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额;在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商可以获得更大的利润空间;故电动汽车集群的充电行为的优化目标为是全时段下集群电动汽车充电的总电费开销f,
Figure BDA0002637723640000041
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;
步骤A2.拟合充电桩的平均充电效率
Figure BDA0002637723640000042
与充电功率P间的函数关系,对于充电功率连续的充电桩,其平均充电效率
Figure BDA0002637723640000043
与充电功率P的关系列表,对表内数据做多项式拟合,得到平均充电效率
Figure BDA0002637723640000044
关于充电功率P函数关系的近似表达式
Figure BDA0002637723640000045
步骤A3.确定优化模型的约束条件,为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV的约束条件为
Figure BDA0002637723640000046
Figure BDA0002637723640000047
0≤Pi,t≤Pmax (5)
Figure BDA0002637723640000048
ti,arr≤t<ti,dep (7)
式中:
Figure BDA0002637723640000049
是第i辆车在时刻t时的SOC大小;
Figure BDA00026377236400000410
是用户离开时期望的SOC大小;
Figure BDA00026377236400000411
是第i辆车的电池容量大小;
Figure BDA00026377236400000412
是第i辆车在时刻t时,充电功率Pi,t下由式(2)对应的充电效率;δ是离开取车时的SOC与期望的SOC之间的可以允许的差值;Δt是输出功率改变时刻间的间隔。
所述步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤:
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标;强化学习是一类求解序列决策问题的有效方法,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界;智能体在每一步的交互中,都会获得对于所处环境状态的观测(观测是状态的一个子集),然后依靠某个策略决定下一步要执行的动作;环境会因为智能体对它的动作而改变,也可能自己改变;智能体也会从环境中感知到一个表明当前状态好坏的奖励信号的数字,智能体的目标是最大化累计奖励,即
Figure BDA0002637723640000051
式中:rt是每一步获得的奖励,γ∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合;强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法;
步骤B2.定义马尔可夫决策过程的状态,状态st是对当前时刻t下情景的描述,所选取的st应为智能体的决策提供足够的参考,同时也要减少冗余的信息对决策的干扰;对任意选取的第i辆车,选择变量
Figure BDA0002637723640000052
构成st,即
Figure BDA0002637723640000053
步骤B3.定义马尔可夫决策过程的动作,动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (10)
步骤B4.定义马尔可夫决策过程的奖励,由式(8)可知,模型的优化目标为最小化EV集群的充电开销,故对任意选取的第i辆车,设计奖励函数
Figure BDA0002637723640000061
Figure BDA0002637723640000062
Figure BDA0002637723640000063
是一个负奖励,在时刻t下,充电开销越大,
Figure BDA0002637723640000064
的值越小;反之,充电开销越小,
Figure BDA0002637723640000065
的值越大;故
Figure BDA0002637723640000066
鼓励节约充电开销的充电行为;对任意第i辆EV,为满足式(4)表示的取车时SOC区间约束条件,设置SOC区间奖励
Figure BDA0002637723640000067
Figure BDA0002637723640000068
Figure BDA0002637723640000069
仅在取车时刻ti,dep且满足
Figure BDA00026377236400000610
时为1,其余情况下均为0;考虑到智能体在探索阶段不易获得使
Figure BDA00026377236400000611
的样本,难以学到有效经验,给算法的收敛带来了困难;为此,提出一种奖励塑形(reward shaping)技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间
Figure BDA00026377236400000612
重新定义为
Figure BDA00026377236400000613
最终,定义rt
Figure BDA00026377236400000614
的加权线性组合
Figure BDA00026377236400000615
所述步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,包括如下步骤:
步骤C1.在初始状态中添加噪声,考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,当第i辆车的车主临时改变取车计划时,即ti,dep改变时,Nti,dep也会随之变化,这意味着需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度,为此提出一种基于分布式部署与深度强化学习的解决方案,首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面,利用不同EV主体间的结构相似性,该专利对电动汽车集群进行解耦。接下来,该专利将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从
Figure BDA0002637723640000071
到待优化变量Pi,t的映射关系;考虑到,不同的EV主体
Figure BDA0002637723640000072
存在差异,在强化学习求解序列决策时对
Figure BDA0002637723640000073
分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体;
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体;假设充电桩功率连续可调,动作at具有连续的取值,选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器;TD3算法由估值网络和策略网络两个部分组成;策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,以上映射关系描述为
Figure BDA0002637723640000074
Figure BDA0002637723640000075
由式(16),以将[st,at]下的价值函数用Q(st,at)表示。Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故可以向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差可以通过基于Q(st,at)的时间差分误差迭代修正。
所述步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,包括:
步骤D1.智能体的部署,在训练收敛后,策略网络可以通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体;在假设的电动汽车集群充电站环境中,充电优化过程可以由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动;
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信;
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为;
步骤D2.通过算例对控制效果进行验证,参数设置为任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (17)
设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (18)
设置任意第i辆EV到达充电站时的初始SOC值
Figure BDA0002637723640000081
满足正态分布
ti,dep~N(18,1) (19)
在训练智能体时,设置式(17)中的衰减因子ρ
Figure BDA0002637723640000091
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结;
所述的策略迭代过程是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;智能体最后都在EV即将驶离时将SOC控制在了0.85~0.90的目标范围内;其均匀充电策略的充电功率
Figure BDA0002637723640000092
通过求解方程
Figure BDA0002637723640000093
解出,该策略可以将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。
本发明有益效果是本发明为基于双延迟深度确定性策略梯度算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,通过优化单体电动汽车充电行为实现集群电动汽车的充电行为优化,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;相较于传统的优化控制方法,本发明对训练得到的智能体进行分布式部署,该方法实现了对集群电动汽车充电行为的高速实时分布式优化。本发明具有如下特点:
(1)通过双延迟深度确定性策略梯度算法(TD3)训练的智能体鲁棒性好,泛化能力强,在不同的初始条件下均能满足用户的出行需求,在集群电动汽车充电行为优化问题上控制效果出色,实现响应分时电价、节约充电开销,平抑电网峰值的目。
(2)灵活性强,面对控制过程中用户需求临时改变的情况,智能体可以做出即时、有效的反应,不需重新训练或部署。
(3)相较传统运筹优化方法,该方法计算速度快,训练好的智能体仅需要对策略网络做一次前向传播就可以做出决策。
附图说明
图1为系统的整体控制框架示意图。
图2为充电效率与充电功率关系近似表达式拟合情况。
图3为强化学习中的核心概念。
图4为TD3算法训练流程图。
图5为分时电价。
图6为TD3算法学习曲线。
图7为SOC优化结果展示。
图8为充电开销优化结果展示。
具体实施方式
本发明提供一种基于深度强化学习的集群电动汽车充电行为优化方法,所述该优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度(twin delay DDPG,TD3)算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;通过双延迟深度确定性策略梯度算法(twin delay deep deterministic policy gradient,TD3)对单辆电动汽车充电过程进行建模。通过在训练智能体时向其状态中引入随机噪声,该模型获得了对不同状态下的电动汽车充电行为的泛化控制能力。下面结合附图对本发明予以进一步说明。该方法其具体实施方式主要包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型。
步骤A1.确定优化模型的目标函数。作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额。在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商可以获得更大的利润空间。故电动汽车集群的充电行为的优化目标为
Figure BDA0002637723640000111
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;f是全时段下集群电动汽车充电的总电费开销。
步骤A2.拟合充电桩的平均充电效率
Figure BDA0002637723640000112
与充电功率P间的函数关系。对于充电功率连续的充电桩,其关系如表1所示。通过对表内数据做多项式拟合,拟合情况如图2所示,得到平均充电效率
Figure BDA0002637723640000113
关于充电功率P函数关系的近似表达式
Figure BDA0002637723640000114
表1平均充电效率、随充电功率范围变化表
Figure BDA0002637723640000115
Figure BDA0002637723640000116
平均充电效率(单位:p.u)随充电功率P(单位:KW).
步骤A3.确定优化模型的约束条件。为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV,该问题的约束条件为
Figure BDA0002637723640000121
Figure BDA0002637723640000122
0≤Pi,t≤Pmax (26)
Figure BDA0002637723640000123
ti,arr≤t<ti,dep (28)
式中:
Figure BDA0002637723640000124
是第i辆车在时刻t时的SOC大小;
Figure BDA0002637723640000125
是用户离开时期望的SOC大小;
Figure BDA0002637723640000126
是第i辆车的电池容量大小;
Figure BDA0002637723640000127
是第i辆车在时刻t时,充电功率Pi,t下由式(2)对应的充电效率;δ是离开取车时的SOC与期望的SOC之间的可以允许的差值;Δt是输出功率改变时刻间的间隔。
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标。强化学习是一类求解序列决策问题的有效方法,其核心概念如图3所示,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界。智能体在每一步的交互中,都会获得对于所处环境状态的观测(观测是状态的一个子集),然后依靠某个策略决定下一步要执行的动作。环境会因为智能体对它的动作而改变,也可能自己改变。智能体也会从环境中感知到奖励信号,一个表明当前状态好坏的数字。智能体的目标是最大化累计奖励,即
Figure BDA0002637723640000131
式中:rt是每一步获得的奖励,γ∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合。强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法。
步骤B2.定义马尔可夫决策过程的状态。状态st是对当前时刻t下情景的描述,所选取的st应为智能体的决策提供足够的参考,同时也要减少冗余的信息对决策的干扰。对任意选取的第i辆车,我们选择变量
Figure BDA0002637723640000132
构成st,即
Figure BDA0002637723640000133
步骤B3.定义马尔可夫决策过程的动作。动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (31)
步骤B4.定义马尔可夫决策过程的奖励。由式(8)可知,模型的优化目标为最小化EV集群的充电开销,故对任意选取的第i辆车,设计奖励函数
Figure BDA0002637723640000134
Figure BDA0002637723640000135
Figure BDA0002637723640000136
是一个负奖励,在时刻t下,充电开销越大,
Figure BDA0002637723640000137
的值越小;反之,充电开销越小,
Figure BDA0002637723640000138
的值越大;故
Figure BDA0002637723640000139
鼓励节约充电开销的充电行为。对任意第i辆EV,为满足式(4)表示的取车时SOC区间约束条件,设置SOC区间奖励
Figure BDA00026377236400001310
Figure BDA00026377236400001311
Figure BDA00026377236400001312
仅在取车时刻ti,dep且满足
Figure BDA00026377236400001313
时为1,其余情况下均为0。考虑到智能体在探索阶段不易获得使
Figure BDA0002637723640000141
的样本,难以学到有效经验,给算法的收敛带来了困难。为解决该问题,提出一种奖励塑形技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间
Figure BDA0002637723640000142
重新定义为
Figure BDA0002637723640000143
最终,定义rt
Figure BDA0002637723640000144
的加权线性组合
Figure BDA0002637723640000145
步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体。
步骤C1.在初始状态中添加噪声。考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,例如:当第i辆车的车主临时改变取车计划时,即ti,dep改变时,
Figure BDA0002637723640000146
也会随之变化,这意味着我们需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度。面对这样一个大规模、动态的优化问题,该专利提出一种基于分布式部署与深度强化学习的解决方案。首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面,利用不同EV主体间的结构相似性,该专利对电动汽车集群进行解耦。接下来,该专利将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从
Figure BDA0002637723640000151
到待优化变量Pi,t的映射关系。考虑到,不同的EV主体
Figure BDA0002637723640000152
存在差异,本文在强化学习求解序列决策时对
Figure BDA0002637723640000153
分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体。
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体。由于我们假设充电桩功率连续可调,动作at具有连续的取值,本文选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器,该算法是目前最先进的针对连续动作空间设计的深度强化学习算法之一,具有训练过程收敛速度快,稳定性好的优势。TD3算法由估值网络和策略网络两个部分组成。策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,以上映射关系描述为
Figure BDA0002637723640000154
Figure BDA0002637723640000155
由式(16),以将[st,at]下的价值函数用Q(st,at)表示。Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故可以向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差可以通过动态规划中的策略迭代方法,基于Q(st,at)的时间差分误差迭代修正。
在策略迭代过程中,策略网络是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;TD3算法为解决价值函数的高估问题,采用以下手段:
(1)将估值网络分解为两个通道输出一对价值函数Q1(st,at)与Q2(st,at),取两者的最小值作为估值网络结果;
(2)构造目标估值网络与目标策略网络,其结构通估值网络与策略网络完全一致,通过软更新从原先的策略网络与估值网络向目标网络传递参数,延缓目标网络的更新速度;TD3算法使用经验回放技术,对探索过程中智能体获得的经验,即[st,at,rt,st+1]组成的四元组数据进行存储;经验回放中的数据为队列结构,当经验回放数据存满后,按照“先进先出”规则对存储数据进行替换;在更新网络参数时从经验回放中随机按批量抽取四元组数据用于梯度更新。
TD3算法训练智能体的具体步骤如下
(1)分别初始化估值网络、目标估值网络、策略网络、目标策略网络的参数θ,θ',
Figure BDA0002637723640000161
(2)与环境交互获取当前状态st,利用策略网络得到该状态下对应的动作at
(3)为对环境进行探索,在动作at上叠加动作噪声σ得到随机动作
Figure BDA0002637723640000162
Figure BDA0002637723640000163
式中:ρ为噪声衰减因子,训练刚开始时,为全面探索环境,ρ较大;随着训练过程的进行,ρ逐渐衰减,使
Figure BDA0002637723640000164
减少动作at因噪声∈带来的误差。
(4)利用随机动作
Figure BDA0002637723640000165
与环境进行交互,得到下一时刻的状态st+1与奖励rt,利用经验回放技术将交互获得的四元组数据
Figure BDA0002637723640000166
当经验回放中的数据量足够时,从经验回放中按批量随机抽取四元组
Figure BDA0002637723640000167
(5)通过目标策略网络获得状态st'+1下的目标动作at'+1,这里以及下文以t',t'+1为下标的变量都是对批量进行操作,之后不再赘述。
(6)为提高训练过程的鲁棒性,在目标动作a′t'+1上叠加动作噪声σ'得到随机目标动作
Figure BDA0002637723640000171
Figure BDA0002637723640000172
(7)通过估值网络,状态st'下动作
Figure BDA0002637723640000173
对应的价值函数
Figure BDA0002637723640000174
Figure BDA0002637723640000175
(8)用目标估值网络,得到状态st'+1下随机目标动作
Figure BDA0002637723640000176
对应的目标价值函数
Figure BDA0002637723640000177
Figure BDA0002637723640000178
由贝曼方程(Bellman equation),可以求得状态st下动作at对应的目标价值函数Qtarget
Figure BDA0002637723640000179
(9)通过最小化损失函数对估值网络参数θ进行更新,关于参数θ的损失函数LossCritic(θ)可以表示为
Figure BDA00026377236400001710
(10)通过最小化损失函数对策略网络参数
Figure BDA00026377236400001711
进行更新,关于参数
Figure BDA00026377236400001712
的损失函数
Figure BDA00026377236400001713
可以表示为
Figure BDA00026377236400001714
(11)目标网络的参数θ',
Figure BDA00026377236400001715
由估值网络与策略网络参数θ通过软更新得到
θ′=(1-τ)·θ′+τ·θ (43)
Figure BDA00026377236400001716
式中:τ为软更新速率因子,当τ越大时,估值网络参数θ与策略网络参数
Figure BDA00026377236400001717
向目标网络参数θ',
Figure BDA00026377236400001718
的传递速度越快。
上述TD3算法训练过程如图4框图所示
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证。步骤D1.智能体的部署。在训练收敛后,策略网络可以通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体。在本文假设的电动汽车集群充电站环境中,充电优化过程可以由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动。
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为。
与集中式优化求解方法相比较,分布式部署方案避免了维度灾难,通过前向传播就可得到当前时刻下的优化充电功率,节省海量算力,降低微型充电控制器的硬件成本,相较传统方案,该方案在经济性与灵活性方面优势明显。
步骤D2.通过算例对控制效果进行验证。为验证该方法在集群电动汽车充电优化问题上的效果,选取一座充电桩数N=200的电动汽车充电站作为算例。该区域的商用分时电价设置如表2所示;分时电价可视化如图5所示。
表2分时电价
Figure BDA0002637723640000181
该区域的商用分时电价设置的参数做如下设置:任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (45)
设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (46)
设置任意第i辆EV到达充电站时的初始SOC值
Figure BDA0002637723640000191
满足正态分布
ti,dep~N(18,1) (47)
由于分时电价按小时变化,设置Δt=1h;设置EV电池容量
Figure BDA0002637723640000192
设置EV驶离时的期望SOC值
Figure BDA0002637723640000193
设置EV驶离时SOC的偏差容忍度δ=0.025;设置EV充电桩的功率上限Pmax=10KW·h;设置充电过程中允许的SOC上限
Figure BDA0002637723640000194
在训练智能体时,对参数进行如下设置;设置式(14)中的奖励权重α=1,β=10;设置式(17)中的噪声σ=2;设置式(17)中的衰减因子ρ
Figure BDA0002637723640000195
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结,式(17)中的噪声项ρ·∈→0;设置式(18)中的噪声σ'=0.2;设置折扣因子γ=0.99;设置式(22)(23)中的软更新速率因子τ=0.005;选取MXnet-14.0深度学习框架搭建策略网络与估值网络,网络都为四层结构,具有两个单元数为128的中间层,通过泽维尔(Xavier)初始化网络参数,拷贝到目标策略网络与目标估值网络中;对损失函数式(20)与式(21)进行更新时,选择Adam优化器并设置学习率lr=10-4;设置经验回放长度l=106;设置批量大小batchsize=128;总训练批次meps=3×104。为加速算法的收敛速度,每与环境进行一轮交互,就对网络参数进行20次更新,即每一训练批次eps内进行20次对(20)(21)的梯度更新过程与式(22)(23)的软更新过程。整个训练过程如图6所示。为方便训练过程的可视化,计算每20批次的平均奖励显示在图6中,并对奖励做了平滑处理。由图6知,训练过程中奖励大小逐步提升,最终收敛在7.5附近。最终SOC的优化结果如图7所示。取编号为7、52、93、142、169、194的6辆EV对集群电动汽车的SOC的优化结果进行展示,结合图7中原始SOC优化结果图线与图5中的分时电价图线可以看出,在不同的初始条件下,该方法训练出的智能体都选择在分时电价较高的尖峰时段减小充电功率,在分时电价较低的时段增大充电功率;分时电价是电网峰谷趋势的价格反映,该行为模式不但能节省充电电费开销,也能缓解电网的峰时负荷压力;同时,在不同的初始条件下,智能体最后都在EV即将驶离时将SOC控制在了0.85~0.90的目标范围内。由此可见,该方法训练的智能体鲁棒性好,泛化能力强,可以通过分布部署的放式,应用到集群EV的充电优化问题中。考虑到在实际应用中可能遇到的用户临时改变取车计划,提前取车的情况,本文对训练得到智能体的应变能力进行测试,具体方法为:在12:00时向EV对应的控制智能体发送提前取车时间ti,dep一小时的控制信号。在接受控制型号后EV的SOC状态如图7中的浅色图线所示,可以看出,智能体会在当前状态下灵活改变自身策略,以满足用户的出行需求为最优目标,兼顾节约电费开支,合理增大充电功率,在用户取车时将SOC控制在期望值区间。该实验说明,当用户需求发生改变时,智能体可以做出即时、有效的反应,而不需要重新训练和部署,具有高度的灵活性。最终的充电开销优化结果如图8所示,采用随机模拟方法,与快速充电、均匀充电策略比较每日200车次的集群电动汽车充电站一周内的日开销情况。算例中的快速充电策略即在EV接入后,以Pi,t=6KW·h的恒定功率对EV进行充电,当
Figure BDA0002637723640000211
时,停止充电;均匀充电策略的充电功率
Figure BDA0002637723640000212
通过求解方程
Figure BDA0002637723640000213
解出,该策略可以将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。由图8可得,相较于快速充电与均匀充电策略,智能体控制下的优化充电行为可以节约30%左右的充电开销。通过优化充电行为,负荷聚合商获得了更大的盈利空间。算例同时对计算时间进行测试。通过MXnet-14.0框架的Python API编写TD3算法,并将智能体网络部署在NVIDIA GeForce RTX 2060上;本专利建立的集群电动汽车模拟环境运行在IntelCore i7-9750H CPU@2.60GHz和8GB的RAM上,在此计算平台上,智能体,即策略网络的一次前向传播仅仅需要0.0015s。在分布式部署后,尽管计算用时会因计算平台算力的降低而延长,但相较于计算复杂度随车辆数按指数增长的传统方法,该方法在大规模的充电优化问题上计算速度仍然优势明显。由于该方法降低了对算力的要求,在分布式部署时也可以减少在硬件层面的经费投入,具有更好的经济性。

Claims (3)

1.一种基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;该集群电动汽车充电行为优化方法包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型;所述数学优化模型具体包括如下步骤:
步骤A1.确定优化模型的目标函数,作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额;在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商获得更大的利润空间;故电动汽车集群的充电行为的优化目标为是全时段下集群电动汽车充电的总电费开销f,
Figure FDA0003868427760000011
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;
步骤A2.拟合充电桩的平均充电效率
Figure FDA0003868427760000012
与充电功率P间的函数关系,对于充电功率连续的充电桩,其平均充电效率
Figure FDA0003868427760000013
与充电功率P的关系列表,对表内数据做多项式拟合,得到平均充电效率
Figure FDA0003868427760000028
关于充电功率P函数关系的近似表达式
Figure FDA0003868427760000029
步骤A3.确定优化模型的约束条件,为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV的约束条件为
Figure FDA0003868427760000021
Figure FDA0003868427760000022
0≤Pi,t≤Pmax (5)
Figure FDA0003868427760000023
ti,arr≤t<ti,dep (7)
式中:
Figure FDA0003868427760000024
是第i辆车在时刻t时的SOC大小;
Figure FDA0003868427760000025
是用户离开时期望的SOC大小;
Figure FDA0003868427760000026
是第i辆车的电池容量大小;
Figure FDA0003868427760000027
是第i辆车在时刻t时,充电功率Pi,t下由式(2)对应的充电效率;δ是离开取车时的SOC与期望的SOC之间的允许的差值;Δt是输出功率改变时刻间的间隔;
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt
所述将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤:
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标;强化学习是一类求解序列决策问题的有效方法,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界;智能体在每一步的交互中,都会获得对于所处环境状态的观测,观测是状态的一个子集,然后依靠某个策略决定下一步要执行的动作;环境会因为智能体对它的动作而改变,也可能自己改变;智能体也会从环境中感知到一个表明当前状态好坏的奖励信号的数字,智能体的目标是最大化累计奖励,即
Figure FDA0003868427760000031
式中:rt是每一步获得的奖励,γt∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合;强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法;
步骤B2.定义马尔可夫决策过程的状态,状态st是对当前时刻t下情景的描述,所选取的st应为智能体的决策提供足够的参考,同时也要减少冗余的信息对决策的干扰;对任意选取的第i辆车,选择变量
Figure FDA0003868427760000032
构成st,即
Figure FDA0003868427760000033
步骤B3.定义马尔可夫决策过程的动作,动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (10)
步骤B4.定义马尔可夫决策过程的奖励,由式(8)可知,模型的优化目标为最小化EV集群的充电开销,故对任意选取的第i辆车,设计奖励函数
Figure FDA0003868427760000034
Figure FDA0003868427760000035
Figure FDA0003868427760000036
是一个负奖励,在时刻t下,充电开销越大,
Figure FDA0003868427760000037
的值越小;反之,充电开销越小,
Figure FDA0003868427760000038
的值越大;故
Figure FDA0003868427760000039
鼓励节约充电开销的充电行为;对任意第i辆EV,为满足式(4)表示的取车时SOC区间约束条件,设置SOC区间奖励
Figure FDA0003868427760000041
Figure FDA0003868427760000042
Figure FDA0003868427760000043
仅在取车时刻ti,dep且满足
Figure FDA0003868427760000044
时为1,其余情况下均为0;考虑到智能体在探索阶段不易获得使
Figure FDA0003868427760000045
的样本,难以学到有效经验,给算法的收敛带来了困难;为此,提出一种奖励塑形技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间
Figure FDA0003868427760000046
重新定义为
Figure FDA0003868427760000047
最终,定义rt为rt cosrt bound的加权线性组合
rt=α·rt cos+β·rt bound (14);
步骤C.利用双延迟深度确定性策略梯度算法TD3求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体;所述利用双延迟深度确定性策略梯度算法TD3求解该马尔可夫决策过程包括如下步骤:
步骤C1.在初始状态中添加噪声,考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,当第i辆车的车主临时改变取车计划时,即ti,dep改变时,这意味着需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度,为此提出一种基于分布式部署与深度强化学习的解决方案,首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率方面,利用不同EV主体间的结构相似性,对电动汽车集群进行解耦;接下来,将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从
Figure FDA0003868427760000051
到待优化变量Pi,t的映射关系;考虑到,不同的EV主体
Figure FDA0003868427760000052
存在差异,在强化学习求解序列决策时对
Figure FDA0003868427760000053
分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体;
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体;假设充电桩功率连续可调,动作at具有连续的取值,选用双延迟深度确定性策略梯度算法TD3作为充电控制器;TD3算法由估值网络和策略网络两个部分组成;策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,映射关系描述为
Figure FDA0003868427760000054
Figure FDA0003868427760000055
由式(16),以将[st,at]下的价值函数用Q(st,at)表示;Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差通过基于Q(st,at)的时间差分误差迭代修正;
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证;
所述将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,包括:
步骤D1.智能体的部署,在训练收敛后,策略网络通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体;在假设的电动汽车集群充电站环境中,充电优化过程由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动;
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信;
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为;
步骤D2.通过算例对控制效果进行验证,参数设置为任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (17)
设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (18)
设置任意第i辆EV到达充电站时的初始SOC值
Figure FDA0003868427760000061
满足正态分布
ti,dep~N(18,1) (19)
在训练智能体时,设置式(17)中的衰减因子ρ
Figure FDA0003868427760000062
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结;
所述的策略迭代过程是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;智能体最后都在EV即将驶离时将SOC控制在0.85~0.90的目标范围内;其均匀充电策略的充电功率
Figure FDA0003868427760000071
通过求解方程
Figure FDA0003868427760000072
解出,该策略将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。
2.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述TD3算法为解决价值函数的高估问题,采用以下手段:
(1)将估值网络分解为两个通道输出一对价值函数Q1(st,at)与Q2(st,at),取两者的最小值作为估值网络结果;
(2)构造目标估值网络与目标策略网络,其结构通估值网络与策略网络完全一致,通过软更新从原先的策略网络与估值网络向目标网络传递参数,延缓目标网络的更新速度;TD3算法使用经验回放技术,对探索过程中智能体获得的经验,即[st,at,rt,st+1]组成的四元组数据进行存储;经验回放中的数据为队列结构,当经验回放数据存满后,按照“先进先出”规则对存储数据进行替换;在更新网络参数时从经验回放中随机按批量抽取四元组数据用于梯度更新。
3.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,利用TD3对优化问题进行迭代求解,训练智能体,TD3算法训练智能体的具体步骤如下
(1)分别初始化估值网络、目标估值网络、策略网络、目标策略网络的参数θ,θ',
Figure FDA0003868427760000081
(2)与环境交互获取当前状态st,利用策略网络得到该状态下对应的动作at
(3)为对环境进行探索,在动作at上叠加动作噪声σ得到随机动作
Figure FDA0003868427760000082
Figure FDA0003868427760000083
式中:ρ为噪声衰减因子,训练刚开始时,为全面探索环境,ρ较大;随着训练过程的进行,ρ逐渐衰减,使
Figure FDA0003868427760000084
减少动作at因噪声∈带来的误差;
(4)利用随机动作
Figure FDA0003868427760000085
与环境进行交互,得到下一时刻的状态st+1与奖励rt,利用经验回放技术将交互获得的四元组数据
Figure FDA0003868427760000086
当经验回放中的数据量足够时,从经验回放中按批量随机抽取四元组
Figure FDA0003868427760000087
(5)通过目标策略网络获得状态st'+1下的目标动作a′t'+1,这里以及下文以t',t'+1为下标的变量都是对批量进行操作,之后不再赘述;
(6)为提高训练过程的鲁棒性,在目标动作a′t'+1上叠加动作噪声σ'得到随机目标动作
Figure FDA0003868427760000088
Figure FDA0003868427760000089
(7)通过估值网络,状态st'下动作
Figure FDA00038684277600000810
对应的价值函数
Figure FDA00038684277600000811
Figure FDA00038684277600000812
(8)用目标估值网络,得到状态st'+1下随机目标动作
Figure FDA00038684277600000813
对应的目标价值函数
Figure FDA00038684277600000814
Figure FDA00038684277600000815
由贝曼方程(Bellman equation),求得状态st下动作at对应的目标价值函数Qtarget
Figure FDA00038684277600000816
(9)通过最小化损失函数对估值网络参数θ进行更新,关于参数θ的损失函数LossCritic(θ)表示为
Figure FDA00038684277600000817
(10)通过最小化损失函数对策略网络参数
Figure FDA0003868427760000091
进行更新,关于参数
Figure FDA0003868427760000092
的损失函数
Figure FDA0003868427760000093
表示为
Figure FDA0003868427760000094
(11)目标网络的参数θ',
Figure FDA0003868427760000095
由估值网络与策略网络参数θ通过软更新得到
θ′=(1-τ)·θ′+τ·θ (26)
Figure FDA0003868427760000096
式中:τ为软更新速率因子,当τ越大时,估值网络参数θ与策略网络参数
Figure FDA0003868427760000097
向目标网络参数θ',
Figure FDA0003868427760000098
的传递速度越快。
CN202010830378.XA 2020-08-18 2020-08-18 一种基于深度强化学习的集群电动汽车充电行为优化方法 Active CN111934335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010830378.XA CN111934335B (zh) 2020-08-18 2020-08-18 一种基于深度强化学习的集群电动汽车充电行为优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010830378.XA CN111934335B (zh) 2020-08-18 2020-08-18 一种基于深度强化学习的集群电动汽车充电行为优化方法

Publications (2)

Publication Number Publication Date
CN111934335A CN111934335A (zh) 2020-11-13
CN111934335B true CN111934335B (zh) 2022-11-18

Family

ID=73304351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010830378.XA Active CN111934335B (zh) 2020-08-18 2020-08-18 一种基于深度强化学习的集群电动汽车充电行为优化方法

Country Status (1)

Country Link
CN (1) CN111934335B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112510719B (zh) * 2020-12-05 2022-06-21 东南大学 一种基于深度强化学习的智能电热水器保温档负荷控制方法
CN112632380A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 兴趣点推荐模型的训练方法和推荐兴趣点的方法
CN112700099A (zh) * 2020-12-24 2021-04-23 亿景智联(北京)科技有限公司 基于强化学习和运筹学的资源调度规划方法
CN112668239B (zh) * 2020-12-30 2022-11-15 山东交通学院 一种基于对抗学习的混合动力卡车队列经验传授方法
CN112819576B (zh) * 2021-01-27 2022-07-08 北京百度网讯科技有限公司 充电站推荐模型的训练方法、装置、及充电站的推荐方法
CN113036753B (zh) * 2021-02-04 2023-05-02 南昌工学院 一种模拟电动汽车用户群实现提高充电稳定性的叠加模型
CN112993983B (zh) * 2021-02-26 2022-06-14 东南大学 一种抑制负荷过响应的分散式调控参数优化方法
CN112989699B (zh) * 2021-03-12 2022-05-24 重庆交通大学 基于深度强化学习的新能源汽车性能评价方法
CN112874368A (zh) * 2021-03-26 2021-06-01 国网黑龙江省电力有限公司电力科学研究院 一种基于qpso算法的电动汽车充电策略优化方法
CN112924177B (zh) * 2021-04-02 2022-07-19 哈尔滨理工大学 一种改进深度q网络的滚动轴承故障诊断方法
CN113159578B (zh) * 2021-04-22 2022-05-20 杭州电子科技大学 基于强化学习的大型电动汽车充电站的充电优化调度方法
CN113110359B (zh) * 2021-05-17 2022-05-03 清华大学 约束型智能汽车自主决策系统在线训练方法及装置
CN113448425B (zh) * 2021-07-19 2022-09-09 哈尔滨工业大学 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统
CN113922404B (zh) * 2021-10-22 2023-08-29 山东大学 一种社区电动汽车集群充电协调方法及系统
TWI767868B (zh) * 2021-11-08 2022-06-11 國立清華大學 基於強化學習的充電站能源使用規劃方法及裝置
CN114048903B (zh) * 2021-11-11 2024-03-26 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114004033A (zh) * 2021-11-16 2022-02-01 国网天津市电力公司 考虑低压配电网的住宅区电动汽车充电调度方法及装置
CN114084026B (zh) * 2021-11-29 2023-06-02 重庆长安新能源汽车科技有限公司 电动汽车最优充电路径的动态规划方法及系统
CN114398723B (zh) * 2021-12-30 2023-12-22 国网江苏省电力有限公司苏州供电分公司 基于闵可夫斯基和的规模化电动汽车集群特性分析方法及系统
CN114444802B (zh) * 2022-01-29 2024-06-04 福州大学 基于图神经网络强化学习的电动汽车充电引导优化方法
CN114169538A (zh) * 2022-02-11 2022-03-11 河南科技学院 一种基于多智能体强化学习的电动汽车电池充电调控方法
CN114844083B (zh) * 2022-05-27 2023-02-17 深圳先进技术研究院 一种提高储能系统稳定性的电动汽车集群充放电管理方法
CN114997935B (zh) * 2022-07-19 2023-04-07 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN115330556B (zh) * 2022-08-10 2024-04-02 北京百度网讯科技有限公司 充电站的信息调整模型的训练方法、装置及产品
CN115489320B (zh) * 2022-09-23 2024-06-18 西南交通大学 一种基于深度强化学习的列车受电弓智能控制方法
CN115542915B (zh) * 2022-10-08 2023-10-31 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN115663793B (zh) * 2022-10-09 2023-06-23 四川大学 基于深度强化学习的电动汽车低碳充放电调度方法
CN115731072B (zh) * 2022-11-22 2024-01-30 东南大学 一种基于安全深度强化学习的微网时空感知能量管理方法
CN116691419B (zh) * 2023-08-03 2023-11-14 浙江大学 弱链接通信下深度强化学习的电动汽车自主充电控制方法
CN116822618A (zh) * 2023-08-30 2023-09-29 北京汉勃科技有限公司 基于动态噪声网络的深度强化学习探索方法及组件
CN117200225B (zh) * 2023-11-07 2024-01-30 中国电力科学研究院有限公司 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置
CN117578679B (zh) * 2024-01-15 2024-03-22 太原理工大学 基于强化学习的锂电池智能充电控制方法
CN117863948B (zh) * 2024-01-17 2024-06-11 广东工业大学 一种辅助调频的分散电动汽车充电控制方法及装置
CN117852725B (zh) * 2024-03-06 2024-05-24 国网北京市电力公司 一种电动汽车虚拟储能集群调度目标协同优化方法及系统
CN118037334A (zh) * 2024-04-11 2024-05-14 国网江苏省电力有限公司电力科学研究院 一种电动汽车充电动态定价方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110443415A (zh) * 2019-07-24 2019-11-12 三峡大学 一种计及动态电价策略的电动汽车充电站多目标优化调度方法
CN110738356A (zh) * 2019-09-20 2020-01-31 西北工业大学 一种基于sdn增强网络的电动汽车充电智能调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106026152B (zh) * 2016-05-19 2017-06-06 合肥工业大学 一种电动汽车接入微电网的充放电调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110443415A (zh) * 2019-07-24 2019-11-12 三峡大学 一种计及动态电价策略的电动汽车充电站多目标优化调度方法
CN110738356A (zh) * 2019-09-20 2020-01-31 西北工业大学 一种基于sdn增强网络的电动汽车充电智能调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"On-line building energy optimization using deep reinforcement learning";Elena Mocanu 等;《IEEE Transactions on Smart Grid》;20190731;第10卷(第4期);全文 *
基于动态分时电价的电动汽车有序充放电研究;李伟生等;《工业仪表与自动化装置》;20170815(第04期);全文 *
基于集群响应的规模化电动汽车充电优化调度;陈静鹏等;《电力系统自动化》;20161125(第22期);全文 *

Also Published As

Publication number Publication date
CN111934335A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111934335B (zh) 一种基于深度强化学习的集群电动汽车充电行为优化方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN112186799B (zh) 基于深度强化学习的分布式能源系统自治控制方法及系统
Li et al. Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning
Chen et al. Optimal strategies of energy management integrated with transmission control for a hybrid electric vehicle using dynamic particle swarm optimization
CN112862281A (zh) 综合能源系统调度模型构建方法、装置、介质及电子设备
Zand et al. Using adaptive fuzzy logic for intelligent energy management in hybrid vehicles
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN113515884A (zh) 分散式电动汽车实时优化调度方法、系统、终端及介质
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN111422094A (zh) 分布式充电桩的充放电协调优化控制方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
CN106960279A (zh) 考虑用户参与度的电动汽车能效电厂特征参数评估方法
Li et al. Cyber-physical data fusion in surrogate-assisted strength pareto evolutionary algorithm for PHEV energy management optimization
CN107394798A (zh) 包含时变时滞的电动汽车与发电机组协调频率控制方法
CN102968098B (zh) 一种对集群内电动汽车充电功率的分布式优化方法
Zhang et al. A safe reinforcement learning-based charging strategy for electric vehicles in residential microgrid
CN111313449A (zh) 一种基于机器学习的集群电动汽车功率优化管理方法
CN111799820B (zh) 一种电力系统双层智能混合零星云储能对抗调控方法
CN114619907A (zh) 基于分布式深度强化学习的协调充电方法及协调充电系统
Liu et al. Pricing and charging scheduling for cooperative electric vehicle charging stations via deep reinforcement learning
CN116452199A (zh) 基于区块链的vcu控制算法优化方法和程序产品
Zhang et al. An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant