CN111934335A - 一种基于深度强化学习的集群电动汽车充电行为优化方法 - Google Patents
一种基于深度强化学习的集群电动汽车充电行为优化方法 Download PDFInfo
- Publication number
- CN111934335A CN111934335A CN202010830378.XA CN202010830378A CN111934335A CN 111934335 A CN111934335 A CN 111934335A CN 202010830378 A CN202010830378 A CN 202010830378A CN 111934335 A CN111934335 A CN 111934335A
- Authority
- CN
- China
- Prior art keywords
- charging
- network
- time
- vehicle
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 143
- 238000005457 optimization Methods 0.000 title claims abstract description 74
- 230000006399 behavior Effects 0.000 title claims abstract description 61
- 230000002787 reinforcement Effects 0.000 title claims abstract description 49
- 230000008569 process Effects 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 230000009471 action Effects 0.000 claims abstract description 37
- 230000005611 electricity Effects 0.000 claims abstract description 36
- 230000000087 stabilizing effect Effects 0.000 claims abstract description 6
- 238000012546 transfer Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 38
- 238000007726 management method Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000007493 shaping process Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 125000004432 carbon atom Chemical group C* 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001106412 Pilea Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
- H02J3/322—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means the battery being on-board an electric or hybrid vehicle, e.g. vehicle to grid arrangements [V2G], power aggregation, use of the battery for network load balancing, coordinated or cooperative battery charging
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L53/00—Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
- B60L53/60—Monitoring or controlling charging stations
- B60L53/64—Optimising energy costs, e.g. responding to electricity rates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2310/00—The network for supplying or distributing electric power characterised by its spatial reach or by the load
- H02J2310/40—The network being an on-board power network, i.e. within a vehicle
- H02J2310/48—The network being an on-board power network, i.e. within a vehicle for electric vehicles [EV] or hybrid vehicles [HEV]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/70—Energy storage systems for electromobility, e.g. batteries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/7072—Electromobility specific charging systems or methods for batteries, ultracapacitors, supercapacitors or double-layer capacitors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02T90/10—Technologies relating to charging of electric vehicles
- Y02T90/12—Electric charging stations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Quality & Reliability (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了属于新能源汽车优化管理技术领域的一种基于深度强化学习的集群电动汽车充电行为优化方法。本发明为基于双延迟深度确定性策略梯度算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;相较于传统的优化控制方法,TD3在速度和灵活性上优势明显,且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。为增强智能体的泛化能力,本发明在原有状态观测上添加噪声,模拟一组初始SOC不同,到达与驶离时间各异的电动汽车,并扩展到集群电动汽车充电行为控制。
Description
技术领域
本发明属于电力系统优化调度领域,特别涉及一种基于深度强化学习的集群电动汽车充电行为优化方法。
背景技术
中国高度重视新能源汽车产业发展;预计到2025年,新能源汽车销量占比将达到25%左右,以2025年汽车当年累计产销总量2800万为基数计算,2025年新能源汽车产销总量将达到700万辆左右。电动汽车的大功率与时空不确定性会改变电网现有的负荷水平,进一步加大峰谷差,对电网的安全稳定性造成冲击。
作为需求侧管理的重要手段,峰谷分时电价在引导规范用电行为,辅助电网削峰填谷等方面发挥着重要作用。负荷聚合商(aggregator)可以响应充电分时电价(time-of-use tariff for charging),合理调整电动汽车充电行为,平抑负荷波动,减少用户充电成本。相较于其他可控负荷与储能设备,电动汽车具有特殊性,其调控要以满足用户出行与充放电意愿为前提。如何在满足不同用户的出行需求的基础上,快速响应电价信号,实时优化集群电动汽车充电行为,有重要的研究意义。
对集群电动汽车的充电行为优化问题,学术界传统的思路是对电动汽车的整个充电周期建模,构造优化目标与约束条件,然后用传统运筹学的方法,或是用交叉熵算法、交叉遗传粒子群算法、模拟退火算法等智能算法进行求解。当电动汽车集群规模较大时,上述方法的求解过程会耗费大量的时间和计算资源,甚至遇到“维度灾难”使结果无法收敛;此外,面对用户需要临时改变充电计划的情形,上述方法需要改变约束条件再次求解,使其在灵活性方面有所欠缺。
强化学习是一种数据驱动的机器学习方法,其特点在于不需要系统的先验知识,通过构造序列决策问题,训练智能体迭代完成对历史运行状态的动态学习,基于经验积累与回报分析得到问题的最优解。强化学习与深度学习结合形成的深度强化学习(deepreinforcement learning,DRL),集合深度学习强大的信息表征能力与强化学习对序列决策的优化能力,为诸多复杂优化调度问题的求解提供了新的思路。在智能电网需求侧管理领域,深度强化学习已经有相关结合点:例如在家庭能量管理系统(Home EnergyManagement Systems,HEMS)中引入深度强化学习方法控制可中断负荷投切时间以辅助用户优化用电行为;此前已经有相关工作用深度强化学习方法控制电动汽车入网(vehicleto Grid,V2G)模式下电动汽车的充放电行为,合理消纳可再生能源发电,但该文献仅仅考虑充电与不充电两种充电桩工作状态,且没有对用户取车时的目标SOC做出约束,难以满足用户的实际出行需求。
本发明的目的是,基于深度强化学习这一技术,提供一种在充分考虑电动汽车特性的基础上,既能降低计算复杂度,又能保证调度优化性的集群电动汽车的电动汽车充电行为管理方法。
当前最先进的强化学习算法之一是双延迟深度确定性策略梯度(twin delayDDPG,TD3)对单辆电动汽车功率连续可调假设下的充电过程进行建模,控制充电功率,优化电动汽车充电行为。相较于传统的优化控制方法,TD3在速度和灵活性上优势明显,且可以有效克服以往的强化学习方法动作空间离散、训练收敛困难、稳定性差的问题。通过在训练智能体时向其状态中引入随机噪声,该模型获得了对不同状态下电动汽车充电行为的泛化控制能力。通过对训练得到的智能体进行分布式部署,该方法实现了对集群电动汽车充电行为的高速实时分布式优化。最终,通过算例对该方法的优化效果进行了展示与分析。
发明内容
本发明的目的是提供一种基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;该集群电动汽车充电行为优化方法包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型。
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt。
步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体。
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证。
所述步骤A.建立集群电动汽车充电管理的数学优化模型包括如下步骤:
步骤A1.确定优化模型的目标函数,作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额;在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商可以获得更大的利润空间;故电动汽车集群的充电行为的优化目标为是全时段下集群电动汽车充电的总电费开销f,
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;
步骤A3.确定优化模型的约束条件,为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV的约束条件为
0≤Pi,t≤Pmax (5)
ti,arr≤t<ti,dep (7)
式中:是第i辆车在时刻t时的SOC大小;是用户离开时期望的SOC大小;是第i辆车的电池容量大小;是第i辆车在时刻t时,充电功率Pi,t下由式(2)对应的充电效率;δ是离开取车时的SOC与期望的SOC之间的可以允许的差值;Δt是输出功率改变时刻间的间隔。
所述步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤:
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标;强化学习是一类求解序列决策问题的有效方法,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界;智能体在每一步的交互中,都会获得对于所处环境状态的观测(观测是状态的一个子集),然后依靠某个策略决定下一步要执行的动作;环境会因为智能体对它的动作而改变,也可能自己改变;智能体也会从环境中感知到一个表明当前状态好坏的奖励信号的数字,智能体的目标是最大化累计奖励,即
式中:rt是每一步获得的奖励,γ∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合;强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法;
步骤B3.定义马尔可夫决策过程的动作,动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (10)
仅在取车时刻ti,dep且满足时为1,其余情况下均为0;考虑到智能体在探索阶段不易获得使的样本,难以学到有效经验,给算法的收敛带来了困难;为此,提出一种奖励塑形(reward shaping)技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间重新定义为
所述步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,包括如下步骤:
步骤C1.在初始状态中添加噪声,考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,当第i辆车的车主临时改变取车计划时,即ti,dep改变时,Nti,dep也会随之变化,这意味着需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度,为此提出一种基于分布式部署与深度强化学习的解决方案,首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面,利用不同EV主体间的结构相似性,该专利对电动汽车集群进行解耦。接下来,该专利将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从到待优化变量Pi,t的映射关系;考虑到,不同的EV主体存在差异,在强化学习求解序列决策时对分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体;
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体;假设充电桩功率连续可调,动作at具有连续的取值,选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器;TD3算法由估值网络和策略网络两个部分组成;策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,以上映射关系描述为
由式(16),以将[st,at]下的价值函数用Q(st,at)表示。Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故可以向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差可以通过基于Q(st,at)的时间差分误差迭代修正。
所述步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,包括:
步骤D1.智能体的部署,在训练收敛后,策略网络可以通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体;在假设的电动汽车集群充电站环境中,充电优化过程可以由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动;
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信;
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为;
步骤D2.通过算例对控制效果进行验证,参数设置为任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (17)
设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (18)
ti,dep~N(18,1) (19)
在训练智能体时,设置式(17)中的衰减因子ρ
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结;
所述的策略迭代过程是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;智能体最后都在EV即将驶离时将SOC控制在了0.85~0.90的目标范围内;其均匀充电策略的充电功率通过求解方程
解出,该策略可以将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。
本发明有益效果是本发明为基于双延迟深度确定性策略梯度算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,通过优化单体电动汽车充电行为实现集群电动汽车的充电行为优化,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;相较于传统的优化控制方法,本发明对训练得到的智能体进行分布式部署,该方法实现了对集群电动汽车充电行为的高速实时分布式优化。本发明具有如下特点:
(1)通过双延迟深度确定性策略梯度算法(TD3)训练的智能体鲁棒性好,泛化能力强,在不同的初始条件下均能满足用户的出行需求,在集群电动汽车充电行为优化问题上控制效果出色,实现响应分时电价、节约充电开销,平抑电网峰值的目。
(2)灵活性强,面对控制过程中用户需求临时改变的情况,智能体可以做出即时、有效的反应,不需重新训练或部署。
(3)相较传统运筹优化方法,该方法计算速度快,训练好的智能体仅需要对策略网络做一次前向传播就可以做出决策。
附图说明
图1为系统的整体控制框架示意图。
图2为充电效率与充电功率关系近似表达式拟合情况。
图3为强化学习中的核心概念。
图4为TD3算法训练流程图。
图5为分时电价。
图6为TD3算法学习曲线。
图7为SOC优化结果展示。
图8为充电开销优化结果展示。
具体实施方式
本发明提供一种基于深度强化学习的集群电动汽车充电行为优化方法,所述该优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度(twin delay DDPG,TD3)算法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;通过双延迟深度确定性策略梯度算法(twin delay deep deterministic policy gradient,TD3)对单辆电动汽车充电过程进行建模。通过在训练智能体时向其状态中引入随机噪声,该模型获得了对不同状态下的电动汽车充电行为的泛化控制能力。下面结合附图对本发明予以进一步说明。该方法其具体实施方式主要包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型。
步骤A1.确定优化模型的目标函数。作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额。在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商可以获得更大的利润空间。故电动汽车集群的充电行为的优化目标为
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;f是全时段下集群电动汽车充电的总电费开销。
步骤A2.拟合充电桩的平均充电效率与充电功率P间的函数关系。对于充电功率连续的充电桩,其关系如表1所示。通过对表内数据做多项式拟合,拟合情况如图2所示,得到平均充电效率关于充电功率P函数关系的近似表达式
表1平均充电效率、随充电功率范围变化表
步骤A3.确定优化模型的约束条件。为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV,该问题的约束条件为
0≤Pi,t≤Pmax (26)
ti,arr≤t<ti,dep (28)
式中:是第i辆车在时刻t时的SOC大小;是用户离开时期望的SOC大小;是第i辆车的电池容量大小;是第i辆车在时刻t时,充电功率Pi,t下由式(2)对应的充电效率;δ是离开取车时的SOC与期望的SOC之间的可以允许的差值;Δt是输出功率改变时刻间的间隔。
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt。
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标。强化学习是一类求解序列决策问题的有效方法,其核心概念如图3所示,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界。智能体在每一步的交互中,都会获得对于所处环境状态的观测(观测是状态的一个子集),然后依靠某个策略决定下一步要执行的动作。环境会因为智能体对它的动作而改变,也可能自己改变。智能体也会从环境中感知到奖励信号,一个表明当前状态好坏的数字。智能体的目标是最大化累计奖励,即
式中:rt是每一步获得的奖励,γ∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合。强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法。
步骤B2.定义马尔可夫决策过程的状态。状态st是对当前时刻t下情景的描述,所选取的st应为智能体的决策提供足够的参考,同时也要减少冗余的信息对决策的干扰。对任意选取的第i辆车,我们选择变量构成st,即
步骤B3.定义马尔可夫决策过程的动作。动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (31)
仅在取车时刻ti,dep且满足时为1,其余情况下均为0。考虑到智能体在探索阶段不易获得使的样本,难以学到有效经验,给算法的收敛带来了困难。为解决该问题,提出一种奖励塑形技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间重新定义为
步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体。
步骤C1.在初始状态中添加噪声。考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,例如:当第i辆车的车主临时改变取车计划时,即ti,dep改变时,也会随之变化,这意味着我们需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度。面对这样一个大规模、动态的优化问题,该专利提出一种基于分布式部署与深度强化学习的解决方案。首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面,利用不同EV主体间的结构相似性,该专利对电动汽车集群进行解耦。接下来,该专利将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从到待优化变量Pi,t的映射关系。考虑到,不同的EV主体存在差异,本文在强化学习求解序列决策时对分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体。
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体。由于我们假设充电桩功率连续可调,动作at具有连续的取值,本文选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器,该算法是目前最先进的针对连续动作空间设计的深度强化学习算法之一,具有训练过程收敛速度快,稳定性好的优势。TD3算法由估值网络和策略网络两个部分组成。策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,以上映射关系描述为
由式(16),以将[st,at]下的价值函数用Q(st,at)表示。Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故可以向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差可以通过动态规划中的策略迭代方法,基于Q(st,at)的时间差分误差迭代修正。
在策略迭代过程中,策略网络是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;TD3算法为解决价值函数的高估问题,采用以下手段:
(1)将估值网络分解为两个通道输出一对价值函数Q1(st,at)与Q2(st,at),取两者的最小值作为估值网络结果;
(2)构造目标估值网络与目标策略网络,其结构通估值网络与策略网络完全一致,通过软更新从原先的策略网络与估值网络向目标网络传递参数,延缓目标网络的更新速度;TD3算法使用经验回放技术,对探索过程中智能体获得的经验,即[st,at,rt,st+1]组成的四元组数据进行存储;经验回放中的数据为队列结构,当经验回放数据存满后,按照“先进先出”规则对存储数据进行替换;在更新网络参数时从经验回放中随机按批量抽取四元组数据用于梯度更新。
TD3算法训练智能体的具体步骤如下
(2)与环境交互获取当前状态st,利用策略网络得到该状态下对应的动作at。
(5)通过目标策略网络获得状态st'+1下的目标动作at′'+1,这里以及下文以t',t'+1为下标的变量都是对批量进行操作,之后不再赘述。
(9)通过最小化损失函数对估值网络参数θ进行更新,关于参数θ的损失函数LossCritic(θ)可以表示为
θ′=(1-τ)·θ′+τ·θ (43)
上述TD3算法训练过程如图4框图所示
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证。步骤D1.智能体的部署。在训练收敛后,策略网络可以通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体。在本文假设的电动汽车集群充电站环境中,充电优化过程可以由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动。
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为。
与集中式优化求解方法相比较,分布式部署方案避免了维度灾难,通过前向传播就可得到当前时刻下的优化充电功率,节省海量算力,降低微型充电控制器的硬件成本,相较传统方案,该方案在经济性与灵活性方面优势明显。
步骤D2.通过算例对控制效果进行验证。为验证该方法在集群电动汽车充电优化问题上的效果,选取一座充电桩数N=200的电动汽车充电站作为算例。该区域的商用分时电价设置如表2所示;分时电价可视化如图5所示。
表2分时电价
该区域的商用分时电价设置的参数做如下设置:任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (45)
设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (46)
ti,dep~N(18,1) (47)
由于分时电价按小时变化,设置Δt=1h;设置EV电池容量设置EV驶离时的期望SOC值设置EV驶离时SOC的偏差容忍度δ=0.025;设置EV充电桩的功率上限Pmax=10KW·h;设置充电过程中允许的SOC上限
在训练智能体时,对参数进行如下设置;设置式(14)中的奖励权重α=1,β=10;设置式(17)中的噪声σ=2;设置式(17)中的衰减因子ρ
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结,式(17)中的噪声项ρ·∈→0;设置式(18)中的噪声σ'=0.2;设置折扣因子γ=0.99;设置式(22)(23)中的软更新速率因子τ=0.005;选取MXnet-14.0深度学习框架搭建策略网络与估值网络,网络都为四层结构,具有两个单元数为128的中间层,通过泽维尔(Xavier)初始化网络参数,拷贝到目标策略网络与目标估值网络中;对损失函数式(20)与式(21)进行更新时,选择Adam优化器并设置学习率lr=10-4;设置经验回放长度l=106;设置批量大小batchsize=128;总训练批次meps=3×104。为加速算法的收敛速度,每与环境进行一轮交互,就对网络参数进行20次更新,即每一训练批次eps内进行20次对(20)(21)的梯度更新过程与式(22)(23)的软更新过程。整个训练过程如图6所示。为方便训练过程的可视化,计算每20批次的平均奖励显示在图6中,并对奖励做了平滑处理。由图6知,训练过程中奖励大小逐步提升,最终收敛在7.5附近。最终SOC的优化结果如图7所示。取编号为7、52、93、142、169、194的6辆EV对集群电动汽车的SOC的优化结果进行展示,结合图7中原始SOC优化结果图线与图5中的分时电价图线可以看出,在不同的初始条件下,该方法训练出的智能体都选择在分时电价较高的尖峰时段减小充电功率,在分时电价较低的时段增大充电功率;分时电价是电网峰谷趋势的价格反映,该行为模式不但能节省充电电费开销,也能缓解电网的峰时负荷压力;同时,在不同的初始条件下,智能体最后都在EV即将驶离时将SOC控制在了0.85~0.90的目标范围内。由此可见,该方法训练的智能体鲁棒性好,泛化能力强,可以通过分布部署的放式,应用到集群EV的充电优化问题中。考虑到在实际应用中可能遇到的用户临时改变取车计划,提前取车的情况,本文对训练得到智能体的应变能力进行测试,具体方法为:在12:00时向EV对应的控制智能体发送提前取车时间ti,dep一小时的控制信号。在接受控制型号后EV的SOC状态如图7中的浅色图线所示,可以看出,智能体会在当前状态下灵活改变自身策略,以满足用户的出行需求为最优目标,兼顾节约电费开支,合理增大充电功率,在用户取车时将SOC控制在期望值区间。该实验说明,当用户需求发生改变时,智能体可以做出即时、有效的反应,而不需要重新训练和部署,具有高度的灵活性。最终的充电开销优化结果如图8所示,采用随机模拟方法,与快速充电、均匀充电策略比较每日200车次的集群电动汽车充电站一周内的日开销情况。算例中的快速充电策略即在EV接入后,以Pi,t=6KW·h的恒定功率对EV进行充电,当时,停止充电;均匀充电策略的充电功率通过求解方程
解出,该策略可以将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。由图8可得,相较于快速充电与均匀充电策略,智能体控制下的优化充电行为可以节约30%左右的充电开销。通过优化充电行为,负荷聚合商获得了更大的盈利空间。算例同时对计算时间进行测试。通过MXnet-14.0框架的Python API编写TD3算法,并将智能体网络部署在NVIDIA GeForce RTX 2060上;本专利建立的集群电动汽车模拟环境运行在IntelCore i7-9750H CPU@2.60GHz和8GB的RAM上,在此计算平台上,智能体,即策略网络的一次前向传播仅仅需要0.0015s。在分布式部署后,尽管计算用时会因计算平台算力的降低而延长,但相较于计算复杂度随车辆数按指数增长的传统方法,该方法在大规模的充电优化问题上计算速度仍然优势明显。由于该方法降低了对算力的要求,在分布式部署时也可以减少在硬件层面的经费投入,具有更好的经济性。
Claims (7)
1.一种基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述基于深度强化学习的集群电动汽车充电行为优化方法是一种基于深度强化学习的集群电动汽车充电优化管理方法;该优化方法是基于双延迟深度确定性策略梯度法,实现对电动汽车的功率连续可调充电过程进行建模,训练智能体控制充电功率,优化电动汽车充电行为,将分时电价高时的负荷向电价低时进行转移,达到减少用户充电开销,平抑电网峰时负荷的目的;该集群电动汽车充电行为优化方法包含如下步骤:
步骤A.建立集群电动汽车充电管理的数学优化模型;
步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程,确定时刻t对应的状态st、动作at和奖励rt;
步骤C.利用双延迟深度确定性策略梯度算法(TD3)求解该马尔可夫决策过程,并通过在初始状态上增加随机噪声,训练获得包含任意状态st到动作at映射的鲁棒智能体;
步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,实现集群电动汽车的充电优化管理,并通过算例对控制性能进行了验证。
2.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述步骤A.建立集群电动汽车充电管理的数学优化模型包括如下步骤:
步骤A1.确定优化模型的目标函数,作为电网与用户的中间环节,负荷聚合商的利润来自于向电动汽车用户收取的充电管理服务费与从电网购买电量开销的差额;在充电管理服务费额定时,通过响应分时电价优化电动汽车集群的充电行为,降低电网购买电量的开销,负荷聚合商可以获得更大的利润空间;故电动汽车集群的充电行为的优化目标为是全时段下集群电动汽车充电的总电费开销f,
式中:Pi,t为第i辆车在时刻t时的充电功率;λt是时刻t时的分时电价;Nt是t时刻接入电网的EV数目;ti,arr与ti,dep分别是第i辆车到达充电站与驶离充电站的时刻;
步骤A3.确定优化模型的约束条件,为满足用户的出行需求,合理规避过充与欠充的情况,在取车离开时,EV电池的SOC应该在用户期望的区间内,综上所述,对任意第i辆EV的约束条件为
0≤Pi,t≤Pmax (5)
ti,arr≤t<ti,dep (7)
3.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述步骤B.将集群中任意第i辆电动汽车的充电优化问题构造成一个马尔可夫决策过程包括如下步骤:
步骤B1.定义利用强化学习求解马尔可夫决策过程的优化目标;强化学习是一类求解序列决策问题的有效方法,其中的主要角色是智能体和环境,环境是智能体存在和交互的世界;智能体在每一步的交互中,都会获得对于所处环境状态的观测(观测是状态的一个子集),然后依靠某个策略决定下一步要执行的动作;环境会因为智能体对它的动作而改变,也可能自己改变;智能体也会从环境中感知到一个表明当前状态好坏的奖励信号的数字,智能体的目标是最大化累计奖励,即
式中:rt是每一步获得的奖励,γ∈(0,1)称为折扣因子,表示奖励随时间步数增长衰减的速率,R(τ)指代所有可能的情况下奖励的集合;强化学习就是智能体通过学习行为不断修正自身策略来实现目标的方法;
步骤B3.定义马尔可夫决策过程的动作,动作at是当前时刻t下智能体在从环境中观测到状态st后,向环境做出的反应,对任意选取的第i辆车,选择充电功率作为at,即
at=Pi,t (10)
仅在取车时刻ti,dep且满足时为1,其余情况下均为0;考虑到智能体在探索阶段不易获得使的样本,难以学到有效经验,给算法的收敛带来了困难;为此,提出一种奖励塑形(reward shaping)技术,通过松弛约束条件,逐步引导算法向目标方向收敛,奖励塑形后SOC区间重新定义为
最终,定义rt为rt cos rt bound的加权线性组合
rt=α·rt cos+β·rt bound (14)。
4.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述步骤C.利用双延迟深度确定性策略梯度算法TD3求解该马尔可夫决策过程,包括如下步骤:
步骤C1.在初始状态中添加噪声,考虑到式(2)中引入的非线性因子,当大量电动汽车接入构建的场景中时,该模型的求解会消耗大量的时间与算力资源;同时,EV用户的取车行为具有不确定性,当第i辆车的车主临时改变取车计划时,即ti,dep改变时,也会随之变化,这意味着需要对上述模型重新进行求解;在大量EV接入的场景下,改变充电计划的可能性随接入EV数目按指数关系激增,这无疑又增大了求解的难度,为此提出一种基于分布式部署与深度强化学习的解决方案,首先,由于电动汽车集群中,不同的EV主体间的区别仅仅存于当前电池SOC、预计驶离时间、当前充电功率等方面,利用不同EV主体间的结构相似性,该专利对电动汽车集群进行解耦;接下来,该专利将解耦后的第i辆EV的充电行为构造为序列决策过程,并利用深度强化学习方法进行求解,训练神经网络获得每一个时刻从到待优化变量Pi,t的映射关系;考虑到,不同的EV主体存在差异,在强化学习求解序列决策时对分别加上随机噪声,以方便在后续的步骤中获得鲁棒的,适用于所有EV主体的智能体;
步骤C2.利用TD3对优化问题进行迭代求解,训练智能体;假设充电桩功率连续可调,动作at具有连续的取值,选用双延迟深度确定性策略梯度算法(TD3)作为充电控制器;TD3算法由估值网络和策略网络两个部分组成;策略网络建立由状态st到动作at的映射,而估值网络对策略网络建立的映射做出的量化评估,称为价值函数Q,以上映射关系描述为
由式(16),以将[st,at]下的价值函数用Q(st,at)表示;Q(st,at)越大,表示在状态st下选择at更有可能获得高收益,故可以向增大Q(st,at)的梯度方向更新策略网络,改善策略网络性能;而价值函数Q(st,at)的估计值与真实值的误差可以通过基于Q(st,at)的时间差分误差迭代修正。
5.根据权利要求1所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述步骤D.将训练好的智能体通过微型充电控制器分布式地部署到电动汽车充电桩上,包括:
步骤D1.智能体的部署,在训练收敛后,策略网络可以通过前向传播获得任意状态st下对应的最优动作at,训练好的策略网络即EV充电控制的智能体;在假设的电动汽车集群充电站环境中,充电优化过程可以由智能体分布式部署实现,其具体技术方案为
(1)设计微型充电控制器,具有存储,计算,通信的功能,将其加装在EV充电桩上,当充电桩接入EV时,充电控制器启动;
(2)实现微型充电控制器与充电监测系统、用户反馈信息、充电功率控制电路间的通信;
(3)将训练好的智能体存储到微型充电控制电路中,编写程序,实现模型的调用功能,与通信系统配合,优化充电行为;
步骤D2.通过算例对控制效果进行验证,参数设置为任意第i辆EV驶入充电站的时间ti,arr满足正态分布
ti,arr~N(8,1) (17)设置任意第i辆EV驶离充电站的时间ti,dep满足正态分布
ti,dep~N(18,1) (19)
在训练智能体时,设置式(17)中的衰减因子ρ
式中:eps是训练过程中当前的批次数,meps是训练过程中的总批次数,当eps→meps,训练过程趋于完结;
所述的策略迭代过程是始终向着增大价值函数Q(st,at)的方向进行更新的,这一性质会导致在训练智能体时Q(st,at)的估计值远大于真实值,为算法的收敛带来困难;智能体最后都在EV即将驶离时将SOC控制在0.85~0.90的目标范围内;其均匀充电策略的充电功率通过求解方程
解出,该策略可以将充电功率在EV驶入时间ti,arr与EV驶离时间ti,dep之间进行平均分配。
6.根据权利要求4所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,所述TD3算法为解决价值函数的高估问题,采用以下手段:
(1)将估值网络分解为两个通道输出一对价值函数Q1(st,at)与Q2(st,at),取两者的最小值作为估值网络结果;
(2)构造目标估值网络与目标策略网络,其结构通估值网络与策略网络完全一致,通过软更新从原先的策略网络与估值网络向目标网络传递参数,延缓目标网络的更新速度;TD3算法使用经验回放技术,对探索过程中智能体获得的经验,即[st,at,rt,st+1]组成的四元组数据进行存储;经验回放中的数据为队列结构,当经验回放数据存满后,按照“先进先出”规则对存储数据进行替换;在更新网络参数时从经验回放中随机按批量抽取四元组数据用于梯度更新。
7.根据权利要求4所述基于深度强化学习的集群电动汽车充电行为优化方法,其特征在于,利用TD3对优化问题进行迭代求解,训练智能体,TD3算法训练智能体的具体步骤如下
(2)与环境交互获取当前状态st,利用策略网络得到该状态下对应的动作at;
(5)通过目标策略网络获得状态st'+1下的目标动作a′t'+1,这里以及下文以t',t'+1为下标的变量都是对批量进行操作,之后不再赘述;
(9)通过最小化损失函数对估值网络参数θ进行更新,关于参数θ的损失函数LossCritic(θ)可以表示为
θ′=(1-τ)·θ′+τ·θ (26)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010830378.XA CN111934335B (zh) | 2020-08-18 | 2020-08-18 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010830378.XA CN111934335B (zh) | 2020-08-18 | 2020-08-18 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111934335A true CN111934335A (zh) | 2020-11-13 |
CN111934335B CN111934335B (zh) | 2022-11-18 |
Family
ID=73304351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010830378.XA Active CN111934335B (zh) | 2020-08-18 | 2020-08-18 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111934335B (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112510719A (zh) * | 2020-12-05 | 2021-03-16 | 东南大学 | 一种基于深度强化学习的智能电热水器保温档负荷控制方法 |
CN112632380A (zh) * | 2020-12-24 | 2021-04-09 | 北京百度网讯科技有限公司 | 兴趣点推荐模型的训练方法和推荐兴趣点的方法 |
CN112668239A (zh) * | 2020-12-30 | 2021-04-16 | 山东交通学院 | 一种基于对抗学习的混合动力卡车队列经验传授方法 |
CN112700099A (zh) * | 2020-12-24 | 2021-04-23 | 亿景智联(北京)科技有限公司 | 基于强化学习和运筹学的资源调度规划方法 |
CN112819576A (zh) * | 2021-01-27 | 2021-05-18 | 北京百度网讯科技有限公司 | 充电站推荐模型的训练方法、装置、及充电站的推荐方法 |
CN112874368A (zh) * | 2021-03-26 | 2021-06-01 | 国网黑龙江省电力有限公司电力科学研究院 | 一种基于qpso算法的电动汽车充电策略优化方法 |
CN112924177A (zh) * | 2021-04-02 | 2021-06-08 | 哈尔滨理工大学 | 一种改进深度q网络的滚动轴承故障诊断方法 |
CN112993983A (zh) * | 2021-02-26 | 2021-06-18 | 东南大学 | 一种抑制负荷过响应的分散式调控参数优化方法 |
CN112989699A (zh) * | 2021-03-12 | 2021-06-18 | 重庆交通大学 | 基于深度强化学习的新能源汽车性能评价方法 |
CN113036753A (zh) * | 2021-02-04 | 2021-06-25 | 南昌工学院 | 一种模拟电动汽车用户群实现提高充电稳定性的叠加模型 |
CN113110359A (zh) * | 2021-05-17 | 2021-07-13 | 清华大学 | 约束型智能汽车自主决策系统在线训练方法及装置 |
CN113159578A (zh) * | 2021-04-22 | 2021-07-23 | 杭州电子科技大学 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113922404A (zh) * | 2021-10-22 | 2022-01-11 | 山东大学 | 一种社区电动汽车集群充电协调方法及系统 |
CN114004033A (zh) * | 2021-11-16 | 2022-02-01 | 国网天津市电力公司 | 考虑低压配电网的住宅区电动汽车充电调度方法及装置 |
CN114048903A (zh) * | 2021-11-11 | 2022-02-15 | 天津大学 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
CN114084026A (zh) * | 2021-11-29 | 2022-02-25 | 重庆长安新能源汽车科技有限公司 | 电动汽车最优充电路径的动态规划方法及系统 |
CN114169538A (zh) * | 2022-02-11 | 2022-03-11 | 河南科技学院 | 一种基于多智能体强化学习的电动汽车电池充电调控方法 |
CN114398723A (zh) * | 2021-12-30 | 2022-04-26 | 国网江苏省电力有限公司苏州供电分公司 | 基于闵可夫斯基和的规模化电动汽车集群特性分析方法及系统 |
CN114444802A (zh) * | 2022-01-29 | 2022-05-06 | 福州大学 | 基于图神经网络强化学习的电动汽车充电引导优化方法 |
TWI767868B (zh) * | 2021-11-08 | 2022-06-11 | 國立清華大學 | 基於強化學習的充電站能源使用規劃方法及裝置 |
CN114844083A (zh) * | 2022-05-27 | 2022-08-02 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN114997935A (zh) * | 2022-07-19 | 2022-09-02 | 东南大学溧阳研究院 | 一种基于内点策略优化的电动汽车充放电策略优化方法 |
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN115489320A (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种基于深度强化学习的列车受电弓智能控制方法 |
CN115542915A (zh) * | 2022-10-08 | 2022-12-30 | 中国矿业大学 | 一种基于近似安全动作的自动驾驶强化学习方法 |
CN115663793A (zh) * | 2022-10-09 | 2023-01-31 | 四川大学 | 基于深度强化学习的电动汽车低碳充放电调度方法 |
CN115731072A (zh) * | 2022-11-22 | 2023-03-03 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN116691419A (zh) * | 2023-08-03 | 2023-09-05 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
CN116822618A (zh) * | 2023-08-30 | 2023-09-29 | 北京汉勃科技有限公司 | 基于动态噪声网络的深度强化学习探索方法及组件 |
CN117200225A (zh) * | 2023-11-07 | 2023-12-08 | 中国电力科学研究院有限公司 | 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置 |
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117852725A (zh) * | 2024-03-06 | 2024-04-09 | 国网北京市电力公司 | 一种电动汽车虚拟储能集群调度目标协同优化方法及系统 |
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337646A1 (en) * | 2016-05-19 | 2017-11-23 | Hefei University Of Technology | Charging and discharging scheduling method for electric vehicles in microgrid under time-of-use price |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
CN110443415A (zh) * | 2019-07-24 | 2019-11-12 | 三峡大学 | 一种计及动态电价策略的电动汽车充电站多目标优化调度方法 |
CN110738356A (zh) * | 2019-09-20 | 2020-01-31 | 西北工业大学 | 一种基于sdn增强网络的电动汽车充电智能调度方法 |
-
2020
- 2020-08-18 CN CN202010830378.XA patent/CN111934335B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337646A1 (en) * | 2016-05-19 | 2017-11-23 | Hefei University Of Technology | Charging and discharging scheduling method for electric vehicles in microgrid under time-of-use price |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
CN110443415A (zh) * | 2019-07-24 | 2019-11-12 | 三峡大学 | 一种计及动态电价策略的电动汽车充电站多目标优化调度方法 |
CN110738356A (zh) * | 2019-09-20 | 2020-01-31 | 西北工业大学 | 一种基于sdn增强网络的电动汽车充电智能调度方法 |
Non-Patent Citations (3)
Title |
---|
ELENA MOCANU 等: ""On-line building energy optimization using deep reinforcement learning"", 《IEEE TRANSACTIONS ON SMART GRID》 * |
李伟生等: "基于动态分时电价的电动汽车有序充放电研究", 《工业仪表与自动化装置》 * |
陈静鹏等: "基于集群响应的规模化电动汽车充电优化调度", 《电力系统自动化》 * |
Cited By (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112510719A (zh) * | 2020-12-05 | 2021-03-16 | 东南大学 | 一种基于深度强化学习的智能电热水器保温档负荷控制方法 |
CN112510719B (zh) * | 2020-12-05 | 2022-06-21 | 东南大学 | 一种基于深度强化学习的智能电热水器保温档负荷控制方法 |
CN112632380A (zh) * | 2020-12-24 | 2021-04-09 | 北京百度网讯科技有限公司 | 兴趣点推荐模型的训练方法和推荐兴趣点的方法 |
CN112700099A (zh) * | 2020-12-24 | 2021-04-23 | 亿景智联(北京)科技有限公司 | 基于强化学习和运筹学的资源调度规划方法 |
CN112668239A (zh) * | 2020-12-30 | 2021-04-16 | 山东交通学院 | 一种基于对抗学习的混合动力卡车队列经验传授方法 |
CN112819576A (zh) * | 2021-01-27 | 2021-05-18 | 北京百度网讯科技有限公司 | 充电站推荐模型的训练方法、装置、及充电站的推荐方法 |
CN113036753B (zh) * | 2021-02-04 | 2023-05-02 | 南昌工学院 | 一种模拟电动汽车用户群实现提高充电稳定性的叠加模型 |
CN113036753A (zh) * | 2021-02-04 | 2021-06-25 | 南昌工学院 | 一种模拟电动汽车用户群实现提高充电稳定性的叠加模型 |
CN112993983B (zh) * | 2021-02-26 | 2022-06-14 | 东南大学 | 一种抑制负荷过响应的分散式调控参数优化方法 |
CN112993983A (zh) * | 2021-02-26 | 2021-06-18 | 东南大学 | 一种抑制负荷过响应的分散式调控参数优化方法 |
CN112989699A (zh) * | 2021-03-12 | 2021-06-18 | 重庆交通大学 | 基于深度强化学习的新能源汽车性能评价方法 |
CN112989699B (zh) * | 2021-03-12 | 2022-05-24 | 重庆交通大学 | 基于深度强化学习的新能源汽车性能评价方法 |
CN112874368A (zh) * | 2021-03-26 | 2021-06-01 | 国网黑龙江省电力有限公司电力科学研究院 | 一种基于qpso算法的电动汽车充电策略优化方法 |
CN112924177A (zh) * | 2021-04-02 | 2021-06-08 | 哈尔滨理工大学 | 一种改进深度q网络的滚动轴承故障诊断方法 |
CN113159578A (zh) * | 2021-04-22 | 2021-07-23 | 杭州电子科技大学 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
CN113159578B (zh) * | 2021-04-22 | 2022-05-20 | 杭州电子科技大学 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
CN113110359A (zh) * | 2021-05-17 | 2021-07-13 | 清华大学 | 约束型智能汽车自主决策系统在线训练方法及装置 |
CN113448425A (zh) * | 2021-07-19 | 2021-09-28 | 哈尔滨工业大学 | 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统 |
CN113922404B (zh) * | 2021-10-22 | 2023-08-29 | 山东大学 | 一种社区电动汽车集群充电协调方法及系统 |
CN113922404A (zh) * | 2021-10-22 | 2022-01-11 | 山东大学 | 一种社区电动汽车集群充电协调方法及系统 |
TWI767868B (zh) * | 2021-11-08 | 2022-06-11 | 國立清華大學 | 基於強化學習的充電站能源使用規劃方法及裝置 |
CN114048903A (zh) * | 2021-11-11 | 2022-02-15 | 天津大学 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
CN114048903B (zh) * | 2021-11-11 | 2024-03-26 | 天津大学 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
CN114004033A (zh) * | 2021-11-16 | 2022-02-01 | 国网天津市电力公司 | 考虑低压配电网的住宅区电动汽车充电调度方法及装置 |
CN114084026A (zh) * | 2021-11-29 | 2022-02-25 | 重庆长安新能源汽车科技有限公司 | 电动汽车最优充电路径的动态规划方法及系统 |
CN114084026B (zh) * | 2021-11-29 | 2023-06-02 | 重庆长安新能源汽车科技有限公司 | 电动汽车最优充电路径的动态规划方法及系统 |
CN114398723A (zh) * | 2021-12-30 | 2022-04-26 | 国网江苏省电力有限公司苏州供电分公司 | 基于闵可夫斯基和的规模化电动汽车集群特性分析方法及系统 |
CN114398723B (zh) * | 2021-12-30 | 2023-12-22 | 国网江苏省电力有限公司苏州供电分公司 | 基于闵可夫斯基和的规模化电动汽车集群特性分析方法及系统 |
CN114444802A (zh) * | 2022-01-29 | 2022-05-06 | 福州大学 | 基于图神经网络强化学习的电动汽车充电引导优化方法 |
CN114444802B (zh) * | 2022-01-29 | 2024-06-04 | 福州大学 | 基于图神经网络强化学习的电动汽车充电引导优化方法 |
CN114169538A (zh) * | 2022-02-11 | 2022-03-11 | 河南科技学院 | 一种基于多智能体强化学习的电动汽车电池充电调控方法 |
CN114844083A (zh) * | 2022-05-27 | 2022-08-02 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN114844083B (zh) * | 2022-05-27 | 2023-02-17 | 深圳先进技术研究院 | 一种提高储能系统稳定性的电动汽车集群充放电管理方法 |
CN114997935A (zh) * | 2022-07-19 | 2022-09-02 | 东南大学溧阳研究院 | 一种基于内点策略优化的电动汽车充放电策略优化方法 |
CN115330556A (zh) * | 2022-08-10 | 2022-11-11 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN115330556B (zh) * | 2022-08-10 | 2024-04-02 | 北京百度网讯科技有限公司 | 充电站的信息调整模型的训练方法、装置及产品 |
CN115489320A (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种基于深度强化学习的列车受电弓智能控制方法 |
CN115542915A (zh) * | 2022-10-08 | 2022-12-30 | 中国矿业大学 | 一种基于近似安全动作的自动驾驶强化学习方法 |
CN115542915B (zh) * | 2022-10-08 | 2023-10-31 | 中国矿业大学 | 一种基于近似安全动作的自动驾驶强化学习方法 |
CN115663793B (zh) * | 2022-10-09 | 2023-06-23 | 四川大学 | 基于深度强化学习的电动汽车低碳充放电调度方法 |
CN115663793A (zh) * | 2022-10-09 | 2023-01-31 | 四川大学 | 基于深度强化学习的电动汽车低碳充放电调度方法 |
CN115731072B (zh) * | 2022-11-22 | 2024-01-30 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN115731072A (zh) * | 2022-11-22 | 2023-03-03 | 东南大学 | 一种基于安全深度强化学习的微网时空感知能量管理方法 |
CN116691419A (zh) * | 2023-08-03 | 2023-09-05 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
CN116691419B (zh) * | 2023-08-03 | 2023-11-14 | 浙江大学 | 弱链接通信下深度强化学习的电动汽车自主充电控制方法 |
CN116822618A (zh) * | 2023-08-30 | 2023-09-29 | 北京汉勃科技有限公司 | 基于动态噪声网络的深度强化学习探索方法及组件 |
CN117200225B (zh) * | 2023-11-07 | 2024-01-30 | 中国电力科学研究院有限公司 | 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置 |
CN117200225A (zh) * | 2023-11-07 | 2023-12-08 | 中国电力科学研究院有限公司 | 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置 |
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117578679B (zh) * | 2024-01-15 | 2024-03-22 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
CN117863948B (zh) * | 2024-01-17 | 2024-06-11 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
CN117852725A (zh) * | 2024-03-06 | 2024-04-09 | 国网北京市电力公司 | 一种电动汽车虚拟储能集群调度目标协同优化方法及系统 |
CN117852725B (zh) * | 2024-03-06 | 2024-05-24 | 国网北京市电力公司 | 一种电动汽车虚拟储能集群调度目标协同优化方法及系统 |
CN118037334A (zh) * | 2024-04-11 | 2024-05-14 | 国网江苏省电力有限公司电力科学研究院 | 一种电动汽车充电动态定价方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111934335B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111934335B (zh) | 一种基于深度强化学习的集群电动汽车充电行为优化方法 | |
Li et al. | Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN112186799B (zh) | 基于深度强化学习的分布式能源系统自治控制方法及系统 | |
CN112862281A (zh) | 综合能源系统调度模型构建方法、装置、介质及电子设备 | |
Zand et al. | Using adaptive fuzzy logic for intelligent energy management in hybrid vehicles | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN113515884A (zh) | 分散式电动汽车实时优化调度方法、系统、终端及介质 | |
CN110429652B (zh) | 一种可拓展深宽度自适应动态规划的智能发电控制方法 | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN107394798A (zh) | 包含时变时滞的电动汽车与发电机组协调频率控制方法 | |
CN116345577B (zh) | 风-光-储微电网能量调控优化方法、设备及存储介质 | |
Li et al. | Cyber-physical data fusion in surrogate-assisted strength pareto evolutionary algorithm for PHEV energy management optimization | |
CN111313449B (zh) | 一种基于机器学习的集群电动汽车功率优化管理方法 | |
Zhang et al. | A safe reinforcement learning-based charging strategy for electric vehicles in residential microgrid | |
CN111799820B (zh) | 一种电力系统双层智能混合零星云储能对抗调控方法 | |
CN114619907B (zh) | 基于分布式深度强化学习的协调充电方法及协调充电系统 | |
CN115133540B (zh) | 一种配电网无模型的实时电压控制方法 | |
Song et al. | Cooperative grid frequency control under asymmetric V2G capacity via switched integral reinforcement learning | |
CN116542137A (zh) | 一种分布式资源协同调度的多智能体强化学习方法 | |
CN116544995A (zh) | 基于云边协同的储能电池一致性充放电控制方法及系统 | |
CN114048576B (zh) | 一种稳定电网输电断面潮流的储能系统智能化控制方法 | |
CN115051403A (zh) | 基于深度q学习的孤岛微电网负荷频率控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |