CN115392143B - 一种基于深度强化学习的移动储能充放电时空规划方法 - Google Patents

一种基于深度强化学习的移动储能充放电时空规划方法 Download PDF

Info

Publication number
CN115392143B
CN115392143B CN202211343226.2A CN202211343226A CN115392143B CN 115392143 B CN115392143 B CN 115392143B CN 202211343226 A CN202211343226 A CN 202211343226A CN 115392143 B CN115392143 B CN 115392143B
Authority
CN
China
Prior art keywords
energy storage
charging
discharging
space
mobile energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211343226.2A
Other languages
English (en)
Other versions
CN115392143A (zh
Inventor
丁永康
何冠楠
宋洁
陈新江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202211343226.2A priority Critical patent/CN115392143B/zh
Publication of CN115392143A publication Critical patent/CN115392143A/zh
Application granted granted Critical
Publication of CN115392143B publication Critical patent/CN115392143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/007Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
    • H02J3/0075Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

本发明公布了一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模,训练包含四个神经网络的两级决策网络,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,从而对移动储能系统优化配置进行在线决策,由此实现基于深度强化学习的移动储能充放电时空规划。本发明简化了移动储能系统充放电时空优化的建模步骤,加快移动储能配置优化决策速度,提高了经济收益。

Description

一种基于深度强化学习的移动储能充放电时空规划方法
技术领域
本发明涉及移动式储能系统优化配置技术,具体涉及一种基于深度强化学习的移动储能充放电时空规划方法,通过深度强化学习和受限马尔科夫过程的建模,建立移动储能系统充放电时空规划在线决策网络模型,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,训练一个包含四个神经网络的两级决策网络,从而对移动储能系统优化配置进行在线决策。
背景技术
现有储能技术主要解决储能优化配置技术,电价差反映了全电网或者局部的电力不足或盈余,储能优化配置技术可带来的好处,比如降低了尖峰负荷,在电力不足电价较高时放电,从而减轻了电网压力。现有储能优化配置应用技术中,存在灵活性不足、决策效率低或精度不足、决策滞后等问题。现有技术多采用固定式储能系统,或依赖于已有的交通网络,比如铁路网络,缺乏足够的灵活性。现有解决技术方案中以求解器求解整数规划模型或大规模求解方法比如Benders分解等方法为主,这些技术存在的不足包括:首先建模困难,需要考虑多种约束;其次,求解时不能兼具求解效率和精度,在大规模问题下求解速度缓慢甚至无法求解;还存在决策滞后的问题。而且,这类技术方案需要全部的日前电价,无法考虑到电价的波动情况。
基于深度强化学习的方法不需要对复杂问题进行完整建模,通过对已有数据加噪声训练神经网络,可以得到用于实时决策的网络模型。储能系统充放电规划决策的动作空间包括:充电/放电选择、地点选择、功率选择,前两个为离散动作空间,功率选择为连续动作空间。而将现有的深度强化学习方法应用于储能充放电时空规划应用中,则只能解决离散动作的问题或连续动作空间的问题,例如只能决策充放电地点的选择和充放电的选择,或者充放电功率的决策,而无法同时决策移动式储能充放电配置问题中的离散连续混合动作空间问题。如果采用离散化连续动作空间的方法,同样会丧失求解的精度,使得储能规划与决策的精度不高、效率低下。
发明内容
针对目前现有技术中存在的储能优化配置中时空规划建模复杂、灵活性不足、决策效率低、无法实时在线决策等问题,本发明提供了一种基于深度强化学习方法的移动储能充放电时空规划在线决策方案,建立一种新的深度强化学习储能时空规划网络模型框架,利用多层级的神经网络学习移动储能系统(如储能车)的充放电相关决策,将训练好的网络模型作为移动储能充放电时空规划实时决策模型,从而快速高效地实现移动储能充放电时空规划。
具体地,本发明构建的深度强化学习储能时空规划网络模型包括基于电量、电价、电量成本、位置的状态空间,路径选择、充放电选择、充放电功率的动作空间,两层的值网络和策略网络,及其各自目标网络的四个神经网络,并考虑强化学习中智能体(即储能车)安全探索方案的深度强化学习方法。在训练过程中,为了训练的稳定性和效率,本发明采用经验回放策略。通过本发明的方法进行移动储能决策,一方面能够有效降低方案复杂度,无需对原问题进行建模,快速得到解决方案;另一方面,能够在保证求解精度的同时,大幅降低求解时间,并能够应对电价的未知性情况。
本发明的技术方案是:
一种基于深度强化学习的移动储能充放电时空规划方法,包括:由电动卡车、电池组、充电站和放电站组成的移动储能系统,基于深度强化学习的优化规划决策框架,包括由充放电选择(离散)、充放电地点确定(离散)、充放电功率决策(连续)的离散连续混合动作空间,由电池电量水平、电量成本、时间、充电站、电价等组成的移动储能系统状态空间,基于值网络和策略网络构成的二级深度神经网络构建移动储能时空优化规划调度网络模型等。本发明包含以下步骤:
1)确立移动储能充放电时空优化目标函数,以及相应的电量、功率等约束;
2)获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、位置等状态空间信息;
3)基于深度强化学习建立移动储能系统时空规划决策神经网络模型,根据1)中的目标函数设计奖励函数,将2)中的状态信息作为神经网络模型的输入,训练神经网络模型;
4)利用上3)中训练好的神经网络模型作为移动储能在线时空规划决策模型,该模型在每一个决策点输出充放电选择、充放电地点选择以及确定相应的功率,由此实现基于深度强化学习的移动储能时空规划。
针对以上步骤,下面详细进行说明:
1)确立移动储能充放电时空优化目标函数,以及相应的约束;
移动储能系统时空配置规划优化的目标函数为收益最大化,计算收益包括三个部分:充放电收益、移动成本、老化成本。因此相应的目标函数表示为:
Figure 931103DEST_PATH_IMAGE001
其中,
Figure 785926DEST_PATH_IMAGE002
其中,
Figure 565664DEST_PATH_IMAGE003
表示储能收益最大化;/>
Figure 960873DEST_PATH_IMAGE004
为移动储能系统的充放电收益,/>
Figure 712928DEST_PATH_IMAGE005
为移动储能系统在不同地点之间的移动成本,/>
Figure 535391DEST_PATH_IMAGE006
为移动储能系统老化成本。决策变量/>
Figure 802424DEST_PATH_IMAGE007
包括/>
Figure 1324DEST_PATH_IMAGE008
时刻系统在/>
Figure 607886DEST_PATH_IMAGE009
位置的充电功率/>
Figure 538933DEST_PATH_IMAGE010
,放电功率/>
Figure 293262DEST_PATH_IMAGE011
,从当前位置/>
Figure 30274DEST_PATH_IMAGE009
到下一位置/>
Figure 491342DEST_PATH_IMAGE012
的时间/>
Figure 921187DEST_PATH_IMAGE013
。本发明将时间划分为多个时间槽,每个时间槽/>
Figure 97566DEST_PATH_IMAGE014
长度为15分钟,对于目标函数各部分,相应的计算方式如下:
Figure 372689DEST_PATH_IMAGE015
第一部分充放电收益为每个时间槽收益的总和,其中
Figure 16160DEST_PATH_IMAGE016
为充放电效率,/>
Figure 351327DEST_PATH_IMAGE017
为当前时间地点的电价;H为时间槽集合;/>
Figure 17931DEST_PATH_IMAGE018
为充电站地点集合。
Figure 96746DEST_PATH_IMAGE019
/>
第二部分移动成本
Figure 594723DEST_PATH_IMAGE020
为不同位置点之间移动成本的总和,其中/>
Figure 304053DEST_PATH_IMAGE021
为常数,表示单位时间的移动成本,本发明具体实施时取值为20$/h。
Figure 254692DEST_PATH_IMAGE022
第三部分老化成本
Figure 137197DEST_PATH_IMAGE023
与充放电功率、时间相关,为各时间段老化成本的总和,其中/>
Figure 427364DEST_PATH_IMAGE024
为常数,与充放电量相关,本发明具体实施时取值为50$/MWh;/>
Figure 369912DEST_PATH_IMAGE025
为充电功率;/>
Figure 807847DEST_PATH_IMAGE026
为放电功率。
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值:
Figure 166147DEST_PATH_IMAGE027
Figure 638717DEST_PATH_IMAGE028
其中,
Figure 752166DEST_PATH_IMAGE029
为/>
Figure 615080DEST_PATH_IMAGE030
时刻的剩余电量;/>
Figure 839388DEST_PATH_IMAGE031
为最低容量限制,一般设为0,/>
Figure 900885DEST_PATH_IMAGE032
为最大电池容量,设置为2.7WM。/>
Figure 122919DEST_PATH_IMAGE033
和/>
Figure 535446DEST_PATH_IMAGE034
分别为/>
Figure 563444DEST_PATH_IMAGE030
时刻的充电功率 放电功率,/>
Figure 745027DEST_PATH_IMAGE035
为最大充放电功率,任何时刻充放电功率须小于此值。
2)观测移动储能系统的状态,获取状态空间信息;
本发明设计了全新的移动储能系统状态空间、动作空间和奖励函数。在每一个决策时间点(
Figure 872383DEST_PATH_IMAGE030
时刻),系统根据当前所在地点的电价、所在地点、当前时刻来确定下一个决策地点、充放电选择、相应的充放电功率。
Figure 772206DEST_PATH_IMAGE030
时刻的状态空间由公式/>
Figure 338316DEST_PATH_IMAGE036
描述,其中/>
Figure 568879DEST_PATH_IMAGE037
为/>
Figure 929453DEST_PATH_IMAGE030
时刻的剩余电量,/>
Figure 316572DEST_PATH_IMAGE038
代表剩余电量的平均成本,/>
Figure 624057DEST_PATH_IMAGE039
代表电价,/>
Figure 514652DEST_PATH_IMAGE040
分别表示地点和时刻。动作空间/>
Figure 311707DEST_PATH_IMAGE041
由公式/>
Figure 858226DEST_PATH_IMAGE042
表示,其中/>
Figure 31718DEST_PATH_IMAGE043
为下一个地点的选择,/>
Figure 42400DEST_PATH_IMAGE044
为充放电选择,包括充电、放电、保持(不充不放),/>
Figure 948039DEST_PATH_IMAGE045
为相应的功率。在目标函数的基础上,本发明将奖励函数设计为如下形式:
Figure 44171DEST_PATH_IMAGE046
其中,
Figure 755775DEST_PATH_IMAGE047
为奖励函数;/>
Figure 558646DEST_PATH_IMAGE048
为电价,/>
Figure 697503DEST_PATH_IMAGE049
为放电功率。
充电、放电和保持的状态转移方程分别如下公式所示:
Figure 280931DEST_PATH_IMAGE050
Figure 468330DEST_PATH_IMAGE051
Figure 453603DEST_PATH_IMAGE052
其中,
Figure 763362DEST_PATH_IMAGE053
是神经网络的决策。
移动储能充放电时空规划问题的最优解可能为边界解,因此本发明对移动储能系统在电池容量边界时的学习策略设计了一种方法:在更新网络的梯度下降过程中,电池电量可能会出现大于最高容量或小于最小容量的情况,本发明使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置。因为移动储能充放电时空规划问题中的安全约束为一维约束,且为紧闭集,容易得出最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解。投影点即可行的电池电量的计算方式如下:
Figure 771769DEST_PATH_IMAGE054
其中,
Figure 825176DEST_PATH_IMAGE055
为电池电量解;/>
Figure 664956DEST_PATH_IMAGE056
为镜像投影方向,/>
Figure 83299DEST_PATH_IMAGE057
为不可行的电池电量解;argmin为求使得目标最小参数取值;/>
Figure 375740DEST_PATH_IMAGE058
为二范数。移动储能系统电池容量的投影示意图如图1所示。
3)建立深度强化学习储能时空规划决策神经网络模型,训练神经网络模型;
31)储能规划动作空间表示;
对于移动储能规划问题中存在的离散连续混合动作空间问题,本发明将储能规划动作空间
Figure 232838DEST_PATH_IMAGE059
构建为两层结构,包括策略网络结构和值网络结构;针对储能规划离散动作/>
Figure 927124DEST_PATH_IMAGE060
和与该离散动作关联的连续动作参数/>
Figure 513439DEST_PATH_IMAGE061
,基于策略网络确定/>
Figure 558755DEST_PATH_IMAGE062
,基于值网络选择储能规划离散动作/>
Figure 953964DEST_PATH_IMAGE063
;储能规划动作空间/>
Figure 440441DEST_PATH_IMAGE064
表示为:
Figure 528482DEST_PATH_IMAGE065
其中,
Figure 795516DEST_PATH_IMAGE066
为连续动作参数集合,/>
Figure 932099DEST_PATH_IMAGE067
为离散动作集合。
对于传统基于Q-learning的强化学习,其贝尔曼方程的形式为:
Figure 335398DEST_PATH_IMAGE068
其中,
Figure 594341DEST_PATH_IMAGE069
为状态,/>
Figure 286354DEST_PATH_IMAGE070
表示动作,/>
Figure 23366DEST_PATH_IMAGE071
代表下一个最优的/>
Figure 546751DEST_PATH_IMAGE072
取值(Q值,是一个与状态/>
Figure 914278DEST_PATH_IMAGE073
和动作/>
Figure 890325DEST_PATH_IMAGE074
相关的值,表示在状态/>
Figure 431027DEST_PATH_IMAGE075
下选择动作/>
Figure 12181DEST_PATH_IMAGE074
的程度),/>
Figure 347348DEST_PATH_IMAGE076
代表奖励(reward),/>
Figure 76269DEST_PATH_IMAGE077
为折扣因子,/>
Figure 155084DEST_PATH_IMAGE078
和/>
Figure 590744DEST_PATH_IMAGE079
是下一个采取的动作和抵达的状态,/>
Figure 96812DEST_PATH_IMAGE080
表示动作选择基于/>
Figure 313030DEST_PATH_IMAGE081
贪婪策略。考虑储能时空规划中的离散连续混合动作空间的马尔科夫(MDP)过程,本发明建立贝尔曼方程为:
Figure 133218DEST_PATH_IMAGE083
其中,
Figure 485702DEST_PATH_IMAGE084
为离散连续混合动作空间下一个/>
Figure 428250DEST_PATH_IMAGE072
值的取值,下标/>
Figure 806798DEST_PATH_IMAGE030
表示决策时刻,/>
Figure 227415DEST_PATH_IMAGE085
分别表示状态,离散动作和离散动作相应的连续参数;sup为上确界;max为取最大值;/>
Figure 699984DEST_PATH_IMAGE086
表示决策时间点。在对于连续空间/>
Figure 485538DEST_PATH_IMAGE087
取上界时会有巨大的计算量,本发明将
Figure 410769DEST_PATH_IMAGE088
视为一个映射函数:/>
Figure 635077DEST_PATH_IMAGE089
,因此,相应的,贝尔曼方程改为:
Figure 962153DEST_PATH_IMAGE090
上式描述了储能时空规划中的离散连续混合动作空间。其中,
Figure 918607DEST_PATH_IMAGE091
表示下一个决策时刻,映射函数/>
Figure 331134DEST_PATH_IMAGE092
通过策略神经网络拟合,表示/>
Figure 93554DEST_PATH_IMAGE093
时刻/>
Figure 478399DEST_PATH_IMAGE094
到/>
Figure 933651DEST_PATH_IMAGE095
的映射。
此形式的贝尔曼方程可以更方便的通过均方误差计算梯度,以更新值网络和策略网络。
32)设计深度强化学习储能时空规划决策神经网络模型中的值网络和策略网络的损失函数;
本发明使用一个深度评论网络
Figure 833474DEST_PATH_IMAGE096
来近似/>
Figure 337267DEST_PATH_IMAGE097
,使用一个深度确定策略梯度演员网络/>
Figure 373357DEST_PATH_IMAGE098
来近似/>
Figure 999510DEST_PATH_IMAGE099
,其中/>
Figure 386629DEST_PATH_IMAGE100
和/>
Figure 428534DEST_PATH_IMAGE101
分别为值网络和策略网络的参数。网络/>
Figure 584709DEST_PATH_IMAGE102
和/>
Figure 381764DEST_PATH_IMAGE103
的损失函数计算方式如下:
Figure 990600DEST_PATH_IMAGE104
Figure 101775DEST_PATH_IMAGE105
其中,
Figure 112457DEST_PATH_IMAGE106
和/>
Figure 80413DEST_PATH_IMAGE107
分别为值网络和策略网络,更新一个网络时另一个网络的参数固定。两个网络均为直连网络,选择Relu函数作为激活函数。结构如图2所示。
33)采用目标网络方法和经验池方法训练深度强化学习储能时空规划决策神经网络模型;
在神经网络的训练过程中,为了训练的稳定性和训练效率,本发明采用目标网络方法和经验池方法。值网络和策略网络均有一个目标网络,单步的动作状态元组会储存到经验池
Figure 848648DEST_PATH_IMAGE108
中,目标网络的更新采用软更新方式。
4)利用上一步中训练好的网络作为在线决策模型,输入移动储能系统的初始状态,输出充放电功率、充放电选择和路径选择,实现基于深度强化学习的移动储能时空规划;
通过多次的迭代训练,得到两个网络:
Figure 294673DEST_PATH_IMAGE106
和/>
Figure 425440DEST_PATH_IMAGE107
,将需要进行储能充放电时空规划求解的储能系统按本发明步骤2)中提到的方法,建立储能系统初始状态
Figure 564298DEST_PATH_IMAGE109
,将其输入到步骤3)中训练好的网络模型中,每个时刻输出相应的/>
Figure 285741DEST_PATH_IMAGE110
与/>
Figure 535457DEST_PATH_IMAGE111
,即充放电功率、充放电选择和充放电路径选择,由此实现基于深度强化学习的移动储能充放电时空规划。
与现有技术相比,本发明的效果是:
本发明提供一种基于深度强化学习的移动储能时空配置优化规划方法,通过构建基于深度强化学习方法的移动储能系统时空优化规划决策网络模型,简化了移动储能系统充放电时空优化的建模步骤,加快了决策速度,提高了经济收益,解决了现有技术不能实时决策的问题。现有技术解决此类问题的主要方法是整数规划模型或其他精确解算法,这些方法需要复杂的建模过程,并在求解时需要全局信息。本发明使用的深度强化学习技术大大简化了建模过程,只需要确定优化目标与约束,并且在决策时不需要全部的电价信息,能够应对电价不确定的情况。利用训练好的移动储能系统充放电时空优化神经网络模型,能够快速的进行移动储能系统的时空优化决策,大幅度提高了规划配置速度。
附图说明
图1为本发明使用镜像下降和梯度投影的方法,将超出可行域的电池电量解(不可行的电池电量解)重新投影到可行域的镜像下降与梯度投影示意图;
其中,
Figure 520731DEST_PATH_IMAGE112
为可行域;/>
Figure 502593DEST_PATH_IMAGE113
表示可行域为一维实数集;/>
Figure 573317DEST_PATH_IMAGE114
为上一个可行电池电量解;/>
Figure 626724DEST_PATH_IMAGE115
为电池电量解;/>
Figure 466504DEST_PATH_IMAGE116
为不可行的电池电量解;/>
Figure 150426DEST_PATH_IMAGE117
为/>
Figure 442867DEST_PATH_IMAGE118
的镜像投影方向,图中镜像投影方向和梯度投影方向为相反。
图2为本发明方法构建的基于深度强化学习的移动储能时空规划神经网络模型的结构示意图;
其中,
Figure 299965DEST_PATH_IMAGE119
表示储能系统状态信息,/>
Figure 666355DEST_PATH_IMAGE120
为储能系统连续动作,下标/>
Figure 317917DEST_PATH_IMAGE111
表示储能系统离散动作,/>
Figure 363233DEST_PATH_IMAGE121
分别表示储能时空规划模型的策略网络和值网络的网络参数,/>
Figure 758442DEST_PATH_IMAGE072
表示神经网络输出的/>
Figure 510498DEST_PATH_IMAGE072
值。
图3为本发明具体实施采用单充电站时的移动储能时空规划算法收敛示意图。
图4为本发明具体实施采用31个充电站时的移动储能时空规划算法收敛情况示意图。
图5为本发明具体实施采用31个充电站时的移动储能时空规划过程中部分电池电量变化与电价水平关系示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明基于移动式储能的特征,提供了一种基于深度强化学习的移动储能时空优化实时规划方法,通过构建基于深度强化学习方法的移动储能系统时空优化规划决策网络模型,实现移动储能系统时空优化实时配置规划和决策。
本发明构建的基于深度强化学习方法的移动储能系统时空优化配置规划决策网络模型进行训练的算法流程如下:
输入:探索因子
Figure 598539DEST_PATH_IMAGE122
,最小批/>
Figure 865573DEST_PATH_IMAGE123
,概率分布/>
Figure 736577DEST_PATH_IMAGE124
,折扣因子/>
Figure 405455DEST_PATH_IMAGE125
,软更新参数/>
Figure 664398DEST_PATH_IMAGE126
;初始化经验回放池/>
Figure 153148DEST_PATH_IMAGE108
的容量为/>
Figure 827843DEST_PATH_IMAGE127
;初始化网络/>
Figure 351229DEST_PATH_IMAGE128
和/>
Figure 515494DEST_PATH_IMAGE129
的网络参数分别为/>
Figure 975030DEST_PATH_IMAGE130
和/>
Figure 515733DEST_PATH_IMAGE131
输出:
Figure 893624DEST_PATH_IMAGE132
算法流程:
1.从回合 i=1,2,…,I进行循环:
2.计算初始动作参数
Figure 166474DEST_PATH_IMAGE133
3.对每个决策时间点t=1,2,…,T进行循环:
4.根据
Figure 629816DEST_PATH_IMAGE134
贪婪策略选择动作/>
Figure 974210DEST_PATH_IMAGE135
5.
Figure 472187DEST_PATH_IMAGE136
6.执行动作
Figure 915938DEST_PATH_IMAGE137
,获得奖励/>
Figure 132156DEST_PATH_IMAGE138
和下一个状态/>
Figure 14661DEST_PATH_IMAGE139
/>
7.存储元组
Figure 570408DEST_PATH_IMAGE140
到经验回放池/>
Figure 247377DEST_PATH_IMAGE108
8.从经验池D中采样
Figure 685311DEST_PATH_IMAGE123
个元组/>
Figure 371507DEST_PATH_IMAGE141
9.计算目标
Figure 250602DEST_PATH_IMAGE142
10.
Figure 364051DEST_PATH_IMAGE143
11. 使用数据
Figure 289282DEST_PATH_IMAGE144
计算随机梯度/>
Figure 716852DEST_PATH_IMAGE145
和/>
Figure 43928DEST_PATH_IMAGE146
12. 根据梯度信息更新网络参数:
Figure 328279DEST_PATH_IMAGE147
,/>
Figure 475227DEST_PATH_IMAGE148
13. 软更新两个目标网络参数
Figure 175329DEST_PATH_IMAGE149
和/>
Figure 356912DEST_PATH_IMAGE150
:/>
Figure 812164DEST_PATH_IMAGE151
14. 结束循环
15. 结束循环
以下以某地区的移动储能系统的充放电实时调度为应用案例,选择该地区移动储能系统中定义的编号为17的点作为中心点,选择其半径为2英里和10英里的区域,对应包含充放电站分别为1个和31个,并使用该区域2018年某个日期对应的电价信息。采用本发明方法实现移动储能系统充放电的决策和路径的选择。具体地,可将一天的时间每隔15min进行划分为多个时间间隔,在每个时间间隔对移动储能系统的充电或放电、功率、下一地点的选择进行决策,由此对储能系统充放电路径进行规划,实现储能系统充放电的实时配置调度。
利用本发明,基于移动储能系统的充电站的位置信息和电价信息,充放电实时配置规划优化决策过程包括以下步骤:
1)确立优化目标函数,以及相应的约束;
移动储能系统的充放电实时配置规划的优化目标为获取移动储能系统的最大收益;移动储能系统的收益包括三个部分:充放电收益、移动成本、老化成本。因此,本发明建立相应的移动储能系统充放电实时配置规划的优化目标函数,表示为:
Figure 649670DEST_PATH_IMAGE152
其中,
Figure 215781DEST_PATH_IMAGE153
其中,
Figure 251870DEST_PATH_IMAGE154
为充放电收益,/>
Figure 78356DEST_PATH_IMAGE155
为不同地点之间的移动成本,/>
Figure 199896DEST_PATH_IMAGE156
为老化成本。决策变量/>
Figure 569697DEST_PATH_IMAGE157
包括/>
Figure 725872DEST_PATH_IMAGE158
时刻系统在/>
Figure 195031DEST_PATH_IMAGE009
位置的充电功率/>
Figure 803866DEST_PATH_IMAGE159
,放电功率/>
Figure 711780DEST_PATH_IMAGE160
,从当前位置/>
Figure 660144DEST_PATH_IMAGE009
到下一位置/>
Figure 628100DEST_PATH_IMAGE161
的时间/>
Figure 724232DEST_PATH_IMAGE162
。本发明将时间划分为多个时间槽,每个时间槽/>
Figure 435836DEST_PATH_IMAGE163
长度为15分钟,对于目标函数各部分,相应的计算方式如下:
Figure 504286DEST_PATH_IMAGE164
第一部分充放电收益为每个时间槽收益的总和,其中
Figure 643144DEST_PATH_IMAGE016
为充放电效率,/>
Figure 960992DEST_PATH_IMAGE017
为当前时间地点的电价。/>
Figure 413970DEST_PATH_IMAGE165
第二部分移动成本
Figure 399244DEST_PATH_IMAGE166
为不同点之间移动成本的总和,其中/>
Figure 709003DEST_PATH_IMAGE167
为常数,表示单位时间的移动成本,本发明设为20$/h。
Figure 514148DEST_PATH_IMAGE168
第三部分老化成本
Figure 770817DEST_PATH_IMAGE169
与充放电功率、时间相关,为各时间段老化成本的总和,其中/>
Figure 610597DEST_PATH_IMAGE170
为常数,与充放电量相关,本发明设为50$/MWh。
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值:
Figure 91256DEST_PATH_IMAGE171
Figure 321381DEST_PATH_IMAGE172
其中
Figure 912899DEST_PATH_IMAGE173
为最低容量限制,一般设为0,/>
Figure 872765DEST_PATH_IMAGE174
为最大电池容量,设置为2.7WM。/>
Figure 462009DEST_PATH_IMAGE175
为最大充放电功率,任何时刻充放电功率须小于此值。
2)观测系统状态,获取状态空间信息
Figure 241746DEST_PATH_IMAGE030
时刻的状态空间/>
Figure 636955DEST_PATH_IMAGE176
由公式/>
Figure 451328DEST_PATH_IMAGE177
描述,其中/>
Figure 214403DEST_PATH_IMAGE178
为/>
Figure 481436DEST_PATH_IMAGE030
时刻的剩余电量,/>
Figure 680336DEST_PATH_IMAGE179
代表剩余电量的平均成本,/>
Figure 286898DEST_PATH_IMAGE180
代表电价,n和t分别表示地点和时刻。动作空间/>
Figure 280262DEST_PATH_IMAGE181
由公式/>
Figure 34591DEST_PATH_IMAGE182
表示,其中为下一个地点的选择,/>
Figure 37183DEST_PATH_IMAGE183
为充放电选择,包括充电、放电、保持(不充不放),/>
Figure 498251DEST_PATH_IMAGE045
为相应的功率。在目标函数的基础上,本发明将奖励函数设计为如下形式:
Figure 662516DEST_PATH_IMAGE184
其中
Figure 904141DEST_PATH_IMAGE185
为电价,/>
Figure 382527DEST_PATH_IMAGE186
为放电功率。
充电、放电和保持的状态转移方程分别如下公式所示:
Figure 760419DEST_PATH_IMAGE187
Figure 361165DEST_PATH_IMAGE188
Figure 824507DEST_PATH_IMAGE189
其中
Figure 106584DEST_PATH_IMAGE053
由神经网络决策;下标/>
Figure 338982DEST_PATH_IMAGE190
表示下一个决策时刻。
此类问题的最优解可能为边界解,因此本发明对移动储能系统(智能体)在边界时的学习策略设计了一种方法:在更新网络的梯度下降过程中,电池电量可能会出现大于最高容量或小于最小容量的情况,本发明使用镜像下降和梯度投影的方法,将超出可行域的解重新投影到可行域中,并利用布莱格曼散度来确定投影位置。因为此类问题中的安全约束为一维约束,且为紧闭集,容易得出最佳投影点为边界点,且收敛点为可行解。投影点的计算方式如下:
Figure 110629DEST_PATH_IMAGE191
其中
Figure 998951DEST_PATH_IMAGE192
为镜像投影方向,/>
Figure 881456DEST_PATH_IMAGE193
为不可行解。投影示意图如图1所示。
3)建立深度强化学习决策框架,训练神经网络
对于此类问题中存在的离散连续混合动作空间问题,本发明将动作空间
Figure 233940DEST_PATH_IMAGE194
构建为两层结构,离散动作/>
Figure 114171DEST_PATH_IMAGE111
和与该离散动作关联的连续参数/>
Figure 552106DEST_PATH_IMAGE195
,基于一个策略网络确定/>
Figure 238302DEST_PATH_IMAGE196
,然后基于值网络选择离散动作/>
Figure 445292DEST_PATH_IMAGE111
Figure 496425DEST_PATH_IMAGE197
其中
Figure 421656DEST_PATH_IMAGE198
连续动作参数集合,/>
Figure 645964DEST_PATH_IMAGE199
为离散动作集合。
对于传统基于Q-learning的强化学习,其贝尔曼方程的形式为:
Figure 907793DEST_PATH_IMAGE200
其中
Figure 926565DEST_PATH_IMAGE201
为状态,/>
Figure 339092DEST_PATH_IMAGE202
表示动作,/>
Figure 367090DEST_PATH_IMAGE203
代表下一个最优的/>
Figure 486356DEST_PATH_IMAGE072
取值,/>
Figure 941608DEST_PATH_IMAGE204
代表奖励reward,/>
Figure 575852DEST_PATH_IMAGE205
为折扣因子,/>
Figure 79646DEST_PATH_IMAGE206
和/>
Figure 381314DEST_PATH_IMAGE207
是下一个采取的动作和抵达的状态,/>
Figure 7467DEST_PATH_IMAGE208
表示动作选择基于/>
Figure 129007DEST_PATH_IMAGE209
策略。考虑该类问题中的离散连续混合动作空间的马尔科夫(MDP)过程,贝尔曼方程建立为:
Figure 436492DEST_PATH_IMAGE210
Figure 592667DEST_PATH_IMAGE030
表示决策时间点。在对于连续空间/>
Figure 389721DEST_PATH_IMAGE211
取上界时会有巨大的计算量,本发明将
Figure 936240DEST_PATH_IMAGE212
视为一个映射函数:/>
Figure 844153DEST_PATH_IMAGE213
,因此,相应的,贝尔曼方程改为:
Figure 854835DEST_PATH_IMAGE214
此形式的贝尔曼方程可以更方便的通过均方误差计算梯度,以更新值网络和策略网络。本发明使用一个深度评论网络
Figure 822791DEST_PATH_IMAGE215
来近似/>
Figure 856606DEST_PATH_IMAGE216
,使用一个深度确定策略梯度演员网络/>
Figure 568210DEST_PATH_IMAGE217
来近似/>
Figure 433398DEST_PATH_IMAGE218
,其中/>
Figure 509938DEST_PATH_IMAGE219
和/>
Figure 93366DEST_PATH_IMAGE220
分别为值网络和策略网络的参数。这两个网络的损失函数计算方式如下:
Figure 608661DEST_PATH_IMAGE221
Figure 328355DEST_PATH_IMAGE222
其中
Figure 575797DEST_PATH_IMAGE072
和/>
Figure 646521DEST_PATH_IMAGE223
分别为值网络和策略网络,更新一个网络时另一个网络的参数固定。两个网络均为直连网络,选择Relu函数作为激活函数。结构如图2所示。
在神经网络的训练过程中,为了训练的稳定性和训练效率,本发明采用目标网络方法和经验池方法。值网络和策略网络均有一个目标网络,单步的动作状态元组会储存到经验池
Figure 699928DEST_PATH_IMAGE224
中,目标网络的更新采用软更新方式。
4)利用上一步中训练好的网络作为在线决策模型
通过多次的迭代训练,会得到两个网络
Figure 468602DEST_PATH_IMAGE106
和/>
Figure 949262DEST_PATH_IMAGE107
,对需要求解的问题按本发明步骤2)中提到的方法,建立初始状态/>
Figure 507282DEST_PATH_IMAGE225
,将其输入到网络模型中,每个时刻输出相应的/>
Figure 36484DEST_PATH_IMAGE226
与/>
Figure 730770DEST_PATH_IMAGE111
,即充放电功率、充放电选择和路径选择。
表1展示了本实例中移动储能规划系统中的相关参数设置。本发明中的神经网络采用五层的直连网络,包括输入层、输出层和三个隐藏层,隐藏层大小设置为[256,128,64],激活函数采用Relu函数。
表1 实例中的参数及其取值
Figure 647911DEST_PATH_IMAGE227
图3和图4分别表示在一个充电站和31个充电站时本发明方法的奖励收敛情况:图中横坐标表示迭代回合,具体回合数为坐标轴数字乘以100,纵坐标表示每100回合的平均奖励值,表示规划收益。图3中展示了本发明方法的解和用现有的求解器Gurobi求得的最优解比,其误差在1%以内。图4展示了在31个充电站,求解器Gurobi没法求解时本发明方法的收益。
图5展示了采用本发明的方法时电池电量与各个充电站电价关系。图中横轴为时间,单个间隔长度为15min,左纵坐标表示充电电量,与图中柱状图对应,正数代表充电,负数代表放电;右纵坐标表示电价,与图中折线图对应。从图中可以看出,移动储能系统在点30、点27等低电价充电站充电,在点14、2等充电站放电。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (4)

1.一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模和模型训练,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,对移动储能系统充放电优化配置进行在线时空规划决策;包括以下步骤:
1)确立移动储能充放电时空规划优化目标函数以及相应的约束,包括电量约束和功率约束;
目标函数表示为:
Figure 931837DEST_PATH_IMAGE001
其中,
Figure 688571DEST_PATH_IMAGE002
其中,
Figure 919832DEST_PATH_IMAGE003
表示充放电时空规划优化目标为储能收益最大化;
Figure 694890DEST_PATH_IMAGE004
为移动储能系统的充放电收益;
Figure 618984DEST_PATH_IMAGE005
为移动储能系统在不同地点之间的移动成本,
Figure 784386DEST_PATH_IMAGE006
为移动储能系统老化成本;决策变量
Figure 694705DEST_PATH_IMAGE007
包括
Figure 199635DEST_PATH_IMAGE008
时刻系统在
Figure 419264DEST_PATH_IMAGE009
位置的充电功率
Figure 9645DEST_PATH_IMAGE010
,放电功率
Figure 723655DEST_PATH_IMAGE011
,从当前位置
Figure 348671DEST_PATH_IMAGE009
到下一位置
Figure 739201DEST_PATH_IMAGE012
的时间
Figure 551299DEST_PATH_IMAGE013
其中:
Figure 68999DEST_PATH_IMAGE014
其中
Figure 407577DEST_PATH_IMAGE015
为充放电效率,
Figure 844374DEST_PATH_IMAGE016
为当前时间地点的电价;H为时间槽集合;
Figure 19135DEST_PATH_IMAGE017
为充电站地点集合;
Figure 934001DEST_PATH_IMAGE018
为将时间划分成的时间槽;
Figure 658244DEST_PATH_IMAGE019
其中
Figure 265942DEST_PATH_IMAGE020
为常数,表示单位时间的移动成本;
Figure 193578DEST_PATH_IMAGE021
其中
Figure 912136DEST_PATH_IMAGE022
为与充放电量相关的常数;
Figure 490884DEST_PATH_IMAGE023
为充电功率;
Figure 269485DEST_PATH_IMAGE024
为放电功率;
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值,表示为:
Figure 605788DEST_PATH_IMAGE025
Figure 997543DEST_PATH_IMAGE026
其中,
Figure 306165DEST_PATH_IMAGE027
Figure 380300DEST_PATH_IMAGE028
时刻的剩余电量;
Figure 141583DEST_PATH_IMAGE029
为最低容量限制;
Figure 342888DEST_PATH_IMAGE030
为最大电池容量;
Figure 506016DEST_PATH_IMAGE031
Figure 751052DEST_PATH_IMAGE032
分别为
Figure 265210DEST_PATH_IMAGE028
时刻的充电功率和放电功率;
Figure 4627DEST_PATH_IMAGE033
为最大充放电功率;
2)设计获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、充放电位置空间信息;
Figure 756683DEST_PATH_IMAGE028
时刻的状态空间由公式
Figure 438200DEST_PATH_IMAGE034
描述,其中
Figure 439654DEST_PATH_IMAGE035
Figure 451603DEST_PATH_IMAGE028
时刻的剩余电量,
Figure 589324DEST_PATH_IMAGE036
代表剩余电量的平均成本,
Figure 441742DEST_PATH_IMAGE037
代表电价,
Figure 196071DEST_PATH_IMAGE038
分别表示地点和时刻;移动储能系统的离散连续混合动作空间
Figure 746133DEST_PATH_IMAGE039
由公式
Figure 535097DEST_PATH_IMAGE040
表示,
Figure 168204DEST_PATH_IMAGE041
为充放电选择,包括充电、放电、保持;
Figure 3305DEST_PATH_IMAGE042
为相应的功率;
设计移动储能系统的奖励函数,表示为如下形式:
Figure 12849DEST_PATH_IMAGE043
其中,
Figure 734948DEST_PATH_IMAGE044
为奖励函数;
Figure 804536DEST_PATH_IMAGE045
为电价,
Figure 64616DEST_PATH_IMAGE046
为放电功率;
充电、放电和保持的状态转移方程分别如下公式所示:
Figure 753217DEST_PATH_IMAGE047
Figure 720036DEST_PATH_IMAGE048
Figure 819579DEST_PATH_IMAGE049
其中,
Figure 504638DEST_PATH_IMAGE051
是神经网络的决策;下标
Figure 731351DEST_PATH_IMAGE052
表示下一个决策时刻;
设计移动储能系统在电池容量边界时的网络模型学习方法:
使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置;最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解;投影点即可行的电池电量的计算方式如下:
Figure 349415DEST_PATH_IMAGE053
其中,
Figure 495225DEST_PATH_IMAGE054
为电池电量解;
Figure 68246DEST_PATH_IMAGE055
为镜像投影方向,
Figure 223284DEST_PATH_IMAGE056
为不可行的电池电量解;argmin为求使得目标最小参数取值;
Figure 23749DEST_PATH_IMAGE057
为二范数;
3)基于深度强化学习建立移动储能系统时空规划决策神经网络模型,根据1)中的目标函数设计奖励函数,将2)中的状态空间信息作为神经网络模型的输入,训练神经网络模型;包括:
31)储能规划动作空间表示;
将移动储能系统的离散连续混合动作空间
Figure 215827DEST_PATH_IMAGE058
构建为两层结构,包括策略网络结构和值网络结构;针对储能规划离散动作
Figure 344320DEST_PATH_IMAGE059
和与该离散动作关联的连续动作参数
Figure 162104DEST_PATH_IMAGE060
,基于策略网络确定
Figure 958021DEST_PATH_IMAGE060
;基于值网络选择储能规划离散动作
Figure 586580DEST_PATH_IMAGE061
Figure 202369DEST_PATH_IMAGE062
表示为:
Figure 823843DEST_PATH_IMAGE063
其中,
Figure 474267DEST_PATH_IMAGE064
为连续动作参数集合,
Figure 273727DEST_PATH_IMAGE065
为离散动作集合;
Figure 642392DEST_PATH_IMAGE066
为离散连续混合动作空间下一个
Figure 801978DEST_PATH_IMAGE067
值的取值;下标
Figure 103646DEST_PATH_IMAGE068
表示决策时刻;
Figure 198641DEST_PATH_IMAGE069
分别表示状态,离散动作;sup为上确界;max为取最大值;
Figure 664388DEST_PATH_IMAGE070
表示决策时刻;并将
Figure 503031DEST_PATH_IMAGE071
视为一个映射函数:
Figure 252682DEST_PATH_IMAGE072
考虑离散连续混合动作空间的马尔科夫过程,建立描述储能时空规划中的离散连续混合动作空间的贝尔曼方程相应为:
Figure 518578DEST_PATH_IMAGE073
其中,
Figure 471622DEST_PATH_IMAGE074
表示下一个决策时刻,映射函数
Figure 848376DEST_PATH_IMAGE075
通过策略神经网络拟合,表示
Figure 452533DEST_PATH_IMAGE076
时刻
Figure 889331DEST_PATH_IMAGE077
Figure 126408DEST_PATH_IMAGE078
的映射;
Figure 103591DEST_PATH_IMAGE079
为折扣因子;
Figure 703200DEST_PATH_IMAGE080
代表奖励;
上述贝尔曼方程通过均方误差计算梯度,以更新值网络和策略网络;
32)设计深度强化学习储能时空规划决策神经网络模型中的值网络和策略网络的损失函数;
使用一个深度评论网络
Figure 186265DEST_PATH_IMAGE081
近似
Figure 972955DEST_PATH_IMAGE082
,使用一个深度确定策略梯度演员网络
Figure 81726DEST_PATH_IMAGE083
近似
Figure 270261DEST_PATH_IMAGE084
,其中
Figure 941806DEST_PATH_IMAGE085
Figure 74847DEST_PATH_IMAGE086
分别为值网络和策略网络的参数;网络
Figure 597095DEST_PATH_IMAGE087
Figure 781083DEST_PATH_IMAGE088
的损失函数计算方式如下:
Figure 730585DEST_PATH_IMAGE089
Figure 882080DEST_PATH_IMAGE090
其中,
Figure 942440DEST_PATH_IMAGE091
Figure 980934DEST_PATH_IMAGE092
分别为值网络和策略网络,更新一个网络时另一个网络的参数固定;两个网络均为直连网络;
33)采用目标网络方法和经验池方法训练深度强化学习储能时空规划决策神经网络模型;
4)利用步骤3)中训练好的神经网络模型作为移动储能充放电时空规划决策模型,根据移动储能系统状态空间、动作空间和奖励函数,建立储能系统初始状态,将其输入到训练好的网络模型中,根据当前所在地点的电价、所在地点、当前时刻确定下一个决策地点、充放电选择、相应的充放电功率,即在每一个决策点输出充放电选择、充放电地点选择以及确定相应的充放电功率,由此实现基于深度强化学习的移动储能充放电时空规划。
2.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,移动储能系统包括电动卡车、电池组、充电站和放电站。
3.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,移动储能系统状态空间的组成要素包括电池电量水平、电量成本、时间、充电站、电价。
4.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,步骤32)中,值网络和策略网络均选择Relu函数作为激活函数。
CN202211343226.2A 2022-10-31 2022-10-31 一种基于深度强化学习的移动储能充放电时空规划方法 Active CN115392143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211343226.2A CN115392143B (zh) 2022-10-31 2022-10-31 一种基于深度强化学习的移动储能充放电时空规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211343226.2A CN115392143B (zh) 2022-10-31 2022-10-31 一种基于深度强化学习的移动储能充放电时空规划方法

Publications (2)

Publication Number Publication Date
CN115392143A CN115392143A (zh) 2022-11-25
CN115392143B true CN115392143B (zh) 2023-03-24

Family

ID=84114943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211343226.2A Active CN115392143B (zh) 2022-10-31 2022-10-31 一种基于深度强化学习的移动储能充放电时空规划方法

Country Status (1)

Country Link
CN (1) CN115392143B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117578679B (zh) * 2024-01-15 2024-03-22 太原理工大学 基于强化学习的锂电池智能充电控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117910A (zh) * 2021-11-25 2022-03-01 福建船政交通职业学院 一种基于分层深度强化学习的电动汽车充电引导策略方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110474353B (zh) * 2019-08-26 2020-11-17 北京大学 分层式储能系统及其参与的电网调频协调控制方法
CN112559147B (zh) * 2020-12-08 2024-04-19 和美(深圳)信息技术股份有限公司 基于gpu占用资源特点的动态匹配方法、系统和设备
CN114123256B (zh) * 2021-11-02 2023-10-03 华中科技大学 一种适应随机优化决策的分布式储能配置方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117910A (zh) * 2021-11-25 2022-03-01 福建船政交通职业学院 一种基于分层深度强化学习的电动汽车充电引导策略方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
含储能系统的配电网电压调节深度强化学习算法;史景坚等;《电力建设》;20200301(第03期);全文 *

Also Published As

Publication number Publication date
CN115392143A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
Liang et al. Mobility-aware charging scheduling for shared on-demand electric vehicle fleet using deep reinforcement learning
Yan et al. Deep reinforcement learning for continuous electric vehicles charging control with dynamic user behaviors
Abdullah et al. Reinforcement learning based EV charging management systems–a review
Hua et al. Optimal energy management strategies for energy Internet via deep reinforcement learning approach
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
Cheng et al. Charging load prediction and distribution network reliability evaluation considering electric vehicles’ spatial-temporal transfer randomness
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
Yan et al. A cooperative charging control strategy for electric vehicles based on multiagent deep reinforcement learning
Qiu et al. Reinforcement learning for electric vehicle applications in power systems: A critical review
Zhang et al. Multi-objective hydro-thermal-wind coordination scheduling integrated with large-scale electric vehicles using IMOPSO
CN113098007B (zh) 基于分层强化学习的微电网分布式在线调度方法及系统
Yang et al. A reinforcement learning-based energy management strategy for fuel cell hybrid vehicle considering real-time velocity prediction
Ruelens et al. Demand side management of electric vehicles with uncertainty on arrival and departure times
CN115392143B (zh) 一种基于深度强化学习的移动储能充放电时空规划方法
Singh et al. Multi-objective optimal scheduling of electric vehicles in distribution system
Ahmed et al. Neuro-fuzzy and networks-based data driven model for multi-charging scenarios of plug-in-electric vehicles
Wan et al. A data-driven approach for real-time residential EV charging management
Guo et al. Energy management of intelligent solar parking lot with EV charging and FCEV refueling based on deep reinforcement learning
Al Zishan et al. Adaptive control of plug-in electric vehicle charging with reinforcement learning
Li et al. Learning-based predictive control via real-time aggregate flexibility
CN113110052A (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN116706917A (zh) 基于快速交替方向乘子法的智慧园区协同调控方法及系统
Manivannan Research on IoT-based hybrid electrical vehicles energy management systems using machine learning-based algorithm
Ming et al. A constrained DRL-based bi-level coordinated method for large-scale EVs charging
Gharibi et al. Deep learning framework for day-ahead optimal charging scheduling of electric vehicles in parking lot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant