CN115392143A - 一种基于深度强化学习的移动储能充放电时空规划方法 - Google Patents
一种基于深度强化学习的移动储能充放电时空规划方法 Download PDFInfo
- Publication number
- CN115392143A CN115392143A CN202211343226.2A CN202211343226A CN115392143A CN 115392143 A CN115392143 A CN 115392143A CN 202211343226 A CN202211343226 A CN 202211343226A CN 115392143 A CN115392143 A CN 115392143A
- Authority
- CN
- China
- Prior art keywords
- energy storage
- charging
- discharging
- space
- mobile energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 137
- 238000007599 discharging Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002787 reinforcement Effects 0.000 title claims abstract description 40
- 230000009471 action Effects 0.000 claims abstract description 37
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000008901 benefit Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 39
- 230000005611 electricity Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000032683 aging Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005868 electrolysis reaction Methods 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000003462 Bender reaction Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/007—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources
- H02J3/0075—Arrangements for selectively connecting the load or loads to one or several among a plurality of power lines or power sources for providing alternative feeding paths between load and source according to economic or energy efficiency considerations, e.g. economic dispatch
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Power Engineering (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公布了一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模,训练包含四个神经网络的两级决策网络,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,从而对移动储能系统优化配置进行在线决策,由此实现基于深度强化学习的移动储能充放电时空规划。本发明简化了移动储能系统充放电时空优化的建模步骤,加快移动储能配置优化决策速度,提高了经济收益。
Description
技术领域
本发明涉及移动式储能系统优化配置技术,具体涉及一种基于深度强化学习的移动储能充放电时空规划方法,通过深度强化学习和受限马尔科夫过程的建模,建立移动储能系统充放电时空规划在线决策网络模型,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,训练一个包含四个神经网络的两级决策网络,从而对移动储能系统优化配置进行在线决策。
背景技术
现有储能技术主要解决储能优化配置技术,电价差反映了全电网或者局部的电力不足或盈余,储能优化配置技术可带来的好处,比如降低了尖峰负荷,在电力不足电价较高时放电,从而减轻了电网压力。现有储能优化配置应用技术中,存在灵活性不足、决策效率低或精度不足、决策滞后等问题。现有技术多采用固定式储能系统,或依赖于已有的交通网络,比如铁路网络,缺乏足够的灵活性。现有解决技术方案中以求解器求解整数规划模型或大规模求解方法比如Benders分解等方法为主,这些技术存在的不足包括:首先建模困难,需要考虑多种约束;其次,求解时不能兼具求解效率和精度,在大规模问题下求解速度缓慢甚至无法求解;还存在决策滞后的问题。而且,这类技术方案需要全部的日前电价,无法考虑到电价的波动情况。
基于深度强化学习的方法不需要对复杂问题进行完整建模,通过对已有数据加噪声训练神经网络,可以得到用于实时决策的网络模型。储能系统充放电规划决策的动作空间包括:充电/放电选择、地点选择、功率选择,前两个为离散动作空间,功率选择为连续动作空间。而将现有的深度强化学习方法应用于储能充放电时空规划应用中,则只能解决离散动作的问题或连续动作空间的问题,例如只能决策充放电地点的选择和充放电的选择,或者充放电功率的决策,而无法同时决策移动式储能充放电配置问题中的离散连续混合动作空间问题。如果采用离散化连续动作空间的方法,同样会丧失求解的精度,使得储能规划与决策的精度不高、效率低下。
发明内容
针对目前现有技术中存在的储能优化配置中时空规划建模复杂、灵活性不足、决策效率低、无法实时在线决策等问题,本发明提供了一种基于深度强化学习方法的移动储能充放电时空规划在线决策方案,建立一种新的深度强化学习储能时空规划网络模型框架,利用多层级的神经网络学习移动储能系统(如储能车)的充放电相关决策,将训练好的网络模型作为移动储能充放电时空规划实时决策模型,从而快速高效地实现移动储能充放电时空规划。
具体地,本发明构建的深度强化学习储能时空规划网络模型包括基于电量、电价、电量成本、位置的状态空间,路径选择、充放电选择、充放电功率的动作空间,两层的值网络和策略网络,及其各自目标网络的四个神经网络,并考虑强化学习中智能体(即储能车)安全探索方案的深度强化学习方法。在训练过程中,为了训练的稳定性和效率,本发明采用经验回放策略。通过本发明的方法进行移动储能决策,一方面能够有效降低方案复杂度,无需对原问题进行建模,快速得到解决方案;另一方面,能够在保证求解精度的同时,大幅降低求解时间,并能够应对电价的未知性情况。
本发明的技术方案是:
一种基于深度强化学习的移动储能充放电时空规划方法,包括:由电动卡车、电池组、充电站和放电站组成的移动储能系统,基于深度强化学习的优化规划决策框架,包括由充放电选择(离散)、充放电地点确定(离散)、充放电功率决策(连续)的离散连续混合动作空间,由电池电量水平、电量成本、时间、充电站、电价等组成的移动储能系统状态空间,基于值网络和策略网络构成的二级深度神经网络构建移动储能时空优化规划调度网络模型等。本发明包含以下步骤:
1)确立移动储能充放电时空优化目标函数,以及相应的电量、功率等约束;
2)获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、位置等状态空间信息;
3)基于深度强化学习建立移动储能系统时空规划决策神经网络模型,根据1)中的目标函数设计奖励函数,将2)中的状态信息作为神经网络模型的输入,训练神经网络模型;
4)利用上3)中训练好的神经网络模型作为移动储能在线时空规划决策模型,该模型在每一个决策点输出充放电选择、充放电地点选择以及确定相应的功率,由此实现基于深度强化学习的移动储能时空规划。
针对以上步骤,下面详细进行说明:
1)确立移动储能充放电时空优化目标函数,以及相应的约束;
移动储能系统时空配置规划优化的目标函数为收益最大化,计算收益包括三个部分:充放电收益、移动成本、老化成本。因此相应的目标函数表示为:
其中,表示储能收益最大化;为移动储能系统的充放电收益,为移动储能系统在不同地点之间的移动成本,为移动储能系统老化成本。决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间。本发明将时间划分为多个时间槽,每个时间槽长度为15分钟,对于目标函数各部分,相应的计算方式如下:
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值:
2)观测移动储能系统的状态,获取状态空间信息;
时刻的状态空间由公式描述,其中为时刻的剩余电量,代表剩余电量的平均成本,代表电价,分别表示地点和时刻。动作空间由公式表示,其中为下一个地点的选择,为充放电选择,包括充电、放电、保持(不充不放),为相应的功率。在目标函数的基础上,本发明将奖励函数设计为如下形式:
充电、放电和保持的状态转移方程分别如下公式所示:
移动储能充放电时空规划问题的最优解可能为边界解,因此本发明对移动储能系统在电池容量边界时的学习策略设计了一种方法:在更新网络的梯度下降过程中,电池电量可能会出现大于最高容量或小于最小容量的情况,本发明使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置。因为移动储能充放电时空规划问题中的安全约束为一维约束,且为紧闭集,容易得出最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解。投影点即可行的电池电量的计算方式如下:
3)建立深度强化学习储能时空规划决策神经网络模型,训练神经网络模型;
31)储能规划动作空间表示;
对于移动储能规划问题中存在的离散连续混合动作空间问题,本发明将储能规划动作空间构建为两层结构,包括策略网络结构和值网络结构;针对储能规划离散动作和与该离散动作关联的连续动作参数,基于策略网络确定,基于值网络选择储能规划离散动作;储能规划动作空间表示为:
对于传统基于Q-learning的强化学习,其贝尔曼方程的形式为:
其中,为状态,表示动作,代表下一个最优的取值(Q值,是一个与状态和动作相关的值,表示在状态下选择动作的程度),代表奖励(reward),为折扣因子,和是下一个采取的动作和抵达的状态,表示动作选择基于贪婪策略。考虑储能时空规划中的离散连续混合动作空间的马尔科夫(MDP)过程,本发明建立贝尔曼方程为:
其中,为离散连续混合动作空间下一个值的取值,下标表示决策时刻,分别表示状态,离散动作和离散动作相应的连续参数;sup为上确界;max为取最大值;表示决策时间点。在对于连续空间取上界时会有巨大的计算量,本发明将视为一个映射函数:,因此,相应的,贝尔曼方程改为:
此形式的贝尔曼方程可以更方便的通过均方误差计算梯度,以更新值网络和策略网络。
32)设计深度强化学习储能时空规划决策神经网络模型中的值网络和策略网络的损失函数;
33)采用目标网络方法和经验池方法训练深度强化学习储能时空规划决策神经网络模型;
4)利用上一步中训练好的网络作为在线决策模型,输入移动储能系统的初始状态,输出充放电功率、充放电选择和路径选择,实现基于深度强化学习的移动储能时空规划;
通过多次的迭代训练,得到两个网络:和,将需要进行储能充放电时空规划求解的储能系统按本发明步骤2)中提到的方法,建立储能系统初始状态,将其输入到步骤3)中训练好的网络模型中,每个时刻输出相应的与,即充放电功率、充放电选择和充放电路径选择,由此实现基于深度强化学习的移动储能充放电时空规划。
与现有技术相比,本发明的效果是:
本发明提供一种基于深度强化学习的移动储能时空配置优化规划方法,通过构建基于深度强化学习方法的移动储能系统时空优化规划决策网络模型,简化了移动储能系统充放电时空优化的建模步骤,加快了决策速度,提高了经济收益,解决了现有技术不能实时决策的问题。现有技术解决此类问题的主要方法是整数规划模型或其他精确解算法,这些方法需要复杂的建模过程,并在求解时需要全局信息。本发明使用的深度强化学习技术大大简化了建模过程,只需要确定优化目标与约束,并且在决策时不需要全部的电价信息,能够应对电价不确定的情况。利用训练好的移动储能系统充放电时空优化神经网络模型,能够快速的进行移动储能系统的时空优化决策,大幅度提高了规划配置速度。
附图说明
图1为本发明使用镜像下降和梯度投影的方法,将超出可行域的电池电量解(不可行的电池电量解)重新投影到可行域的镜像下降与梯度投影示意图;
图2为本发明方法构建的基于深度强化学习的移动储能时空规划神经网络模型的结构示意图;
图3为本发明具体实施采用单充电站时的移动储能时空规划算法收敛示意图。
图4为本发明具体实施采用31个充电站时的移动储能时空规划算法收敛情况示意图。
图5为本发明具体实施采用31个充电站时的移动储能时空规划过程中部分电池电量变化与电价水平关系示意图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明基于移动式储能的特征,提供了一种基于深度强化学习的移动储能时空优化实时规划方法,通过构建基于深度强化学习方法的移动储能系统时空优化规划决策网络模型,实现移动储能系统时空优化实时配置规划和决策。
本发明构建的基于深度强化学习方法的移动储能系统时空优化配置规划决策网络模型进行训练的算法流程如下:
算法流程:
1.从回合 i=1,2,…,I进行循环:
3.对每个决策时间点t=1,2,…,T进行循环:
14. 结束循环
15. 结束循环
以下以某地区的移动储能系统的充放电实时调度为应用案例,选择该地区移动储能系统中定义的编号为17的点作为中心点,选择其半径为2英里和10英里的区域,对应包含充放电站分别为1个和31个,并使用该区域2018年某个日期对应的电价信息。采用本发明方法实现移动储能系统充放电的决策和路径的选择。具体地,可将一天的时间每隔15min进行划分为多个时间间隔,在每个时间间隔对移动储能系统的充电或放电、功率、下一地点的选择进行决策,由此对储能系统充放电路径进行规划,实现储能系统充放电的实时配置调度。
利用本发明,基于移动储能系统的充电站的位置信息和电价信息,充放电实时配置规划优化决策过程包括以下步骤:
1)确立优化目标函数,以及相应的约束;
移动储能系统的充放电实时配置规划的优化目标为获取移动储能系统的最大收益;移动储能系统的收益包括三个部分:充放电收益、移动成本、老化成本。因此,本发明建立相应的移动储能系统充放电实时配置规划的优化目标函数,表示为:
其中,为充放电收益,为不同地点之间的移动成本,为老化成本。决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间。本发明将时间划分为多个时间槽,每个时间槽长度为15分钟,对于目标函数各部分,相应的计算方式如下:
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值:
2)观测系统状态,获取状态空间信息
时刻的状态空间由公式描述,其中为时刻的剩余电量,代表剩余电量的平均成本,代表电价,n和t分别表示地点和时刻。动作空间由公式表示,其中为下一个地点的选择,为充放电选择,包括充电、放电、保持(不充不放),为相应的功率。在目标函数的基础上,本发明将奖励函数设计为如下形式:
充电、放电和保持的状态转移方程分别如下公式所示:
此类问题的最优解可能为边界解,因此本发明对移动储能系统(智能体)在边界时的学习策略设计了一种方法:在更新网络的梯度下降过程中,电池电量可能会出现大于最高容量或小于最小容量的情况,本发明使用镜像下降和梯度投影的方法,将超出可行域的解重新投影到可行域中,并利用布莱格曼散度来确定投影位置。因为此类问题中的安全约束为一维约束,且为紧闭集,容易得出最佳投影点为边界点,且收敛点为可行解。投影点的计算方式如下:
3)建立深度强化学习决策框架,训练神经网络
对于传统基于Q-learning的强化学习,其贝尔曼方程的形式为:
其中为状态,表示动作,代表下一个最优的取值,代表奖励reward,为折扣因子,和是下一个采取的动作和抵达的状态,表示动作选择基于策略。考虑该类问题中的离散连续混合动作空间的马尔科夫(MDP)过程,贝尔曼方程建立为:
此形式的贝尔曼方程可以更方便的通过均方误差计算梯度,以更新值网络和策略网络。本发明使用一个深度评论网络来近似,使用一个深度确定策略梯度演员网络来近似,其中和分别为值网络和策略网络的参数。这两个网络的损失函数计算方式如下:
4)利用上一步中训练好的网络作为在线决策模型
表1展示了本实例中移动储能规划系统中的相关参数设置。本发明中的神经网络采用五层的直连网络,包括输入层、输出层和三个隐藏层,隐藏层大小设置为[256,128,64],激活函数采用Relu函数。
表1 实例中的参数及其取值
图3和图4分别表示在一个充电站和31个充电站时本发明方法的奖励收敛情况:图中横坐标表示迭代回合,具体回合数为坐标轴数字乘以100,纵坐标表示每100回合的平均奖励值,表示规划收益。图3中展示了本发明方法的解和用现有的求解器Gurobi求得的最优解比,其误差在1%以内。图4展示了在31个充电站,求解器Gurobi没法求解时本发明方法的收益。
图5展示了采用本发明的方法时电池电量与各个充电站电价关系。图中横轴为时间,单个间隔长度为15min,左纵坐标表示充电电量,与图中柱状图对应,正数代表充电,负数代表放电;右纵坐标表示电价,与图中折线图对应。从图中可以看出,移动储能系统在点30、点27等低电价充电站充电,在点14、2等充电站放电。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (4)
1.一种基于深度强化学习的移动储能充放电时空规划方法,对于移动储能系统,建立用于充放电选择、充放电地点确定、充放电功率决策的离散连续混合动作空间和移动储能系统状态空间;基于值网络和策略网络深度神经网络构建移动储能充放电时空规划网络模型;通过深度强化学习和受限马尔科夫过程的建模和模型训练,对移动式储能系统的充放电决策、充放电功率、充放电地点路径进行学习,对移动储能系统充放电优化配置进行在线时空规划决策;包括以下步骤:
1)确立移动储能充放电时空规划优化目标函数以及相应的约束,包括电量约束和功率约束;
目标函数表示为:
其中,表示充放电时空规划优化目标为储能收益最大化;为移动储能系统的充放电收益;为移动储能系统在不同地点之间的移动成本,为移动储能系统老化成本;决策变量包括时刻系统在位置的充电功率,放电功率,从当前位置到下一位置的时间;
其中:
移动储能系统的主要约束包括电量容量约束和充放电功率约束,均不可超过其最大值,不可小于其最小值,表示为:
2)设计获取移动储能系统的状态空间信息,包括:电价、电量、电量成本、充放电位置空间信息;
设计移动储能系统的奖励函数,表示为如下形式:
充电、放电和保持的状态转移方程分别如下公式所示:
设计移动储能系统在电池容量边界时的网络模型学习方法:
使用镜像下降和梯度投影的方法,将超出可行域的电池容量解重新投影到可行域中,并利用布莱格曼散度来确定投影位置;最佳投影点为边界点,即电池容量边界,且为收敛点,即解出的电池电量为可行解;投影点即可行的电池电量的计算方式如下:
3)基于深度强化学习建立移动储能系统时空规划决策神经网络模型,根据1)中的目标函数设计奖励函数,将2)中的状态信息作为神经网络模型的输入,训练神经网络模型;包括:
31)储能规划动作空间表示;
考虑离散连续混合动作空间的马尔科夫过程,建立描述储能时空规划中的离散连续混合动作空间的贝尔曼方程相应为:
上述贝尔曼方程通过均方误差计算梯度,以更新值网络和策略网络;
32)设计深度强化学习储能时空规划决策神经网络模型中的值网络和策略网络的损失函数;
33)采用目标网络方法和经验池方法训练深度强化学习储能时空规划决策神经网络模型;
4)利用步骤3)中训练好的神经网络模型作为移动储能充放电时空规划决策模型,根据移动储能系统状态空间、动作空间和奖励函数,建立储能系统初始状态,将其输入到训练好的网络模型中,根据当前所在地点的电价、所在地点、当前时刻确定下一个决策地点、充放电选择、相应的充放电功率,即在每一个决策点输出充放电选择、充放电地点选择以及确定相应的充放电功率,由此实现基于深度强化学习的移动储能充放电时空规划。
2.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,移动储能系统包括电动卡车、电池组、充电站和放电站。
3.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,移动储能系统状态空间的组成要素包括电池电量水平、电量成本、时间、充电站、电价。
4.如权利要求1所述基于深度强化学习的移动储能充放电时空规划方法,其特征是,步骤32)中,值网络和策略网络均选择Relu函数作为激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211343226.2A CN115392143B (zh) | 2022-10-31 | 2022-10-31 | 一种基于深度强化学习的移动储能充放电时空规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211343226.2A CN115392143B (zh) | 2022-10-31 | 2022-10-31 | 一种基于深度强化学习的移动储能充放电时空规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115392143A true CN115392143A (zh) | 2022-11-25 |
CN115392143B CN115392143B (zh) | 2023-03-24 |
Family
ID=84114943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211343226.2A Active CN115392143B (zh) | 2022-10-31 | 2022-10-31 | 一种基于深度强化学习的移动储能充放电时空规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392143B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN118131045A (zh) * | 2024-01-22 | 2024-06-04 | 北京大学 | 基于多孔电极老化模型的移动储能在线决策方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110474353A (zh) * | 2019-08-26 | 2019-11-19 | 北京大学 | 分层式储能系统及其参与的电网调频协调控制方法 |
CN112559147A (zh) * | 2020-12-08 | 2021-03-26 | 和美(深圳)信息技术股份有限公司 | 基于gpu占用资源特点的动态匹配算法、系统和设备 |
CN114123256A (zh) * | 2021-11-02 | 2022-03-01 | 华中科技大学 | 一种适应随机优化决策的分布式储能配置方法及系统 |
CN114117910A (zh) * | 2021-11-25 | 2022-03-01 | 福建船政交通职业学院 | 一种基于分层深度强化学习的电动汽车充电引导策略方法 |
-
2022
- 2022-10-31 CN CN202211343226.2A patent/CN115392143B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110474353A (zh) * | 2019-08-26 | 2019-11-19 | 北京大学 | 分层式储能系统及其参与的电网调频协调控制方法 |
CN112559147A (zh) * | 2020-12-08 | 2021-03-26 | 和美(深圳)信息技术股份有限公司 | 基于gpu占用资源特点的动态匹配算法、系统和设备 |
CN114123256A (zh) * | 2021-11-02 | 2022-03-01 | 华中科技大学 | 一种适应随机优化决策的分布式储能配置方法及系统 |
CN114117910A (zh) * | 2021-11-25 | 2022-03-01 | 福建船政交通职业学院 | 一种基于分层深度强化学习的电动汽车充电引导策略方法 |
Non-Patent Citations (5)
Title |
---|
JIANG, DA 等: "Coordinated Control Based on Reinforcement Learning for Dual-Arm Continuum Manipulators in Space Capture Missions", 《JOURNAL OF AEROSPACE ENGINEERIN》 * |
史景坚等: "含储能系统的配电网电压调节深度强化学习算法", 《电力建设》 * |
张津源 等: "基于多智能体深度强化学习的分布式电源优化调度策略", 《电网技术》 * |
李琦等: "配电网持续无功优化的深度强化学习方法", 《电网技术》 * |
赖晨光 等: "某列车用动力电池系统风冷散热流场研究", 《重庆理工大学学报(自然科学) 》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117578679B (zh) * | 2024-01-15 | 2024-03-22 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN118131045A (zh) * | 2024-01-22 | 2024-06-04 | 北京大学 | 基于多孔电极老化模型的移动储能在线决策方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115392143B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdullah et al. | Reinforcement learning based EV charging management systems–a review | |
Liang et al. | Mobility-aware charging scheduling for shared on-demand electric vehicle fleet using deep reinforcement learning | |
CN115392143B (zh) | 一种基于深度强化学习的移动储能充放电时空规划方法 | |
Zhang et al. | Multi-objective hydro-thermal-wind coordination scheduling integrated with large-scale electric vehicles using IMOPSO | |
CN110518580A (zh) | 一种考虑微网主动优化的主动配电网运行优化方法 | |
CN116207739B (zh) | 配电网优化调度方法、装置、计算机设备和存储介质 | |
Ahmed et al. | Neuro-fuzzy and networks-based data driven model for multi-charging scenarios of plug-in-electric vehicles | |
CN114707292B (zh) | 含电动汽车配电网电压稳定性分析方法 | |
CN113962446B (zh) | 一种微电网群协同调度方法、装置、电子设备和存储介质 | |
CN105046354A (zh) | 基于多代理的配电网规划场景模拟生成方法及其系统 | |
CN110866636A (zh) | 一种综合考虑电动汽车充电站及分布式能源的微电网规划方法 | |
Guo et al. | Energy management of intelligent solar parking lot with EV charging and FCEV refueling based on deep reinforcement learning | |
CN117833285A (zh) | 一种基于深度强化学习的微电网储能优化调度方法 | |
Liu et al. | Data-driven intelligent EV charging operating with limited chargers considering the charging demand forecasting | |
Gharibi et al. | Deep learning framework for day-ahead optimal charging scheduling of electric vehicles in parking lot | |
Ming et al. | A constrained DRL-based bi-level coordinated method for large-scale EVs charging | |
CN114970191A (zh) | 一种基于势博弈的电网交通系统日前分布鲁棒调度方法 | |
Ding et al. | Deep reinforcement learning-based spatiotemporal decision of utility-scale highway portable energy storage systems | |
Lin et al. | Planning of Electric Vehicle Charging Stations with PV and Energy Storage Using a Fuzzy Inference System | |
CN116758740B (zh) | 一种基于数字孪生和信息树的智慧交通高效模拟方法 | |
Pereira et al. | Towards the self-regulation of personality-based social exchange processes in multiagent systems | |
Hong et al. | 6G based intelligent charging management for autonomous electric vehicles | |
CN111144611A (zh) | 一种基于聚类和非线性自回归的空间负荷预测方法 | |
CN116596105A (zh) | 一种考虑配电网发展的充电站负荷预测方法 | |
CN113328466B (zh) | 一种电动汽车充电场景生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |