CN116247648A - 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法 - Google Patents

一种考虑源荷不确定性下微电网能量调度的深度强化学习方法 Download PDF

Info

Publication number
CN116247648A
CN116247648A CN202211596746.4A CN202211596746A CN116247648A CN 116247648 A CN116247648 A CN 116247648A CN 202211596746 A CN202211596746 A CN 202211596746A CN 116247648 A CN116247648 A CN 116247648A
Authority
CN
China
Prior art keywords
energy storage
grid
micro
period
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211596746.4A
Other languages
English (en)
Inventor
王坤
马冲冲
周涉宇
王洪良
兰洲
李子明
鲁赛
冯昌森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Zhejiang University of Technology ZJUT
Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211596746.4A priority Critical patent/CN116247648A/zh
Publication of CN116247648A publication Critical patent/CN116247648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/003Load forecast, e.g. methods or systems for forecasting future load demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/004Generation forecast, e.g. methods or systems for forecasting future energy generation
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/22The renewable source being solar energy
    • H02J2300/24The renewable source being solar energy of photovoltaic origin
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,在微电网优化运行问题的基础上建立相应的马尔可夫决策模型;针对模型环境中光伏和负荷的随机特性,利用长短期记忆(LSTM)神经网络对其状态转移的不确定性进行建模、学习历史光伏和负荷时序数据特征,得到有效的预测模型;基于LSTM神经网络和深度确定性策略梯度算法(DDPG)构建微电网能量优化求解框架,并经过模型训练得到最优能量调度策略网络。本发明有效避免了连续调度动作离散化对调度策略的影响,可以对微电网做出实时的调度策略,能够有效应对随机变量的影响,提升了微电网运行的经济性。

Description

一种考虑源荷不确定性下微电网能量调度的深度强化学习 方法
技术领域
本发明涉及一种考虑源荷不确定性下微电网能量调度的深度强化学习方法。
背景技术
微电网作为电网中重要组成部分,可极大提高分布式可再生能源渗透率。然而,由于可再生能源以及负荷需求的随机性使得微电网能量调度问题变得愈加复杂。
目前,针对微电网的能量调度方法的研究方法有线性优化算法、启发式算法、鲁棒优化算法等,然而当实际场景存在高不确定性时,上述优化算法难以适用,会带来算法收敛慢、计算精度低、规划结果过于保守等问题。随着深度强化学习技术的快速发展,因其适用于解决序贯决策问题而成为研究者的关注热点,微电网能量调度问题作为一种时序控制问题,较为契合强化学习框架,因而深度强化学习在电力能量管理领域得到广泛应用。但是现有研究通常将连续型决策变量离散化,从而会带来调度结果不精确、经济性差等问题。虽然深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法较深度Q学习(deep Q network,DQN)算法和双深度Q学习(double deep Q network,DDQN)算法对环境有更强的探索能力,学习得到的能量调度策略更优。但所涉及的研究并未对模型环境中不确定性因素进行建模,会导致模型收敛效果差,所得策略相对保守。
发明内容
为了克服现有以上不足,本发明提出一种考虑源荷不确定性下基于长短期记忆(long short-term memory,LSTM)神经网络和DDPG算法的微电网能量调度方法,微电网以并网模式运行的基本结构如图1所示。首先,针对微电网优化运行问题建立相应的马尔可夫决策模型,该模型以调度周期内微电网运行的经济性为目标来寻求最优能量调度策略。针对模型环境中光伏和负荷的随机特性,利用LSTM神经网络对其状态转移的不确定性进行建模。基于LSTM神经网络对历史光伏和负荷时序数据特征学习,进而得到有效的预测模型。然后,基于LSTM-DDPG方法构建微电网能量优化求解框架,并经过模型训练得到最优能量调度策略网络。最后,通过算例仿真验证了本发明所提方法的有效性。
为了实现上述目的,本发明的技术方案为:
一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,包括以下步骤:
S1:建立微电网优化调度模型,在满足负荷需求以及微电网安全运行的前提下,通过对微电网能量优化管理,实现微电网运行成本最小化的目标;
S2:提出基于深度强化学习的能量管理办法,针对微电网优化运行问题建立相应的马尔可夫决策模型;
S3:利用LSTM神经网络得到光伏、负荷数据的有效预测模型,并且基于LSTM-DDPG方法构建微电网能量优化求解框架,得到最优能量调度策略;
S4:通过算例仿真验证方法的有效性,能有效应对随机变量的影响,提升微电网运行的经济性。
进一步,所述步骤S1中,微电网优化调度模型包括以下构成:
S1-1:构建最小化成本的目标函数模型,考虑三个成本因素,分别是微电网的购电成本Cg、储能设备的折旧成本Cpv和光伏发电设备的运维成本Cb,模型可表示如下:
min C = Cg+Cpv+Cb (1)
S1-1-1:建立微电网购电成本模型,表示如下:
Figure SMS_1
式中,λb,t和λs,t分别为t时段微电网向主电网购电和售电的价格;
Figure SMS_2
和/>
Figure SMS_3
分别为t时段微电网向主电网的购售电量。
S1-1-2:建立光伏设备运维成本模型,表示如下:
Figure SMS_4
式中,kpv为光伏的单位运维成本,Pt pv为t时段光伏出力。
S1-1-3:建立储能设备折旧成本模型,表示如下:
Figure SMS_5
式中,kb为储能设备的单位折旧成本;Pt b为t时段储能设备的工作功率,Pt b<0表示储能设备充电,反之,则表示储能设备放电。
S1-2:构建微电网优化调度问题中的约束条件模型,包括储能设备约束、功率平衡约束和与主电网功率交互约束,可表示如下:
S1-2-1:建立储能设备约束模型,表示如下:
由于储能设备深度充电和放电会对自身造成损害,所以需要在每个时段将储能设备功率和荷电状态约束在一定范围内。因此,储能设备所需满足的约束如下所示:
Figure SMS_6
Figure SMS_7
Figure SMS_8
式中,
Figure SMS_9
为储能设备充放电功率的上限值;ηch和ηdis分别为储能设备的充电效率和放电效率;/>
Figure SMS_10
和/>
Figure SMS_11
分别为t时段储能设备充电和放电的状态变量,值为1时表示储能设备处于工作状态,值为0时,则不工作;Δt为时间间隔;/>
Figure SMS_12
和/>
Figure SMS_13
分别为调度周期内储能设备荷电状态的最小值和最大值;/>
Figure SMS_14
为t时段储能设备的荷电状态。
由于储能设备的工作状态是单一进行的,即在一个工作时段内,储能设备的充放电状态无法同时存在,故采用下式对其约束:
Figure SMS_15
此外,为满足下一个调度周期起始时段对储能设备的蓄能和放能要求,需保证储能设备在调度周期初和调度周期末的荷电状态相等,故采用下式对其约束:
Figure SMS_16
式中,
Figure SMS_17
为调度周期末储能设备的荷电状态,/>
Figure SMS_18
为储能设备在下一个调度周期的初始荷电状态。
S1-2-2:建立功率平衡约束模型,表示如下:
Figure SMS_19
式中,Pt l为t时段的负荷需求。由于同一时段内不能同时存在购电和售电行为,故采用下式对其约束。
Figure SMS_20
S1-2-3:建立与主电网功率交互约束模型,表示如下:
为保证在调度周期内变压器的安全运行,与主电网功率交互还需满足如下约束:
Figure SMS_21
Figure SMS_22
式中,
Figure SMS_23
和/>
Figure SMS_24
分别为微电网向主电网购电和售电的最大功率。
再进一步,在所述步骤S2中,针对微电网优化问题建立相应的马尔可夫决策过程包括以下构成:
S2-1:对状态空间进行建模,表示如下:
将马尔可夫决策过程的状态空间用负荷、光伏出力、储能的荷电状态、购售电价以及微电网运行环境的调度时段表示:
Figure SMS_25
S2-2:对动作空间进行建模,表示如下:
连续型动作空间定义为储能设备的充放电功率
Figure SMS_26
分别为储能设备的充电功率
Figure SMS_27
储能设备的放电功率以及不工作。此外,还需根据约束式(5)对调度动作大小进行限制。
S2-3:对奖励函数进行分类并分别建模,表示如下:
强化学习的目标是为了在与环境的交互探索中获得累计奖励最大。对奖励函数设置两个部分,第一部分是由微电网的运行成本函数转化而来,第二部分是由储能运行时的惩罚函数组成。
S2-3-1:对微电网成本奖励函数进行建模,表示如下:
由于光伏出力和负荷的随机性使强化学习算法在每个时段获得的奖励呈现较大波动性,不合理的奖励设置机制会出现强化学习模型训练时间长、收敛性不佳等问题,从而难以学到有效的调度动作。基于此,为进一步提升模型训练效果,设置两个正数k1和k2,对奖励值大小进行缩放处理。因此,第一部分奖励函数设置如下式,即:
Figure SMS_28
S2-3-2:对调度周期内储能运行的惩罚函数建模,表示如下:
储能设备在调度周期内动作时,可能会使其荷电状态在某个时段内出现越限情况,即违反约束式(7)。因此,需要给错误的调度动作给予惩罚。定义储能运行的惩罚函数,即:
Figure SMS_29
式中,αdis和αch分别表示在调度时段内储能违反最小和最大荷电状态约束的放电和充电惩罚系数。
S2-3-3:对调度周期末储能运行的惩罚函数建模,表示如下:
根据约束式(9)可知,还应设置储能调度周期末时储能的荷电状态惩罚函数,即:
Figure SMS_30
式中,λend为储能调度周期末时段的惩罚系数,
Figure SMS_31
为储能调度周期末时的荷电状态,/>
Figure SMS_32
为下一个调度周期储能的初始荷电状态,Tend表示调度周期末。
因此,第二部分储能设备运行的惩罚函数表示为:
Figure SMS_33
综上所述,强化学习的奖励函数,可表示如下:
Figure SMS_34
再进一步,在所述步骤S3中,针对建立的马尔可夫决策模型的求解过程如S3-1:利用LSTM方法对源荷时序数据特征提取,包括:
利用LSTM神经网络对源荷时序数据特征提取,并将提取到的未来时刻源荷特征与状态空间式一起构成DDPG算法的策略网络输入。
S3-2:利用DDPG算法求解微电网能量调度问题,得到最优能量调度策略,其过程如下:
在DDPG算法探索学习过程中,对当前策略网络输入微电网运行环境状态st,当前策略网络会基于确定性策略μ输出动作at,即:
at=μ(stμ) (20)
式中,θμ为当前策略网络参数。
为使DDPG算法在微电网的运行环境中有更强的探索能力,将策略网络输出的调度动作at作为均值,
Figure SMS_35
为标准差构成一个正太分布/>
Figure SMS_36
可通过衰减系数ε来控制/>
Figure SMS_37
衰减的速度,ε越大,/>
Figure SMS_38
衰减速度越慢;ε越小,/>
Figure SMS_39
衰减速度越快,以此控制DDPG算法在环境中的探索范围。然后从正态分布中随机输出新的动作作为实际调度动作,可表示如下:
Figure SMS_40
/>
在DDPG算法训练前,由每个调度周期内微电网运行环境状态st、能量调度动作at、环境反馈的奖励rt以及下一个状态st+1组成的状态转移序列样本(st,at,rt,st+1)储存到经验池中作为训练样本。具体训练过程如下:
首先,从经验池中随机采样N个样本通过价值网络计算目标价值yi和损失函数L,计算如下所示:
Figure SMS_41
yi=ri+γQ′(si+1,μ′(si+1|θμ)|θQ′) (23)
式中,N为采样的训练样本数;θμ′为目标策略网络的参数;θQ为当前价值网络参数,θQ′为目标价值网络的参数;i表示采样的训练样本编号;
然后,再通过梯度下降策略和最小化损失函数对策略网络参数优化更新:
Figure SMS_42
最后,在对策略网络和价值网络训练后,采用软更新的方法,对目标策略网络和目标价值网络参数进行更新,即:
θμ′←τθμ+(1-τ)θμ′ (25)
θQ′←τθQ+(1-τ)θQ′ (26)式中,τ为当前网络参数对目标网络参数进行软更新的系数,一般取值范围为0<τ<<1。
在所述步骤S4中,通过算例仿真验证本方法的有效性包括以下步骤:
S4-1:设计算例参数,包括:
设计光伏数据集,刻画光伏发电系统出力与时间的关系;设置储能设备容量,并规定充放电功率最大限定值;设置储能设备的荷电状态最大值、最小值、初始荷电状态;设置典型日电价,分为峰时段、平时段以及谷时段。
设置DDPG算法的神经网络隐藏层层数,每层神经元的个数以及隐藏层的激活函数。针对光伏出力和负荷预测,基于一年的历史数据集并按照一定的比例划分为训练集、验证集和测试集。同时,在LSTM模型训练前对神经网络输入数据进行预处理,以避免数据波动大以及数据异常使神经网络收敛慢、预测精度较低等问题。
S4-2:预测分析LSTM神经网络,如下:
LSTM模型经过一定次数的训练后,用该模型对光伏和负荷的测试集数据进行预测。
S4-3:分析LSTM-DDPG方法调度结果,包括:
分析在峰、谷、平电价和负荷需求高或者低及其光伏的情况下与电网的购售电策略和储能的充放电策略。例如,在谷电价和负荷需求较低且光伏不出力的时段,需从主电网大量购电以满足该时段的负荷需求;在平电价时且光伏出力较大的时段,微电网向主电网的购电量大大减少;随着光伏出力减弱,储能采取放电策略,有效提升了微电网运行的经济性。
S4-4:分析算法的泛化性、稳定性,包括:
选取其他区域的光伏和负荷数据,并设置若干组对照试验,观察所提算法在其他地区的数据集上优化能力是否仍然有较好的表现,以此来验证了算法是否具有良好的泛化性。
采用若干组随机种子进行仿真实验,通过实验得到平均奖励值、最大奖励值和最小奖励值。观察平均奖励和最大最小值之间差距是否逐步缩小直至收敛,以此来验证算法是否具有良好的稳定性。
本发明的有益效果是:
1.通过建立基于LSTM-DDPG方法的能量调度框架,有效避免了连续调度动作离散化对调度策略的影响。
2.仿真实验对比分析,表明所提方法可对微电网实时做出调度决策;并通过对比多种深度强化学习算法,本发明算法可有效应对随机变量的影响,提升了微电网运行的经济性。
3.利用长短期记忆神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。
附图说明
图1是并网型微电网结构图。
图2是DDPG策略网络输入结构图。
图3基于LSTM-DDPG方法的微电网能量优化调度框架。
图4是基于LSTM神经网络光伏预测曲线。
图5是基于LSTM神经网络负荷预测曲线。
图6是基于LSTM-DDPG算法的微电网日优化调度结果。
图7是基于LSTM神经网络负荷预测结果。
图8是基于LSTM-DDPG算法的奖励曲线。
图9是基于LSTM-DDPG算法的损失函数曲线。
图10是基于DDPG算法训练奖励曲线。
图11是本发明方法的流程图。
具体实施方法
下面结合附图对本发明做进一步说明。
参照图1~图11,一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,所述方法包括以下步骤:
S1:建立微电网优化调度模型,在满足负荷需求以及微电网安全运行的前提下,通过对微电网能量优化管理,实现微电网运行成本最小化的目标;
S2:提出基于深度强化学习的能量管理办法,针对微电网优化运行问题建立相应的马尔可夫决策模型;
S3:利用LSTM神经网络得到光伏、负荷数据的有效预测模型,并且基于LSTM-DDPG方法构建微电网能量优化求解框架,得到最优能量调度策略;
S4:通过算例仿真验证了本方法的有效性,可有效应对随机变量的影响,提升了微电网运行的经济性。
所述步骤S1中,微电网优化调度模型包括以下构成:
S1-1:最小化成本的目标函数包含三部分,分别是微电网的购电成本Cg、储能设备的折旧成本Cpv和光伏发电设备的运维成本Cb,可表示如下:
min C = Cg+Cpv+Cb (1)
S1-1-1:建立微电网购电成本模型,表示如下:
Figure SMS_43
式中,λb,t和λs,t分别为t时段微电网向主电网购电和售电的价格;
Figure SMS_44
和/>
Figure SMS_45
分别为t时段微电网向主电网的购售电量。
S1-1-2:建立光伏设备运维成本模型,表示如下:
Figure SMS_46
式中,kpv为光伏的单位运维成本,Pt pv为t时段光伏出力。
S1-1-3:建立储能设备折旧成本模型,表示如下:
Figure SMS_47
式中,kb为储能设备的单位折旧成本;Pt b为t时段储能设备的工作功率,Pt b<0表示储能设备充电,反之,则表示储能设备放电。
S1-2:在微电网优化调度模型中,包括储能设备约束、功率平衡约束和与主电网功率交互约束,可表示如下:
S1-2-1:建立储能设备约束模型,表示如下:
考虑到储能设备深度充电和放电会对自身造成损害,故需要在每个时段将储能设备功率和荷电状态约束在一定范围内。因此,储能设备所需满足的约束如下所示:
Figure SMS_48
Figure SMS_49
Figure SMS_50
式中,
Figure SMS_51
为储能设备充放电功率的上限值;ηch和ηdis分别为储能设备的充电效率和放电效率;/>
Figure SMS_52
和/>
Figure SMS_53
分别为t时段储能设备充电和放电的状态变量,值为1时表示储能设备处于工作状态,值为0时,则不工作;Δt为时间间隔;/>
Figure SMS_54
和/>
Figure SMS_55
分别为调度周期内储能设备荷电状态的最小值和最大值;/>
Figure SMS_56
为t时段储能设备的荷电状态。
由于储能设备的工作状态是单一进行的,即在一个工作时段内,储能设备的充放电状态无法同时存在,故采用下式对其约束:
Figure SMS_57
此外,为满足下一个调度周期起始时段对储能设备的蓄能和放能要求,需保证储能设备在调度周期初和调度周期末的荷电状态相等,故采用下式对其约束:
Figure SMS_58
式中,
Figure SMS_59
为调度周期末储能设备的荷电状态,/>
Figure SMS_60
为储能设备在下一个调度周期的初始荷电状态。
S1-2-2:建立功率平衡约束模型,表示如下:
Figure SMS_61
式中,Pt l为t时段的负荷需求;由于同一时段内不能同时存在购电和售电行为,故采用下式对其约束;
Figure SMS_62
S1-2-3:建立与主电网功率交互约束模型,表示如下:
为保证在调度周期内变压器的安全运行,还需满足如下约束:
Figure SMS_63
Figure SMS_64
式中,
Figure SMS_65
和/>
Figure SMS_66
分别为微电网向主电网购电和售电的最大功率。
在所述步骤S2中,针对微电网优化问题建立相应的马尔可夫决策过程包括以下构成:
S2-1:对状态空间进行建模,表示如下:
1)状态空间
将马尔可夫决策过程的状态空间用负荷、光伏出力、储能的荷电状态、购售电价以及微电网运行环境的调度时段表示:
Figure SMS_67
S2-2:对动作空间进行建模,表示如下:
连续型动作空间定义为储能设备的充放电功率
Figure SMS_68
分别为储能设备的充电功率
Figure SMS_69
储能设备的放电功率以及不工作
S2-3:对奖励函数进行分类并分别建模,表示如下:
强化学习的目标是为了在与环境的交互探索中获得累计奖励最大。对奖励函数设置两个部分,第一部分是由微电网的运行成本函数转化而来,第二部分是由储能运行时的惩罚函数组成。
S2-3-1:对微电网成本奖励函数进行建模,表示如下:
由于光伏出力和负荷的随机性使强化学习算法在每个时段获得的奖励呈现较大波动性,不合理的奖励设置机制会出现强化学习模型训练时间长、收敛性不佳等问题,从而难以学到有效的调度动作。基于此,为进一步提升模型训练效果,设置两个正数k1和k2,对奖励值大小进行缩放处理。因此,第一部分奖励函数设置如下式,即:
Figure SMS_70
S2-3-2:对调度周期内储能运行的惩罚函数建模,表示如下:
储能设备在调度周期内动作时,可能会使其荷电状态在某个时段内出现越限情况,即违反约束式(7)。因此,需要给错误的调度动作给予惩罚。定义储能运行的惩罚函数,即:
Figure SMS_71
式中,αdis和αch分别表示在调度时段内储能违反最小和最大荷电状态约束的放电和充电惩罚系数。
S2-3-3:对调度周期末储能运行的惩罚函数建模,表示如下:
根据约束式(9)可知,还应设置储能调度周期末时储能的荷电状态惩罚函数,即:
Figure SMS_72
式中,λend为储能调度周期末时段的惩罚系数,
Figure SMS_73
为储能调度周期末时的荷电状态,/>
Figure SMS_74
为下一个调度周期储能的初始荷电状态,Tend表示调度周期末。
因此,第二部分储能设备运行的惩罚函数表示为:
Figure SMS_75
综上所述,强化学习的奖励函数,可表示如下:
Figure SMS_76
在所述步骤S3中,针对建立的马尔可夫决策模型的求解过程包括以下构成:
S3-1:利用LSTM方法对源荷时序数据特征提取,包括:
利用LSTM神经网络对源荷时序数据特征提取,并将提取到的未来时刻源荷特征与状态空间式一起构成DDPG算法的策略网络输入,结构如图2所示。
S3-2:利用DDPG算法求解微电网能量调度问题,得到最优能量调度策略,其过程如下:
在DDPG算法探索学习过程中,对当前策略网络输入微电网运行环境状态st,当前策略网络会基于确定性策略μ输出动作at,即:
at=μ(stμ) (20)
式中,θμ为当前策略网络参数。
为使DDPG算法在微电网的运行环境中有更强的探索能力,将策略网络输出的调度动作at作为均值,
Figure SMS_77
为标准差构成一个正太分布/>
Figure SMS_78
可通过衰减系数ε来控制/>
Figure SMS_79
衰减的速度,ε越大,/>
Figure SMS_80
衰减速度越慢;ε越小,/>
Figure SMS_81
衰减速度越快,以此控制DDPG算法在环境中的探索范围。然后从正态分布中随机输出新的动作作为实际调度动作,可表示如下:
Figure SMS_82
在DDPG算法训练前,由每个调度周期内微电网运行环境状态st、能量调度动作at、环境反馈的奖励rt以及下一个状态st+1组成的状态转移序列样本(st,at,rt,st+1)储存到经验池中作为训练样本。具体训练过程如下:
首先,从经验池中随机采样N个样本通过价值网络计算目标价值yi和损失函数L,计算如下所示:
Figure SMS_83
yi=ri+γQ′(si+1,μ′(si+1|θμ)|θQ′) (23)
式中,N为采样的训练样本数;θμ′为目标策略网络的参数;θQ为当前价值网络参数,θQ′为目标价值网络的参数;i表示采样的训练样本编号
然后,再通过梯度下降策略和最小化损失函数对策略网络参数优化更新:
Figure SMS_84
最后,在对策略网络和价值网络训练后,采用软更新的方法,对目标策略网络和目标价值网络参数进行更新,即:
θμ′←τθμ+(1-τ)θμ′(25)
θQ′←τθQ+(1-τ)θQ′(26)式中,τ为当前网络参数对目标网络参数进行软更新的系数,一般取值范围为0<τ1。
基于LSTM-DDPG方法所建立的微电网能量优化调度框架如图3所示,利用LSTM预测未来调度时段的光伏和负荷,并构成图中的环境状态。通过DDPG算法输出调度动作作用于微电网环境并得到反馈奖励和下一时刻环境运行状态,可以实现DDPG算法与微电网环境的交互。
在所述步骤S4中,通过算例仿真验证本方法的有效性包括以下步骤:
S4-1:设计算例参数,包括:
光伏数据集来源于2019年澳大利亚的Yulara光伏发电系统。储能设备容量表1分时电价参数Tab.1Time of use tariff parameters
Figure SMS_85
设置为1000kW·h,充放电功率最大限定为200kW,储能设备的荷电状态最大最小值分别设置为0.8和0.2,初始荷电状态为0.3。电价分为峰时段、平时段以及谷时段,峰时段为6:00—11:00、19:00—23:00,平时段为11:00—19:00,谷时段为23:00—6:00。电价参数如表1所示。
DDPG算法的神经网络隐藏层层数均设置为2层,每层神经元的个数设置为100,隐藏层的激活函数设置为ReLU函数。并设计DDPG算法的超参数如表2所示:
表2DDPG算法超参数Tab.2Hyper parameter of DDPG algorithm
Figure SMS_86
针对光伏出力和负荷预测,基于一年的历史数据集并按照6:2:2比例划分为训练集、验证集和测试集。同时,在LSTM模型训练前对神经网络输入数据进行预处理,可以避免数据波动大以及数据异常使神经网络收敛慢、预测精度较低等问题。利用min-max方法对神经网络的输入数据进行归一化处理,LSTM神经网络的超参数如表3所示:
表3 LSTM神经网络超参数
Tab.3 Hyper parameters of LSTM neural network
Figure SMS_87
S4-2:预测分析LSTM神经网络,如下:
在训练LSTM模型过程中,光伏训练集和验证集的网络损失均方误差(mean squareerror,MSE)分别为0.00135和0.00127;负荷训练集和验证集的MSE分别为0.00325和0.00354。LSTM模型经过110次训练后,用该模型对光伏和负荷的测试集数据进行预测,光伏和负荷的平均绝对百分比误差(mean absolute percentage error,MAPE)分别为34%、3.5%,预测效果可行。图4和图5为2019年10月21日到2019年11月3日光伏和负荷的预测结果绘制对比图。
S4-3:分析LSTM-DDPG方法调度结果,如下:
从图6可知,在谷电价和负荷需求较低时段,如:00:00—05:00时段,由于光伏不出力,需从主电网大量购电以满足该时段的负荷需求。此外,该时段储能主要采取充电策略以满足电价较高或负荷高峰时的用电需求。在峰电价时段,如6:00-8:00时段,此时电价较高,会增加从主电网的购电成本;而光伏出力增大以及储能采取放电策略在很大程度上降低了微电网的购电成本。在平电价时段,如11:00-15:00时段,光伏出力较大,微电网向主电网的购电量大大减少。同时,该时段储能处在充电状态,可在后续调度时段通过放电满足负荷需求。在19:00-20:00时段内,随着光伏出力减弱,储能采取放电策略,有效提升了微电网运行的经济性。由上述调度结果分析可知,储能在电价引导下,可在相应的时段内采取合理的充放电策略。
为分析光伏出力和负荷预测误差对能量调度结果的影响,设计如下三种算例模式进行对比分析。
模式1:运用本发明所提的微电网能量调度的深度强化学习方法。
模式2:在光伏和负荷完美预测情况下,利用对应的实际数据训练强化学习模型。
模式3:不使用LSTM神经网络建模,直接采用DDPG算法求解模型。
表4三种模式下微电网运行成本Tab.4Operation cost of microgrid underthree modes
Figure SMS_88
从表4可知,模式1(本发明方法)较模式3的运行成本降低2.74%,说明本发明所提LSTM-DDPG方法能够有效降低微电网运行成本。以模式3为基准,模式2下微电网运行成本较模式3降低3.91%,相比模式1进一步降低了微电网运行成本。由此可知,可通过提高LSTM神经网络预测精度继而增强深度强化学习算法的寻优能力。
为分析光伏和负荷数据集在不同划分比例下训练LSTM模型发明方法对微电网的优化效果,设置如下两种算例模式进行对比分析。
模式4:设数据集划分比例为4:3:3,分别训练光伏和负荷的LSTM预测模型。
模式5:设数据集划分比例为8:1:1,分别训练光伏和负荷的LSTM预测模型。
表5三种模式下微电网运行成本Tab.5Operation cost of microgrid underthree modes
Figure SMS_89
从表5可知,模式1(本研究方法)较模式3和模式5的微电网运行成本更低。因此,在本发明采取的数据集划分比例下,对微电网运行成本优化更好。
从图7可知,在16:00到19:00时段内,可看出模式1和模式2储能的荷电状态呈现较大的上升趋势,而模式3表现较小的波动。并且,该时段内模式3的荷电状态水平整体偏低,难以在未来时段通过放电降低微电网的运行成本。通过上述对比分析,模式1和模式2中储能在调度周期内采取的能量调度策略较模式3要更优,使微电网运行成本降低更多。
图8为在模式1下对DDPG算法策略网络训练的奖励曲线。从图8可知,在5000回合前,奖励振荡较大以及有明显的上升趋势。说明此阶段策略网络还不稳定,输出的调度动作可能会使储能的荷电状态发生越限而受到惩罚。在6000回合后,随着策略网络参数趋于稳定,滑动平均奖励曲线逐渐收敛,即奖励函数逐渐收敛到稳定值。需要指出最终的奖励曲线仍然处于较小的波动,这是因为在每个调度时段内微电网中光伏出力和负荷功率的不确定性而引发奖励小范围振荡,属于正常情况。图9为DDPG算法在训练阶段损失函数的变化过程,可看出损失函数表现出较为明显的减小趋势。
S3-4:分析模型的经济性,如下:
表6不同深度强化学习算法的优化结果
Tab.6 Optimization results of different depth reinforcement learningalgorithms
Figure SMS_90
表6为对比了在多种深度强化学习算法下求解的微电网日运行成本,其中,离散度d表示对连续动作离散化的大小。从其中可知,当LSTM-DDQN算法的动作离散度为5和50时,储能的调度动作离散度越大,动作空间越小,求解的微电网运行成本越高。这主要是因为动作离散度大使得DDQN算法中动作空间和状态空间中可描述的信息少,无法对环境充分探索,从而难以学到最优能量调度策略。因此,本发明采取连续型深度强化学习算法有效提升微电网运行的经济性。
S4-4:分析算法的泛化性、稳定性,包括:
选取其他区域的光伏和负荷数据,并设置4组对比试验,得到所提算法在其表7 4组对比实验下的微电网运行成本
Tab.7 Operation cost of microgrid under four groups of comparativeexperiments
Figure SMS_91
他地区的数据集上也能表现较好的优化能力,表7所示。验证了本研究所提LSTM-DDPG方法具有良好的泛化性。
采用5组随机种子进行仿真实验,并训练7000回合,图10是由5次实验得到的平均奖励值、最大奖励值和最小奖励值曲线组成,阴影部分表示奖励的最大最小值区间,中间实线表示5次实验的平均奖励值。由图可知,在迭代次数为6600后,平均奖励和最大最小值之间差距逐步缩小直至收敛,说明本发明所提方法具有良好的稳定性。
在本说明书中,对本发明的示意性表述不是必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。此外,本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,包括以下步骤:
S1:建立微电网优化调度模型,在满足负荷需求以及微电网安全运行的前提下,通过对微电网能量优化管理,实现微电网运行成本最小化的目标;
S2:提出基于深度强化学习的能量管理办法,针对微电网优化运行问题建立相应的马尔可夫决策模型;
S3:利用长短期记忆(LSTM)神经网络得到光伏、负荷数据的有效预测模型,并且基于LSTM和深度确定性策略梯度(DDPG)方法构建微电网能量优化求解框架,得到最优能量调度策略;
S4:通过算例仿真验证方法的有效性,能有效应对随机变量的影响,提升微电网运行的经济性。
2.如权利要求1所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,所述步骤S1中,微电网优化调度模型包括以下构成:
S1-1:构建最小化成本的目标函数模型,考虑三个成本因素,分别是微电网的购电成本Cg、储能设备的折旧成本Cpv和光伏发电设备的运维成本Cb,模型可表示如下:
min C=Cg+Cpv+Cb (1)
S1-1-1:建立微电网购电成本模型,表示如下:
Figure QLYQS_1
式中,λb,t和λs,t分别为t时段微电网向主电网购电和售电的价格;
Figure QLYQS_2
和/>
Figure QLYQS_3
分别为t时段微电网向主电网的购售电量;
S1-1-2:建立光伏设备运维成本模型,表示如下:
Figure QLYQS_4
式中,kpv为光伏的单位运维成本,Pt pv为t时段光伏出力;
S1-1-3:建立储能设备折旧成本模型,表示如下:
Figure QLYQS_5
式中,kb为储能设备的单位折旧成本;Pt b为t时段储能设备的工作功率,Pt b<0表示储能设备充电,反之,则表示储能设备放电;
S1-2:构建微电网优化调度问题中的约束条件模型,包括储能设备约束、功率平衡约束和与主电网功率交互约束,可表示如下:
S1-2-1:建立储能设备约束模型,表示如下:
由于储能设备深度充电和放电会对自身造成损害,所以需要在每个时段将储能设备功率和荷电状态约束在一定范围内;因此,储能设备所需满足的约束如下所示:
Figure QLYQS_6
/>
Figure QLYQS_7
Figure QLYQS_8
式中,
Figure QLYQS_9
为储能设备充放电功率的上限值;ηch和ηdis分别为储能设备的充电效率和放电效率;/>
Figure QLYQS_10
和/>
Figure QLYQS_11
分别为t时段储能设备充电和放电的状态变量,值为1时表示储能设备处于工作状态,值为0时,则不工作;Δt为时间间隔;/>
Figure QLYQS_12
和/>
Figure QLYQS_13
分别为调度周期内储能设备荷电状态的最小值和最大值;
Figure QLYQS_14
为t时段储能设备的荷电状态;
由于储能设备的工作状态是单一进行的,即在一个工作时段内,储能设备的充放电状态无法同时存在,故采用下式对其约束:
Figure QLYQS_15
此外,为满足下一个调度周期起始时段对储能设备的蓄能和放能要求,需保证储能设备在调度周期初和调度周期末的荷电状态相等,故采用下式对其约束:
Figure QLYQS_16
式中,
Figure QLYQS_17
为调度周期末储能设备的荷电状态,/>
Figure QLYQS_18
为储能设备在下一个调度周期的初始荷电状态;
S1-2-2:建立功率平衡约束模型,表示如下:
Figure QLYQS_19
式中,Pt l为t时段的负荷需求;由于同一时段内不能同时存在购电和售电行为,故采用下式对其约束;
Figure QLYQS_20
S1-2-3:建立与主电网功率交互约束模型,表示如下:
为保证在调度周期内变压器的安全运行,与主电网功率交互还需满足如下约束:
Figure QLYQS_21
Figure QLYQS_22
式中,
Figure QLYQS_23
和/>
Figure QLYQS_24
分别为微电网向主电网购电和售电的最大功率。
3.如权利要求2所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,所述步骤S2中,针对微电网优化问题建立相应的马尔可夫决策过程,能量管理模型如下:
S2-1:对状态空间进行建模,表示如下:
将马尔可夫决策过程的状态空间用负荷、光伏出力、储能的荷电状态、购售电价以及微电网运行环境的调度时段表示:
Figure QLYQS_25
S2-2:对动作空间进行建模,表示如下:
连续型动作空间定义为储能设备的充放电功率
Figure QLYQS_26
分别为储能设备的充电功率/>
Figure QLYQS_27
储能设备的放电功率以及不工作;此外,还需根据约束式(5)对调度动作大小进行限制;
S2-3:对奖励函数进行分类并分别建模,表示如下:
强化学习的目标是为了在与环境的交互探索中获得累计奖励最大;对奖励函数设置两个部分,第一部分是由微电网的运行成本函数转化而来,第二部分是由储能运行时的惩罚函数组成;
S2-3-1:对微电网成本奖励函数进行建模,表示如下:
由于光伏出力和负荷的随机性使强化学习算法在每个时段获得的奖励呈现较大波动性,不合理的奖励设置机制会出现强化学习模型训练时间长、收敛性不佳等问题,从而难以学到有效的调度动作;基于此,为进一步提升模型训练效果,设置两个正数k1和k2,对奖励值大小进行缩放处理;因此,第一部分奖励函数设置如下式,即:
Figure QLYQS_28
S2-3-2:对调度周期内储能运行的惩罚函数建模,表示如下:
储能设备在调度周期内动作时,可能会使其荷电状态在某个时段内出现越限情况,即违反约束式(7);因此,需要给错误的调度动作给予惩罚;定义储能运行的惩罚函数,即:
Figure QLYQS_29
式中,αdis和αch分别表示在调度时段内储能违反最小和最大荷电状态约束的放电和充电惩罚系数;
S2-3-3:对调度周期末储能运行的惩罚函数建模,表示如下:
根据约束式(9)可知,还应设置储能调度周期末时储能的荷电状态惩罚函数,即:
Figure QLYQS_30
式中,λend为储能调度周期末时段的惩罚系数,
Figure QLYQS_31
为储能调度周期末时的荷电状态,
Figure QLYQS_32
为下一个调度周期储能的初始荷电状态,Tend表示调度周期末;
因此,第二部分储能设备运行的惩罚函数表示为:
Figure QLYQS_33
综上所述,强化学习的奖励函数,可表示如下:
Figure QLYQS_34
4.如权利要求3所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,所述步骤S3中,针对建立的马尔可夫决策模型的求解过程如下:
S3-1:利用LSTM方法对源荷时序数据特征提取,包括:
利用LSTM神经网络对源荷时序数据特征提取,并将提取到的未来时刻源荷特征与状态空间式一起构成DDPG算法的策略网络输入;
S3-2:利用DDPG算法求解微电网能量调度问题,得到最优能量调度策略,其过程如下:
在DDPG算法探索学习过程中,对当前策略网络输入微电网运行环境状态st,当前策略网络会基于确定性策略μ输出动作at,即:
at=μ(stμ) (20)
式中,θμ为当前策略网络参数;
为使DDPG算法在微电网的运行环境中有更强的探索能力,将策略网络输出的调度动作at作为均值,
Figure QLYQS_35
为标准差构成一个正太分布/>
Figure QLYQS_36
可通过衰减系数ε来控制/>
Figure QLYQS_37
衰减的速度,ε越大,/>
Figure QLYQS_38
衰减速度越慢;ε越小,/>
Figure QLYQS_39
衰减速度越快,以此控制DDPG算法在环境中的探索范围;然后从正态分布中随机输出新的动作作为实际调度动作,可表示如下:
Figure QLYQS_40
在DDPG算法训练前,由每个调度周期内微电网运行环境状态st、能量调度动作at、环境反馈的奖励rt以及下一个状态st+1组成的状态转移序列样本(st,at,rt,st+1)储存到经验池中作为训练样本;具体训练过程如下:
首先,从经验池中随机采样N个样本通过价值网络计算目标价值yi和损失函数L,计算如下所示:
Figure QLYQS_41
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′) (23)
式中,N为采样的训练样本数;θμ′为目标策略网络的参数;θQ为当前价值网络参数,θQ′为目标价值网络的参数;i表示采样的训练样本编号;
然后,再通过梯度下降策略和最小化损失函数对策略网络参数优化更新:
Figure QLYQS_42
最后,在对策略网络和价值网络训练后,采用软更新的方法,对目标策略网络和目标价值网络参数进行更新,即:
θμ′←τθμ+(1-τ)θμ′ (25)
θQ′←τθQ+(1-τ)θQ′ (26)
式中,τ为当前网络参数对目标网络参数进行软更新的系数,一般取值范围为0<τ<<1。
5.如权利要求4所述的一种考虑源荷不确定性下微电网能量调度的深度强化学习方法,其特征在于,在所述步骤S4中,通过算例仿真验证本方法的有效性,包括以下步骤:
S4-1:设计算例参数,包括:
设计光伏数据集,刻画光伏发电系统出力与时间的关系;设置储能设备容量,并规定充放电功率最大限定值;设置储能设备的荷电状态最大值、最小值、初始荷电状态;设置典型日电价,分为峰时段、平时段以及谷时段;
设置DDPG算法的神经网络隐藏层层数,每层神经元的个数以及隐藏层的激活函数;针对光伏出力和负荷预测,基于一年的历史数据集并按照一定的比例划分为训练集、验证集和测试集;同时,在LSTM模型训练前对神经网络输入数据进行预处理,以避免数据波动大以及数据异常使神经网络收敛慢、预测精度较低等问题;
S4-2:预测分析LSTM神经网络,如下:
LSTM模型经过一定次数的训练后,用该模型对光伏和负荷的测试集数据进行预测;
S4-3:分析LSTM-DDPG方法调度结果,包括:
分析在峰、谷、平电价和负荷需求高或者低及其光伏的情况下与电网的购售电策略和储能的充放电策略;例如,在谷电价和负荷需求较低且光伏不出力的时段,需从主电网大量购电以满足该时段的负荷需求;在平电价时且光伏出力较大的时段,微电网向主电网的购电量大大减少;随着光伏出力减弱,储能采取放电策略,有效提升了微电网运行的经济性;
S4-4:分析算法的泛化性、稳定性,包括:
选取其他区域的光伏和负荷数据,并设置若干组对照试验,观察所提算法在其他地区的数据集上优化能力是否仍然有较好的表现,以此来验证了算法是否具有良好的泛化性;
采用若干组随机种子进行仿真实验,通过实验得到平均奖励值、最大奖励值和最小奖励值;观察平均奖励和最大最小值之间差距是否逐步缩小直至收敛,以此来验证算法是否具有良好的稳定性。
CN202211596746.4A 2022-12-12 2022-12-12 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法 Pending CN116247648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211596746.4A CN116247648A (zh) 2022-12-12 2022-12-12 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211596746.4A CN116247648A (zh) 2022-12-12 2022-12-12 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法

Publications (1)

Publication Number Publication Date
CN116247648A true CN116247648A (zh) 2023-06-09

Family

ID=86625000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211596746.4A Pending CN116247648A (zh) 2022-12-12 2022-12-12 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法

Country Status (1)

Country Link
CN (1) CN116247648A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057491A (zh) * 2023-10-13 2023-11-14 中宝电气有限公司 基于mpc与储能系统结合的农村地区电力供应优化管理方法
CN117236649A (zh) * 2023-11-10 2023-12-15 天津麦旺生物技术有限公司 一种用于宠物饲料加工原料需求量的调度方法
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117595346A (zh) * 2024-01-18 2024-02-23 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057491A (zh) * 2023-10-13 2023-11-14 中宝电气有限公司 基于mpc与储能系统结合的农村地区电力供应优化管理方法
CN117057491B (zh) * 2023-10-13 2024-02-02 中宝电气有限公司 基于mpc与储能系统结合的农村地区电力供应优化管理方法
CN117236649A (zh) * 2023-11-10 2023-12-15 天津麦旺生物技术有限公司 一种用于宠物饲料加工原料需求量的调度方法
CN117236649B (zh) * 2023-11-10 2024-01-26 天津麦旺生物技术有限公司 一种用于宠物饲料加工原料需求量的调度方法
CN117335439A (zh) * 2023-11-30 2024-01-02 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117335439B (zh) * 2023-11-30 2024-02-27 国网浙江省电力有限公司 一种多元负荷资源联合调度方法及系统
CN117726133A (zh) * 2023-12-29 2024-03-19 国网江苏省电力有限公司信息通信分公司 一种基于强化学习的分布式能源实时调度方法及系统
CN117595346A (zh) * 2024-01-18 2024-02-23 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法
CN117595346B (zh) * 2024-01-18 2024-04-05 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统
CN117726143B (zh) * 2024-02-07 2024-05-17 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Similar Documents

Publication Publication Date Title
CN116247648A (zh) 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法
Li et al. Efficient experience replay based deep deterministic policy gradient for AGC dispatch in integrated energy system
Weitzel et al. Energy management for stationary electric energy storage systems: A systematic literature review
Hafiz et al. Real-time stochastic optimization of energy storage management using deep learning-based forecasts for residential PV applications
Elsied et al. An advanced energy management of microgrid system based on genetic algorithm
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
Qi et al. Energyboost: Learning-based control of home batteries
CN105322534A (zh) 一种基于区间不确定性的微网优化调度方法
Jiang et al. Research on short-term optimal scheduling of hydro-wind-solar multi-energy power system based on deep reinforcement learning
CN114611772B (zh) 一种基于多智能体强化学习的多微网系统协同优化方法
CN115207977A (zh) 一种有源配电网深度强化学习实时调度方法及系统
Bartels et al. Influence of hydrogen on grid investments for smart microgrids
Li et al. A novel framework for integrating solar renewable source into smart cities through digital twin simulations
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
Zhou et al. Optimal energy management strategy considering forecast uncertainty based on LSTM-quantile regression
Chen et al. New energy generation forecasting and dispatching method based on big data
Sigalo Energy management of grid-connected microgrids, incorporating battery energy storage and CHP systems using mixed integer linear programming
Senthil Kumar et al. [Retracted] Optimization Technique for Renewable Energy Storage Systems for Power Quality Analysis with Connected Grid
Huang et al. Optimal Dispatch of Multi-Energy Integrated Micro-Energy Grid: A Model Predictive Control Method
Hatziargyriou et al. Preliminary results from the More Advanced Control Advice Project for secure operation of isolated power systems with increased renewable energy penetration and storage
Hossain et al. Energy Management of Community Microgrids Considering Uncertainty using Particle Swarm Optimisation
CN113705067B (zh) 一种微网优化运行策略生成方法、系统、设备及存储介质
Zicheng et al. Minimum inertia demand estimation of new power system considering diverse inertial resources based on deep neural network
Xu et al. Agent-based optimal cooperative operation of multi-energy system
Li et al. Optimization Operation of the Park-Level Integrated Energy System Based on the Improved Coyote Optimization Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication