CN113555888A - 一种微电网储能协调控制的方法 - Google Patents

一种微电网储能协调控制的方法 Download PDF

Info

Publication number
CN113555888A
CN113555888A CN202110753902.2A CN202110753902A CN113555888A CN 113555888 A CN113555888 A CN 113555888A CN 202110753902 A CN202110753902 A CN 202110753902A CN 113555888 A CN113555888 A CN 113555888A
Authority
CN
China
Prior art keywords
action
micro
grid
value
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110753902.2A
Other languages
English (en)
Other versions
CN113555888B (zh
Inventor
黎海涛
申保晨
吕鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110753902.2A priority Critical patent/CN113555888B/zh
Publication of CN113555888A publication Critical patent/CN113555888A/zh
Application granted granted Critical
Publication of CN113555888B publication Critical patent/CN113555888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/20The dispersed energy generation being of renewable origin
    • H02J2300/28The renewable source being wind energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

一种微电网储能协调控制的方法涉及电力系统微电网领域。本发明针对微电网系统,提出了UCB A3C深度强化学习的微电网储能协调控制方法。在算法学习过程中,利用UCB动作探索机制来选择当前状态下微电网负荷组件、储能组件以及与电网进行电量交易的控制动作,可以提高微电网学习迭代过程中的鲁棒性,且能够提高微电网控制效率,从而提升微电网的经济效益。

Description

一种微电网储能协调控制的方法
技术领域
本发明涉及电力系统微电网领域,是一种微电网储能协调控制的方法。
背景技术
在环境保护和能源需求大幅增长的压力下,建立综合能源系统,提高能源综合利用率是降低碳排放,消纳新能源,促进能源转型的重要途径。微电网利用其既可以与主电网并网运行,也可以单独运行的特点,有效解决了能源综合利用率低的问题,被认为是接纳各种能源高度渗透的理想平台。
然而,随着可再生能源不断接入主电网,提高了能源供给的波动性,科技发展带来不断变化的电力负荷,提高了负荷侧的不确定性。这一系列变化,使得如何更高效地对微电网进行储能协调控制,从而达到减少发电成本和降低运输能量损耗的目的。
人工智能技术的发展,利用深度强化学习算法进行该问题的求解也受到了相关人员的关注,并且在应用过程中,深度强化学习算法的灵活性、可扩展性和优越性也得到验证。基于此,人们提出了基于策略梯度的Actor Critic算法来进行微电网储能协调控制,证明了可以以最小化能源成本为目标来调度微电网各组件,但该方法的鲁棒性较差,且学习过程中无法找到合适的储能协调控制策略,导致较高的用电成本。
为进一步提高微电网的储能协调控制,本发明提出一种基于UCB A3C深度强化学习的微电网储能协调控制方法,它能够提高微电网系统学习过程中的鲁棒性,且在应用过程中,可以提高能量管理的效率,从而达到降低用电成本,提升经济效益的目的。
发明内容
本发明解决的技术问题是如何提高微电网策略学习过程中的鲁棒性,进而改善微电网储能协调控制效率低的问题,从而达到提升微电网系统经济效益的目的。
一种基于深度强化学习的微电网储能协调控制方法,包括以下实现步骤,如图2:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数。
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω。
步骤(4):微电网系统观测当前系统状态st
这里系统状态主要完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价。
步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt
步骤(7):微电网系统观测下一时刻其所处状态st+1
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则。
Actor网络的损失函数公式如下:
Figure BDA0003146709200000031
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;
Figure BDA0003146709200000032
表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1nV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值。
步骤(10):更新动作获取概率矩阵
Figure BDA0003146709200000041
其中τ是调整置信因子的常系数,此处τ为0.003;第二项
Figure BDA0003146709200000042
是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小。在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用。
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmax p;
这里的p是指上一步骤中得到的动作获取概率矩阵。
步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
Figure BDA0003146709200000043
式中V(st,ω')表示Critic网络的价值取值。
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的梯度:
Figure BDA0003146709200000044
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数。
步骤(18):更新当前线程A3C神经网络Critic的梯度:
Figure BDA0003146709200000051
式中
Figure BDA0003146709200000052
表示求偏导运算;dω1表示dω更新后的参数。
步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数。
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3)。并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作};
有益效果
本发明针对微电网系统,提出了基于深度强化学习的微电网储能协调控制方法。其在动作的探索策略上利用最大置信上界(UCB)的算法,能选取到具有更多奖励的动作,提高了学习效率和算法的鲁棒性,同时能够降低用电成本和提升经济效益,具有更好的实际应用价值。
附图说明
图1 为微电网系统模型
图2 为所提方法的实施步骤
图3 UCB A3C算法的结构
图4 为奖赏值对比
图5 为累计收益值对比
图6 实验环境下微电网风力发电组件和负荷组件的预测曲线
图7 实验环境下微电网储能组件的荷电状态和充放电功率(功率为正代表充电,功率为负代表放电)
具体实施方式
下面通过实验来说明本发明的实施步骤,实验中采用的参数为;
Figure BDA0003146709200000061
本发明的具体实现步骤为:
步骤(1):初始化,设定微电网系统的状态集s;
动作集a为
·a[0]=0:直接可控制负荷第一档控制动作
·a[0]=1:直接可控制负荷第二档控制动作
·a[0]=2:直接可控制负荷第三档控制动作
·a[0]=3:直接可控制负荷第四档控制动作
·a[1]=0:不可直接控制负荷电价调整为-2的操作
·a[1]=1:不可直接控制负荷电价调整为-1的操作
·a[1]=2:不可直接控制负荷电价调整为0的操作
·a[1]=3:不可直接控制负荷电价调整为1的操作
·a[1]=4:不可直接控制负荷电价调整为2的操作
·a[2]=0:微电网电量短缺时确定储能系统优先的操作
·a[2]=1:微电网电量短缺时确定电网优先的操作
·a[3]=0:微电网电量过剩时确定储能系统优先的操作
·a[3]=1:微电网电量过剩时确定电网优先的操作
初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d=128,全局共享的迭代轮数T,当前线程总的迭代时间步数Nt,初始时间t=1,设定开始时刻tstart=1,设定最大迭代次数Tmax=700;
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数。
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω。
步骤(4):微电网系统观测当前系统状态st
这里系统状态主要完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价。
步骤(5):基于策略π(at|st,θ)选择动作at,譬如选取a={3,2,1,1},并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt=0.484505740203793;
步骤(7):微电网系统观测下一时刻其所处状态st+1
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则。
Actor网络的损失函数公式如下:
Figure BDA0003146709200000081
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;
Figure BDA0003146709200000082
表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1nV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值。
步骤(10):更新动作获取概率矩阵
Figure BDA0003146709200000091
其中τ是调整置信因子的系数,此处τ为0.003;第二项
Figure BDA0003146709200000092
是置信因子;ε是不断减小的参数,此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小。在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用。
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmax p;
这里的p是指上一步骤中得到的动作获取概率矩阵。
步骤(12):更新迭代时间t=t+1,迭代轮数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
Figure BDA0003146709200000093
式中V(st,ω')表示Critic网络的价值取值。
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的本地梯度:
Figure BDA0003146709200000094
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数。
步骤(18):更新当前线程A3C神经网络Critic的梯度:
Figure BDA0003146709200000101
式中
Figure BDA0003146709200000102
表示求偏导运算;dω1表示dω更新后的参数。
步骤(19):观测当前时间t是否是开始时刻tstart,如果是,进行下一步骤,如果不是,回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数。
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3)。并输出此时动作对应的{直接可控制负荷控制的动作=1,不可直接控制负荷控制的动作=3,微电网电量短缺时确定储能组件/电网优先级的动作=0,微电网电量过剩时确定储能组件/电网优先级的动作=1};
所提方法的性能如图4,可以看到,在微电网系统进行储能协调控制时,本方法所获得的奖赏值高于Actor Crtic方法,且稳定性高。采用本发明提出方法能获得更好的经济收益,如图5。同时,在实验环境下,风力发电和电力负荷组件的预测曲线如图6。储能组件的荷电状态和充放电功率如图7,功率为正代表充电操作,功率为负代表放电操作。结合上述结果可知,本发明提出方法可以更好地对微电网进行储能协调控制。

Claims (1)

1.一种基于深度强化学习的微电网储能协调控制方法,其特征在于,包括以下实现步骤:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数;
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω;
步骤(4):微电网系统观测当前系统状态st
这里系统状态完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价;
步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt
步骤(7):微电网系统观测下一时刻其所处状态st+1
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则;
Actor网络的损失函数公式如下:
Figure FDA0003146709190000021
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;
Figure FDA0003146709190000022
表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1nV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值;
步骤(10):更新动作获取概率矩阵
Figure FDA0003146709190000031
其中τ是调整置信因子的常系数,此处τ为0.003;第二项
Figure FDA0003146709190000032
是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小;在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用;
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmaxp;
这里的p是指上一步骤中得到的动作获取概率矩阵;
步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
Figure FDA0003146709190000033
式中V(st,ω')表示Critic网络的价值取值;
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的梯度:
Figure FDA0003146709190000034
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数;
步骤(18):更新当前线程A3C神经网络Critic的梯度:
Figure FDA0003146709190000041
式中
Figure FDA0003146709190000042
表示求偏导运算;dω1表示dω更新后的参数;
步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数;
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3);并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}。
CN202110753902.2A 2021-07-03 2021-07-03 一种微电网储能协调控制的方法 Active CN113555888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753902.2A CN113555888B (zh) 2021-07-03 2021-07-03 一种微电网储能协调控制的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753902.2A CN113555888B (zh) 2021-07-03 2021-07-03 一种微电网储能协调控制的方法

Publications (2)

Publication Number Publication Date
CN113555888A true CN113555888A (zh) 2021-10-26
CN113555888B CN113555888B (zh) 2024-03-22

Family

ID=78131277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753902.2A Active CN113555888B (zh) 2021-07-03 2021-07-03 一种微电网储能协调控制的方法

Country Status (1)

Country Link
CN (1) CN113555888B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139354A (zh) * 2021-11-12 2022-03-04 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108964050A (zh) * 2018-08-26 2018-12-07 燕山大学 基于需求侧响应的微电网双层优化调度方法
KR102256434B1 (ko) * 2020-08-14 2021-05-25 목포대학교 산학협력단 다수의 분산 에너지저장시스템 통합제어 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139354A (zh) * 2021-11-12 2022-03-04 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统
CN114139354B (zh) * 2021-11-12 2024-05-21 山东浪潮科学研究院有限公司 基于强化学习的电力系统仿真调度方法及系统

Also Published As

Publication number Publication date
CN113555888B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
Adetunji et al. An optimization planning framework for allocating multiple distributed energy resources and electric vehicle charging stations in distribution networks
CN112529283A (zh) 基于注意力机制的综合能源系统短期负荷预测方法
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
Zhou et al. Reinforcement learning-based scheduling strategy for energy storage in microgrid
CN110929964A (zh) 一种基于近似动态规划算法的含储能配电网优化调度方法
CN114997935B (zh) 一种基于内点策略优化的电动汽车充放电策略优化方法
CN117057553A (zh) 一种基于深度强化学习的家庭能源需求响应优化方法及系统
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
Zhou et al. Deep learning-based rolling horizon unit commitment under hybrid uncertainties
CN115954957A (zh) 一种复合发电系统的容量配置方法、装置和电子设备
CN115115130A (zh) 一种基于模拟退火算法的风光储制氢系统日前调度方法
CN115422728A (zh) 基于随机规划的鲁棒优化的虚拟电厂优化控制系统
CN117060386A (zh) 一种基于值分布深度q网络的微电网储能调度优化方法
CN117374937A (zh) 一种多微电网协同优化运行方法、装置、设备及介质
CN113555888B (zh) 一种微电网储能协调控制的方法
CN116739158A (zh) 一种基于强化学习的自适应优化储能方法
CN117318169A (zh) 基于深度强化学习计及新能源消纳的主动配电网调度方法
CN114239372A (zh) 一种考虑机组组合的多目标机组检修双层优化方法和系统
CN116995645A (zh) 基于保护机制强化学习的电力系统安全约束经济调度方法
CN115001002B (zh) 一种求解储能参与削峰填谷的优化调度方法和系统
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN113991654B (zh) 一种能源互联网混合能量系统及其调度方法
CN115693741A (zh) 分布式光伏和储能系统的储能量优化方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant