CN113555888A - 一种微电网储能协调控制的方法 - Google Patents
一种微电网储能协调控制的方法 Download PDFInfo
- Publication number
- CN113555888A CN113555888A CN202110753902.2A CN202110753902A CN113555888A CN 113555888 A CN113555888 A CN 113555888A CN 202110753902 A CN202110753902 A CN 202110753902A CN 113555888 A CN113555888 A CN 113555888A
- Authority
- CN
- China
- Prior art keywords
- action
- micro
- grid
- value
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 80
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000003062 neural network model Methods 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010248 power generation Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000009795 derivation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000007599 discharging Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2300/00—Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
- H02J2300/20—The dispersed energy generation being of renewable origin
- H02J2300/28—The renewable source being wind energy
Landscapes
- Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Feedback Control In General (AREA)
Abstract
一种微电网储能协调控制的方法涉及电力系统微电网领域。本发明针对微电网系统,提出了UCB A3C深度强化学习的微电网储能协调控制方法。在算法学习过程中,利用UCB动作探索机制来选择当前状态下微电网负荷组件、储能组件以及与电网进行电量交易的控制动作,可以提高微电网学习迭代过程中的鲁棒性,且能够提高微电网控制效率,从而提升微电网的经济效益。
Description
技术领域
本发明涉及电力系统微电网领域,是一种微电网储能协调控制的方法。
背景技术
在环境保护和能源需求大幅增长的压力下,建立综合能源系统,提高能源综合利用率是降低碳排放,消纳新能源,促进能源转型的重要途径。微电网利用其既可以与主电网并网运行,也可以单独运行的特点,有效解决了能源综合利用率低的问题,被认为是接纳各种能源高度渗透的理想平台。
然而,随着可再生能源不断接入主电网,提高了能源供给的波动性,科技发展带来不断变化的电力负荷,提高了负荷侧的不确定性。这一系列变化,使得如何更高效地对微电网进行储能协调控制,从而达到减少发电成本和降低运输能量损耗的目的。
人工智能技术的发展,利用深度强化学习算法进行该问题的求解也受到了相关人员的关注,并且在应用过程中,深度强化学习算法的灵活性、可扩展性和优越性也得到验证。基于此,人们提出了基于策略梯度的Actor Critic算法来进行微电网储能协调控制,证明了可以以最小化能源成本为目标来调度微电网各组件,但该方法的鲁棒性较差,且学习过程中无法找到合适的储能协调控制策略,导致较高的用电成本。
为进一步提高微电网的储能协调控制,本发明提出一种基于UCB A3C深度强化学习的微电网储能协调控制方法,它能够提高微电网系统学习过程中的鲁棒性,且在应用过程中,可以提高能量管理的效率,从而达到降低用电成本,提升经济效益的目的。
发明内容
本发明解决的技术问题是如何提高微电网策略学习过程中的鲁棒性,进而改善微电网储能协调控制效率低的问题,从而达到提升微电网系统经济效益的目的。
一种基于深度强化学习的微电网储能协调控制方法,包括以下实现步骤,如图2:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax;
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数。
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω。
步骤(4):微电网系统观测当前系统状态st;
这里系统状态主要完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价。
步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt;
步骤(7):微电网系统观测下一时刻其所处状态st+1;
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则。
Actor网络的损失函数公式如下:
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1+κnV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值。
其中τ是调整置信因子的常系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小。在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用。
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmax p;
这里的p是指上一步骤中得到的动作获取概率矩阵。
步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
式中V(st,ω')表示Critic网络的价值取值。
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的梯度:
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数。
步骤(18):更新当前线程A3C神经网络Critic的梯度:
步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1;
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数。
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3)。并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作};
有益效果
本发明针对微电网系统,提出了基于深度强化学习的微电网储能协调控制方法。其在动作的探索策略上利用最大置信上界(UCB)的算法,能选取到具有更多奖励的动作,提高了学习效率和算法的鲁棒性,同时能够降低用电成本和提升经济效益,具有更好的实际应用价值。
附图说明
图1 为微电网系统模型
图2 为所提方法的实施步骤
图3 UCB A3C算法的结构
图4 为奖赏值对比
图5 为累计收益值对比
图6 实验环境下微电网风力发电组件和负荷组件的预测曲线
图7 实验环境下微电网储能组件的荷电状态和充放电功率(功率为正代表充电,功率为负代表放电)
具体实施方式
下面通过实验来说明本发明的实施步骤,实验中采用的参数为;
本发明的具体实现步骤为:
步骤(1):初始化,设定微电网系统的状态集s;
动作集a为
·a[0]=0:直接可控制负荷第一档控制动作
·a[0]=1:直接可控制负荷第二档控制动作
·a[0]=2:直接可控制负荷第三档控制动作
·a[0]=3:直接可控制负荷第四档控制动作
·a[1]=0:不可直接控制负荷电价调整为-2的操作
·a[1]=1:不可直接控制负荷电价调整为-1的操作
·a[1]=2:不可直接控制负荷电价调整为0的操作
·a[1]=3:不可直接控制负荷电价调整为1的操作
·a[1]=4:不可直接控制负荷电价调整为2的操作
·a[2]=0:微电网电量短缺时确定储能系统优先的操作
·a[2]=1:微电网电量短缺时确定电网优先的操作
·a[3]=0:微电网电量过剩时确定储能系统优先的操作
·a[3]=1:微电网电量过剩时确定电网优先的操作
初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d=128,全局共享的迭代轮数T,当前线程总的迭代时间步数Nt,初始时间t=1,设定开始时刻tstart=1,设定最大迭代次数Tmax=700;
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数。
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω。
步骤(4):微电网系统观测当前系统状态st;
这里系统状态主要完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价。
步骤(5):基于策略π(at|st,θ)选择动作at,譬如选取a={3,2,1,1},并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt=0.484505740203793;
步骤(7):微电网系统观测下一时刻其所处状态st+1;
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则。
Actor网络的损失函数公式如下:
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1+κnV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值。
其中τ是调整置信因子的系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数,此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小。在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用。
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmax p;
这里的p是指上一步骤中得到的动作获取概率矩阵。
步骤(12):更新迭代时间t=t+1,迭代轮数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
式中V(st,ω')表示Critic网络的价值取值。
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的本地梯度:
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数。
步骤(18):更新当前线程A3C神经网络Critic的梯度:
步骤(19):观测当前时间t是否是开始时刻tstart,如果是,进行下一步骤,如果不是,回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1;
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数。
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3)。并输出此时动作对应的{直接可控制负荷控制的动作=1,不可直接控制负荷控制的动作=3,微电网电量短缺时确定储能组件/电网优先级的动作=0,微电网电量过剩时确定储能组件/电网优先级的动作=1};
所提方法的性能如图4,可以看到,在微电网系统进行储能协调控制时,本方法所获得的奖赏值高于Actor Crtic方法,且稳定性高。采用本发明提出方法能获得更好的经济收益,如图5。同时,在实验环境下,风力发电和电力负荷组件的预测曲线如图6。储能组件的荷电状态和充放电功率如图7,功率为正代表充电操作,功率为负代表放电操作。结合上述结果可知,本发明提出方法可以更好地对微电网进行储能协调控制。
Claims (1)
1.一种基于深度强化学习的微电网储能协调控制方法,其特征在于,包括以下实现步骤:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,公共部分A3C神经网络结构的参数(θ,ω),当前线程A3C神经网络结构对应参数(θ',ω'),一次训练所选取的样本数d,全局共享的迭代次数T,当前线程总的迭代时间步数Nt,初始时间t,设定开始时刻tstart,设定最大迭代次数Tmax;
这里θ,ω分别表示公共部分A3C神经网络结构Actor和Critic的参数,θ',ω'分别表示当前线程A3C神经网络结构Actor和Critic的参数;
步骤(2):重置公共部分A3C神经网络结构Actor和Critic的梯度更新量,其分别为dθ和dω,并设定初始值dθ为0,dω为0;
步骤(3):从公共部分A3C神经网络更新当前线程A3C神经网络结构Actor和Critic的参数:θ'=θ,ω'=ω;
步骤(4):微电网系统观测当前系统状态st;
这里系统状态完成对微电网系统工作参数的配置,包括直接可控制负荷的荷电状态值,不可直接控制负荷的基本负荷值,风力发电的当前发电量,当前环境的温度值,从电网购买电量的价格,向电网销售电量的价格,最高购电价;
步骤(5):基于策略π(at|st,θ)选择动作at,并将动作at执行到微电网系统,以动作at对微电网系统各组件进行控制;
这里,策略π(at|st,θ)为在st和θ条件下选择at的概率,动作at由{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}组成,其中电量短缺是指分布式发电量小于电力负荷用电量;电量过剩是指分布式发电量大于电力负荷用电量;
步骤(6):计算微电网系统执行动作at所获得当前时间步t时刻奖励值rt;
步骤(7):微电网系统观测下一时刻其所处状态st+1;
步骤(8):微电网系统在经验池D中存储所得到的向量集(st,at,rt,st+1),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(9):若经验池已满,从经验池D中取一批数据样本数d,对Actor网络进行训练,计算损失函数,并保存Actor网络输出的概率矩阵acts_prob;
acts_prob为Actor网络输出的动作概率分布矩阵,其通过在一个自主设计的神经网络结构模型中进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层80个神经元的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计依据策略信息的集合,隐藏层的设计依据卷积、池化和全连接层相配合的原则;
Actor网络的损失函数公式如下:
θ1'表示更新后的θ'参数;υ是策略π的熵项,其取值范围为[0,1],经过在[0,1]中不断取值进行最优参数选择;c为常系数,其取值为1e-5;表示对θ'求导的梯度;H表示对策略π的求熵运算;πθ'(st,at)表示在st和θ'条件下选择at的概率;π(st,θ')表示在st条件下选择θ'的概率;A(st,t)表示Critic网络的优势函数,其通过n步采样取得,函数表达式如下:
A(st,t)=rt+κrt+1+...+κn-1rt+n-1+κnV(st+1,ω')-V(st,ω')
式中rt表示当前时刻奖励值;κ表示常系数,其取值为0.001;V(st,ω')表示Critic网络在st和ω'条件下的价值取值,其通过设计的Critic神经网络模型进行全连接、卷积和池化运算得到,该神经网络模型包括输入层107个神经元组成的全连接层,一层卷积核为3x3的卷积层,一层全局平均池化层,以及两层神经元个数分别为200和100的全连接层,输出层1个神经元组成的全连接层,该神经网络模型的输入层设计依据环境状态信息的集合,输出层设计为1个确切值,隐藏层的设计依据卷积、池化和全连接层相配合的原则;V(st+1,ω')表示Critic网络在st+1和ω'条件下的价值取值;
其中τ是调整置信因子的常系数,此处τ为0.003;第二项是置信因子;ε是不断减小的参数;此处,ε设定最大值为4,设定最小值为2,其每次减少的衰变值为0.005;Nj为表示经过t个时间步后第j个动作被选择的次数;随着训练的进行,ε不断减小,置信因子的影响会逐渐变小;在t时刻,如果一个动作已经被选了越多次,该动作Actor网络输出所返回的概率值就越大,越会继续采用;
步骤(11):微电网系统根据动作概率最大原则选取下一时刻动作at+1,即at+1=argmaxp;
这里的p是指上一步骤中得到的动作获取概率矩阵;
步骤(12):更新迭代时间t=t+1,迭代次数T=T+1;
步骤(13):判断当前时刻状态st是否为终止状态,如果是终止状态则进入下一步骤,否则返回步骤(6);
步骤(14):计算最后一个时刻t对应状态st的Critic网络输出Q(st,t),如下式所示:
式中V(st,ω')表示Critic网络的价值取值;
步骤(15):更新迭代时间t=t-1
步骤(16):计算当前时刻t所对应状态st的Critic网络输出Q(st,t),如下:
Q(st,t)=rt+γQ(st,t+1);
γ是一个常数,其取值为0.5;
步骤(17):更新当前线程A3C神经网络Actor的梯度:
式中V(st,ω')表示Critic网络的价值取值;dθ1表示dθ更新后的参数;
步骤(18):更新当前线程A3C神经网络Critic的梯度:
步骤(19):观测当前时间t是否是开始时刻tstart,若是则进行下一步骤,否则回到步骤(15);
步骤(20):利用各线程A3C神经网络模型的参数更新公共部分A3C神经网络模型的参数:
θ1=θ-αdθ1,ω1=ω-αdω1;
这里α是一个常数,其取值为0.3;θ1是θ更新后的参数;ω1是ω更新后的参数;
步骤(21):如果T>Tmax,则算法结束,输出公共部分的A3C神经网络参数θ,ω,否则进入步骤(3);并输出此时动作对应的{直接可控制负荷控制的动作,不可直接控制负荷控制的动作,微电网电量短缺时确定储能组件/电网优先级的动作,微电网电量过剩时确定储能组件/电网优先级的动作}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753902.2A CN113555888B (zh) | 2021-07-03 | 2021-07-03 | 一种微电网储能协调控制的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110753902.2A CN113555888B (zh) | 2021-07-03 | 2021-07-03 | 一种微电网储能协调控制的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113555888A true CN113555888A (zh) | 2021-10-26 |
CN113555888B CN113555888B (zh) | 2024-03-22 |
Family
ID=78131277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110753902.2A Active CN113555888B (zh) | 2021-07-03 | 2021-07-03 | 一种微电网储能协调控制的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113555888B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139354A (zh) * | 2021-11-12 | 2022-03-04 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108964050A (zh) * | 2018-08-26 | 2018-12-07 | 燕山大学 | 基于需求侧响应的微电网双层优化调度方法 |
KR102256434B1 (ko) * | 2020-08-14 | 2021-05-25 | 목포대학교 산학협력단 | 다수의 분산 에너지저장시스템 통합제어 장치 |
-
2021
- 2021-07-03 CN CN202110753902.2A patent/CN113555888B/zh active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114139354A (zh) * | 2021-11-12 | 2022-03-04 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
CN114139354B (zh) * | 2021-11-12 | 2024-05-21 | 山东浪潮科学研究院有限公司 | 基于强化学习的电力系统仿真调度方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113555888B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN112614009B (zh) | 一种基于深度期望q-学习的电网能量管理方法及系统 | |
Adetunji et al. | An optimization planning framework for allocating multiple distributed energy resources and electric vehicle charging stations in distribution networks | |
CN112529283A (zh) | 基于注意力机制的综合能源系统短期负荷预测方法 | |
CN112491094B (zh) | 一种混合驱动的微电网能量管理方法、系统及装置 | |
Zhou et al. | Reinforcement learning-based scheduling strategy for energy storage in microgrid | |
CN110929964A (zh) | 一种基于近似动态规划算法的含储能配电网优化调度方法 | |
CN114997935B (zh) | 一种基于内点策略优化的电动汽车充放电策略优化方法 | |
CN117057553A (zh) | 一种基于深度强化学习的家庭能源需求响应优化方法及系统 | |
CN113627993A (zh) | 一种基于深度强化学习的智能电动汽车充放电决策方法 | |
Zhou et al. | Deep learning-based rolling horizon unit commitment under hybrid uncertainties | |
CN115954957A (zh) | 一种复合发电系统的容量配置方法、装置和电子设备 | |
CN115115130A (zh) | 一种基于模拟退火算法的风光储制氢系统日前调度方法 | |
CN115422728A (zh) | 基于随机规划的鲁棒优化的虚拟电厂优化控制系统 | |
CN117060386A (zh) | 一种基于值分布深度q网络的微电网储能调度优化方法 | |
CN117374937A (zh) | 一种多微电网协同优化运行方法、装置、设备及介质 | |
CN113555888B (zh) | 一种微电网储能协调控制的方法 | |
CN116739158A (zh) | 一种基于强化学习的自适应优化储能方法 | |
CN117318169A (zh) | 基于深度强化学习计及新能源消纳的主动配电网调度方法 | |
CN114239372A (zh) | 一种考虑机组组合的多目标机组检修双层优化方法和系统 | |
CN116995645A (zh) | 基于保护机制强化学习的电力系统安全约束经济调度方法 | |
CN115001002B (zh) | 一种求解储能参与削峰填谷的优化调度方法和系统 | |
CN114048576B (zh) | 一种稳定电网输电断面潮流的储能系统智能化控制方法 | |
CN113991654B (zh) | 一种能源互联网混合能量系统及其调度方法 | |
CN115693741A (zh) | 分布式光伏和储能系统的储能量优化方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |