CN113139682A

CN113139682A - 一种基于深度强化学习的微电网能量管理方法

Info

Publication number: CN113139682A
Application number: CN202110403795.0A
Authority: CN
Inventors: 黎海涛; 申保晨
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-20
Anticipated expiration: 2041-04-15
Also published as: CN113139682B

Abstract

一种基于深度强化学习的微电网能量管理方法涉及电力系统微电网领域。本发明针对微电网系统，提出一种基于多参数动作探索的Dueling DQN深度强化学习微电网能量管理与优化方法。在算法学习过程中，利用参数λ和参数ε来选择当前状态下最优的电力负荷和储能组件控制动作，可以提高学习效率，且在控制过程中能够降低用电成本和提升经济效益。

Description

一种基于深度强化学习的微电网能量管理方法

技术领域

本发明涉及电力系统微电网领域，是一种对微电网能量进行管理与优化的方法。

背景技术

随着可再生能源在发电能源中占比的提高，传统的集中式发电技术开始向对环境影响较小的分布式发电技术转变。可再生能源发电技术的大规模应用，对传统电网的运行和负荷侧的能量管理带来新的挑战，而微电网利用其可调控性和灵活性，可以有效解决分布式发电带来的并网问题以及相关负荷的能量管理问题。因此，引发学术界对微电网能量管理的大量研究。

在微电网运行过程中，其既可以与主电网并网运行，通过电力市场买卖能量，也可以单独运行，自主利用本地发电和存储能量。因此，对运行过程中的微电网进行合理的能量管理，会带来极高的经济效益，减少发电成本，避免长距离输电造成的能量损耗。

然而，面对可再生能源的灵活接入与不断变化的电力负荷，如何对微电网的能量进行管理与优化，是当前面临的重要挑战。为此，人们提出了基于深度Q网络(DQN)的强化学习算法来解决微电网的能量管理与优化问题，但该方法具有很高的不稳定性，且学习过程中无法找到合适的能量分配策略，导致较高的用电成本。

为进一步优化微电网的能量管理问题，本发明提出一种基于多参数动作探索的Dueling DQN深度强化学习微电网能量管理与优化方法，它能够提高微电网系统能量管理的效率，且具有很高的稳定性，能够降低用电成本，从而提升经济效益。

发明内容

本发明解决的技术问题是如何改善微电网的能量管理问题，进而提高微电网系统的工作效率与经济效益。

一种基于深度强化学习的微电网能量管理与优化的方法，包括以下实现步骤，如图2：

步骤(1)：初始化，设定微电网各组件的状态集s和动作集a，折扣因子μ(常数)，经验池D的容量N，一次训练所选取的样本数d，当前神经网络Q的参数(α，β)，目标神经网络Q′的参数(α′，β′)；用于计算调整λ的步骤参数σ₁和σ₂；

这里α，β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数，α′，β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数。

步骤(2)：微电网系统观测当前系统状态s并选择一个初始动作a,其由{恒温控制负载控制的动作，家用价格响应负载控制的动作，微电网电量短缺时确定储能系统优先级的动作，微电网电量过剩时确定储能系统优先级储能系统的动作}组成；

这里观测状态主要完成对系统工作参数，如恒温控制负载的荷电状态值，价格响应的基本负荷值，风力发电的当前发电量，当前时间的温度值，从主网购买电量的价格，最高购电价等进行配置。

步骤(3)：将动作a执行到微电网系统，并以动作a对微电网系统各组件进行控制；

步骤(4)：计算微电网系统执行动作a所获得当前时间步t时奖励值r_t；

步骤(5)：微电网系统观测下一时刻其所处状态s′；

步骤(6)：微电网系统在经验池D中存储所得到的向量集(s,a,r,s′),即(当前时刻状态，当前时刻动作，当前时刻奖励，下一时刻状态)；

步骤(7)：若经验池已满，从经验池D中取一批数据样本，以对神经网络进行训练；

步骤(8)：构造当前网络Q和目标网络Q′，把数据样本输入到当前神经网络处理得到Q(s,a)值；

这里目标网络和当前网络可采用相同的神经网络结构。这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成，其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成；

步骤(9)：计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α)，即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出；

步骤(10)：把输出的状态值函数和优势函数合并得到当前网络

Q的动作-状态函数；

即用状态值函数网络的输出加上优势函数网络的输出，其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差，如下式所示

这里

为优势函数A(s,a',α)的均值，a'为状态s'时的采用的动作，每个优势函数A值的计算都如步骤(9)所述，

表示优势函数集A(s,a',α)的数量；

步骤(11)：利用当前网络和目标网络的输出来计算损失函数L＝(r_t+μmax_a'Q(s',a')-Q(s,a))²；

这里r+μmax_a'Q(s',a')是目标网络的输出，μ是折扣因子，max_a'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值，Q(s,a)是当前网络的输出，本步骤的目的是计算目标Q值与当前Q值的均方差，其中Q值的计算方法如步骤(9)、(10)；

步骤(12)：对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α，β)；

步骤(13)：每隔T_c时间步更新目标网络的参数(α′，β′)，即把当前网络参数(α，β)复制到目标网络代替(α′，β′)；

这里T_c为设定的时间步数，若当前迭代计算的时间步t等于T_c时，则执行本步骤操作；

步骤(14)：计算当前时间步t之前所有时刻T的累计奖赏值的平均值

步骤(15)：根据累计奖赏值的平均值

计算λ值

其中σ₁和σ₂均为常数；

步骤(16)：微电网系统根据λ值和ε值选取下一时刻动作a'，当概率为λ时，选取前一时刻的动作作为下一时刻的动作，即a'＝a；当概率为

(A表示在s状态下选择的一组动作，|A|表示集合A的基数)时，选取一个随机动作作为下一时刻的动作；即a'＝a_random；当概率为1-λ-ε时，选取Q值最大的动作为下一时刻的动作，即

其中ε值是一个随时间步数不断减少的值，它的设定最大值和最小值是固定不变的，其设定最大值为0.5，设定最小值为0.004，其每次减少的衰变值为1e-5；

步骤(17)：更新迭代时间t＝t+1；

步骤(18)：重复步骤(2)～(17)，直到收敛，并输出此时动作对应的{恒温控制负载控制的动作，家用价格响应负载控制的动作，微电网电量短缺时确定储能系统优先级的动作，微电网电量过剩时确定储能系统优先级储能系统的动作}；

步骤(19)：微电网系统利用对各组件的相关操作，完成最优能量管理与优化策略的选择。

本发明针对微电网系统，提出了基于深度强化学习的能量管理与优化方法。其在动作的探索策略上利用多参数动作探索算法，能选取到具有更多奖励的动作，提高了学习效率和算法的稳定性，同时能够降低用电成本和提升经济效益，具有更好的实际应用价值。

附图说明

图1为微电网与主电网系统模型

图2为所提方法的实施步骤

图3改进Dueling DQN算法的结构

图4为奖赏值对比

图5为累计收益值对比

图6仿真环境下10天中每一天的收益值对比

图7仿真环境下某一天主电网与微电网能量交易过程

具体实施方式

下面通过实验来说明本发明的实施步骤，实验中采用的参数为；

本发明的具体实现步骤为：

步骤(1)：初始化，设定微电网系统的状态集s；

动作集a为

·a[0]＝0:恒温控制负载第一档控制动作

·a[0]＝1:恒温控制负载第二档控制动作

·a[0]＝2:恒温控制负载第三档控制动作

·a[0]＝3:恒温控制负载第四档控制动作

·a[1]＝0:家用价格响应负载电价调整为-3的操作

·a[1]＝1:家用价格响应负载电价调整为-1.5的操作

·a[1]＝2:家用价格响应负载电价调整为0的操作

·a[1]＝3:家用价格响应负载电价调整为1.5的操作

·a[1]＝4:家用价格响应负载电价调整为3的操作

·a[2]＝0:微电网电量短缺时确定储能系统优先的操作

·a[2]＝1:微电网电量短缺时确定电网优先的操作

·a[3]＝0:微电网电量过剩时确定储能系统优先的操作

·a[3]＝1:微电网电量过剩时确定电网优先的操作

初始化Dueling DQN网络中当前网络、目标网络的参数,如学习率＝1e-5，折扣因子μ＝1，一次训练所选取的样本数d＝200；

步骤(2)：微电网系统选择一个初始动作，譬如选取a＝{2，1，1,0}；

步骤(3)：微电网系统执行动作a，即以动作a对微电网系统中的电力负载组件、储能系统组件、微电网与主电网能量交易进行操作；

步骤(4)：计算微电网系统执行动作a所获得的奖励值r_t＝0.56740204505933697；

步骤(5)：微电网系统观测下一时刻其所处状态s′；

步骤(6)：微电网系统将得到的向量集(s,a,r,s′)存储到经验池D中；

步骤(7)：若经验池已满，从经验池D中取出200个样本，对网络进行训练；

步骤(8)：构造两部分神经网络，即当前网络Q和目标网络Q′，由输入层，隐藏层(卷积层、池化层、全连接层、状态值函数网络V的隐藏层和优势函数网络A的隐藏层)、和输出层构成。

步骤(9)：把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后得到当前网络Q的状态值函数V和优势函数A；

步骤(10)：把输出的状态值函数和优势函数相加得到当前网络Q的动作-状态函数，其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差；

步骤(11)：采用如步骤(9)、(10)计算先计算动作a'、状态s'时的最大Q值，目标网络的输出r_t+μmax_a'Q(s',a')，当前网络的输出Q(s,a)，然后计算目标Q值与当前Q值的均方差，得到当前网络的损失函数；

步骤(13)：每隔T_c＝10时间步更新目标网络的参数

即把当前网络参数(α，β)复制到目标网络；

步骤(15)：根据累计奖赏值的平均值

计算λ值，得λ＝0.004693438390331891；

其中ε＝0.42；

步骤(17)：更新时间步t＝t+1；

步骤(18)：重复步骤(2)～(17)，直到收敛，并输出此时动作对应的{恒温控制负载控制的动作＝2，家用价格响应负载控制的动作＝3，微电网电量短缺时确定储能系统优先级的动作＝0，微电网电量过剩时确定储能系统优先级储能系统的动作＝1}；

步骤(18)：微电网系统利用对各组件的相关操作，完成最优能量管理与优化策略的选择。

所提方法的性能如图4，可以看到，在微电网系统进行能量管理与优化时，本方法的所获得的奖赏值高于于DQN方法，且稳定性高。采用本发明提出方法能获得更好的经济收益，如图5。采用本发明提出方法能在每一天均获得更好的收益，如图6。同时，在实验环境下，某一天的微电网与主电网进行能量交易可以发现，本发明提出方法可以使微电网更好的进行能量分配，如图7。

Claims

1.一种用于微电网能量管理与优化的方法，其特征在于包括以下步骤：

步骤(1)：初始化，设定微电网各组件的状态集s和动作集a，折扣因子μ(常数)，经验池D的容量N，一次训练所选取的样本数d，当前神经网络Q的参数(α，β)，目标神经网络Q′的参数(α′，β′)，用于计算调整λ的步骤参数σ₁和σ₂；

这里α，β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数，α′，β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数；

步骤(5)：观测下一时刻微电网系统所处状态s′；

步骤(7)：若经验池已满，从经验池D中取一批数据样本d，以对神经网络进行训练；

这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成，其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成；

步骤(10)：把输出的状态值函数和优势函数合并得到当前网络Q的动作-状态函数；

这里

表示优势函数集A(s,a',α)的数量；

这里r+μmax_a'Q(s',a')是目标网络的输出，μ是折扣因子取1，max_a'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值，Q(s,a)是当前网络的输出，本步骤的目的是计算目标Q值与当前Q值的均方差，其中Q值的计算方法如步骤(9)、(10)；

步骤(15)：根据累计奖赏值的平均值

计算λ值

其中σ₁和σ₂均为常数；

时，选取一个随机动作作为下一时刻的动作；A表示在s状态下选择的一组动作，|A|表示集合A的基数；即a'＝a_random；当概率为1-λ-ε时，选取Q值最大的动作为下一时刻的动作，即

步骤(17)：更新迭代时间t＝t+1；