CN113139682A - 一种基于深度强化学习的微电网能量管理方法 - Google Patents

一种基于深度强化学习的微电网能量管理方法 Download PDF

Info

Publication number
CN113139682A
CN113139682A CN202110403795.0A CN202110403795A CN113139682A CN 113139682 A CN113139682 A CN 113139682A CN 202110403795 A CN202110403795 A CN 202110403795A CN 113139682 A CN113139682 A CN 113139682A
Authority
CN
China
Prior art keywords
action
value
network
current
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110403795.0A
Other languages
English (en)
Other versions
CN113139682B (zh
Inventor
黎海涛
申保晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110403795.0A priority Critical patent/CN113139682B/zh
Publication of CN113139682A publication Critical patent/CN113139682A/zh
Application granted granted Critical
Publication of CN113139682B publication Critical patent/CN113139682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于深度强化学习的微电网能量管理方法涉及电力系统微电网领域。本发明针对微电网系统,提出一种基于多参数动作探索的Dueling DQN深度强化学习微电网能量管理与优化方法。在算法学习过程中,利用参数λ和参数ε来选择当前状态下最优的电力负荷和储能组件控制动作,可以提高学习效率,且在控制过程中能够降低用电成本和提升经济效益。

Description

一种基于深度强化学习的微电网能量管理方法
技术领域
本发明涉及电力系统微电网领域,是一种对微电网能量进行管理与优化的方法。
背景技术
随着可再生能源在发电能源中占比的提高,传统的集中式发电技术开始向对环境影响较小的分布式发电技术转变。可再生能源发电技术的大规模应用,对传统电网的运行和负荷侧的能量管理带来新的挑战,而微电网利用其可调控性和灵活性,可以有效解决分布式发电带来的并网问题以及相关负荷的能量管理问题。因此,引发学术界对微电网能量管理的大量研究。
在微电网运行过程中,其既可以与主电网并网运行,通过电力市场买卖能量,也可以单独运行,自主利用本地发电和存储能量。因此,对运行过程中的微电网进行合理的能量管理,会带来极高的经济效益,减少发电成本,避免长距离输电造成的能量损耗。
然而,面对可再生能源的灵活接入与不断变化的电力负荷,如何对微电网的能量进行管理与优化,是当前面临的重要挑战。为此,人们提出了基于深度Q网络(DQN)的强化学习算法来解决微电网的能量管理与优化问题,但该方法具有很高的不稳定性,且学习过程中无法找到合适的能量分配策略,导致较高的用电成本。
为进一步优化微电网的能量管理问题,本发明提出一种基于多参数动作探索的Dueling DQN深度强化学习微电网能量管理与优化方法,它能够提高微电网系统能量管理的效率,且具有很高的稳定性,能够降低用电成本,从而提升经济效益。
发明内容
本发明解决的技术问题是如何改善微电网的能量管理问题,进而提高微电网系统的工作效率与经济效益。
一种基于深度强化学习的微电网能量管理与优化的方法,包括以下实现步骤,如图2:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,折扣因子μ(常数),经验池D的容量N,一次训练所选取的样本数d,当前神经网络Q的参数(α,β),目标神经网络Q′的参数(α′,β′);用于计算调整λ的步骤参数σ1和σ2
这里α,β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数,α′,β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数。
步骤(2):微电网系统观测当前系统状态s并选择一个初始动作a,其由{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作}组成;
这里观测状态主要完成对系统工作参数,如恒温控制负载的荷电状态值,价格响应的基本负荷值,风力发电的当前发电量,当前时间的温度值,从主网购买电量的价格,最高购电价等进行配置。
步骤(3):将动作a执行到微电网系统,并以动作a对微电网系统各组件进行控制;
步骤(4):计算微电网系统执行动作a所获得当前时间步t时奖励值rt
步骤(5):微电网系统观测下一时刻其所处状态s′;
步骤(6):微电网系统在经验池D中存储所得到的向量集(s,a,r,s′),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(7):若经验池已满,从经验池D中取一批数据样本,以对神经网络进行训练;
步骤(8):构造当前网络Q和目标网络Q′,把数据样本输入到当前神经网络处理得到Q(s,a)值;
这里目标网络和当前网络可采用相同的神经网络结构。这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成,其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成;
步骤(9):计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α),即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出;
步骤(10):把输出的状态值函数和优势函数合并得到当前网络
Q的动作-状态函数;
即用状态值函数网络的输出加上优势函数网络的输出,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差,如下式所示
Figure BDA0003021403030000031
这里
Figure BDA0003021403030000032
为优势函数A(s,a',α)的均值,a'为状态s'时的采用的动作,每个优势函数A值的计算都如步骤(9)所述,
Figure BDA0003021403030000033
表示优势函数集A(s,a',α)的数量;
步骤(11):利用当前网络和目标网络的输出来计算损失函数L=(rt+μmaxa'Q(s',a')-Q(s,a))2
这里r+μmaxa'Q(s',a')是目标网络的输出,μ是折扣因子,maxa'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值,Q(s,a)是当前网络的输出,本步骤的目的是计算目标Q值与当前Q值的均方差,其中Q值的计算方法如步骤(9)、(10);
步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);
步骤(13):每隔Tc时间步更新目标网络的参数(α′,β′),即把当前网络参数(α,β)复制到目标网络代替(α′,β′);
这里Tc为设定的时间步数,若当前迭代计算的时间步t等于Tc时,则执行本步骤操作;
步骤(14):计算当前时间步t之前所有时刻T的累计奖赏值的平均值
Figure BDA0003021403030000034
Figure BDA0003021403030000035
步骤(15):根据累计奖赏值的平均值
Figure BDA0003021403030000036
计算λ值
Figure BDA0003021403030000041
其中σ1和σ2均为常数;
步骤(16):微电网系统根据λ值和ε值选取下一时刻动作a',当概率为λ时,选取前一时刻的动作作为下一时刻的动作,即a'=a;当概率为
Figure BDA0003021403030000042
(A表示在s状态下选择的一组动作,|A|表示集合A的基数)时,选取一个随机动作作为下一时刻的动作;即a'=arandom;当概率为1-λ-ε时,选取Q值最大的动作为下一时刻的动作,即
Figure BDA0003021403030000043
其中ε值是一个随时间步数不断减少的值,它的设定最大值和最小值是固定不变的,其设定最大值为0.5,设定最小值为0.004,其每次减少的衰变值为1e-5;
步骤(17):更新迭代时间t=t+1;
步骤(18):重复步骤(2)~(17),直到收敛,并输出此时动作对应的{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作};
步骤(19):微电网系统利用对各组件的相关操作,完成最优能量管理与优化策略的选择。
本发明针对微电网系统,提出了基于深度强化学习的能量管理与优化方法。其在动作的探索策略上利用多参数动作探索算法,能选取到具有更多奖励的动作,提高了学习效率和算法的稳定性,同时能够降低用电成本和提升经济效益,具有更好的实际应用价值。
附图说明
图1为微电网与主电网系统模型
图2为所提方法的实施步骤
图3改进Dueling DQN算法的结构
图4为奖赏值对比
图5为累计收益值对比
图6仿真环境下10天中每一天的收益值对比
图7仿真环境下某一天主电网与微电网能量交易过程
具体实施方式
下面通过实验来说明本发明的实施步骤,实验中采用的参数为;
Figure BDA0003021403030000051
本发明的具体实现步骤为:
步骤(1):初始化,设定微电网系统的状态集s;
动作集a为
·a[0]=0:恒温控制负载第一档控制动作
·a[0]=1:恒温控制负载第二档控制动作
·a[0]=2:恒温控制负载第三档控制动作
·a[0]=3:恒温控制负载第四档控制动作
·a[1]=0:家用价格响应负载电价调整为-3的操作
·a[1]=1:家用价格响应负载电价调整为-1.5的操作
·a[1]=2:家用价格响应负载电价调整为0的操作
·a[1]=3:家用价格响应负载电价调整为1.5的操作
·a[1]=4:家用价格响应负载电价调整为3的操作
·a[2]=0:微电网电量短缺时确定储能系统优先的操作
·a[2]=1:微电网电量短缺时确定电网优先的操作
·a[3]=0:微电网电量过剩时确定储能系统优先的操作
·a[3]=1:微电网电量过剩时确定电网优先的操作
初始化Dueling DQN网络中当前网络、目标网络的参数,如学习率=1e-5,折扣因子μ=1,一次训练所选取的样本数d=200;
步骤(2):微电网系统选择一个初始动作,譬如选取a={2,1,1,0};
步骤(3):微电网系统执行动作a,即以动作a对微电网系统中的电力负载组件、储能系统组件、微电网与主电网能量交易进行操作;
步骤(4):计算微电网系统执行动作a所获得的奖励值rt=0.56740204505933697;
步骤(5):微电网系统观测下一时刻其所处状态s′;
步骤(6):微电网系统将得到的向量集(s,a,r,s′)存储到经验池D中;
步骤(7):若经验池已满,从经验池D中取出200个样本,对网络进行训练;
步骤(8):构造两部分神经网络,即当前网络Q和目标网络Q′,由输入层,隐藏层(卷积层、池化层、全连接层、状态值函数网络V的隐藏层和优势函数网络A的隐藏层)、和输出层构成。
步骤(9):把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后得到当前网络Q的状态值函数V和优势函数A;
步骤(10):把输出的状态值函数和优势函数相加得到当前网络Q的动作-状态函数,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差;
步骤(11):采用如步骤(9)、(10)计算先计算动作a'、状态s'时的最大Q值,目标网络的输出rt+μmaxa'Q(s',a'),当前网络的输出Q(s,a),然后计算目标Q值与当前Q值的均方差,得到当前网络的损失函数;
步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);
步骤(13):每隔Tc=10时间步更新目标网络的参数
Figure BDA0003021403030000071
即把当前网络参数(α,β)复制到目标网络;
步骤(14):计算当前时间步t之前所有时刻T的累计奖赏值的平均值
Figure BDA0003021403030000072
Figure BDA0003021403030000073
步骤(15):根据累计奖赏值的平均值
Figure BDA0003021403030000074
计算λ值,得λ=0.004693438390331891;
Figure BDA0003021403030000075
步骤(16):微电网系统根据λ值和ε值选取下一时刻动作a',当概率为λ时,选取前一时刻的动作作为下一时刻的动作,即a'=a;当概率为
Figure BDA0003021403030000076
(A表示在s状态下选择的一组动作,|A|表示集合A的基数)时,选取一个随机动作作为下一时刻的动作;即a'=arandom;当概率为1-λ-ε时,选取Q值最大的动作为下一时刻的动作,即
Figure BDA0003021403030000077
其中ε=0.42;
步骤(17):更新时间步t=t+1;
步骤(18):重复步骤(2)~(17),直到收敛,并输出此时动作对应的{恒温控制负载控制的动作=2,家用价格响应负载控制的动作=3,微电网电量短缺时确定储能系统优先级的动作=0,微电网电量过剩时确定储能系统优先级储能系统的动作=1};
步骤(18):微电网系统利用对各组件的相关操作,完成最优能量管理与优化策略的选择。
所提方法的性能如图4,可以看到,在微电网系统进行能量管理与优化时,本方法的所获得的奖赏值高于于DQN方法,且稳定性高。采用本发明提出方法能获得更好的经济收益,如图5。采用本发明提出方法能在每一天均获得更好的收益,如图6。同时,在实验环境下,某一天的微电网与主电网进行能量交易可以发现,本发明提出方法可以使微电网更好的进行能量分配,如图7。

Claims (1)

1.一种用于微电网能量管理与优化的方法,其特征在于包括以下步骤:
步骤(1):初始化,设定微电网各组件的状态集s和动作集a,折扣因子μ(常数),经验池D的容量N,一次训练所选取的样本数d,当前神经网络Q的参数(α,β),目标神经网络Q′的参数(α′,β′),用于计算调整λ的步骤参数σ1和σ2
这里α,β分别表示当前网络中状态值函数网络V和优势函数网络A的超参数,α′,β′分别表示目标网络中状态值函数网络V和优势函数网络A的超参数;
步骤(2):微电网系统观测当前系统状态s并选择一个初始动作a,其由{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作}组成;
步骤(3):将动作a执行到微电网系统,并以动作a对微电网系统各组件进行控制;
步骤(4):计算微电网系统执行动作a所获得当前时间步t时奖励值rt
步骤(5):观测下一时刻微电网系统所处状态s′;
步骤(6):微电网系统在经验池D中存储所得到的向量集(s,a,r,s′),即(当前时刻状态,当前时刻动作,当前时刻奖励,下一时刻状态);
步骤(7):若经验池已满,从经验池D中取一批数据样本d,以对神经网络进行训练;
步骤(8):构造当前网络Q和目标网络Q′,把数据样本输入到当前神经网络处理得到Q(s,a)值;
这里目标网络和当前网络采用相同的神经网络结构,其神经网络结构由输入层、隐藏层和输出层构成,其中隐藏层由卷积层、池化层、全连接层、并行的状态值函数网络V的隐藏层和优势函数网络A的隐藏层构成;
步骤(9):计算当前网络Q的状态值函数V(s,β)和优势函数A(s,a,α),即把Q(s,a)分别输入到状态值函数网络V和优势函数网络A处理后输出;
步骤(10):把输出的状态值函数和优势函数合并得到当前网络Q的动作-状态函数;
即用状态值函数网络的输出加上优势函数网络的输出,其中优势函数网络的输出为当前优势函数值与所有优势函数均值的差,如下式所示
Figure FDA0003021403020000021
这里
Figure FDA0003021403020000022
为优势函数A(s,a',α)的均值,a'为状态s'时的采用的动作,每个优势函数A值的计算都如步骤(9)所述,
Figure FDA0003021403020000023
表示优势函数集A(s,a',α)的数量;
步骤(11):利用当前网络和目标网络的输出来计算损失函数L=(rt+μmaxa'Q(s',a')-Q(s,a))2
这里r+μmaxa'Q(s',a')是目标网络的输出,μ是折扣因子取1,maxa'Q(s',a')是计算并选取动作a'、状态s'时的最大Q值,Q(s,a)是当前网络的输出,本步骤的目的是计算目标Q值与当前Q值的均方差,其中Q值的计算方法如步骤(9)、(10);
步骤(12):对损失函数L进行随机梯度下降计算以更新当前网络Q的参数(α,β);
步骤(13):每隔Tc时间步更新目标网络的参数(α′,β′),即把当前网络参数(α,β)复制到目标网络代替(α′,β′);
这里Tc为设定的时间步数,若当前迭代计算的时间步t等于Tc时,则执行本步骤操作;
步骤(14):计算当前时间步t之前所有时刻T的累计奖赏值的平均值
Figure FDA0003021403020000024
Figure FDA0003021403020000025
步骤(15):根据累计奖赏值的平均值
Figure FDA0003021403020000026
计算λ值
Figure FDA0003021403020000027
其中σ1和σ2均为常数;
步骤(16):微电网系统根据λ值和ε值选取下一时刻动作a',当概率为λ时,选取前一时刻的动作作为下一时刻的动作,即a'=a;当概率为
Figure FDA0003021403020000028
时,选取一个随机动作作为下一时刻的动作;A表示在s状态下选择的一组动作,|A|表示集合A的基数;即a'=arandom;当概率为1-λ-ε时,选取Q值最大的动作为下一时刻的动作,即
Figure FDA0003021403020000031
其中ε值是一个随时间步数不断减少的值,它的设定最大值和最小值是固定不变的,其设定最大值为0.5,设定最小值为0.004,其每次减少的衰变值为1e-5;
步骤(17):更新迭代时间t=t+1;
步骤(18):重复步骤(2)~(17),直到收敛,并输出此时动作对应的{恒温控制负载控制的动作,家用价格响应负载控制的动作,微电网电量短缺时确定储能系统优先级的动作,微电网电量过剩时确定储能系统优先级储能系统的动作};
步骤(19):微电网系统利用对各组件的相关操作,完成最优能量管理与优化策略的选择。
CN202110403795.0A 2021-04-15 2021-04-15 一种基于深度强化学习的微电网能量管理方法 Active CN113139682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403795.0A CN113139682B (zh) 2021-04-15 2021-04-15 一种基于深度强化学习的微电网能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403795.0A CN113139682B (zh) 2021-04-15 2021-04-15 一种基于深度强化学习的微电网能量管理方法

Publications (2)

Publication Number Publication Date
CN113139682A true CN113139682A (zh) 2021-07-20
CN113139682B CN113139682B (zh) 2023-10-10

Family

ID=76812878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403795.0A Active CN113139682B (zh) 2021-04-15 2021-04-15 一种基于深度强化学习的微电网能量管理方法

Country Status (1)

Country Link
CN (1) CN113139682B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114172840A (zh) * 2022-01-17 2022-03-11 河海大学 一种基于图论和深度强化学习的多微网系统能量路由方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN112117760A (zh) * 2020-08-13 2020-12-22 国网浙江省电力有限公司台州供电公司 基于双q值网络深度强化学习的微电网能量调度方法
CN112529727A (zh) * 2020-11-06 2021-03-19 台州宏远电力设计院有限公司 基于深度强化学习的微电网储能调度方法及装置及设备
CN112614009A (zh) * 2020-12-07 2021-04-06 国网四川省电力公司电力科学研究院 一种基于深度期望q-学习的电网能量管理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114172840A (zh) * 2022-01-17 2022-03-11 河海大学 一种基于图论和深度强化学习的多微网系统能量路由方法
CN114172840B (zh) * 2022-01-17 2022-09-30 河海大学 一种基于图论和深度强化学习的多微网系统能量路由方法

Also Published As

Publication number Publication date
CN113139682B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN109002942A (zh) 一种基于随机神经网络的短期负荷预测方法
Zhou et al. Multi-objective artificial bee colony algorithm for short-term scheduling of hydrothermal system
CN103683337B (zh) 一种互联电网cps指令动态分配优化方法
CN105631528B (zh) 一种基于nsga-ii和近似动态规划的多目标动态最优潮流求解方法
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
CN114217524A (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN112016207B (zh) 一种发电机组经济负荷分配优化方法
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
CN103259258A (zh) 微电网及其控制方法和装置
Yang et al. Deep learning-based distributed optimal control for wide area energy Internet
CN111342469A (zh) 一种多电压等级网络架构优化方法
CN116388262A (zh) 基于多目标优化的含分布式光伏配网无功优化方法及系统
CN113139682B (zh) 一种基于深度强化学习的微电网能量管理方法
CN112787331B (zh) 基于深度强化学习的潮流收敛自动调整方法及系统
CN116995682B (zh) 一种可调节负荷参与有功潮流连续调整方法与系统
CN111767621A (zh) 一种基于知识迁移q学习算法的多能源系统优化调度方法
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
CN114400675B (zh) 基于权重均值深度双q网络的主动配电网电压控制方法
CN113283654B (zh) 基于聚合解列机制的微网群优化控制方法及系统
CN113346501B (zh) 基于头脑风暴算法的配电网电压优化方法及其系统
CN111525547B (zh) 一种基于最优无功补偿的低电压智能治理方法
CN112183843B (zh) 一种基于混合智能算法的火电厂负荷优化分配方法
CN115765035A (zh) 一种适应于全时段动态重构的柔性配电网扰动恢复方法
CN115860169A (zh) 一种火电机组深度调峰改造多目标优化规划方法及系统
CN114417566A (zh) 一种基于moea/d的主动配电网多区域划分优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant