CN112084680B - 一种基于dqn算法的能源互联网优化策略方法 - Google Patents

一种基于dqn算法的能源互联网优化策略方法 Download PDF

Info

Publication number
CN112084680B
CN112084680B CN202011181281.7A CN202011181281A CN112084680B CN 112084680 B CN112084680 B CN 112084680B CN 202011181281 A CN202011181281 A CN 202011181281A CN 112084680 B CN112084680 B CN 112084680B
Authority
CN
China
Prior art keywords
energy
grid
network
energy internet
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011181281.7A
Other languages
English (en)
Other versions
CN112084680A (zh
Inventor
尤福财
赵琰
董香栾
姜河
胡博
王顺江
罗金鸣
马艳娟
王浩
旋璇
庄严
魏莫杋
辛长庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Engineering
Original Assignee
Shenyang Institute of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Engineering filed Critical Shenyang Institute of Engineering
Publication of CN112084680A publication Critical patent/CN112084680A/zh
Application granted granted Critical
Publication of CN112084680B publication Critical patent/CN112084680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

一种能源互联网优化策略方法,所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元,所述方法包括:在保证系统运营成本最小的前提下,通过协调优化能源互联网,可以进一步挖掘可再生能源利用率,进行网络优化配置,使其具有快速动态优化的目的以及自学习能力,基于最优输出动作,可以制定能源互联网优化策略,尽可能的减少网络的冗余度,减小系统运营成本。在设定的控制策略下,约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束,采用DQN算法,该方法使用马尔科夫决策来确定最佳序列,并结合卷积神经网络逐步获得回报值最小的目标集。

Description

一种基于DQN算法的能源互联网优化策略方法
技术领域
本发明涉及一种基于能源互联网的优化策略方法,尤其是涉及一种基于DQN算法的能源互联网优化策略方法。
背景技术
目前,能源系统因发电困难,其预测准确度在很大程度上取决于外部环境条件。另一方面,能源互联网视为解决传统电力系统面临挑战的有效手段,但是当能源互联网中广泛的使用了分布式能源系统,则很难实现能源互联网中能量供需平衡的可靠性管理。
值得注意的是,电力系统中的大多数优化问题都是基于各种电气设备的明确数学模型来解决的。例如,常微分方程用于表示光伏发电、风力发电的动态功率,而随机微分方程用于表示能源互联网中负载的动态功率。尽管随机微分方程可以反映能源互联网系统的随机特性,但很难获得其准确的数学模型。为了表示长时间能源互联网的能量优化问题,需建立带有复杂微分方程的数学模型,在某种程度上对其优化是非常受限制的。
发明内容
本发明的目的是提出一种基于DQN算法的能源互联网优化策略方法,是在保证系统运营成本最小的前提下,通过协调优化能源互联网,可以进一步挖掘可再生能源利用率,进行网络优化配置,使其具有快速动态优化的目的以及自学习能力,基于最优输出动作,可以制定能源互联网优化策略,尽可能的减少网络的冗余度,减小系统运营成本。
为了解决现有技术存在的问题,本发明采用的技术方案如下:
一种基于DQN算法的能源互联网优化策略方法,包括如下步骤:
步骤1:以考虑惩罚函数的能源互联网运营成本最低为目标,建立目标函数;
步骤2:将能源互联网模型构建为MDP(马尔可夫决策过程),设置迭代次数i,离散时间间隙t。输入t时刻的状态变量,st{WT(t),PV(t),DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)};
步骤3:actor网络输出动作变量at
步骤4:计算回报值r(at|st)到达下一状态St+1
步骤5:得到序列轨迹{S1,a1,r1,S′1,S2,a2,r2,S′2…St,at,rt,S′t};
步骤6:形成经验池experience pool。并将这些轨迹存储到经验池中,随机抽出数据进行下次迭代;
步骤7:观察是否迭代完所有变量,即t=T?
步骤8:将St状态变量输入到critic网络中,得到输出期望V(s);
步骤9:构造函数A=[R(t)-V(S)]2
步骤10:利用神经网络反向传播更新网络参数;
步骤11:将S′t状态变量输入到参数为θ的actor神经网络中,利用ε-greedy求出网络采取at的动作概率Pθ(St,at);
步骤12:同理,计算参数为θa的actor网络采取动作的概率Pθa=(St,at);
步骤13:计算损失函数floss=min(A·Pθ,A·Pθa);
步骤14:由损失函数迭代更新神经网络参数;
步骤15:查看结果是否收敛到最小回报值,若是,则结束,若不是,则返回继续迭代。
进一步地,在DQN算法中,设计应用actor-critic网络体系结构。其中,神经网络critic估计的价值函数V(s),其参数为θc;两个参数分别为θ和θa的神经网络actor用来提出控制策略。其中actor-critic网络都是由CNN(卷积神经网络)构造而成,CNN用于提取EI网络观测序列的特征。
本发明所具有的优点和有益效果是:
本发明一种基于DQN算法的能源互联网优化策略方法,是在保证系统运营成本最小的前提下,通过协调优化能源互联网,可以进一步挖掘可再生能源利用率,进行网络优化配置,使其具有快速动态优化的目的以及自学习能力,基于最优输出动作,可以制定能源互联网优化策略,尽可能的减少网络的冗余度,减小系统运营成本。在设定的控制策略下,约束条件包括负载供需平衡约束、发电、输出功率平衡约束、储能元件充放电限制约束和与外电网交互耗能平衡约束,采用DQN算法,该方法使用马尔科夫决策来确定最佳序列,并结合卷积神经网络逐步获得回报值最小的目标集。
附图说明
下面结合附图对本发明作进一步详述:
图1为DQN算法与能源互联网结合图;
图2为各类算法计算速度对比图;
图3为一种基于DQN算法的能源互联网优化策略方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明一种基于DQN算法的能源互联网优化策略方法,考虑了广义能源互联网场景,由多个子系统相互连接。每个系统均假定为由许多电气设备组成,包括PV(光伏发电机),WT(风力发电机),DG(分布式发电价),CHP(热电联产),BES(能源电池),LOAD(负载)、π(t)(用户的电需求)、σ(t)(用户的热需求)及μ(t)(外网电价)等。根据能源互联网的能源优化管理原则,将能源互联网最小运营成本定义为目标函数。在此基础上,再制定一系列惩罚函数。接下来,应用DQN算法,将能源管理问题转化为最优成本策略问题。
在DQN算法中,设计应用actor-critic网络体系结构。其中,神经网络critic估计的价值函数V(s),其参数为θc;两个参数分别为θ和θa的神经网络actor用来提出控制策略。其中actor-critic网络都是由CNN(卷积神经网络)构造而成,CNN用于提取EI网络观测序列的特征。从这个意义上说,actor神经网络可以在一定时间范围内根据经验情况调整其输出,这将有助于改善算法的性能。DQN算法与能源互联网结合图如附图1所示。
如图3所示,本发明一种基于DQN算法的能源互联网优化策略方法,所述能源互联网包括电网单元、气网单元和分布式冷热电系统嵌入式能量互联网单元,包括如下步骤:
步骤1:以考虑惩罚函数的能源互联网运营成本最低为目标,建立目标函数;
其中包括:电能传输成本
其中,Pi为各发电机输出功率。
能源互联网中各系统运行成本:
其中,CCHP(t)代表热电联产的运行成本,PCHP(t)代表热电联产输出的电能,HCHP(t)代表热电联产输出的热能,CWP(t)代表风力发电机的运行成本,PWP(t)代表力发电机的输出功率,CPV(t)代表光伏发电机的运行成本,PPV(t)代表光伏发电机的发电成本,CDG(t)代表分布式发电机的运行成本,PDG(t)代表分布式发电机输出的电能,CLOAD(t)代表负载的运行成本,PLOAD(t)代表负载输出的电能。
其中,a、b、c、d、e、f、g、h、k、l、m、n、o、q为常数成本因子,分别代表着各系统各项运行成本和发电功率的系数。
储能系统充放电成本:
其中,CBES(t)代表储能系统的充、放电成本,SOCi(t)代表电池储能单元。
在本文中,上面介绍的几种能量单元没有适当考虑EI系统的约束。为了解决这些限制,考虑了以下几种惩罚函数:
其中,被定义如下:
是BES的累积惩罚函数。如果其没有超出SOC范围,则惩罚项记为0,若其如果违背了SOC的约束,则将其计算为如下:
其中,δ为加权因子。
从这个意义上说,当SOC一直处于正常的范围内,BES的惩罚项将保持为零。一旦SOC违反了这种约束,惩罚将不断累积,直到所有SOC都返回到适当的范围。
同样,外部电网和EI之间的电力交换,惩罚函数考虑如下:
χgrid(t)=Pgrid 2(t)[Pgrid(t)≥Pgrid(t)maxor Pgrid(t)≤Pgrid(t)min]
将以上所有罚函数按照不同的权重因子进行加权,在t时刻,其惩罚函数的计算公式为:
其中,Δsoc为φsoc(t)的权重因子,Δgrid为χgrid(t)与外部电网交换能量的权重因子。
如上所述,根据成本函数的表达式和惩罚函数的定义,每个时间t的综合成本如下:
ψ=[ΔfolwftDGCDGCHPCCHPWPCWPPVCPVLOADCLOADBESCBESsocφsoc(t)+Δgridχgrid(t)]
其中,Δfolw、ΔDG、ΔCHP、ΔWP、ΔPV、ΔLOAD、ΔBES分别为电能传输、分布式发电机、热电联产、风力发电、光伏发电、负载、能量电池的权重因子。
步骤2:将能源互联网模型构建为MDP(马尔可夫决策过程),MDP是建立强化学习的有效方法,它描述了系统的当前状态不仅与现在的状态有关,也与下一个状态有关。设置迭代次数i,离散时间间隙t,输入t时刻的状态变量,st{WT(t),PV(t),DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)};
步骤3:actor网络输出动作变量at
步骤4:计算回报值r(at|st)到达下一状态St+1
步骤5:得到序列轨迹{S1,a1,r1,S′1,S2,a2,r2,S′2…St,at,rt,S′t};形成经验池experience p;并将这些轨迹存储到经验池中,随机抽出数据进行下次迭代;
步骤6:观察是否迭代完所有变量,即t=T?
步骤7:将St状态变量输入到critic网络中,得到输出期望V(s);
步骤8:由于环境的随机性,如果智能体下次执行相同的操作时,将永远无法确保获得相同的奖励。因此,增加折扣因子,随着过程的继续,使收敛变得更加容易,计算计及折扣因子的未来回报值Rt=r(at|st)+γV(St+1)。
其中,γ是折扣因子,其取值范围为[0,1]。特别地,当γ等于0时,表示系统仅依赖当前时刻的奖励,而与未来奖励没有联系。如果环境是确定性的,在每个时间段,则行动所产生的未来奖励是确定的,没有随机情况,并且可以是认为γ为1。考虑当前奖励和未来奖励,则将其值设置为介于0和1之间的小数。
步骤9:构造损失函数A=[R(t)-V(S)]2
步骤10:利用神经网络反向传播更新网络参数;
步骤11:将S′t状态变量输入到参数为θ的actor神经网络中,利用ε-greedy求出网络采取at的动作概率Pθ(St,at);
步骤12:同理,计算参数为θa的actor网络采取at动作的概率Pθa=(St,at);
步骤13:计算损失函数floss=min(A·Pθ,A·Pθa);
步骤14:由损失函数迭代更新神经网络参数;
步骤15:查看结果是否收敛到最小回报值,若是,则结束,若不是,则返回继续迭代。
如图2所示,用本发明所述方法与其他方法计算速度对比,本发明一种基于DQN算法的能源互联网优化策略方法,是在保证系统运营成本最小的前提下,通过协调优化能源互联网,可以进一步挖掘可再生能源利用率,进行网络优化配置,使其具有快速动态优化的目的以及自学习能力,基于最优输出动作,可以制定能源互联网优化策略,尽可能的减少网络的冗余度,减小系统运营成本。

Claims (2)

1.一种基于DQN算法的能源互联网优化策略方法,其特征在于包括如下步骤:
步骤1:以考虑惩罚函数的能源互联网运营成本最低为目标,建立目标函数;
其中包括:电能传输成本
其中,Pi为各发电机输出功率;
能源互联网中各系统运行成本:
其中,CCHP(t)代表热电联产的运行成本,PCHP(t)代表热电联产输出的电能,HCHP(t)代表热电联产输出的热能,CWP(t)代表风力发电机的运行成本,PWP(t)代表力发电机的输出功率,CPV(t)代表光伏发电机的运行成本,PPV(t)代表光伏发电机的发电成本,CDG(t)代表分布式发电机的运行成本,PDG(t)代表分布式发电机输出的电能,CLOAD(t)代表负载的运行成本,PLOAD(t)代表负载输出的电能;
其中,a、b、c、d、e、f、g、h、k、l、m、n、o、q为常数成本因子,分别代表着各系统各项运行成本和发电功率的系数;
储能系统充放电成本:
其中,CBES(t)代表储能系统的充、放电成本,SOCi(t)代表电池储能单元;
惩罚函数:
其中,被定义如下:
是BES的累积惩罚函数;如果其没有超出SOC范围,则惩罚项记为0,若其如果违背了SOC的约束,则将其计算为如下:
其中,δ为加权因子;
外部电网和EI之间的电力交换,惩罚函数如下:
χgrid(t)=Pgrid 2(t)[Pgrid(t)≥Pgrid(t)maxorPgrid(t)≤Pgrid(t)min]
将以上所有惩罚函数按照不同的权重因子进行加权,在t时刻,其惩罚函数的计算公式为:
其中,Δsoc为φsoc(t)的权重因子,Δgrid为χgrid(t)与外部电网交换能量的权重因子;
根据成本函数的表达式和惩罚函数的定义,每个时间t的综合成本如下:
ψ=[ΔfolwftDGCDGCHPCCHPWPCWPPVCPVLOADCLOADBESCBESsocφsoc(t)+Δgridχgrid(t)]其中,Δfolw、ΔDG、ΔCHP、ΔWP、ΔPV、ΔLOAD、ΔBES分别为电能传输、分布式发电机、热电联产、风力发电、光伏发电、负载、能量电池的权重因子;
步骤2:将能源互联网模型构建为MDP,设置迭代次数i,离散时间间隙t,输入t时刻的状态变量,st{WT(t),PV(t),DG(t),CHP(t),LOAD(t),BES(t),π(t),σ(t),μ(t)};
步骤3:actor网络输出动作变量at
步骤4:计算回报值r(at|st)到达下一状态St+1
步骤5:得到序列轨迹{S1,a1,r1,S′1,S2,a2,r2,S′2…St,at,rt,S′t};形成经验池experience pool;并将这些轨迹存储到经验池中,随机抽出数据进行下次迭代;
步骤6:观察是否迭代完所有变量,即t=T?
步骤7:将St状态变量输入到critic网络中,得到输出期望V(s);
步骤8:计算计及折扣因子的未来回报值Rt=r(at|st)+γV(St+1);
步骤9:构造损失函数A=[R(t)-V(S)]2
步骤10:利用神经网络反向传播更新网络参数;
步骤11:将St′状态变量输入到参数为θ的actor神经网络中,利用ε-greedy求出网络采取at的动作概率Pθ(St,at);
步骤12:同理,计算参数为θa的actor网络采取at动作的概率Pθa=(St,at);
步骤13:计算损失函数floss=min(A·Pθ,A·Pθa);
步骤14:由损失函数迭代更新神经网络参数;
步骤15:查看结果是否收敛到最小回报值,若是,则结束,若不是,则返回继续迭代。
2.根据权利要求1所述的一种基于DQN算法的能源互联网优化策略方法,其特征在于:设计应用actor-critic网络体系结构;其中,神经网络critic估计的价值函数V(s),其参数为θc;两个参数分别为θ和θa的神经网络actor用来提出控制策略;其中actor-critic网络都是由卷积神经网络CNN构造而成,CNN用于提取EI网络观测序列的特征。
CN202011181281.7A 2020-09-02 2020-10-29 一种基于dqn算法的能源互联网优化策略方法 Active CN112084680B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020109101304 2020-09-02
CN202010910130 2020-09-02

Publications (2)

Publication Number Publication Date
CN112084680A CN112084680A (zh) 2020-12-15
CN112084680B true CN112084680B (zh) 2023-12-26

Family

ID=73730363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181281.7A Active CN112084680B (zh) 2020-09-02 2020-10-29 一种基于dqn算法的能源互联网优化策略方法

Country Status (1)

Country Link
CN (1) CN112084680B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112821465B (zh) * 2021-01-08 2022-11-29 合肥工业大学 包含热电联产的工业微网负荷优化调度方法与系统
CN113809780B (zh) * 2021-09-23 2023-06-30 沈阳工程学院 一种基于改进q学习惩罚选择的微电网优化调度方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN111090899A (zh) * 2019-11-07 2020-05-01 郑州大学 一种用于城市建筑空间布局设计方法
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产系统经济调度方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111553118A (zh) * 2020-04-26 2020-08-18 西安交通大学 基于强化学习的多维连续型优化变量全局优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System
US20180247201A1 (en) * 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110365056A (zh) * 2019-08-14 2019-10-22 南方电网科学研究院有限责任公司 一种基于ddpg的分布式能源参与配电网调压优化方法
CN111090899A (zh) * 2019-11-07 2020-05-01 郑州大学 一种用于城市建筑空间布局设计方法
CN111144728A (zh) * 2019-12-18 2020-05-12 东南大学 基于深度强化学习的热电联产系统经济调度方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN111553118A (zh) * 2020-04-26 2020-08-18 西安交通大学 基于强化学习的多维连续型优化变量全局优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于DQN算法的综合能源系统优化调度策略研究;董香栾;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑;C039-35 *

Also Published As

Publication number Publication date
CN112084680A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
Li et al. Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach
CN112084680B (zh) 一种基于dqn算法的能源互联网优化策略方法
Zhu et al. A parallel meta-heuristic method for solving large scale unit commitment considering the integration of new energy sectors
CN111934360B (zh) 基于模型预测控制的虚拟电厂-储能系统能量协同优化调控方法
Yang et al. Research on heat and electricity coordinated dispatch model for better integration of wind power based on electric boiler with thermal storage
CN111144728A (zh) 基于深度强化学习的热电联产系统经济调度方法
Li et al. Day-ahead optimal dispatch strategy for active distribution network based on improved deep reinforcement learning
CN112213945B (zh) 电动汽车参与微网群调频的改进鲁棒预测控制方法和系统
CN113435793A (zh) 一种基于强化学习的微电网优化调度方法
CN107623337A (zh) 一种微电网能量管理方法
CN112330021A (zh) 一种分布式光储系统的网络协调控制方法
Wang et al. Stochastic dynamic programming based optimal energy scheduling for a hybrid fuel cell/PV/battery system under uncertainty
Zhang et al. Optimal energy management of hybrid power system with two-scale dynamic programming
Liu et al. Day-ahead economic dispatch of renewable energy system considering wind and photovoltaic predicted output
CN111555362B (zh) 一种用于全可再生能源热电气储耦合系统的优化调控方法及装置
CN111767621A (zh) 一种基于知识迁移q学习算法的多能源系统优化调度方法
CN112003279B (zh) 层次化微电网新能源消纳能力的评估方法
CN115411776A (zh) 住宅综合能源系统的热电协同调度方法及装置
CN112713590B (zh) 计及idr的冷热电联供微网与主动配电网联合优化调度方法
Liu et al. The economic dispatch of wind integrated power system based on an improved differential evolution algorithm
Li et al. Analysis of Deep Learning Control Strategy about Peak Load Regulation and Frequency Regulation with Distribution Thermal Storage Electric Boiler
Fang et al. Energy scheduling and decision learning of combined cooling, heating and power microgrid based on deep deterministic policy gradient
CN112862282A (zh) 一种基于ddqn算法的综合能源系统源-荷协同调度优化方法
de Jongh et al. Neural Predictive Control for the Optimization of Smart Grid Flexibility Schedules
Tongyu et al. Based on deep reinforcement learning algorithm, energy storage optimization and loss reduction strategy for distribution network with high proportion of distributed generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant