CN108321795B - 基于深度确定性策略算法的发电机组启停配置方法及系统 - Google Patents

基于深度确定性策略算法的发电机组启停配置方法及系统 Download PDF

Info

Publication number
CN108321795B
CN108321795B CN201810054828.3A CN201810054828A CN108321795B CN 108321795 B CN108321795 B CN 108321795B CN 201810054828 A CN201810054828 A CN 201810054828A CN 108321795 B CN108321795 B CN 108321795B
Authority
CN
China
Prior art keywords
unit
stop
vector
strategy
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810054828.3A
Other languages
English (en)
Other versions
CN108321795A (zh
Inventor
程引
林淑怡
张卫东
赵亚东
何星
蔡云泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiao Tong University
Original Assignee
Shanghai Jiao Tong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiao Tong University filed Critical Shanghai Jiao Tong University
Priority to CN201810054828.3A priority Critical patent/CN108321795B/zh
Publication of CN108321795A publication Critical patent/CN108321795A/zh
Application granted granted Critical
Publication of CN108321795B publication Critical patent/CN108321795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/04Circuit arrangements for AC mains or AC distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配。与现有技术相比,本发明采用深度确定性策略学习方法,直接得到不同时刻的启停向量,能够适应不同规模机组集群启停表的自动分配,使得系统具有较好的扩展性。

Description

基于深度确定性策略算法的发电机组启停配置方法及系统
技术领域
本发明涉及火力发电技术领域,尤其是涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统。
背景技术
在火力发电生产过程中,制定日前发电计划,预先对发电机组的启停优化配置,有着重要意义。原因在于两个方面:首先,电力系统负荷存在着明显的周期性与峰谷效应,为了满足负荷的需求,系统内机组必须联合运行;其次,在不改变启停机组的数目的条件下,仅仅依靠调整开机机组的出力,很难实现电力供需平衡与发电资源的合理配置。
发电机组启停优化配置是在满足约束条件下,如何合理安排机组的开/停机顺序,从而使得系统发电成本最小。它可以用同时包含离散变量(如机组的启停状态)及连续变量(如负荷的经济分配)的混合型高维、动态非线性优化问题来进行描述。当系统的规模逐渐增加时,从理论上获得准确的最优解将变得十分困难。
目前常规方法是把机组启停分配问题用数学方程描述出来,并用解析法求解,最终得到最优值。拉格朗日松弛法是一种典型的求解复杂组合优化问题的数学优化算法,将其运用于机组启停分配问题中始于70年代,到目前已经取得了大量的理论和应用成果。然而该算法也有明显的缺陷,主要是受制于目标函数的非凸性,求解过程存在对偶间隙,常常不能找到原问题的最优解,需要采取一定的措施进行构造。因此,有必要建立一种有效的决策方法,实现日前发电机组启停优化配置,以期适应不同规模机组集群,从而提高优化系统的扩展性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度确定性策略算法的发电机组启停配置方法及系统,采用深度确定性策略学习方法,直接得到不同时刻的启停向量,能够适应不同规模机组集群启停表的自动分配,使得系统具有较好的扩展性。
本发明的目的可以通过以下技术方案来实现:
一种基于深度确定性策略算法的发电机组启停配置方法,其特征在于,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:
1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;
2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配。
优选地,所述的深度确定性策略梯度算法包括深度策略网络的训练过程和执行过程。
优选地,所述的训练过程包括以下步骤:
首先,通过数据采集单元获得机组历史出力记录数据;
其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;
然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;
最后,经过迭代训练使得深度策略网络收敛;
优选地,所述的执行过程包括以下步骤:
首先,重新按时间顺序输入历史机组出力;
其次,通过深度策略网络得到优化启停向量;
然后,根据优化启停向量求解对应时刻最优潮流;
最后,根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。
一种基于深度确定性策略算法的发电机组启停配置系统,包括数据采集单元、强化学习训练单元、最优潮流解算单元和强化学习执行单元;
在系统进行训练过程中,强化学习执行单元退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;
当系统进入执行状态中,强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量。
优选地,所述的系统进行训练过程具体为:
所述的数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;
所述的强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;
所述的最优潮流解算单元在启停表确定的基础上,考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束,对该时刻各机组出力进行统一解算;
所述的强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛。
优选地,所述的系统执行状态具体过程为:
初始时刻再次输入历史机组出力值,合并成为智能体状态向量;
所述的强化学习执行单元直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;
在优化启停向量基础上由最优潮流解算单元生成对应机组出力;
再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;
按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
优选地,所述的深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。
与现有技术相比,本发明具有以下优点:
1)实现了日前机组启停的自动优化配置,替代了常规的解析松弛法,提高了机组启停配置的灵活性和扩展性,免去了伴随规划的复杂求解流程。
2)提出的方法基于深度确定性策略梯度算法,具有依赖数据少、求解方便、计算效率高的优点。相对于基于值函数的强化学习算法,本发明直接对策略的期望收益进行优化,消除了中间媒介;相对于随机性策略梯度算法,本发明在求取期望时不需要在动作空间进行采样积分,从而依赖更少的采样数据,达到更高的计算效率。
附图说明
图1为本发明机求解组启停表的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明基于深度确定性策略算法的发电机组启停配置方法:首先,给出了一种数据采集单元构成的机组历史出力记录装置;其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;经过迭代训练使得深度策略网络收敛;
训练完成之后,首先重新按时间顺序输入历史机组出力;其次,通过深度策略网络得到优化启停向量;然后,根据优化启停向量求解对应时刻最优潮流;最后根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。该方法的优点是,算法受系统规模影响小,计算量主要取决于最优潮流的解算时间,具有较好的扩展性。
本发明提出的机组启停配置系统由数据采集单元、强化学习训练单元、最优潮流解算单元、强化学习执行单元、发电机组等组成。在系统进行训练过程中,强化学习执行退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;由数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;最优潮流解算单元在启停表确定的基础上,充分考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束等,对该时刻各机组出力进行统一解算;强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛。
当系统进入执行状态中,初始时刻再次输入历史机组出力值,合并成为智能体状态向量;强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;在优化启停向量基础上由最优潮流解算单元生成对应机组出力;再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。相对于基于值函数的强化学习算法,该方法直接对策略的期望收益进行优化,消除了中间媒介;相对于随机性策略梯度算法,该方法在求取期望时不需要在动作空间进行采样积分,从而依赖更少的采样数据,达到更高的计算效率。
如图1所示,本发明具体求解过程如下:
步骤一:将机组群整体作为智能体,将机组群运行工况作为智能体的交互环境。每个时间步t,机组群的启停选择向量作为智能体决策动作at,全部可行启停向量对应强化学习动作集A。从而将日前机组启停分配问题等效为包含T=24个时间步的马尔科夫决策过程序列。
步骤二:如图1所示,数据采集单元将各机组在t-1时刻的出力值向量Pt-1作为智能体对应时间步t的状态向量st。N为机组数量,则有:
Figure BDA0001553445030000051
步骤三:初始化强化学习训练单元,评判器Q(s,a|θQ)和行动器μ(s|θ|μ)对应的连接权重参数分别为θQ和θμ。其中s和a分别对应智能体状态和决策。
步骤四:初始化目标网络Q′和μ′,赋以相同的连接权重参数θQ和θμ,并初始化经验重放缓存库R。
步骤五:使用机组初始出力值向量P0作为智能体候选状态向量s1′,行动器产生候选决策a1′,对应生成候选启停表C1′。其中
Figure BDA0001553445030000052
为当前时刻人为引入随机噪声,提供策略探索能力,而行动器依据下式产生候选决策:
Figure BDA0001553445030000053
步骤六:使用最优潮流解算单元,求解候选启停表C1′对应各机组出力P1′,计算对应总运行成本r1′。
步骤七:使用深度确定性策略梯度算法,对强化学习训练单元中的评判器、行动器和目标网络连接权重进行更新。具体地,行动器依据确定性情况下的策略梯度定理进行更新:
Figure BDA0001553445030000061
而评判器通过最小化与目标网络的平方误差进行梯度下降更新:
Figure BDA0001553445030000062
在此基础上将目标网络进行增量式更新,保留部分前序权重信息。
步骤八:依次生成后续候选启停表和候选状态向量,迭代训练直至强化学习训练单元收敛。
步骤九:使用机组初始出力值向量P0作为智能体状态向量s1,强化学习执行单元调用行动器θμ生成决策a1,对应生成候选启停表C1
步骤十:使用最优潮流解算单元,求解启停表C1对应各机组出力P1,计算对应当前时段成本r1。依次按照上述流程,解算出后续所有启停向量,输出完整启停表,从而优化全体累计期望运行成本
Figure BDA0001553445030000063
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (3)

1.一种基于深度确定性策略算法的发电机组启停配置方法,其特征在于,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:
1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;
2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配;
所述的深度确定性策略梯度算法包括深度策略网络的训练过程和执行过程;
所述的训练过程包括以下步骤:
首先,通过数据采集单元获得机组历史出力记录数据;
其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;
然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;
最后,经过迭代训练使得深度策略网络收敛;
所述的执行过程包括以下步骤:
首先,重新按时间顺序输入历史机组出力;
其次,通过深度策略网络得到优化启停向量;
然后,根据优化启停向量求解对应时刻最优潮流;
最后,根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。
2.一种基于深度确定性策略算法的发电机组启停配置系统,其特征在于,包括数据采集单元、强化学习训练单元、最优潮流解算单元和强化学习执行单元;
在系统进行训练过程中,强化学习执行单元退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;
当系统进入执行状态中,强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;
所述的系统进行训练过程具体为:
所述的数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;
所述的强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;
所述的最优潮流解算单元在启停表确定的基础上,考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束,对该时刻各机组出力进行统一解算;
所述的强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛;
所述的系统执行状态具体过程为:
初始时刻再次输入历史机组出力值,合并成为智能体状态向量;
所述的强化学习执行单元直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;
在优化启停向量基础上由最优潮流解算单元生成对应机组出力;
再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;
按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
3.根据权利要求2所述的系统,其特征在于,所述的深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。
CN201810054828.3A 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统 Active CN108321795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810054828.3A CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810054828.3A CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Publications (2)

Publication Number Publication Date
CN108321795A CN108321795A (zh) 2018-07-24
CN108321795B true CN108321795B (zh) 2021-01-22

Family

ID=62887082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810054828.3A Active CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Country Status (1)

Country Link
CN (1) CN108321795B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888401B (zh) * 2018-09-11 2022-09-06 京东科技控股股份有限公司 火力发电机组燃烧控制优化方法、装置及可读存储介质
CN109347149B (zh) * 2018-09-20 2022-04-22 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109523029B (zh) * 2018-09-28 2020-11-03 清华大学深圳研究生院 自适应双自驱动深度确定性策略梯度强化学习方法
CN109217306A (zh) * 2018-10-19 2019-01-15 三峡大学 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法
CN110210113B (zh) * 2019-05-29 2022-07-08 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110674460B (zh) * 2019-09-16 2023-04-07 三峡大学 基于E-Seq2Seq技术的数据驱动型机组组合智能决策方法
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN111181919A (zh) * 2019-11-30 2020-05-19 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN111310384B (zh) * 2020-01-16 2024-05-21 香港中文大学(深圳) 一种风场协同控制方法、终端及计算机可读存储介质
CN111695700A (zh) * 2020-06-16 2020-09-22 华东师范大学 一种基于深度强化学习实现的装箱方法
CN113141012B (zh) * 2021-04-24 2023-04-18 西安交通大学 电网潮流调控决策推理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193532A (zh) * 2010-10-26 2011-09-21 上海迪吉特控制系统有限公司 火电厂单元机组自启停优化控制系统
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102983573B (zh) * 2012-11-09 2014-10-15 天津大学 基于安全域的安全约束经济调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193532A (zh) * 2010-10-26 2011-09-21 上海迪吉特控制系统有限公司 火电厂单元机组自启停优化控制系统
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法

Also Published As

Publication number Publication date
CN108321795A (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
CN108321795B (zh) 基于深度确定性策略算法的发电机组启停配置方法及系统
CN112186799B (zh) 基于深度强化学习的分布式能源系统自治控制方法及系统
Zhou et al. Multiagent Bayesian deep reinforcement learning for microgrid energy management under communication failures
CN111027732B (zh) 一种多风电场出力场景的生成方法及系统
CN112685165B (zh) 一种基于联合强化学习策略的多目标云工作流调度方法
Zhao et al. DeepOPF+: A deep neural network approach for DC optimal power flow for ensuring feasibility
Leterme et al. A flexible stochastic optimization method for wind power balancing with PHEVs
CN112418482A (zh) 一种基于时间序列聚类的云计算能耗预测方法
CN111047085A (zh) 一种基于元学习的混合动力车辆工况预测方法
CN112884236B (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及系统
CN116451880B (zh) 一种基于混合学习的分布式能源优化调度方法及装置
CN113971089A (zh) 联邦学习系统设备节点选择的方法及装置
Pinson Introducing distributed learning approaches in wind power forecasting
CN117973644B (zh) 一种考虑参考电站优化的分布式光伏功率虚拟采集方法
CN116345578A (zh) 基于深度确定性策略梯度的微电网运行优化调度方法
CN114358520A (zh) 一种电力系统经济调度决策的方法、系统、装置及介质
Raju et al. Reinforcement learning in adaptive control of power system generation
Jasmin et al. A Reinforcement Learning algorithm to Economic Dispatch considering transmission losses
CN115528750B (zh) 一种面向电网安全稳定的数据模型混合驱动机组组合方法
CN112329995A (zh) 分布式储能集群的优化调度方法、装置和计算机设备
CN117856258A (zh) 基于目标值竞争的多能协同互补优化方法、设备及介质
CN117277346A (zh) 一种基于多智能体系统的储能调频方法、装置及设备
CN116452199A (zh) 基于区块链的vcu控制算法优化方法和程序产品
CN115907000A (zh) 一种用于电力系统最优潮流预测的小样本学习方法
CN115115276A (zh) 考虑不确定性和隐私保护的虚拟电厂调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant