CN108321795A - 基于深度确定性策略算法的发电机组启停配置方法及系统 - Google Patents

基于深度确定性策略算法的发电机组启停配置方法及系统 Download PDF

Info

Publication number
CN108321795A
CN108321795A CN201810054828.3A CN201810054828A CN108321795A CN 108321795 A CN108321795 A CN 108321795A CN 201810054828 A CN201810054828 A CN 201810054828A CN 108321795 A CN108321795 A CN 108321795A
Authority
CN
China
Prior art keywords
unit
stop
vector
depth
intensified learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810054828.3A
Other languages
English (en)
Other versions
CN108321795B (zh
Inventor
程引
林淑怡
张卫东
赵亚东
何星
蔡云泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810054828.3A priority Critical patent/CN108321795B/zh
Publication of CN108321795A publication Critical patent/CN108321795A/zh
Application granted granted Critical
Publication of CN108321795B publication Critical patent/CN108321795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配。与现有技术相比,本发明采用深度确定性策略学习方法,直接得到不同时刻的启停向量,能够适应不同规模机组集群启停表的自动分配,使得系统具有较好的扩展性。

Description

基于深度确定性策略算法的发电机组启停配置方法及系统
技术领域
本发明涉及火力发电技术领域,尤其是涉及一种基于深度确定性策略算法的发电机组启停配置方法及系统。
背景技术
在火力发电生产过程中,制定日前发电计划,预先对发电机组的启停优化配置,有着重要意义。原因在于两个方面:首先,电力系统负荷存在着明显的周期性与峰谷效应,为了满足负荷的需求,系统内机组必须联合运行;其次,在不改变启停机组的数目的条件下,仅仅依靠调整开机机组的出力,很难实现电力供需平衡与发电资源的合理配置。
发电机组启停优化配置是在满足约束条件下,如何合理安排机组的开/停机顺序,从而使得系统发电成本最小。它可以用同时包含离散变量(如机组的启停状态)及连续变量(如负荷的经济分配)的混合型高维、动态非线性优化问题来进行描述。当系统的规模逐渐增加时,从理论上获得准确的最优解将变得十分困难。
目前常规方法是把机组启停分配问题用数学方程描述出来,并用解析法求解,最终得到最优值。拉格朗日松弛法是一种典型的求解复杂组合优化问题的数学优化算法,将其运用于机组启停分配问题中始于70年代,到目前已经取得了大量的理论和应用成果。然而该算法也有明显的缺陷,主要是受制于目标函数的非凸性,求解过程存在对偶间隙,常常不能找到原问题的最优解,需要采取一定的措施进行构造。因此,有必要建立一种有效的决策方法,实现日前发电机组启停优化配置,以期适应不同规模机组集群,从而提高优化系统的扩展性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度确定性策略算法的发电机组启停配置方法及系统,采用深度确定性策略学习方法,直接得到不同时刻的启停向量,能够适应不同规模机组集群启停表的自动分配,使得系统具有较好的扩展性。
本发明的目的可以通过以下技术方案来实现:
一种基于深度确定性策略算法的发电机组启停配置方法,其特征在于,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:
1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;
2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配。
优选地,所述的深度确定性策略梯度算法包括深度策略网络的训练过程和执行过程。
优选地,所述的训练过程包括以下步骤:
首先,通过数据采集单元获得机组历史出力记录数据;
其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;
然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;
最后,经过迭代训练使得深度策略网络收敛;
优选地,所述的执行过程包括以下步骤:
首先,重新按时间顺序输入历史机组出力;
其次,通过深度策略网络得到优化启停向量;
然后,根据优化启停向量求解对应时刻最优潮流;
最后,根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。
一种基于深度确定性策略算法的发电机组启停配置系统,包括数据采集单元、强化学习训练单元、最优潮流解算单元和强化学习执行单元;
在系统进行训练过程中,强化学习执行单元退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;
当系统进入执行状态中,强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量。
优选地,所述的系统进行训练过程具体为:
所述的数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;
所述的强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;
所述的最优潮流解算单元在启停表确定的基础上,考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束,对该时刻各机组出力进行统一解算;
所述的强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛。
优选地,所述的系统执行状态具体过程为:
初始时刻再次输入历史机组出力值,合并成为智能体状态向量;
所述的强化学习执行单元直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;
在优化启停向量基础上由最优潮流解算单元生成对应机组出力;
再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;
按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
优选地,所述的深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。
与现有技术相比,本发明具有以下优点:
1)实现了日前机组启停的自动优化配置,替代了常规的解析松弛法,提高了机组启停配置的灵活性和扩展性,免去了伴随规划的复杂求解流程。
2)提出的方法基于深度确定性策略梯度算法,具有依赖数据少、求解方便、计算效率高的优点。相对于基于值函数的强化学习算法,本发明直接对策略的期望收益进行优化,消除了中间媒介;相对于随机性策略梯度算法,本发明在求取期望时不需要在动作空间进行采样积分,从而依赖更少的采样数据,达到更高的计算效率。
附图说明
图1为本发明机求解组启停表的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明基于深度确定性策略算法的发电机组启停配置方法:首先,给出了一种数据采集单元构成的机组历史出力记录装置;其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;经过迭代训练使得深度策略网络收敛;
训练完成之后,首先重新按时间顺序输入历史机组出力;其次,通过深度策略网络得到优化启停向量;然后,根据优化启停向量求解对应时刻最优潮流;最后根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。该方法的优点是,算法受系统规模影响小,计算量主要取决于最优潮流的解算时间,具有较好的扩展性。
本发明提出的机组启停配置系统由数据采集单元、强化学习训练单元、最优潮流解算单元、强化学习执行单元、发电机组等组成。在系统进行训练过程中,强化学习执行退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;由数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;最优潮流解算单元在启停表确定的基础上,充分考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束等,对该时刻各机组出力进行统一解算;强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛。
当系统进入执行状态中,初始时刻再次输入历史机组出力值,合并成为智能体状态向量;强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;在优化启停向量基础上由最优潮流解算单元生成对应机组出力;再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。相对于基于值函数的强化学习算法,该方法直接对策略的期望收益进行优化,消除了中间媒介;相对于随机性策略梯度算法,该方法在求取期望时不需要在动作空间进行采样积分,从而依赖更少的采样数据,达到更高的计算效率。
如图1所示,本发明具体求解过程如下:
步骤一:将机组群整体作为智能体,将机组群运行工况作为智能体的交互环境。每个时间步t,机组群的启停选择向量作为智能体决策动作at,全部可行启停向量对应强化学习动作集A。从而将日前机组启停分配问题等效为包含T=24个时间步的马尔科夫决策过程序列。
步骤二:如图1所示,数据采集单元将各机组在t-1时刻的出力值向量Pt-1作为智能体对应时间步t的状态向量st。N为机组数量,则有:
步骤三:初始化强化学习训练单元,评判器Q(s,a|θQ)和行动器μ(s|θ|μ)对应的连接权重参数分别为θQ和θμ。其中s和a分别对应智能体状态和决策。
步骤四:初始化目标网络Q′和μ′,赋以相同的连接权重参数θQ和θμ,并初始化经验重放缓存库R。
步骤五:使用机组初始出力值向量P0作为智能体候选状态向量s1′,行动器产生候选决策a1′,对应生成候选启停表C1′。其中为当前时刻人为引入随机噪声,提供策略探索能力,而行动器依据下式产生候选决策:
步骤六:使用最优潮流解算单元,求解候选启停表C1′对应各机组出力P1′,计算对应总运行成本r1′。
步骤七:使用深度确定性策略梯度算法,对强化学习训练单元中的评判器、行动器和目标网络连接权重进行更新。具体地,行动器依据确定性情况下的策略梯度定理进行更新:
而评判器通过最小化与目标网络的平方误差进行梯度下降更新:
在此基础上将目标网络进行增量式更新,保留部分前序权重信息。
步骤八:依次生成后续候选启停表和候选状态向量,迭代训练直至强化学习训练单元收敛。
步骤九:使用机组初始出力值向量P0作为智能体状态向量s1,强化学习执行单元调用行动器θμ生成决策a1,对应生成候选启停表C1
步骤十:使用最优潮流解算单元,求解启停表C1对应各机组出力P1,计算对应当前时段成本r1。依次按照上述流程,解算出后续所有启停向量,输出完整启停表,从而优化全体累计期望运行成本
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于深度确定性策略算法的发电机组启停配置方法,其特征在于,该方法将机组组合启停分配问题构造成为强化学习序列决策问题,所述的方法包括以下步骤:
1)将前一历史时刻各机组出力值向量作为智能体观测状态,用以作为深度策略网络的输入向量;
2)针对连续时间序列机组启停优化问题,使用深度确定性策略梯度算法给出优化决策序列,输出机组在该时刻的启停向量,实现对机组启停状态的分配。
2.根据权利要求1所述的方法,其特征在于,所述的深度确定性策略梯度算法包括深度策略网络的训练过程和执行过程。
3.根据权利要求2所述的方法,其特征在于,所述的训练过程包括以下步骤:
首先,通过数据采集单元获得机组历史出力记录数据;
其次,将各个时刻的机组历史出力合并成智能体状态向量,输入至深度策略网络,得到候选启停向量;
然后,在候选启停向量的基础上利用最优潮流解出各机组出力,以对应运行成本作为强化学习奖励函数值;
最后,经过迭代训练使得深度策略网络收敛。
4.根据权利要求2所述的方法,其特征在于,所述的执行过程包括以下步骤:
首先,重新按时间顺序输入历史机组出力;
其次,通过深度策略网络得到优化启停向量;
然后,根据优化启停向量求解对应时刻最优潮流;
最后,根据最优潮流对应的机组出力生成新的智能体状态向量,依次继续解出后续时段的全部优化启停表。
5.一种基于深度确定性策略算法的发电机组启停配置系统,其特征在于,包括数据采集单元、强化学习训练单元、最优潮流解算单元和强化学习执行单元;
在系统进行训练过程中,强化学习执行单元退出运行,由搭载深度确定性策略梯度算法的强化学习训练单元作为优化核心;
当系统进入执行状态中,强化学习执行单元替代强化学习训练单元加入运行,直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量。
6.根据权利要求5所述的系统,其特征在于,所述的系统进行训练过程具体为:
所述的数据采集单元记录当前时刻之前的机组历史出力数据,并合成为当前时刻的强化学习智能体状态向量;
所述的强化学习训练单元由深度策略网络初始参数生成当前时刻对应的候选启停向量;
所述的最优潮流解算单元在启停表确定的基础上,考虑基本系统约束、旋转备用约束、机组特性约束以及网络安全约束,对该时刻各机组出力进行统一解算;
所述的强化学习训练单元利用得到的各机组出力结果,计算出奖励函数值,使用深度确定性策略梯度算法修正候选启停序列,经过多次迭代策略网络收敛。
7.根据权利要求5所述的系统,其特征在于,所述的系统执行状态具体过程为:
初始时刻再次输入历史机组出力值,合并成为智能体状态向量;
所述的强化学习执行单元直接利用训练完成的深度策略网络生成智能体状态向量对应的优化启停向量;
在优化启停向量基础上由最优潮流解算单元生成对应机组出力;
再由当前时刻机组出力生成下一时刻的智能体状态向量,交由强化学习执行单元生成下一时刻的优化启停向量;
按时间顺序依次逐个解出全部日前机组启停表,从而实现日前机组启停的自动优化配置。
8.根据权利要求5所述的系统,其特征在于,所述的深度确定性策略梯度算法通过重复计算策略的期望回报梯度的噪声估计,然后依照得到梯度方向来对策略进行更新。
CN201810054828.3A 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统 Active CN108321795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810054828.3A CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810054828.3A CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Publications (2)

Publication Number Publication Date
CN108321795A true CN108321795A (zh) 2018-07-24
CN108321795B CN108321795B (zh) 2021-01-22

Family

ID=62887082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810054828.3A Active CN108321795B (zh) 2018-01-19 2018-01-19 基于深度确定性策略算法的发电机组启停配置方法及系统

Country Status (1)

Country Link
CN (1) CN108321795B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109217306A (zh) * 2018-10-19 2019-01-15 三峡大学 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN110210113A (zh) * 2019-05-29 2019-09-06 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110674460A (zh) * 2019-09-16 2020-01-10 三峡大学 基于E-Seq2Seq技术的数据驱动型机组组合智能决策方法
WO2020052413A1 (zh) * 2018-09-11 2020-03-19 京东数字科技控股有限公司 火力发电机组燃烧控制优化方法、装置及可读存储介质
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN111181919A (zh) * 2019-11-30 2020-05-19 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN111310384A (zh) * 2020-01-16 2020-06-19 香港中文大学(深圳) 一种风场协同控制方法、终端及计算机可读存储介质
CN111695700A (zh) * 2020-06-16 2020-09-22 华东师范大学 一种基于深度强化学习实现的装箱方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193532A (zh) * 2010-10-26 2011-09-21 上海迪吉特控制系统有限公司 火电厂单元机组自启停优化控制系统
US20150310366A1 (en) * 2012-11-09 2015-10-29 Tianjin University Security region based security-constrained economic dispatching method
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193532A (zh) * 2010-10-26 2011-09-21 上海迪吉特控制系统有限公司 火电厂单元机组自启停优化控制系统
US20150310366A1 (en) * 2012-11-09 2015-10-29 Tianjin University Security region based security-constrained economic dispatching method
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020052413A1 (zh) * 2018-09-11 2020-03-19 京东数字科技控股有限公司 火力发电机组燃烧控制优化方法、装置及可读存储介质
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109347149B (zh) * 2018-09-20 2022-04-22 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109523029B (zh) * 2018-09-28 2020-11-03 清华大学深圳研究生院 自适应双自驱动深度确定性策略梯度强化学习方法
CN109217306A (zh) * 2018-10-19 2019-01-15 三峡大学 一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法
CN110210113B (zh) * 2019-05-29 2022-07-08 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110210113A (zh) * 2019-05-29 2019-09-06 东北电力大学 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN110674460A (zh) * 2019-09-16 2020-01-10 三峡大学 基于E-Seq2Seq技术的数据驱动型机组组合智能决策方法
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
US20210367426A1 (en) * 2019-11-16 2021-11-25 State Grid Zhejiang Electric Power Co., Ltd. Taizhou power supply company Method for intelligently adjusting power flow based on q-learning algorithm
WO2021093493A1 (zh) * 2019-11-16 2021-05-20 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN111181919A (zh) * 2019-11-30 2020-05-19 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN111310384A (zh) * 2020-01-16 2020-06-19 香港中文大学(深圳) 一种风场协同控制方法、终端及计算机可读存储介质
CN111310384B (zh) * 2020-01-16 2024-05-21 香港中文大学(深圳) 一种风场协同控制方法、终端及计算机可读存储介质
CN111695700A (zh) * 2020-06-16 2020-09-22 华东师范大学 一种基于深度强化学习实现的装箱方法
CN113141012A (zh) * 2021-04-24 2021-07-20 西安交通大学 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113141012B (zh) * 2021-04-24 2023-04-18 西安交通大学 电网潮流调控决策推理方法

Also Published As

Publication number Publication date
CN108321795B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN108321795A (zh) 基于深度确定性策略算法的发电机组启停配置方法及系统
Wang et al. A fully-decentralized consensus-based ADMM approach for DC-OPF with demand response
Walsh et al. Augmented Hopfield network for unit commitment and economic dispatch
CN109478045A (zh) 使用预测来控制目标系统
CN111027732B (zh) 一种多风电场出力场景的生成方法及系统
Kebriaei et al. Model-based and learning-based decision making in incomplete information cournot games: a state estimation approach
Dalal et al. Chance-constrained outage scheduling using a machine learning proxy
Li et al. Learning-based predictive control via real-time aggregate flexibility
Alostad et al. A fuzzy based model for effort estimation in scrum projects
CN116629461B (zh) 一种主动配电网分布式优化方法、系统、设备及存储介质
Belagoune et al. A discrete chaotic Jaya algorithm for optimal preventive maintenance scheduling of power systems generators
Pinson Introducing distributed learning approaches in wind power forecasting
Lima et al. Bayesian predictive distributions for imbalance prices with time-varying factor impacts
Wołowiec et al. Methods of development network analysis as a tool improving efficient organization management
CN112800674A (zh) 一种基于极限学习机的电力系统元件可靠性参数计算方法
CN107706938A (zh) 一种基于分位点回归的风电功率波动区间分析方法
Jasmin et al. A Reinforcement Learning algorithm to Economic Dispatch considering transmission losses
Jasmin et al. Reinforcement learning approaches to power system scheduling
He et al. Singular-Value Decomposition Feature-Extraction Method for Cost-Performance Prediction
Rashed et al. Solving Time-Cost Tradeoff Problem with Resource Constraint Using Fuzzy Mathematical Model
Javidi et al. Semi-automatic object-oriented software design using metaheuristic algorithms
Yan et al. A short-term wind power scenario generation method based on conditional diffusion model
Sage et al. Economic Battery Storage Dispatch with Deep Reinforcement Learning from Rule-Based Demonstrations
Han et al. Multi-scene Scheduling of Power System with Renewable Energy Based on DDPG
Cesta et al. MrSPOCK: A long-term planning tool for MARS EXPRESS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant