CN114048903A - 一种基于深度强化学习的电网安全运行策略智能优化方法 - Google Patents

一种基于深度强化学习的电网安全运行策略智能优化方法 Download PDF

Info

Publication number
CN114048903A
CN114048903A CN202111330875.4A CN202111330875A CN114048903A CN 114048903 A CN114048903 A CN 114048903A CN 202111330875 A CN202111330875 A CN 202111330875A CN 114048903 A CN114048903 A CN 114048903A
Authority
CN
China
Prior art keywords
network
power grid
unit
output
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111330875.4A
Other languages
English (en)
Other versions
CN114048903B (zh
Inventor
朱介北
徐思旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111330875.4A priority Critical patent/CN114048903B/zh
Publication of CN114048903A publication Critical patent/CN114048903A/zh
Application granted granted Critical
Publication of CN114048903B publication Critical patent/CN114048903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Power Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种基于深度强化学习的电网安全运行策略智能优化方法,包括如下步骤:步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;步骤2、构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。本发明利用双延迟深度确定性策略梯度算法,在智能体进入强化学习训练模块时,在专家系统基础上进一步优化策略,达到超越专家水平的目的。

Description

一种基于深度强化学习的电网安全运行策略智能优化方法
技术领域
本发明属于电网安全技术领域,涉及一种基于深度强化学习的电网安全运行策略智能优化方法。
背景技术
电网安全运行策略,是根据电网实际运行状态,通过调整电网运行方式,保证电网潮流收敛的方法。电网安全运行策略是电网实现安全、低碳、经济运行的基础。随着电力系统各方面发生快速而深刻的变化,新型电力系统在电力平衡、安全运行、运行控制等方面面临严峻挑战。
在实际工程中,直接根据负荷给定大电网运行方式较为困难,通常采取人工潮流计算和调度的方式,通过分区计算,逐级调整电网潮流。基于模型驱动的传统潮流及优化算法,可协助专业人员解决潮流计算问题和电网调度问题。然而,随着电力系统各方面发生快速而深刻的变化,新型电力系统模型拓扑复杂,传统的潮流及优化算法计算时间较长,实时性难以保证,在电网实际调度时,需要具备专业知识人员进行调控,需要大量人工参与,工作效率受到影响。同时,基于模型驱动的传统潮流及优化算法已无法有效挖掘电力大数据中蕴藏的丰富价值和关联关系,无法满足电网低碳、经济运行。
强化学习(Reinforcement Learning,RL)作为机器学习领域的研究热点,已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。RL的基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略。因此RL方法更加侧重于学习解决问题的策略,被认为是迈向通用人工智能(ArtificialGeneral Intelligence,AGI)的重要途径。基于强化学习的电网安全运行策略智能优化方法,是通过电网历史运行场景数据,利用人工智能方法训练智能体并与仿真器环境交互迭代,快速给出电网安全运行调整策略的方法。
然而,基于电网场景进行强化学习训练,例如在国网SG126节点模型下,共有54个发电机组,存在有功出力及电压调整共108维连续动作空间,智能体存在探索困境问题,训练难以收敛,同时强化学习存在泛化能力较弱的问题。
发明内容
本发明的目的在于解决现有技术的不足,提供一种基于深度强化学习的电网安全运行策略智能优化方法。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。
而且,步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,则进入步骤1.6,否则返回步骤1.2;
步骤1.6、判定专家系统是否处理完所有历史数据,若处理完,则结束专家经验收集,否则返回步骤1.1。
而且,所述步骤1.2具体包括以下步骤:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立领接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入步骤(5);
(5)判定是否满足网损优化条件,若不是,进入步骤(6);否则,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
而且,所述步骤2包括以下步骤:
步骤2.1、收集训练数据;
步骤2.2、电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3、基于步骤1所收集的专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4、基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5、训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
而且,所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据,包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。
而且,所述步骤2.2中的奖励函数为:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,
r1为网损优化奖励,r2为新能源机组消纳量,r3为平衡机功率越限,r4为机组运行费用,r5为无功出力越限,r6为节点电压越限;
考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1
而且,所述步骤2.2中电网运行规则为:
(1)机组有功出力上下限约束:任意机组,除平衡机外的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限,如果违反,仿真器提示“动作非法”,强制结束该回合;
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值,如果违反,仿真器提示“动作非法”,强制结束该回合;
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率,如果违反,仿真器提示“动作非法”,强制结束该回合;
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0,机组停机后设计指定时间步内不允许重新启动,火电机组启动规则为机组开启前有功出力必须调整至出力下限,机组重新启动后设计指定时间步内不允许停机;
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限;若支路电流越限但未超热稳限值上限,表示支路“软过载”;若支路电流超热稳限值上限,表示支路“硬过载”;任意支路指定时间步发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运,支路停运指定时间步之后,重新投运;
(6)随机故障:每个时间步中,设计有联络线支路停运概率,停运指定时间步后,重新投运;
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励;
(8)电压上下限约束:节点电压超过其上下限则获得负奖励;
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率,潮流计算后,平衡机有功出力越界但在允许范围之内的,获得负奖励,平衡机有功出力越界且超过允许范围,则回合终止。
而且,所述步骤2.3具体为:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ
而且,所述步骤2.4具体为:
(1)电网环境初始化;
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹;
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数;
Actortarget网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critic target网络1、Critictarget网络2输入为(s',a'),输出为Q';其中Actor网络负责与环境交互并给出运行策略;
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境;
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s';
(5)将(s,a,r,done,s')五元组存入经验回放池;
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放PER方法,选取权重较大的经验元组(s,a,r,done,s');
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数;将s'输入Actortarget网络,并将Actortarget网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actortarget网络策略轨迹,ε为服从正太分布噪声;
(s',a'+noise)输入Critictarget网络1、Critictarget网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数;将(r,done)传入Loss函数,更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critictarget网络1、Critictarget网络2;Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,y为Q_target;
其中Loss函数如下:
Figure BDA0003348794590000061
式中,N为从经验池中提取的样本数,Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω;
计算策略梯度,公式如下:
Figure BDA0003348794590000071
式中,
Figure BDA0003348794590000072
为策略梯度,采用梯度上升方式更新Actor网络参数θ。
而且,所述步骤2.5的电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压。
本发明的优点和有益效果为:
(1)本发明提供的专家系统,通过电力系统调度经验以及引入图卷积神经网络GCN进行建模,实时根据电网运行状态给出下一步的电网运行专家策略标准,为实际工程中面对复杂电网建模困难问题提供方向。
(2)本发明通过Dagger算法,通过动态学习专家经验的方法,不断减小强化学习智能体actor网络生成的策略轨迹与专家策略之间的误差,解决了智能体在有监督学习训练时无法完全学到专家策略的问题,同时可解决强化学习智能体在高维连续动作空间存在训练难以收敛情况,提高强化学习训练效率。
(3)本发明提供的电网安全运行策略智能优化算法,由于其基于专家系统训练Actor网络初始化参数以达到专家策略水准,并基于TD3算法训练后的深度强化学习模型,因此能够给出超越专家水准的电网安全运行策略。同时,该方法属于自学习机制,智能化程度较高,可实现提升计算效率、实时性强的目的。
附图说明
图1为本发明步骤2的方法流程图;
图2为本发明专家系统的流程图;
图3为本发明基于Dagger算法训练深度强化学习动作网络的流程图;
图4为本发明基于TD3算法的深度强化学习模型训练流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于深度强化学习的电网安全运行策略智能优化方法,其创新之处在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。
步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,判定专家系统是否处理完所有历史数据,若是,结束专家经验收集,否则返回步骤1.1,若未结束返回步骤1.2。
所述步骤1.2具体包括以下步骤,具体为:如图2:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立领接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入下一步骤;
(5)判定是否满足网损优化条件,若不是,进入步骤(6);若是,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
所述的步骤2包括如下步骤:
步骤2.1,收集训练数据;
步骤2.2,电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3,基于专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4,基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5,训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
所述步骤2.1的收集训练数据,指电网在对潮流收敛性、分布合理性、计算准确性、新能源源利用率进行合理性验证后提供的116820个断面历史数据,包括机组的历史有功出力,机组的历史电压,负荷节点的有功,负荷节点的电压,以及下一时间步新能源机组的有功出力上界。
所述步骤2.2的奖励函数设计,指为满足电网安全、低碳、经济运行的目的所涉及的奖励函数,根据基于奖励函数,对智能体返回的动作进行打分。具体步骤为:
(1)网损优化奖励
Figure BDA0003348794590000101
其中nline表示电网支路个数,Ii和Ti表示支路i的电流和热极限,δ为一常数取值为0.1,避免出现分母为零的情况。
(2)新能源机组消纳量
Figure BDA0003348794590000102
其中nnew表示新能源机组个数,pi表示新能源机组i的实际有功出力,
Figure BDA0003348794590000103
表示新能源机组i在当前时间步的最大出力。
(3)平衡机功率越限
Figure BDA0003348794590000104
Figure BDA0003348794590000105
其中nbalanced表示平衡机个数,p表示平衡机的实际有功出力,pmax表示平衡机的出力上限。
(4)机组运行费用
Figure BDA0003348794590000111
其中n表示机组总个数,pi表示机组i的实际有功出力,a,b,c表示系数。新能源和平衡机没有关机状态,一直保持开机。火电机组的关机状态通过判断机组有功出力是否为零来确定。
(5)无功出力越限
Figure BDA0003348794590000112
Figure BDA0003348794590000113
其中n表示机组总个数,qi表示机组的实际无功出力,
Figure BDA0003348794590000114
表示机组的无功出力上限,
Figure BDA0003348794590000115
表示机组的无功出力下限。
(6)节点电压越限
Figure BDA0003348794590000116
Figure BDA0003348794590000121
其中nsub表示电网节点个数,vi表示节点i的电压值,
Figure BDA0003348794590000122
表示节点i的电压上限,
Figure BDA0003348794590000123
表示节点i的电压下限。
对奖励项r4、r5、r6进行归一化,公式如下:
r=er-1
奖励项r1、r2的域值为[0,1],奖励项r3、r4、r5、r6的域值为[-1,0]。
综上,本实例的奖励函数为:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1
所述步骤2.2的电网运行规则,为本实例遵循的电网运行规则,具体为:
(1)机组有功出力上下限约束:任意机组(除平衡机外)的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限。如果违反,仿真器提示“动作非法”,强制结束该回合。
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值。如果违反,仿真器提示“动作非法”,强制结束该回合。
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率。如果违反,仿真器提示“动作非法”,强制结束该回合。
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0。机组停机后连续40个时间步内不允许重新启动。火电机组启动规则为机组开启前有功出力必须调整至出力下限。机组重新启动后连续40个时间步内不允许停机。
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限。若支路电流越限但未超热稳限值的135%,表示支路“软过载”。若支路电流超热稳限值的135%,表示支路“硬过载”。任意支路连续4个时间步发生“软过载”,则该支路停运。发生“硬过载”则支路立即停运。支路停运16个时间步之后,重新投运。
(6)随机故障:每个时间步中,会有1%联络线支路停运概率,停运16个时间步之后,重新投运。
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励。
(8)电压上下限约束:节点电压超过其上下限则获得负奖励。
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率。潮流计算后,平衡机有功出力大于上限但小于上限的110%,或者,小于下限但大于下限的90%,则获得负奖励。出力大于上限的110%或者小于下限的90%,则回合终止。
所述步骤2.3,具体为如图3:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ
所述步骤2.4的双延迟深度确定性策略梯度算法(TD3),是一种基于Actor-Critic架构的面向连续动作空间的深度强化学习算法。相较于传统深度强化学习算法,其优化部分包括:
(1)双评价网络,解决深度强化学习算法评价网络对动作网络行为过高评价问题;
(2)动作网络延迟更新,使动作网络训练更加稳定;
(3)在动作目标(actortarget)网络加入噪声,增加算法稳定性。
所述步骤3.5具体为如图4,具体为:
(1)环境初始化
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹。
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数。
Actortarget网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critic target网络1、Critictarget网络2输入为(s',a'),输出为Q'。其中Actor网络负责与环境交互并给出运行策略。
本实例中电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压,状态空间共1170维。
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境。
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s'。
(5)将(s,a,r,done,s')五元组存入经验回放池。
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放(PER)方法,选取权重较大的经验元组(s,a,r,done,s')。
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数。将s'输入Actortarget网络,并将Actortarget网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actortarget网络策略轨迹,ε为服从正太分布噪声。
(s',a'+noise)输入Critictarget网络1、Critictarget网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数。将(r,done)传入Loss函数,更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critictarget网络1、Critictarget网络2。Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,本实例设置为0.997,y为Q_target。
其中Loss函数的设计如下:
Figure BDA0003348794590000151
式中,N为从经验池中提取的样本数。Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω。
计算策略梯度,公式如下。
Figure BDA0003348794590000152
式中,
Figure BDA0003348794590000153
为策略梯度,采用梯度上升方式更新Actor网络参数θ。
注意,Actor网络采用延迟更新策略,即Critic网络更新N次,Actor网络更新一次,本实例N为5。
本实例中,为加快模型训练收敛速度,Critic target网络1、Critic target网络2与Critic网络1、Critic网络2采用参数共享的方式。
所述步骤3.5,基于专家系统训练Actor网络初始化参数以达到专家策略水准,并基于TD3算法训练后的深度强化学习模型,能够根据电网实时状态,快速给出电网安全运行策略。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。
2.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,则进入步骤1.6,否则返回步骤1.2;
步骤1.6、判定专家系统是否处理完所有历史数据,若处理完,则结束专家经验收集,否则返回步骤1.1。
3.根据权利要求2所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤1.2具体包括以下步骤:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立领接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入步骤(5);
(5)判定是否满足网损优化条件,若不是,进入步骤(6);否则,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
4.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1、收集训练数据;
步骤2.2、电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3、基于步骤1所收集的专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4、基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5、训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
5.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据,包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。
6.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.2中的奖励函数为:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,
r1为网损优化奖励,r2为新能源机组消纳量,r3为平衡机功率越限,r4为机组运行费用,r5为无功出力越限,r6为节点电压越限;
考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1
7.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.2中电网运行规则为:
(1)机组有功出力上下限约束:任意机组,除平衡机外的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限,如果违反,仿真器提示“动作非法”,强制结束该回合;
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值,如果违反,仿真器提示“动作非法”,强制结束该回合;
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率,如果违反,仿真器提示“动作非法”,强制结束该回合;
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0,机组停机后设计指定时间步内不允许重新启动,火电机组启动规则为机组开启前有功出力必须调整至出力下限,机组重新启动后设计指定时间步内不允许停机;
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限;若支路电流越限但未超热稳限值上限,表示支路“软过载”;若支路电流超热稳限值上限,表示支路“硬过载”;任意支路指定时间步发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运,支路停运指定时间步之后,重新投运;
(6)随机故障:每个时间步中,设计有联络线支路停运概率,停运指定时间步后,重新投运;
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励;
(8)电压上下限约束:节点电压超过其上下限则获得负奖励;
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率,潮流计算后,平衡机有功出力越界但在允许范围之内的,获得负奖励,平衡机有功出力越界且超过允许范围,则回合终止。
8.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.3具体为:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ
9.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.4具体为:
(1)电网环境初始化;
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹;
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数;
Actortarget网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critictarget网络1、Critictarget网络2输入为(s',a'),输出为Q';其中Actor网络负责与环境交互并给出运行策略;
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境;
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s';
(5)将(s,a,r,done,s')五元组存入经验回放池;
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放PER方法,选取权重较大的经验元组(s,a,r,done,s');
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数;将s'输入Actortarget网络,并将Actortarget网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actortarget网络策略轨迹,ε为服从正太分布噪声;
(s',a'+noise)输入Critictarget网络1、Critictarget网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数;将(r,done)传入Loss函数,更新Actor网络、Actor target网络、Critic网络1、Critic网络2、Critictarget网络1、Critictarget网络2;Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,y为Q_target;
其中Loss函数如下:
Figure FDA0003348794580000061
式中,N为从经验池中提取的样本数,Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω;
计算策略梯度,公式如下:
Figure FDA0003348794580000062
式中,
Figure FDA0003348794580000063
为策略梯度,采用梯度上升方式更新Actor网络参数θ。
10.根据权利要求4所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.5的电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压。
CN202111330875.4A 2021-11-11 2021-11-11 一种基于深度强化学习的电网安全运行策略智能优化方法 Active CN114048903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111330875.4A CN114048903B (zh) 2021-11-11 2021-11-11 一种基于深度强化学习的电网安全运行策略智能优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111330875.4A CN114048903B (zh) 2021-11-11 2021-11-11 一种基于深度强化学习的电网安全运行策略智能优化方法

Publications (2)

Publication Number Publication Date
CN114048903A true CN114048903A (zh) 2022-02-15
CN114048903B CN114048903B (zh) 2024-03-26

Family

ID=80208780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111330875.4A Active CN114048903B (zh) 2021-11-11 2021-11-11 一种基于深度强化学习的电网安全运行策略智能优化方法

Country Status (1)

Country Link
CN (1) CN114048903B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114552672A (zh) * 2022-04-26 2022-05-27 阿里巴巴(中国)有限公司 电力系统的数据处理方法和存储介质
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114707613A (zh) * 2022-04-24 2022-07-05 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN114755479A (zh) * 2022-04-06 2022-07-15 南栖仙策(南京)科技有限公司 一种电网调控方法及装置
CN114880932A (zh) * 2022-05-12 2022-08-09 中国电力科学研究院有限公司 一种电网运行环境模拟方法、系统、设备及介质
CN115241885A (zh) * 2022-07-26 2022-10-25 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115528750A (zh) * 2022-11-03 2022-12-27 南方电网数字电网研究院有限公司 一种面向电网安全稳定的数据模型混合驱动机组组合方法
CN115903457A (zh) * 2022-11-02 2023-04-04 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN116562464A (zh) * 2023-07-03 2023-08-08 南京菁翎信息科技有限公司 一种基于深度强化学习的电力系统低碳优化调度方法
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117856284A (zh) * 2023-11-29 2024-04-09 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置
CN117856284B (zh) * 2023-11-29 2024-06-07 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190094532A1 (en) * 2017-09-28 2019-03-28 Carl Zeiss Ag Methods and apparatuses for designing optical systems
US20200063676A1 (en) * 2018-08-21 2020-02-27 Cummins Inc. Deep reinforcement learning for air handling control
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN111179121A (zh) * 2020-01-17 2020-05-19 华南理工大学 基于专家系统与深度逆向强化学习的电网紧急控制方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
US20210003974A1 (en) * 2019-07-02 2021-01-07 Microsoft Technology Licensing, Llc Power grid aware machine learning device
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112701681A (zh) * 2020-12-22 2021-04-23 广东电网有限责任公司电力调度控制中心 一种基于强化学习的电网偶发故障安全调控策略生成方法
CN112994016A (zh) * 2021-03-08 2021-06-18 中国电力科学研究院有限公司 一种用于电力系统潮流的恢复可解性调整方法及系统
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190094532A1 (en) * 2017-09-28 2019-03-28 Carl Zeiss Ag Methods and apparatuses for designing optical systems
US20200063676A1 (en) * 2018-08-21 2020-02-27 Cummins Inc. Deep reinforcement learning for air handling control
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
US20210003974A1 (en) * 2019-07-02 2021-01-07 Microsoft Technology Licensing, Llc Power grid aware machine learning device
CN111179121A (zh) * 2020-01-17 2020-05-19 华南理工大学 基于专家系统与深度逆向强化学习的电网紧急控制方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112701681A (zh) * 2020-12-22 2021-04-23 广东电网有限责任公司电力调度控制中心 一种基于强化学习的电网偶发故障安全调控策略生成方法
CN112994016A (zh) * 2021-03-08 2021-06-18 中国电力科学研究院有限公司 一种用于电力系统潮流的恢复可解性调整方法及系统
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG WENG 等: "Deep Reinforcement Learning for Power Grid Control", PSERC *
康朝海;孙超;荣垂霆;刘鹏云;: "基于动态延迟策略更新的TD3算法", 吉林大学学报(信息科学版), no. 04 *
曾玮;俞蔚捷;徐君;兰艳艳;程学旗;: "模仿排序学习模型", 中文信息学报, no. 01 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114755479A (zh) * 2022-04-06 2022-07-15 南栖仙策(南京)科技有限公司 一种电网调控方法及装置
CN114707613B (zh) * 2022-04-24 2024-03-12 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN114707613A (zh) * 2022-04-24 2022-07-05 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN114552672A (zh) * 2022-04-26 2022-05-27 阿里巴巴(中国)有限公司 电力系统的数据处理方法和存储介质
CN114880932B (zh) * 2022-05-12 2023-03-10 中国电力科学研究院有限公司 一种电网运行环境模拟方法、系统、设备及介质
CN114880932A (zh) * 2022-05-12 2022-08-09 中国电力科学研究院有限公司 一种电网运行环境模拟方法、系统、设备及介质
CN114662798A (zh) * 2022-05-17 2022-06-24 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN114662798B (zh) * 2022-05-17 2022-09-06 浙江大学 一种基于电网经济运行域的调度方法及装置、电子设备
CN115241885A (zh) * 2022-07-26 2022-10-25 中国电力科学研究院有限公司 电网实时调度优化方法、系统、计算机设备及存储介质
CN115903457A (zh) * 2022-11-02 2023-04-04 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN115903457B (zh) * 2022-11-02 2023-09-08 曲阜师范大学 一种基于深度强化学习的低风速永磁同步风力发电机控制方法
CN115528750A (zh) * 2022-11-03 2022-12-27 南方电网数字电网研究院有限公司 一种面向电网安全稳定的数据模型混合驱动机组组合方法
CN116562464A (zh) * 2023-07-03 2023-08-08 南京菁翎信息科技有限公司 一种基于深度强化学习的电力系统低碳优化调度方法
CN116562464B (zh) * 2023-07-03 2023-09-19 南京菁翎信息科技有限公司 一种基于深度强化学习的电力系统低碳优化调度方法
CN117856284A (zh) * 2023-11-29 2024-04-09 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置
CN117856284B (zh) * 2023-11-29 2024-06-07 国家电网有限公司华东分部 基于深度强化学习的电网频率的控制方法及装置
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统

Also Published As

Publication number Publication date
CN114048903B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN114048903A (zh) 一种基于深度强化学习的电网安全运行策略智能优化方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Li et al. Design of a fuzzy-PID controller for a nonlinear hydraulic turbine governing system by using a novel gravitational search algorithm based on Cauchy mutation and mass weighting
CN112862281A (zh) 综合能源系统调度模型构建方法、装置、介质及电子设备
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN115940294B (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
Zou et al. An end-to-end learning of driving strategies based on DDPG and imitation learning
CN114048834B (zh) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN112069504A (zh) 面向深度强化学习对抗攻击的模型增强防御方法
CN103312249A (zh) 一种同步发电机自适应励磁控制方法
Tousi et al. Design of self tuning PID controller based on competitional PSO
CN115102867B (zh) 结合深度强化学习的区块链分片系统性能优化方法
CN104616072A (zh) 一种基于区间优化的提高谷氨酸发酵产物浓度的方法
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
CN111428869A (zh) 模型生成的方法、装置、计算机设备和存储介质
CN112044076B (zh) 一种对象控制方法、装置及计算机可读存储介质
CN115765050A (zh) 一种电力系统安全校正控制方法、系统、设备及存储介质
CN114240144A (zh) 基于生成对抗模仿学习的电力系统动态经济调度系统及方法
CN111859780A (zh) 一种微电网运行优化方法和系统
Liu et al. Model-free load frequency control based on multi-agent deep reinforcement learning
Peng et al. Improving deep reinforcement learning by safety guarding model via hazardous experience planning
Zhang et al. Accelerate deep Q-network learning by n-step backup
Yao et al. Deep reinforcement learning‐based active mass driver decoupled control framework considering control–structure interaction effects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhu Jiebei

Inventor after: Xu Siyang

Inventor after: Me Jun

Inventor after: Hao Yi

Inventor after: Zhang Li

Inventor after: Chen Tianheng

Inventor after: Shen Zhipeng

Inventor after: Chen Binbin

Inventor after: Ou Kaijian

Inventor before: Zhu Jiebei

Inventor before: Xu Siyang

GR01 Patent grant
GR01 Patent grant