CN114048903B - 一种基于深度强化学习的电网安全运行策略智能优化方法 - Google Patents
一种基于深度强化学习的电网安全运行策略智能优化方法 Download PDFInfo
- Publication number
- CN114048903B CN114048903B CN202111330875.4A CN202111330875A CN114048903B CN 114048903 B CN114048903 B CN 114048903B CN 202111330875 A CN202111330875 A CN 202111330875A CN 114048903 B CN114048903 B CN 114048903B
- Authority
- CN
- China
- Prior art keywords
- power grid
- unit
- network
- output
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002787 reinforcement Effects 0.000 title claims abstract description 54
- 238000013486 operation strategy Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 24
- 239000003795 chemical substances by application Substances 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 229910052799 carbon Inorganic materials 0.000 claims description 6
- 230000009194 climbing Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000002347 injection Methods 0.000 claims description 6
- 239000007924 injection Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000026676 system process Effects 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/48—Controlling the sharing of the in-phase component
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/10—Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Power Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及一种基于深度强化学习的电网安全运行策略智能优化方法,包括如下步骤:步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;步骤2、构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。本发明利用双延迟深度确定性策略梯度算法,在智能体进入强化学习训练模块时,在专家系统基础上进一步优化策略,达到超越专家水平的目的。
Description
技术领域
本发明属于电网安全技术领域,涉及一种基于深度强化学习的电网安全运行策略智能优化方法。
背景技术
电网安全运行策略,是根据电网实际运行状态,通过调整电网运行方式,保证电网潮流收敛的方法。电网安全运行策略是电网实现安全、低碳、经济运行的基础。随着电力系统各方面发生快速而深刻的变化,新型电力系统在电力平衡、安全运行、运行控制等方面面临严峻挑战。
在实际工程中,直接根据负荷给定大电网运行方式较为困难,通常采取人工潮流计算和调度的方式,通过分区计算,逐级调整电网潮流。基于模型驱动的传统潮流及优化算法,可协助专业人员解决潮流计算问题和电网调度问题。然而,随着电力系统各方面发生快速而深刻的变化,新型电力系统模型拓扑复杂,传统的潮流及优化算法计算时间较长,实时性难以保证,在电网实际调度时,需要具备专业知识人员进行调控,需要大量人工参与,工作效率受到影响。同时,基于模型驱动的传统潮流及优化算法已无法有效挖掘电力大数据中蕴藏的丰富价值和关联关系,无法满足电网低碳、经济运行。
强化学习(Reinforcement Learning,RL)作为机器学习领域的研究热点,已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。RL的基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略。因此RL方法更加侧重于学习解决问题的策略,被认为是迈向通用人工智能(ArtificialGeneral Intelligence,AGI)的重要途径。基于强化学习的电网安全运行策略智能优化方法,是通过电网历史运行场景数据,利用人工智能方法训练智能体并与仿真器环境交互迭代,快速给出电网安全运行调整策略的方法。
然而,基于电网场景进行强化学习训练,例如在国网SG126节点模型下,共有54个发电机组,存在有功出力及电压调整共108维连续动作空间,智能体存在探索困境问题,训练难以收敛,同时强化学习存在泛化能力较弱的问题。
发明内容
本发明的目的在于解决现有技术的不足,提供一种基于深度强化学习的电网安全运行策略智能优化方法。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。
而且,步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,则进入步骤1.6,否则返回步骤1.2;
步骤1.6、判定专家系统是否处理完所有历史数据,若处理完,则结束专家经验收集,否则返回步骤1.1。
而且,所述步骤1.2具体包括以下步骤:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立邻接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入步骤(5);
(5)判定是否满足网损优化条件,若不是,进入步骤(6);否则,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
而且,所述步骤2包括以下步骤:
步骤2.1、收集训练数据;
步骤2.2、电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3、基于步骤1所收集的专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4、基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5、训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
而且,所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据,包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。
而且,所述步骤2.2中的奖励函数为:
R=α1r1+α2r2+α3r3+α4r4+α5r5+α6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,
r1为网损优化奖励,r2为新能源机组消纳量,r3为平衡机功率越限,r4为机组运行费用,r5为无功出力越限,r6为节点电压越限;
考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
α1=1,α2=2,α3=4,α4=1,α5=1,α6=1。
而且,所述步骤2.2中电网运行规则为:
(1)机组有功出力上下限约束:任意机组,除平衡机外的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限,如果违反,仿真器提示“动作非法”,强制结束该回合;
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值,如果违反,仿真器提示“动作非法”,强制结束该回合;
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率,如果违反,仿真器提示“动作非法”,强制结束该回合;
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0,机组停机后设计指定时间步内不允许重新启动,火电机组启动规则为机组开启前有功出力必须调整至出力下限,机组重新启动后设计指定时间步内不允许停机;
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限;若支路电流越限但未超热稳限值上限,表示支路“软过载”;若支路电流超热稳限值上限,表示支路“硬过载”;任意支路指定时间步发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运,支路停运指定时间步之后,重新投运;
(6)随机故障:每个时间步中,设计有联络线支路停运概率,停运指定时间步后,重新投运;
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励;
(8)电压上下限约束:节点电压超过其上下限则获得负奖励;
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率,潮流计算后,平衡机有功出力越界但在允许范围之内的,获得负奖励,平衡机有功出力越界且超过允许范围,则回合终止。
而且,所述步骤2.3具体为:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1;
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ。
而且,所述步骤2.4具体为:
(1)电网环境初始化;
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹;
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数;
Actor target网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critic target网络1、Critic target网络2输入为(s',a'),输出为Q';其中Actor网络负责与环境交互并给出运行策略;
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境;
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s';
(5)将(s,a,r,done,s')五元组存入经验回放池;
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放PER方法,选取权重较大的经验元组(s,a,r,done,s');
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数;将s'输入Actortarget网络,并将Actortarget网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actor target网络策略轨迹,ε为服从正太分布噪声;
(s',a'+noise)输入Critic target网络1、Critic target网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数;将(r,done)传入Loss函数,更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2;Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,y为Q_target;
其中Loss函数如下:
式中,N为从经验池中提取的样本数,Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω;
计算策略梯度,公式如下:
式中,为策略梯度,采用梯度上升方式更新Actor网络参数θ。
而且,所述步骤2.5的电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压。
本发明的优点和有益效果为:
(1)本发明提供的专家系统,通过电力系统调度经验以及引入图卷积神经网络GCN进行建模,实时根据电网运行状态给出下一步的电网运行专家策略标准,为实际工程中面对复杂电网建模困难问题提供方向。
(2)本发明通过Dagger算法,通过动态学习专家经验的方法,不断减小强化学习智能体actor网络生成的策略轨迹与专家策略之间的误差,解决了智能体在有监督学习训练时无法完全学到专家策略的问题,同时可解决强化学习智能体在高维连续动作空间存在训练难以收敛情况,提高强化学习训练效率。
(3)本发明提供的电网安全运行策略智能优化算法,由于其基于专家系统训练Actor网络初始化参数以达到专家策略水准,并基于TD3算法训练后的深度强化学习模型,因此能够给出超越专家水准的电网安全运行策略。同时,该方法属于自学习机制,智能化程度较高,可实现提升计算效率、实时性强的目的。
附图说明
图1为本发明步骤2的方法流程图;
图2为本发明专家系统的流程图;
图3为本发明基于Dagger算法训练深度强化学习动作网络的流程图;
图4为本发明基于TD3算法的深度强化学习模型训练流程图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
一种基于深度强化学习的电网安全运行策略智能优化方法,其创新之处在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略。
步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,判定专家系统是否处理完所有历史数据,若是,结束专家经验收集,否则返回步骤1.1,若未结束返回步骤1.2。
所述步骤1.2具体包括以下步骤,具体为:如图2:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立邻接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入下一步骤;
(5)判定是否满足网损优化条件,若不是,进入步骤(6);若是,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
所述的步骤2包括如下步骤:
步骤2.1,收集训练数据;
步骤2.2,电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3,基于专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4,基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5,训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
所述步骤2.1的收集训练数据,指电网在对潮流收敛性、分布合理性、计算准确性、新能源源利用率进行合理性验证后提供的116820个断面历史数据,包括机组的历史有功出力,机组的历史电压,负荷节点的有功,负荷节点的电压,以及下一时间步新能源机组的有功出力上界。
所述步骤2.2的奖励函数设计,指为满足电网安全、低碳、经济运行的目的所涉及的奖励函数,根据基于奖励函数,对智能体返回的动作进行打分。具体步骤为:
(1)网损优化奖励
其中nline表示电网支路个数,Ii和Ti表示支路i的电流和热极限,δ为一常数取值为0.1,避免出现分母为零的情况。
(2)新能源机组消纳量
其中nnew表示新能源机组个数,pi表示新能源机组i的实际有功出力,pi表示新能源机组i在当前时间步的最大出力。
(3)平衡机功率越限
其中nbalanced表示平衡机个数,p表示平衡机的实际有功出力,pmax表示平衡机的出力上限。
(4)机组运行费用
其中n表示机组总个数,pi表示机组i的实际有功出力,a,b,c表示系数。新能源和平衡机没有关机状态,一直保持开机。火电机组的关机状态通过判断机组有功出力是否为零来确定。
(5)无功出力越限
其中n表示机组总个数,qi表示机组的实际无功出力,表示机组的无功出力上限,/>表示机组的无功出力下限。
(6)节点电压越限
其中nsub表示电网节点个数,vi表示节点i的电压值,表示节点i的电压上限,表示节点i的电压下限。
对奖励项r4、r5、r6进行归一化,公式如下:
r=er-1
奖励项r1、r2的域值为[0,1],奖励项r3、r4、r5、r6的域值为[-1,0]。
综上,本实例的奖励函数为:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1
所述步骤2.2的电网运行规则,为本实例遵循的电网运行规则,具体为:
(1)机组有功出力上下限约束:任意机组(除平衡机外)的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限。如果违反,仿真器提示“动作非法”,强制结束该回合。
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值。如果违反,仿真器提示“动作非法”,强制结束该回合。
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率。如果违反,仿真器提示“动作非法”,强制结束该回合。
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0。机组停机后连续40个时间步内不允许重新启动。火电机组启动规则为机组开启前有功出力必须调整至出力下限。机组重新启动后连续40个时间步内不允许停机。
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限。若支路电流越限但未超热稳限值的135%,表示支路“软过载”。若支路电流超热稳限值的135%,表示支路“硬过载”。任意支路连续4个时间步发生“软过载”,则该支路停运。发生“硬过载”则支路立即停运。支路停运16个时间步之后,重新投运。
(6)随机故障:每个时间步中,会有1%联络线支路停运概率,停运16个时间步之后,重新投运。
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励。
(8)电压上下限约束:节点电压超过其上下限则获得负奖励。
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率。潮流计算后,平衡机有功出力大于上限但小于上限的110%,或者,小于下限但大于下限的90%,则获得负奖励。出力大于上限的110%或者小于下限的90%,则回合终止。
所述步骤2.3,具体为如图3:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1;
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ。
所述步骤2.4的双延迟深度确定性策略梯度算法(TD3),是一种基于Actor-Critic架构的面向连续动作空间的深度强化学习算法。相较于传统深度强化学习算法,其优化部分包括:
(1)双评价网络,解决深度强化学习算法评价网络对动作网络行为过高评价问题;
(2)动作网络延迟更新,使动作网络训练更加稳定;
(3)在动作目标(actor target)网络加入噪声,增加算法稳定性。
所述步骤3.5具体为如图4,具体为:
(1)环境初始化
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹。
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数。
Actor target网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critic target网络1、Critic target网络2输入为(s',a'),输出为Q'。其中Actor网络负责与环境交互并给出运行策略。
本实例中电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压,状态空间共1170维。
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境。
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s'。
(5)将(s,a,r,done,s')五元组存入经验回放池。
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放(PER)方法,选取权重较大的经验元组(s,a,r,done,s')。
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数。将s'输入Actor target网络,并将Actor target网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actor target网络策略轨迹,ε为服从正太分布噪声。
(s',a'+noise)输入Critic target网络1、Critic target网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数。将(r,done)传入Loss函数,更新Actor网络、Actortarget网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2。Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,本实例设置为0.997,y为Q_target。
其中Loss函数的设计如下:
式中,N为从经验池中提取的样本数。Critic网络1、Critic网络2根据L利用时间差分法(td_error)更新网络参数ω。
计算策略梯度,公式如下。
式中,为策略梯度,采用梯度上升方式更新Actor网络参数θ。
注意,Actor网络采用延迟更新策略,即Critic网络更新N次,Actor网络更新一次,本实例N为5。
本实例中,为加快模型训练收敛速度,Critic target网络1、Critic target网络2与Critic网络1、Critic网络2采用参数共享的方式。
所述步骤3.5,基于专家系统训练Actor网络初始化参数以达到专家策略水准,并基于TD3算法训练后的深度强化学习模型,能够根据电网实时状态,快速给出电网安全运行策略。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (8)
1.一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:包括如下步骤:
步骤1、构建基于专家系统的电网安全运行策略优化模型,利用电网实际的潮流断面信息,基于专家系统,对机组有功出力和机组电压进行调整,给出下一步电网运行的建议,同时记录专家系统处理的电网状态和电网运行调整策略作为专家经验;
步骤2、根据步骤1,构建基于专家系统与深度强化学习的电网安全运行策略智能优化方法,将专家系统和深度强化学习相结合,实现超越专家水平的电网运行调整策略;
步骤1所述基于专家系统的电网安全运行策略优化模型包括以下步骤:
步骤1.1、初始化电网环境,选取初始断面,利用仿真器进行模拟,更新观测空间;
步骤1.2、专家系统根据观测空间得到电网实时运行状态s,对机组有功出力、机组电压、火电机组开关进行调整,并返回给电网环境;
步骤1.3、电网环境利用仿真器进行模拟,返回上一步状态-动作的奖励值r、回合结束标志done、当前步观测空间;
步骤1.4、记录并保存专家系统所选择的电网状态s,电网运行策略a作为专家经验;
步骤1.5、判断回合是否结束,若结束,则进入步骤1.6,否则返回步骤1.2;
步骤1.6、判定专家系统是否处理完所有历史数据,若处理完,则结束专家经验收集,否则返回步骤1.1;
所述步骤2包括以下步骤:
步骤2.1、收集训练数据;
步骤2.2、电网环境设计,包括奖励函数设计及电网运行规则设计;
步骤2.3、基于步骤1所收集的专家经验,利用有监督学习和Dagger算法,对深度强化学习智能体的动作网络进行训练,目的为使智能体在进入深度强化学习训练前达到专家策略水平;
步骤2.4、基于深度强化学习中的双延迟深度确定性策略梯度算法TD3,训练智能体;
步骤2.5、训练完成后的深度强化学习智能体,能够根据电网实时状态,给出电网运行智能安排,实现基于深度强化学习的电网安全运行策略智能优化方法。
2.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤1.2具体包括以下步骤:
(1)根据电网环境和仿真器模拟返回的观测空间o,构建相应的状态空间s,并传递给专家系统;
(2)通过如下公式确定机组有功出力调整值
ΔLoad=Loadt+1-Loadt
ΔPbanlance=Pbanlance-P
ΔP=ΔLoad+ΔPbanlance
式中,Loadt+1为下一时刻负荷所需有功,Loadt为当前时刻负荷所需有功,ΔLoad为负荷调整值,ΔPbanlance为当前时间步平衡机出力超过约束设定值的大小,Pbanlance为当前时间步平衡机出力,P为平衡机约束设定值,ΔP为当前时间步有功出力调整值;
(3)进行机组电压调整判定,判定若出现节点电压大于节点电压上界,全网机组电压调整至1标幺,否则,全网机组电压保持在机组电压上界;
(4)根据状态空间s观测线路状态和线路电流负载率,判定是否出现软过载或随机断线,若是,借鉴图卷积神经网络GCN,建立邻接矩阵,寻找待处理线路的上下游机组进行调整,并在接下来的操作中屏蔽已处理机组,防止二次操作,否则,进入步骤(5);
(5)判定是否满足网损优化条件,若不是,进入步骤(6);否则,借鉴图卷积神经网络GCN,得到火电机组的度矩阵,获得各火电机组出度,公式如下:
ΔPi=ΔPi min if Di<4
式中,ΔPi为火电机组i的有功出力调整值,ΔPi min为火电机组i有功出力调整下限,Di为火电机组i的出度,该方法可优化全网线路电流负载率,达到网损优化的目的;
(6)剩余机组按照基于机组调节能力同比例调整原则进行调整,在调整时,考虑新能源有功出力调整裕度,最大程度满足新能源满发;
(7)查询全网机组有功出力调节后有功出力调整值ΔP是否剩余差值,若有,寻找可开机火电机组开机,增加电网调节能力;否则进入步骤(8);
(8)将全网机组电压调整与有功出力调整动作整理,并将下一步电网运行策略a返回环境。
3.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.1中收集训练数据包括电网在对潮流进行合理性验证后提供的潮流断面历史数据,包括机组的历史有功出力、机组的历史电压、负荷节点的有功、负荷节点的电压以及下一时间步新能源机组的有功出力上界。
4.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.2中的奖励函数为:
R=a1r1+a2r2+a3r3+a4r4+a5r5+a6r6
其中ri表示归一化后的各奖励项,ai表示各奖励项系数,
r1为网损优化奖励,r2为新能源机组消纳量,r3为平衡机功率越限,r4为机组运行费用,r5为无功出力越限,r6为节点电压越限;
考虑电网安全、低碳、经济运行,各项奖励值权重系数为:
a1=1,a2=2,a3=4,a4=1,a5=1,a6=1。
5.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.2中电网运行规则为:
(1)机组有功出力上下限约束:任意机组,除平衡机外的有功出力注入值不能大于有功出力上限,也不能小于有功出力下限,如果违反,仿真器提示“动作非法”,强制结束该回合;
(2)新能源机组最大出力约束:在任意时间步中,新能源机组的有功出力注入值不能大于最大出力值,如果违反,仿真器提示“动作非法”,强制结束该回合;
(3)机组爬坡约束:任意火电机组的有功出力调整值必须小于爬坡速率,如果违反,仿真器提示“动作非法”,强制结束该回合;
(4)机组启停约束:火电机组停运规则为机组停运前机组有功出力必须调整至出力下限,再调整至0,机组停机后设计指定时间步内不允许重新启动,火电机组启动规则为机组开启前有功出力必须调整至出力下限,机组重新启动后设计指定时间步内不允许停机;
(5)支路越限约束:若支路的电流值超过其热稳限值,表示支路电流越限;若支路电流越限但未超热稳限值上限,表示支路“软过载”;若支路电流超热稳限值上限,表示支路“硬过载”;任意支路指定时间步发生“软过载”,则该支路停运;发生“硬过载”则支路立即停运,支路停运指定时间步之后,重新投运;
(6)随机故障:每个时间步中,设计有联络线支路停运概率,停运指定时间步后,重新投运;
(7)机组无功出力上下限约束:当智能体调整机端电压时,机组的无功出力值超过其上下限则获得负奖励;
(8)电压上下限约束:节点电压超过其上下限则获得负奖励;
(9)平衡机上下限约束:系统设置一台平衡机,用于分担控制策略不合理导致的系统不平衡功率,潮流计算后,平衡机有功出力越界但在允许范围之内的,获得负奖励,平衡机有功出力越界且超过允许范围,则回合终止。
6.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.3具体为:
(1)利用专家系统收集的专家经验D={s1,a1,…,sn,an}训练actor网络生成策略μθ(at|st)
(2)利用策略μθ(at|st)得到新状态sn+1;
(3)利用专家系统基于新状态sn+1输出动作an+1,生成新的专家经验Dμ={s1,a1,…,sn,an,sn+1,an+1};
(4)专家经验数据聚合:D←D∪Dμ。
7.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.4具体为:
(1)电网环境初始化;
(2)定义Actor网络输入为电网状态s,输出为电网运行策略a,即
a=μθ(s)
式中,θ为Actor网络参数,μθ为Actor网络策略轨迹;
Critic网络1、Critic网络2输入为(s,a),输出为状态-动作评价值Q,即Qw(s,a),式中,Qw为Critic网络评价方式,ω为网络参数;
Actor target网络输入为下一步电网状态s',输出为下一步电网运行策略a',Critictarget网络1、Critic target网络2输入为(s',a'),输出为Q';其中Actor网络负责与环境交互并给出运行策略;
(3)Actor网络将状态s作为输入,输出电网运行策略a,并返回环境;
(4)环境根据策略,返回奖励值r和回合结束标志done,并返回智能体下一步状态s';
(5)将(s,a,r,done,s')五元组存入经验回放池;
(6)进行网络更新,具体更新方法如下:
在从经验池中采样时,采用优先经验回放PER方法,选取权重较大的经验元组(s,a,r,done,s');
将(s,a)传入Critic网络1,Critic网络2,比较两个网络输出的Q值,用较小的Q传入Loss函数;将s'输入Actor target网络,并将Actor target网络输出的动作a'加高斯噪声,起到策略平滑作用,公式如下:
a′(s′)=clip(μθ′(s′)+clip(ε,-c,c),aLow,aHigh),ε~N(0,σ)
式中,μθ′为Actor target网络策略轨迹,ε为服从正太分布噪声;
(s',a'+noise)输入Critic target网络1、Critic target网络2,比较两个网络输出的Q'值,用较小的Q'传入Loss函数;将(r,done)传入Loss函数,更新Actor网络、Actor target网络、Critic网络1、Critic网络2、Critic target网络1、Critic target网络2;Critic网络输出Q值的优化目标Q_target公式如下:
y=r+γ(1-done)min(Qω′(s′,μθ′(s′)+ε))
ε~clip(N(0,σ),-c,c)
式中,γ为衰减系数,y为Q_target;
其中Loss函数如下:
式中,N为从经验池中提取的样本数,Critic网络1、Critic网络2根据L利用时间差分法更新网络参数ω;
计算策略梯度,公式如下:
式中,为策略梯度,采用梯度上升方式更新Actor网络参数θ。
8.根据权利要求1所述的一种基于深度强化学习的电网安全运行策略智能优化方法,其特征在于:所述步骤2.5的电网状态s包括:机组有功、无功、电压,负荷节点有功、电压,线路始端有功,机组状态,线路状态,线路电流负载率,下一步负荷有功以及全网节点电压。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111330875.4A CN114048903B (zh) | 2021-11-11 | 2021-11-11 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111330875.4A CN114048903B (zh) | 2021-11-11 | 2021-11-11 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114048903A CN114048903A (zh) | 2022-02-15 |
CN114048903B true CN114048903B (zh) | 2024-03-26 |
Family
ID=80208780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111330875.4A Active CN114048903B (zh) | 2021-11-11 | 2021-11-11 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048903B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114755479A (zh) * | 2022-04-06 | 2022-07-15 | 南栖仙策(南京)科技有限公司 | 一种电网调控方法及装置 |
CN114707613B (zh) * | 2022-04-24 | 2024-03-12 | 西安交通大学 | 基于分层的深度策略梯度网络的电网调控方法 |
CN114552672B (zh) * | 2022-04-26 | 2022-08-12 | 阿里巴巴(中国)有限公司 | 电力系统的数据处理方法和存储介质 |
CN114880932B (zh) * | 2022-05-12 | 2023-03-10 | 中国电力科学研究院有限公司 | 一种电网运行环境模拟方法、系统、设备及介质 |
CN114662798B (zh) * | 2022-05-17 | 2022-09-06 | 浙江大学 | 一种基于电网经济运行域的调度方法及装置、电子设备 |
CN115241885B (zh) * | 2022-07-26 | 2022-12-20 | 中国电力科学研究院有限公司 | 电网实时调度优化方法、系统、计算机设备及存储介质 |
CN115903457B (zh) * | 2022-11-02 | 2023-09-08 | 曲阜师范大学 | 一种基于深度强化学习的低风速永磁同步风力发电机控制方法 |
CN115528750B (zh) * | 2022-11-03 | 2023-04-07 | 南方电网数字电网研究院有限公司 | 一种面向电网安全稳定的数据模型混合驱动机组组合方法 |
CN116562464B (zh) * | 2023-07-03 | 2023-09-19 | 南京菁翎信息科技有限公司 | 一种基于深度强化学习的电力系统低碳优化调度方法 |
CN117856284B (zh) * | 2023-11-29 | 2024-06-07 | 国家电网有限公司华东分部 | 基于深度强化学习的电网频率的控制方法及装置 |
CN117477607B (zh) * | 2023-12-28 | 2024-04-12 | 国网江西综合能源服务有限公司 | 一种含智能软开关的配电网三相不平衡治理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112186743A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的动态电力系统经济调度方法 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
CN112701681A (zh) * | 2020-12-22 | 2021-04-23 | 广东电网有限责任公司电力调度控制中心 | 一种基于强化学习的电网偶发故障安全调控策略生成方法 |
CN112994016A (zh) * | 2021-03-08 | 2021-06-18 | 中国电力科学研究院有限公司 | 一种用于电力系统潮流的恢复可解性调整方法及系统 |
CN113159341A (zh) * | 2021-04-23 | 2021-07-23 | 中国电力科学研究院有限公司 | 融合深度强化学习和专家经验的配电网辅助决策方法及系统 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102017122636A1 (de) * | 2017-09-28 | 2019-03-28 | Carl Zeiss Ag | Verfahren und Vorrichtungen zum Entwerfen optischer Systeme |
US11002202B2 (en) * | 2018-08-21 | 2021-05-11 | Cummins Inc. | Deep reinforcement learning for air handling control |
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
US11334036B2 (en) * | 2019-07-02 | 2022-05-17 | Microsoft Technology Licensing, Llc | Power grid aware machine learning device |
-
2021
- 2021-11-11 CN CN202111330875.4A patent/CN114048903B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112186743A (zh) * | 2020-09-16 | 2021-01-05 | 北京交通大学 | 一种基于深度强化学习的动态电力系统经济调度方法 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
CN112701681A (zh) * | 2020-12-22 | 2021-04-23 | 广东电网有限责任公司电力调度控制中心 | 一种基于强化学习的电网偶发故障安全调控策略生成方法 |
CN112994016A (zh) * | 2021-03-08 | 2021-06-18 | 中国电力科学研究院有限公司 | 一种用于电力系统潮流的恢复可解性调整方法及系统 |
CN113159341A (zh) * | 2021-04-23 | 2021-07-23 | 中国电力科学研究院有限公司 | 融合深度强化学习和专家经验的配电网辅助决策方法及系统 |
CN113392396A (zh) * | 2021-06-11 | 2021-09-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
Non-Patent Citations (3)
Title |
---|
Deep Reinforcement Learning for Power Grid Control;Yang Weng 等;PSERC;全文 * |
基于动态延迟策略更新的TD3算法;康朝海;孙超;荣垂霆;刘鹏云;;吉林大学学报(信息科学版)(第04期);全文 * |
模仿排序学习模型;曾玮;俞蔚捷;徐君;兰艳艳;程学旗;;中文信息学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114048903A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114048903B (zh) | 一种基于深度强化学习的电网安全运行策略智能优化方法 | |
Xin-gang et al. | An improved quantum particle swarm optimization algorithm for environmental economic dispatch | |
Li et al. | Design of a fuzzy-PID controller for a nonlinear hydraulic turbine governing system by using a novel gravitational search algorithm based on Cauchy mutation and mass weighting | |
CN105207253B (zh) | 考虑风电及频率不确定性的agc随机动态优化调度方法 | |
CN112131206B (zh) | 一种多模型数据库OrientDB参数配置自动调优方法 | |
CN112670984A (zh) | 一种基于改进鲸鱼算法的电力系统经济负荷分配方法 | |
CN112132379B (zh) | 考虑经济性的新能源跨区域消纳评估方法和存储介质 | |
CN104682392A (zh) | 计及线路安全约束的省网agc机组动态优化调度方法 | |
CN115765050A (zh) | 一种电力系统安全校正控制方法、系统、设备及存储介质 | |
CN116760047A (zh) | 基于安全强化学习算法的配电网电压无功控制方法及系统 | |
CN116207750A (zh) | 一种基于深度确定性策略梯度算法的配电网无功优化方法 | |
CN116520909A (zh) | 哈里斯鹰算法优化模糊pid参数的高值耗材柜温度控制方法 | |
CN114094592A (zh) | 电网紧急切负荷控制方法、系统、设备及存储介质 | |
CN114240144A (zh) | 基于生成对抗模仿学习的电力系统动态经济调度系统及方法 | |
CN116523327A (zh) | 一种基于强化学习的配电网运行策略智能生成方法及设备 | |
CN114566971A (zh) | 一种基于近端策略优化算法的实时最优潮流计算方法 | |
CN113627533B (zh) | 一种基于强化学习的电力设备检修决策生成方法 | |
CN117833263A (zh) | 一种基于ddpg的新能源电网电压控制方法及系统 | |
CN117291390A (zh) | 一种基于SumTree-TD3算法的调度决策模型建立方法 | |
CN116995645A (zh) | 基于保护机制强化学习的电力系统安全约束经济调度方法 | |
CN116963461A (zh) | 一种机房空调的节能方法和装置 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
Shi et al. | DDPG-based load frequency control for power systems with renewable energy by DFIM pumped storage hydro unit | |
CN115526504A (zh) | 泵站供水系统节能调度方法、系统、电子设备及存储介质 | |
CN115133549A (zh) | 基于深度强化学习的风电机组电网惯量支撑方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhu Jiebei Inventor after: Xu Siyang Inventor after: Me Jun Inventor after: Hao Yi Inventor after: Zhang Li Inventor after: Chen Tianheng Inventor after: Shen Zhipeng Inventor after: Chen Binbin Inventor after: Ou Kaijian Inventor before: Zhu Jiebei Inventor before: Xu Siyang |
|
GR01 | Patent grant | ||
GR01 | Patent grant |