CN115293052A - 电力系统有功潮流在线优化控制方法、存储介质和装置 - Google Patents

电力系统有功潮流在线优化控制方法、存储介质和装置 Download PDF

Info

Publication number
CN115293052A
CN115293052A CN202211065637.XA CN202211065637A CN115293052A CN 115293052 A CN115293052 A CN 115293052A CN 202211065637 A CN202211065637 A CN 202211065637A CN 115293052 A CN115293052 A CN 115293052A
Authority
CN
China
Prior art keywords
neural network
power flow
active power
online optimization
power grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211065637.XA
Other languages
English (en)
Inventor
郭骏
郭磊
张勇
宁剑
郭万舒
李敏
王艺博
陈茂源
胡满
喻乐
訾鹏
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Grid Co Ltd
Original Assignee
North China Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Grid Co Ltd filed Critical North China Grid Co Ltd
Priority to CN202211065637.XA priority Critical patent/CN115293052A/zh
Publication of CN115293052A publication Critical patent/CN115293052A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/48Controlling the sharing of the in-phase component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种电力系统有功潮流在线优化控制方法、存储介质和装置,其中方法包括构建有功潮流在线优化模型,并配置为马尔可夫决策过程;利用历史数据对马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体;利用电网环境对仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器;将电力系统的实时状态参数作为有功潮流在线优化控制器的输入,经运算输出发电机最优决策,将发电机最优决策作用在对应发电机中,实现实时最优控制。本发明通过“状态——动作——奖励”的交互训练框架,得到了有功潮流最优控制在线模型,尤其在面对大规模电力系统时,可实时做出发电机最优出力控制,在满足电力系统运行约束的条件下,降低系统发电机出力成本。

Description

电力系统有功潮流在线优化控制方法、存储介质和装置
技术领域
本发明涉及电网有功潮流优化控制技术领域,特别涉及一种电力系统有功潮流在线优化控制方法、存储介质和装置。
背景技术
近年来,人工智能、数据驱动相关技术的推进,使得基于人工智能的优化方法在电力系统中得到了广泛应用。电力系统有功潮流优化的目标就是在充分满足电网安全运营约束下,最小化发电机出力成本。电力系统的有功潮流优化往往包含了多个不同的变量、多个约束,是一个典型的非线性、高维度问题。在对于传统电力系统中的有功和优化研究中,常用的计算方法包括非线性规划、二次规划、牛顿法等;此外,用于非线性复杂空间中采取随机或近似随机方式寻找最优求解的算法,比如遗传算法、模拟退火算法、粒子群算法等也广泛应用于对有功优化的求解中。这些方法存在计算速度慢、易陷入局部最优、依赖于模型与预测数据等问题。随着配电网规模的增加以及有功可控设备装置数量的增多,使得传统方法求解有功优化问题的复杂度大大提高,不再适用于在线控制的有功优化求解。
传统的OPF模型求解速度慢,无法满足新型电力系统下的控制需求。在实现收敛方面具有时间紧迫性,尤其当系统规模越来越大。同时,传统思路根据当前时间断面的状态通过解OPF算法求出单步最优解,但是无法解决连续时间断面下的最优控制。
发明内容
为了解决上述问题,本发明提供一种电力系统有功潮流在线优化控制方法、存储介质和装置。基于深度强化学习的框架对智能体神经网络进行训练,实现对电力系统有功潮流进行优化控制的目的。
本发明第一方面,提供一种电力系统有功潮流在线优化控制方法,包括以下步骤,
构建有功潮流在线优化模型,并配置为马尔可夫决策过程;
利用历史数据对所述马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体;
利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器;
将电力系统的实时状态参数作为所述有功潮流在线优化控制器的输入,所述有功潮流在线优化控制器输出发电机最优决策,将所述发电机最优决策作用在对应的发电机中,实现实时最优控制。
本发明采用机器学习算法,利用历史数据对有功潮流在线优化模型进行预训练,然后利用深度强化学习算法根据实时的电网状态,对电力系统有功潮流进行优化控制。
在一些实施例中,所述马尔可夫决策过程中的参数包括电网状态参数、发电机动作参数、奖励值、状态转移以及折扣因子。
在一些实施例中,所述利用历史数据对马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体具体包括,
将电网状态和对应负荷的历史数据作为交流最优潮流求解器的输入,得到对应场景下的发电机最优动作,形成专家经验数据;
对所述专家经验数据经进行重组,将电网状态参数作为特征、所述发电机最优动作作为标签进行分类,然后将所述特征作为所述马尔可夫决策过程智能体的输入、所述标签作为所述马尔可夫决策过程智能体的输出对其神经网络进行预训练;
更新所述神经网络的权重与偏差,直到该神经网络的损失函数收敛,经过预训练的所述神经网络即为仿真电网环境智能体。
进一步的,所述损失函数为
Figure BDA0003828291950000021
其中,μθ(at∣st)为神经网络θ的输出,at为选择的动作,st为当前状态,
Figure BDA0003828291950000022
为真实的动作选择,NIL为数据数量,Dmant为状态动作集合。
在一些实施例中,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的步骤采用基于off-policy的PPO算法,PPO算法的框架包括Actor神经网络与Critic神经网络,将所述Actor神经网络作为仿真电网环境智能体,所述Actor神经网络学习随机优化策略函数,产生决策动作并与环境交互获得奖励,所述Critic神经网络拟合价值函数产生状态/动作价值,评估Actor神经网络的表现并指导Actor神经网络下一阶段的动作。
进一步的,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的过程包括,
将所述仿真电网环境智能体从电网中获取的电网状态参数、发电机动作参数和奖励值作为一个元组存入经验池,初始化所述经验池与随机种子;
采集每一时间步长的电网状态、仿真电网环境智能体动作、奖励值以及下一时间步长的电网状态;
当前幕结束后,计算当前幕的累计折扣回报以及优势函数;
利用裁剪方式计算Actor神经网络的损失函数,对所述Actor神经网络进行更新;
计算Critic神经网络的损失函数并更新,直到Critic神经网络的损失函数值小于设定的阈值,此时的Actor神经网络即为有功潮流在线优化控制器。
更进一步的,所述当前幕的累计折扣回报为
Ri,t=ri,t+γri,t+1+…+γT-t-1ri,T-1
其中,ri,t为t时刻获得的即时奖励;γ为折扣因子,表示仿真电网环境智能体对奖励的远视程度;
当前幕的优势函数为
Figure BDA0003828291950000031
其中,Vπ(st+k)是指在Critic神经网络的视角下,当前策略状态st+k的状态价值,γ为折扣因子,rt为t时刻获得的即时奖励。
在一些实施例中,所述电力系统的实时状态参数包括节点负荷、节点电压和发电机出力。
本发明第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面所提供的任意一个实施例的电力系统有功潮流在线优化控制方法。
本发明第三方面,提供一种装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第二方面所提供的任意一个实施例的电力系统有功潮流在线优化控制方法。
本发明的有益效果主要表现在:通过设计“状态——动作——奖励”的交互训练框架,得到了电力系统有功潮流最优控制在线模型,尤其是在面对大规模电力系统时,可以实时做出发电机最优出力控制,在满足电力系统运行约束的条件下,降低系统发电机出力成本。具体有:
1.将已有的人工经验结合到模型训练框架中,对马尔可夫决策过程智能体神经网络进行预训练,避免了训练开始阶段的无效动作,提高了训练效率,保证了模型优化结果;
2.本发明在深度强化学习框架下,依据马尔可夫决策过程,对电力系统不同负荷水平下的最优潮流计算问题做了环境建模。同时整体设计了最优潮流计算自动调整模型的训练方案且训练得到了最终模型。通过仿真实验证明,该方法能够在不同负荷水平下自动给出电网最优潮流计算调整方案,且能保证系统内平衡机有功出力在额定范围内,发电机出力成本也维持在一个较低水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例电力系统有功潮流在线优化控制方法流程图;
图2为图1实施例中有功潮流在线优化模型的总体框架图;
图3为图1实施例中训练阶段框架图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供的一种可以对电力系统有功潮流进行在线优化控制的办法,基于深度强化学习的框架对智能体神经网络进行训练,实现对电力系统有功潮流的实时控制。
本实施例的方法基于数据驱动,采用基于Actor-Critic的框架,进行离线训练和在线决策,使用历史数据对智能体进行离线训练,训练完成后的智能体根据实时电网运行数据进行在线决策。具体的,该方法的技术方案分为三部分:预训练、强化训练和在线应用。
本实施例电力系统有功潮流在线优化控制方法,流程如图1所示,包括以下步骤:
S1、构建有功潮流在线优化模型,并配置为马尔可夫决策过程。
电力系统有功潮流最优控制问题可以建模成一个给定电力负荷值,寻找最优发电机功率组合的序贯决策问题。而马尔可夫决策过程是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报,其包括一组交互对象,即智能体和环境。
在一些实施方式中,马尔可夫决策过程中的参数包括电网状态参数、发电机动作参数、奖励值、状态转移以及折扣因子。其中电网状态参数包括电力系统节点电压、节点负荷和发电机出力;发电机动作参数包括发电机有功出力调整量以及电压调整量;奖励值同时考虑发电成本、节点电压约束和线路容量约束;状态转移通过潮流计算表示。
S2、利用历史数据对马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体。
由于马尔可夫决策过程智能体的状态动作空间维度会随着系统规模的扩大而提高,这会造成奖励稀疏的问题,使智能体的训练开始阶段很难获得有效信息从而降低训练效率。因此,本实施例利用已有的人工经验对智能体神经网络进行预训练,使其从一个可以初步解决电网最优潮流控制的网络参数状态下开始训练,避免了智能体在随机参数下产生的无效动作,而从极大的提高的训练效率。
S3、利用电网环境对仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器。
基于深度强化学习的框架,将预训练得到的模型载入深度强化学习的智能体中,且通过试验与试错的方式和电网环境不断进行交互,以奖励最大化为目的进行更新优化。
S4、将电力系统的实时状态参数作为有功潮流在线优化控制器的输入,经过运算,控制器输出发电机最优决策,将所述发电机最优决策作用在对应的发电机中,实现实时最优控制。
最终,将经过强化训练的仿真电网环境智能体作为电力系统有功潮流在线优化的控制器,实时接收来自电力系统的实时状态,并以此做出最优控制决策,实现电力系统的实时有功潮流最优控制。
由于大规模电力系统的有功潮流在线优化控制下的动作状态空间大,且电力系统有着强约束特性,局部的故障及越限便有可能引起整个系统的崩溃,因此智能体在训练初始阶段很难获得正确的经验,导致训练效率低下。因此首先通过利用已有的人工经验对神经网络进行预训练,将状态映射到动作,解决奖励稀疏的问题。因此,在一些实施方式中,步骤S1包括,
S11、将电网状态和对应负荷的历史数据作为交流最优潮流求解器的输入,得到对应场景下的发电机最优动作,形成大量的专家经验数据。
S12、对专家经验数据经进行重组,将电网状态参数作为特征、发电机最优动作作为标签进行分类,然后将所述特征作为马尔可夫决策过程智能体的输入、所述标签作为马尔可夫决策过程智能体的输出对其神经网络进行预训练。
S13、更新所述神经网络的权重与偏差,直到该神经网络的损失函数收敛,经过预训练的神经网络即为仿真电网环境智能体。
预训练的训练过程可以视为一个回归问题,把以下公式作为损失函数,利用一阶求解器——随机梯度下降进行训练更新神经网络的权重与偏差。
Figure BDA0003828291950000051
其中,μθ(at∣st)为神经网络θ的输出,at为选择的动作,st为当前状态,
Figure BDA0003828291950000052
为真实的动作选择,NIL为数据数量,Dmant为状态动作集合。
将通过预训练得到的神经网络权重偏差参数作为深度强化学习策略神经网络的权重参数,作为强化训练的“热启动”。在一些实施方式中,采用基于off-policy的PPO算法,PPO算法的框架包括Actor神经网络与Critic神经网络,将Actor神经网络作为仿真电网环境智能体,所述Actor神经网络学习随机优化策略函数,产生决策动作并与环境交互获得奖励,所述Critic神经网络拟合价值函数产生状态/动作价值,评估Actor神经网络的表现并指导Actor神经网络下一阶段的动作。也就是Critic通过Q网络计算状态/动作价值,而Actor利用状态/动作价值迭代更新策略函数的参数,进而选择动作并得到反馈和新的状态。Critic使用反馈和新的状态更新Q网络参数,并使用新的网络参数来帮Actor计算更准确的状态/动作价值。
基于off-policy的PPO算法由图2可知,在每次幕中,智能体都会与环境进行交互,并将获得的状态、动作、奖励等参数作为一个元组存入经验池中。在经验池的元组满足一定数量时开始训练,其中,为了充分利用历史数据并反映每个动作的真实的权重,利用重要性采样的方式获取每个动作的相对权重。在策略函数更新时,为了防止前后两个策略函数的分布相差太大,采用裁剪的方式限制策略更新的步长。
具体的,步骤S2包括,
S21、将仿真电网环境智能体从电网中获取的电网状态参数、发电机动作参数和奖励值作为一个元组存入经验池,初始化所述经验池与随机种子。
具体的,经预训练得到的神经网络作为Actor神经网络,Actor神经网络即是与电网仿真环境进行交互的智能体,加载Actor神经网络,初始化Critic神经网络。
S22、采集每一时间步长的电网状态、仿真电网环境智能体动作、奖励值以及下一时间步长的电网状态;
S23、当前幕结束后,计算当前幕的累计折扣回报以及优势函数;
具体的,当前幕的累计折扣回报为
Ri,t=ri,t+γri,t+1+…+γT-t-1ri,T-1
其中,ri,t为t时刻获得的即时奖励;γ为折扣因子,表示仿真电网环境智能体对奖励的远视程度;
当前幕的优势函数为
Figure BDA0003828291950000061
其中,Vπ(st+k)是指在Critic神经网络的视角下,当前策略状态st+k的状态价值,γ为折扣因子,rt为t时刻获得的即时奖励。
S24、利用裁剪方式计算Actor神经网络的损失函数,对所述Actor神经网络进行更新;
Actor神经网络的损失函数公式如下所示:
Figure BDA0003828291950000071
其中,pθ(at∣st)指当前策略下的动作选择概率,
Figure BDA0003828291950000072
指策略更新前的动作选择概率,
Figure BDA0003828291950000073
为状态的优势函数,ε为裁剪范围,clip()为裁剪函数。
S25、计算Critic神经网络的损失函数并更新,直到Critic神经网络的损失函数值小于设定阈值,此时的Actor神经网络即为有功潮流在线优化控制器。
Critic神经网络的损失函数为
Figure BDA0003828291950000074
Figure BDA0003828291950000075
其中,Vπ(st)是状态价值函数,yt为当前幕的累计折扣回报,ηQ为神经网络的单步更新步长,θ为Critic神经网络的参数,M为数据数量。
需要说明的是,在步骤S23之后、步骤S24之前,还可以包括以下步骤:
步骤23'、为了提高数据的利用率,基于重要性采样的方法对收集到的数据进行重复利用,即对步骤5得到的优势函数进行修饰,公式如下所示:
Figure BDA0003828291950000076
其中,pθ(at∣st)指当前策略下的动作选择概率,
Figure BDA0003828291950000077
指策略更新前的动作选择概率,
Figure BDA0003828291950000078
为优势函数。
经过上述强化训练后的模型可以在线应用了,具体的,将经过强化训练后的Actor神经网络作为电力系统有功潮流在线优化控制器。在电力系统实际运行中,将电力系统的实时状态,包括节点负荷、节点电压、发电机出力输入到控制器中,控制器输出相应的发电机最优决策,并将此决策作用在对应的发电机中,实现实时最优控制。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种装置,包括存储器和处理器,存储器中存储有算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,相应的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电力系统有功潮流在线优化控制方法,其特征在于,包括以下步骤,
构建有功潮流在线优化模型,并配置为马尔可夫决策过程;
利用历史数据对所述马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体;
利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器;
将电力系统的实时状态参数作为所述有功潮流在线优化控制器的输入,所述有功潮流在线优化控制器输出发电机最优决策,将所述发电机最优决策作用在对应的发电机中,实现实时最优控制。
2.根据权利要求1所述的电力系统有功潮流在线优化控制方法,其特征在于,所述马尔可夫决策过程中的参数包括电网状态参数、发电机动作参数、奖励值、状态转移以及折扣因子。
3.根据权利要求2所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用历史数据对马尔可夫决策过程智能体进行预训练,得到仿真电网环境智能体具体包括,
将电网状态和对应负荷的历史数据作为交流最优潮流求解器的输入,得到对应场景下的发电机最优动作,形成专家经验数据;
对所述专家经验数据经进行重组,将电网状态参数作为特征、所述发电机最优动作作为标签进行分类,然后将所述特征作为所述马尔可夫决策过程智能体的输入、所述标签作为所述马尔可夫决策过程智能体的输出对其神经网络进行预训练;
更新所述神经网络的权重与偏差,直到该神经网络的损失函数收敛,经过预训练的所述神经网络即为仿真电网环境智能体。
4.根据权利要求3所述的电力系统有功潮流在线优化控制方法,其特征在于,所述损失函数为
Figure FDA0003828291940000011
其中,μθ(at∣st)为神经网络θ的输出,at为选择的动作,st为当前状态,
Figure FDA0003828291940000012
为真实的动作选择,NIL为数据数量,Dmant为状态动作集合。
5.根据权利要求2所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的步骤采用基于off-policy的PPO算法,PPO算法的框架包括Actor神经网络与Critic神经网络,将所述Actor神经网络作为仿真电网环境智能体,所述Actor神经网络学习随机优化策略函数,产生决策动作并与环境交互获得奖励,所述Critic神经网络拟合价值函数产生状态/动作价值,评估Actor神经网络的表现并指导Actor神经网络下一阶段的动作。
6.根据权利要求5所述的电力系统有功潮流在线优化控制方法,其特征在于,所述利用电网环境对所述仿真电网环境智能体进行强化训练,得到有功潮流在线优化控制器的过程包括,
将所述仿真电网环境智能体从电网中获取的电网状态参数、发电机动作参数和奖励值作为一个元组存入经验池,初始化所述经验池;
采集每一时间步长的电网状态、仿真电网环境智能体动作、奖励值以及下一时间步长的电网状态;
当前幕结束后,计算当前幕的累计折扣回报以及优势函数;
利用裁剪方式计算Actor神经网络的损失函数,对所述Actor神经网络进行更新;
计算Critic神经网络的损失函数并更新,直到Critic神经网络的损失函数值小于设定阈值,此时的Actor神经网络即为有功潮流在线优化控制器。
7.根据权利要求6所述的电力系统有功潮流在线优化控制方法,其特征在于,所述当前幕的累计折扣回报为
Ri,t=ri,t+γri,t+1+…+γT-t-1ri,T-1
其中,ri,t为t时刻获得的即时奖励;γ为折扣因子,表示仿真电网环境智能体对奖励的远视程度;
当前幕的优势函数为
Figure FDA0003828291940000021
其中,Vπ(st+k)是指在Critic神经网络的视角下,当前策略状态st+k的状态价值,γ为折扣因子,rt为t时刻获得的即时奖励。
8.根据权利要求1所述的电力系统有功潮流在线优化控制方法,其特征在于,所述电力系统的实时状态参数包括节点负荷、节点电压和发电机出力。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任意一项所述的方法的步骤。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。
CN202211065637.XA 2022-09-01 2022-09-01 电力系统有功潮流在线优化控制方法、存储介质和装置 Pending CN115293052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211065637.XA CN115293052A (zh) 2022-09-01 2022-09-01 电力系统有功潮流在线优化控制方法、存储介质和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211065637.XA CN115293052A (zh) 2022-09-01 2022-09-01 电力系统有功潮流在线优化控制方法、存储介质和装置

Publications (1)

Publication Number Publication Date
CN115293052A true CN115293052A (zh) 2022-11-04

Family

ID=83832364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211065637.XA Pending CN115293052A (zh) 2022-09-01 2022-09-01 电力系统有功潮流在线优化控制方法、存储介质和装置

Country Status (1)

Country Link
CN (1) CN115293052A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116961139A (zh) * 2023-09-19 2023-10-27 南方电网数字电网研究院有限公司 一种电力系统的调度方法、调度装置和电子装置
CN116317110B (zh) * 2023-01-17 2023-11-14 中国电力科学研究院有限公司 考虑源荷双侧波动的电网调度操作预演方法和系统
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质
CN117833353A (zh) * 2023-11-30 2024-04-05 国家电网有限公司华东分部 电网有功控制智能体的仿真训练方法、装置及设备
CN118017523A (zh) * 2024-04-09 2024-05-10 杭州鸿晟电力设计咨询有限公司 一种电力系统的电压控制方法、装置、设备及介质
CN118466257A (zh) * 2024-07-15 2024-08-09 哈尔滨工业大学 基于数据-知识互补决策和自动切换的调控方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116317110B (zh) * 2023-01-17 2023-11-14 中国电力科学研究院有限公司 考虑源荷双侧波动的电网调度操作预演方法和系统
CN116961139A (zh) * 2023-09-19 2023-10-27 南方电网数字电网研究院有限公司 一种电力系统的调度方法、调度装置和电子装置
CN116961139B (zh) * 2023-09-19 2024-03-19 南方电网数字电网研究院有限公司 一种电力系统的调度方法、调度装置和电子装置
CN117335414A (zh) * 2023-11-24 2024-01-02 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质
CN117335414B (zh) * 2023-11-24 2024-02-27 杭州鸿晟电力设计咨询有限公司 一种电力系统交流最优潮流决策方法、装置、设备及介质
CN117833353A (zh) * 2023-11-30 2024-04-05 国家电网有限公司华东分部 电网有功控制智能体的仿真训练方法、装置及设备
CN118017523A (zh) * 2024-04-09 2024-05-10 杭州鸿晟电力设计咨询有限公司 一种电力系统的电压控制方法、装置、设备及介质
CN118466257A (zh) * 2024-07-15 2024-08-09 哈尔滨工业大学 基于数据-知识互补决策和自动切换的调控方法及装置

Similar Documents

Publication Publication Date Title
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN111884213B (zh) 一种基于深度强化学习算法的配电网电压调节方法
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Gorostiza et al. Deep reinforcement learning-based controller for SOC management of multi-electrical energy storage system
CN112117760A (zh) 基于双q值网络深度强化学习的微电网能量调度方法
CN114725936A (zh) 基于多智能体深度强化学习的配电网优化方法
CN114362187B (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN116451880B (zh) 一种基于混合学习的分布式能源优化调度方法及装置
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN116207750A (zh) 一种基于深度确定性策略梯度算法的配电网无功优化方法
Han et al. Lightweight actor-critic generative adversarial networks for real-time smart generation control of microgrids
CN115085202A (zh) 电网多区域智能功率协同优化方法、装置、设备及介质
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN111917134A (zh) 一种基于数据驱动的配电网动态自主重构方法及系统
CN115765050A (zh) 一种电力系统安全校正控制方法、系统、设备及存储介质
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN117933673A (zh) 线路巡视的规划方法、装置和线路巡视规划系统
CN116826762B (zh) 智能配电网电压安全控制方法、装置、设备及其介质
CN117833263A (zh) 一种基于ddpg的新能源电网电压控制方法及系统
CN117200225A (zh) 考虑涵盖电动汽车集群的配电网优化调度方法及相关装置
CN115276067B (zh) 一种适应配电网拓扑动态变化的分布式储能电压调节方法
CN116722541A (zh) 一种基于卷积神经网络的电力系统负荷预测方法及装置
CN114048576B (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination