CN116470511A - 基于深度强化学习的线路潮流控制方法 - Google Patents

基于深度强化学习的线路潮流控制方法 Download PDF

Info

Publication number
CN116470511A
CN116470511A CN202310339435.8A CN202310339435A CN116470511A CN 116470511 A CN116470511 A CN 116470511A CN 202310339435 A CN202310339435 A CN 202310339435A CN 116470511 A CN116470511 A CN 116470511A
Authority
CN
China
Prior art keywords
environment
action
line
flow control
rewards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310339435.8A
Other languages
English (en)
Inventor
龙云
王海
刘璐豪
卢有飞
吴任博
张扬
赵宏伟
陈明辉
张少凡
邹时容
蔡燕春
刘璇
汪希玥
柯德平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202310339435.8A priority Critical patent/CN116470511A/zh
Publication of CN116470511A publication Critical patent/CN116470511A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及基于深度强化学习的线路潮流控制方法,包括步骤:S1、电力系统线路潮流控制建模,通过电力系统线路潮流控制模型最小化元件有功调整的控制代价,通过调节可控元件的出力,使系统潮流重新分配;S2、强化学习环境建模,根据马尔可夫决策过程构成的要求,进行电力系统环境建模中环境状态量、动作、状态转移、奖励以及折扣因子的设置;S3、采用SAC强化学习算法进行智能体训练,通过与环境交互得到奖励,找到最优策略,使得奖励的期望最大。本发明面向负荷波动与预想事件发生后带来的线路潮流越限场景,以具备调整能力的机组作为控制对象,训练出提供机组调整量方案的智能体,来实现线路潮流控制的最小调整代价并满足电力系统安全性要求。

Description

基于深度强化学习的线路潮流控制方法
技术领域
本发明涉及线路流量控制技术领域,尤其涉及基于深度强化学习的线路潮流控制方法。
背景技术
由于可再生资源和自然灾难的间歇性和不确定性,现代电网运行的安全性经常受到挑战。在区域电力不平衡的严重运行条件下,违反线路流量限制的情况可能在短时间内发生。因此,制定有效的控制决策来迅速缓解这种违反行为是必要的,以避免电力线跳闸和潜在的连带停电。由于电力从断线的线路转移到周围的网络,可能会导致进一步过载和跳闸,从而引发连环故障。因此,为了确保整个电力系统的安全,实时线路潮流控制成为当务之急。
传统调度控制中,多以建立数学模型后使用传统优化算法求解最优解。依赖全系统模型,当系统受到大的干扰时,这些模型可能是不准确的。电力系统是复杂的、非线性的、高维的,使用传统方法面临着求解效率低的问题。在线路潮流控制问题中,由于采用非线性规划的方法收敛难度大、耗时长,难以进行在线应用。不断增加的计算复杂性和时间要求使它们无法被部署到实时控制。
实际中多基于灵敏度的反向等量配对法,然而这类方法的有效性取决于定义的综合调节性能指标的合理性,否则难以兼顾对其他支路的影响或是对调节措施的调整方向或优先级的限定导致调节措施组合的自由度降低,可能遗漏最优解甚至造成无解。其控制策略的制定主要依赖调度员的经验判断,而该问题的复杂程度已超出人工经验的能力范围,当前的“粗放型”、“经验型”调度模式已逐渐呈现出不适应性。
发明内容
为解决现有技术所存在的技术问题,本发明提供基于深度强化学习的线路潮流控制方法,面向负荷波动与预想事件发生后带来的线路潮流越限场景,以具备调整能力的机组作为控制对象,训练出提供机组调整量方案的智能体,来实现线路潮流控制的最小调整代价并满足电力系统安全性要求。
本发明采用以下技术方案来实现:基于深度强化学习的线路潮流控制方法,包括以下步骤:
S1、进行电力系统线路潮流控制建模,通过电力系统线路潮流控制模型最小化元件有功调整的控制代价,在满足电网运行约束下,通过调节可控元件的出力,使系统潮流重新分配,以保证电网安全可靠运行;
S2、强化学习环境建模,根据强化学习中马尔可夫决策过程五元组(S,A,P,R,γ)构成的要求,进行电力系统环境建模中环境状态量S、动作A、状态转移P、奖励R以及折扣因子γ的设置;
S3、采用SAC强化学习算法进行智能体训练,通过与环境交互得到奖励,找到一个最优策略π*,使得奖励的期望最大。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明面向负荷波动与预想事件发生后带来的线路潮流越限场景,以具备调整能力的机组作为控制对象,训练出提供机组调整量方案的智能体,来实现线路潮流控制的最小调整代价并满足电力系统安全性要求。
2、本发明结合了深度学习优秀的表征能力和强化学习优秀的决策能力,能够有效应对非线性、复杂场景下的序贯决策问题,通过借助深度强化学习理论,有效地解决传统电网功率调整方式效率低、计算量大、严重依赖运行调度人员从业经验等问题。
3、本发明的智能体通过与电网模拟器的大量互动,从头开始学习其最佳控制策略;该方法得到的训练有素的智能体能够对快速变化的不同的条件做出及时反应,辅助电网运行人员的调度决策,且因为其学习过程通过与环境交互得到的奖励来指导,即无模型,因此不依赖于模型建模的精确度,当电力系统参数、拓扑、外界环境等发生变化时,可以应对这些因素的影响,消除模型化误差的影响。
附图说明
图1是本发明方法的流程图;
图2是本发明SAC强化算法训练流程图;
图3是本实施例智能体训练学习曲线图;
图4是本实施例智能体测试曲线图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于深度强化学习的线路潮流控制方法,包括以下步骤:
S1、进行电力系统线路潮流控制建模,通过电力系统线路潮流控制模型最小化元件有功调整的控制代价,在满足电网运行约束下,通过调节可控元件的出力,使系统潮流重新分配,以保证电网安全可靠运行;
S2、强化学习环境建模,根据强化学习中马尔可夫决策过程五元组(S,A,P,R,γ)构成的要求,进行电力系统环境建模中环境状态量S、动作A、状态转移P、奖励R、以及折扣因子γ的设置;
S3、采用SAC强化学习算法进行智能体训练,通过与环境交互得到奖励,找到一个最优策略π*,使得奖励的期望最大。
具体地,本实施例中,步骤S1中对于元件有功调整的控制代价主要考虑元件自身的调整成本及元件调整后的系统网损。
具体地,本实施例中,步骤S1中电力系统线路潮流控制模型的目标函数如下:
其中,ΔPk为可调元件k的有功调整量,若调整量为正,则增加可调元件出力,反之,则减小其出力;ck为对应可调元件k的调控成本代价,N为参与调节的可调元件数量;Ploss为调整后的系统网损;closs为网损带来的单位成本;β1、β2为权重参数,用来调整两者的权衡比例。
具体地,本实施例中,步骤S1中满足电网运行约束的条件如下:
S111、有功功率平衡约束,为了保证调整前后的发用电平衡,各可调元件的调整量之和为0,如下式所示:
S112、可调元件的调节范围约束,具体如下所示:
Pkmin≤ΔPk+Pk0≤Pkmax k=1,2,…,N
其中,Pk0为可调元件k的当前功率,Pkmax、Pkmin分别为可调元件k的有功出力上、下限;
S113、线路安全控制目标约束,具体如下所示:
PL≤PL,max
其中,PL为调整后线路L上的功率,PL,max为对应线路L的有功限额。
具体地,本实施例中,步骤S2中的环境状态量是对当前电力系统环境所呈现的情况的一种抽象表征,是智能体所能获取并需要的信息;在t时刻的电网状态st可以描述为:
st=(Pg,Qg,Pl,Ql,PL,QL)
其中,Pg,Qg分别为机组有功、无功出力,Pl,Ql分别为有功、无功负荷,PL,QL分别为线路的有功、无功潮流;为了减少高维空间对神经网络训练带来的困难,本发明的线路潮流只取线路一端的有功、无功。
本实施例中,步骤S2中的动作为当前时间步的控制变量,由于本发明利用SAC算法输出的是动作取值的概率分布,动作值一般被限定在固定范围内,这也与线路控制建模中的可调元件的调节范围约束一致;本发明认为动作取值服从正态分布,并将动作输出值归一化到[-1,1]内,不仅有助于训练,而且还能保证智能体决策满足调节范围的约束;因此,将动作设置为调整后的可调元件有功出力:
Pk=ΔPk+Pk0
其中,at为智能体所能采取的动作;Pk为调整后的元件出力,m、n为归一化的辅助系数。
由于实际电力系统潮流计算需要设置平衡节点或平衡机来分担不平衡功率,因此,动作空间应排除平衡机,即动作空间维度为N-1,N为可调元件数量。
本实施例中,由马尔可夫决策过程定义可知,下一个环境状态仅由当前环境状态和所执行动作决定:
其中,为环境的状态转移函数,P表示在状态st=s下采取动作at=a后状态转移到下一个状态st+1=s′的概率;由于电力系统中存在各种不确定性,高度非线性,强化学习的智能体与电力系统进行交互的环境即状态转移过程由潮流仿真器构成,潮流仿真器根据环境状态与智能体给出的调整量,计算电网潮流,输出线路功率、线路电流、机组出力等,同时反馈奖励。
本实施例中,奖励用来指导智能体训练,使其向最大化累积奖励方向做出决策,通过设计奖励函数来满足线路潮流控制的各种目标和约束;在线路潮流控制问题中,本发明以电力系统的安全性作为首要目标,优先解决线路潮流越限的安全性问题,再进一步考虑经济性,包括机组调整代价以及网损。
对于建模中的最小化控制目标,设置r1为正奖励如下:
其中,为建模中需要最小化的目标函数;E1为常数项,用来保证奖励值r1为正;E2为常数项,用来对奖励的数量级进行缩放;本实施例中,给出两个常数项的可行的选取方法如下:
E1=(0.2β1+0.05β2)*∑Pg,max*max(ck,closs)
E2=ΣPl
其中,Pg,max为发电机组的出力上限;Pl为当前的有功负荷;ck、closs分别为可调元件调整成本与网损成本;本发明认为机组成本与网损成本重要性一致,取权重β1=1,β2=1;
为了保证有功功率平衡约束,调整后平衡机出力应不越限,设计r2为负奖励,表示惩罚项:
其中,Pbalance为调整后的平衡机出力;分别为平衡机的出力上下限。
为了保证线路潮流约束,设计r3为负奖励:
其中,E3为常数项,用来对奖励的数量级进行缩放;在本实施例中,选取E3=2,为实验参数调整结果。
综合考量安全性与经济性,制定的奖励函数如下:
其中,done定义为达到控制效果,即无线路潮流越限。
本实施例中,一个回合是指智能体针对某一时间断面,从初始状态开始,不断调整可调元件有功出力,直至达到回合终止条件。本发明将无支路越限作为训练回合正常结束的检验标准。
由于强化学习中智能体前期存在大量的随机、无效探索,不利于模型训练,本发明对部分情形做了回合终止条件设置与对应的惩罚;当存在潮流不收敛、Pbalance>1.2*Pbalance,max,Pbalance<0.8*Pbalance,min,单回合迭代次数达到5,其中任一情形,即终止本回合,并返回负奖励-1。
本实施例中,步骤S3中的强化学习算法训练的目标是通过与环境交互得到奖励,找到一个最优策略π*,使得奖励的期望最大,通过利用SAC算法求解该最优策略;利用动作-状态价值函数来评估动作值,具体如下式所示:
其中,Q为动作-状态估计,用参数为θ的神经网络critic表示,是对执行动作a的累积奖励的期望;γ为折扣因子;在本实施例中取值为0.99;T为一个回合的终止步数。
具体地,策略π由神经网络actor来表示,将随机性策略表示为a~π(·|s),作为动作概率分布;在SAC强化算法中,基于策略熵正则化的目标函数来改进策略更新,从而提高训练过程的鲁棒性;具体地,策略网络的目标函数为:
其中,ρπ为策略π在环境中形成的一系列状态-动作轨迹,即τ=(s0,a0,s1,a1,...);为策略熵;α为温度参数,用来控制策略的探索能力;当策略π(at∣st)收敛到确定的最优策略时,策略熵/>的值为0。
由于策略熵的引入,状态-动作价值函数的贝尔曼方程可以表示为如下的正则化形式:
其中,Vπ(st)是状态价值函数,表示在策略π在状态st下的累积奖励的期望。
为了求解最优策略π*,SAC强化算法采用策略迭代方法交替执行策略评估及策略改进:
策略评估:即更新critic网络,目的为更加贴近环境的真实打分,其损失函数用均方误差MSE的形式如下所示:
为了避免强化学习训练过程中常见的价值高估问题,将配备另一个目标网络,参数为称为target critic网络;该网络的参数与critic网络进行软更新,即
其中,τ为更新参数,在本文实施例中,设定为0.05;
策略改进:即更新actor网络
其中,为Kullback-Leibler散度的期望;/>为/>的归一项。
具体地,如图2所示,本实施例中,SAC强化算法训练的过程具体如下:
S311、选取合适的训练参数并初始化神经网络与经验池,其中,经验池为固定容量,用来存储不同时刻的训练数据(st,at,rt,st+1),并设定整个过程最大训练步数;
S312、环境读取断面数据并随机添加负荷波动、新能源波动、N-1故障等,进行数据解析和计算,直至产生临时的越限场景;则智能体获取环境信息,即状态,并给出动作,与环境交互,获取新状态,计算奖励值并存储数据至放回缓存区;在训练初期,智能体将随机动作,直至缓存存满经验池;
S313、判断下一个状态是否达到了控制效果,或是触发了其它的终止条件,否则继续与环境交互,直至完成该回合;
S314、当前步数达到神经网络更新周期,则取出部分经验,使用小批量随机梯度下降法或Adam算法更新神经网络参数,否则继续执行环境探索累计经验数据;
S315、检查当前步数是否到达训练流程最大终止步数,若是则终止训练过程,否则重复经验累积与网络更新步骤。
具体地,本实施例将环境划分为训练、验证与测试集,每500回合在验证集上进行验证,最终选取验证集中表现最好的智能体为最终的智能体参与测试。
本实施例中,步骤S3中的强化学习算法不仅仅局限于SAC算法,由于本发明定义的动作空间为连续动作空间,对应有DDPG(deep dterministic policy gradient)、TD3(TwinDelayed Deep Deterministic policy gradient)、PPO(Proximal Policy Optimization)等算法也可以应用于本发明提出的强化学习框架下。在算法稳定性、超参数调整和训练过程中的探索度等考量下,本发明选取了实验结果中最好的SAC算法。
本发明测试系统选取rte 14节点系统。智能体学习控制母线2、3、6和8的发电机输出功率(母线1的机组作为平衡机组,不在智能体调控范围内),在各种负载情况下确保每条线路的流量在相应的限制内。各种运行情况是通过随机扰动每个负载的80%到120%的原始值,并保持恒定的功率因数而产生的。此外,选择4条线路随机跳闸(一次一个)来模拟突发情况。
智能体训练10000个轮次,并在2000个新负载条件下进行测试,如图3和图4所示,显示了训练和测试的结果;其中,图2中训练后期奖励曲线变得平坦且奖励值较高且恒为正,这表明智能体在通过与电网不断交互、学习,能在当前状态采取合适的动作,使累积奖励更高,具有较好的收敛性和较高的效率;图3中测试结果均为正,表明在新的测试环境中,智能体仍能做出有效决策,消除线路越限的情形。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于深度强化学习的线路潮流控制方法,其特征在于,包括以下步骤:
S1、进行电力系统线路潮流控制建模,通过电力系统线路潮流控制模型最小化元件有功调整的控制代价,在满足电网运行约束下,通过调节可控元件的出力,使系统潮流重新分配,以保证电网安全可靠运行;
S2、强化学习环境建模,根据强化学习中马尔可夫决策过程五元组(S,A,P,R,γ)构成的要求,进行电力系统环境建模中环境状态量S、动作A、状态转移P、奖励R以及折扣因子γ的设置;
S3、采用SAC强化学习算法进行智能体训练,通过与环境交互得到奖励,找到一个最优策略π*,使得奖励的期望最大。
2.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S1中电力系统线路潮流控制模型的目标函数如下:
其中,ΔPk为可调元件k的有功调整量,若调整量为正,则增加可调元件出力,反之,则减小其出力;ck为对应可调元件k的调控成本代价;N为参与调节的可调元件数量;Ploss为调整后的系统网损;closs为网损带来的单位成本;β1、β2为权重参数,用于调整两者的权衡比例。
3.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S1中满足电网运行约束的条件如下:
S111、有功功率平衡约束,各可调元件的调整量之和设置为0,如下式所示:
S112、可调元件的调节范围约束,具体如下所示:
Pkmin≤ΔPk+Pk0≤Pkmax k=1,2,…,N
其中,Pk0为可调元件k的当前功率,Pkmax、Pkmin分别为可调元件k的有功出力上、下限;
S113、线路安全控制目标约束,具体如下所示:
PL≤PL,max
其中,PL为调整后线路L上的功率,PL,max为对应线路L的有功限额。
4.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S2中的环境状态量为智能体所能获取并需要的信息;在t时刻的电网状态st描述为:
st=(Pg,Qg,Pl,Ql,PL,QL)
其中,Pg,Qg分别为机组有功、无功出力,Pl,Ql分别为有功、无功负荷,PL,QL分别为线路的有功、无功潮流;
步骤S2中的动作为当前时间步的控制变量,动作取值服从正态分布,并将动作输出值归一化到[-1,1]内,令智能体决策满足调节范围的约束,并将动作设置为调整后的可调元件有功出力:
Pk=ΔPk+Pk0
其中,at为智能体所能采取的动作;Pk为调整后的元件出力,m、n为归一化的辅助系数;
根据马尔可夫决策过程定义,下一个环境状态仅由当前环境状态和所执行动作决定:
其中,为环境的状态转移函数,P表示在状态st=s下采取动作at=a后状态转移到下一个状态st+1=s′的概率。
5.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S2中的奖励用于指导智能体训练,使其向最大化累积奖励方向做出决策,通过设计奖励函数来满足线路潮流控制的各种目标和约束;
对于建模中的最小化控制目标,设置r1为正奖励如下:
其中,为建模中需要最小化的目标函数;E1为常数项,用于保证奖励值r1为正;E2为常数项,用于对奖励的数量级进行缩放;
两个常数项的选取方法如下:
E1=(0.2β1+0.05β2)*ΣPg,max*max(ck,closs)
E2=∑Pl
其中,Pg,max为发电机组的出力上限;Pl为当前的有功负荷;ck、closs分别为可调元件调整成本与网损成本;权重β1=1,β2=1;
为了有功功率平衡约束,调整后平衡机出力不越限,设计r2为负奖励,表示惩罚项:
其中,Pbalance为调整后的平衡机出力;分别为平衡机的出力上下限;
为了线路潮流约束,设计r3为负奖励:
其中,E3为常数项,用于对奖励的数量级进行缩放;
制定奖励函数如下:
其中,done定义为达到控制效果,即无线路潮流越限。
6.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S3中的强化学习算法训练的目标是通过与环境交互得到奖励,找到一个最优策略π*,使得奖励的期望最大,通过利用SAC算法求解该最优策略;利用动作-状态价值函数评估动作价值,具体如下式所示:
其中,Q为动作-状态估计,用参数为θ的神经网络critic表示,是对执行动作a的累积奖励的期望;γ为折扣因子;T为一个回合的终止步数。
7.根据权利要求6所述的基于深度强化学习的线路潮流控制方法,其特征在于,策略π由神经网络actor来表示,将随机性策略表示为a~π(·|s),作为动作概率分布;在SAC强化算法中,基于策略熵正则化的目标函数来改进策略更新;策略网络的目标函数为:
其中,ρπ为策略π在环境中形成的一系列状态-动作轨迹,即τ=(s0,a0,s1,a1,...);为策略熵;α为温度参数,用于控制策略的探索能力。
8.根据权利要求7所述的基于深度强化学习的线路潮流控制方法,其特征在于,策略熵引入后,状态-动作价值函数的贝尔曼方程表示为如下的正则化形式:
其中,Vπ(st)是状态价值函数,表示在策略π在状态st下的累积奖励的期望。
9.根据权利要求8所述的基于深度强化学习的线路潮流控制方法,其特征在于,SAC强化算法采用策略迭代方法交替执行策略评估及策略改进:
策略评估:即更新critic网络,其损失函数用均方误差MSE的形式如下所示:
配备另一个目标网络,参数为称为target critic网络;该网络的参数与critic网络进行软更新,即
其中,τ为更新参数;
策略改进:即更新actor网络:
其中,为Kullback-Leibler散度的期望;/>为/>的归一项。
10.根据权利要求1所述的基于深度强化学习的线路潮流控制方法,其特征在于,步骤S3中的SAC强化算法训练的过程具体如下:
S311、选取合适的训练参数并初始化神经网络与经验池,其中,经验池为固定容量,用来存储不同时刻的训练数据(st,at,rt,st+1),并设定整个过程最大训练步数;
S312、环境读取断面数据并随机添加负荷波动、新能源波动、N-1故障,进行数据解析和计算,直至产生临时的越限场景;则智能体获取环境信息,即状态,并给出动作,与环境交互,获取新状态,计算奖励值并存储数据至放回缓存区;在训练初期,智能体将随机动作,直至缓存存满经验池;
S313、判断下一个状态是否达到了控制效果,或是触发了其它的终止条件,否则继续与环境交互,直至完成该回合;
S314、当前步数达到神经网络更新周期,则取出部分经验,使用小批量随机梯度下降法或Adam算法更新神经网络参数,否则继续执行环境探索累计经验数据;
S315、检查当前步数是否到达训练流程最大终止步数,若是则终止训练过程,否则重复经验累积与网络更新步骤。
CN202310339435.8A 2023-03-31 2023-03-31 基于深度强化学习的线路潮流控制方法 Pending CN116470511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310339435.8A CN116470511A (zh) 2023-03-31 2023-03-31 基于深度强化学习的线路潮流控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310339435.8A CN116470511A (zh) 2023-03-31 2023-03-31 基于深度强化学习的线路潮流控制方法

Publications (1)

Publication Number Publication Date
CN116470511A true CN116470511A (zh) 2023-07-21

Family

ID=87178161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310339435.8A Pending CN116470511A (zh) 2023-03-31 2023-03-31 基于深度强化学习的线路潮流控制方法

Country Status (1)

Country Link
CN (1) CN116470511A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117540938A (zh) * 2024-01-10 2024-02-09 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117540938A (zh) * 2024-01-10 2024-02-09 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统
CN117540938B (zh) * 2024-01-10 2024-05-03 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Similar Documents

Publication Publication Date Title
CN116470511A (zh) 基于深度强化学习的线路潮流控制方法
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
US11326579B2 (en) Adaptive dynamic planning control method and system for energy storage station, and storage medium
CN112103980B (zh) 一种联合火电机组agc调频的混合储能系统能量管理方法
CN112507614B (zh) 一种分布式电源高渗透率地区电网综合优化方法
CN105207253A (zh) 考虑风电及频率不确定性的agc随机动态优化调度方法
CN104682392B (zh) 计及线路安全约束的省网agc机组动态优化调度方法
CN115940294B (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN105631528A (zh) 一种基于nsga-ii和近似动态规划的多目标动态最优潮流求解方法
CN112003330A (zh) 一种基于自适应控制的微网能量优化调度方法
CN115085202A (zh) 电网多区域智能功率协同优化方法、装置、设备及介质
Marantos et al. Towards plug&play smart thermostats inspired by reinforcement learning
CN115345380A (zh) 一种基于人工智能的新能源消纳电力调度方法
CN115795992A (zh) 一种基于运行态势虚拟推演的园区能源互联网在线调度方法
CN114566971A (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN114722693A (zh) 一种水轮机调节系统二型模糊控制参数的优化方法
CN116599860B (zh) 一种基于强化学习的网络流量灰色预测方法
CN116865358A (zh) 多时长尺度电力系统风电弃风及负荷波动跟踪方法及设备
CN108108837A (zh) 一种地区新能源电源结构优化预测方法和系统
CN111799820A (zh) 一种电力系统双层智能混合零星云储能对抗调控方法
CN113269420B (zh) 基于通信噪声的分布式事件驱动电力经济调度方法
CN115912367A (zh) 一种基于深度强化学习的电力系统运行方式智能生成方法
CN113255228A (zh) 一种基于遗传算法的火电机组调峰组合总煤耗优化方法及系统
CN113139682A (zh) 一种基于深度强化学习的微电网能量管理方法
CN112615364A (zh) 一种新型的电网稳控装置广域智能协同控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Hai

Inventor after: Cai Yanchun

Inventor after: Liu Xuan

Inventor after: Wang Xiyue

Inventor after: Ke Deping

Inventor after: Liu Luhao

Inventor after: Lu Youfei

Inventor after: Wu Renbo

Inventor after: Zhang Yang

Inventor after: Zhao Hongwei

Inventor after: Chen Minghui

Inventor after: Zhang Shaofan

Inventor after: Zou Shirong

Inventor before: Long Yun

Inventor before: Zou Shirong

Inventor before: Cai Yanchun

Inventor before: Liu Xuan

Inventor before: Wang Xiyue

Inventor before: Ke Deping

Inventor before: Wang Hai

Inventor before: Liu Luhao

Inventor before: Lu Youfei

Inventor before: Wu Renbo

Inventor before: Zhang Yang

Inventor before: Zhao Hongwei

Inventor before: Chen Minghui

Inventor before: Zhang Shaofan