CN115758871A - 一种基于安全强化学习的配电网重构节能降损方法及装置 - Google Patents

一种基于安全强化学习的配电网重构节能降损方法及装置 Download PDF

Info

Publication number
CN115758871A
CN115758871A CN202211395159.9A CN202211395159A CN115758871A CN 115758871 A CN115758871 A CN 115758871A CN 202211395159 A CN202211395159 A CN 202211395159A CN 115758871 A CN115758871 A CN 115758871A
Authority
CN
China
Prior art keywords
distribution network
power distribution
reinforcement learning
strategy
reducing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211395159.9A
Other languages
English (en)
Inventor
潘洋
赵越
杨川
夏诗羽
王家兵
黄振勇
刘晨
曾飞
苏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd, State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
Priority to CN202211395159.9A priority Critical patent/CN115758871A/zh
Publication of CN115758871A publication Critical patent/CN115758871A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开一种基于安全强化学习的配电网重构节能降损方法及装置。包括以下步骤:步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;步骤S4:通过最优神经网络模型求解配电网重构。本发明将配电网重构问题制定为受约束的马尔可夫决策过程,保证电压安全性的同时,最小化开关切换成本和网络损耗成本。

Description

一种基于安全强化学习的配电网重构节能降损方法及装置
技术领域
本发明涉及配网技术领域,特别涉及一种基于安全强化学习的配电网重构节能降损方法及装置。
背景技术
动态配电网重构问题根据线路电阻损耗、负载损耗或分布式电源的托管容量确定运营范围内网络重构的最佳顺序。配电网重构问题中建模的常见操作约束包括电压幅度限制和网络辐射度。远程可控开关的频繁切换可能导致设备过度磨损,增加成本。
大多数关于动态配电网重构问题的现有措施都采用基于物理模型的控制方法。配电网重构问题常常被表述为混合整数或动态规划问题,此外启发式算法和元启发式算法也得到广泛的应用。然而,现有的基于物理模型的算法严重依赖于对网络拓扑和参数的准确了解,区域电力公司很难维持准确的网络模型,并且一级和二级网络的参数估计并不准确,因此基于模型的算法可能并不可靠。其次基于模型的算法计算复杂度通常很大,这使得基于模型的计算非常耗时,难以实现配电网重构的实时应用。
目前,深度强化学习方法已经在配电网重构上得到一定的应用。首先,深度强化学习方法是无模型的,因此不需要依赖准确的配电网参数。其次基于离线策略的深度强化学习方法可以保存训练好的最优神经网络模型,实现配电网重构的实时在线应用。
然而,传统的深度强化学习方法允许智能体在训练期间自由探索任何行为,这可能会给配电网重构过程带来严重的安全问题,不当行为可能导致违反潮流约束并在配电馈线中产生过压和欠压行为。此外,传统强化学习大都采用在奖励函数中添加惩罚项的方法解决训练过程中的电压违规行为,而在实践中惩罚系数的设计较为困难。惩罚系数过大奖励值会偏低,导致智能体不能学习到最优的重构方案;惩罚系数过小无法充分惩罚违反约束行为,带来配网运行的安全性。
发明内容
本发明提供了一种基于安全强化学习的配电网重构节能降损方法及装置,将配电网重构问题建模成受约束的马尔科夫决策过程,并采用约束策略优化的安全强化学习方法进行离线训练,并在线测试。在保证电压幅值满足约束的同时,能够使配电网损耗得到显著降低,实现了安全性和经济性的统一。
本发明的技术方案为:包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。
步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
步骤S2中,受约束的马尔可夫决策过程为:
通过一个辅助成本函数C扩充马尔可夫决策过程,令JC(π)表示策略π相对于成本函数的预期折现回报:
Figure BDA0003932607980000021
那么受约束的马尔可夫决策过程的可行的平稳策略为:
Figure BDA0003932607980000022
式中,E表示期望,τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π,γ为折扣系数,d是限制,at属于动作空间,st和st+1分别属于状态空间;
平稳策略的目标函数为:
Figure BDA0003932607980000023
式中,Π表示所有的固定策略集,ΠC是将成本函数Ct+1的未来折扣回报进行限制的平稳策略,J(π)表示奖励函数Rt+1的未来折扣回报。
其中,奖励函数Rt+1为:
Figure BDA0003932607980000024
式中,Cl等于固定零售电价与网络损耗的乘积,网络损耗与在时间t的有功功率pt、无功功率qt和配电网辐射构造
Figure BDA0003932607980000025
相关;Cs等于每次切换的固定成本和切换动作次数的乘积,At为动作空间,
Figure BDA0003932607980000026
为配电网在时间t的配电网辐射构造,St为状态空间;
成本函数Ct+1为:
Figure BDA0003932607980000031
式中,Nv是具有电压测量设备的所有节点的集合;
Figure BDA0003932607980000032
和v是电压的上限和下限,At为动作空间,St为状态空间。
其中,状态空间
Figure BDA0003932607980000033
式中,pt=[p1t,p2t,…,pnt],qt=[q1t,q2t,…,qnt],
Figure BDA0003932607980000034
表示配电网在时间t-1的辐射构造,pit和qit为节点i在时间t节点注入有功和无功功率。
步骤S3包括以下步骤:
步骤S31:求解目标函数转化
根据约束策略优化理论的推论,将目标函数变为如下的代理优化目标:
Figure BDA0003932607980000035
式中,θ是神经网络参数,
Figure BDA0003932607980000036
是在动作a满足策略
Figure BDA0003932607980000037
下的状态s分布,
Figure BDA0003932607980000038
Figure BDA0003932607980000039
分别是与未来奖励
Figure BDA00039326079800000310
及未来成本回报
Figure BDA00039326079800000311
相关的优势函数,d是限制,DKL(θ||θi[s])是分布在πθ
Figure BDA00039326079800000312
的KL-散度,δ是一个很小值;
步骤S32:简化求解问题
将步骤S31的优化目标进行近似处理,近似为如下的优化问题:
Figure BDA00039326079800000313
式中,
Figure BDA00039326079800000314
是关于优势函数
Figure BDA00039326079800000315
未来期望的策略梯度,其中,θ是神经网络参数,
Figure BDA00039326079800000316
是在动作a满足策略
Figure BDA00039326079800000317
下的状态s分布;
Figure BDA00039326079800000318
Figure BDA0003932607980000041
是未来成本回报,d是限制;
Figure BDA0003932607980000042
是关于成本优势函数
Figure BDA0003932607980000043
未来期望的策略梯度;
Figure BDA0003932607980000044
是分布在πθ
Figure BDA0003932607980000045
的最大KL-散度的拉普拉斯算子,δ是一个很小值;
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程;
在每次迭代中,首先更新Γ时间步数,并运行策略网络参数
Figure BDA0003932607980000046
;然后收集到状态-动作组{(st,at)|t=0,1,…,Γ-1},使用重要性采样估计梯度;其次通过在线搜索算法解决步骤S32中的策略优化问题;最后使用最优解θi+1来更新策略网络参数。
一种基于安全强化学习的配电网重构节能降损装置,包括:
采集模块,用于采集配电网历史运行数据作为安全强化学习的学习样本数据;
建模模块,用于将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
训练模块,针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
求解模块,通过最优神经网络模型求解配电网重构。
本发明具有以下有益效果:
1、本发明提出的算法是无模型的,不需要准确的配电网拓扑参数;
2、本发明将配电网重构问题建模为受约束的马尔可夫决策过程,分别制定了奖励及成本函数,避免了实践中惩罚系数设计困难的问题;
3、本发明使用约束策略优化算法训练好的最优神经网络模型可以离线保存,在线应用,能够实现配电网重构的秒级求解;
4、本发明提出的约束策略优化算法是一种安全强化学习算法,训练过程中能够在满足电压约束的同时,有效降低网络损耗,兼顾了安全性和经济性的统一。
附图说明
图1为本发明的方法流程图;
图2为训练阶段的奖励值曲线;
图3为训练阶段的约束值曲线;
图4为CPO测试阶段某天的各节点电压分布。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。即将当前配电网各个节点的有功及无功功率数据输入最优神经网络模型,求解配电网络的拓扑结构状态,获得最小的配电网络重构运营成本。
本发明在工作中,将配电网重构问题制定为受约束的马尔可夫决策过程,保证电压安全性的同时,最小化开关切换成本和网络损耗成本。通过使用一种基于约束策略优化(CPO)的安全强化学习方法来学习神经网络策略。与允许智能体在训练期间自由探索任何行为的传统深度强化学习方法不同,所提出的方法将探索限制在满足训练期间交流潮流约束的安全策略上。本发明所提出的方法是无模型的,不需要配电网完整且准确的网络参数。而且是一种在线算法,可以实现配电网重构的秒级求解。
步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
步骤S2包括以下步骤:
步骤S21:马尔可夫决策过程定义
一个马尔可夫决策过程是一个元组(S,A,P,r,γ,T),它由一组状态S、一组动作A、一个状态转移概率
Figure BDA0003932607980000051
一个奖励函数r(s,a)、一个折扣系数γ∈[0,1]、和时间范围T组成。在马尔可夫决策过程中,代理在每个离散时间步t处根据环境的状态St∈S选择动作At∈A,之后智能体收到奖励Rt+1=r(St,At),环境状态将根据状态转移概率P(St+1|St,At)过度到St+1,当t=|T|且S|T|为终止状态时,该过程终止。
在强化学习中,目标是选择一个策略π来最大化性能度量J(π),它通常被认为是无限折现总回报
Figure BDA0003932607980000061
τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π。
步骤S22:受约束的马尔可夫决策过程定义
受约束的马尔可夫决策过程是增加了约束的马尔可夫决策过程,这些约束限制了该马尔可夫决策过程的允许策略集。具体来说,用一个辅助成本函数C和限制d来扩充马尔可夫决策过程,令JC(π)表示策略π相对于成本函数的预期折现回报:
Figure BDA0003932607980000062
那么受约束的马尔可夫决策过程的可行的平稳策略是:
Figure BDA0003932607980000063
式中,E表示期望,τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π,γ为折扣系数,d是限制,at属于动作空间,st和st+1分别属于状态空间。
平稳策略的目标函数为:
Figure BDA0003932607980000064
表示一个运行策略π的目标是,在不超过代价阈值的约束条件ΠC的情况下,获取最大的未来奖励J(π)。其中,Π表示所有的固定策略集,ΠC是将成本函数Ct+1的未来折扣回报限制在一定范围内的平稳策略,J(π)是关于奖励函数Rt+1的未来折扣回报。
其中,动作空间At
动作空间定义为:
Figure BDA0003932607980000065
Figure BDA0003932607980000066
表示配电网在时间t的配电网辐射构造,也就是说,
Figure BDA0003932607980000067
表示与无分流配电网相关的有向图生成森林。
状态空间St
在时刻t的状态空间定义为:
Figure BDA0003932607980000068
式中,pt=[p1t,p2t,…,pnt],qt=[q1t,q2t,…,qnt],
Figure BDA0003932607980000069
表示配电网在时间t-1的辐射构造,pit和qit为节点i在时间t节点注入有功和无功功率。
奖励函数Rt+1
配电网重构的目标是最小化网络损失和切换成本,强化学习的目标是最大化未来折现回报。因此奖励函数定义为线损负成本和切换动作负成本之和:
Figure BDA0003932607980000071
式中,Cl等于固定零售电价与网络损耗的乘积,网络损耗与在时间t的有功功率pt、无功功率qt和配电网辐射构造
Figure BDA0003932607980000072
相关;Cs等于每次切换的固定成本和切换动作次数的乘积。
成本函数Ct+1
将成本函数Ct+1定义为所有计量节点的电压违规绝对值之和:
Figure BDA0003932607980000073
式中,Nv是具有电压测量设备的所有节点的集合;
Figure BDA0003932607980000074
v是电压的上限和下限。
步骤S3中,运用约束策略优化算法离线训练,当未来奖励收敛到稳定值时,获得最优神经网络模型;
具体包括以下步骤:
步骤S31:求解目标函数转化
根据约束策略优化理论的推论,将目标函数变为如下的代理优化目标:
Figure BDA0003932607980000075
式中,θ是神经网络参数,
Figure BDA0003932607980000076
是在动作a满足策略
Figure BDA0003932607980000077
下的状态s分布,
Figure BDA0003932607980000078
Figure BDA0003932607980000079
分别是与未来奖励
Figure BDA00039326079800000710
及未来成本回报
Figure BDA00039326079800000711
相关的优势函数,d是限制,DKL(θ||θi[s])是分布在πθ
Figure BDA00039326079800000712
的KL-散度,δ是一个很小值。
步骤S32:简化求解问题
将步骤S31的优化目标进行近似处理,首先对目标函数和约束函数做泰勒展开,得到一个简化后的优化问题:目标函数一阶泰勒展开得到一个线性函数,其中一个约束条件一阶泰勒展开得到多个线性约束,另一个约束条件二阶泰勒展开得到一个二次函数;近似为如下的优化问题:
Figure BDA0003932607980000081
式中,
Figure BDA0003932607980000082
是关于优势函数
Figure BDA0003932607980000083
未来期望的策略梯度,其中,θ是神经网络参数,
Figure BDA0003932607980000084
是在动作a满足策略
Figure BDA0003932607980000085
下的状态s分布;
Figure BDA0003932607980000086
Figure BDA0003932607980000087
是未来成本回报,d是限制;
Figure BDA0003932607980000088
是关于成本优势函数
Figure BDA0003932607980000089
未来期望的策略梯度;
Figure BDA00039326079800000810
是分布在πθ
Figure BDA00039326079800000811
的最大KL-散度的拉普拉斯算子,δ是一个很小值。
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程,具体算法的伪代码在算法1中所示。
Figure BDA00039326079800000812
Figure BDA0003932607980000091
在每次迭代中,首先更新Γ时间步数,并运行策略网络参数
Figure BDA0003932607980000092
然后收集到状态-动作组{(st,at)|t=0,1,…,Γ-1},使用重要性采样估计梯度
Figure BDA0003932607980000093
以及
Figure BDA0003932607980000094
具体公式如下所示:
Figure BDA0003932607980000095
Figure BDA0003932607980000096
Figure BDA0003932607980000097
Figure BDA0003932607980000098
式中,Γ是训练总的时间步数,T是训练一轮的周期,
Figure BDA0003932607980000099
是一个高斯策略,
Figure BDA00039326079800000910
是策略梯度,
Figure BDA00039326079800000911
Figure BDA00039326079800000912
分别是在策略网络参数
Figure BDA00039326079800000913
下与未来奖励和成本相关的优势函数,γ为折扣因子,ct是成本函数,d是成本函数的限制。
其次通过在线搜索算法解决步骤S32中的策略优化问题;最后使用最优解θi+1来更新策略网络参数。
由于深度Q网络算法(DQN)训练期间,允许智能体的任何自由探索行为,由此可能会导致违反潮流约束并在配电馈线中产生过压和欠压行为。本发明采用的约束策略优化算法(CPO)在网络损耗控制和电压控制方面具有良好的性能。
本发明将配电网重构问题,建模为受约束的马尔可夫决策过程,分别制定了奖励及成本函数,并不需要手动涉及惩罚系数;所提出的基于约束策略优化的安全强化学习方法,可以高效训练神经网络以生成满足电压约束的最优配电网重构策略。此外所提方法是无模型的,不需要准确且完整的配电网参数,能够在满足配电网安全性的同时,有效降低配网线损。
下面以16节点配电网作为算例,介绍本发明:
配电网基准电压为100MVA,在节点11装有光伏,假设每条线段都有一个遥控开关,配电网重构的动作数量由矩阵树定理计算为190次。线路开关每次线路切换产生的成本Cs为4$,与网络损失相关的成本Cl为0.13$/kWh,最大和最小节点电压设置为
Figure BDA0003932607980000101
v=0.95。负荷数据的时间序列取自爱尔兰能源监管委员会智能计量项目,太阳能发电数据均来自南加州站点。将26周的历史数据集划分为25周的训练数据集和1周的测试数据集。
为了验证所提出的安全强化学习方法,即约束策略优化算法(CPO)的有效性,本发明将其与传统的深度强化学习算法,即深度Q网络算法(DQN)进行对比。对于DQN来处理约束,本发明通过在奖励函数中添加一个惩罚项1000*Ct+1来惩罚任何违反电压约束的行为。
1.经济性分析
训练阶段的奖励值曲线如图2所示。
随着训练步数的增加,DQN算法和CPO算法的奖励值都在稳步增加,并最终收敛。奖励值是动作切换成本和网络损失成本之和的负数。这说明了两种算法都能学习到配电网重构的节能降损策略,其中CPO的最终奖励值更高,经济成本更低。与DQN相比,CPO每天约能降低36.4%的运行成本,因此,CPO算法在网络损耗控制方面具有良好的性能。
2.安全性分析
训练阶段的约束值曲线如图3所示。
训练过程中,可以看出DQN算法的约束值违反情况较为频繁,CPO的约束值在很少的迭代步数后就降低接近为0,并保持稳定。由于定义了约束值为训练过程中电压的违反情况,所以约束值越高,电压越限的几率和程度越大。因此CPO在训练过程中能够学习到考虑电压安全性的策略。
CPO测试阶段某天的各节点电压分布如图4所示。
随机选定测试数据集中的一天,作为离线训练保存好的模型输入,配电网各节点的最大最小电压分布情况如图4所示。由此可以看出,经CPO训练好的最优神经网络模型,在线测试阶段,配网各电压被维持在0.95-1.05p.u之间。
因此CPO算法在电压控制方面具有良好的性能。
3.实时性分析
在线测试阶段,计算24小时的动态网络重构时间仅需0.37秒,因此能够满足实时应用的要求。

Claims (10)

1.一种基于安全强化学习的配电网重构节能降损方法,其特征在于,包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。
2.根据权利要求1所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
3.根据权利要求1所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:步骤S2中,受约束的马尔可夫决策过程为:
通过一个辅助成本函数C扩充马尔可夫决策过程,令JC(π)表示策略π相对于成本函数的预期折现回报:
Figure FDA0003932607970000011
那么受约束的马尔可夫决策过程的可行的平稳策略为:
Figure FDA0003932607970000012
式中,E表示期望,τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π,γ为折扣系数,d是限制,at属于动作空间,st和st+1分别属于状态空间;
平稳策略的目标函数为:
Figure FDA0003932607970000013
式中,Π表示所有的固定策略集,ΠC是将成本函数Ct+1的未来折扣回报进行限制的平稳策略,J(π)表示奖励函数Rt+1的未来折扣回报。
4.根据权利要求3所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:
其中,奖励函数Rt+1为:
Figure FDA0003932607970000014
式中,Cl等于固定零售电价与网络损耗的乘积,网络损耗与在时间t的有功功率pt、无功功率qt和配电网辐射构造
Figure FDA0003932607970000021
相关;Cs等于每次切换的固定成本和切换动作次数的乘积,At为动作空间,
Figure FDA0003932607970000022
为配电网在时间t的配电网辐射构造,St为状态空间;
成本函数Ct+1为:
Figure FDA0003932607970000023
式中,Nv是具有电压测量设备的所有节点的集合;
Figure FDA0003932607970000024
v是电压的上限和下限,At为动作空间,St为状态空间。
5.根据权利要求4所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:
其中,状态空间
Figure FDA0003932607970000025
式中,pt=[p1t,p2t,…,pnt],qt=[q1t,q2t,…,qnt],
Figure FDA0003932607970000026
表示配电网在时间t-1的辐射构造,pit和qit为节点i在时间t节点注入有功和无功功率。
6.根据权利要求3所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:步骤S3包括以下步骤:
步骤S31:求解目标函数转化;
步骤S32:简化求解问题;
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程。
7.根据权利要求6所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:
步骤S31中:根据约束策略优化理论的推论,将目标函数变为如下的代理优化目标:
Figure FDA0003932607970000027
Figure FDA0003932607970000028
Figure FDA0003932607970000029
式中,θ是神经网络参数,
Figure FDA00039326079700000210
是在动作a满足策略
Figure FDA00039326079700000211
下的状态s分布,
Figure FDA00039326079700000212
Figure FDA0003932607970000031
分别是与未来奖励
Figure FDA0003932607970000032
及未来成本回报
Figure FDA0003932607970000033
相关的优势函数,d是限制,DKL(θ||θi[s])是分布在πθ
Figure FDA0003932607970000034
的KL-散度,δ是一个很小值。
8.根据权利要求7所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:
步骤S32中:将步骤S31的优化目标进行近似处理,近似为如下的优化问题:
Figure FDA0003932607970000035
s.t.c+bT(θ-θi)≤0
Figure FDA0003932607970000036
式中,
Figure FDA0003932607970000037
是关于优势函数
Figure FDA0003932607970000038
未来期望的策略梯度,其中,θ是神经网络参数,
Figure FDA0003932607970000039
是在动作a满足策略
Figure FDA00039326079700000310
下的状态s分布;
Figure FDA00039326079700000311
Figure FDA00039326079700000312
是未来成本回报,d是限制;
Figure FDA00039326079700000313
是关于成本优势函数
Figure FDA00039326079700000314
未来期望的策略梯度;
Figure FDA00039326079700000315
是分布在πθ
Figure FDA00039326079700000316
的最大KL-散度的拉普拉斯算子,δ是一个很小值。
9.根据权利要求8所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:
步骤S33中:在每次迭代中,首先更新Γ时间步数,并运行策略网络参数
Figure FDA00039326079700000317
然后收集到状态-动作组{(st,at)|t=0,1,…,Γ-1},使用重要性采样估计梯度;其次通过在线搜索算法解决步骤S32中的策略优化问题;最后使用最优解θi+1来更新策略网络参数。
10.一种基于安全强化学习的配电网重构节能降损装置,其特征在于,包括:
采集模块,用于采集配电网历史运行数据作为安全强化学习的学习样本数据;
建模模块,用于将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
训练模块,针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
求解模块,通过最优神经网络模型求解配电网重构。
CN202211395159.9A 2022-11-08 2022-11-08 一种基于安全强化学习的配电网重构节能降损方法及装置 Pending CN115758871A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211395159.9A CN115758871A (zh) 2022-11-08 2022-11-08 一种基于安全强化学习的配电网重构节能降损方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211395159.9A CN115758871A (zh) 2022-11-08 2022-11-08 一种基于安全强化学习的配电网重构节能降损方法及装置

Publications (1)

Publication Number Publication Date
CN115758871A true CN115758871A (zh) 2023-03-07

Family

ID=85368333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211395159.9A Pending CN115758871A (zh) 2022-11-08 2022-11-08 一种基于安全强化学习的配电网重构节能降损方法及装置

Country Status (1)

Country Link
CN (1) CN115758871A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708961A (zh) * 2024-02-05 2024-03-15 中南大学 一种既有铁路三维空间线位整体智能重构方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708961A (zh) * 2024-02-05 2024-03-15 中南大学 一种既有铁路三维空间线位整体智能重构方法
CN117708961B (zh) * 2024-02-05 2024-04-30 中南大学 一种既有铁路三维空间线位整体智能重构方法

Similar Documents

Publication Publication Date Title
Ye et al. Model-free real-time autonomous control for a residential multi-energy system using deep reinforcement learning
Wang et al. Deep reinforcement learning method for demand response management of interruptible load
Shuai et al. Stochastic optimization of economic dispatch for microgrid based on approximate dynamic programming
Li et al. Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach
CN112615379A (zh) 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN114217524A (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN114362187B (zh) 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN116760047A (zh) 基于安全强化学习算法的配电网电压无功控制方法及系统
CN114566971B (zh) 一种基于近端策略优化算法的实时最优潮流计算方法
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN115758871A (zh) 一种基于安全强化学习的配电网重构节能降损方法及装置
CN115588998A (zh) 一种基于图强化学习的配电网电压无功优化方法
KR20230070779A (ko) 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법
Pinson Introducing distributed learning approaches in wind power forecasting
CN117973644A (zh) 一种考虑参考电站优化的分布式光伏功率虚拟采集方法
CN117791560A (zh) 一种考虑动态微电网的有源配电网弹性自愈方法和控制器
Wang et al. Prioritized sum-tree experience replay TD3 DRL-based online energy management of a residential microgrid
Garrido et al. Energy Management System for Microgrids based on Deep Reinforcement Learning
Tang et al. Voltage Control Strategy of Distribution Networks with Distributed Photovoltaic Based on Multi-agent Deep Reinforcement Learning
CN114048576A (zh) 一种稳定电网输电断面潮流的储能系统智能化控制方法
Cao et al. Probabilistic electricity demand forecasting with transformer-guided state space model
Cao et al. Day-ahead scheduling based on reinforcement learning with hybrid action space
Kang et al. Power flow coordination optimization control method for power system with DG based on DRL
CN118163962B (zh) 一种基于奇异吸引子的复杂巨型星座系统动态稳定性控制方法
CN117477607B (zh) 一种含智能软开关的配电网三相不平衡治理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination