CN115758871A - 一种基于安全强化学习的配电网重构节能降损方法及装置 - Google Patents
一种基于安全强化学习的配电网重构节能降损方法及装置 Download PDFInfo
- Publication number
- CN115758871A CN115758871A CN202211395159.9A CN202211395159A CN115758871A CN 115758871 A CN115758871 A CN 115758871A CN 202211395159 A CN202211395159 A CN 202211395159A CN 115758871 A CN115758871 A CN 115758871A
- Authority
- CN
- China
- Prior art keywords
- distribution network
- power distribution
- reinforcement learning
- strategy
- reducing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开一种基于安全强化学习的配电网重构节能降损方法及装置。包括以下步骤:步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;步骤S4:通过最优神经网络模型求解配电网重构。本发明将配电网重构问题制定为受约束的马尔可夫决策过程,保证电压安全性的同时,最小化开关切换成本和网络损耗成本。
Description
技术领域
本发明涉及配网技术领域,特别涉及一种基于安全强化学习的配电网重构节能降损方法及装置。
背景技术
动态配电网重构问题根据线路电阻损耗、负载损耗或分布式电源的托管容量确定运营范围内网络重构的最佳顺序。配电网重构问题中建模的常见操作约束包括电压幅度限制和网络辐射度。远程可控开关的频繁切换可能导致设备过度磨损,增加成本。
大多数关于动态配电网重构问题的现有措施都采用基于物理模型的控制方法。配电网重构问题常常被表述为混合整数或动态规划问题,此外启发式算法和元启发式算法也得到广泛的应用。然而,现有的基于物理模型的算法严重依赖于对网络拓扑和参数的准确了解,区域电力公司很难维持准确的网络模型,并且一级和二级网络的参数估计并不准确,因此基于模型的算法可能并不可靠。其次基于模型的算法计算复杂度通常很大,这使得基于模型的计算非常耗时,难以实现配电网重构的实时应用。
目前,深度强化学习方法已经在配电网重构上得到一定的应用。首先,深度强化学习方法是无模型的,因此不需要依赖准确的配电网参数。其次基于离线策略的深度强化学习方法可以保存训练好的最优神经网络模型,实现配电网重构的实时在线应用。
然而,传统的深度强化学习方法允许智能体在训练期间自由探索任何行为,这可能会给配电网重构过程带来严重的安全问题,不当行为可能导致违反潮流约束并在配电馈线中产生过压和欠压行为。此外,传统强化学习大都采用在奖励函数中添加惩罚项的方法解决训练过程中的电压违规行为,而在实践中惩罚系数的设计较为困难。惩罚系数过大奖励值会偏低,导致智能体不能学习到最优的重构方案;惩罚系数过小无法充分惩罚违反约束行为,带来配网运行的安全性。
发明内容
本发明提供了一种基于安全强化学习的配电网重构节能降损方法及装置,将配电网重构问题建模成受约束的马尔科夫决策过程,并采用约束策略优化的安全强化学习方法进行离线训练,并在线测试。在保证电压幅值满足约束的同时,能够使配电网损耗得到显著降低,实现了安全性和经济性的统一。
本发明的技术方案为:包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。
步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
步骤S2中,受约束的马尔可夫决策过程为:
那么受约束的马尔可夫决策过程的可行的平稳策略为:式中,E表示期望,τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π,γ为折扣系数,d是限制,at属于动作空间,st和st+1分别属于状态空间;
平稳策略的目标函数为:
式中,Π表示所有的固定策略集,ΠC是将成本函数Ct+1的未来折扣回报进行限制的平稳策略,J(π)表示奖励函数Rt+1的未来折扣回报。
其中,奖励函数Rt+1为:
式中,Cl等于固定零售电价与网络损耗的乘积,网络损耗与在时间t的有功功率pt、无功功率qt和配电网辐射构造相关;Cs等于每次切换的固定成本和切换动作次数的乘积,At为动作空间,为配电网在时间t的配电网辐射构造,St为状态空间;
成本函数Ct+1为:
步骤S3包括以下步骤:
步骤S31:求解目标函数转化
根据约束策略优化理论的推论,将目标函数变为如下的代理优化目标:
步骤S32:简化求解问题
将步骤S31的优化目标进行近似处理,近似为如下的优化问题:
式中,是关于优势函数未来期望的策略梯度,其中,θ是神经网络参数,是在动作a满足策略下的状态s分布; 是未来成本回报,d是限制;是关于成本优势函数未来期望的策略梯度;是分布在πθ和的最大KL-散度的拉普拉斯算子,δ是一个很小值;
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程;
在每次迭代中,首先更新Γ时间步数,并运行策略网络参数;然后收集到状态-动作组{(st,at)|t=0,1,…,Γ-1},使用重要性采样估计梯度;其次通过在线搜索算法解决步骤S32中的策略优化问题;最后使用最优解θi+1来更新策略网络参数。
一种基于安全强化学习的配电网重构节能降损装置,包括:
采集模块,用于采集配电网历史运行数据作为安全强化学习的学习样本数据;
建模模块,用于将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
训练模块,针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
求解模块,通过最优神经网络模型求解配电网重构。
本发明具有以下有益效果:
1、本发明提出的算法是无模型的,不需要准确的配电网拓扑参数;
2、本发明将配电网重构问题建模为受约束的马尔可夫决策过程,分别制定了奖励及成本函数,避免了实践中惩罚系数设计困难的问题;
3、本发明使用约束策略优化算法训练好的最优神经网络模型可以离线保存,在线应用,能够实现配电网重构的秒级求解;
4、本发明提出的约束策略优化算法是一种安全强化学习算法,训练过程中能够在满足电压约束的同时,有效降低网络损耗,兼顾了安全性和经济性的统一。
附图说明
图1为本发明的方法流程图;
图2为训练阶段的奖励值曲线;
图3为训练阶段的约束值曲线;
图4为CPO测试阶段某天的各节点电压分布。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。即将当前配电网各个节点的有功及无功功率数据输入最优神经网络模型,求解配电网络的拓扑结构状态,获得最小的配电网络重构运营成本。
本发明在工作中,将配电网重构问题制定为受约束的马尔可夫决策过程,保证电压安全性的同时,最小化开关切换成本和网络损耗成本。通过使用一种基于约束策略优化(CPO)的安全强化学习方法来学习神经网络策略。与允许智能体在训练期间自由探索任何行为的传统深度强化学习方法不同,所提出的方法将探索限制在满足训练期间交流潮流约束的安全策略上。本发明所提出的方法是无模型的,不需要配电网完整且准确的网络参数。而且是一种在线算法,可以实现配电网重构的秒级求解。
步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
步骤S2包括以下步骤:
步骤S21:马尔可夫决策过程定义
一个马尔可夫决策过程是一个元组(S,A,P,r,γ,T),它由一组状态S、一组动作A、一个状态转移概率一个奖励函数r(s,a)、一个折扣系数γ∈[0,1]、和时间范围T组成。在马尔可夫决策过程中,代理在每个离散时间步t处根据环境的状态St∈S选择动作At∈A,之后智能体收到奖励Rt+1=r(St,At),环境状态将根据状态转移概率P(St+1|St,At)过度到St+1,当t=|T|且S|T|为终止状态时,该过程终止。
步骤S22:受约束的马尔可夫决策过程定义
受约束的马尔可夫决策过程是增加了约束的马尔可夫决策过程,这些约束限制了该马尔可夫决策过程的允许策略集。具体来说,用一个辅助成本函数C和限制d来扩充马尔可夫决策过程,令JC(π)表示策略π相对于成本函数的预期折现回报:
那么受约束的马尔可夫决策过程的可行的平稳策略是:式中,E表示期望,τ表示轨迹τ=(s0,a0,s1,…),τ~π表示轨迹τ上的分布取决于π,γ为折扣系数,d是限制,at属于动作空间,st和st+1分别属于状态空间。
平稳策略的目标函数为:
表示一个运行策略π的目标是,在不超过代价阈值的约束条件ΠC的情况下,获取最大的未来奖励J(π)。其中,Π表示所有的固定策略集,ΠC是将成本函数Ct+1的未来折扣回报限制在一定范围内的平稳策略,J(π)是关于奖励函数Rt+1的未来折扣回报。
其中,动作空间At
状态空间St
奖励函数Rt+1
配电网重构的目标是最小化网络损失和切换成本,强化学习的目标是最大化未来折现回报。因此奖励函数定义为线损负成本和切换动作负成本之和:
成本函数Ct+1
将成本函数Ct+1定义为所有计量节点的电压违规绝对值之和:
步骤S3中,运用约束策略优化算法离线训练,当未来奖励收敛到稳定值时,获得最优神经网络模型;
具体包括以下步骤:
步骤S31:求解目标函数转化
根据约束策略优化理论的推论,将目标函数变为如下的代理优化目标:
步骤S32:简化求解问题
将步骤S31的优化目标进行近似处理,首先对目标函数和约束函数做泰勒展开,得到一个简化后的优化问题:目标函数一阶泰勒展开得到一个线性函数,其中一个约束条件一阶泰勒展开得到多个线性约束,另一个约束条件二阶泰勒展开得到一个二次函数;近似为如下的优化问题:
式中,是关于优势函数未来期望的策略梯度,其中,θ是神经网络参数,是在动作a满足策略下的状态s分布; 是未来成本回报,d是限制;是关于成本优势函数未来期望的策略梯度;是分布在πθ和的最大KL-散度的拉普拉斯算子,δ是一个很小值。
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程,具体算法的伪代码在算法1中所示。
其次通过在线搜索算法解决步骤S32中的策略优化问题;最后使用最优解θi+1来更新策略网络参数。
由于深度Q网络算法(DQN)训练期间,允许智能体的任何自由探索行为,由此可能会导致违反潮流约束并在配电馈线中产生过压和欠压行为。本发明采用的约束策略优化算法(CPO)在网络损耗控制和电压控制方面具有良好的性能。
本发明将配电网重构问题,建模为受约束的马尔可夫决策过程,分别制定了奖励及成本函数,并不需要手动涉及惩罚系数;所提出的基于约束策略优化的安全强化学习方法,可以高效训练神经网络以生成满足电压约束的最优配电网重构策略。此外所提方法是无模型的,不需要准确且完整的配电网参数,能够在满足配电网安全性的同时,有效降低配网线损。
下面以16节点配电网作为算例,介绍本发明:
配电网基准电压为100MVA,在节点11装有光伏,假设每条线段都有一个遥控开关,配电网重构的动作数量由矩阵树定理计算为190次。线路开关每次线路切换产生的成本Cs为4$,与网络损失相关的成本Cl为0.13$/kWh,最大和最小节点电压设置为和v=0.95。负荷数据的时间序列取自爱尔兰能源监管委员会智能计量项目,太阳能发电数据均来自南加州站点。将26周的历史数据集划分为25周的训练数据集和1周的测试数据集。
为了验证所提出的安全强化学习方法,即约束策略优化算法(CPO)的有效性,本发明将其与传统的深度强化学习算法,即深度Q网络算法(DQN)进行对比。对于DQN来处理约束,本发明通过在奖励函数中添加一个惩罚项1000*Ct+1来惩罚任何违反电压约束的行为。
1.经济性分析
训练阶段的奖励值曲线如图2所示。
随着训练步数的增加,DQN算法和CPO算法的奖励值都在稳步增加,并最终收敛。奖励值是动作切换成本和网络损失成本之和的负数。这说明了两种算法都能学习到配电网重构的节能降损策略,其中CPO的最终奖励值更高,经济成本更低。与DQN相比,CPO每天约能降低36.4%的运行成本,因此,CPO算法在网络损耗控制方面具有良好的性能。
2.安全性分析
训练阶段的约束值曲线如图3所示。
训练过程中,可以看出DQN算法的约束值违反情况较为频繁,CPO的约束值在很少的迭代步数后就降低接近为0,并保持稳定。由于定义了约束值为训练过程中电压的违反情况,所以约束值越高,电压越限的几率和程度越大。因此CPO在训练过程中能够学习到考虑电压安全性的策略。
CPO测试阶段某天的各节点电压分布如图4所示。
随机选定测试数据集中的一天,作为离线训练保存好的模型输入,配电网各节点的最大最小电压分布情况如图4所示。由此可以看出,经CPO训练好的最优神经网络模型,在线测试阶段,配网各电压被维持在0.95-1.05p.u之间。
因此CPO算法在电压控制方面具有良好的性能。
3.实时性分析
在线测试阶段,计算24小时的动态网络重构时间仅需0.37秒,因此能够满足实时应用的要求。
Claims (10)
1.一种基于安全强化学习的配电网重构节能降损方法,其特征在于,包括以下步骤:
步骤S1:采集配电网历史运行数据作为安全强化学习的学习样本数据;
步骤S2:将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
步骤S3:针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
步骤S4:通过最优神经网络模型求解配电网重构。
2.根据权利要求1所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:步骤S1中,采集n周的历史运行数据,n>2且取整数;
其中,历史运行数据包括配电网各节点注入有功和无功功率。
6.根据权利要求3所述的一种基于安全强化学习的配电网重构节能降损方法,其特征在于:步骤S3包括以下步骤:
步骤S31:求解目标函数转化;
步骤S32:简化求解问题;
步骤S33:采用约束策略优化算法解决所构建的受约束的马尔科夫决策过程。
10.一种基于安全强化学习的配电网重构节能降损装置,其特征在于,包括:
采集模块,用于采集配电网历史运行数据作为安全强化学习的学习样本数据;
建模模块,用于将配电网重构建模为受约束的马尔可夫决策过程,搭建强化学习环境;
训练模块,针对搭建的强化学习环境,运用约束策略优化算法离线训练,获得最优神经网络模型;
求解模块,通过最优神经网络模型求解配电网重构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395159.9A CN115758871A (zh) | 2022-11-08 | 2022-11-08 | 一种基于安全强化学习的配电网重构节能降损方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395159.9A CN115758871A (zh) | 2022-11-08 | 2022-11-08 | 一种基于安全强化学习的配电网重构节能降损方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758871A true CN115758871A (zh) | 2023-03-07 |
Family
ID=85368333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211395159.9A Pending CN115758871A (zh) | 2022-11-08 | 2022-11-08 | 一种基于安全强化学习的配电网重构节能降损方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758871A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708961A (zh) * | 2024-02-05 | 2024-03-15 | 中南大学 | 一种既有铁路三维空间线位整体智能重构方法 |
-
2022
- 2022-11-08 CN CN202211395159.9A patent/CN115758871A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708961A (zh) * | 2024-02-05 | 2024-03-15 | 中南大学 | 一种既有铁路三维空间线位整体智能重构方法 |
CN117708961B (zh) * | 2024-02-05 | 2024-04-30 | 中南大学 | 一种既有铁路三维空间线位整体智能重构方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Model-free real-time autonomous control for a residential multi-energy system using deep reinforcement learning | |
Wang et al. | Deep reinforcement learning method for demand response management of interruptible load | |
Shuai et al. | Stochastic optimization of economic dispatch for microgrid based on approximate dynamic programming | |
Li et al. | Probabilistic charging power forecast of EVCS: Reinforcement learning assisted deep learning approach | |
CN112615379A (zh) | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 | |
CN114217524A (zh) | 一种基于深度强化学习的电网实时自适应决策方法 | |
CN114362187B (zh) | 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统 | |
CN116760047A (zh) | 基于安全强化学习算法的配电网电压无功控制方法及系统 | |
CN114566971B (zh) | 一种基于近端策略优化算法的实时最优潮流计算方法 | |
CN115293052A (zh) | 电力系统有功潮流在线优化控制方法、存储介质和装置 | |
CN115758871A (zh) | 一种基于安全强化学习的配电网重构节能降损方法及装置 | |
CN115588998A (zh) | 一种基于图强化学习的配电网电压无功优化方法 | |
KR20230070779A (ko) | 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법 | |
Pinson | Introducing distributed learning approaches in wind power forecasting | |
CN117973644A (zh) | 一种考虑参考电站优化的分布式光伏功率虚拟采集方法 | |
CN117791560A (zh) | 一种考虑动态微电网的有源配电网弹性自愈方法和控制器 | |
Wang et al. | Prioritized sum-tree experience replay TD3 DRL-based online energy management of a residential microgrid | |
Garrido et al. | Energy Management System for Microgrids based on Deep Reinforcement Learning | |
Tang et al. | Voltage Control Strategy of Distribution Networks with Distributed Photovoltaic Based on Multi-agent Deep Reinforcement Learning | |
CN114048576A (zh) | 一种稳定电网输电断面潮流的储能系统智能化控制方法 | |
Cao et al. | Probabilistic electricity demand forecasting with transformer-guided state space model | |
Cao et al. | Day-ahead scheduling based on reinforcement learning with hybrid action space | |
Kang et al. | Power flow coordination optimization control method for power system with DG based on DRL | |
CN118163962B (zh) | 一种基于奇异吸引子的复杂巨型星座系统动态稳定性控制方法 | |
CN117477607B (zh) | 一种含智能软开关的配电网三相不平衡治理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |