CN116739074B - 基于改进q学习的配电系统过程状态驱动的弹性策略方法 - Google Patents
基于改进q学习的配电系统过程状态驱动的弹性策略方法 Download PDFInfo
- Publication number
- CN116739074B CN116739074B CN202310680191.XA CN202310680191A CN116739074B CN 116739074 B CN116739074 B CN 116739074B CN 202310680191 A CN202310680191 A CN 202310680191A CN 116739074 B CN116739074 B CN 116739074B
- Authority
- CN
- China
- Prior art keywords
- state
- procedural
- function
- time
- power distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000026676 system process Effects 0.000 title claims description 19
- 230000006870 function Effects 0.000 claims abstract description 79
- 238000005457 optimization Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000007704 transition Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 230000008859 change Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 claims description 3
- 230000010485 coping Effects 0.000 abstract 1
- 230000006872 improvement Effects 0.000 abstract 1
- 238000012804 iterative process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 238000013486 operation strategy Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Physiology (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法,具体构建步骤如下:S1:利用灾害条件下配电系统时空线路故障率计算状态转移概率函数;S2:利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型;S3:基于等效Q函数对过程性状态驱动递推优化模型进行等效变换,构建映射函数关系;S4:基于改进Q学习方法离线学习,得到系统状态等效Q函数值;S5:构建单时段确定性优化模型,并据配电系统的实时状态实现在线优化,得到实时最优策略。本发明通过状态驱动的递推优化模型构建配电系统应对灾害的过程性弹性策略,在有限的时间内可以快速得到基于实时状态的最优弹性策略。
Description
技术领域
本发明属于配电系统优化运行领域,特别涉及一种基于改进Q学习的配电系统过程性状态驱动的弹性策略方法。
背景技术
安全可靠的电力供给是社会可持续发展的重要因素之一。为了应对这些潜在的极端天气事件,构建安全可靠的构建应对极端天气事件的配电系统已成为电力系统操作人员的关键任务之一。其中,构建“弹性运行策略”是配电系统应对极端天气事件的重要手段之一。考虑极端天气事件对配电系统影响的序贯性及不确定性,已有的配电系统优化调度策略不能很好地应对极端天气事件对配电系统的影响,因此,需要有针对性的模型和方法构建基于实时状态驱动的运行策略来保证配电系统安全可靠运行。
发明内容
针对上述问题,本发明提供一种基于改进Q学习的配电系统过程性状态驱动的弹性策略方法,通过状态驱动的递推优化模型构建配电系统应对灾害的过程性弹性策略,并利用改进Q学习方法对优化模型进行离线学习得到系统状态等效Q函数值,将多时段随机优化问题转化为单时段确定性优化问题,并基于此实现在线优化,在有限的时间内可以快速得到基于实时状态的最优弹性策略。
本发明中主要采用的技术方案为:
一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法,具体构建步骤如下:
S1:考虑灾害事件的序贯性和不确定性,利用状态转移模型表征配电系统受灾害影响下系统拓扑的动态变化过程,利用灾害条件下配电系统时空线路故障率计算状态转移概率函数;
S2:利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型;
S3:基于等效Q函数对步骤S2构建的过程性状态驱动递推优化模型进行等效变换,随后构建拓扑变化到线路状态变量的映射函数关系;
S4:基于改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习,得到在考虑不同策略和未来不确定性以及序贯性下的系统状态等效Q函数值;
S5:基于步骤S4得到的系统状态等效Q函数值,构建单时段确定性优化模型,并基于单时段确定性优化模型根据配电系统的实时状态实现在线优化,得到实时的最优策略。
优选地,所述S1的具体步骤如下:
S1-1:根据灾害事件的序贯路径、影响范围和系统拓扑结构,定义t时刻的系统过程性状态πt,该系统过程性状态包含系统中所有线路的启停状态、故障状态;
S1-2:基于系统过程性状态、配电系统时空线路故障率和灾害事件的时空序贯路径,计算时间轴上不同的系统过程性状态之间的转移概率p(πt+1|πt,at,ξ):
p(πt+1|πt,at,ξ)=∏kp(sk,t+1|sk,t,at,ξ) (1);
式中,k表示受极端天气事件影响的设备,sk,t和sk,t+1为设备k在t和t+1时刻的运行状态,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,p(sk,t+1|sk,t,at,ξ)表示在策略at下设备k的运行状态从sk,t到sk,t+1的概率,ξ表示随机因素。
优选地,所述S2中构建的基于贝尔曼优化的过程性状态驱动递推优化模型如式(2)所示:
式中,ht(πt)和ht+1(πt+1)分别是t和t+1时刻系统过程性状态πt和πt+1对应的最优值函数,at为系统实施的策略,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,ξ表示随机因素,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本。
优选地,所述S3中的具体步骤如下:
S3-1:基于等效Q函数概念,将表征未来序贯性以及不确定性的后续期望成本表示为一个待求解的等效Q函数:
式中,为过程性状态πt时实施at策略下对应的Q函数;
S3-2:基于公式(3),过程性状态驱动递推优化模型表示为:
式中,ht(πt)是t时刻系统过程性状态πt对应的最优函数值,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本,为过程性状态πt时实施at策略下对应的Q函数;
S3-3:步骤S3-2构建的过程性状态驱动递推优化模型中的系统过程性状态包含系统的拓扑动态变化过程,利用递推麦考密克松弛方法构建拓扑变化到线路状态变量的映射函数关系。
优选地,所述S4的具体步骤如下:
S4-1:设置所有系统过程性状态的Q函数初值为零,即n=0,其中n为迭代次数;
S4-2:在Q函数初值为零情况下,从时刻t根据公式(4)计算t时刻系统过程性状态πt的最优策略并且得到第n迭代的/>如公式(5)所示:
式中,时刻t={1,2,3,…,T},T表示考虑的时间断面个数;
S4-3:在S4-2步骤中得到的最优策略作用下,由于灾害对配电系统的序贯不确定性影响,系统在t+1时刻会有新的系统过程性状态πt+1,基于新的系统过程性状态的第n-1次迭代状态函数值,更新Q函数,即:
式中,和/>为第n次和第n-1次迭代的Q函数值,/>和为第n-1次迭代下系统过程性状态πt+1和π′t+1的最优值函数;πt+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态,π′t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态;λ为0至1之间的随机数,PA是0至1之间的一个常数;
S4-4:迭代过程中,动态更新Q学习中的参数ζ,如公式(7)所示,加快收敛速度:
式中,为第n次、第n-1次、第n-2次迭代的Q函数值,κ是小于1的正数;
S4-5:判断收敛条件是否成立,其中,ε是收敛阀值,若收敛条件成立,记/> 为系统过程性状态的等效Q函数值;若收敛条件不成立,继续迭代直至满足收敛条件。
优选地,所述S5的具体步骤如下:
S5-1:基于不同系统过程性状态的等效Q函数值将公式(5)转化为一个单时段确定性优化模型,如公式(8)所示:
式中,为t时刻系统过程性状态的等效Q函数值,不同的系统过程性状态下/>不同;
S5-2:在每个决策时刻,根据实际的系统拓扑状况,采用单时段确定性优化模型进行优化,即可得到实时的最优策略。
有益效果:本发明提供一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法,通过贝尔曼递推优化模型构建从过程性状态到实时策略的映射关系,利用改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习,得到在考虑不同策略和未来不确定性/序贯性下系统状态的等效Q函数值,将原问题转化为一个单时段确定性问题,并根据系统的实时状态实现在线优化,快速得到实时的最优策略。
附图说明
图1为本发明提出的过程性状态驱动弹性策略构建方法的流程图;
图2为实施例1中不同系统过程性状态的Q函数值迭代过程;
图3为实施例1中有无考虑参数动态更新对Q函数值迭代过程的影响对比。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
实施例1
一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法,如图1所示,具体构建步骤如下:
S1:考虑灾害事件的序贯性和不确定性,利用状态转移模型表征配电系统受灾害影响下系统拓扑的动态变化过程,利用灾害条件下配电系统时空线路故障率计算状态转移概率函数,具体地,
S1-1:根据灾害事件的序贯路径、影响范围和系统拓扑结构,定义t时刻的系统过程性状态πt,该系统过程性状态包含系统中所有线路的启停状态、故障状态;
S1-2:基于系统过程性状态、配电系统时空线路故障率和灾害事件的时空序贯路径,计算时间轴上不同的系统过程性状态之间的转移概率p(πt+1|πt,at,ξ),如公式(1)所示:
p(πt+1|πt,at,ξ)=∏kp(sk,t+1|sk,t,at,ξ) (1);
式中,k表示受极端天气事件影响的设备,sk,t和sk,t+1为设备k在t和t+1时刻的运行状态,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,p(sk,t+1|sk,t,at,ξ)表示在策略at下设备k的运行状态从sk,t到sk,t+1的概率,ξ表示随机因素。
S2:考虑灾害对配电系统的序贯性和不确定性影响,利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型。其中,过程性状态驱动递推优化模型如式(2)所示:
式中,ht(πt)和ht+1(πt+1)分别是t和t+1时刻系统过程性状态πt和πt+1对应的最优值函数,at为系统实施的策略,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,ξ表示随机因素,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本,包含线路启停费用、失负荷费用、线路运行费用;
所述过程性状态驱动递推优化模型为系统过程性状态的递推函数,包含当前决策的即时成本和表征序贯性以及不确定性的后续期望成本,对于t时刻的系统过程性状态πt,递推公式(2)需要满足辐射状配电系统拓扑结构、维修时间约束、线路潮流约束、节点功率平衡约束、系统潮流约束、线路容量约束、节点电压约束。
S3:基于等效Q函数思想,将未来期望成本表示为一个待求解的等效Q函数,对步骤S2构建的过程性状态驱动递推优化模型进行等效变换,随后构建拓扑变化到线路状态变量的映射函数关系。具体方法如下:
S3-1:利用等效Q函数思想,将未来期望成本表示为一个待求解的等效Q函数:
式中,为过程性状态πt时实施at策略下对应的Q函数。
S3-2:基于公式(3),过程性状态驱动递推优化模型可以表示为:
式中,ht(πt)是t时刻系统过程性状态πt对应的最优函数值,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本,为过程性状态πt时实施at策略下对应的Q函数;
S3-3:步骤S3-2构建的过程性状态驱动递推优化模型中的系统过程性状态包含系统的拓扑动态变化过程,利用递推麦考密克松弛方法构建拓扑变化到线路状态变量的映射函数关系。
S4:利用基于改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习,得到在考虑不同策略和未来不确定性以及序贯性下系统状态的等效Q函数值。具体方法如下:
S4-1:设置所有系统过程性状态的Q函数初值为零,即n=0,其中n为迭代次数;
S4-2:在Q函数初值为零情况下,从时刻t根据公式(4)计算t时刻系统过程性状态πt的最优策略并且得到第n迭代的/>如公式(5)所示:
S4-3:在S4-2步骤中得到的最优策略作用下,由于灾害对配电系统的序贯不确定性影响,系统在t+1时刻会有新的系统过程性状态πt+1,基于新的系统过程性状态的第n-1次迭代状态函数值,更新Q函数,即:
式中,和/>为第n次和第n-1次迭代的Q函数值,/>和为第n-1次迭代下系统过程性状态πt+1和π′t+1的最优值函数,πt+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态,π′t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态,λ为0至1之间的随机数,PA是0至1之间的一个常数。本发明中,通过随机考虑π′t+1可以防止陷入局部收敛。
S4-4:迭代过程中,动态更新Q学习中的参数ζ,如公式(7)所示,加快收敛速度:
式中,为第n次、第n-1次、第n-2次迭代的Q函数值,κ是小于1的正数。t取值是1、2、…、T,其中T为考虑的最大时间。本发明中利用不同迭代次数的Q函数值来更新学习过程中的参数ζ使迭代具有较好的收敛性。
S4-5:判断收敛条件是否成立,其中ε是收敛阀值,设置为1.0×10-4,若收敛条件成立,得到系统过程性状态的等效Q函数值/>为系统过程性状态的等效Q函数值;若收敛条件不成立,继续迭代直至满足收敛条件。如图2所示为实施例1中不同系统过程性状态的Q函数值迭代过程。
图3为实施例1中有无考虑参数ζ动态更新对Q函数值迭代过程的影响。从结果可以看出,参数ζ进行动态更新具有更快的收敛效果。考虑动态参数ζ时,2000次左右迭代收敛;没有考虑动态参数ζ时,则需要6000次左右迭代收敛。
S5:基于系统状态等效Q函数值,可以将原问题(多时段随机优化问题)转化为一个单时段确定性问题,并根据系统的实时状态实现在线优化,得到实时的最优策略。
S5-1:基于不同系统过程性状态的等效Q函数值将公式(5)转化为一个单时段确定性优化模型,如公式(8)所示:
式中,为t时刻系统过程性状态的等效Q函数值,不同的系统过程性状态下不同,单时段确定性优化模型对应的约束条件包括辐射状配电系统拓扑结构、维修时间约束、线路潮流约束、节点功率平衡约束、系统潮流约束、线路容量约束和节点电压约束。
S5-2:在每个决策时刻,根据实际的系统拓扑状况,采用单时段确定性优化模型进行优化,即可得到实时的最优策略。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,具体构建步骤如下:
S1:考虑灾害事件的序贯性和不确定性,利用状态转移模型表征配电系统受灾害影响下系统拓扑的动态变化过程,利用灾害条件下配电系统时空线路故障率计算状态转移概率函数;
S2:利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型;
S3:基于等效Q函数对步骤S2构建的过程性状态驱动递推优化模型进行等效变换,随后构建拓扑变化到线路状态变量的映射函数关系;
S4:基于改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习,得到在考虑不同策略和未来不确定性以及序贯性下的系统状态等效Q函数值;
S5:基于步骤S4得到的系统状态等效Q函数值,构建单时段确定性优化模型,并基于单时段确定性优化模型根据配电系统的实时状态实现在线优化,得到实时的最优策略。
2.根据权利要求1所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,所述S1的具体步骤如下:
S1-1:根据灾害事件的序贯路径、影响范围和系统拓扑结构,定义t时刻的系统过程性状态πt,该系统过程性状态包含系统中所有线路的启停状态、故障状态;
S1-2:基于系统过程性状态、配电系统时空线路故障率和灾害事件的时空序贯路径,计算时间轴上不同的系统过程性状态之间的转移概率p(πt+1|πt,at,ξ):
p(πt+1|πt,at,ξ)=∏kp(sk,t+1|sk,t,at,ξ) (1);
式中,k表示受极端天气事件影响的设备,sk,t和sk,t+1为设备k在t和t+1时刻的运行状态,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,p(sk,t+1|sk,t,at,ξ)表示在策略at下设备k的运行状态从sk,t到sk,t+1的概率,ξ表示随机因素。
3.根据权利要求1所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,所述S2中构建的基于贝尔曼优化的过程性状态驱动递推优化模型如式(2)所示:
式中,ht(πt)和ht+1(πt+1)分别是t和t+1时刻系统过程性状态πt和πt+1对应的最优值函数,at为系统实施的策略,p(πt+1|πt,at,ξ)表示在策略at下系统过程性状态从πt到πt+1的概率,ξ表示随机因素,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本。
4.根据权利要求3所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,所述S3中的具体步骤如下:
S3-1:基于等效Q函数概念,将表征未来序贯性以及不确定性的后续期望成本表示为一个待求解的等效Q函数:
式中,为过程性状态πt时实施at策略下对应的Q函数;
S3-2:基于公式(3),过程性状态驱动递推优化模型表示为:
式中,ht(πt)是t时刻系统过程性状态πt对应的最优函数值,ct(πt,at)是系统过程性状态为πt时实施策略at下系统的即时成本,为过程性状态πt时实施at策略下对应的Q函数;
S3-3:步骤S3-2构建的过程性状态驱动递推优化模型中的系统过程性状态包含系统的拓扑动态变化过程,利用递推麦考密克松弛方法构建拓扑变化到线路状态变量的映射函数关系。
5.根据权利要求4所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,所述S4的具体步骤如下:
S4-1:设置所有系统过程性状态的Q函数初值为零,即其中n为迭代次数;
S4-2:在Q函数初值为零情况下,从时刻t根据公式(4)计算t时刻系统过程性状态πt的最优策略并且得到第n迭代的/>如公式(5)所示:
式中,时刻t={1,2,3,…,T},T表示考虑的时间断面个数;
S4-3:在S4-2步骤中得到的最优策略作用下,由于灾害对配电系统的序贯不确定性影响,系统在t+1时刻会有新的系统过程性状态πt+1,基于新的系统过程性状态的第n-1次迭代状态函数值,更新Q函数,即:
式中,和/>为第n次和第n-1次迭代的Q函数值,/>和/>为第n-1次迭代下系统过程性状态πt+1和π′t+1的最优值函数;πt+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态,π′t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态;λ为0至1之间的随机数,PA是0至1之间的一个常数;
S4-4:迭代过程中,动态更新Q学习中的参数ζ,如公式(7)所示,加快收敛速度:
式中,为第n次、第n-1次、第n-2次迭代的Q函数值,κ是小于1的正数;
S4-5:判断收敛条件是否成立,其中,ε是收敛阀值,若收敛条件成立,记/> 为系统过程性状态的等效Q函数值;若收敛条件不成立,继续迭代直至满足收敛条件。
6.根据权利要求5所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法,其特征在于,所述S5的具体步骤如下:
S5-1:基于不同系统过程性状态的等效Q函数值将公式(5)转化为一个单时段确定性优化模型,如公式(8)所示:
式中,为t时刻系统过程性状态的等效Q函数值,不同的系统过程性状态下/>不同;
S5-2:在每个决策时刻,根据实际的系统拓扑状况,采用单时段确定性优化模型进行优化,即可得到实时的最优策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310680191.XA CN116739074B (zh) | 2023-06-08 | 2023-06-08 | 基于改进q学习的配电系统过程状态驱动的弹性策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310680191.XA CN116739074B (zh) | 2023-06-08 | 2023-06-08 | 基于改进q学习的配电系统过程状态驱动的弹性策略方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116739074A CN116739074A (zh) | 2023-09-12 |
CN116739074B true CN116739074B (zh) | 2023-11-17 |
Family
ID=87912750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310680191.XA Active CN116739074B (zh) | 2023-06-08 | 2023-06-08 | 基于改进q学习的配电系统过程状态驱动的弹性策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116739074B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160114824A (ko) * | 2015-03-25 | 2016-10-06 | 전남대학교산학협력단 | 전압 민감도 모선 임피던스 행렬 및 모선 어드미턴스 행렬을 이용한 분산전원 또는 무효전력 제어기의 최적 무효전력 제어치 계산 방법 및 그 프로그램 |
CN111429038A (zh) * | 2020-04-25 | 2020-07-17 | 华南理工大学 | 一种基于强化学习的主动配电网实时随机优化调度方法 |
CN111860611A (zh) * | 2020-06-29 | 2020-10-30 | 河海大学 | 一种基于马尔科夫决策的配电系统弹性策略构建的方法 |
WO2022022101A1 (zh) * | 2020-07-30 | 2022-02-03 | 国网甘肃省电力公司电力科学研究院 | 一种送端电网故障状态下紧急源网协调调峰控制方法 |
CN116207750A (zh) * | 2023-02-28 | 2023-06-02 | 云南电网有限责任公司昆明供电局 | 一种基于深度确定性策略梯度算法的配电网无功优化方法 |
-
2023
- 2023-06-08 CN CN202310680191.XA patent/CN116739074B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160114824A (ko) * | 2015-03-25 | 2016-10-06 | 전남대학교산학협력단 | 전압 민감도 모선 임피던스 행렬 및 모선 어드미턴스 행렬을 이용한 분산전원 또는 무효전력 제어기의 최적 무효전력 제어치 계산 방법 및 그 프로그램 |
CN111429038A (zh) * | 2020-04-25 | 2020-07-17 | 华南理工大学 | 一种基于强化学习的主动配电网实时随机优化调度方法 |
CN111860611A (zh) * | 2020-06-29 | 2020-10-30 | 河海大学 | 一种基于马尔科夫决策的配电系统弹性策略构建的方法 |
WO2022022101A1 (zh) * | 2020-07-30 | 2022-02-03 | 国网甘肃省电力公司电力科学研究院 | 一种送端电网故障状态下紧急源网协调调峰控制方法 |
CN116207750A (zh) * | 2023-02-28 | 2023-06-02 | 云南电网有限责任公司昆明供电局 | 一种基于深度确定性策略梯度算法的配电网无功优化方法 |
Non-Patent Citations (2)
Title |
---|
改进粒子群优化算法的概率可用输电能力研究;李国庆;陈厚合;;中国电机工程学报(第24期);全文 * |
高渗透光伏接入下基于近似值函数的主动配电网鲁棒优化;孙兴鲁;董萍;王雅平;林;;电力系统自动化(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116739074A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
US11442420B2 (en) | Power grid reactive voltage control method based on two-stage deep reinforcement learning | |
Shayeghi et al. | Multi-machine power system stabilizers design using chaotic optimization algorithm | |
Mukherjee | A novel quasi-oppositional harmony search algorithm and fuzzy logic controller for frequency stabilization of an isolated hybrid power system | |
WO2023070293A1 (zh) | 一种工业副产煤气系统长期调度方法 | |
CN113505458A (zh) | 连锁故障关键触发支路预测方法、系统、设备及存储介质 | |
Ernst et al. | Approximate Value Iteration in the Reinforcement Learning Context. Application to Electrical Power System Control. | |
CN111860611A (zh) | 一种基于马尔科夫决策的配电系统弹性策略构建的方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN114123178B (zh) | 一种基于多智能体强化学习的智能电网分区网络重构方法 | |
CN116739074B (zh) | 基于改进q学习的配电系统过程状态驱动的弹性策略方法 | |
CN113690926B (zh) | 一种改进烟花算法优化单相逆变器控制参数整定方法 | |
CN106777521A (zh) | 基于双链量子遗传算法的发电机组涉网参数优化方法 | |
CN111144572B (zh) | 一种基于树形贝叶斯网络的配电网灾情推断方法及系统 | |
CN116826743A (zh) | 一种基于联邦图神经网络的电力负荷预测方法 | |
CN115133540B (zh) | 一种配电网无模型的实时电压控制方法 | |
KR20230100683A (ko) | 준마코프 사후상태 액터-크리틱을 활용한 전력망 자동 운영 방법 | |
CN112488442B (zh) | 基于深度强化学习算法及源荷不确定性的配电网重构方法 | |
Shan et al. | Fuzzy adaptive containment control for nonlinear multi-manipulator systems with actuator faults and predefined accuracy | |
CN114943448A (zh) | 一种微电网优化调度模型的构建方法和系统 | |
Heidary et al. | Load frequency control in a microgrid using double forward-feedback path fractional order fuzzy controller | |
Falehi et al. | HFAGC based on MOPSO technique: Optimal design, comparison, verification | |
Liu et al. | A deep reinforcement learning framework for automatic operation control of power system considering extreme weather events | |
Xu et al. | Coordinated preventive-corrective control for power system transient stability enhancement based on machine learning-assisted optimization | |
Doagou-Mojarrad et al. | Probabilistic interactive fuzzy satisfying generation and transmission expansion planning using fuzzy adaptive chaotic binary PSO algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |