CN116739074B

CN116739074B - 基于改进q学习的配电系统过程状态驱动的弹性策略方法

Info

Publication number: CN116739074B
Application number: CN202310680191.XA
Authority: CN
Inventors: 王冲; 吴峰; 万灿; 鞠平
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-11-17
Anticipated expiration: 2043-06-08
Also published as: CN116739074A

Abstract

本发明公开了一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法，具体构建步骤如下：S1：利用灾害条件下配电系统时空线路故障率计算状态转移概率函数；S2：利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型；S3：基于等效Q函数对过程性状态驱动递推优化模型进行等效变换，构建映射函数关系；S4：基于改进Q学习方法离线学习，得到系统状态等效Q函数值；S5：构建单时段确定性优化模型，并据配电系统的实时状态实现在线优化，得到实时最优策略。本发明通过状态驱动的递推优化模型构建配电系统应对灾害的过程性弹性策略，在有限的时间内可以快速得到基于实时状态的最优弹性策略。

Description

基于改进Q学习的配电系统过程状态驱动的弹性策略方法

技术领域

本发明属于配电系统优化运行领域，特别涉及一种基于改进Q学习的配电系统过程性状态驱动的弹性策略方法。

背景技术

安全可靠的电力供给是社会可持续发展的重要因素之一。为了应对这些潜在的极端天气事件，构建安全可靠的构建应对极端天气事件的配电系统已成为电力系统操作人员的关键任务之一。其中，构建“弹性运行策略”是配电系统应对极端天气事件的重要手段之一。考虑极端天气事件对配电系统影响的序贯性及不确定性，已有的配电系统优化调度策略不能很好地应对极端天气事件对配电系统的影响，因此，需要有针对性的模型和方法构建基于实时状态驱动的运行策略来保证配电系统安全可靠运行。

发明内容

针对上述问题，本发明提供一种基于改进Q学习的配电系统过程性状态驱动的弹性策略方法，通过状态驱动的递推优化模型构建配电系统应对灾害的过程性弹性策略，并利用改进Q学习方法对优化模型进行离线学习得到系统状态等效Q函数值，将多时段随机优化问题转化为单时段确定性优化问题，并基于此实现在线优化，在有限的时间内可以快速得到基于实时状态的最优弹性策略。

本发明中主要采用的技术方案为：

一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法，具体构建步骤如下：

S1：考虑灾害事件的序贯性和不确定性，利用状态转移模型表征配电系统受灾害影响下系统拓扑的动态变化过程，利用灾害条件下配电系统时空线路故障率计算状态转移概率函数；

S2：利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型；

S3：基于等效Q函数对步骤S2构建的过程性状态驱动递推优化模型进行等效变换，随后构建拓扑变化到线路状态变量的映射函数关系；

S4：基于改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习，得到在考虑不同策略和未来不确定性以及序贯性下的系统状态等效Q函数值；

S5：基于步骤S4得到的系统状态等效Q函数值，构建单时段确定性优化模型，并基于单时段确定性优化模型根据配电系统的实时状态实现在线优化，得到实时的最优策略。

优选地，所述S1的具体步骤如下：

S1-1：根据灾害事件的序贯路径、影响范围和系统拓扑结构，定义t时刻的系统过程性状态π_t，该系统过程性状态包含系统中所有线路的启停状态、故障状态；

S1-2:基于系统过程性状态、配电系统时空线路故障率和灾害事件的时空序贯路径，计算时间轴上不同的系统过程性状态之间的转移概率p(π_t+1|π_t,a_t,ξ)：

p(π_t+1|π_t,a_t,ξ)＝∏_kp(s_k,t+1|s_k,t,a_t,ξ) (1)；

式中，k表示受极端天气事件影响的设备，s_k,t和s_k,t+1为设备k在t和t+1时刻的运行状态，p(π_t+1|π_t,a_t,ξ)表示在策略a_t下系统过程性状态从π_t到π_t+1的概率，p(s_k,t+1|s_k,t,a_t,ξ)表示在策略a_t下设备k的运行状态从s_k,t到s_k,t+1的概率，ξ表示随机因素。

优选地，所述S2中构建的基于贝尔曼优化的过程性状态驱动递推优化模型如式(2)所示：

式中，h_t(π_t)和h_t+1(π_t+1)分别是t和t+1时刻系统过程性状态π_t和π_t+1对应的最优值函数，a_t为系统实施的策略，p(π_t+1|π_t,a_t,ξ)表示在策略a_t下系统过程性状态从π_t到π_t+1的概率，ξ表示随机因素，c_t(π_t,a_t)是系统过程性状态为π_t时实施策略a_t下系统的即时成本。

优选地，所述S3中的具体步骤如下：

S3-1：基于等效Q函数概念，将表征未来序贯性以及不确定性的后续期望成本表示为一个待求解的等效Q函数：

式中，为过程性状态π_t时实施a_t策略下对应的Q函数；

S3-2：基于公式(3)，过程性状态驱动递推优化模型表示为：

式中，h_t(π_t)是t时刻系统过程性状态π_t对应的最优函数值，c_t(π_t,a_t)是系统过程性状态为π_t时实施策略a_t下系统的即时成本，为过程性状态π_t时实施a_t策略下对应的Q函数；

S3-3：步骤S3-2构建的过程性状态驱动递推优化模型中的系统过程性状态包含系统的拓扑动态变化过程，利用递推麦考密克松弛方法构建拓扑变化到线路状态变量的映射函数关系。

优选地，所述S4的具体步骤如下：

S4-1：设置所有系统过程性状态的Q函数初值为零，即n＝0，其中n为迭代次数；

S4-2：在Q函数初值为零情况下，从时刻t根据公式(4)计算t时刻系统过程性状态π_t的最优策略并且得到第n迭代的/>如公式(5)所示：

式中，时刻t＝{1,2,3,…,T}，T表示考虑的时间断面个数；

S4-3：在S4-2步骤中得到的最优策略作用下，由于灾害对配电系统的序贯不确定性影响，系统在t+1时刻会有新的系统过程性状态π_t+1，基于新的系统过程性状态的第n-1次迭代状态函数值，更新Q函数，即：

式中，和/>为第n次和第n-1次迭代的Q函数值，/>和为第n-1次迭代下系统过程性状态π_t+1和π′_t+1的最优值函数；π_t+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态，π′_t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态；λ为0至1之间的随机数，P_A是0至1之间的一个常数；

S4-4：迭代过程中，动态更新Q学习中的参数ζ，如公式(7)所示，加快收敛速度：

式中，为第n次、第n-1次、第n-2次迭代的Q函数值，κ是小于1的正数；

S4-5：判断收敛条件是否成立，其中，ε是收敛阀值,若收敛条件成立，记/> 为系统过程性状态的等效Q函数值；若收敛条件不成立，继续迭代直至满足收敛条件。

优选地，所述S5的具体步骤如下：

S5-1:基于不同系统过程性状态的等效Q函数值将公式(5)转化为一个单时段确定性优化模型，如公式(8)所示：

式中，为t时刻系统过程性状态的等效Q函数值，不同的系统过程性状态下/>不同；

S5-2：在每个决策时刻，根据实际的系统拓扑状况，采用单时段确定性优化模型进行优化，即可得到实时的最优策略。

有益效果：本发明提供一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法，通过贝尔曼递推优化模型构建从过程性状态到实时策略的映射关系，利用改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习，得到在考虑不同策略和未来不确定性/序贯性下系统状态的等效Q函数值，将原问题转化为一个单时段确定性问题，并根据系统的实时状态实现在线优化，快速得到实时的最优策略。

附图说明

图1为本发明提出的过程性状态驱动弹性策略构建方法的流程图；

图2为实施例1中不同系统过程性状态的Q函数值迭代过程；

图3为实施例1中有无考虑参数动态更新对Q函数值迭代过程的影响对比。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例1

一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法，如图1所示，具体构建步骤如下：

S1：考虑灾害事件的序贯性和不确定性，利用状态转移模型表征配电系统受灾害影响下系统拓扑的动态变化过程，利用灾害条件下配电系统时空线路故障率计算状态转移概率函数，具体地，

S1-2：基于系统过程性状态、配电系统时空线路故障率和灾害事件的时空序贯路径，计算时间轴上不同的系统过程性状态之间的转移概率p(π_t+1|π_t,a_t,ξ)，如公式(1)所示：

p(π_t+1|π_t,a_t,ξ)＝∏_kp(s_k,t+1|s_k,t,a_t,ξ) (1)；

S2：考虑灾害对配电系统的序贯性和不确定性影响，利用状态转移概率函数构建基于贝尔曼优化的过程性状态驱动递推优化模型。其中，过程性状态驱动递推优化模型如式(2)所示：

式中，h_t(π_t)和h_t+1(π_t+1)分别是t和t+1时刻系统过程性状态π_t和π_t+1对应的最优值函数，a_t为系统实施的策略，p(π_t+1|π_t,a_t,ξ)表示在策略a_t下系统过程性状态从π_t到π_t+1的概率，ξ表示随机因素，c_t(π_t,a_t)是系统过程性状态为π_t时实施策略a_t下系统的即时成本，包含线路启停费用、失负荷费用、线路运行费用；

所述过程性状态驱动递推优化模型为系统过程性状态的递推函数，包含当前决策的即时成本和表征序贯性以及不确定性的后续期望成本，对于t时刻的系统过程性状态π_t，递推公式(2)需要满足辐射状配电系统拓扑结构、维修时间约束、线路潮流约束、节点功率平衡约束、系统潮流约束、线路容量约束、节点电压约束。

S3：基于等效Q函数思想，将未来期望成本表示为一个待求解的等效Q函数，对步骤S2构建的过程性状态驱动递推优化模型进行等效变换，随后构建拓扑变化到线路状态变量的映射函数关系。具体方法如下：

S3-1：利用等效Q函数思想，将未来期望成本表示为一个待求解的等效Q函数：

式中，为过程性状态π_t时实施a_t策略下对应的Q函数。

S3-2：基于公式(3)，过程性状态驱动递推优化模型可以表示为：

S4：利用基于改进Q学习方法对过程性状态驱动的递推优化模型进行离线学习，得到在考虑不同策略和未来不确定性以及序贯性下系统状态的等效Q函数值。具体方法如下：

式中，和/>为第n次和第n-1次迭代的Q函数值，/>和为第n-1次迭代下系统过程性状态π_t+1和π′_t+1的最优值函数，π_t+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态，π′_t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态，λ为0至1之间的随机数，P_A是0至1之间的一个常数。本发明中，通过随机考虑π′_t+1可以防止陷入局部收敛。

式中，为第n次、第n-1次、第n-2次迭代的Q函数值，κ是小于1的正数。t取值是1、2、…、T，其中T为考虑的最大时间。本发明中利用不同迭代次数的Q函数值来更新学习过程中的参数ζ使迭代具有较好的收敛性。

S4-5：判断收敛条件是否成立，其中ε是收敛阀值，设置为1.0×10^-4，若收敛条件成立，得到系统过程性状态的等效Q函数值/>为系统过程性状态的等效Q函数值；若收敛条件不成立，继续迭代直至满足收敛条件。如图2所示为实施例1中不同系统过程性状态的Q函数值迭代过程。

图3为实施例1中有无考虑参数ζ动态更新对Q函数值迭代过程的影响。从结果可以看出，参数ζ进行动态更新具有更快的收敛效果。考虑动态参数ζ时，2000次左右迭代收敛；没有考虑动态参数ζ时，则需要6000次左右迭代收敛。

S5：基于系统状态等效Q函数值，可以将原问题(多时段随机优化问题)转化为一个单时段确定性问题，并根据系统的实时状态实现在线优化，得到实时的最优策略。

式中，为t时刻系统过程性状态的等效Q函数值，不同的系统过程性状态下不同，单时段确定性优化模型对应的约束条件包括辐射状配电系统拓扑结构、维修时间约束、线路潮流约束、节点功率平衡约束、系统潮流约束、线路容量约束和节点电压约束。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，具体构建步骤如下：

2.根据权利要求1所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，所述S1的具体步骤如下：

p(π_t+1|π_t,a_t,ξ)＝∏_kp(s_k,t+1|s_k,t,a_t,ξ) (1)；

3.根据权利要求1所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，所述S2中构建的基于贝尔曼优化的过程性状态驱动递推优化模型如式(2)所示：

4.根据权利要求3所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，所述S3中的具体步骤如下：

式中，为过程性状态π_t时实施a_t策略下对应的Q函数；

S3-2：基于公式(3)，过程性状态驱动递推优化模型表示为：

5.根据权利要求4所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，所述S4的具体步骤如下：

S4-1：设置所有系统过程性状态的Q函数初值为零，即其中n为迭代次数；

式中，时刻t＝{1,2,3,…,T}，T表示考虑的时间断面个数；

式中，和/>为第n次和第n-1次迭代的Q函数值，/>和/>为第n-1次迭代下系统过程性状态π_t+1和π′_t+1的最优值函数；π_t+1是在考虑灾害对配电系统的序贯不确定性影响以及策略/>的作用下随机产生的t+1时刻系统过程性状态，π′_t+1是在考虑灾害对配电系统的序贯不确定性影响以及任意取一个策略作用下随机产生的t+1时刻系统过程性状态；λ为0至1之间的随机数，P_A是0至1之间的一个常数；

6.根据权利要求5所述的基于改进Q学习的配电系统过程状态驱动的弹性策略方法，其特征在于，所述S5的具体步骤如下：