CN113872198B

CN113872198B - 一种基于强化学习方法的主动配电网故障恢复方法

Info

Publication number: CN113872198B
Application number: CN202111153648.9A
Authority: CN
Inventors: 滕云龙; 李慧婷; 元硕成
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-09-13
Anticipated expiration: 2041-09-29
Also published as: CN113872198A

Abstract

本发明公开了一种基于强化学习方法的主动配电网故障恢复方法，通过DDPG网络模型对孤岛结构进行配电，包括以下步骤：步骤1：初始化网络参数；步骤2：基于状态s_t得到动作a_t；步骤3：执行动作a_t得到新状态s_t+1和奖励r_t，将(s_t，a_t，r_t，s_t+1)存入经验回放集R；步骤4：循环步骤2和步骤3直到达到预设的最大时刻；步骤5：从R中采样m个样本作为训练数据集；步骤6：更新actor双网络和critic双网络；步骤7：循环步骤2至步骤6，直到达到训练总迭代次数，保存神经网络模型。本发明基于配电网中分布式能源出力、节点负荷的不确定性问题，可通过神经网络的训练，实现针对含分布式能源的配电网孤岛恢复的快速求解。

Description

一种基于强化学习方法的主动配电网故障恢复方法

技术领域

本发明属于配网技术领域，具体涉及一种基于深度强化学习算法及源荷不确定性的主动配电网恢复方法。

背景技术

强化学习是一类特殊的机器学习算法，要解决的问题是决策主体在环境中怎样执行动作以获得最大的累计奖励。深度强化学习(DRL，deep reinforcement learning)是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端的学习。深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。

随着用户对电能的依赖程度不断提高，人们越来越意识到主动配电网恢复能力的重要性。配电网是高效快捷的电能输送通道，在恶劣天气下配电网可能会遭受严重的破坏，电网一旦破坏定会造成无法估量的损失。在发生故障造成停电事故后，如何采取有效的应对措施，用现有资源实现配电网的快速恢复，对于电网的建设具有重要的现实意义。因此提高配电网的韧性响应成为研究的新方向。

目前对配电网故障恢复的研究有形成孤岛恢复供电以及通过开关倒闸操作进行重构来恢复供电，主要集中在孤岛划分的算法以及重构的算法上。在大电网停电的前提下，分布式电源和负荷形成安全可靠的孤岛结构，保证重要负荷能够供电不中断，提高供电可靠性。这已经成为故障恢复的一种重要处理方式。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于配电网中分布式能源出力、节点负荷的不确定性问题，可通过神经网络的训练，实现针对含分布式能源的配电网孤岛恢复的快速求解的基于强化学习方法的主动配电网故障恢复方法

本发明的目的是通过以下技术方案来实现的：一种基于强化学习方法的主动配电网故障恢复方法，分布式电源和负荷形成孤岛结构，通过DDPG网络模型对孤岛结构进行配电，具体包括以下步骤：

步骤1：初始化Actor当前网络参数θ^μ和Critic当前网络参数θ^Q；并将当前网络参数拷贝给对应的Actor目标网络参数θ^μ′和Critic目标网络参数θ^Q′；

步骤2：对每个学习回合中的时刻t，Actor当前网络基于状态s_t得到动作a_t，并下达给仿真环境执行该动作；

步骤3：执行动作a_t，得到新状态s_t+1和奖励r_t，并将(s_t，a_t，r_t，s_t+1)存入经验回放集R，作为训练Actor网络和Critic网络的数据集；

步骤4：更新时间t＝t+1，循环步骤2和步骤3，直到达到预设的最大的时刻T；

步骤5：从经验回放缓存集合R中采样m个样本(s_t，a_t，r_t，s_t+1)作为Actor网络和Critic网络的一个最小规模训练数据集；

步骤6：用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络；

步骤7：循环步骤2至步骤6，直到训练次数达到训练总迭代次数，停止训练，保存DDPG网络模型。

进一步地，所述步骤6具体更新步骤包括：

步骤61、将训练数据集内的状态s_t输入至Critic当前网络，使用神经网络表示Critic当前网络的动作价值Q函数，神经网络输出Critic当前网络的Q值：Q(s_t，a_t|θ^Q)；

将状态s_t+1输入Critic目标网络，使用神经网络表示Critic目标网络的动作价值Q函数，神经网络输出Critic当前网络的Q值：Q′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)；

步骤62、更新Critic当前网络：

计算Critic当前网络的Q值：y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

Critic当前网络损耗函数为：

通过最小化损耗函数L对Critic当前网络进行参数更新：

反向传递更新Critic当前网络参数；α^c为评价网络学习率，

表示对损耗函数L(θ^Q)求梯度；

步骤63、更新Actor当前网络：最优跟踪策略性能函数的梯度为：

通过最小化最优跟踪策略性能函数对Actor当前网络进行迭代：

反向传递更新Actor当前网络的参数；α^a为动作网络学习率；

步骤64、将Actor目标网络和Critic目标网络的参数更新为：

θ^Q′←τθ^Q+(1-τ)θ^Q′；θ^μ′←τθ^μ+(1-τ)θ^μ′，τ为预设的更新系数。

进一步地，对于任意时刻t，光伏的实际发电量、各个节点负荷量，表示为

表示第1，2，…，p个光伏接入点的实际发电量，

表示负荷节点数量，T表示最大时刻，p表示光伏接入点的总数量；

在t时刻的动作a_t定义为a_t＝{x_ij，c_i，z^si}，t∈T，i＝1，...，q，ij∈Ω_l；其中，x_ij表示线路(i，j)的恢复决策变量，q表示配电网节点总数量；i、j分别表示线路(i，j)的两个节点，x_ij等于1表示线路(i，j)恢复运行，x_ij等于0表示线路(i，j)从系统中切除；c_i为节点i切除情况，c_i等于0表示节点i归入孤岛运行范围，c_i等于1表示节点i被切除；z^si为应急电动汽车配置变量，z^si＝1表示应急电动汽车s连接到节点i处，z^si＝0表示应急电动汽车s不连接到节点i处；Ω_l表示系统所有线路集合；

t时刻的即时奖励r_t由评价综合指标与惩罚函数组成：

r_t＝-r_cut-r_vol-r_power

其中，r_cut为切负荷的目标函数，r_vol+r_power为违反约束时的惩罚，r_vol为节点电压波动，r_power为功率注入与输出间的关系；

惩罚函数考虑孤岛运行安全约束：

其中，P_injection为形成的孤岛注入的功率总和，即外接主动电源功率总和；P_out为孤岛上的输出的功率总和，即供电负荷总量，

为惩罚系数，V_i为恢复供电节点电压。

本发明的有益效果是：基于深度确定性梯度策略算法，分析配电网孤岛运行中的各种因素，具体确定算法中的状态、动作、智能体和奖励，其中建立目标函数并以此作为强化学习奖励值的基础；智能体随时间推移与环境交互，在每个时间步智能体收到状态空间中的一个状态；然后遵循策略，从动作空间中选择一个动作，执行之后返回一个奖励值，作为对该动作的评价；进行策略调整保证获得最大的奖励值，从而达到最优的控制策略。

具体实施方式

本发明考虑分布式能源出力具有不确定性，建立了含PV、EV的主动配电网孤岛恢复模型，同时还考虑了电动汽车在孤岛恢复期间的布点配置，使其在孤岛运行时可作为主电源和孤岛内的不可控电源联合运行，保证孤岛运行的稳定，且尽可能多地恢复失电负荷。

构建主动配电网孤岛恢复的数学模型，确定系统目标函数、相关的约束条件和算法参数，形成原始优化问题。孤岛恢复模型为：

①目标函数为：在故障情况下，负荷恢复主要是为了缩小停电范围，提高供电可靠性。目标函数为孤岛运行中切负荷最小。

式中：w_i表示节点i的负荷权重；c_i等于0表示节点i归入孤岛运行范围，c_i等于1表示节点i被切除；

表示负荷节点i的有功负荷大小；Ω_D表示负荷节点集合。

②孤岛划分：在进行孤岛划分时，系统中的每个节点只能属于某一个孤岛内。节点分为三种：配电网自身的节点，即负荷节点；主动电源接入时连接的节点；恢复供电时的负荷恢复节点(小于等于配电网自身节点数)。除特别说明外，本发明中所描述的节点均为负荷节点。

式中：v^is为节点孤岛划分变量；v^is＝1为节点i属于孤岛s；v^is＝0为节点i不属于孤岛s；S为孤岛集合。

一条线路(i，j)是只能属于某一个孤岛时，且线路两端节点i，j也必同时属于这个孤岛，否则的话线路(i，j)被断开。x_ij表示线路(i，j)的恢复决策变量，x_ij等于1表示线路(i，j)恢复运行，x_ij等于0表示线路(i，j)从系统中切除。

x_ij∈{0，1}，ij∈Ω_l

同时还要保障恢复后形成的孤岛满足辐射状运行要求。

式中：|Ω_b|表示系统中所有节点的数量；|S|表示形成孤岛的数量，即主电源的台数；Ω_l表示系统所有线路集合。

③应急电动汽车配置约束：每台应急电动汽车作为孤岛内的主电源，其连接点应该属于某个特定的孤岛内：

式中：z^si为应急电动汽车配置变量，z^si＝1表示应急电动汽车s连接到节点i处；z^si＝0表示应急电动汽车s不连接到节点i处。同时，一个节点只能连接一台应急电动汽车，一台电动汽车只能同时连接一个电网节点：

④孤岛潮流平衡约束：针对故障恢复，建立了含PV、EV的主动配电网潮流方程；

节点注入功率平衡方程为：

线路电压降落方程为：

式中：P_ij，Q_ij分别表示线路(i，j)的有功、无功潮流；I_ij表示线路(i，j)电流幅值，V_i表示节点i电压幅值；

表示节点i处的光伏电源有功，无功注入；R_ij，X_ij，Z_ij分别表示线路(i，j)的电阻、电抗和阻抗值。

⑤运行安全约束：故障后形成的孤岛内部需要满足节点电压约束为：

式中：V₀为系统参考电压幅值的平方；ε为电压波动范围参数，本文取0.05；约束式保证了节点电压V_i都在可接受电压波动范围内。

⑥孤岛内功率平衡的约束为：

式中：S_DG，s表示孤岛s内分布式电源集合，N_s表示孤岛s内用电负荷集合。

⑦分布式电源的约束：应急电动汽车EV中含有若干块大容量储能电池，在孤岛运行时可作为主电源和孤岛内的不可控电源联合运行，以维持孤岛内的电压、频率稳定。

对应急电动汽车中的储能电池做如下建模PEV：

0≤P_ev≤P_max

P_ev表示应急电动汽车的放电功率。

为配电网节点i中接入的应急电动汽车的放电功率。

目标函数①作为奖励值r_cut的一部分，相关约束②进行孤岛划分通过动作来决定孤岛，③是主动电源电动车接入的位置，影响孤岛划分，④孤岛潮流平衡约束来计算负荷的恢复节点电压值，⑤将其作为奖励值的惩罚函数的一部分r_vol节点电压波动，⑥⑦作为奖励值惩罚函数的r_power。

光伏PV属于不可控分布式电源，其出力具有很强的不确定性，因此不具有独立带负荷运行的能力，必须和主电源联合供电运行。假设已经获得了风光的出力预测值PV。

将每个决策视作马尔科夫过程，通过观察状态，做出动作决策，并将动作应用于孤岛恢复环境中，再得到从环境反馈的奖惩信息与新的状态，重复这一过程，直到结束。决策过程的变量包括：

1)状态s_t：以33节点配电网6个光伏发电装置为例，对于任意时刻t，光伏的实际发电量、各个节点负荷量，状态定义为

表示6个光伏接入点的实际发电量，

表示负荷节点数量，T表示最大时刻；

2)在t时刻的动作a_t定义为a_t＝{x_ij，c_i，z^si}，t∈T，i＝1，...，33，ij∈Ω_l；其中，x_ij表示线路(i，j)的恢复决策变量；i、j分别表示线路(i，j)的两个节点，x_ij等于1表示线路(i，j)恢复运行，x_ij等于0表示线路(i，j)从系统中切除；c_i为节点i切除情况，c_i等于0表示节点i归入孤岛运行范围，c_i等于1表示节点i被切除；z^si为应急电动汽车配置变量，z^si＝1表示应急电动汽车s连接到节点i处，z^si＝0表示应急电动汽车s不连接到节点i处；Ω_l表示系统所有线路集合；依据状态观测值s_t给出动作a_t后，需将动作应用到孤岛恢复中，得出拓扑结构，并进行潮流计算，得出线路潮流和节点电压情况。

3)奖励reward：当动作a_t应用在环境中后，需根据环境的变化反馈即时奖励，供学习动作的好坏，t时刻的即时奖励r_t由评价综合指标与惩罚函数组成：

r_t＝-r_cut-r_vol-r_power

惩罚函数考虑孤岛运行安全约束：

其中，P_injection为形成的孤岛注入的功率总和，即外接主动电源功率总和：

P_out为孤岛上的输出的功率总和，即供电负荷总量：

为惩罚系数，V_i为恢复供电节点电压。

从状态s_t开始的一次探索过程所对应的累积奖励为

式中γ为折扣因数，γ∈(0，1)。

4)策略π：策略为状态到动作的映射，指的是给定状态时选取一个动作的策略。

5)流程：在最开始系统处于某种初始状态s₀下，系统根据策略π下达动作指令a₀，将动作指令与环境交互，得到一次探索过程所期望的回报奖励r₀和下一决策阶段的状态s₁，循环进行这一过程直至最后一个决策阶段。将上述马尔可夫过程的模型采用深度确定性梯度策略算法求解，得到最优的决策。

一种基于强化学习方法的主动配电网故障恢复方法，分布式电源和负荷形成孤岛结构，孤岛是指当电网故障时，分布式电源向电网输送电能，同时与负载形成独立的自给自足的供电孤岛。通过DDPG网络模型对孤岛结构进行配电，根据DDPG中的Actor-Critic架构，使用神经网络近似表示动作价值Q函数，网络参数为θ^Q；用神经网络近似表示策略函数，网络参数为θ^μ，分别为Actor网络以及Critic网络引入目标网络，Actor目标网络参数θ^μ′，Critic目标网络参数θ^Q′。定义经验回放缓存集合R，每一次迭代从R中随机选取规模为m的样本用来估计动作价值函数和策略函数的梯度；具体包括以下步骤：

步骤1：采集配电网历史运行数据作为强化学习模型的学习样本数据，采样每天的所有数据，每天取24时刻点的数据进行训练；初始化Actor当前网络参数θ^μ和Critic当前网络参数θ^Q；并将当前网络参数拷贝给对应的Actor目标网络参数θ^μ′和Critic目标网络参数θ^Q′；

步骤2：对每个学习回合中的时刻t，Actor当前网络基于状态s_t得到动作a_t＝μ(s_t|θ^μ)+N，N为添加噪声，并下达给仿真环境执行该动作；μ(s_t|θ^μ)是Actor当前网络所给出的策略，也就是基于网络参数θ^μ和状态值s_t通过策略选择出动作；

步骤6：用步骤5得到的训练数据集更新Actor当前网络和Actor目标神经、Critic当前网络和Critic目标网络；具体更新步骤包括：

步骤62、、更新Critic当前网络：

Critic当前网络损耗函数为：

通过最小化损耗函数L对Critic当前网络进行参数更新：

反向传递更新Critic当前网络参数；α^c为评价网络学习率，

表示对损耗函数L(θ^Q)求梯度，

θ^Q是critic网络的参数；

反向传递更新Actor当前网络的参数；α^a为动作网络学习率；

步骤64、将Actor目标网络和Critic目标网络的参数更新为：

步骤7：随机采样另一天的配电网历史运行数据，再循环步骤2至步骤6，直到训练次数达到训练总迭代次数，停止训练，保存DDPG网络模型。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于强化学习方法的主动配电网故障恢复方法，其特征在于，建立含PV、应急电动汽车EV的主动配电网孤岛恢复模型，分布式电源和负荷形成孤岛结构；每台应急电动汽车EV作为孤岛内的主电源，在孤岛运行时作为主电源和孤岛内的不可控电源联合运行，其连接点应该属于某个特定的孤岛内；

孤岛恢复模型为：

①目标函数为：目标函数为孤岛运行中切负荷最小：

表示负荷节点i的有功负荷大小；Ω_D表示负荷节点集合；

②孤岛划分：节点分为三种：配电网自身的节点，即负荷节点；主电源接入时连接的节点；恢复供电时的负荷恢复节点；除特别说明外，所描述的节点均为负荷节点；

式中：v^is为节点孤岛划分变量；v^is＝1为节点i属于第s个孤岛；v^is＝0为节点i不属于第s个孤岛；S为孤岛集合；

恢复后形成的孤岛满足辐射状运行要求：

式中：|Ω_b|表示系统中所有节点的数量，Ω_b表示系统中所有节点集合；|S|表示形成孤岛的数量，即主电源的台数；Ω_l表示系统所有线路集合；x_ij表示线路(i，j)的恢复决策变量，x_ij等于1表示线路(i，j)恢复运行，x_ij等于0表示线路(i，j)从系统中切除；

③应急电动汽车EV配置约束：

式中：z^si为应急电动汽车EV配置变量，z^si＝1表示第s个应急电动汽车EV连接到节点i处；z^si＝0表示第s个应急电动汽车EV不连接到节点i处；

节点注入功率平衡方程为：

线路电压降落方程为：

式中：P_ij，Q_ij分别表示线路(i，j)的有功、无功潮流，P_ki、Q_ki分别表示线路(k，i)的有功、无功潮流；I_ij表示线路(i，j)电流幅值，I_ki表示线路(k，i)电流幅值，V_i、V_j表示节点i、j电压幅值；

表示节点i处的光伏电源有功，无功注入；R_ij，X_ij，Z_ij分别表示线路(i，j)的电阻、电抗和阻抗值；R_ki、X_ki分别表示线路(k，i)的电阻、电抗；

为配电网节点i中接入的应急电动汽车EV的放电功率；

式中：V₀为系统参考电压幅值的平方；ε为电压波动范围参数；约束式保证了节点电压V_i都在可接受电压波动范围内；

⑥孤岛内功率平衡的约束为：

式中：S_DG，s表示第s个孤岛内分布式电源集合，N_s表示第s个孤岛内用电负荷集合；

⑦分布式电源的约束：应急电动汽车EV中含有大容量储能电池，在孤岛运行时作为主电源和孤岛内的不可控电源联合运行，以维持孤岛内的电压、频率稳定；

对应急电动汽车EV中的储能电池做如下建模：

0≤P_ev≤P_max

P_ev表示应急电动汽车EV的放电功率，P_max表示应急电动汽车EV的最大放电功率；

通过DDPG网络模型对孤岛结构进行配电，根据DDPG中的Actor-Critic架构，使用神经网络近似表示动作价值Q函数，网络参数为θ^Q；用神经网络近似表示策略函数，网络参数为θ^μ，分别为Actor网络以及Critic网络引入目标网络，Actor目标网络参数θ^μ′，Critic目标网络参数θ^Q′；定义经验回放缓存集合R，每一次迭代从R中随机选取规模为m的样本用来估计动作价值函数和策略函数的梯度；具体包括以下步骤：

步骤2：对每个学习回合中的时刻t，Actor当前网络基于状态s_t得到动作a_t＝μ(s_t|θ^μ)+N，并下达给仿真环境执行该动作；N为添加噪声；μ(s_t|θ^μ)是Actor当前网络所给出的策略，也就是基于网络参数θ^μ和状态s_t通过策略选择出动作；

状态s_t定义为：对于任意时刻t，光伏的实际发电量、各个节点负荷量，表示为

表示第1，2，…，p个光伏接入点的实际发电量，

在t时刻的动作a_t定义为a_t＝{x_ij，c_i，z^si}，t∈T，i＝1，...，q，ij∈Ω_l；其中，x_ij表示线路(i，j)的恢复决策变量，q表示配电网节点总数量；i、j分别表示线路(i，j)的两个节点，x_ij等于1表示线路(i，j)恢复运行，x_ij等于0表示线路(i，j)从系统中切除；c_i为节点i切除情况，c_i等于0表示节点i归入孤岛运行范围，c_i等于1表示节点i被切除；z^si为应急电动汽车EV配置变量，z^si＝1表示第s个应急电动汽车EV连接到节点i处，z^si＝0表示应急第s个应急电动汽车EV不连接到节点i处；Ω_l表示系统所有线路集合；步骤3：执行动作a_t，得到新状态s_t+1和奖励r_t，并将(s_t，a_t，r_t，s_t+1)存入经验回放缓存集合R，作为训练Actor网络和Critic网络的数据集；t时刻的即时奖励r_t由评价综合指标与惩罚函数组成：

r_t＝-r_cut-r_vol-r_power

惩罚函数考虑孤岛运行安全约束：