CN111179121B

CN111179121B - 基于专家系统与深度逆向强化学习的电网紧急控制方法

Info

Publication number: CN111179121B
Application number: CN202010050934.1A
Authority: CN
Inventors: 李嘉文; 余涛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-03-21
Anticipated expiration: 2040-01-17
Also published as: CN111179121A

Abstract

本发明公开了一种基于专家系统与深度逆向强化学习的电网紧急控制方法，包括步骤：1)构建专家知识库；2)采用深度卷积神经网络来作为回报函数的基底，构建电力紧急调度的回报函数，初始化深度逆向强化学习算法参数后，以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本，通过深度逆向强化学习与优化方案计算出回报函数中的权值，得出一个经过优化的回报函数，从而得出一个可模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略；3)将在线样本中的状态量输入训练好的深度逆向强化学习算法，根据当前的状态及训练好的结果，深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略。本发明更具备灵活性和准确性。

Description

基于专家系统与深度逆向强化学习的电网紧急控制方法

技术领域

本发明涉及电力系统电网控制的技术领域，尤其是指一种基于专家系统与深度逆向强化学习的电网紧急控制方法。

背景技术

随着我国电网的快速发展，新能源渗透率不断提高，电网结构日趋复杂。传统的电网暂态稳定分析控制技术与电网高速发展带来的新的稳定性问题之间的矛盾日益凸显，由于电网模型和参数的影响，电网仿真数据库难以复现电网事故失稳轨迹，尤其组合爆炸问题限制工况数量。因此，物理模型难以对电网不确定性因素建模分析，同时基于物理特性的建模方式受限于计算资源，对于复杂电网建模计算困难，不能够全面考虑多种因素。传统基于电网物理机理的分析方法已经不能满足电网控制要求，需寻找新方法解决这一问题。

电网紧急状态下控制手段包括切机切负荷、低频减载和低压减载。电网处于紧急状态时，电网整体仍保持完整性，部分电网模型约束条件被破坏。电网部分元件参数超过额定值，部分母线电压或者负荷超过额定值，电网可能失去稳定性。

数据驱动方法分析电网运行环境信息，并根据不同运行方式和电网运行状态迅速给出控制方案成为本文研究重点。数据驱动方法已经在电网尝试应用。随机矩阵理论在电网应用已经验证了可行性，并且建立了宏观框架。随机矩阵理论已在电网设备状态识别、配电网各元素相关性分析、电网暂态稳定性分析、电网静态分析等领域取得了初步的成果。随机矩阵理论有数学理论作为支撑，能够较好地处理电网时序数据。但随机矩阵分析不涉及“学习”过程，对于智能化处理问题具有一定的局限性。因此，针对电网运行的复杂问题，将随机矩阵理论与机器学习方法相结合成为解决电网决策控制的可行方案。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种更具备灵活性和准确性的基于专家系统与深度逆向强化学习的电网紧急控制方法。

为实现上述目的，本发明所提供的技术方案为：基于专家系统与深度逆向强化学习的电网紧急控制方法，包括以下步骤：

1)构建专家知识库，表达方式设置为采用电力系统中某紧急状态序列向量，及其对应的专家操作动作序列，规则是以变量的约束形式输入进专家知识库，知识库的更新方式为仿真后人工更新输入与在线学习共同组成；

2)采用深度卷积神经网络来作为回报函数的基底，构建电力紧急调度的回报函数，初始化深度逆向强化学习算法参数后，以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本，通过深度逆向强化学习与优化方案计算出回报函数中的权重系数，得出一个经过优化的回报函数，从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略；

3)将在线样本中的状态量输入训练好的深度逆向强化学习算法，根据当前的状态及训练好的结果，深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略，而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。

在步骤1)中，专家知识库中的专家决策知识的表达形式为状态变量+决策动作，即：

Y_i＝<x_i1,x_i2,…,x_in>

其中，Y_i表示一系列的决策样本，x_i表示状态，a_i表示在状态x_i下采取的操作动作；

状态变量主要包括各个节点的电压、相角，各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度；专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷，因此，动作集合a_i为切某几台发电机与某几条负荷线路，在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降；

专家知识库中专家决策规则的表达形式为：

以不等式存在的不同的约束条件：包括节点电压、相角大小上下限，发电机功率上下限，发电机速度偏差和发电机功角、电力系统各点负荷上下限。

在步骤2)中，示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上，利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法：首先是利用已有的示例轨迹数据，根据深度逆向强化学习生成回报函数，将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础；其次，将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型，在行动序列生成时，从初始态势开始，根据当前态势和策略模型进行行动的选择和寻优，从而生成行动，执行行动后驱动环境形成下一个状态，如此迭代形成了期望态势转换和行动序列；

深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS；

进入电网紧急控制决策流程的启动条件为：

系统安全性的约束条件受到坏，并且由于系统的电压和频率超过或低于允许值，直接影响对负荷的正常供电；

采用的生成紧急控制策略的方法为：逆强化学习，采用的是马尔可夫MDP的决策过程，包括：

2.1)MDP决策参数

2.1.1)状态空间集合

电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角，各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度；

2.1.2)动作空间集合

MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定，考虑的紧急控制措施为切机和切负荷，因此，动作集合a_i为切某几台发电机与某几条负荷线路，在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降；

专家演示的决策过程为：

Y_i＝<x_i1,x_i2,…,x_in>

其中，x_i表示状态，a_i表示在状态x_i下采取的操作动作；

由于逆强化学习输入仅为状态序列x，所以忽略样本集中决策轨迹动作，仅记录状态：

Y_i＝<x_i1,x_i2,…,x_in>

式中，x_in表示第i个专家决策样本，x_in表示第i个专家决策样本的第n个状态序列；

作为MDP决策过程的关键，回报函数R直接对应着调度策略，所以，确定了回报函数，就能够用强化学习方式生成优化紧急控制策略；

逆向强化学习的目的是得到MDP回报函数，以便强化学习生成优化策略；

2.2)回报函数的神经网络描述

利用深度卷积神经网络表示回报函数的基底，因此，回报函数表示为：

r(s)＝θ^Tf(s)

其中，f(s)为深度卷积神经网络得出的特征属性值，θ^T为权重系数向量；

所述深度卷积神经网络分析提取样本数据特征，电网各元件之间耦合关系紧密，相互影响大，分析过程中应保留电网信息，因此，特征选择过程中，深度卷积神经网络略去池化过程，只进行卷积计算，保证电网信息完整性，卷积核数量采用倍数递增的方式选取，最终采用相量形式表征输入信息特征，相量中每一个元素代表一个特征；

采用深度卷积神经网络得出专家系统的回报函数值后，用最大边际法来计算出回报函数里面的权值系数向量θ^T，其形式化为一个优化问题：

目标函数：以θ为变量求取该函数的最小值，表达式如下：

其中，ξⁱ为松弛变量，对违反约束的动作进行惩罚；N_r为约束数量，C为惩罚系数，

为权重系数的2范数的平方；

给每个专家示例轨迹设置一个松弛变量ξⁱ，以便约束违规行为的惩罚，因此，通过最小化目标函数来简化优化问题，求以下函数的最优解以此来求出权重系数θ：

其中，J(θ)为损失函数，N_i为训练样本数、L_i为样本中的步数，λ₁≥0是一个用于平衡惩罚和期望的经验常数；其中，

为第i个样本中在t时刻的状态，

为在

状态下的动作，

是智能体在状态

时的回报函数奖励值，即Q值；

是专家策略的回报函数奖励值，即Q值，如果学习到的状态动作对与专家策略一致，那么损失函数

否则

J(θ)能够通过梯度下降法优化：

其中，σ₁∈[0,1]为步长，在计算出θ后，就能够使用公式r(s)＝θ^Tf(s)计算回报函数。

在步骤3)中，得出经过优化后的回报函数，采用深度逆向强化学习得出最优紧急控制策略的模型为：

MDP决策过程用数组表示：(S,A,T,γ,R)；其中，R为回报函数，S代表状态变量集合，A为行动集合；T＝P_sa为状态转移概率，P_sa代表状态S上采取行动a的状态转移分布；γ∈[0,1)为一个折扣因子；

策略用π:S→A(状态集合映射动作集合)的映射关系表示，其任意状态点s₁的值函数表示为：

V^π(s₁)＝E[R(s₁)_π+γR(s₂)_π+γ²R(s₃)_π+…+γ^n-1R(s_n)_π]

其中，V^π(s₁)为任意状态点s₁的值函数，γ^n-1R(s_n)_π为在状态s_n下做出策略π情况下的回报值乘以折扣系数的n-1次方，期望值由状态序列(s₁,s₂,…)的分布决定；对s₁→a₁每一步的值函数用Q函数表示，γ∈[0,1)为一个折扣因子，R(s)为在状态s下的回报函数；

用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述，根据策略π:S→A的映射关系，得到策略与调度方案的一一对应关系。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明从电网物理特性出发分析切机切负荷最佳地点和控制策略。但物理模型有较强局限性，对于电网结构的变化和新型元素适应性不强，不能够满足电网发展需求。电网仿真计算目前仍然是电网运行控制的重要工具，由于电网结构的复杂化和仿真计算本身的弱点，导致仿真过程影响因素较多，数学模型复杂，仿真计算结果不能满足实际需求。因此，考虑运用数据驱动方法替换过程仿真，应用强化学习分析运行环境信息，直接得到控制策略，从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。

2、可以采用有经验的调度员做出的决策数据来作为专家知识库的知识储备，等到离线训练的时候再用知识提取的方式，将知识库里面的内容提取出来并给逆向强化学习进行训练，得到最优的奖励函数，经过预训练过后，即可采用该算法进行在线的决策，同时保证决策的正确性和有效性。

3、采用深度卷积神经网络对奖励函数进行近似地逼近，可以有效地反应奖励函数与输入状态的关联，相对于传统的逆向强化学习来说具有更准确的反应系统当前决策有效性的优点，同时又可以减少奖励函数在设计中的误差，使逆强化学习的过程更加准确的。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明采用的深度卷积神经网络结构图。

图3为IEEE39节点拓扑图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于专家系统与深度逆向强化学习的电网紧急控制方法，包括以下步骤：

1)构建专家知识库，表达方式设置为采用电力系统中某紧急状态序列向量，及其对应的专家操作动作序列，规则是以变量的约束形式输入进专家知识库，知识库的更新方式为仿真后人工更新输入与在线学习共同组成。

本发明方法仅利用到了专家系统中的专家知识库并没有推理机的框架，其中专家知识库中存有大量的专家在仿真系统中遇到需要快速进行紧急控制的情况下，做出的最正确最节约时间和影响范围最小的人工参与下的紧急控制策略，对比仅仅将切机切负荷按照优先级的紧急控制策略而言更具备灵活性和准确性，精准的切除当下情况下最优的切除策略。

专家知识库中的专家决策知识的表达形式为状态变量+决策动作，即：

Y_i＝<x_i1,x_i2,…,x_in>

其中，Y_i表示一系列的决策样本，x_i表示状态，a_i表示在状态x_i下采取的操作动作。

状态变量主要包括各个节点的电压、相角，各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度；专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷，因此，动作集合a_i为切某几台发电机与某几条负荷线路，在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。

专家知识库中专家决策规则的表达形式为：

2)采用深度卷积神经网络来作为回报函数的基底，构建电力紧急调度的回报函数，初始化深度逆向强化学习算法参数后，以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本，通过深度逆向强化学习与优化方案计算出回报函数中的权重系数，得出一个经过优化的回报函数，从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略。

示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上，利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法：首先是利用已有的示例轨迹数据，根据深度逆向强化学习生成回报函数，将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础；其次，将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型，在行动序列生成时，从初始态势开始，根据当前态势和策略模型进行行动的选择和寻优，从而生成行动，执行行动后驱动环境形成下一个状态，如此迭代形成了期望态势转换和行动序列。

深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统(SCADA)、电力设备状态监控系统(PEMDS)、能量管理系统(EM)S、地理信息系统(GIS)和气象信息接收系统(WIAS)。

进入电网紧急控制决策流程的启动条件为：

系统安全性的约束条件受到坏(如线路潮流或系统其他元件的负荷超过极限值)，并且由于系统的电压和频率超过或低于允许值，直接影响对负荷的正常供电。

采用的生成紧急控制策略的方法为：逆强化学习，采用的是MDP(马尔可夫)的决策过程，包括：

2.1)MDP决策参数

2.1.1)状态空间集合

电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角，各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度。

2.1.2)动作空间集合

MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定，考虑的紧急控制措施为切机和切负荷，因此，动作集合a_i为切某几台发电机与某几条负荷线路，在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。

专家演示的决策过程为：

Y_i＝<x_i1,x_i2,…,x_in>

其中，x_i表示状态，a_i表示在状态x_i下采取的操作动作。

Y_i＝<x_i1,x_i2,…,x_in>

式中，x_in表示第i个专家决策样本，x_in表示第i个专家决策样本的第n个状态序列。

作为MDP决策过程的关键，回报函数R直接对应着调度策略，所以，确定了回报函数，就能够用强化学习方式生成优化紧急控制策略。

逆向强化学习的目的是得到MDP回报函数，以便强化学习生成优化策略。

2.2)回报函数的神经网络描述

由于电网节点数目庞大，MDP的状态空间集合巨大，用列表方式描述每一个状态-动作的回报函数不现实，为此，传统方式采用特征属性的线性近似方式描述回报函数集合：

R(s)＝ω^Tφ(s)

其中，R(S)为回报函数，ω^T为权重系数，φ(s)为特征属性向量，MDP的特征属性选取应能充分反映电力系统运行状态的变化，为人机交互生成优化紧急控制策略做准备。

而本发明则是利用深度卷积神经网络(参见图2所示)表示回报函数的基底，因此，回报函数表示为：

r(s)＝θ^Tf(s)

其中，f(s)为深度卷积神经网络得出的特征属性值，θ^T为权重系数向量。

所述深度卷积神经网络分析提取样本数据特征，电网各元件之间耦合关系紧密，相互影响大，分析过程中应保留电网信息，因此，特征选择过程中，深度卷积神经网络略去池化过程，只进行卷积计算，保证电网信息完整性，卷积核数量采用倍数递增的方式选取，最终采用相量形式表征输入信息特征，相量中每一个元素代表一个特征。

目标函数：以θ为变量求取该函数的最小值，表达式如下：

为权重系数的2范数的平方。

为第i个样本中在t时刻的状态，

为在

状态下的动作，

是智能体在状态

时的回报函数奖励值，即Q值；

否则

J(θ)可以通过梯度下降法优化：

得出经过优化后的回报函数，采用深度逆向强化学习得出最优紧急控制策略的模型为：

V^π(s₁)＝E[R(s₁)_π+γR(s₂)_π+γ²R(s₃)_π+…+γ^n-1R(s_n)_π]

其中，V^π(s₁)为任意状态点s₁的值函数，γ^n-1R(s_n)_π为在状态s_n下做出策略π情况下的回报值乘以折扣系数的n-1次方，期望值由状态序列(s₁,s₂,…)的分布决定；对s₁→a₁每一步的值函数用Q函数表示，γ∈[0,1)为一个折扣因子，R(s)为在状态s下的回报函数。

根据以上方法将本发明所述算法经过大量样本训练好后，将训练好之后的系统在IEEE39节点的电网来仿真分析方法有效性，IEEE39节点拓扑如图3所示，当电网遭遇巨大负荷扰动，扰动节点分别为图中的8、16、17、36、38，扰动负荷依次为200MW、400MW、300MW、700MW、100MW，采用训练好的算法来进行在线的决策过程，在这过程中算法按照训练的最优方式切除部分负荷，使发电量与负荷对等。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于专家系统与深度逆向强化学习的电网紧急控制方法，其特征在于，包括以下步骤：

Y_i＝<x_i1,x_i2,…,x_in>

专家知识库中专家决策规则的表达形式为：

以不等式存在的不同的约束条件：包括节点电压、相角大小上下限，发电机功率上下限，发电机速度偏差和发电机功角、电力系统各点负荷上下限；

示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上，利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法：首先是利用已有的示例轨迹数据，根据深度逆向强化学习生成回报函数，将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础；其次，将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型，在行动序列生成时，从初始态势开始，根据当前态势和策略模型进行行动的选择和寻优，从而生成行动，执行行动后驱动环境形成下一个状态，如此迭代形成了期望态势转换和行动序列；

进入电网紧急控制决策流程的启动条件为：

2.1)MDP决策参数

2.1.1)状态空间集合

2.1.2)动作空间集合

专家演示的决策过程为：

Y_i＝<x_i1,x_i2,…,x_in>

其中，x_i表示状态，a_i表示在状态x_i下采取的操作动作；

Y_i＝<x_i1,x_i2,…,x_in>

2.2)回报函数的神经网络描述

r(s)＝θ^Tf(s)

所述深度卷积神经网络分析提取样本数据特征，电网各元件之间耦合关系紧密，相互影响大，分析过程中应保留电网信息，因此，特征选择过程中，深度卷积神经网络略去池化过程，只进行卷积计算，保证电网信息完整性，卷积核数量采用倍数递增的方式选取，最终采用向量形式表征输入信息特征，向量中每一个元素代表一个特征；

目标函数：以θ为变量求取该函数的最小值，表达式如下：