CN111179121A - 基于专家系统与深度逆向强化学习的电网紧急控制方法 - Google Patents

基于专家系统与深度逆向强化学习的电网紧急控制方法 Download PDF

Info

Publication number
CN111179121A
CN111179121A CN202010050934.1A CN202010050934A CN111179121A CN 111179121 A CN111179121 A CN 111179121A CN 202010050934 A CN202010050934 A CN 202010050934A CN 111179121 A CN111179121 A CN 111179121A
Authority
CN
China
Prior art keywords
state
reinforcement learning
power
expert
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010050934.1A
Other languages
English (en)
Other versions
CN111179121B (zh
Inventor
李嘉文
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010050934.1A priority Critical patent/CN111179121B/zh
Publication of CN111179121A publication Critical patent/CN111179121A/zh
Application granted granted Critical
Publication of CN111179121B publication Critical patent/CN111179121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Feedback Control In General (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于专家系统与深度逆向强化学习的电网紧急控制方法,包括步骤:1)构建专家知识库;2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权值,得出一个经过优化的回报函数,从而得出一个可模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略。本发明更具备灵活性和准确性。

Description

基于专家系统与深度逆向强化学习的电网紧急控制方法
技术领域
本发明涉及电力系统电网控制的技术领域,尤其是指一种基于专家系统与深度逆向强化学习的电网紧急控制方法。
背景技术
随着我国电网的快速发展,新能源渗透率不断提高,电网结构日趋复杂。传统的电网暂态稳定分析控制技术与电网高速发展带来的新的稳定性问题之间的矛盾日益凸显,由于电网模型和参数的影响,电网仿真数据库难以复现电网事故失稳轨迹,尤其组合爆炸问题限制工况数量。因此,物理模型难以对电网不确定性因素建模分析,同时基于物理特性的建模方式受限于计算资源,对于复杂电网建模计算困难,不能够全面考虑多种因素。传统基于电网物理机理的分析方法已经不能满足电网控制要求,需寻找新方法解决这一问题。
电网紧急状态下控制手段包括切机切负荷、低频减载和低压减载。电网处于紧急状态时,电网整体仍保持完整性,部分电网模型约束条件被破坏。电网部分元件参数超过额定值,部分母线电压或者负荷超过额定值,电网可能失去稳定性。
数据驱动方法分析电网运行环境信息,并根据不同运行方式和电网运行状态迅速给出控制方案成为本文研究重点。数据驱动方法已经在电网尝试应用。随机矩阵理论在电网应用已经验证了可行性,并且建立了宏观框架。随机矩阵理论已在电网设备状态识别、配电网各元素相关性分析、电网暂态稳定性分析、电网静态分析等领域取得了初步的成果。随机矩阵理论有数学理论作为支撑,能够较好地处理电网时序数据。但随机矩阵分析不涉及“学习”过程,对于智能化处理问题具有一定的局限性。因此,针对电网运行的复杂问题,将随机矩阵理论与机器学习方法相结合成为解决电网决策控制的可行方案。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种更具备灵活性和准确性的基于专家系统与深度逆向强化学习的电网紧急控制方法。
为实现上述目的,本发明所提供的技术方案为:基于专家系统与深度逆向强化学习的电网紧急控制方法,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
在步骤1)中,专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=<xi1,xi2,…,xin>
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作;
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。
在步骤2)中,示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列;
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS;
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏,并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电;
采用的生成紧急控制策略的方法为:逆强化学习,采用的是马尔可夫MDP的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家演示的决策过程为:
Yi=<xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作;
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列;
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略;
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略;
2.2)回报函数的神经网络描述
利用深度卷积神经网络表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量;
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用相量形式表征输入信息特征,相量中每一个元素代表一个特征;
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
Figure BDA0002371160550000051
其中,ξi为松弛变量,对违反约束的动作进行惩罚;Nr为约束数量,C为惩罚系数,
Figure BDA0002371160550000052
为权重系数的2范数的平方;
给每个专家示例轨迹设置一个松弛变量ξi,以便约束违规行为的惩罚,因此,通过最小化目标函数来简化优化问题,求以下函数的最优解以此来求出权重系数θ:
Figure BDA0002371160550000053
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,
Figure BDA0002371160550000061
为第i个样本中在t时刻的状态,
Figure BDA0002371160550000062
为在
Figure BDA0002371160550000063
状态下的动作,
Figure BDA0002371160550000064
是智能体在状态
Figure BDA0002371160550000065
时的回报函数奖励值,即Q值;
Figure BDA0002371160550000066
是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数
Figure BDA0002371160550000067
否则
Figure BDA0002371160550000068
J(θ)能够通过梯度下降法优化:
Figure BDA0002371160550000069
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数。
在步骤3)中,得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A(状态集合映射动作集合)的映射关系表示,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数;
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明从电网物理特性出发分析切机切负荷最佳地点和控制策略。但物理模型有较强局限性,对于电网结构的变化和新型元素适应性不强,不能够满足电网发展需求。电网仿真计算目前仍然是电网运行控制的重要工具,由于电网结构的复杂化和仿真计算本身的弱点,导致仿真过程影响因素较多,数学模型复杂,仿真计算结果不能满足实际需求。因此,考虑运用数据驱动方法替换过程仿真,应用强化学习分析运行环境信息,直接得到控制策略,从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。
2、可以采用有经验的调度员做出的决策数据来作为专家知识库的知识储备,等到离线训练的时候再用知识提取的方式,将知识库里面的内容提取出来并给逆向强化学习进行训练,得到最优的奖励函数,经过预训练过后,即可采用该算法进行在线的决策,同时保证决策的正确性和有效性。
3、采用深度卷积神经网络对奖励函数进行近似地逼近,可以有效地反应奖励函数与输入状态的关联,相对于传统的逆向强化学习来说具有更准确的反应系统当前决策有效性的优点,同时又可以减少奖励函数在设计中的误差,使逆强化学习的过程更加准确的。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明采用的深度卷积神经网络结构图。
图3为IEEE39节点拓扑图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于专家系统与深度逆向强化学习的电网紧急控制方法,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成。
本发明方法仅利用到了专家系统中的专家知识库并没有推理机的框架,其中专家知识库中存有大量的专家在仿真系统中遇到需要快速进行紧急控制的情况下,做出的最正确最节约时间和影响范围最小的人工参与下的紧急控制策略,对比仅仅将切机切负荷按照优先级的紧急控制策略而言更具备灵活性和准确性,精准的切除当下情况下最优的切除策略。
专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=<xi1,xi2,…,xin>
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作。
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略。
示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列。
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统(SCADA)、电力设备状态监控系统(PEMDS)、能量管理系统(EM)S、地理信息系统(GIS)和气象信息接收系统(WIAS)。
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏(如线路潮流或系统其他元件的负荷超过极限值),并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电。
采用的生成紧急控制策略的方法为:逆强化学习,采用的是MDP(马尔可夫)的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度。
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。
专家演示的决策过程为:
Yi=<xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作。
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列。
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略。
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略。
2.2)回报函数的神经网络描述
由于电网节点数目庞大,MDP的状态空间集合巨大,用列表方式描述每一个状态-动作的回报函数不现实,为此,传统方式采用特征属性的线性近似方式描述回报函数集合:
R(s)=ωTφ(s)
其中,R(S)为回报函数,ωT为权重系数,φ(s)为特征属性向量,MDP的特征属性选取应能充分反映电力系统运行状态的变化,为人机交互生成优化紧急控制策略做准备。
而本发明则是利用深度卷积神经网络(参见图2所示)表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量。
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用相量形式表征输入信息特征,相量中每一个元素代表一个特征。
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
Figure BDA0002371160550000111
其中,ξi为松弛变量,对违反约束的动作进行惩罚;Nr为约束数量,C为惩罚系数,
Figure BDA0002371160550000121
为权重系数的2范数的平方。
Figure BDA0002371160550000122
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,
Figure BDA0002371160550000123
为第i个样本中在t时刻的状态,
Figure BDA0002371160550000124
为在
Figure BDA0002371160550000125
状态下的动作,
Figure BDA0002371160550000126
是智能体在状态
Figure BDA0002371160550000127
时的回报函数奖励值,即Q值;
Figure BDA0002371160550000128
是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数
Figure BDA0002371160550000129
否则
Figure BDA00023711605500001210
J(θ)可以通过梯度下降法优化:
Figure BDA00023711605500001211
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数。
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A(状态集合映射动作集合)的映射关系表示,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数。
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
根据以上方法将本发明所述算法经过大量样本训练好后,将训练好之后的系统在IEEE39节点的电网来仿真分析方法有效性,IEEE39节点拓扑如图3所示,当电网遭遇巨大负荷扰动,扰动节点分别为图中的8、16、17、36、38,扰动负荷依次为200MW、400MW、300MW、700MW、100MW,采用训练好的算法来进行在线的决策过程,在这过程中算法按照训练的最优方式切除部分负荷,使发电量与负荷对等。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
2.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤1)中,专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=〈xi1,xi2,…,xin
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作;
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。
3.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤2)中,示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列;
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS;
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏,并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电;
采用的生成紧急控制策略的方法为:逆强化学习,采用的是马尔可夫MDP的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家演示的决策过程为:
Yi=〈xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作;
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列;
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略;
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略;
2.2)回报函数的神经网络描述
利用深度卷积神经网络表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量;
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用相量形式表征输入信息特征,相量中每一个元素代表一个特征;
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
Figure RE-FDA0002445508990000041
其中,ξi为松弛变量,对违反约束的动作进行惩罚;Nr为约束数量,C为惩罚系数,
Figure RE-FDA0002445508990000042
为权重系数的2范数的平方;
给每个专家示例轨迹设置一个松弛变量ξi,以便约束违规行为的惩罚,因此,通过最小化目标函数来简化优化问题,求以下函数的最优解以此来求出权重系数θ:
Figure RE-FDA0002445508990000043
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,
Figure RE-FDA0002445508990000051
为第i个样本中在t时刻的状态,
Figure RE-FDA0002445508990000052
为在
Figure RE-FDA0002445508990000053
状态下的动作,
Figure RE-FDA0002445508990000054
是智能体在状态
Figure RE-FDA0002445508990000055
时的回报函数奖励值,即Q值;
Figure RE-FDA0002445508990000056
是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数
Figure RE-FDA0002445508990000057
否则
Figure RE-FDA0002445508990000058
J(θ)能够通过梯度下降法优化:
Figure RE-FDA0002445508990000059
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数。
4.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤3)中,得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A的映射关系表示,即状态集合映射动作集合,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数;
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
CN202010050934.1A 2020-01-17 2020-01-17 基于专家系统与深度逆向强化学习的电网紧急控制方法 Active CN111179121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010050934.1A CN111179121B (zh) 2020-01-17 2020-01-17 基于专家系统与深度逆向强化学习的电网紧急控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010050934.1A CN111179121B (zh) 2020-01-17 2020-01-17 基于专家系统与深度逆向强化学习的电网紧急控制方法

Publications (2)

Publication Number Publication Date
CN111179121A true CN111179121A (zh) 2020-05-19
CN111179121B CN111179121B (zh) 2023-03-21

Family

ID=70651038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010050934.1A Active CN111179121B (zh) 2020-01-17 2020-01-17 基于专家系统与深度逆向强化学习的电网紧急控制方法

Country Status (1)

Country Link
CN (1) CN111179121B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709706A (zh) * 2020-06-09 2020-09-25 国网安徽省电力有限公司安庆供电公司 基于自适应模式识别的新设备启动方案自动生成方法
CN112287972A (zh) * 2020-09-28 2021-01-29 清华大学 基于强化学习和多源数据整合的电力系统潮流调整方法
CN112528041A (zh) * 2020-12-17 2021-03-19 贵州电网有限责任公司 一种基于知识图谱的调度用语规范验证方法
CN112882381A (zh) * 2021-01-08 2021-06-01 中国石油大学(北京) 一种潜油电泵的自寻优决策控制系统
CN112906304A (zh) * 2021-03-10 2021-06-04 北京航空航天大学 一种刹车控制方法和装置
CN113609102A (zh) * 2021-08-11 2021-11-05 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN113780622A (zh) * 2021-08-04 2021-12-10 华南理工大学 基于多智能体强化学习的多微网配电系统分布式调度方法
CN113962429A (zh) * 2021-09-03 2022-01-21 华南理工大学 一种求解负荷置换的优化方法、系统、装置及介质
CN113991645A (zh) * 2021-10-18 2022-01-28 武汉大学 一种基于电力系统紧急控制的混合智能关键因素辨识方法
CN114047745A (zh) * 2021-10-13 2022-02-15 广州城建职业学院 机器人运动控制方法、机器人、计算机装置和存储介质
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114580287A (zh) * 2022-03-09 2022-06-03 合肥工业大学 基于启发式混杂策略的特高压直流控保系统数据优化重构方法
CN114986518A (zh) * 2022-07-19 2022-09-02 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN115130387A (zh) * 2022-07-14 2022-09-30 北京中泰瑞通科技有限公司 一种风力发电智能态势感知系统
CN115809597A (zh) * 2022-11-30 2023-03-17 东北电力大学 强化学习紧急直流功率支援的频率稳定系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400040A (zh) * 2013-07-31 2013-11-20 中国人民解放军国防科学技术大学 采用多步时域差值学习的故障诊断与预测方法
CN109543394A (zh) * 2018-11-29 2019-03-29 深圳市口袋网络科技有限公司 一种功能触发方法、系统、装置及计算机可读存储介质
CN110221611A (zh) * 2019-06-11 2019-09-10 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400040A (zh) * 2013-07-31 2013-11-20 中国人民解放军国防科学技术大学 采用多步时域差值学习的故障诊断与预测方法
CN109543394A (zh) * 2018-11-29 2019-03-29 深圳市口袋网络科技有限公司 一种功能触发方法、系统、装置及计算机可读存储介质
CN110221611A (zh) * 2019-06-11 2019-09-10 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709706A (zh) * 2020-06-09 2020-09-25 国网安徽省电力有限公司安庆供电公司 基于自适应模式识别的新设备启动方案自动生成方法
CN112287972A (zh) * 2020-09-28 2021-01-29 清华大学 基于强化学习和多源数据整合的电力系统潮流调整方法
CN112528041B (zh) * 2020-12-17 2023-05-30 贵州电网有限责任公司 一种基于知识图谱的调度用语规范验证方法
CN112528041A (zh) * 2020-12-17 2021-03-19 贵州电网有限责任公司 一种基于知识图谱的调度用语规范验证方法
CN112882381A (zh) * 2021-01-08 2021-06-01 中国石油大学(北京) 一种潜油电泵的自寻优决策控制系统
CN112906304A (zh) * 2021-03-10 2021-06-04 北京航空航天大学 一种刹车控制方法和装置
CN112906304B (zh) * 2021-03-10 2023-04-07 北京航空航天大学 一种刹车控制方法和装置
CN113780622A (zh) * 2021-08-04 2021-12-10 华南理工大学 基于多智能体强化学习的多微网配电系统分布式调度方法
CN113780622B (zh) * 2021-08-04 2024-03-12 华南理工大学 基于多智能体强化学习的多微网配电系统分布式调度方法
CN113609102A (zh) * 2021-08-11 2021-11-05 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN113609102B (zh) * 2021-08-11 2024-03-19 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN113962429A (zh) * 2021-09-03 2022-01-21 华南理工大学 一种求解负荷置换的优化方法、系统、装置及介质
CN113962429B (zh) * 2021-09-03 2024-04-05 华南理工大学 一种求解负荷置换的优化方法、系统、装置及介质
CN114047745A (zh) * 2021-10-13 2022-02-15 广州城建职业学院 机器人运动控制方法、机器人、计算机装置和存储介质
CN113991645A (zh) * 2021-10-18 2022-01-28 武汉大学 一种基于电力系统紧急控制的混合智能关键因素辨识方法
CN114048903B (zh) * 2021-11-11 2024-03-26 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114048903A (zh) * 2021-11-11 2022-02-15 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114580287B (zh) * 2022-03-09 2023-06-09 合肥工业大学 基于启发式混杂策略的特高压直流控保系统数据优化重构方法
CN114580287A (zh) * 2022-03-09 2022-06-03 合肥工业大学 基于启发式混杂策略的特高压直流控保系统数据优化重构方法
CN115130387A (zh) * 2022-07-14 2022-09-30 北京中泰瑞通科技有限公司 一种风力发电智能态势感知系统
CN115130387B (zh) * 2022-07-14 2024-04-30 北京中泰瑞通科技有限公司 一种风力发电智能态势感知系统
CN114986518B (zh) * 2022-07-19 2022-11-04 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN114986518A (zh) * 2022-07-19 2022-09-02 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN115809597A (zh) * 2022-11-30 2023-03-17 东北电力大学 强化学习紧急直流功率支援的频率稳定系统及方法
CN115809597B (zh) * 2022-11-30 2024-04-30 东北电力大学 强化学习紧急直流功率支援的频率稳定系统及方法

Also Published As

Publication number Publication date
CN111179121B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN111179121B (zh) 基于专家系统与深度逆向强化学习的电网紧急控制方法
Bose Artificial intelligence techniques in smart grid and renewable energy systems—some example applications
Zheng et al. A novel equivalent model of active distribution networks based on LSTM
Xu et al. Robust dispatch of high wind power-penetrated power systems against transient instability
Xu et al. Robust transient stability-constrained optimal power flow with uncertain dynamic loads
CN103049617B (zh) 保留无源性的大规模配电网络电磁暂态仿真模型化简方法
CN114006370B (zh) 一种电力系统暂态稳定分析评估方法及系统
CN112800683B (zh) 基于卷积神经网络的系统短路电流水平评估方法及系统
CN116245033A (zh) 人工智能驱动的电力系统分析方法及智能软件平台
Sun et al. Hybrid reinforcement learning for power transmission network self-healing considering wind power
Yin et al. Coordinated complex-valued encoding dragonfly algorithm and artificial emotional reinforcement learning for coordinated secondary voltage control and automatic voltage regulation in multi-generator power systems
Wang et al. Transmission network dynamic planning based on a double deep-Q network with deep ResNet
Vohra et al. End-to-end learning with multiple modalities for system-optimised renewables nowcasting
Dilshad et al. NeuroFuzzy wavelet based auxiliary damping controls for STATCOM
Wang et al. Real-time excitation control-based voltage regulation using ddpg considering system dynamic performance
Li et al. Construction of power grid digital twin model based on GAN
Yun et al. Regional voltage stability prediction based on decision tree algorithm
Angel et al. Hardware in the loop experimental validation of PID controllers tuned by genetic algorithms
He Machine learning based method for transient stability assessment of power systems
Zhang et al. A good point set-based knowledgebase generation scheme for power system intelligent dynamic security assessment
Wang et al. Ensemble Learning Model of Power System Transient Stability Assessment Based on Bayesian Model Averaging Method
Chen et al. Distributed hierarchical deep reinforcement learning for large-scale grid emergency control
Li et al. A DRL-Based Approach for System Frequency Response Model Calibration
Li et al. A Parameter Optimization Method Based on Eigenvalue Analysis for Microgrid With Multiple VSG Units
Zheng et al. Multi-layer double deep Q network for active distribution network equivalent modeling with internal identification for EV loads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant