CN111179121B - 基于专家系统与深度逆向强化学习的电网紧急控制方法 - Google Patents
基于专家系统与深度逆向强化学习的电网紧急控制方法 Download PDFInfo
- Publication number
- CN111179121B CN111179121B CN202010050934.1A CN202010050934A CN111179121B CN 111179121 B CN111179121 B CN 111179121B CN 202010050934 A CN202010050934 A CN 202010050934A CN 111179121 B CN111179121 B CN 111179121B
- Authority
- CN
- China
- Prior art keywords
- state
- reinforcement learning
- power
- expert
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000002787 reinforcement Effects 0.000 title claims abstract description 66
- 230000002441 reversible effect Effects 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 102
- 238000011217 control strategy Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 62
- 230000009471 action Effects 0.000 claims description 57
- 238000005520 cutting process Methods 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 230000019771 cognition Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Feedback Control In General (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于专家系统与深度逆向强化学习的电网紧急控制方法,包括步骤:1)构建专家知识库;2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权值,得出一个经过优化的回报函数,从而得出一个可模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略。本发明更具备灵活性和准确性。
Description
技术领域
本发明涉及电力系统电网控制的技术领域,尤其是指一种基于专家系统与深度逆向强化学习的电网紧急控制方法。
背景技术
随着我国电网的快速发展,新能源渗透率不断提高,电网结构日趋复杂。传统的电网暂态稳定分析控制技术与电网高速发展带来的新的稳定性问题之间的矛盾日益凸显,由于电网模型和参数的影响,电网仿真数据库难以复现电网事故失稳轨迹,尤其组合爆炸问题限制工况数量。因此,物理模型难以对电网不确定性因素建模分析,同时基于物理特性的建模方式受限于计算资源,对于复杂电网建模计算困难,不能够全面考虑多种因素。传统基于电网物理机理的分析方法已经不能满足电网控制要求,需寻找新方法解决这一问题。
电网紧急状态下控制手段包括切机切负荷、低频减载和低压减载。电网处于紧急状态时,电网整体仍保持完整性,部分电网模型约束条件被破坏。电网部分元件参数超过额定值,部分母线电压或者负荷超过额定值,电网可能失去稳定性。
数据驱动方法分析电网运行环境信息,并根据不同运行方式和电网运行状态迅速给出控制方案成为本文研究重点。数据驱动方法已经在电网尝试应用。随机矩阵理论在电网应用已经验证了可行性,并且建立了宏观框架。随机矩阵理论已在电网设备状态识别、配电网各元素相关性分析、电网暂态稳定性分析、电网静态分析等领域取得了初步的成果。随机矩阵理论有数学理论作为支撑,能够较好地处理电网时序数据。但随机矩阵分析不涉及“学习”过程,对于智能化处理问题具有一定的局限性。因此,针对电网运行的复杂问题,将随机矩阵理论与机器学习方法相结合成为解决电网决策控制的可行方案。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种更具备灵活性和准确性的基于专家系统与深度逆向强化学习的电网紧急控制方法。
为实现上述目的,本发明所提供的技术方案为:基于专家系统与深度逆向强化学习的电网紧急控制方法,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
在步骤1)中,专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=<xi1,xi2,…,xin>
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作;
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。
在步骤2)中,示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列;
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS;
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏,并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电;
采用的生成紧急控制策略的方法为:逆强化学习,采用的是马尔可夫MDP的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家演示的决策过程为:
Yi=<xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作;
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列;
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略;
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略;
2.2)回报函数的神经网络描述
利用深度卷积神经网络表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量;
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用相量形式表征输入信息特征,相量中每一个元素代表一个特征;
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
给每个专家示例轨迹设置一个松弛变量ξi,以便约束违规行为的惩罚,因此,通过最小化目标函数来简化优化问题,求以下函数的最优解以此来求出权重系数θ:
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,为第i个样本中在t时刻的状态,为在状态下的动作,是智能体在状态时的回报函数奖励值,即Q值;是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数否则
J(θ)能够通过梯度下降法优化:
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数。
在步骤3)中,得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A(状态集合映射动作集合)的映射关系表示,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π+γ2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数;
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明从电网物理特性出发分析切机切负荷最佳地点和控制策略。但物理模型有较强局限性,对于电网结构的变化和新型元素适应性不强,不能够满足电网发展需求。电网仿真计算目前仍然是电网运行控制的重要工具,由于电网结构的复杂化和仿真计算本身的弱点,导致仿真过程影响因素较多,数学模型复杂,仿真计算结果不能满足实际需求。因此,考虑运用数据驱动方法替换过程仿真,应用强化学习分析运行环境信息,直接得到控制策略,从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。
2、可以采用有经验的调度员做出的决策数据来作为专家知识库的知识储备,等到离线训练的时候再用知识提取的方式,将知识库里面的内容提取出来并给逆向强化学习进行训练,得到最优的奖励函数,经过预训练过后,即可采用该算法进行在线的决策,同时保证决策的正确性和有效性。
3、采用深度卷积神经网络对奖励函数进行近似地逼近,可以有效地反应奖励函数与输入状态的关联,相对于传统的逆向强化学习来说具有更准确的反应系统当前决策有效性的优点,同时又可以减少奖励函数在设计中的误差,使逆强化学习的过程更加准确的。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明采用的深度卷积神经网络结构图。
图3为IEEE39节点拓扑图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于专家系统与深度逆向强化学习的电网紧急控制方法,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成。
本发明方法仅利用到了专家系统中的专家知识库并没有推理机的框架,其中专家知识库中存有大量的专家在仿真系统中遇到需要快速进行紧急控制的情况下,做出的最正确最节约时间和影响范围最小的人工参与下的紧急控制策略,对比仅仅将切机切负荷按照优先级的紧急控制策略而言更具备灵活性和准确性,精准的切除当下情况下最优的切除策略。
专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=<xi1,xi2,…,xin>
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作。
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限。
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略。
示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列。
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统(SCADA)、电力设备状态监控系统(PEMDS)、能量管理系统(EM)S、地理信息系统(GIS)和气象信息接收系统(WIAS)。
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏(如线路潮流或系统其他元件的负荷超过极限值),并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电。
采用的生成紧急控制策略的方法为:逆强化学习,采用的是MDP(马尔可夫)的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷等属性维度。
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降。
专家演示的决策过程为:
Yi=<xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作。
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列。
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略。
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略。
2.2)回报函数的神经网络描述
由于电网节点数目庞大,MDP的状态空间集合巨大,用列表方式描述每一个状态-动作的回报函数不现实,为此,传统方式采用特征属性的线性近似方式描述回报函数集合:
R(s)=ωTφ(s)
其中,R(S)为回报函数,ωT为权重系数,φ(s)为特征属性向量,MDP的特征属性选取应能充分反映电力系统运行状态的变化,为人机交互生成优化紧急控制策略做准备。
而本发明则是利用深度卷积神经网络(参见图2所示)表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量。
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用相量形式表征输入信息特征,相量中每一个元素代表一个特征。
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,为第i个样本中在t时刻的状态,为在状态下的动作,是智能体在状态时的回报函数奖励值,即Q值;是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数否则
J(θ)可以通过梯度下降法优化:
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数。
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A(状态集合映射动作集合)的映射关系表示,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π+γ2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数。
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
根据以上方法将本发明所述算法经过大量样本训练好后,将训练好之后的系统在IEEE39节点的电网来仿真分析方法有效性,IEEE39节点拓扑如图3所示,当电网遭遇巨大负荷扰动,扰动节点分别为图中的8、16、17、36、38,扰动负荷依次为200MW、400MW、300MW、700MW、100MW,采用训练好的算法来进行在线的决策过程,在这过程中算法按照训练的最优方式切除部分负荷,使发电量与负荷对等。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (2)
1.基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于,包括以下步骤:
1)构建专家知识库,表达方式设置为采用电力系统中某紧急状态序列向量,及其对应的专家操作动作序列,规则是以变量的约束形式输入进专家知识库,知识库的更新方式为仿真后人工更新输入与在线学习共同组成;
专家知识库中的专家决策知识的表达形式为状态变量+决策动作,即:
Yi=<xi1,xi2,…,xin>
其中,Yi表示一系列的决策样本,xi表示状态,ai表示在状态xi下采取的操作动作;
状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;专家知识库中专家演示的决策过程的动作集合考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家知识库中专家决策规则的表达形式为:
以不等式存在的不同的约束条件:包括节点电压、相角大小上下限,发电机功率上下限,发电机速度偏差和发电机功角、电力系统各点负荷上下限;
2)采用深度卷积神经网络来作为回报函数的基底,构建电力紧急调度的回报函数,初始化深度逆向强化学习算法参数后,以专家知识库中专家演示的正确的控制方式的状态序列轨迹为样本,通过深度逆向强化学习与优化方案计算出回报函数中的权重系数,得出一个经过优化的回报函数,从而得出一个能够模仿专家知识库中专家操作的基于深度逆向强化学习的紧急控制策略;
示例轨迹辅助的行动序列生成与优化是在基于深度逆向强化学习构建的生成与优化策略的基础上,利用已有的示例轨迹数据和训练过程中产生的示例轨迹数据加速学习过程的方法:首先是利用已有的示例轨迹数据,根据深度逆向强化学习生成回报函数,将高质量数据背后的高水平指挥员对电网环境的认知以回报函数的方式作为加速强化学习收敛和学习效果的基础;其次,将深度逆向强化学习生成的回报函数和环境固有的回报函数进行奖赏塑型,在行动序列生成时,从初始态势开始,根据当前态势和策略模型进行行动的选择和寻优,从而生成行动,执行行动后驱动环境形成下一个状态,如此迭代形成了期望态势转换和行动序列;
深度逆向强化学习过程中的在线学习与在线样本的数据均来自于电力调度中心管辖的数据采集与监视控制系统SCADA、电力设备状态监控系统PEMDS、能量管理系统EMS、地理信息系统GIS和气象信息接收系统WIAS;
进入电网紧急控制决策流程的启动条件为:
系统安全性的约束条件受到坏,并且由于系统的电压和频率超过或低于允许值,直接影响对负荷的正常供电;
采用的生成紧急控制策略的方法为:逆强化学习,采用的是马尔可夫MDP的决策过程,包括:
2.1)MDP决策参数
2.1.1)状态空间集合
电力系统紧急控制策略的MDP决策过程中状态变量主要包括各个节点的电压、相角,各发电机无功、发电机电磁功率、发电机机械功率、节点电压、发电机速度偏差和发电机功角、电力系统各点负荷这些属性维度;
2.1.2)动作空间集合
MDP决策过程的动作集合由专家知识库中专家演示的决策过程决定,考虑的紧急控制措施为切机和切负荷,因此,动作集合ai为切某几台发电机与某几条负荷线路,在状态变量中则表现为某几台发电机无功、发电机电磁功率变为零、某节点负荷下降;
专家演示的决策过程为:
Yi=<xi1,xi2,…,xin>
其中,xi表示状态,ai表示在状态xi下采取的操作动作;
由于逆强化学习输入仅为状态序列x,所以忽略样本集中决策轨迹动作,仅记录状态:
Yi=<xi1,xi2,…,xin>
式中,xin表示第i个专家决策样本,xin表示第i个专家决策样本的第n个状态序列;
作为MDP决策过程的关键,回报函数R直接对应着调度策略,所以,确定了回报函数,就能够用强化学习方式生成优化紧急控制策略;
逆向强化学习的目的是得到MDP回报函数,以便强化学习生成优化策略;
2.2)回报函数的神经网络描述
利用深度卷积神经网络表示回报函数的基底,因此,回报函数表示为:
r(s)=θTf(s)
其中,f(s)为深度卷积神经网络得出的特征属性值,θT为权重系数向量;
所述深度卷积神经网络分析提取样本数据特征,电网各元件之间耦合关系紧密,相互影响大,分析过程中应保留电网信息,因此,特征选择过程中,深度卷积神经网络略去池化过程,只进行卷积计算,保证电网信息完整性,卷积核数量采用倍数递增的方式选取,最终采用向量形式表征输入信息特征,向量中每一个元素代表一个特征;
采用深度卷积神经网络得出专家系统的回报函数值后,用最大边际法来计算出回报函数里面的权值系数向量θT,其形式化为一个优化问题:
目标函数:以θ为变量求取该函数的最小值,表达式如下:
给每个专家示例轨迹设置一个松弛变量ξi,以便约束违规行为的惩罚,因此,通过最小化目标函数来简化优化问题,求以下函数的最优解以此来求出权重系数θ:
其中,J(θ)为损失函数,Ni为训练样本数、Li为样本中的步数,λ1≥0是一个用于平衡惩罚和期望的经验常数;其中,为第i个样本中在t时刻的状态,为在状态下的动作,是智能体在状态时的回报函数奖励值,即Q值;是专家策略的回报函数奖励值,即Q值,如果学习到的状态动作对与专家策略一致,那么损失函数否则
J(θ)能够通过梯度下降法优化:
其中,σ1∈[0,1]为步长,在计算出θ后,就能够使用公式r(s)=θTf(s)计算回报函数;
3)将在线样本中的状态量输入训练好的深度逆向强化学习算法,根据当前的状态及训练好的结果,深度逆向强化学习算法按照回报函数给出适用于当前的最优的紧急控制策略,而且在线过程中不断通过不同情况下的紧急控制策略得出的状态序列与控制效果来更新专家知识库的内容实现在线学习的过程。
2.根据权利要求1所述的基于专家系统与深度逆向强化学习的电网紧急控制方法,其特征在于:在步骤3)中,得出经过优化后的回报函数,采用深度逆向强化学习得出最优紧急控制策略的模型为:
MDP决策过程用数组表示:(S,A,T,γ,R);其中,R为回报函数,S代表状态变量集合,A为行动集合;T=Psa为状态转移概率,Psa代表状态S上采取行动a的状态转移分布;γ∈[0,1)为一个折扣因子;
策略用π:S→A的映射关系表示,即状态集合映射动作集合,其任意状态点s1的值函数表示为:
Vπ(s1)=E[R(s1)π+γR(s2)π+γ2R(s3)π+…+γn-1R(sn)π]
其中,Vπ(s1)为任意状态点s1的值函数,γn-1R(sn)π为在状态sn下做出策略π情况下的回报值乘以折扣系数的n-1次方,期望值由状态序列(s1,s2,…)的分布决定;对s1→a1每一步的值函数用Q函数表示,γ∈[0,1)为一个折扣因子,R(s)为在状态s下的回报函数;
用MDP决策过程描述电力系统紧急控制策略问题能够使得调度过程中的许多不确定因素方便由MDP状态转移模型描述,根据策略π:S→A的映射关系,得到策略与调度方案的一一对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010050934.1A CN111179121B (zh) | 2020-01-17 | 2020-01-17 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010050934.1A CN111179121B (zh) | 2020-01-17 | 2020-01-17 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179121A CN111179121A (zh) | 2020-05-19 |
CN111179121B true CN111179121B (zh) | 2023-03-21 |
Family
ID=70651038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010050934.1A Active CN111179121B (zh) | 2020-01-17 | 2020-01-17 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179121B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709706B (zh) * | 2020-06-09 | 2023-08-04 | 国网安徽省电力有限公司安庆供电公司 | 基于自适应模式识别的新设备启动方案自动生成方法 |
CN112287972A (zh) * | 2020-09-28 | 2021-01-29 | 清华大学 | 基于强化学习和多源数据整合的电力系统潮流调整方法 |
CN112528041B (zh) * | 2020-12-17 | 2023-05-30 | 贵州电网有限责任公司 | 一种基于知识图谱的调度用语规范验证方法 |
CN112882381B (zh) * | 2021-01-08 | 2022-02-01 | 中国石油大学(北京) | 一种潜油电泵的自寻优决策控制系统 |
CN112906304B (zh) * | 2021-03-10 | 2023-04-07 | 北京航空航天大学 | 一种刹车控制方法和装置 |
CN113780622B (zh) * | 2021-08-04 | 2024-03-12 | 华南理工大学 | 基于多智能体强化学习的多微网配电系统分布式调度方法 |
CN113609102B (zh) * | 2021-08-11 | 2024-03-19 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113962429B (zh) * | 2021-09-03 | 2024-04-05 | 华南理工大学 | 一种求解负荷置换的优化方法、系统、装置及介质 |
CN114047745B (zh) * | 2021-10-13 | 2023-04-07 | 广州城建职业学院 | 机器人运动控制方法、机器人、计算机装置和存储介质 |
CN113991645A (zh) * | 2021-10-18 | 2022-01-28 | 武汉大学 | 一种基于电力系统紧急控制的混合智能关键因素辨识方法 |
CN114386650A (zh) * | 2021-10-27 | 2022-04-22 | 中国南方电网有限责任公司超高压输电公司梧州局 | 电网调度系统的控制方法、装置及计算机设备 |
CN114048903B (zh) * | 2021-11-11 | 2024-03-26 | 天津大学 | 一种基于深度强化学习的电网安全运行策略智能优化方法 |
CN114580287B (zh) * | 2022-03-09 | 2023-06-09 | 合肥工业大学 | 基于启发式混杂策略的特高压直流控保系统数据优化重构方法 |
CN114597916A (zh) * | 2022-03-18 | 2022-06-07 | 浙江工业大学 | 一种基于知识-数据混合驱动算法的电网频率协同控制方法 |
CN115130387B (zh) * | 2022-07-14 | 2024-04-30 | 北京中泰瑞通科技有限公司 | 一种风力发电智能态势感知系统 |
CN114986518B (zh) * | 2022-07-19 | 2022-11-04 | 聊城一明五金科技有限公司 | 用于汽车拆解生产线的智能控制方法及系统 |
CN115809597B (zh) * | 2022-11-30 | 2024-04-30 | 东北电力大学 | 强化学习紧急直流功率支援的频率稳定系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400040A (zh) * | 2013-07-31 | 2013-11-20 | 中国人民解放军国防科学技术大学 | 采用多步时域差值学习的故障诊断与预测方法 |
CN109543394A (zh) * | 2018-11-29 | 2019-03-29 | 深圳市口袋网络科技有限公司 | 一种功能触发方法、系统、装置及计算机可读存储介质 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
-
2020
- 2020-01-17 CN CN202010050934.1A patent/CN111179121B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400040A (zh) * | 2013-07-31 | 2013-11-20 | 中国人民解放军国防科学技术大学 | 采用多步时域差值学习的故障诊断与预测方法 |
CN109543394A (zh) * | 2018-11-29 | 2019-03-29 | 深圳市口袋网络科技有限公司 | 一种功能触发方法、系统、装置及计算机可读存储介质 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
Also Published As
Publication number | Publication date |
---|---|
CN111179121A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179121B (zh) | 基于专家系统与深度逆向强化学习的电网紧急控制方法 | |
Zamzam et al. | Learning optimal solutions for extremely fast AC optimal power flow | |
Bose | Artificial intelligence techniques in smart grid and renewable energy systems—some example applications | |
Zheng et al. | A novel equivalent model of active distribution networks based on LSTM | |
Xu et al. | Robust dispatch of high wind power-penetrated power systems against transient instability | |
CN114006370B (zh) | 一种电力系统暂态稳定分析评估方法及系统 | |
CN116245033A (zh) | 人工智能驱动的电力系统分析方法及智能软件平台 | |
CN109523155A (zh) | 一种蒙特卡洛及最小二乘支持向量机的电网风险评估方法 | |
CN112800683B (zh) | 基于卷积神经网络的系统短路电流水平评估方法及系统 | |
CN103049617A (zh) | 保留无源性的大规模配电网络电磁暂态仿真模型化简方法 | |
CN112632840A (zh) | 基于自适应差分进化算法与elm的电网暂态稳定评估方法 | |
Sun et al. | Hybrid reinforcement learning for power transmission network self-healing considering wind power | |
Yin et al. | Coordinated complex-valued encoding dragonfly algorithm and artificial emotional reinforcement learning for coordinated secondary voltage control and automatic voltage regulation in multi-generator power systems | |
Wang et al. | Transmission network dynamic planning based on a double deep-Q network with deep ResNet | |
Wang et al. | Real-time excitation control-based voltage regulation using ddpg considering system dynamic performance | |
Chen et al. | Distributed hierarchical deep reinforcement learning for large-scale grid emergency control | |
Liu et al. | Varying condition SCOPF based on deep learning and knowledge graph | |
Vohra et al. | End-to-end learning with multiple modalities for system-optimised renewables nowcasting | |
CN117335414A (zh) | 一种电力系统交流最优潮流决策方法、装置、设备及介质 | |
Li et al. | Construction of power grid digital twin model based on GAN | |
Yun et al. | Regional voltage stability prediction based on decision tree algorithm | |
Sun et al. | Reliability prediction of distribution network based on PCA-GA-BP neural network | |
Li et al. | A Parameter Optimization Method Based on Eigenvalue Analysis for Microgrid With Multiple VSG Units | |
He | Machine learning based method for transient stability assessment of power systems | |
Guo et al. | Robust optimal dispatch of power grid considering wind/pv power uncertainties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |