CN113725853B - 基于主动性人在回路强化学习的电网拓扑控制方法和系统 - Google Patents

基于主动性人在回路强化学习的电网拓扑控制方法和系统 Download PDF

Info

Publication number
CN113725853B
CN113725853B CN202111017503.6A CN202111017503A CN113725853B CN 113725853 B CN113725853 B CN 113725853B CN 202111017503 A CN202111017503 A CN 202111017503A CN 113725853 B CN113725853 B CN 113725853B
Authority
CN
China
Prior art keywords
power grid
action
expert
state
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111017503.6A
Other languages
English (en)
Other versions
CN113725853A (zh
Inventor
宋明黎
刘顺宇
余娜
陈凯旋
韩耕诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Zhejiang University ZJU
State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, State Grid Zhejiang Electric Power Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202111017503.6A priority Critical patent/CN113725853B/zh
Publication of CN113725853A publication Critical patent/CN113725853A/zh
Application granted granted Critical
Publication of CN113725853B publication Critical patent/CN113725853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

基于主动性人在回路强化学习的电网拓扑控制方法,首先,将电网数据的节点特征进行对齐从而构建可训练的同构图数据,并采用图卷积神经网络来聚合提取图表示特征。然后,在强化学习的行动器‑评判器网络架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架:利用动作扩展器赋予智能体可主动询问人类专家的动作;使用自适应状态选择器筛选过滤训练过程中的不稳定电网状态,提高这些电网状态的专家询问需求概率,并起到对动作扩展器的补充增强作用。最后,智能体能通过该框架来主动寻求人类专家的干涉,利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。本发明还包括基于主动性人在回路强化学习的电网拓扑控制方法的系统。

Description

基于主动性人在回路强化学习的电网拓扑控制方法和系统
技术领域
本发明属于电网拓扑控制和强化学习学习领域,涉及一种电网拓扑控制方法和系统。
背景技术
电网是一个由电力生产、传输、转换、分配和消费组成的复杂物理系统。为了保证电力传输的安全性和可靠性,人类操作员应不断监测电网的运行状态,而一旦电网出现不安全因素,则需要及时采取控制措施。潮流控制是电网运行的重要防御手段,然而传统的人工潮流控制是一个繁琐而昂贵的过程,随着近年来计算速度的巨大提升,基于人工智能的潮流控制方法逐渐成熟并被实际应用,这种智能化方法可以大大降低劳动强度,进一步提高电网的安全性和经济性。
电力系统拓扑控制是一种高效、低成本的潮流控制方法,人类操作员只需切换输电线路或修改母线分配就能控制潮流。通过实现对潮流的再分配,拓扑控制可以最大限度地减少输电损耗,提高电网的经济效益。此外,拓扑控制还可以防止潮流过载的危险,从而避免串联故障甚至停电故障的发生。
作为序列控制问题的解决方案,深度强化学习侧重于从输入状态中提取特征并以端到端的方式提供响应动作。目前这种学习模式已经在许多基于游戏的任务和基于机器人的任务中取得了显著的成就,在电网领域中也有许多研究验证强化学习在处理一些控制问题上的能力,然而基于强化学习的拓扑控制的探索效率仍然受到有效行动空间的稀疏性问题的限制。随着电网规模的扩大,拓扑控制的动作空间将随着节点数量的增加而呈指数级增长,但是有效动作只占总动作的一小部分,由于不可接受的非线性探索时间,智能体通常很难学到有用的策略。
发明内容
为解决上述问题,本发明提供一种基于主动性人在回路强化学习的电网拓扑控制方法和系统。
本发明考虑电网数据的图网络结构特点,将电网数据建模为同构图数据,并在现有强化学习的行动器-评判器架构上,提出了一种用于电网拓扑控制的主动性人在回路强化学习方法。本发明的技术方案是:
基于主动性人在回路强化学习的电网拓扑控制方法,包含如下步骤:
1.构建电网同构图数据;
利用电力系统仿真工具Grid2Op所提供的电网环境进行建模,由于电网环境中的数据是多母线异构结构,无法直接输入模型进行训练学习,所以需要先对其进行数据处理转化为同构图数据;对于电网中包含具有特征的输电线路和变电站、负荷、发电机三类异构节点,首先将输电线路的两端分别定义为节点,并将连接在同一个变电站母线上的线路节点、负荷节点以及发电机节点视为全连接关系,最后对不同节点之间的特征向量进行对齐,从而得到最终的电网同构图数据;
2.计算电网节点嵌入矩阵;
一个电网图状态可以被定义为s=(A,F),其中A是包含n个节点的邻接矩阵,F是节点特征矩阵,然后采用图卷积神经网络在电网图网络节点之间进行信息传递:
Figure GDA0003683193830000021
其中
Figure GDA0003683193830000022
是具有参数θ的可训练权重矩阵,H(k)是经过k步计算之后的节点嵌入矩阵;使用节点特征矩阵F作为初始化输入节点嵌入矩阵H(0),在经过K次迭代计算之后可以生成最终的节点嵌入矩阵Z=H(K)
3.提取电网图表示特征;
为了提取得到电网图表示特征,利用步骤2中生成的节点嵌入矩阵Z输入至图读出层进行计算:
g=Readout(A,Z), (2)
其中g是图表示特征,Readout是图读出函数,可以利用不同的图读出函数来提取图表示特征,如求和、求平均和拼接等;
4.构建拓扑控制强化学习模型;
采取行动器-评判器架构来构建拓扑控制强化学习模型,在该架构中行动器πθ用于生成当前电网状态所对应的拓扑控制决策动作,评判器Vθ则用于计算当前电网状态的价值;评判器的作用主要在于减少行动器梯度估计的高方差,并同时保证其偏差不变;
5.通过动作询问器实现主动问询动作;
定义电网环境中行动器的离散拓扑动作集合为
Figure GDA0003683193830000023
额外定义动作询问器的动作集合为
Figure GDA0003683193830000031
采用动作询问器和行动器两阶段决策的方式进行输出最终的动作;在每个非终止时间t,智能体与环境交互并观察得到环境的状态st,然后智能体首先通过动作询问器判断是否需要询问人类专家的意见,如果不需要询问则通过行动器选择原始动作
Figure GDA0003683193830000032
如果智能体决定向人类专家询问其不确定的状态,则该智能体将与人类通信并将不确定状态sunc发送给人类专家;当人类专家收到询问请求时将根据其经验和知识回复智能体具体的拓扑控制动作
Figure GDA0003683193830000033
然后智能体跟随人类专家的动作并在电网环境中执行操作;此外,为了让智能体不过分依赖于询问人类专家而无法学习到自身的有效策略,可以使用监督学习的方法提出一个专家损失函数Ladv辅助智能体的训练,其中使用人类专家的动作作为标签来优化行动器的参数:
Figure GDA0003683193830000034
其中Lcls是传统的交叉熵分类损失函数,
Figure GDA0003683193830000035
是配有专家动作的不确定状态集合,通过这个专家损失函数的辅助训练,智能体可以学习不确定状态的正确策略,从而减少对这些不确定状态的询问需求;
6.引入自适应状态选择器筛选不稳定状态;
在框架只配备有动作询问器时,其询问人类的能力会逐渐被专家损失函数所抑制,而由于电网环境是不断动态变化的,所以智能体会无法有效感知已掌握的不稳定状态,因此需要引入自适应状态选择器帮助智能体筛选不稳定的电网状态;考虑第n次迭代所遍历的历史状态集合
Figure GDA0003683193830000036
其价值损失
Figure GDA0003683193830000037
定义为:
Figure GDA0003683193830000038
其中价值误差
Figure GDA0003683193830000039
是通过计算每个状态s的当前价值估计
Figure GDA00036831938300000310
和回报
Figure GDA00036831938300000311
的均方误差得到的;接着通过价值损失
Figure GDA00036831938300000312
计算指数滑动平均
Figure GDA00036831938300000313
其中超参数β控制滑动平均的指数衰减率,然后定义自适应不稳定率为:
Figure GDA00036831938300000314
其中自适应不稳定率的范围为0至1之间,当价值损失骤升的时自适应不稳定率会趋向于一个比较大的值;不稳定状态的数量可以定义为
Figure GDA00036831938300000315
其中δ是最大不稳定率,使用δ来限制不稳定状态集合的大小,防止智能体过分依赖于人类专家;最后对历史状态集合
Figure GDA00036831938300000316
中的状态根据其价值误差
Figure GDA0003683193830000041
的大小进行降序排序,筛选出前
Figure GDA0003683193830000042
个状态构成不稳定状态集合
Figure GDA0003683193830000043
然后定义询问损失函数如下:
Figure GDA0003683193830000044
其中Lcls是与专家损失函数中一样的交叉熵分类损失函数;智能体通过该询问损失函数可以有效辨别不稳定的电网状态并提高这些状态上的询问概率,从而获取人类专家的帮助以更有效地掌握这些电网状态。
实现如本发明的基于主动性人在回路强化学习的电网拓扑控制方法的系统,其特征在于,包括:电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块。
基于主动性人在回路强化学习的电网拓扑控制方法,首先,将电网数据的节点特征进行对齐从而构建可训练的同构图数据,并采用图卷积神经网络来聚合提取图表示特征。然后,在强化学习的行动器-评判器网络架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架:利用动作扩展器赋予智能体可主动询问人类专家的动作;使用自适应状态选择器筛选过滤训练过程中的不稳定电网状态,提高这些电网状态的专家询问需求概率,并起到对动作扩展器的补充增强作用。最后,智能体能通过该框架来主动寻求人类专家的干涉,利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。本发明还包括基于主动性人在回路强化学习的电网拓扑控制方法的系统。
本发明的优点是:考虑了电网数据的图网络结构特性,采用图卷积神经网络聚合提取电网数据的图表示特征。然后,基于电网图表示特征利用强化学习的行动器-评判器网络架构进行决策学习,并在此架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架。最后,智能体能通过该框架来主动寻求人类专家的干涉,利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。
附图说明
图1是本发明的基于图卷积神经的电网表示特征生成示意图。
图2是本发明的针对电网拓扑控制的强化学习行动器-评判器架构示意图。
图3是本发明的基于主动性人在回路强化学习的电网拓扑控制流程示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行清晰、完整的解释和描述。
一种基于主动性人在回路强化学习的电网拓扑控制方法,包含如下步骤:
1.构建电网同构图数据;
利用电力系统仿真工具Grid2Op所提供的电网环境进行建模,由于电网环境中的数据是多母线异构结构,无法直接输入模型进行训练学习,所以需要先对其进行数据处理转化为同构图数据;对于电网中包含具有特征的输电线路和变电站、负荷、发电机三类异构节点,首先将输电线路的两端分别定义为节点,并将连接在同一个变电站母线上的线路节点、负荷节点以及发电机节点视为全连接关系,最后对不同节点之间的特征向量进行对齐,从而得到最终的电网同构图数据;
2.计算电网节点嵌入矩阵;
一个电网图状态可以被定义为s=(A,F),其中A是包含n个节点的邻接矩阵,F是节点特征矩阵,然后采用图卷积神经网络在电网图网络节点之间进行信息传递:
Figure GDA0003683193830000051
其中
Figure GDA0003683193830000052
是具有参数θ的可训练权重矩阵,H(k)是经过k步计算之后的节点嵌入矩阵;使用节点特征矩阵F作为初始化输入节点嵌入矩阵H(0),在经过K次迭代计算之后可以生成最终的节点嵌入矩阵Z=H(K),在本发明中设置K=2;(图1)
3.提取电网图表示特征;
为了提取得到电网图表示特征,利用步骤2中生成的节点嵌入矩阵Z输入至图读出层进行计算:
g=Readout(A,Z), (2)
其中g是图表示特征,Readout是图读出函数,可以利用不同的图读出函数来提取图表示特征,如求和、求平均和拼接等,在本发明中采用拼接的方式从而尽可能地保留节点嵌入特征;(图1)
4.构建拓扑控制强化学习模型;
采取行动器-评判器架构来构建拓扑控制强化学习模型,在该架构中行动器πθ用于生成当前电网状态所对应的拓扑控制决策动作,评判器Vθ则用于计算当前电网状态的价值;评判器的作用主要在于减少行动器梯度估计的高方差,并同时保证其偏差不变;(图2)
5.通过动作询问器实现主动问询动作;
定义电网环境中行动器的离散拓扑动作集合为
Figure GDA0003683193830000061
额外定义动作询问器的动作集合为
Figure GDA0003683193830000062
采用动作询问器和行动器两阶段决策的方式进行输出最终的动作;在每个非终止时间t,智能体与环境交互并观察得到环境的状态st,然后智能体首先通过动作询问器判断是否需要询问人类专家的意见,如果不需要询问则通过行动器选择原始动作
Figure GDA0003683193830000063
如果智能体决定向人类专家询问其不确定的状态,则该智能体将与人类通信并将不确定状态sunc发送给人类专家;当人类专家收到询问请求时将根据其经验和知识回复智能体具体的拓扑控制动作
Figure GDA0003683193830000064
然后智能体跟随人类专家的动作并在电网环境中执行操作;此外,为了让智能体不过分依赖于询问人类专家而无法学习到自身的有效策略,可以使用监督学习的方法提出一个专家损失函数Ladv辅助智能体的训练,其中使用人类专家的动作作为标签来优化行动器的参数:
Figure GDA0003683193830000065
其中Lcls是传统的交叉熵分类损失函数,
Figure GDA0003683193830000066
是配有专家动作的不确定状态集合,通过这个专家损失函数的辅助训练,智能体可以学习不确定状态的正确策略,从而减少对这些不确定状态的询问需求;(图3)
6.引入自适应状态选择器筛选不稳定状态;
在框架只配备有动作询问器时,其询问人类的能力会逐渐被专家损失函数所抑制,而由于电网环境是不断动态变化的,所以智能体会无法有效感知已掌握的不稳定状态,因此需要引入自适应状态选择器帮助智能体筛选不稳定的电网状态;考虑第n次迭代所遍历的历史状态集合
Figure GDA0003683193830000067
其价值损失
Figure GDA0003683193830000068
定义为:
Figure GDA0003683193830000069
其中价值误差
Figure GDA00036831938300000610
是通过计算每个状态s的当前价值估计
Figure GDA00036831938300000611
和回报
Figure GDA00036831938300000612
的均方误差得到的;接着通过价值损失
Figure GDA00036831938300000613
计算指数滑动平均
Figure GDA00036831938300000614
其中超参数β控制滑动平均的指数衰减率,在本发明中设置β=0.1,然后定义自适应不稳定率为:
Figure GDA00036831938300000615
其中自适应不稳定率的范围为0至1之间,当价值损失骤升的时自适应不稳定率会趋向于一个比较大的值;不稳定状态的数量可以定义为
Figure GDA0003683193830000071
其中δ是最大不稳定率,我们使用δ来限制不稳定状态集合的大小,防止智能体过分依赖于人类专家,在本发明中设置δ=0.1;最后对历史状态集合
Figure GDA0003683193830000072
中的状态根据其价值误差
Figure GDA0003683193830000073
的大小进行降序排序,筛选出前
Figure GDA0003683193830000074
个状态构成不稳定状态集合
Figure GDA0003683193830000075
然后定义询问损失函数如下:
Figure GDA0003683193830000076
其中Lcls是与专家损失函数中一样的交叉熵分类损失函数;智能体通过该询问损失函数可以有效辨别不稳定的电网状态并提高这些状态上的询问概率,从而获取人类专家的帮助以更有效地掌握这些电网状态。(图3)
实现本发明的基于主动性人在回路强化学习的电网拓扑控制方法的系统,其特征在于,包括:电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块,上述各模块依顺序分别包含本发明方法的步骤1~6的内容。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.基于主动性人在回路强化学习的电网拓扑控制方法,包含如下步骤:
步骤1. 构建电网同构图数据;
利用电力系统仿真工具Grid2Op所提供的电网环境进行建模,由于电网环境中的数据是多母线异构结构,无法直接输入模型进行训练学习,所以需要先对其进行数据处理转化为同构图数据;对于电网中包含具有特征的输电线路和变电站、负荷、发电机三类异构节点,首先将输电线路的两端分别定义为节点,并将连接在同一个变电站母线上的线路节点、负荷节点以及发电机节点视为全连接关系,最后对不同节点之间的特征向量进行对齐,从而得到最终的电网同构图数据;
步骤2. 计算电网节点嵌入矩阵;
一个电网图状态被定义为
Figure 722627DEST_PATH_IMAGE001
,其中
Figure 381142DEST_PATH_IMAGE002
是包含
Figure 546544DEST_PATH_IMAGE003
个节点的邻接矩阵,
Figure 706130DEST_PATH_IMAGE004
是节 点特征矩阵,然后采用图卷积神经网络在电网图网络节点之间进行信息传递:
Figure 476639DEST_PATH_IMAGE005
其中
Figure 915842DEST_PATH_IMAGE006
是具有参数
Figure 568540DEST_PATH_IMAGE007
的可训练权重矩阵,
Figure 407183DEST_PATH_IMAGE008
是经过
Figure 625675DEST_PATH_IMAGE009
步计算之后的节点嵌入矩阵;使用节点特征矩阵
Figure 688309DEST_PATH_IMAGE010
作为初始化输入的节 点嵌入矩阵
Figure 765987DEST_PATH_IMAGE011
,在经过
Figure 799800DEST_PATH_IMAGE012
次迭代计算之后生成最终的节点嵌入矩阵
Figure 13744DEST_PATH_IMAGE013
步骤3. 提取电网图表示特征;
为了提取得到电网图表示特征,利用步骤2中生成的节点嵌入矩阵
Figure 247279DEST_PATH_IMAGE014
输入至图读出层 进行计算:
Figure 936886DEST_PATH_IMAGE015
其中
Figure 117332DEST_PATH_IMAGE016
是图表示特征,
Figure 61148DEST_PATH_IMAGE017
是图读出函数,利用图读出函数来提取图表示特 征,图读出函数包括求和、求平均或拼接;
步骤4. 构建拓扑控制强化学习模型;
采取行动器-评判器架构来构建拓扑控制强化学习模型,在该架构中行动器
Figure 668847DEST_PATH_IMAGE018
用于 生成当前电网状态所对应的拓扑控制决策动作,评判器
Figure 845750DEST_PATH_IMAGE019
则用于计算当前电网状态的价 值;评判器的作用在于减少行动器梯度估计的方差,并同时保证其偏差不变;
步骤5. 通过动作询问器实现主动问询动作;
定义电网环境中行动器的离散拓扑动作集合为
Figure 361045DEST_PATH_IMAGE020
,额外定义动作询问器的动作集合为
Figure 549581DEST_PATH_IMAGE021
,采用动作询问器和行动器两阶段决策的方式进行输出最终的 动作;在每个非终止时间
Figure 702083DEST_PATH_IMAGE022
,智能体与环境交互并观察得到环境的状态
Figure 38386DEST_PATH_IMAGE023
,然后智能体首 先通过动作询问器判断是否需要询问人类专家的意见,如果不需要询问则通过行动器选择 原始动作
Figure 560634DEST_PATH_IMAGE024
,如果智能体决定向人类专家询问其不确定的状态,则该智能体将与人 类专家通信并将不确定状态
Figure 728311DEST_PATH_IMAGE025
发送给人类专家;当人类专家收到询问请求时将根据其 经验和知识回复智能体具体的拓扑控制动作
Figure 943391DEST_PATH_IMAGE026
,然后智能体跟随人类专家的动 作并在电网环境中执行操作;为了让智能体不过分依赖于询问人类专家而无法学习到自身 的策略,使用监督学习的方法提出一个专家损失函数
Figure 580040DEST_PATH_IMAGE027
辅助智能体的训练,其中 使用人类专家的动作作为标签来优化行动器的参数:
Figure 905979DEST_PATH_IMAGE028
其中
Figure 193741DEST_PATH_IMAGE029
是传统的交叉熵分类损失函数,
Figure 48565DEST_PATH_IMAGE030
是配有专家动作的不确定状态集 合,通过这个专家损失函数
Figure 936624DEST_PATH_IMAGE031
的辅助训练,智能体学习不确定状态的正确策略,从 而减少对这些不确定状态的询问需求;
步骤6. 引入自适应状态选择器筛选不稳定状态;
在只配备有动作询问器时,其询问人类专家的能力会逐渐被专家损失函数
Figure 597412DEST_PATH_IMAGE032
所抑制,而由于电网环境是不断动态变化的,因此需要引入自适应状态选择器帮助智能体 筛选不稳定的电网状态;考虑第
Figure 615047DEST_PATH_IMAGE033
次迭代所遍历的历史状态集合
Figure 30985DEST_PATH_IMAGE034
,其价值损失
Figure 563597DEST_PATH_IMAGE035
定义为:
Figure 231339DEST_PATH_IMAGE036
其中价值误差
Figure 713267DEST_PATH_IMAGE037
是通过计算每个状态
Figure 441052DEST_PATH_IMAGE038
的当前价值估计
Figure 460960DEST_PATH_IMAGE039
和回报
Figure 791447DEST_PATH_IMAGE040
的均方误差得到的;接着通过价值损失
Figure 518095DEST_PATH_IMAGE041
计算指数滑动平均
Figure 790682DEST_PATH_IMAGE042
,其中超参数
Figure 32308DEST_PATH_IMAGE043
控制滑动平均的指数衰减率,然后定 义自适应不稳定率为:
Figure 41852DEST_PATH_IMAGE044
其中自适应不稳定率的范围为0至1之间,当价值损失
Figure 13219DEST_PATH_IMAGE045
骤升时自适应不稳定率会 趋向于一个比较大的值;不稳定状态的数量定义为
Figure 817227DEST_PATH_IMAGE046
,其中
Figure 811728DEST_PATH_IMAGE047
是最大不稳定 率,使用
Figure 234750DEST_PATH_IMAGE048
来限制不稳定状态集合的大小,防止智能体过分依赖于人类专家;最后对历史状 态集合
Figure 935990DEST_PATH_IMAGE049
中的状态根据其价值误差
Figure 707637DEST_PATH_IMAGE050
的大小进行降序排序,筛选出前
Figure 517330DEST_PATH_IMAGE051
个状态构 成不稳定状态集合
Figure 603097DEST_PATH_IMAGE052
,然后定义询问损失函数如下:
Figure 221161DEST_PATH_IMAGE053
其中
Figure 12311DEST_PATH_IMAGE054
是与专家损失函数中一样的交叉熵分类损失函数;智能体通过该询问损失函 数辨别不稳定的电网状态并提高这些状态上的询问概率,从而获取人类专家的帮助以掌握 这些电网状态。
2.实现如权利要求1所述的基于主动性人在回路强化学习的电网拓扑控制方法的系统,其特征在于,包括:电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块。
CN202111017503.6A 2021-08-30 2021-08-30 基于主动性人在回路强化学习的电网拓扑控制方法和系统 Active CN113725853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017503.6A CN113725853B (zh) 2021-08-30 2021-08-30 基于主动性人在回路强化学习的电网拓扑控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017503.6A CN113725853B (zh) 2021-08-30 2021-08-30 基于主动性人在回路强化学习的电网拓扑控制方法和系统

Publications (2)

Publication Number Publication Date
CN113725853A CN113725853A (zh) 2021-11-30
CN113725853B true CN113725853B (zh) 2022-10-11

Family

ID=78680228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017503.6A Active CN113725853B (zh) 2021-08-30 2021-08-30 基于主动性人在回路强化学习的电网拓扑控制方法和系统

Country Status (1)

Country Link
CN (1) CN113725853B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358520B (zh) * 2021-12-15 2024-07-19 华南理工大学 一种电力系统经济调度决策的方法、系统、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113036772A (zh) * 2021-05-11 2021-06-25 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210141355A1 (en) * 2019-11-07 2021-05-13 Global Energy Interconnection Research Institute Co. Ltd Systems and methods of autonomous line flow control in electric power systems
CN113159341A (zh) * 2021-04-23 2021-07-23 中国电力科学研究院有限公司 融合深度强化学习和专家经验的配电网辅助决策方法及系统
CN113315131A (zh) * 2021-05-18 2021-08-27 国网浙江省电力有限公司 一种电网运行方式智能调节方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113036772A (zh) * 2021-05-11 2021-06-25 国网江苏省电力有限公司南京供电分公司 一种基于深度强化学习的配电网拓扑电压调节方法

Also Published As

Publication number Publication date
CN113725853A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Khuntia et al. Simulation study for automatic generation control of a multi-area power system by ANFIS approach
Shakibjoo et al. Load frequency control for multi-area power systems: A new type-2 fuzzy approach based on Levenberg–Marquardt algorithm
Mosaad et al. LFC based adaptive PID controller using ANN and ANFIS techniques
Abiyev et al. A type-2 fuzzy wavelet neural network for system identification and control
CN113725853B (zh) 基于主动性人在回路强化学习的电网拓扑控制方法和系统
CN114123178B (zh) 一种基于多智能体强化学习的智能电网分区网络重构方法
CN115166415A (zh) 一种自适应图卷积神经网络的配电网故障诊断方法及系统
CN113780664A (zh) 基于tdt-ssa-bp的时间序列预测方法
Liu et al. Progressive decision-making framework for power system topology control
Menghal et al. Artificial intelligence based dynamic simulation of induction motor drives
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN112363392B (zh) 一类模型未知的多智能体分群一致性控制方法
CN117057623A (zh) 一种综合性电网安全优化调度方法、装置、存储介质
Gupta et al. Fusion of fuzzy logic and neural networks with applications to decision and control problems
CN114707613B (zh) 基于分层的深度策略梯度网络的电网调控方法
Keller et al. Interpretation of nodes in networks for fuzzy logic
Lutfy et al. A genetically trained simplified ANFIS controller to control nonlinear MIMO systems
Yang et al. Control method of power grid topology structure based on reinforcement learning
CN111897217A (zh) 一种模型预测控制器的时域分解加速方法
Ding et al. Neural network research progress and applications in forecast
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Yu et al. Modeling-error based adaptive fuzzy sliding mode control for trajectory-tracking of nonlinear systems
CN115660324B (zh) 基于图强化学习的电网多断面越限调控方法和系统
Abraham Beyond integrated neuro-fuzzy systems: Reviews, prospects, perspectives and directions
CN116961144A (zh) 一种综合能源系统的结合比例与深度学习的智能控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant