CN113725853B

CN113725853B - 基于主动性人在回路强化学习的电网拓扑控制方法和系统

Info

Publication number: CN113725853B
Application number: CN202111017503.6A
Authority: CN
Inventors: 宋明黎; 刘顺宇; 余娜; 陈凯旋; 韩耕诗
Original assignee: Zhejiang University ZJU; State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2022-10-11
Anticipated expiration: 2041-08-30
Also published as: CN113725853A

Abstract

基于主动性人在回路强化学习的电网拓扑控制方法，首先，将电网数据的节点特征进行对齐从而构建可训练的同构图数据，并采用图卷积神经网络来聚合提取图表示特征。然后，在强化学习的行动器‑评判器网络架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架：利用动作扩展器赋予智能体可主动询问人类专家的动作；使用自适应状态选择器筛选过滤训练过程中的不稳定电网状态，提高这些电网状态的专家询问需求概率，并起到对动作扩展器的补充增强作用。最后，智能体能通过该框架来主动寻求人类专家的干涉，利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。本发明还包括基于主动性人在回路强化学习的电网拓扑控制方法的系统。

Description

基于主动性人在回路强化学习的电网拓扑控制方法和系统

技术领域

本发明属于电网拓扑控制和强化学习学习领域，涉及一种电网拓扑控制方法和系统。

背景技术

电网是一个由电力生产、传输、转换、分配和消费组成的复杂物理系统。为了保证电力传输的安全性和可靠性，人类操作员应不断监测电网的运行状态，而一旦电网出现不安全因素，则需要及时采取控制措施。潮流控制是电网运行的重要防御手段，然而传统的人工潮流控制是一个繁琐而昂贵的过程，随着近年来计算速度的巨大提升，基于人工智能的潮流控制方法逐渐成熟并被实际应用，这种智能化方法可以大大降低劳动强度，进一步提高电网的安全性和经济性。

电力系统拓扑控制是一种高效、低成本的潮流控制方法，人类操作员只需切换输电线路或修改母线分配就能控制潮流。通过实现对潮流的再分配，拓扑控制可以最大限度地减少输电损耗，提高电网的经济效益。此外，拓扑控制还可以防止潮流过载的危险，从而避免串联故障甚至停电故障的发生。

作为序列控制问题的解决方案，深度强化学习侧重于从输入状态中提取特征并以端到端的方式提供响应动作。目前这种学习模式已经在许多基于游戏的任务和基于机器人的任务中取得了显著的成就，在电网领域中也有许多研究验证强化学习在处理一些控制问题上的能力，然而基于强化学习的拓扑控制的探索效率仍然受到有效行动空间的稀疏性问题的限制。随着电网规模的扩大，拓扑控制的动作空间将随着节点数量的增加而呈指数级增长，但是有效动作只占总动作的一小部分，由于不可接受的非线性探索时间，智能体通常很难学到有用的策略。

发明内容

为解决上述问题，本发明提供一种基于主动性人在回路强化学习的电网拓扑控制方法和系统。

本发明考虑电网数据的图网络结构特点，将电网数据建模为同构图数据，并在现有强化学习的行动器-评判器架构上，提出了一种用于电网拓扑控制的主动性人在回路强化学习方法。本发明的技术方案是：

基于主动性人在回路强化学习的电网拓扑控制方法，包含如下步骤：

1.构建电网同构图数据；

利用电力系统仿真工具Grid2Op所提供的电网环境进行建模，由于电网环境中的数据是多母线异构结构，无法直接输入模型进行训练学习，所以需要先对其进行数据处理转化为同构图数据；对于电网中包含具有特征的输电线路和变电站、负荷、发电机三类异构节点，首先将输电线路的两端分别定义为节点，并将连接在同一个变电站母线上的线路节点、负荷节点以及发电机节点视为全连接关系，最后对不同节点之间的特征向量进行对齐，从而得到最终的电网同构图数据；

2.计算电网节点嵌入矩阵；

一个电网图状态可以被定义为s＝(A,F)，其中A是包含n个节点的邻接矩阵，F是节点特征矩阵，然后采用图卷积神经网络在电网图网络节点之间进行信息传递：

其中

是具有参数θ的可训练权重矩阵，H^(k)是经过k步计算之后的节点嵌入矩阵；使用节点特征矩阵F作为初始化输入节点嵌入矩阵H⁽⁰⁾，在经过K次迭代计算之后可以生成最终的节点嵌入矩阵Z＝H^(K)；

3.提取电网图表示特征；

为了提取得到电网图表示特征，利用步骤2中生成的节点嵌入矩阵Z输入至图读出层进行计算：

g＝Readout(A,Z)， (2)

其中g是图表示特征，Readout是图读出函数，可以利用不同的图读出函数来提取图表示特征，如求和、求平均和拼接等；

4.构建拓扑控制强化学习模型；

采取行动器-评判器架构来构建拓扑控制强化学习模型，在该架构中行动器π_θ用于生成当前电网状态所对应的拓扑控制决策动作，评判器V_θ则用于计算当前电网状态的价值；评判器的作用主要在于减少行动器梯度估计的高方差，并同时保证其偏差不变；

5.通过动作询问器实现主动问询动作；

定义电网环境中行动器的离散拓扑动作集合为

额外定义动作询问器的动作集合为

采用动作询问器和行动器两阶段决策的方式进行输出最终的动作；在每个非终止时间t，智能体与环境交互并观察得到环境的状态s_t，然后智能体首先通过动作询问器判断是否需要询问人类专家的意见，如果不需要询问则通过行动器选择原始动作

如果智能体决定向人类专家询问其不确定的状态，则该智能体将与人类通信并将不确定状态s^unc发送给人类专家；当人类专家收到询问请求时将根据其经验和知识回复智能体具体的拓扑控制动作

然后智能体跟随人类专家的动作并在电网环境中执行操作；此外，为了让智能体不过分依赖于询问人类专家而无法学习到自身的有效策略，可以使用监督学习的方法提出一个专家损失函数L_adv辅助智能体的训练，其中使用人类专家的动作作为标签来优化行动器的参数：

其中L_cls是传统的交叉熵分类损失函数，

是配有专家动作的不确定状态集合，通过这个专家损失函数的辅助训练，智能体可以学习不确定状态的正确策略，从而减少对这些不确定状态的询问需求；

6.引入自适应状态选择器筛选不稳定状态；

在框架只配备有动作询问器时，其询问人类的能力会逐渐被专家损失函数所抑制，而由于电网环境是不断动态变化的，所以智能体会无法有效感知已掌握的不稳定状态，因此需要引入自适应状态选择器帮助智能体筛选不稳定的电网状态；考虑第n次迭代所遍历的历史状态集合

其价值损失

定义为：

其中价值误差

是通过计算每个状态s的当前价值估计

和回报

的均方误差得到的；接着通过价值损失

计算指数滑动平均

其中超参数β控制滑动平均的指数衰减率，然后定义自适应不稳定率为：

其中自适应不稳定率的范围为0至1之间，当价值损失骤升的时自适应不稳定率会趋向于一个比较大的值；不稳定状态的数量可以定义为

其中δ是最大不稳定率，使用δ来限制不稳定状态集合的大小，防止智能体过分依赖于人类专家；最后对历史状态集合

中的状态根据其价值误差

的大小进行降序排序，筛选出前

个状态构成不稳定状态集合

然后定义询问损失函数如下：

其中L_cls是与专家损失函数中一样的交叉熵分类损失函数；智能体通过该询问损失函数可以有效辨别不稳定的电网状态并提高这些状态上的询问概率，从而获取人类专家的帮助以更有效地掌握这些电网状态。

实现如本发明的基于主动性人在回路强化学习的电网拓扑控制方法的系统，其特征在于，包括：电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块。

基于主动性人在回路强化学习的电网拓扑控制方法，首先，将电网数据的节点特征进行对齐从而构建可训练的同构图数据，并采用图卷积神经网络来聚合提取图表示特征。然后，在强化学习的行动器-评判器网络架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架：利用动作扩展器赋予智能体可主动询问人类专家的动作；使用自适应状态选择器筛选过滤训练过程中的不稳定电网状态，提高这些电网状态的专家询问需求概率，并起到对动作扩展器的补充增强作用。最后，智能体能通过该框架来主动寻求人类专家的干涉，利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。本发明还包括基于主动性人在回路强化学习的电网拓扑控制方法的系统。

本发明的优点是：考虑了电网数据的图网络结构特性，采用图卷积神经网络聚合提取电网数据的图表示特征。然后，基于电网图表示特征利用强化学习的行动器-评判器网络架构进行决策学习，并在此架构基础上加入动作询问器和自适应状态选择器以实现主动性人在回路框架。最后，智能体能通过该框架来主动寻求人类专家的干涉，利用专家拓扑控制动作加快其学习效率并保持较低的人类专家依赖性。

附图说明

图1是本发明的基于图卷积神经的电网表示特征生成示意图。

图2是本发明的针对电网拓扑控制的强化学习行动器-评判器架构示意图。

图3是本发明的基于主动性人在回路强化学习的电网拓扑控制流程示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行清晰、完整的解释和描述。

一种基于主动性人在回路强化学习的电网拓扑控制方法，包含如下步骤：

1.构建电网同构图数据；

2.计算电网节点嵌入矩阵；

其中

是具有参数θ的可训练权重矩阵，H^(k)是经过k步计算之后的节点嵌入矩阵；使用节点特征矩阵F作为初始化输入节点嵌入矩阵H⁽⁰⁾，在经过K次迭代计算之后可以生成最终的节点嵌入矩阵Z＝H^(K)，在本发明中设置K＝2；(图1)

3.提取电网图表示特征；

g＝Readout(A,Z)， (2)

其中g是图表示特征，Readout是图读出函数，可以利用不同的图读出函数来提取图表示特征，如求和、求平均和拼接等，在本发明中采用拼接的方式从而尽可能地保留节点嵌入特征；(图1)

4.构建拓扑控制强化学习模型；

采取行动器-评判器架构来构建拓扑控制强化学习模型，在该架构中行动器π_θ用于生成当前电网状态所对应的拓扑控制决策动作，评判器V_θ则用于计算当前电网状态的价值；评判器的作用主要在于减少行动器梯度估计的高方差，并同时保证其偏差不变；(图2)

5.通过动作询问器实现主动问询动作；

定义电网环境中行动器的离散拓扑动作集合为

额外定义动作询问器的动作集合为

其中L_cls是传统的交叉熵分类损失函数，

是配有专家动作的不确定状态集合，通过这个专家损失函数的辅助训练，智能体可以学习不确定状态的正确策略，从而减少对这些不确定状态的询问需求；(图3)

6.引入自适应状态选择器筛选不稳定状态；

其价值损失

定义为：

其中价值误差

是通过计算每个状态s的当前价值估计

和回报

的均方误差得到的；接着通过价值损失

计算指数滑动平均

其中超参数β控制滑动平均的指数衰减率，在本发明中设置β＝0.1，然后定义自适应不稳定率为：

其中δ是最大不稳定率，我们使用δ来限制不稳定状态集合的大小，防止智能体过分依赖于人类专家，在本发明中设置δ＝0.1；最后对历史状态集合

中的状态根据其价值误差

的大小进行降序排序，筛选出前

个状态构成不稳定状态集合

然后定义询问损失函数如下：

其中L_cls是与专家损失函数中一样的交叉熵分类损失函数；智能体通过该询问损失函数可以有效辨别不稳定的电网状态并提高这些状态上的询问概率，从而获取人类专家的帮助以更有效地掌握这些电网状态。(图3)

实现本发明的基于主动性人在回路强化学习的电网拓扑控制方法的系统，其特征在于，包括：电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块，上述各模块依顺序分别包含本发明方法的步骤1～6的内容。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于主动性人在回路强化学习的电网拓扑控制方法，包含如下步骤：

步骤1. 构建电网同构图数据；

步骤2. 计算电网节点嵌入矩阵；

一个电网图状态被定义为

，其中

是包含

个节点的邻接矩阵，

是节点特征矩阵，然后采用图卷积神经网络在电网图网络节点之间进行信息传递：

其中

是具有参数

的可训练权重矩阵，

是经过

步计算之后的节点嵌入矩阵；使用节点特征矩阵

作为初始化输入的节点嵌入矩阵

，在经过

次迭代计算之后生成最终的节点嵌入矩阵

；

步骤3. 提取电网图表示特征；

为了提取得到电网图表示特征，利用步骤2中生成的节点嵌入矩阵

输入至图读出层进行计算：

其中

是图表示特征，

是图读出函数，利用图读出函数来提取图表示特征，图读出函数包括求和、求平均或拼接；

步骤4. 构建拓扑控制强化学习模型；

采取行动器-评判器架构来构建拓扑控制强化学习模型，在该架构中行动器

用于生成当前电网状态所对应的拓扑控制决策动作，评判器

则用于计算当前电网状态的价值；评判器的作用在于减少行动器梯度估计的方差，并同时保证其偏差不变；

步骤5. 通过动作询问器实现主动问询动作；

定义电网环境中行动器的离散拓扑动作集合为

，额外定义动作询问器的动作集合为

，采用动作询问器和行动器两阶段决策的方式进行输出最终的动作；在每个非终止时间

，智能体与环境交互并观察得到环境的状态

，然后智能体首先通过动作询问器判断是否需要询问人类专家的意见，如果不需要询问则通过行动器选择原始动作

，如果智能体决定向人类专家询问其不确定的状态，则该智能体将与人类专家通信并将不确定状态

发送给人类专家；当人类专家收到询问请求时将根据其经验和知识回复智能体具体的拓扑控制动作

，然后智能体跟随人类专家的动作并在电网环境中执行操作；为了让智能体不过分依赖于询问人类专家而无法学习到自身的策略，使用监督学习的方法提出一个专家损失函数

辅助智能体的训练，其中使用人类专家的动作作为标签来优化行动器的参数：

其中

是传统的交叉熵分类损失函数，

是配有专家动作的不确定状态集合，通过这个专家损失函数

的辅助训练，智能体学习不确定状态的正确策略，从而减少对这些不确定状态的询问需求；

步骤6. 引入自适应状态选择器筛选不稳定状态；

在只配备有动作询问器时，其询问人类专家的能力会逐渐被专家损失函数

所抑制，而由于电网环境是不断动态变化的，因此需要引入自适应状态选择器帮助智能体筛选不稳定的电网状态；考虑第

次迭代所遍历的历史状态集合

，其价值损失

定义为：

其中价值误差

是通过计算每个状态

的当前价值估计

和回报

的均方误差得到的；接着通过价值损失

计算指数滑动平均

，其中超参数

控制滑动平均的指数衰减率，然后定义自适应不稳定率为：

其中自适应不稳定率的范围为0至1之间，当价值损失

骤升时自适应不稳定率会趋向于一个比较大的值；不稳定状态的数量定义为

，其中

是最大不稳定率，使用

来限制不稳定状态集合的大小，防止智能体过分依赖于人类专家；最后对历史状态集合

中的状态根据其价值误差

的大小进行降序排序，筛选出前

个状态构成不稳定状态集合

，然后定义询问损失函数如下：

其中

是与专家损失函数中一样的交叉熵分类损失函数；智能体通过该询问损失函数辨别不稳定的电网状态并提高这些状态上的询问概率，从而获取人类专家的帮助以掌握这些电网状态。

2.实现如权利要求1所述的基于主动性人在回路强化学习的电网拓扑控制方法的系统，其特征在于，包括：电网同构图数据构建模块、计算电网节点嵌入矩阵模块、提取电网图表示特征模块、拓扑控制强化学习模型构建模块、动作询问器模块、自适应状态选择器模块。