CN115660324B

CN115660324B - 基于图强化学习的电网多断面越限调控方法和系统

Info

Publication number: CN115660324B
Application number: CN202211227530.0A
Authority: CN
Inventors: 宋明黎; 罗伟; 刘顺宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-06-13
Anticipated expiration: 2042-10-09
Also published as: CN115660324A

Abstract

基于图强化学习的电网多断面越限调控方法，首先，基于典型日构建一系列电网多断面越限数据集，并利用图卷积神经网络计算电网节点的嵌入矩阵，利用多层感知机计算断面任务的嵌入表示；根据节点嵌入和任务嵌入生成多断面任务归因图，用以指导智能体对发电机的调度行为；利用加权池化的方法提取电网图表示特征。然后，在基于竞争架构的深度Q网络基础上构建发电机调度强化学习框架，该框架根据电网图表示特征估计各动作的期望奖励值。最后，智能体通过该框架选择最合理的发电机调度动作，实现对电网多断面越限情景的调控。本发明还包括基于图强化学习的电网多断面越限调控系统。

Description

基于图强化学习的电网多断面越限调控方法和系统

技术领域

本发明属于电网断面调控和强化学习学习领域，涉及一种电网多断面越限调控方法和系统。

背景技术

电网是一个复杂的非线性物理系统，具有特征维度大、不确定性高的特点。随着电力系统规模的迅速扩大和电力需求与发电的日益不平衡，其安全性、经济性与脆弱性等问题变得尤为重要。如今，电网调度人员更关注关键输电断面而不是单个机组。关键输电断面由专家经验确定，通常由一组有功潮流方向相同、电气距离相近的输电线路组成，调度员可以通过监控不同输电断面的功率来监测电网的运行状态。

关键断面潮流调控是电网运行的重要防御手段，然而，传统的调度方法对系统模型依赖程度较高，随着电力系统规模的不断扩大，这些传统方法的计算时间成本过高。此外，当电网中存在多个关键断面需要同时考量时，由于这些断面之间存在复杂的相互作用关系，甚至会产生冲突：对一个关键断面的潮流调整可能导致另一个关键断面因潮流转移而发生过载。因此，由于非线性、非凸的搜索空间存在组合爆炸、约束复杂等问题，传统的强化学习方法很难收敛，其探索时间不可接受。

作为高维控制问题的解决方案，深度强化学习侧重于从输入状态中提取特征并以端到端的方式提供响应动作。目前这种学习模式已经在许多基于游戏的任务和基于机器人的任务中取得了显著的成就，在电网领域中也有许多研究验证强化学习在处理一些控制问题上的能力，然而基于强化学习的断面控制方法需要针对不同的关键断面单独训练一个特定的策略，这需要大量的电网交互数据，也忽略了各个断面调控任务之间的耦合关系，限制了该方法在多断面协同调整中的应用。

发明内容

为解决上述问题，本发明提供一种基于图强化学习的电网多断面越限调控方法和系统。

本发明考虑电网数据的图网络结构特点，将电网数据建模为同构图数据，并在现有强化学习的基于竞争架构的深度Q网络基础上，提出了一种用于电网多断面越限调控的强化学习方法和系统。本发明的技术方案是：

基于图强化学习的电网多断面越限调控方法，包含如下步骤：

1.构建电网多断面越限数据；

为了验证本发明的有效性，需要构建图结构的电网多断面越限数据集，包含不同电网体系的电气特性参数、电网相关的拓扑结构、不同状态下各个节点的出力负载等信息。其中，电气特性参数为电网固有的一系列特征，用于潮流计算过程；电网拓扑结构中的母线对应于图结构中的节点，与母线相连的负载、机组的电压等信息视为节点的伴随属性，电网拓扑结构中联接两个母线的输电线或变压器对应于图结构中的边；由于真实电网运行中断面越限数据较少，这样会导致数据集的样本类比不平衡，因此利用电网仿真软件pandapower来构建数据集：首先根据电网的电气特性参数和拓扑结构建立电网仿真模型，然后基于典型日的数据随机修改该电网中不同发电机的有功出力，修改负载有功以维持发电-用电平衡，最后通过潮流计算筛选数据：将潮流计算收敛但断面越限的样本加入数据集；如此迭代多次，直到数据集中包含T个关键断面越限的电网样本，该数据集便可用于训练和验证电网多断面越限调控的强化学习智能体。

2.一个电网图状态可以被定义为s＝(A，F)，其中A是包含n个节点的邻接矩阵，F是节点特征矩阵，然后采用图卷积神经网络在电网图网络节点之间进行信息传递：

其中

I是单位矩阵，/>

是对角度数矩阵，矩阵/>

的第i个对角元素为

表示矩阵/>

的第i行第j列元素，/>

是具有参数ψ的可训练权重矩阵，H^(k)是经过k步计算之后的节点嵌入矩阵；使用节点特征矩阵F作为初始化输入节点嵌入矩阵H⁽⁰⁾，在经过K次迭代计算之后可以生成最终的节点嵌入矩阵X＝H^(K)；采用两个独立的图卷积网络f(·)分别计算两个节点嵌入矩阵：

其中N为电网节点的数量，d_x为每个节点上的特征向量长度，X_ρ用于生成多断面归因图；X_υ基于归因图进行加权池化，用以生成电网图的表示特征。

3.计算任务嵌入表示；

为了在强化学习中反映不同断面调控任务的特征，构建一个基于多层感知机的任务编码器，该编码器根据断面的独热编码计算出不同任务在神经网络中的嵌入表示：

其中g(·；ξ)是由ξ参数化的多层感知机，对于单一断面调控任务

o(Φ)是该断面的独热编码，/>

为该任务的嵌入表示；进一步地，对于M个断面协同调控任务

其任务嵌入表示为：

4.生成多断面归因图；

归因图能直观地反映断面任务与电网节点之间的内在联系，指导智能体对发电机的调度行为，利用步骤2中生成的节点嵌入矩阵X_ρ和步骤3中生成的任务嵌入表示来生成电网多断面归因图

5.提取电网图表示特征；

为了提取得到电网图表示特征，利用步骤2中生成的节点嵌入矩阵X_υ和步骤4中生成的多断面归因图来提取电网图表示特征

6.构建发电机调度强化学习模型；

采取基于竞争架构的深度Q网络来构建发电机调度强化学习模型，并利用步骤5中生成的电网图表示特征

作为模型输入，在该架构中智能体采用一个具有参数θ的深度神经网络/>

来估计特定状态/>

下动作a的价值，动作的价值定义为在当前电网状态下执行动作后所得到的期望奖励值，而奖励值具体由电网环境中所使用的奖赏函数决定；智能体每次选择奖励值最高的动作对电网进行调控。

实现如本发明的基于图强化学习的电网多断面越限调控方法的系统，其特征在于，包括：电网多断面越限数据构建模块、电网节点嵌入矩阵计算模块、任务嵌入表示计算模块、多断面归因图生成模块、电网图表示特征提取模块、发电机调度强化学习模型构建模块。

基于图强化学习的电网多断面越限调控方法，首先，根据典型日构建一系列电网多断面越限数据集，并利用图卷积神经网络计算电网节点的嵌入矩阵，利用多层感知机计算断面任务的嵌入表示；根据节点嵌入和任务嵌入生成多断面任务归因图，用以指导智能体对发电机的调度行为；利用加权池化的方法提取电网图表示特征。然后，在基于竞争架构的深度Q网络基础上构建发电机调度强化学习框架，该框架根据电网图表示特征拟合各动作的价值。最后，智能体通过该框架选择价值最高的发电机调度动作，实现对电网多断面越限情景的调控。本发明还包括基于图强化学习的电网多断面越限调控系统。

本发明的优点是：考虑了电网数据的图网络结构特性，采用图卷积神经网络聚合提取电网数据的图表示特征。然后，引入基于注意力机制的多断面任务归因图，能够在高维非线性的电网断面调控问题中，找到独立于专家知识之外的关键发电机。最后，利用强化学习的基于竞争架构的深度Q网络进行决策学习，智能体学习到的策略能有效地针对多个断面进行协同调控。

附图说明

图1是本发明的电网多断面越限数据生成示意图。

图2是本发明的方法总示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行清晰、完整的解释和描述。

一种基于图强化学习的电网多断面越限调控方法，包含如下步骤：

1.构建电网多断面越限数据；

为了验证本发明的有效性，需要构建图结构的电网多断面越限数据集，包含不同电网体系的电气特性参数、电网相关的拓扑结构、不同状态下各个节点的出力负载等信息。其中，电气特性参数为电网固有的一系列特征，用于潮流计算过程；电网拓扑结构中的母线对应于图结构中的节点，与母线相连的负载、机组的电压等信息视为节点的伴随属性，电网拓扑结构中联接两个母线的输电线或变压器对应于图结构中的边；由于真实电网运行中断面越限数据较少，这样会导致数据集的样本类比不平衡，因此利用电网仿真软件pandapower来构建数据集：首先根据电网的电气特性参数和拓扑结构建立电网仿真模型，然后基于典型日的数据随机修改该电网中不同发电机的有功出力，修改负载有功以维持发电-用电平衡，最后通过潮流计算筛选数据：将潮流计算收敛但断面越限的样本加入数据集；如此迭代多次，直到数据集中包含T个关键断面越限的电网样本，该数据集便可用于训练和验证电网多断面越限调控的强化学习智能体，在本发明中设置T＝2000；(图1)

2.计算电网节点嵌入矩阵；

一个电网图状态可以被定义为s＝(A，F)，其中A是包含n个节点的邻接矩阵，F是节点特征矩阵，然后采用图卷积神经网络在电网图网络节点之间进行信息传递：

其中

I是单位矩阵，/>

是对角度数矩阵，矩阵/>

的第i个对角元素为

表示矩阵/>

的第i行第j列元素，/>

其中N为电网节点的数量，d_x为每个节点上的特征向量长度，X_ρ用于生成多断面归因图；X_υ基于归因图进行加权池化，用以生成电网图的表示特征，在本发明中设置K＝2；(图2)

3.计算任务嵌入表示；

o(Φ)是该断面的独热编码，/>

为该任务的嵌入表示；进一步地，对于M个断面协同调控任务

其任务嵌入表示为：

在本发明中设置M＝5；(图2)

4.生成多断面归因图；

归因图能直观地反映断面任务与电网节点之间的内在联系，指导对发电机的调度行为，利用步骤2中生成的节点嵌入矩阵X_ρ和步骤3中生成的任务嵌入表示来生成电网多断面归因图

(图2)

5.提取电网图表示特征；

(图2)

6.构建发电机调度强化学习模型；

来估计特定状态/>

下动作a的价值，动作的价值定义为在当前电网状态下执行动作后所得到的期望奖励值，而奖励值具体由电网环境中所使用的奖赏函数决定；智能体每次选择奖励值最高的动作对电网进行调控。(图2)

实现本发明的基于图强化学习的电网多断面越限调控方法的系统，其特征在于，包括：电网多断面越限数据构建模块、电网节点嵌入矩阵计算模块、任务嵌入表示计算模块、多断面归因图生成模块、电网图表示特征提取模块、发电机调度强化学习模型构建模块，上述各模块依顺序分别包含本发明方法的步骤1～6的内容。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于图强化学习的电网多断面越限调控方法，包含如下步骤：

步骤1.构建电网多断面越限数据；

首先根据电网的电气特性参数和拓扑结构建立电网仿真模型，然后基于典型日的数据随机修改该电网中不同发电机的有功出力，修改负载有功以维持发电-用电平衡，最后通过潮流计算筛选数据：将潮流计算收敛但断面越限的样本加入数据集；如此迭代多次，直到数据集中包含T个关键断面越限的电网样本，该数据集便能用于训练和验证电网多断面越限调控的强化学习智能体；

步骤2.计算电网节点嵌入矩阵；

一个电网图状态可以被定义为s＝(A,F)，其中A是包含n个节点的邻接矩阵，F是节点特征矩阵，然后采用图卷积神经网络在电网图网络节点之间进行信息传递：