CN115409431B

CN115409431B - 一种基于神经网络的分布式电力资源调度方法

Info

Publication number: CN115409431B
Application number: CN202211350863.2A
Authority: CN
Inventors: 罗弦; 廖荣涛; 董亮; 刘芬; 杨荣浩; 李想; 姚渭箐; 张岱; 郭岳; 王逸兮; 李磊; 王敬靖; 胡欢君; 龙霏; 袁翔宇; 王博涛; 叶宇轩
Original assignee: Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-24
Anticipated expiration: 2042-10-31
Also published as: CN115409431A

Abstract

本申请涉及一种基于神经网络的分布式电力资源调度方法，包括以下具体步骤：搭建基于多小区电力网络的分布式通信架构；根据上述搭建的分布式电力网络通信架构，设计相应的消息传递图神经网络算法并进行训练；设计LSTM神经网络用于处理单个节点的图嵌入输出，实现对小区历史信息的有选择地保留与更新，使智能体具有记忆性，从而优化其决策选择；训练动作价值函数Q用于智能体进行资源的调度，智能体选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。本申请可以更有效地提升电力网络的整体电力资源利用效率，面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。

Description

一种基于神经网络的分布式电力资源调度方法

技术领域

本申请属于电力技术领域，尤其涉及智能电网技术，提出一种基于神经网络的分布式电力资源调度方法。

背景技术

进入21世纪后，人类对能源的需求越来越大，用户对电力网络的服务质量以及可靠性、稳定性要求也不断加大。在这种越来越严峻的大环境下，智能电力网络系统应运而生，智能电网系统将能源开发、转、输、配、供、售电集为一体，通过发达的通信网络将其中的发电、蓄电、用电等设备紧密联系，通过智能控制来优化整个系统资源。智能电网需要一个分布式信息共享结构，其中包含很多实时信息与历史信息，比如配电方面的实时电价数据、用户方面的实时负载信息、监控到的配电和用电线路的状态信息等，随着大量新设备、新信息流的不断接入，智能电网面临的挑战不断增大。当出现一些突发情况时，部分小区会出现电力资源不足的情况，这需要调度电力资源充裕的临近小区的资源，以实现系统整体资源利用率的提高，用户端用电需求满足率的提升。

为了协调多小区之间的资源调度问题，多智能体强化学习被提出。在多智能体强化学习中，每一个小区被视为单智能体，其电力资源调度可被建模成马尔科夫决策，智能体根据环境信息独立做出决策，再由环境的反馈不断修正自身的决策函数，最终实现系统长期效益最大化。设置一个中央控制器统一收集各个智能体上传的参数与数据可以有效地实现多小区间的电力资源有效调度。然而，现实场景中的环境信息十分复杂，单个智能体想要获取全局信息需要巨大的通信代价，依据全局信息做决策也需要较高的计算成本。中央管理器统一管理多个小区引起海量数据传输与运营成本，这不符合目前的“低碳”“绿色”号召。电力网络中的图拓扑结构信息不能被很好地利用，导致了大量的信息冗余。

发明内容

本申请实施例的目的在于提供一种基于神经网络的分布式电力资源调度方法，可以更有效地提升电力网络的整体电力资源利用效率，面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。

为实现上述目的，本申请提供如下技术方案：

本申请实施例提供一种基于神经网络的分布式电力资源调度方法，包括以下具体步骤：

步骤1：搭建基于多小区电力网络的分布式通信架构，所述网络架构包括：N个独立用电小区，每个小区与邻居小区建立通信连接，N个小区共享用电商提供的有限电力资源；

步骤2：根据上述搭建的分布式电力网络通信架构，设计相应的消息传递图神经网络算法并进行训练，使单个小区可以聚合来自邻居小区的信息，经过多层消息聚合，实现单个小区决策视野的全局化；

步骤3：基于步骤2中神经网络的聚合结果，设计LSTM神经网络用于处理单个节点的图嵌入输出，实现对小区历史信息的有选择地保留与更新，使智能体具有记忆性，从而优化其决策选择；

步骤4：将步骤3的处理结果作为智能体观测到的状态，训练动作价值函数Q用于智能体进行资源的调度，智能体选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。

所述步骤2具体如下：

步骤2.1：由于分布式电力网络是一个图结构，为了捕捉网络的图拓扑信息并扩大单个节点的决策视野，首先将多小区电力网络抽象成图结构

，其中

表示节点的结合，在网络中表示的是小区；

表示节点对相关的边集合，

表示x ，y两个小区之间建立通信关系；图集合还包含节点特征集合

，

表示小区

电力负载的实时信息，

为

中的节点；

步骤2.2：利用注意力机制在图神经网络做信息聚合的操作，将输入特征的维度记作

，令输出的节点特征向量维度为

首先根据节点的输入特征进行自-注意力处理，得到小区

与小区

之间的权重系数

：

其中，fc是一个

的映射，

是一个所有节点之间共享的权值矩阵，小区也即是节点，

是

节点的电力负载信息，

是

节点的电力负载信息，

是节点

所有的邻居节点，为了保留图结构信息，注意力只被分配到邻居节点上，记节点

的邻居节点集为

，那么对于节点

的任意邻居节点

有：

fc使用单层的前馈神经网络实现，总的计算过程为：

其中，

为前馈神经网络fc的参数，LeakyReLU为前馈神经网络的激活参数，利用计算得到的权重

，得到节点

在消息聚合后的输出节点特征：

步骤2.3：为了提高模型的拟合能力，在注意力机制上引入了多头-注意力，即同时使用多个

计算权重系数

，将 K头自-注意力计算得到的节点输出特征取平均得到最终输出：

。

步骤3具体如下：

步骤3.1：t时刻的LSTM层根据当前时刻的输入特征

与前一时刻的隐藏层状态

和细胞状态

输出当前时刻的隐藏层状态

，细胞状态

与输出特征

，首先利用LSTM的当前输入

与上一时刻的隐藏层状态

拼接训练得到四个状态：

其中，

是由拼接向量与权重矩阵乘积通过sigmoid激活函数转换得到的0~1之间的值，作为一种门控状态来控制当前时刻不同信息的选择， z是将结果通过一个tanh激活函数转换成-1~1之间的值；

步骤3.2：基于步骤3.1计算得到的四个z值与上一时刻的细胞状态

计算得到当前时刻的细胞状态、隐藏层状态与输出：

其中

表示操作矩阵中对应的元素相乘，

LSTM内部结构主要由三个阶段：

遗忘阶段，选择

作为门控，这个阶段主要是对上一时刻节点传进来的状态

进行选择性的忘记，忽略不重要的信息，记忆重要性息，

选择记忆阶段，选择

作为门控，这个阶段将输入有选择性地进行级意，主要是对输入

进行选择记忆，将对节点本身影响较大的信息保留下来，将与节点本身无关的信息忽略，

输出阶段，这个阶段决定哪些将会被当成当前的状态输出，选择

作为门控控制，并且还对当前时刻的

进行了放缩。

所述步骤4具体如下：

步骤4.1：采取分布式训练与决策的多智能体强化学习架构，为所有智能体训练一个状态动作价值函数

，智能体基于动作价值函数训练属于自己的决策函数

，首先利用马尔可夫决策将问题定义为

，式中

是参与决策的代理集，

是环境观测值集，

是可能的动作集，

是状态转移概率函数，

是网络的奖励函数，代理集包含所有的用电小区，环境观测值包含各小区的实时用电负载情况，动作集包含小区之间电力调度的动作，

根据目标函数变动；

步骤4.2：由于决策函数的训练依赖于价值函数，因此首先需要训练价值函数Q，在强化学习中，期望奖励一般定义为状态动作价值函数，由下式表示：

其中

是折扣因子，

的方程满足贝尔曼方程：

其中

与

分别为下一时刻的状态与动作。

利用一个神经网络

来近似状态动作价值函数

，其中

为神经网络的参数，利用最小化损失函数的方法来训练Q神经网络：

由于

满足贝尔曼方程，易得

，

利用梯度下降法最小化损失函数，更新Q神经网络的初始参数

：

步骤4.3：基于4.2提出的Q神经网络，同样提出一个神经网络

用于拟合决策函数

，其中w为神经网络的参数，利用策略梯度的算法训练神经网

，

状态价值函数用于描述状态s的好坏，可以由下式表示：

对状态价值函数求导可得:

利用随机策略梯度算法更新策略函数，首先根据策略网络随机采样一个动作

，将下一时刻的网络参数

更新为：

其中

为学习率，

步骤4.4：训练好的网络参数定期更新，或在电力网络发生较大变化时重新训练并更新网络参数。

与现有技术相比，本申请的有益效果是：本申请针对分布式电力网络提出一种基于神经网络的可以高效调度电力资源的技术。针对当前资源分配技术未充分利用电力网络图拓扑信息的缺点，我们提出利用基于注意力机制图神经网络来捕捉图拓扑信息，并扩大单个节点的决策视野；针对单小区对环境部分可观测的特性，我们采用LSTM网络层来学习小区过去时刻的信息，使输出特征具有时间记忆性；针对分布式多小区的电网结构，我们提出基于Actor-Critic的多智能体强化学习来训练最优决策，使各小区可以基于自身的实时用电负载情况做出有利于全局的资源调度决策。与现有的资源分配方法相比，本申请提出的基于神经网络的分布式电力资源调度技术可以更有效地提升电力网络的整体电力资源利用效率，面对突发情况可以更高效地协调各小区间的电力资源以满足不同小区的用电需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例的方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

请参见图1，本申请提供了一种基于神经网络的分布式电力资源调度方法，包括以下步骤：

步骤3：基于步骤2中图神经网络的聚合结果，设计高效的LSTM神经网络用于处理单个节点的图嵌入输出，实现对小区历史信息的有选择地保留与更新，使智能体具有记忆性，从而优化其决策选择。

步骤4：将步骤3的处理结果作为智能体观测到的状态，训练动作价值函数Q用于智能体进行资源的调度，智能体可以选择向邻居节点请求资源或向用电需求紧张的邻居节点输送资源。

作为优选，所述步骤2具体如下。

步骤2.1：由于分布式电力网络是一个图结构，为了捕捉网络的图拓扑信息并扩大单个节点的决策视野，我们首先将多小区电力网络抽象成图结构

，其中

表示节点的结合，在网络中表示的是小区；

表示节点对相关的边集合，

表示x,y两个小区之间建立通信关系，反之则无；由于在本系统中，节点的节点特征对实验其至关重要的作用，因此图集合还包含节点特征集合

，

包含小区电力负载的实时信息。

步骤2.2：我们利用注意力机制在图神经网络做信息聚合的操作，基具有计算速度快，不同节点特性化处理的优点。将输入特征的维度记作

，令输出的节点特征向量维度为

首先根据节点的输入特征进行自-注意力处理：

其中，fc是一个

的映射，

是一个所有节点之间共享的权值矩阵，小区也即是节点，

是

节点的电力负载信息，

是

节点的电力负载信息，

是节点

的邻居节点集为

，那么对于节点

的任意邻居节点

有：

fc使用单层的前馈神经网络实现，总的计算过程为：

其中，

，得到节点

在消息聚合后的输出节点特征：

计算权重系数

。

注意力机制根据节点自身的节点特征与邻居的节点特征给邻居节点分配不同的权重，有利于节点选择性地聚合较为重要的信息，训练效果更好。

步骤2.3：为了提高模型的拟合能力，本系统在注意力机制上引入了多头-注意力，即同时使用多个

计算权重系数

。由于权重矩阵是随机生成的，不同权重矩阵侧重的方向不一样，计算得到的权重系数也不同。多头注意力机制的引入可以一定程度抵消权重矩阵随机初始化带来的负面影响，并且可以使节点的信息聚合更有效，模型性能的提升。本文将K头自注意力计算得到的节点输出特征取平均得到最终输出：

作为优选，所述步骤3具体如下。

步骤3.1：长短期记忆（LSTM）使一种特殊的循环神经网络结构，在长序列中有更好的表现。t时刻的LSTM层根据当前时刻的输入特征

与前一时刻的隐藏层状态

和细胞状态

输出当前时刻的隐藏层状态

，细胞状态

与输出特征

，首先利用LSTM的当前输入

与上一时刻的隐藏层状态

拼接训练得到四个状态：

其中，

是由拼接向量与权重矩阵乘积通过sigmoid激活函数转换得到的0~1之间的值，作为一种门控状态来控制当前时刻不同信息的选择， z是将结果通过一个tanh激活函数转换成-1~1之间的值。

计算得到当前时刻的细胞状态、隐藏层状态与输出：

其中

表示操作矩阵中对应的元素相乘，

LSTM内部结构主要由三个阶段：

遗忘阶段，选择

作为门控，这个阶段主要是对上一时刻节点传进来的状态

进行选择性的忘记，忽略不重要的信息，记忆重要性息，

选择记忆阶段，选择

作为门控控制，并且还对当前时刻的

进行了放缩。

与普通的循环神经网络类似，LSTM最终输出

往往也是通过

变换得到。LSTM结构引入了三个门控参数，用来对历史时刻信息有选择地进行遗忘与记忆，这对于处理时序任务有较大的优势。

在本系统中，小区将当前时刻的电力负载情况作为当前时刻的输入，经过图嵌入层与LSTM层可以使小区的决策视野全局化，有记忆性，为后续的多智能体强化学习提供了良好的输入状态基础。

作为优选，所述步骤4具体如下。

步骤4.1：多智能体强化学习有别于监督学习与无监督学习，其实现原理是智能体通过与环境的交互训练得到可以最大化长期收益的决策。Actor-Critic的算法结合了基于价值的算法与基于策略的算法的优势，表现性能较好，是本技术算法的改进基础。在本系统中，不同智能体的目标函数相同，是最大化电力网络的总体资源利用率与用户用电需求满足率，且智能体均依赖于自身的观测值独立做出决策，因此我们采取分布式训练与决策的多智能体强化学习架构，为所有智能体训练一个状态动作价值函数（批评者Critic）

，智能体基于动作价值函数训练属于自己的决策函数（执行者Actor）

。首先利用马尔可夫决策将问题定义为

，式中

是参与决策的代理集，

是环境观测值集，

是可能的动作集，

是状态转移概率函数，

根据目标函数变动。

步骤4.2：由于决策函数的训练依赖于价值函数，因此首先需要训练价值函数Q。在强化学习中，期望奖励一般定义为状态动作价值函数，由下式表示：

其中

是折扣因子，

的方程满足贝尔曼方程：

其中

与

分别为下一时刻的状态与动作。

利用一个神经网络

来近似状态动作价值函数

，其中

由于

满足贝尔曼方程，易得

，

利用梯度下降法最小化损失函数，更新Q神经网络的初始参数

：

步骤4.3：基于4.2提出的Q神经网络，同样提出一个神经网络

用于拟合决策函数

，其中w为神经网络的参数，利用策略梯度的算法训练神经网

，

状态价值函数用于描述状态s的好坏，可以由下式表示：

对状态价值函数求导可得:

，将下一时刻的网络参数

更新为：

其中

为学习率，

步骤4.4：为了节约计算成本，训练好的网络参数定期更新，或在电力网络发生较大变化时重新训练并更新网络参数。每个t时刻小区收集到当前的电力负载情况并上传服务器，首先通过图神经网络对观测值进行处理，输出结果输入到LSTM网络，在多门控参数的控制下输出具有记忆性的变量作为多智能体强化学习的状态输入。策略网络根据状态输入，选择可以最大化Q值的动作并执行，环境将这一动作带来的奖励r反馈给Q神经网络并用于更新参数。当模型收敛后可以根据小区的过去电力负载情况合理分配电力资源，当出现突发情况时可以高效地在小区间调度电力资源，以实现电力网络总体资源利用率和用户用电需求满足率的提高。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。