CN114358520A

CN114358520A - 一种电力系统经济调度决策的方法、系统、装置及介质

Info

Publication number: CN114358520A
Application number: CN202111535326.0A
Authority: CN
Inventors: 陈俊斌; 潘振宁; 余涛; 丁茂生; 杨慧彪; 王运
Original assignee: South China University of Technology SCUT; State Grid Ningxia Electric Power Co Ltd; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: South China University of Technology SCUT; State Grid Ningxia Electric Power Co Ltd; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-15
Anticipated expiration: 2041-12-15
Also published as: CN114358520B

Abstract

本发明公开了一种电力系统经济调度决策的方法、系统、装置及介质，其中方法包括：获取电力系统的第一运行状态数据，根据第一运行状态数据构建第一运行状态图；构建融入图卷积神经网络的图强化学习模型；根据奖励机制，采用第一运行状态图对图强化学习模型进行训练；获取电力系统的第二运行状态数据，根据第二运行状态数据构建第二运行状态图，将第二运行状态图输入训练后图强化学习模型，输出电力系统的经济调度决策。本发明基于图理论将电力系统运行状态转化为非欧式空间下的图数据，由于图卷积网络可以有效聚合运行状态图中节点数据，引入图神经网络与强化学习相结合，形成一种新的电力系统经济调度决策方案，可广泛应用于电力系统。

Description

一种电力系统经济调度决策的方法、系统、装置及介质

技术领域

本发明涉及电力系统，尤其涉及一种电力系统经济调度决策的方法、系统、装置及介质。

背景技术

随着新型电力系统建设的加快，电网面临着大规模分布式发电带来的随机性和不确定性。调度运行作为电力系统的核心业务，如何在保证系统安全运行的前提下，实现系统发电功率与负荷的平衡，迫切需要更好的算法来提高决策质量。如何处理海量分布式新能源接入的复杂电网的随机决策问题，是当前电力系统面临的难题。

现有的经济调度决策方法主要有两种，一种是数学解析法；由于多种多样的新能源有着不同的特性，一方面给系统建模带来挑战，另一方面使得经济调度的模型具有非凸非线性的典型特征，求解变得困难。且数学解析方法往往依赖于预测数据，对未来负荷预测的精度将直接影响求解的质量。另一种求解方式是基于遗传算法、粒子群算法等启发式算法；此类算法往往能求得较好的解，但难以求得全局最优，且由于算法依靠探索，求解时间长、效果不稳定。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种电力系统经济调度决策的方法、系统、装置及介质。

本发明所采用的技术方案是：

一种电力系统经济调度决策的方法，包括以下步骤：

获取电力系统的第一运行状态数据，根据所述第一运行状态数据构建第一运行状态图；

构建融入图卷积神经网络的图强化学习模型；

根据奖励机制，采用所述第一运行状态图对所述图强化学习模型进行训练；

获取电力系统的第二运行状态数据，根据所述第二运行状态数据构建第二运行状态图，将所述第二运行状态图输入训练后所述图强化学习模型，输出电力系统的经济调度决策；

其中，所述运行状态图中的节点为电力系统的节点，所述运行状态图中的边为电力系统的拓扑连接关系。

进一步，所述节点的节点特征包括该节点的有功负荷数据、无功负荷数据、所接发电机出力数据、风电数据或光伏数据。

进一步，所述图强化学习模型包括行动器模块和评判器模块，所述构建融入图卷积神经网络的图强化学习模型，包括：

构建图卷积神经网络，所述图卷积神经网络用于对节点的消息进行传递、转换和聚合，以实现节点特征的提取；

构建融合所述图卷积神经网络的行动器模块，所述行动器模块以运行状态图作为输入，输入的运行状态图经过所述图卷积神经网络进行特征提取后，再经过所述行动器模块的全连接层，获得动作策略；

构建融合所述图卷积神经网络的评判器模块，将经过所述图卷积神经网络进行特征提取的运行状态图和所述动作策略，输入所述评判器模块的全连接层，获得状态动作对的Q值。

进一步，所述节点特征的提取采用以下公式表示：

式中，

为第i个节点经过k次卷积后的节点特征；e_i,j为边的权重；Γ表示可导的，γ和φ表示可导的函数。

进一步，所述动作策略和Q值更新的方式如下：

其中，π*为最优动作策略；r(s_t,a_t)是状态动作对的即时奖励，s_t是时刻t的系统观测状态，a_t是时刻t的动作策略；

为期望算子；γ是折扣因子；V_t+1(s_t+1)表示状态S_t+1的值函数；H[·]表示动作集合的熵；α为温度系数的权重；Q(s_t,a_t)表示状态动作对(s_t,a_t)的Q值。

进一步，所述行动器模块和所述评判器模块的更新方式如下：

式中，J_Q(ω)表示行动器网络更新所需的的残差；π表示动作策略；ω为Q网络参数，

为目标Q网络参数，θ为政策网络参数，λ为软更新系数。

进一步，所述一种电力系统经济调度决策的方法，还包括以下步骤：

在应用所述图强化学习模型时，根据上一个时间段的运行状态图、模型输出的经济调度决策以及电力系统真实运行调度数据获得即时奖励，作为所述图强化学习模型的输入，对所述图强化学习模型进行训练。

本发明所采用的另一技术方案是：

一种电力系统经济调度决策的系统，包括：

数据获取模块，用于获取电力系统的第一运行状态数据，根据所述第一运行状态数据构建第一运行状态图；

模型构建模块，用于构建融入图卷积神经网络的图强化学习模型；

模型训练模块，用于根据奖励机制，采用所述第一运行状态图对所述图强化学习模型进行训练；

决策输出模块，用于获取电力系统的第二运行状态数据，根据所述第二运行状态数据构建第二运行状态图，将所述第二运行状态图输入训练后所述图强化学习模型，输出电力系统的经济调度决策；

本发明所采用的另一技术方案是：

一种电力系统经济调度决策的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明基于图理论将电力系统运行状态转化为非欧式空间下的图数据，由于图卷积网络可以有效聚合运行状态图中节点数据，引入图神经网络与强化学习相结合，形成一种新的电力系统经济调度决策方案。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种电力系统经济调度决策的方法的流程图；

图2是本发明实施例中行动器模块的构成示意图；

图3是本发明实施例中评判器模块的构成示意图；

图4是本发明实施例中图强化学习模型的运行机理示意图；

图5是本发明实施例中一种电力系统经济调度决策的方法的步骤流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1和图5所示，本实施例提供一种电力系统经济调度决策的方法，包括以下步骤：

S1、获取电力系统的第一运行状态数据，根据第一运行状态数据构建第一运行状态图。其中，运行状态图中的节点为电力系统的节点，运行状态图中的边为电力系统的拓扑连接关系。

在本实施例中，该第一运行状态数据为电力系统的历史运行状态数据，根据根据第一运行状态数据构建第一运行状态图的具体步骤包括：

1)运行状态图“节点”

以真实物理电网节点为图数据节点，其节点特征包括该节点有功负荷、无功负荷、所接发电机出力、风电、光伏等数据。即对一个n节点电力系统，若节点特征为f维，其节点特征为一个n*f的矩阵。

2)运行状态图“边”

以真实物理电网拓扑结构的连接关系作为图数据的“边”。即对一个n节点，b条线路的电力系统，其连接矩阵为一个n*n的矩阵，其中除了2b个数据为1，其他均为0。

S2、构建融入图卷积神经网络的图强化学习模型。图强化学习模型包括行动器模块和评判器模块。

本实施例中的图强化学习模型基于柔性行动器-评判器体系，引入图卷积神经网络进行改进。其中，构建图强化学习模型的具体步骤包括步骤S21-S23：

S21、构建图卷积神经网络。

对邻居节点消息的传递，转换和聚合实现特征的提取。该过程可以用以下式子表示：

式中：e_i,j为边的权重；

为第i个节点经过k次卷积后的节点特征；Γ表示可导的，与输入顺序无关的函数，例如求最大值，最小值或平均值；γ和φ表示可导的函数。

S22、构建融合图卷积神经网络的行动器模块。

图2展示了融合图卷积神经网络的行动器模块。该行动器模块以运行状态图为输入，经过图卷积神经网络，得到新的状态图，之后通过全连接层得到经济调度策略(也即动作策略)，即发电机出力。

S23、构建融合图卷积神经网络的评判器模块。

图3展示了融合图卷积神经网络的评判器模块。运行状态图通过图卷积神经网络处理之后，和行动器模块输出的动作策略一起进入全连接层，最后得到状态动作对的Q值，该值用于表征状态动作对的价值。

S3、根据奖励机制，采用第一运行状态图对图强化学习模型进行训练。

如图4所示，通过图强化学习算法给出行动策略，根据策略给出即时奖励的交互，以达到算法自适应环境变化。具体步骤如下：

1)动作策略和Q值更新的方式如下：

其中，π*为最优策略，r(s_t,a_t)是对状态动作对的即时奖励，γ是折扣因子，H[·]表示动作集合的熵；α为温度系数的权重，表示动作集的熵值探索。

2)行动器，评判器，目标评判器的更新如下：

式中，ω、

为Q网络参数和目标Q网络参数，θ为政策网络参数，λ为软更新系数。

其中，参数更新的时候，如果更新目标在不断变动，会造成更新困难，所以是用评判器计算Q值，通过引入目标评判器，采用Q值先更新目标评判器，然后再采用目标评判器的参数来更新评判器的参数，如公式(5)所示。

S4、获取电力系统的第二运行状态数据，根据第二运行状态数据构建第二运行状态图，将第二运行状态图输入训练后图强化学习模型，输出电力系统的经济调度决策；

在本实施例中，该第二运行状态数据为电力系统实时运行的数据。具体在应用所述图强化学习模型时，对当前电力系统运行状态进行步骤S1所述转化为运行状态图，将运行状态图作为图强化学习模型的输入，得到当前时间段的发电机组最优出力决策。到下一个时间段，以上一个时间段运行状态图、最优决策及系统真实运行得出的即时奖励为输入，对图强化学习模型进行更新训练，确保图强化学习模型始终保持学习状态。

以下结合具体实施例对上述方法进行详细解释说明，但本发明的实施方式不限于此。

本实施例采用IEEE39节点标准算例为说明对象，为说明具体使用方案，对其进行修改，接入2个光伏、2个风电及1个储能。

本实施例设计的系统运行状态图节点为39个节点，其中节点特征包括该节点的有功功率、无功功率、发电机出力、光伏、风电、储能、时刻标签、互联电网购电电价。因此其节点特征矩阵为39*8维矩阵。状态图“边”共有46条，因此其连接矩阵为39*39维矩阵，其中92个元素表达了互联关系，其他为0。

本实施例的图强化学习模型设计了7层神经网络作为行动器模块，其中网络的输入为电力系统当前运行状态转化之后的状态图，首先使用1个全连接层进行特征变换，其后使用2个图卷积层提取图数据的结构特征，最后使用4个全连接层实现图卷积神经网络到出力决策的非线性映射。

本实施例的图强化学习模型设计了7层神经网络作为评判器和目标评判器的模块。首先以系统当前运行状态转化之后的状态图经过1个全连接层进行特征变换，随后作为2层图卷积神经网络的输入。然后把提取后的图数据和动作策略一起输入全连接层，输出为对状态动作对的Q值。

下面具体说明基于图卷积神经网络实现配电变压器台区短期负荷预测的智慧算法的步骤：

第一步，建立运行状态图数据。根据系统给出的运行状态，建立运行状态图。运行状态图中节点为电力系统实际节点，节点特征为该节点有功负荷、无功负荷、所接发电机出力、风电、光伏等数据。图中边为电力系统实际拓扑连接关系。

第二步，构建融入图卷积神经网络的图强化学习模型。在具有自学习、自适应能力的强化学习模型基础上，引入图卷积神经网络，有效聚合信息之间的相关性。

其中，设计了7层神经网络作为行动器模块，其中网络的输入为系统当前运行状态转化之后的状态图，首先使用1个全连接层进行特征变换，其后使用2个图卷积层提取图数据的结构特征，最后使用4个全连接层实现图卷积神经网络到出力决策的非线性映射。

设计了7层神经网络作为评判器和目标评判器的模块。首先以系统当前运行状态转化之后的状态图经过1个全连接层进行特征变换，随后作为2层图卷积神经网络的输入。然后把提取后的图数据和动作策略一起输入全连接层，输出为对状态动作对的Q值。

第三步，图强化学习模型通过输入第一步构建的图数据，得到决策输出，电力系统根据当前状态及模型决策给出即时奖励。图强化学习模型通过得到的即时奖励对自身参数修正，多次交互达到训练目的。参数及模块输出如式(2)-(6)所示。

第四步，根据第二步对当前电力系统运行状态进行第一步所述转化为运行状态图，作为第二步所述训练完备的图强化学习模型的输入，得到当前时间段的发电机组最优出力决策。到下一个时间段，以上一个时间段运行状态图、最优决策及系统真实运行得出的即时奖励为输入，对图强化学习模型进行第三步中的训练，确保图强化学习模型始终保持学习状态。

综上所述，本实施例方法相对于现有技术，具有如下有益效果：

(1)本实施例提出一种基于图强化学习的新型电力系统经济调度决策方法。该算法基于图理论将电力系统运行状态转化为非欧式空间下的图数据。由于图卷积网络可以有效聚合运行状态图中节点数据由于电网拓扑带来的相关性，算法引入图神经网络与传统强化学习相结合，形成一种新的图强化学习方法。通过图强化学习算法给出行动策略，环境根据策略给出即时奖励的交互，达到算法自适应环境变化，仅根据当前状态而不依赖于预测数据即可做出最优决策的目的。

(2)本实施例可用于电力系统经济调度问题，其结果能够得出复杂运行工况下的最优决策，并实现在线持续学习。

(3)本实施例提出的决策方法收集每个节点与周围节点的关系，考虑节点间的拓扑关系，能够有效提高收敛速度。

(4)本实施例提出的决策方法仅根据系统当前运行状态，不需要依赖于对负荷或新能源的预测数据。

本实施例还提供一种电力系统经济调度决策的系统，包括：

本实施例的一种电力系统经济调度决策的系统，可执行本发明方法实施例所提供的一种电力系统经济调度决策的方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种电力系统经济调度决策的装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图5所示的方法。

本实施例的一种电力系统经济调度决策的装置，可执行本发明方法实施例所提供的一种电力系统经济调度决策的方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图5所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种电力系统经济调度决策的方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种电力系统经济调度决策的方法，其特征在于，包括以下步骤：

构建融入图卷积神经网络的图强化学习模型；

获取电力系统的第二运行状态数据，根据所述第二运行状态数据构建第二运行状态图，将所述第二运行状态图输入训练后所述图强化学习模型，输出电力系统的经济调度决策；其中，所述运行状态图中的节点为电力系统的节点，所述运行状态图中的边为电力系统的拓扑连接关系。

2.根据权利要求1所述的一种电力系统经济调度决策的方法，其特征在于，所述节点的节点特征包括该节点的有功负荷数据、无功负荷数据、所接发电机出力数据、风电数据或光伏数据。

3.根据权利要求1所述的一种电力系统经济调度决策的方法，其特征在于，所述图强化学习模型包括行动器模块和评判器模块，所述构建融入图卷积神经网络的图强化学习模型，包括：

4.根据权利要求3所述的一种电力系统经济调度决策的方法，其特征在于，所述节点特征的提取采用以下公式表示：

式中，

5.根据权利要求3所述的一种电力系统经济调度决策的方法，其特征在于，所述动作策略和Q值更新的方式如下：

γE{V_t+1(s_t+1)|s_t,a_t+αH[π(·|s_t)]}

6.根据权利要求3所述的一种电力系统经济调度决策的方法，其特征在于，所述行动器模块和所述评判器模块的更新方式如下：

为目标Q网络参数，θ为政策网络参数，λ为软更新系数。

7.根据权利要求1所述的一种电力系统经济调度决策的方法，其特征在于，所述一种电力系统经济调度决策的方法，还包括以下步骤：

8.一种电力系统经济调度决策的系统，其特征在于，包括：

9.一种电力系统经济调度决策的装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。