CN114386650A

CN114386650A - 电网调度系统的控制方法、装置及计算机设备

Info

Publication number: CN114386650A
Application number: CN202111253157.1A
Authority: CN
Inventors: 梁昊宇; 王健丰; 李瑜; 李忠键
Original assignee: Wuzhou Bureau Csg Ehv Power Transimission Co
Current assignee: Wuzhou Bureau Csg Ehv Power Transimission Co
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-04-22

Abstract

本申请涉及一种电网调度系统的控制方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：根据电网观测数据，确定电网在当前周期的状态；根据电网在当前周期的状态确定当前周期的期望奖励值；依据当前周期的期望奖励值调用策略集中的其中一策略；执行与所调用的策略所对应的调度动作。采用本方法能够提高电网调度的效率和实时性。

Description

电网调度系统的控制方法、装置及计算机设备

技术领域

本申请涉及电网调度技术领域，特别是涉及一种电网调度系统的控制方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着风能、太阳能、潮汐能、以及地热能等可再生能源的出现和渗透率的不断提高，电网将要解决越来越多的艰巨的问题。现在的电网的调度控制的技术和手段大部分集中在发电侧和负荷侧，但是对于作为电能的传输途径与载体的电网，其系统级优化控制在探究和实际生活的应用之中非常之少。现有的电网调度控制方法很难保证电网调度控制的准确度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高电网调度控制的准确度的电网调度系统的控制方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种电网调度系统的控制方法。所述方法包括：

根据电网观测数据，确定电网在当前周期的状态；所述状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态；

根据电网在当前周期的状态确定当前周期的期望奖励值；

依据所述当前周期的期望奖励值调用策略集中的其中一策略；所述策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种；

执行与所调用的策略所对应的调度动作；所述调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

在其中一个实施例中，所述电网观测数据为电网调度系统检测得到的电网运行状态数据，至少包括电力设备的有功功率、无功功率和电压值，负载的有功功率、无功功率和电压值，以及电力线路的有功功率、无功功率和电压值。

在其中一个实施例中，所述根据电网在当前周期的状态确定当前周期的期望奖励值，包括：

构建值函数，所述值函数为状态值函数与作用值函数之积；

基于所述最优值函数，根据所述当前周期的状态，确定最大期望奖励值；

将所述最大期望奖励值作为当前周期的期望奖励值。

在其中一个实施例中，所述根据所述当前周期的状态，确定最大期望奖励值，包括：

将动作集中各调度动作分别与所述当前周期的状态构成一组状态动作对；

将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值；

将多个期望奖励值中的最大值作为最大期望奖励值。

在其中一个实施例中，所述方法还包括：根据所执行的调度动作，得到与所述调度动作对应的下一周期的状态；

基于所述调度动作和下一周期对应的状态，更新所述值函数中的作用参数；所述作用参数表征不同的策略所分别对应的奖励值权重。

在其中一个实施例中，所述方法还包括：

根据电网在上一周期的状态，对电网进行第一状态更新，得到第一更新状态；

基于在电网中输入的注入量和所述第一更新状态，对电网进行第二状态更新，得到第二更新状态；所述注入量至少包括发电机的有功功率、无功功率、以及电压值，和负荷的有功功率、无功功率、以及电压值；

根据所述第二更新状态和观测函数，确定当前周期的电网观测数据；其中，所述观测函数用于表明电网的状态与电网观测数据之间的关联关系。

第二方面，本申请还提供了一种电网调度系统的控制装置。所述装置包括：

确定模块，用于根据电网观测数据，确定电网在当前周期的状态；所述状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态；

计算模块，用于根据电网在当前周期的状态确定当前周期的期望奖励值；

调用模块，用于依据所述当前周期的期望奖励值调用策略集中的其中一策略；所述策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种；

执行模块，用于执行与所调用的策略所对应的调度动作；所述调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据电网在当前周期的状态确定当前周期的期望奖励值；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据电网在当前周期的状态确定当前周期的期望奖励值；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

根据电网在当前周期的状态确定当前周期的期望奖励值；

上述电网调度系统的控制方法、装置、计算机设备、存储介质和计算机程序产品，通过观测得到的电网观测数据确定电网的状态，并基于该状态计算不同可能动作的期望奖励值，据此选择一策略并执行相应的调度动作，以使得所执行的调度动作所带来的奖励值最大，由此保证调度系统在每个周期的调度动作都是最优的，并且相较于传统的强化学习累计迭代的方式，显著地提高了效率和调度系统进行调度的实时性，进而加强电力系统应对危险情况的处理能力。

附图说明

图1为一个实施例中调度系统与电网的交互原理示意图；

图2为一个实施例中电网调度系统的控制方法的流程示意图；

图3为一个实施例中调度系统确定当前周期的期望奖励值的步骤的流程示意图；

图4为一个实施例中调度系统确定最大期望奖励值的步骤的流程示意图；

图5为一个实施例中调度系统更新值函数中作用参数的步骤的流程示意图；

图6为一个实施例中调度系统确定电网观测数据的步骤的流程示意图；

图7A为一个实施例中电网拓扑结构的示意图；

图7B为另一个实施例中电网拓扑结构的示意图；

图8为一个实施例中电网调度系统的控制装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

目前的电网的调度控制的技术和手段大部分集中在发电侧和负荷侧，但是对于作为电能的传输途径与载体的电网拓扑结构的系统级优化控制在探究和实际生活的应用之中非常之少。以往的传统的优化的计算方法极难求解出程序的实时性，也很难保证程序的精度。

有鉴于此，本申请实施例中提供了一种电网调度系统的控制方法、装置、计算机设备、存储介质和计算机程序产品，结合深度强化学习和模仿学习实现电网中调度系统的调度控制，加强电力系统应对危险情况的处理能力。

近年来，深度学习(Deep Learning，DL)在电力系统问题中得到了广泛的应用。深度学习是机器学习的一个分支，可以简单理解为多隐含层的神经网络，通过学习一种深层非线性网络结构来实现对任意复杂函数的逼近，表征数据的分布式表示。与传统机器学习方法相比，深度学习重点突出网络的深层结构和特征的自动学习，通常具有5层、10层、甚至上百层，更深的层次使其具有更强地从大量样本中自动提取数据特征的能力。随着研究的深入和各种实际应用需求的驱动，更加复杂的混合网络结构模型不断被提出，如将深度学习与传统强化学习结合形成的深度强化学习(Deep Reinforcement Learning，DRL)。

强化学习(Reinforcement Learning，RL)处于监督学习和无监督学习二者之间，因为学习者采取行为之后不会被告知哪一个行为是最优的，而是环境给予该行为一个反馈信息，这种反馈信息可以用于指导接下来的行为。应用在电网场景中时，调度系统通过与电网环境反复交互，最终学习到一种较优的策略，通过执行该策略来执行相应的调度动作，以获得最大回报(奖励值)。如图1所示，调度系统采取动作A后，电网反馈给调度系统奖励R与状态S，该奖励R与状态S用于指导下一周期的动作A，由此迭代反复。

其中，强化学习通常可以由马尔可夫决策过程来描述。马尔可夫决策过程可以由元组＜S,A,P,R,γ＞描述，其中，S是一个有限状态集，A是一个有限动作集，P是一个状态转移概率矩阵，S`是一个迭代的有限状态集，R是一个奖励函数，γ是一个折扣因子，通常0≤γ≤1。

其中，该状态转移概率矩阵用于表示从状态s到状态s`的概率，可以由如下公式表示：

其中，t表示周期，单位例如为秒、分、或时等。s_t表示周期t时的状态。

其中，奖励函数可以由如下公式表示：

其中，α_t为周期t时的作用参数。

由此，在给定状态s时相应的策略Π(α|s)可以由如下公式表示：

Π(α|s)＝P[α_t＝α|s_t＝s]

考虑到在实际的电网中，调度系统无法获知整个电网的实际状态数据，因此采用部分可观测马尔科夫决策过程来描述所采用的强化学习。形式上，部分可观测马尔科夫决策过程可以由数组＜S,A,O,P,R,Z,γ＞表示，其中，O是一组连续的观测数据，Z是观测函数，其余数组元素与上述类似，此处不再赘述。

其中，观测函数用于表明电网的状态s_t与电网观测数据o_t之间的关联关系。例如，周期t时的状态s与对状态s的观测数据(即o_t)之间的关系可以由如下公式表示：

o_t＝Z(s_t)

强化学习的主要瓶颈在于电网环境提供的奖励具有延时性，使得电网调度系统难以推断每一步的最优决策，因此在很多情况下，电网调度系统无法高效地学习到最优策略。同时，调度系统在应用时很容易陷入局部最优的情况，然而对于电网而言，很可能造成电气事故。

因此，为了提高效率并提高准确性，本申请实施例中对传统的马尔科夫决策过程做出了改进，通过模仿学习可为每一步的决策提供直接的参考，从而能够缓解奖赏延时性问题。具体而言，通过将强化学习与模拟学习相结合，在每个周期t时选择最大奖励值相应的策略并执行相应的动作，从而提高效率，并且保证调度系统在每个周期t的调度动作都是最优的。

其中，状态值函数v_Π(s)和作用值函数q_Π(s,α)可以由如下公式表示：

v_Π(s)＝E[G_t|s_t＝s]

q_Π(s,α)＝E[G_t|s_t＝s,α_t＝α]

其中，G_t表示从周期t开始的累计奖励值，迭代k次以后的G_t可以由如下公式表示：

基于上述改进，在一个实施例中，如图2所示，提供了一种电网调度系统的控制方法，本实施例以该方法应用于电网调度系统进行举例说明，可以理解的是，该方法也可以应用于电网中的其他控制设备/系统，例如发电控制系统等。本实施例中，该方法包括以下步骤：

步骤S202，根据电网观测数据，确定电网在当前周期的状态；状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态。

其中，电网观测数据为电网调度系统检测得到的电网运行状态数据。在一个实施例中，电网观测数据包括但不限于电力设备的有功功率、无功功率和电压值，负载的有功功率、无功功率和电压值，以及电力线路的有功功率、无功功率和电压值等中的一种或多种。相应的，电网的状态指的是电网运行状态。在一个实施例中，电网的状态包括但不限于电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态等中的一种或多种。当前周期的电网的状态为电网调度系统执行上一周期所确定的调度动作而产生的。

其中，调度动作指的是调度系统对电网拓扑结构进行的更改操作，包括但不限于断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑等中的一种或多种。

例如，在电网中，周期t时的线路服务状态

可以由如下公式表示：

其中，先前观测到的线路服务状态

和线路服务状态的关系如下：

具体地，电网调度系统对电网的运行状态进行检测，获得电网观测数据。该电网观测数据描述了当前周期电网的部分运行状态。根据所获得的电网观测数据，电网调度系统可以估计电网在当前周期的状态。

步骤S204，根据电网在当前周期的状态确定当前周期的期望奖励值。

电网调度系统通过值函数来评估每一种选择可能获得的奖励值，从而执行某种选择，以获得尽可能多的回报。换言之，电网调度系统期望奖励值的大小来衡量是否执行某个动作。

其中，期望奖励值为四个子奖励之和，该子奖励包括线路使用子奖励、削减负荷子奖励、动作成本子奖励、以及参考电网距离子奖励。

其中，线路使用子奖励用于约束电网调度系统执行的调度动作应避免线路溢出的情况。电网运行的一个主要方面是输送电力，使每一次消耗都具有预期的有功和无功值。如果一个负荷被削减，这就意味着一部分人在一定时间内无法用电。由此涉及了削减负荷子奖励，该削减负荷子奖励用于约束电网调度系统执行的调度动作不应使得负荷被削减。动作成本子奖励用于约束电网调度系统执行的调度动作为线路停用或改变拓扑结构(线路互连模式)的成本，通常，该子奖励的值等于一次调度动作的成本乘以断开连接的次数加上重新连接的次数和拓扑变化的次数。为了避免潜在的电气事故，并使得现实中的电网拓扑结构与理想状态下的参考电网拓扑结构相近，参考电网距离子奖励通过求和局部拓扑变化的数量来计算电网到参考电网的距离。

具体地，电网调度系统根据所获得的当前周期的状态，确定所有可能的下一步的动作的奖励值，并从其中确定当前周期的期望奖励值，以此来确定下一步执行的调度动作。

在一些实施例中，如图3所示，电网调度系统根据电网在当前周期的状态确定当前周期的期望奖励值的步骤包括：

步骤S302，构建最优值函数；其中，最优值函数为最优状态值函数与最优作用值函数之积。

步骤S304，基于最优值函数，根据当前周期的状态，确定最大期望奖励值。

具体地，电网调度系统确定值函数，用于判断某一状态下的可能的奖励值。基于改进的部分可观测马尔科夫决策模型，本申请中提出了作用参数，用于衡量当采取不同的策略(对应有不同的动作)时所分别对应的奖励值权重。在初始时，该作用参数用于表示各个策略所对应的初始奖励值。

同时，由于结合了模拟学习，在每一个周期时，电网调度系统会倾向于选择最大奖励值对应的策略并执行相应的动作。因此，进一步地，调度系统可以以最优值函数来计算最大期望奖励值。将最优状态值函数v*(s)和最优作用值函数q*(s，a)分别定义为状态值函数和作用值函数的策略上的最大值，即：

其中，作用值函数q*(s，a)越大越好，当最优时值为1。

电网调度系统根据当前周期的状态，利用最优值函数计算得到最大期望奖励值，该最大期望奖励值即为当前周期的期望奖励值。电网调度系统根据当前周期的期望奖励值，即可以此确定相应所采取的策略。

上述实施例中，通过最优值函数确定最大期望奖励值，并由此确定相对应的策略和相应的调度动作，将强化学习与模拟学习相结合，使得调度系统在每个周期的调度动作都是最优的，相较于传统的强化学习的缓慢迭代过程，提高了调度效率，并提高了调度系统对突变事故的决策实时性。

在一些实施例中，如图4所示，电网调度系统根据当前周期的状态，确定最大期望奖励值的步骤包括：

步骤S402，将动作集中各调度动作分别与当前周期的状态构成一组状态动作对。

步骤S404，将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值。

步骤S406，将多个期望奖励值中的最大值作为最大期望奖励值。

具体地，在当前周期的状态下，电网调度系统可以确定可以采取的多个调度动作，该多个调度动作构成动作集。例如，对于状态s，电网调度系统可以执行调度动作a1：断开线路、调度动作a2：重连已断开的线路、以及调度动作a3：新增线路等，该动作集即为{a1,a2,a3}。电网调度系统将动作集中各调度动作分别与当前周期的状态构成一组状态动作对，即{s,a1}、{s,a2}、{s,a3}。电网调度系统将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值r1、r2、r3。在该多个期望奖励值中，选择其中的最大值作为最大期望奖励值。

步骤S206，依据当前周期的期望奖励值调用策略集中的其中一策略；策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种。

其中，各个策略构成策略集，策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种。其中，无操作策略指的是电网调度系统不采取任何动作。随机线路断开策略指的是由电网调度系统随机选择一个分支断开并重新连接先前断开的线路。随机节点分割策略指的是电网调度系统在每个周期选择一个变电站，并随机改变其局部拓扑结构。贪心线路断开策略(又称ε-greedy线路断开策略)指的是在每个周期，电网调度系统模拟每一个单线路断开，并执行对应于最大期望奖励值的调度动作。

电网调度系统通过采用不同的策略来执行不同的调度动作。当确定了最大期望奖励值后，电网调度系统采用相应的策略，以执行相应的调度动作，从而来获得该最大期望奖励值。具体地，电网调度系统根据当前周期的期望奖励值，从策略集中选择与该期望奖励值对应的策略，并进行调用。

步骤S208，执行与所调用的策略所对应的调度动作；调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

具体地，电网调度系统在确定所调用的策略后，履行该策略，从而执行与该策略对应的调度动作，以获得最大期望奖励值。

上述电网调度系统的控制方法中，通过观测得到的电网观测数据确定电网的状态，并基于该状态计算不同可能动作的期望奖励值，据此选择一策略并执行相应的调度动作，以使得所执行的调度动作所带来的奖励值最大，由此保证调度系统在每个周期的调度动作都是最优的，并且相较于传统的强化学习累计迭代的方式，显著地提高了效率和调度系统进行调度的实时性，进而加强电力系统应对危险情况的处理能力。

在一些实施例中，如图5所示，方法还包括：

步骤S502，根据所执行的调度动作，得到与调度动作对应的下一周期的状态；

步骤S504，基于调度动作和下一周期对应的状态，更新值函数中的作用参数；作用参数表征不同的策略所分别对应的奖励值权重。

电网调度系统在执行了与所调用的策略所对应的调度动作后，电网也相应进行了状态的改变，此时调度系统获得了相应的下一周期的状态。在每个周期，电网调度系统在执行了某一调度动作后，相应的状态、后续可供选择的动作也随即发生了改变，此时需要更新值函数，以便于准确地计算每个周期的期望奖励值。

具体地，调度系统所执行的调度动作，以及在执行该调度动作后电网在下一周期的状态，更新值函数中的作用参数，以改变各个策略(对应于各个新的动作)分别对应的奖励值所占的权重。

上述实施例中，通过更新值函数中的作用参数，使得电网调度系统在每个周期执行调度动作后，电网因此更新的状态后续的新的动作的奖励值相应改变，使得电网调度系统的调度更加准确。

在实际的电网中，各个电力设备、电力线路的状态可能随时发生改变。例如，可能在某个周期中途增设了一条电力线路。将电网中的状态改变，称为电网的注入。相应的，在调度系统的计算中，电网中的注入量包括但不限于发电机的有功功率、无功功率、以及电压值，负荷的有功功率、无功功率、以及电压值等中的一种或多种。在电网输入了注入量的情况下，在一些实施例中，如图5所示，方法还包括：

步骤S602，根据电网在上一周期的状态，对电网进行第一状态更新，得到第一更新状态。

步骤S604，基于在电网中输入的注入量和第一更新状态，对电网进行第二状态更新，得到第二更新状态；注入量至少包括发电机的有功功率、无功功率、以及电压值，和负荷的有功功率、无功功率、以及电压值。

步骤S606，根据第二更新状态和观测函数，确定当前周期的电网观测数据；其中，观测函数用于表明电网的状态与电网观测数据之间的关联关系。

具体地，以上一周期t到当前周期t+1期间为例，电网调度系统根据电网在上一周期的状态，通过采用相应的策略并执行相应的调度动作，对电网进行第一状态更新，得到电网的第一更新状态。然后，在电网当前处于第一更新状态的情况下，基于在电网中输入的注入量，对电网进行第二状态更新，得到电网的第二更新状态。根据第二更新状态和观测函数，调度系统可以确定当前周期的电网观测数据。承前，观测函数用于表明电网的状态与电网观测数据之间的关联关系，其具体公式可参照前述实施例，此处不再赘述。

示例性地，以半程时间段长t+0.5和两个状态转移函数P₁和P₂来分解计算进行举例说明。首先，电网调度系统获取新的电网观测数据o_t，并通过采用一策略执行相应的调度动作α_t＝Π(o_t)。然后，电网进行第一状态更新，得到电网的第一更新状态s_t+0.5＝P₁(s_t,α_t)。在t+0.5周期时，电网输入了注入量x_t+1，由此，电网进行第二状态更新，得到第二更新状态s_t+1＝P₂(s_t+0.5,x_t+1)。再根据观测函数进行映射，调度系统即可获得当前周期t+1的电网观测数据o_t+1。

上述实施例中，通过两次进行状态更新，充分考虑了电网的实时波动性，使得电网调度系统能够实时地进行相应的调度动作，准确性和实时性更高。

在一个具体的示例中，如图7A所示的电网，对于14节点系统，共有5个发电机，11个负载，20条线。将每个分支的热极限阈值设置为100MW。因为还存在节点分裂合并的操作，所以一次动作对应的是一个76位的二进制数字。即：5发电机+11负载+20线路始端+20线路终端+20线路＝76位。

在时间t₀和时间t₁之间，消耗9增加60MW。发电机G1增加相同的量以产生足够的电能。图7A中显示了初始状态，即不做任何事情时调度系统观察到的电网的第一状态。

对于步骤A，“不做任何事”策略将不输出时间段0的任何操作。此时，没有功率溢出，所以没有级联故障模拟，所以削减负荷子奖励，r_load _cut＝0。假设初始电网是参考电网，那么到参考电网的距离的子奖励r_distance _to _ref＝0。未执行任何操作，因此操作成本等于0。最后，计算线路使用子奖励r_line _usage为：

在调度系统不执行操作后，电网从s₀更新状态s_0.5；生成的潮流状态与图7A中的初始状态相同。给予s_0.5和a₀，r₀的相关奖励是-1.107。

观察电网的o₁，通过注入量x₁，然后计算负荷流。此时由于o₁包含一个溢出的行，调度系统应该找到一个应该用来修复溢出的操作，否则这种情况可能导致全局中断。周期t计算的奖励为：

r₀＝r_load _cut+r_distance _to _ref+r_action _cost+r_line _usage

r₀＝-3.795

电网将先前的奖励返回给调度系统，然后计算环境的状态s₁。

当电网遇到连锁故障时，如图7B所示，为了计算隐藏状态s_1.5，电网将执行级联故障模拟，该模拟包括连续和重复关闭溢出线路(图中的虚线线路)，以及计算新的负载流。第一条线路级联模拟初始化；第二条线路顶行停用，导致在潮流计算后又有3条过流线路；第三条线路新的过流线路停用，导致全局中断。在这种情况下，电网返回的奖励r1等于与切割负载相关的子奖励的值。

由于各种断路器以及刀闸的存在，电力系统网络拓扑的动态性及实时性很强,当基本的网络原始拓扑图生成，网络的状态随时都有可能改变，如果每改变一次都重新生成一次拓扑，将给系统造成很大的负担，使系统结构变得臃肿且实时性很差。通过使用深度强化学习结合模拟学习的方法，以网络拓扑结构优化作为消除电力系统中热极限和电压越限问题的有效措施，即通过开断某条或某组特定输电线路，可以使系统达到一个新的稳定运行点，过负荷线路的潮流部分转移到相邻输电线路，各母线电压也可以得到改善。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的电网调度系统的控制方法的电网调度系统的控制装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个电网调度系统的控制装置实施例中的具体限定可以参见上文中对于电网调度系统的控制方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种电网调度系统的控制装置800，包括：确定模块801、计算模块802、调用模块803、以及执行模块804，其中：

确定模块801，用于根据电网观测数据，确定电网在当前周期的状态；状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态。

计算模块802，用于根据电网在当前周期的状态确定当前周期的期望奖励值。

调用模块803，用于依据当前周期的期望奖励值调用策略集中的其中一策略；策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种。

执行模块804，用于确定电网调度系统下一周期期望执行的调度动作；调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

在其中的一个实施例中，电网观测数据为电网调度系统检测得到的电网运行状态数据，至少包括电力设备的有功功率、无功功率和电压值，负载的有功功率、无功功率和电压值，以及电力线路的有功功率、无功功率和电压值。

在其中的一个实施例中，计算模块还用于构建最优值函数；其中，最优值函数为最优状态值函数与最优作用值函数之积；基于最优值函数，根据当前周期的状态，确定最大期望奖励值；将最大期望奖励值作为当前周期的期望奖励值。

在其中的一个实施例中，计算模块还用于将动作集中各调度动作分别与当前周期的状态构成一组状态动作对；将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值；将多个期望奖励值中的最大值作为最大期望奖励值。

在其中的一个实施例中，上述装置还包括更新模块，该更新模块用于根据所执行的调度动作，得到与调度动作对应的下一周期的状态；基于调度动作和下一周期对应的状态，更新值函数中的作用参数；作用参数表征不同的策略所分别对应的奖励值权重。

在其中的一个实施例中，上述装置还包括获取模块，用于根据电网在上一周期的状态，对电网进行第一状态更新，得到第一更新状态；基于在电网中输入的注入量和第一更新状态，对电网进行第二状态更新，得到第二更新状态；注入量至少包括发电机的有功功率、无功功率、以及电压值，和负荷的有功功率、无功功率、以及电压值；根据第二更新状态和观测函数，确定当前周期的电网观测数据；其中，观测函数用于表明电网的状态与电网观测数据之间的关联关系。

上述电网调度系统的控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是前述实施例中的电网调度系统，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种电网调度系统的控制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，例如为前述实施例中的电网调度系统。该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：根据电网观测数据，确定电网在当前周期的状态；状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态；根据电网在当前周期的状态确定当前周期的期望奖励值；依据当前周期的期望奖励值调用策略集中的其中一策略；策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种；执行与所调用的策略所对应的调度动作；调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：构建最优值函数；其中，最优值函数为最优状态值函数与最优作用值函数之积；基于最优值函数，根据当前周期的状态，确定最大期望奖励值；将最大期望奖励值作为当前周期的期望奖励值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将动作集中各调度动作分别与当前周期的状态构成一组状态动作对；将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值；将多个期望奖励值中的最大值作为最大期望奖励值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据所执行的调度动作，得到与调度动作对应的下一周期的状态；基于调度动作和下一周期对应的状态，更新值函数中的作用参数；作用参数表征不同的策略所分别对应的奖励值权重。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据电网在上一周期的状态，对电网进行第一状态更新，得到第一更新状态；基于在电网中输入的注入量和第一更新状态，对电网进行第二状态更新，得到第二更新状态；注入量至少包括发电机的有功功率、无功功率、以及电压值，和负荷的有功功率、无功功率、以及电压值；根据第二更新状态和观测函数，确定当前周期的电网观测数据；其中，观测函数用于表明电网的状态与电网观测数据之间的关联关系。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：根据电网观测数据，确定电网在当前周期的状态；状态为电网调度系统执行上一周期所确定的调度动作而产生的，至少包括当前周期下电网中各电力线路的运行状态、各电力线路之间的连接状态、以及各电力线路的潮流状态；根据电网在当前周期的状态确定当前周期的期望奖励值；依据当前周期的期望奖励值调用策略集中的其中一策略；策略集中至少包括无操作策略、随机线路断开策略、随机节点分割策略、及贪心线路断开策略中的一种；执行与所调用的策略所对应的调度动作；调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：构建最优值函数；其中，最优值函数为最优状态值函数与最优作用值函数之积；基于最优值函数，根据当前周期的状态，确定最大期望奖励值；将最大期望奖励值作为当前周期的期望奖励值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将动作集中各调度动作分别与当前周期的状态构成一组状态动作对；将各组状态动作对分别输入至最优值函数中进行求解，得到多个与各组状态动作对分别对应的期望奖励值；将多个期望奖励值中的最大值作为最大期望奖励值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据所执行的调度动作，得到与调度动作对应的下一周期的状态；基于调度动作和下一周期对应的状态，更新值函数中的作用参数；作用参数表征不同的策略所分别对应的奖励值权重。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据电网在上一周期的状态，对电网进行第一状态更新，得到第一更新状态；基于在电网中输入的注入量和第一更新状态，对电网进行第二状态更新，得到第二更新状态；注入量至少包括发电机的有功功率、无功功率、以及电压值，和负荷的有功功率、无功功率、以及电压值；根据第二更新状态和观测函数，确定当前周期的电网观测数据；其中，观测函数用于表明电网的状态与电网观测数据之间的关联关系。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种电网调度系统的控制方法，其特征在于，所述方法包括：

根据电网在当前周期的状态确定当前周期的期望奖励值；

2.根据权利要求1所述的方法，其特征在于，所述电网观测数据为电网调度系统检测得到的电网运行状态数据，至少包括电力设备的有功功率、无功功率和电压值，负载的有功功率、无功功率和电压值，以及电力线路的有功功率、无功功率和电压值。

3.根据权利要求1所述的方法，其特征在于，所述根据电网在当前周期的状态确定当前周期的期望奖励值，包括：

构建最优值函数；其中，所述最优值函数为最优状态值函数与最优作用值函数之积；

将所述最大期望奖励值作为当前周期的期望奖励值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前周期的状态，确定最大期望奖励值，包括：

将多个期望奖励值中的最大值作为最大期望奖励值。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所执行的调度动作，得到与所述调度动作对应的下一周期的状态；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种电网调度系统的控制装置，其特征在于，所述装置包括：

执行模块，用于确定电网调度系统下一周期期望执行的调度动作；所述调度动作至少包括断开电网中的电力线路、重连上一周期断开的电力线路、以及修改电网拓扑中的一种。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。