CN115765050A

CN115765050A - 一种电力系统安全校正控制方法、系统、设备及存储介质

Info

Publication number: CN115765050A
Application number: CN202211157926.2A
Authority: CN
Inventors: 王一迪; 李立新; 於益军; 刘金波; 马晓忱; 杨楠; 李理; 罗雅迪; 孙略; 石上丘; 孙博; 吕闫; 王淼; 狄芳春; 刘蒙; 阎博; 曹坤; 唐俊刺; 李铁; 李桐
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd; State Grid Jibei Electric Power Co Ltd; State Grid Liaoning Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd; State Grid Jibei Electric Power Co Ltd; State Grid Liaoning Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-03-07

Abstract

本发明公开了一种电力系统安全校正控制方法、系统、设备及存储介质，包括：获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，下一时刻负荷的有功出力预测值以及新能源最大出力预测值，输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，智能体中的策略网络为预训练后的神经网络，该方法、系统、设备及存储介质能够满足当前电网复杂的运行状态，为电力系统运行提供有效的安全保障及技术支撑。

Description

一种电力系统安全校正控制方法、系统、设备及存储介质

技术领域

本发明属于强化学习技术领域，涉及一种安全校正控制方法、系统、设备及存储介质，具体涉及一种电力系统安全校正控制方法、系统、设备及存储介质。

背景技术

世界各地极端气候引起的大停电事故使得人们对电力系统的安全性颇为关注。电力系统安全校正控制作为电网实时调控操作中的重要一环，能够在预想事故之初消除线路潮流越限等电网安全问题，提高电力系统应对事故的能力。新型电力系统中新能源接入的占比显著提高，电力高峰负荷持续增长，源荷双侧的不确定性给传统的以火电机组为主的电力系统带来了一系列新的安全问题，电力系统功率的波动和潮流的变化大幅增加。因此，针对电力系统外部及内部的一系列挑战，研究考虑新型电力系统正常运行状态及预想事件发生后的安全校正控制方案成为必要。

传统的电力系统安全校正计算方法分为两大类，即灵敏度分析法和优化规划法。灵敏度分析法因约束条件的制约容易出现机组反复调节的状况，在调整时长上容易受到限制。基于物理模型的优化规划法将安全校正问题转化为优化规划问题，在特定约束条件下求解目标函数，因此具有较好的安全性和经济性。但在面对网络规模大、连续多步决策的系统时计算时间往往过长。同时，传统的安全校正方法较多地以稳定的火电机组作为调节的目标，在面对新能源的大量接入的情况下，电网安全校正控制应更具灵活性，尽可能更多地消纳新能源，维持电网的电力电量平衡，降低电力系统安全稳定运行风险。

由于安全校正控制需要满足实时在线的计算要求，且新能源机组的大规模接入以及负荷的波动使得电网中不可预见的情况时有发生，传统的基于物理模型的研究方法难以同时满足计算速度和计算精度的要求。基于物理模型方法的局限性推动了人工智能方法的发展和应用。强化学习作为人工智能的一大分支，已经广泛应用于处理电力系统优化问题和电网调控问题。强化学习通过“试错搜索”和“延迟回报”进行交互式学习，自适应在线更新策略，具有较高的计算精度和较快的处理大规模数据的能力。

传统的有功安全校正控制方法中，因为灵敏度的方法通过选择对一个或一组目标输电断面功率具有较高灵敏度的发电机来调整其运行状态，造成计算精度差；并且容易造成原本处于平衡状态的机组出现潮流越限的状况，也可能在调整一些支路的潮流满足约束条件后有其他的支路出现了潮流越限的情况，从而导致机组的反复调节，设备老化加剧。优化规划法通过求解数学模型得出控制方案，需要调整的设备太多，计算速度慢，且可能存在计算不收敛的问题。灵敏度的方法满足计算速度的要求但牺牲了精度要求，优化规划法满足计算精度的要求但牺牲了计算速度。传统的有功安全校正方法均不能适应当前电网复杂的运行状态，为当前的电力系统运行提供有效的安全保障和技术支撑。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种电力系统安全校正控制方法、系统、设备及存储介质，该方法、系统、设备及存储介质通过训练好的智能体能够快速进行实时安全校正决策，解决传统优化方法单步运算时间过长的问题，同时保证安全校正的计算精度及计算速度。

为达到上述目的，本发明采用如下技术方案：

本发明一方面，本发明提供了一种电力系统安全校正控制方法，包括：

获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值；

将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，以对电力系统进行安全校正控制，其中，智能体中的策略网络为预训练后的神经网络。

本发明所述电力系统安全校正控制方法进一步的改进在于：

所述将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率、负荷的有功出力以及新能源最大出力预测值输入到训练后的智能体中之前还包括：

通过模仿学习优化算法获取经验数据集；

利用所述经验数据集对神经网络进行训练，得预训练后的神经网络；

将所述预训练后的神经网络作为智能体中的策略网络；

利用强化学习算法对所述智能体进行训练，得训练后的智能体。

所述模仿学习优化算法的目标函数为：

其中，

为t时刻第i台火电机组的有功调整量，

为t时刻第j台新能源机组的弃风量，β₁及β₂分别为火电机组有功调整量及新能源机组弃风量的权重系数。

所述模仿学习优化算法的约束条件为：

其中，p_G,i、p_W,j及p_D,l分别为第i台火电机组、第j台新能源机组及第l个负荷同一时刻的有功出力，ΔP_k为火电机组和新能源机组的有功调整量，

及

分别为第i台火电机组有功出力的最小值及最大值，

及

分别为第i台火电机组的向上爬坡率及向下爬坡率，P_L为线路L的传输功率，

为第j台新能源机组的最小有功出力，

及

分别为t时刻第i台火电机组及第j台新能源机组的有功出力，

为t时刻第j台新能源机组的有功调整量，

表示第j台新能源机组i在t+1时刻的最大出力，

为t时刻第i台火电机组的有功出力，

为线路L允许的最大传输功率。

所述智能体的训练的过程中的奖励函数为：

r_t＝α₁r_1,t+α₂r_2,t+α₃r_3,t+α₄r′_4,t (16)

其中，r_1,t为线路潮流越限情况的奖励，r_2,t为新能源机组消纳量的奖励，r_3,t为平衡机功率越限的奖励，r′_4,t为火电机组有功调整量的奖励，α₁、α₂、α₃及α₄分别为r_1,t、r_2,t、r_3,t及r′_4,t的权重。

线路潮流越限情况的奖励r_1,t、新能源机组消纳量的奖励r_2,t、平衡机功率越限的奖励r_3,t及火电机组有功调整量的奖励r′_4,t分别为：

其中，I_L,t为t时刻线路L的电流，T_L为线路L的热极限，

为第j台新能源机组i在t时刻的最大出力，

为t时刻平衡机i的实际有功出力，

为t时刻平衡机i的有功出力变化量，

为平衡机的出力上限，n_line为电网的线路个数，n_new为新能源机组的个数，n_gen为火电机组的个数，

为t时刻第j台火电机组的有功调整量，

为t时刻第j台新能源机组的有功调整量，ε取0.1，n_blanced为平衡机的个数。

所述对智能体的训练过程中，利用小批量梯度上升法，从经验回放池中随机采样获得N个数据作为对期望值的采样估计，以训练智能体。

本发明二方面，本发明提供了一种电力系统安全校正控制系统，包括：

获取模块，用于获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值；

控制模块，用于将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，完成电力系统安全校正控制，其中，智能体中的策略网络为预训练后的神经网络。

本发明三方面，本发明提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述电力系统安全校正控制方法的步骤。

本发明四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述电力系统安全校正控制方法的步骤。

本发明具有以下有益效果：

本发明所述的电力系统安全校正控制方法、系统、设备及存储介质在具体操作时，将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率、负荷的有功出力以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，并以此控制火电机组及新能源机组的有功出力，以实现对电力系统安全校正控制，需要说明的是，本发明中智能体中的策略网络为预训练后的神经网络，避免在智能体训练之初因随机探索而导致学习速率缓慢，同时缩小智能体的动作空间，解决传统优化方法单步运算时间过长的问题，保证安全校正的计算精度及计算速度，满足当前电网复杂的运行状态，为电力系统运行提供有效的安全保障及技术支撑。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为安全校正常规调整过程的示意图；

图2为本发明的原理图；

图3为本发明的方法流程图；

图4为本发明的系统结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

实施例一

参考图1、图2及图3，本发明所述电力系统安全校正控制方法包括以下步骤：

1)利用安全校正的物理模型，采用模仿学习优化算法，得经验数据集；

2)利用经验数据集预训练神经网络；

3)将预训练后的神经网络作为智能体中的策略网络，采用强化学习算法DDPG训练所述智能体；

4)获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值；

5)将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据火电机组的有功出力调整量对火电机组的有功出力进行控制，根据新能源机组的有功出力调整量对新能源机组的有功出力进行控制。

步骤1)中，安全校正的物理模型中安全校正控制的目标及约束为：

构建运行时间段内优化模型的目标函数为：

其中，

为t时刻第i台火电机组有功调整量，

安全校正控制的优化模型须满足功率平衡约束、发电机有功出力约束、发电机组爬坡率约束以及线路潮流安全约束，即：

其中，P_G,i、P_W,j及P_D,l分别为第i台火电机组、第j台新能源机组和第l个负荷同一时刻的有功出力，ΔP_k为火电和新能源机组的有功调整量，当调整量为正，则上调机组的出力，当调整量为负，则下调机组的出力，

为t时刻第i台火电机组的有功出力，

及

分别为第i台火电机组有功出力的最小值及最大值，

及

分别为第i台火电机组的向上爬坡率和向下爬坡率，P_L为线路L的传输功率，

为第j台新能源机组的最小有功出力，

及

分别为t时刻第i台火电机组及第j台新能源机组的有功出力，

为t时刻第j台新能源机组的有功调整量，

表示第j台新能源机组i在t+1时刻的最大出力，

为t时刻第i台火电机组的有功出力，

为线路允许的最大传输功率。

所述模仿学习算法为：

由于电力系统安全校正控制问题的状态空间及动作空间较大以及系统中含有各种复杂的强约束，强化学习的智能体在没有任何先验知识的情况下通过纯随机探索来学习最优策略π^*往往需要大量时间，且在训练过程中容易陷入局部最优解。本发明在每个训练步骤中，直接模仿优化方法得到的状态-动作对，以获得训练的最优轨迹，能够与输入的轨迹分布相匹配，从而更好地解决多步决策的问题。

将优化模型计算得到的机组出力的调整值a_t以及系统的状态s_t记作专家经验轨迹数据，并采用

表示，每条轨迹包含的状态及动作序列为：

其中，n_i为第i条轨迹中的转移次数，模仿学习根据上述数据来学习符合专家决策轨迹的策略，将上述轨迹中的状态-动作对抽取出来，构造由专家策略π_E收集到的新的数据集合D，即：

其中，m为数据集合D中的元素数目，n表示转移次数。

步骤2)中，模仿学习训练神经网络的目标是寻找一个策略π′来减小值函数Q(π′)与专家策略的值函数Q(π_E)差异，即：

通过模仿学习专家经验，使智能体获得快速启动性能。模仿学习将专家经验轨迹数据中的状态作为特征，动作作为标签，采用新构造的数据集合D训练神经网络，得策略网络，所述策略网络就是强化学习的初始策略网络，即actor网络，actor网络的权重参数θ以最小化MSE更新。最后，通过强化学习的方法基于环境进行改进，从而获得更好的策略。

预训练策略网络的同时，对价值网络进行预训练，使用专家经验数据集D初始化经验回放池，在每个预训练周期中，在每个状态下执行专家经验的动作并接收奖励，critic网络的权重w根据式(10)更新：

其中，η_w为critic网络的学习率，J(w)为期望值，需要说明的是，经过模仿学习得到的发电机功率存在误差，所以将此时的动作及状态重新放入潮流仿真器中计算得到准确的动作功率。

步骤3)中的安全校正控制的策略网络MDP(Markov decision process)为：

在强化学习中，环境从一个状态转换到下一个状态的过程可以用MDP表示，MDP用于对顺序决策进行建模，得强化学习的数学模型。在实际电力系统实时调度中，下一时刻电力系统的状态是根据上一时刻发电机出力的调整引起的，而与其他历史时刻的状态无关，因此可以将安全校正控制问题建模成MDP，在考虑系统当前状态及未来可能状态的情况下，得每个状态的正确解。

MDP由四元组S、A、P、

组成，其中，S为状态集合，s_t∈S为状态；A为动作集合，a_t∈A为动作，P(s_t+1|s_t,a_t)为环境的状态转移函数，P(s_t+1|s_t,a_t)表示在状态s_t下采取动作a_t后状态转移到s_t+1的概率，安全校正问题由于系统存在各种不确定性，无法建立状态转移模型，因此通过智能体与环境的交互自动进行状态转换，

为奖励函数，

r_t为在状态s_t下采取动作a_t后的即时奖励。

强化学习的智能体与电网进行交互的环境由潮流仿真器构成，潮流仿真器根据机组有功调整值计算电网潮流，输出线路功率、线路电流及重新计算生成的发电机组出力值，同时具备奖励反馈的功能，基于传统的物理模型及MDP，构建如下安全校正控制的MDP网络：

a)状态空间，状态空间为当前时间步的可观测信息，安全校正控制的状态空间由发电机组有功出力、火电机组爬坡率、负荷的有功出力以及新能源最大出力预测值组成，强化学习智能体当前时间步的状态为

2)动作，动作空间是安全校正中当前时间步的所有控制变量，由火电机组及新能源机组有功调整量组成，利用发电机组的有功调整量作为动作空间，

表示当前时间步的动作，安全校正控制问题中动作空间是连续的。

3)奖励函数，强化学习的智能体根据奖励r_t采取奖励值高的动作。通过设计奖励满足安全校正控制问题的各种目标和约束，在强化学习中安全校正的目标，最小化火电机组的有功调整量，为安全校正控制满足现实中对安全性的要求，最小化新能源机组的弃风量，为满足最大化新能源消纳，因此将火电机组和新能源机组的有功调整量并入奖励函数中；对于安全校正中存在的各种约束，将功率平衡约束及线路功率约束作为硬约束并入奖励函数中；强化学习的智能体每一时刻的动作范围限制了火电机组的爬坡率，因此不再用奖励函数表示爬坡率；实际电力系统的不平衡功率由平衡机分担，将平衡机越限情况使用奖励函数表示，作为对系统功率平衡的约束。

其中，式(11)及式(12)分别表示线路潮流越限情况及新能源机组消纳量的奖励，均为正奖励；式(13)及式(14)分别表示平衡机功率越限及火电机组有功调整量的奖励函数，均为负奖励，表示惩罚项。奖励函数的设计兼顾了安全校正控制的安全性与最大消纳新能源的能力。

其中，I_L,t为t时刻线路L的电流，T_L为线路L的热极限，

为第j台新能源机组i在t时刻的最大出力，

为t时刻平衡机i的实际有功出力，

为t时刻平衡机i的有功出力变化量，

为平衡机的出力上限，

为t时刻第j台火电机组的有功调整量，

为t时刻第j台新能源机组的有功调整量，ε取0.1，n_blanced为平衡机的个数，其中，

表示平衡机有功出力大于上限的110％或者小于下限的90％时，强化学习过程终止，n_line为电网的线路个数，n_new为新能源机组个数，n_gen为火电机组个数，为避免式(11)出现分母为零的情况，取∈为0.1，对r_4,t进行归一化处理，得：

因此奖励项r_1,t及r_2,t的域值为[0,1]，惩罚项r_3,t及r′_4,t的域值为[-1,0]。潮流仿真器所用的奖励加权和为：

r_t＝α₁r_1,t+α₂r_2,t+α₃r_3,t+α₄r′_4,t (16)

其中，r_i表示归一化后的各奖励项，α_i表示各奖励项系数，取α₁＝2,α₂＝1,α₃＝3,α₄＝2。

所述步骤3)中，安全校正控制的强化学习过程为：

本发明利用深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)解决连续状态空间和动作空间的安全校正控制问题。DDPG结合Q学习及策略梯度，采用双网络架构，使算法的学习过程更加稳定，收敛更快，DDPG中的优化目标为累积折扣奖赏。

DDPG包括四个神经网络，即策略网络μ(s,a,θ)、目标策略网络μ′(s,a,θ′)、价值网络Q(s,a,w)及目标价值网络Q′(s,a,w′)，其中，θ、θ′、w及w′分别为相应网络的权重。

其中，价值网络用于评估动作值函数，即

其中，E表示期望，值函数Q^μ(s,a)表示根据策略μ在状态s下采取动作a后的奖励的期望值，Q^μ(s_t,a_t)为t时刻的期望值，DDPG将基于TD误差的均方误差函数(Mean SquaredError，MSE)作为损失函数，如式(18)-(19)所示，为了让价值网络在学习中更加稳定，易于收敛，目标值y_i的计算涉及目标策略网络和目标价值网络。

L(w)＝E[(y-Q(s_t,a_t,w))²] (18)

y_i＝r_t,i+γQ′(s_t+1,i,μ′(s_t+1,i,θ′),w′) (19)

价值网络的目标是最小化损失函数，采用小批量梯度下降法更新价值网络，如式(20)-(21)所示，从经验回放池中随机采样获得N_s个小批量数据作为对期望值L(w)的估计采样

其中，η_w为价值网络的学习率。

策略网络用于最大化动作值函数求解最优策略μ^*：

DDPG中将奖励表示为使用当前策略μ(s_t,θ)生成的动作值函数：

利用小批量梯度上升法更新策略网络，如式(24)-(25)所示，从经验回放池中随机采样获得N_s个小批量数据作为对期望值L(θ)的采样估计

其中，η_θ为价值网络的学习率。

为保证在连续动作空间学习中的有效探索，DDPG通过对动作添加噪声来增加探索机制：

A_t＝μ(S_t,θ)+η(0,1) (26)

其中，η(0,1)表示期望为0，方差为1的高斯噪声。

为保证网络参数的及时更新和训练时策略网络和价值网络梯度的相对稳定，通过软更新的方法更新目标网络的参数：

w′←χw+(1-χ)w′ (27)

θ′←χθ+(1-χ)θ′ (28)

其中，χ取0.001。

利用模仿学习得到较好的初始化网络参数，训练好的神经网络作为强化学习的策略网络及价值网络，该阶段是在模仿学习得到策略π′的基础上，深度强化学习的智能体通过与电网环境不断交互，获得安全校正的最优策略π^*。

实施例二

参考图4，本发明所述的电力系统安全校正控制系统包括：

获取模块1，用于获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值；

控制模块2，用于将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，完成电力系统安全校正控制，其中，智能体中的策略网络为预训练后的神经网络。

本发明还包括：

模仿模块3，用于通过模仿学习优化算法获取经验数据集；

第一训练模块4，用于利用所述经验数据集对神经网络进行训练，得预训练后的神经网络；

组合模块5，用于将所述预训练后的神经网络作为智能体中的策略网络；

第二训练模块6，用于利用强化学习算法对所述智能体进行训练，得训练后的智能体。

实施例三

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述电力系统安全校正控制方法的步骤，其中，所述存储器可能包含内存，例如高速随机存储器，也可能还包括非易失性存储器，例如，至少一个磁盘存储器等；处理器、网络接口、存储器通过内部总线互相连接，该内部总线可以是工业标准体系结构总线、外设部件互连标准总线、扩展工业标准结构总线等，总线可以分为地址总线、数据总线、控制总线等。存储器用于存放程序，具体地，程序可以包括程序代码、所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

实施例四

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述电力系统安全校正控制方法的步骤，具体地，所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器可以包括随机存储存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电力系统安全校正控制方法，其特征在于，包括：

将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，下一时刻负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，以对电力系统进行安全校正控制，其中，智能体中的策略网络为预训练后的神经网络。

2.根据权利要求1所述的电力系统安全校正控制方法，其特征在于，智能体的训练包括：

通过模仿学习优化算法获取经验数据集；

将所述预训练后的神经网络作为智能体中的策略网络；

3.根据权利要求2所述的电力系统安全校正控制方法，其特征在于，所述模仿学习优化算法的目标函数为：

其中，

为t时刻第i台火电机组的有功调整量，

4.根据权利要求2所述的电力系统安全校正控制方法，其特征在于，所述模仿学习优化算法的约束条件为：

及

分别为第i台火电机组有功出力的最小值及最大值，

及

为第j台新能源机组的最小有功出力，

及

分别为t时刻第i台火电机组及第j台新能源机组的有功出力，

为t时刻第j台新能源机组的有功调整量，

表示第j台新能源机组i在t+1时刻的最大出力，

为t时刻第i台火电机组的有功出力，

为线路L允许的最大传输功率。

5.根据权利要求2所述的电力系统安全校正控制方法，其特征在于，所述智能体的训练的过程中的奖励函数为：

r_t＝α₁r_1,t+α₂r_2,t+α₃r_3,t+α₄r′_4,t (16)

6.根据权利要求5所述的电力系统安全校正控制方法，其特征在于，线路潮流越限情况的奖励r_1,t、新能源机组消纳量的奖励r_2,t、平衡机功率越限的奖励r_3,t及火电机组有功调整量的奖励r′_4,t分别为：

其中，I_L,t为t时刻线路L的电流，T_L为线路L的热极限，

为第j台新能源机组i在t时刻的最大出力，

为t时刻平衡机i的实际有功出力，

为t时刻平衡机i的有功出力变化量，

为平衡机i的出力上限，n_line为电网的线路个数，n_new为新能源机组的个数，n_gen为火电机组的个数，

为t时刻第j台火电机组的有功调整量，

7.根据权利要求2所述的电力系统安全校正控制方法，其特征在于，所述智能体的训练过程中，利用小批量梯度上升法，从经验回放池中随机采样获得N个数据作为对期望值的采样估计，以训练智能体。

8.一种电力系统安全校正控制系统，其特征在于，包括：

获取模块(1)，用于获取当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值；

控制模块(2)，用于将所述当前时刻的电力系统中发电机组的有功出力、火电机组的爬坡率，以及下一时刻的负荷的有功出力预测值以及新能源最大出力预测值输入到训练后的智能体中，以获得火电机组的有功出力调整量以及新能源机组的有功出力调整量，根据所述火电机组的有功出力调整量对火电机组的有功出力进行控制，根据所述新能源机组的有功出力调整量对新能源机组的有功出力进行控制，以对电力系统进行安全校正控制，其中，智能体中的策略网络为预训练后的神经网络。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述电力系统安全校正控制方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述电力系统安全校正控制方法的步骤。