CN114156893B

CN114156893B - 面向新能源消纳场景的电网调度方法、装置、设备及介质

Info

Publication number: CN114156893B
Application number: CN202111464237.1A
Authority: CN
Inventors: 俞灵; 李立新; 黄宇鹏; 王佳琪; 杨楠; 罗雅迪; 陶蕾; 宋旭日; 崔灿; 夏文岳; 封超涵; 黄运豪; 李大鹏; 张周杰; 冯琼; 狄方春; 杨清波; 李劲松; 叶瑞丽; 马欣欣
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-07-26
Anticipated expiration: 2041-12-02
Also published as: CN114156893A

Abstract

本发明属于电力自动化技术领域，公开一种面向新能源消纳场景的电网调度方法、装置、设备及介质，所述方法包括：获取电网历史断面数据；建立面向新能源消纳场景的潮流优化模型，确定潮流优化模型的约束条件和目标函数；将潮流优化模型融合转化成一个马尔科夫决策过程，给出状态空间、动作空间和奖励函数；封装成一个电网运行环境模拟器；利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出。本发明断面数据的基础上，引入了多种约束因素，提高了面向新能源消纳场景的电网运行模型仿真的合理性；在可再生能源消纳的同时，提高电网输出的稳定性。

Description

面向新能源消纳场景的电网调度方法、装置、设备及介质

技术领域

本发明属于电力自动化技术领域，涉及人工智能算法在电气自动化领域应用的方法，特别涉及一种面向新能源消纳场景的电网调度方法、装置、设备及介质。

背景技术

在能源转型和科技进步的推动下，“双高”即高比例可再生能源和高比例电力电子设备正成为电网发展的重要趋势和关键特征。一方面，高比例电力电子设备的接入使得电网运行时，在电源侧、用户端及中间输电环节会产生的实时运行数据能够被采集、传输和记录，智能电网及电力系统的发展也进入了大数据时代。另一方面，高比例可再生能源的注入，既对电网的新能源消纳能力提出更高要求，又给电网电能的稳定输出带来挑战，从而增加了电力系统实时调度的难度，传统基于经验分析和电网模型的调度方法越来越难以应付大电网非线性、非连续性以及预测不确定性等问题。伴随深度学习等人工智能技术的飞速发展，基于数据驱动方式的人工智能技术在解决上述问题方面具有潜在的“去模型化”技术优势。因此，如何有效利用海量实时运行数据，应用基于数据驱动的人工智能技术，为电网优化调度服务，从而提升电网对新能源发电的消纳能力是当前的研究热点。

传统智能算法如粒子群算法、蚁群算法、遗传算法等虽然对数学模型依赖程度低，但都是基于简单生物群体行为，不具有学习记忆能力，易陷入局部最优解，难以应付大规模数据模型的优化需求。电网调度本质上是一个贯序决策问题，电网运行状态与调度策略高度耦合，需要随时间推移根据电网复杂运行状态来针对性调整动作。强化学习作为新型人工智能方法的重要分支，用来解决这种“环境-决策”问题具有明显优势。

公开号为CN110365057A的中国专利申请《基于强化学习的分布式能源参与配电网调峰调度优化方法》采用基于强化学习的深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法对历史数据进行学习获取新的状态转换样本，并对模型进行求解，有效降低了成本，还能够实现分布式能源参与配电网调峰的调度优化，有效地进行削峰填谷，提高电力系统运行的经济性。

然而该技术方案还存在以下技术问题：

(1)动作空间单一，仅考虑“分布式存储单元充放电功率”，而没有考虑其他可行操作比如电路的断开与连接操作。这归因于该发明没有考虑电网拓扑结构优化这一功能。

(2)目标函数设计考虑的因素不够全面，只涉及“调峰调度收益”和“调峰调度成本”这两个变量，且未对具体如何计算进行说明。

发明内容

本发明的目的在于提供一种面向新能源消纳场景的电网调度方法、装置、设备及介质，在可再生能源消纳的同时，提高电网输出的稳定性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种面向新能源消纳场景的电网调度方法，包括以下步骤：

获取电网历史断面数据；

建立面向新能源消纳场景的潮流优化模型，确定潮流优化模型的约束条件和目标函数；

将潮流优化模型融合转化成一个马尔科夫决策过程，给出状态空间、动作空间和奖励函数；

将获取的电网历史断面数据、建立的潮流优化模型、约束条件、目标函数状态空间、动作空间和奖励函数封装成一个电网运行环境模拟器；

利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出。

本发明进一步的改进在于：所述获取电网历史断面数据具体包括：

从数据库中读取待调度电网的历史断面数据，每个断面时间间隔为5分钟；所述历史断面数据与潮流优化模型中需要的数据对应，包括以下数据中的部分或者全部：

电网调度期间的时刻总数T；

火电机组、光电机组、风电机组的数目n_g，n_v和n_w；火电机组、光电机组和风电机组的编号分别为

和

第i台火电机组、光电机组和风电机组在t时刻的出力值

和

第i台火电机组的启停状态

1表示运行，0表示停运；

第i台火电机组的启动成本

停机成本

第i台火电机组、光电机组和风电机组在t时刻的运行成本：

其中A，B，C为常数；

第i台火电机组的出力上限

出力下限

第i台光电机组在t时刻的出力上限

第i台风电机组在t时刻的出力上限

第i台火电机组的出力爬坡的上限

第i台火电机组截止到t时刻的停机或运行的连续时长

第i台火电机组关机后允许重启所需的最小时长

第i台火电机组重启后允许关机所需的最小时长

本发明进一步的改进在于：所述约束条件包括以下约束中一种或者多种：

(1)潮流约束

潮流约束模型如下：

其中，N表示电网节点数，P_i(t)和Q_i(t)表示时段t节点i的注入有功和无功功率；U_i(t)和U_j(t)分别表示时段t节点i、j的电压幅值；G_ij和B_ij分别表示支路的电导和电纳；θ_ij(t)表示时段t节点i、j的电压相角差；

(2)火电机组出力约束

其中，

为第i台火电机组在t时刻的出力值；

为第i台火电机组在t-1时刻的允许出力下限，

为第i台火电机组在t-1时刻的允许出力上限；

(3)新能源机组出力约束

(4)火电机组爬坡约束

其中，

为第i台火电机组在t-1时刻的出力调整值，

为第i台火电机组的出力爬坡的上限；K₁为常数；

(5)火电机组启停约束

情况一、运行机组停机，h_i，t-1＝1且h_i，t＝0，则需满足下式：

情况二：停运机组重启，即h_i，t-1＝0且h_i，t＝1，则需满足下式：

其中，

表示第i台火电机组截止到t-1时刻的停机或运行的连续时长；

表示第i台火电机组关机后允许重启所需的最小时长；

表示第i台火电机组重启后允许关机所需的最小时长；

(6)线路越限约束

任意线路出现以下情况，则该线路断开，即LR_j，t＝0；

情况一：电流值超过电流热极限的常数K₂倍，公式如下：

情况二：连续常数K₃个时间步越限，公式如下：

其中，LR_j，t表示电网中线路j在t时刻的开断情况；

表示线路j在第t-k个时间步的越限情况，0表示没越限，1表示越限；K₃取4；

表示电网中线路j的电流热极限；

和

分别表示在第t-1个时间步，线路j的首端电流和末端电流；K₂取2；

(7)线路重连约束

任意线路连续断开常数K₄个时间步后，该线路重新连接：

其中，K₄取4。

本发明进一步的改进在于：目标函数具体为奖励R；

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

其中，r_i表示归一化后的各奖励项，a_i表示预设的各奖励项系数；没有对应奖励项时，对应的a_i取0；

线路越限情况奖励项r₁：

其中，n_line表示电网支路个数，I_i和T_i表示支路i的电流和热极限，∈为常数；

新能源机组消纳量奖励项r₂：

其中，n_new表示新能源机组个数，p_i，new表示新能源机组i的实际有功出力，

表示新能源机组i在当前时间步的最大允许出力；

平衡机功率越限奖励项r₃：

其中，n_balanced表示平衡机个数，p_i表示平衡机i的实际有功出力，

表示平衡机的出力上限；

机组运行费用奖励项r₄：

其中n_g、n_v、n_w分别表示火电机组、光电机组、风电机组的数目；c(g_i)、c(v_i)、c(w_i)分别表示第i台火电机组、光电机组和风电机组在当前时刻的运行成本；

和

分别第i台火电机组的启动成本和停机成本；

无功出力越限奖励项r₅：

其中，n_gen表示机组总个数，q_i表示机组的实际无功出力，

表示机组的无功出力上限，

表示机组的无功出力下限；

节点电压越限奖励项r₆：

其中，n_sub表示电网节点个数，v_i表示节点i的电压值，

表示节点i的电压上限，

表示节点i的电压下限。

本发明进一步的改进在于：所述状态空间包括若干观测值，所述观测值为某个时刻下，电网运行环境的描述变量；

所述动作空间包括动作值；所述动作值为调度动作，既是电网运行环境模拟器的输入，也是智能体的输出，是电网运行环境模拟器和智能体之间交互的主要变量，定义为

a_t＝{DP：DP_t，LR：LR_t}

其中DP_t＝{DP_1，t，DP_2，t，...，DP_n，t}表示各台机组在下一时刻的有功调整值，n表示电网中的机组总数；

表示各条线路在当前时刻的开断情况，0表示断开，1表示连接，n_l表示电网中的线路总数。

本发明进一步的改进在于：电网运行环境模拟器包括reset模块和step模块；

reset模块：当reset模块被调用时，重置电网环境，将所有变量初始化，并随机读取一个电网断面，作为当前回合的环境初始状态；

step模块：当step模块被调用时，电网运行环境模拟器接收智能体算法给出的动作策略并执行，环境发生相应的变化，电网运行环境模拟器给出一个新的电网断面数据作为新状态以及对应的奖励值和结束标志done；结束标志done表示着环境判断是否结束该回合与智能体的交互；

若环境出现以下任意一种情况，则回合结束：

(1)电网潮流计算不收敛：

done＝True if flag＝1

(2)交互次数达到预先设定的最大交互次数T：

done＝True ift≥T。

本发明进一步的改进在于：所述电网运行环境模拟器遵循OpenAIgym框架；所述智能体为DDPG智能体。

第二方面，本发明提供一种面向新能源消纳场景的电网调度装置，包括：

获取模块，用于获取电网历史断面数据；

建模模块，用于建立面向新能源消纳场景的潮流优化模型，确定潮流优化模型的约束条件和目标函数；

转化模块，用于将潮流优化模型融合转化成一个马尔科夫决策过程，给出状态空间、动作空间和奖励函数；

封装模块，用于将获取的电网历史断面数据、建立的潮流优化模型、约束条件、目标函数状态空间、动作空间和奖励函数封装成一个电网运行环境模拟器；

学习模块，用于利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出。

第三方面，本发明提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现所述的面向新能源消纳场景的电网调度方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述的面向新能源消纳场景的电网调度方法。

相对于现有技术，本发明具有以下有益效果：

1、本发明在潮流断面数据的基础上，引入了高比例新能源机组装机、电网线路随机故障、机组启停约束等因素，提高了面向新能源消纳场景的电网运行模型仿真的合理性；在可再生能源消纳的同时，提高电网输出的稳定性。

2、本发明在电网运行模型的基础上引入基于强化学习的智能封装接口，提多了模型交互的便捷性，提高了利用人工智能算法解决电网调度问题的有效性。

3.本发明使用DDPG算法求解模型，解决了新能源消纳场景下连续时间尺度下电网调度能力不问的问题。

为更好说明本发明，下面结合实施例对本发明的技术方案做进一步的说明。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种面向新能源消纳场景的电网调度方法的流程图；

图2为本发明一种面向新能源消纳场景的电网调度装置的结构框图；

图3为本发明一种电子设备的结构框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

实施例1

请参阅图1所示，本发明一种面向新能源消纳场景的电网调度方法，包括以下步骤：

S1、获取电网历史断面数据；

S2、建立面向新能源消纳场景的潮流优化模型，确定潮流优化模型的约束条件和目标函数；

S3、将潮流优化模型融合转化成一个马尔科夫决策过程，给出状态空间、动作空间和奖励函数；

S4、将获取的电网历史断面数据、建立的潮流优化模型、约束条件、目标函数状态空间、动作空间和奖励函数封装成一个电网运行环境模拟器；

S5、利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出。

步骤S1中，从数据库中读取某省地电网近年的历史断面数据，每个断面时间间隔为5分钟，剔除部分不良样本，并对样本数据进行脱敏。

所述历史断面数据与潮流优化模型中需要的数据对应，包括以下数据中的部分或者全部：

电网调度期间的时刻总数为T，

火电机组、光电机组、风电机组的个数分别为n_g，n_v和n_w。

火电机组、光电机组和风电机组的编号分别是

和

第i台火电机组、光电机组和风电机组在t时刻的出力值分别是

和

第i台火电机组的启停状态

1表示运行，0表示停运，

第i台火电机组的启动成本

停机成本

第i台火电机组、光电机组和风电机组在t时刻的运行成本分别为：

其中A，B，C为常数。

第i台火电机组的出力上限

出力下限

第i台光电机组在t时刻的出力上限

出力下限为零。

第i台风电机组在t时刻的出力上限

出力下限为零。

第i台火电机组的出力爬坡的上限

新能源机组出力不受爬坡限制。

第i台火电机组截止到t时刻的停机或运行的连续时长T_gi，t。

第i台火电机组关机后允许重启所需的最小时长

第i台火电机组重启后允许关机所需的最小时长

步骤S2中建立面向新能源消纳场景的潮流优化模型，具体的优化模型本领域一般技术人员根据需要，结合电网拓扑优化和新能源消纳需求可以自行建立，本发明不做具体限定。

步骤S2中，约束条件针对潮流优化模型，包括以下约束中一种或者多种：

(1)潮流约束

概率潮流计算能够有效评估风力发电、光伏发电、火电发电与负荷等随机变量对电力系统运行状态的影响，提高系统节点电压的稳定性，降低线路潮流的过载风险。模型如下：

其中，N表示电网节点数，P_i(t)和Q_i(t)表示时段t节点i的注入有功和无功功率；U_i(t)和U_j(t)分别表示时段t节点i、j的电压幅值；G_ij和B_ij分别表示支路的电导和电纳；θ_ij(t)表示时段t节点i、j的电压相角差。

(2)火电机组出力约束

其中，

为第i台火电机组在t时刻的出力值；

为第i台火电机组在t-1时刻的出力下限，

为第i台火电机组在t-1时刻的出力上限。

(3)新能源机组出力约束

(4)火电机组爬坡约束

其中，

为第i台火电机组在t-1时刻的出力调整值，

为第i台火电机组的出力爬坡的上限。K₁为一常数，本实施例中取5％。

(5)火电机组启停约束

情况一：运行机组停机，即h_i，t-1＝1且h_i，t＝0，则需满足下式：

其中，

表示第i台火电机组截止到t-1时刻的停机或运行的连续时长；

表示第i台火电机组关机后允许重启所需的最小时长，本实施例中取40；

表示第i台火电机组重启后允许关机所需的最小时长，本实施例中取40。

(6)线路越限约束

任意线路出现以下情况，则该线路断开，即LR_j，t＝0。

情况一：电流值超过电流热极限的常数K₂倍，公式如下：

情况二：连续常数K₃个时间步越限，公式如下：

其中，LR_j，t表示电网中线路j在t时刻的开断情况；

表示线路j在第t-k个时间步的越限情况，0表示没越限，1表示越限；本实施例中K₃取4。

表示电网中线路j的电流热极限；

和

分别表示在第t-1个时间步，线路j的首端电流和末端电流；本实施例中K₂取2。

(7)线路重连约束

任意线路断开常数K₄个时间步后，该线路重新连接：

其中，本实施例中K₄取4。

步骤S2中目标函数具体为奖励R；奖励(reward)作为智能体算法的优化目标，具体形式可以根据实际情况自定义。本实例设计了几种奖励值的具体形式：

(1)线路越限情况奖励项r₁(正奖励)

其中，n_line表示电网支路个数，I_i和T_i表示支路i的电流和热极限，∈为一常数，本实施例中取0.1，避免出现分母为零的情况。

(2)新能源机组消纳量奖励项r₂(正奖励)

表示新能源机组i在当前时间步的最大允许出力。

(3)平衡机功率越限奖励项r₃(负奖励)

表示平衡机的出力上限。

(4)机组运行费用奖励项r₄(负奖励)

和

分别第i台火电机组的启动成本和停机成本。

(5)无功出力越限奖励项r₅(负奖励)

其中，n_gen表示机组总个数，q_i表示机组的实际无功出力，

表示机组的无功出力上限，

表示机组的无功出力下限。

(6)节点电压越限奖励项r₆(负奖励)

其中，n_sub表示电网节点个数，v_i表示节点i的电压值，

表示节点i的电压上限，

表示节点i的电压下限。

对奖励项r₄、r₅、r₆进行归一化，公式如下：

r＝e^r-1

综上所述，奖励项r₁、r₂的域值为[0，1]，奖励项r₃、r₄、r₅、r₆的域值为[-1，0]。

本实例使用的奖励R，公式如下：

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

其中，r_i表示归一化后的各奖励项，a_i表示预设的各奖励项系数，本实施例取值如下：

a₁＝1，a₂＝2，a₃＝4，a₄＝1，a₅＝1，a₆＝1

如果没有对应奖励项时，对应的a_i取0。

步骤S3中，强化学习算法相关变量

动作空间包括动作值；动作值：即调度动作，既是环境模拟器的输入，也是智能体的输出，是环境和智能体之间交互的主要变量，定义为

a_t＝{DP：DP_t，LR：LR_t}

状态空间包括若干观测值；观测值：某个时刻下，电网运行环境的描述变量，由多种电网物理量构成，是智能体和环境进行信息交互的重要接口。

步骤S4中，电网运行环境模拟器包括reset模块和step模块；电网场景深度强化学习环境的使用主要通过调用以下封装接口来实现：

(1)reset模块：当该方法被调用时，电网环境模拟器会重置电网环境，将所有方法和变量初始化，并随机读取一个电网断面，作为当前回合的环境初始状态。

(2)step模块：当该方法被调用时，电网环境模拟器会接收智能体算法给出的动作策略并执行，环境发生相应的变化，环境模拟器会给出一个新的电网断面数据作为新状态以及对应的奖励值和结束标志done。状态和奖励在上文已经进行说明。结束标志done表示着环境判断是否结束该回合与智能体的交互。在实例中，规定若环境出现以下任意一种情况，则回合结束。

(1)电网潮流计算不收敛，即

done＝True if flag＝1

(2)交互次数达到预先设定的最大交互次数T。即

done＝True ift≥T

步骤S5中具体的度强化学习算法：

本发明中的电网运行环境模拟器遵循OpenAIgym框架，与目前主流的深度强化学习算法例如DQN、DDPG等具有很强的适配性。考虑到动作空间中的线路开断操作是离散变量，在实例中，采用DDPG作为智能体。

实施例2

请参阅图2所示，本实施例提供一种面向新能源消纳场景的电网调度装置，包括：

获取模块，用于获取电网历史断面数据；

实施例3

请参阅图3所示，本发明还提供一种面向新能源消纳场景的电网调度方法的电子设备100；所述电子设备100包括存储器101、至少一个处理器102、存储在所述存储器101中并可在所述至少一个处理器102上运行的计算机程序103及至少一条通讯总线104。

存储器101可用于存储所述计算机程序103，所述处理器102通过运行或执行存储在所述存储器101内的计算机程序，以及调用存储在存储器101内的数据，实现实施例1所述的面向新能源消纳场景的电网调度方法的方法步骤。所述存储器101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外，存储器101可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述至少一个处理器102可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以是微处理器或者该处理器102也可以是任何火电的处理器等，所述处理器102是所述电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分。

所述电子设备100中的所述存储器101存储多个指令以实现一种面向新能源消纳场景的电网调度方法，所述处理器102可执行所述多个指令从而实现：

获取电网历史断面数据；

实施例4

所述电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器及只读存储器(ROM，Read-Only Memory)。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.面向新能源消纳场景的电网调度方法，其特征在于，包括以下步骤：

获取电网历史断面数据；

利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出；

目标函数具体为奖励R；

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

线路越限情况奖励项h：

新能源机组消纳量奖励项r₂：

表示新能源机组i在当前时间步的最大允许出力；

平衡机功率越限奖励项r₃：

表示平衡机的出力上限；

机组运行费用奖励项r₄：

其中n_g、n_v、n_w分别表示火电机组、光电机组、风电机组的数目；c(g_i)表示第i台火电机组的运行成本；

和

分别第i台火电机组的启动成本和停机成本；B，C为常数；h_i，t和h_i，t-1分别表示火电机组i在t时刻和t-1时刻的启停状态；

和

表示第i台光电机组和风电机组的出力值；

无功出力越限奖励项r₅：

其中，n_gen表示机组总个数，q_i表示机组的实际无功出力，

表示机组的无功出力上限，

表示机组的无功出力下限；

节点电压越限奖励项r₆：

其中，n_sub表示电网节点个数，v_i表示节点i的电压值，

表示节点i的电压上限，

表示节点i的电压下限。

2.根据权利要求1所述的面向新能源消纳场景的电网调度方法，其特征在于，所述获取电网历史断面数据具体包括：

电网调度期间的时刻总数T；

和

第i台火电机组、光电机组和风电机组在t时刻的出力值

和

第i台火电机组的启停状态

1表示运行，0表示停运；

第i台火电机组的启动成本

停机成本

第i台火电机组、光电机组和风电机组在t时刻的运行成本：

其中A为常数；

第i台火电机组的出力下限

出力上限

第i台光电机组在t时刻的出力上限

第i台风电机组在t时刻的出力上限

第i台火电机组的出力爬坡的上限

第i台火电机组截止到t时刻的停机或运行的连续时长T_gi，t；

第i台火电机组关机后允许重启所需的最小时长

第i台火电机组重启后允许关机所需的最小时长

3.根据权利要求2所述的面向新能源消纳场景的电网调度方法，其特征在于，所述约束条件包括以下约束中一种或者多种：

(1)潮流约束

潮流约束模型如下：

(2)火电机组出力约束

其中，

为第i台火电机组在t时刻的出力值；

为第i台火电机组在t-1时刻的允许出力下限，

为第i台火电机组在t-1时刻的允许出力上限；

(3)新能源机组出力约束

(4)火电机组爬坡约束

其中，

为第i台火电机组在t-1时刻的出力调整值，

为第i台火电机组的出力爬坡的上限；K₁为常数；

(5)火电机组启停约束

情况一、运行机组停机，即h_i，t-1＝1且h_i，t＝0，则需满足下式：

其中，

表示第i台火电机组截止到t-1时刻的停机或运行的连续时长；

表示第i台火电机组关机后允许重启所需的最小时长；

表示第i台火电机组重启后允许关机所需的最小时长；

(6)线路越限约束

任意线路出现以下情况，则该线路断开，即LR_j，t＝0；

情况一：电流值超过电流热极限的常数K₂倍，公式如下：

情况二：连续常数K₃个时间步越限，公式如下：

其中，LR_j，t表示电网中线路j在t时刻的开断情况；

表示电网中线路j的电流热极限；

和

分别表示在第t-1个时间步，线路j的首端电流和末端电流；K₂取2；n_l表示电网中的线路总数；

(7)线路重连约束

任意线路连续断开常数K₄个时间步后，该线路重新连接：

其中，K₄取4。

4.根据权利要求1所述的面向新能源消纳场景的电网调度方法，其特征在于，所述状态空间包括若干观测值，所述观测值为某个时刻下，电网运行环境的描述变量；

a_t＝{DP：DP_t，LR：LR_t}

5.根据权利要求1所述的面向新能源消纳场景的电网调度方法，其特征在于，电网运行环境模拟器包括reset模块和step模块；

若环境出现以下任意一种情况，则回合结束：

(1)电网潮流计算不收敛：

done＝True if flag＝1

(2)交互次数达到预先设定的最大交互次数T：

done＝True ift≥T。

6.根据权利要求1所述的面向新能源消纳场景的电网调度方法，其特征在于，所述电网运行环境模拟器遵循OpenAIgym框架；所述智能体为深层确定性策略梯度智能体。

7.面向新能源消纳场景的电网调度装置，其特征在于，包括：

获取模块，用于获取电网历史断面数据；

学习模块，用于利用智能体与电网运行环境模拟器采用深度强化学习算法进行交互学习，对智能体进行更新求解，得到连续一段时间内新能源消纳场景下的最优动作策略并输出；

目标函数具体为奖励R；

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

线路越限情况奖励项r₁：

新能源机组消纳量奖励项r₂：

表示新能源机组i在当前时间步的最大允许出力；

平衡机功率越限奖励项r₃：

表示平衡机的出力上限；

机组运行费用奖励项r₄：

和

和

表示第i台光电机组和风电机组的出力值；

无功出力越限奖励项r₅：

其中，n_gen表示机组总个数，q_i表示机组的实际无功出力，

表示机组的无功出力上限，

表示机组的无功出力下限；

节点电压越限奖励项r₆：

其中，n_sub表示电网节点个数，v_i表示节点i的电压值，

表示节点i的电压上限，

表示节点i的电压下限。

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至6中任意一项所述的面向新能源消纳场景的电网调度方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至6中任意一项所述的面向新能源消纳场景的电网调度方法。