CN114880932B

CN114880932B - 一种电网运行环境模拟方法、系统、设备及介质

Info

Publication number: CN114880932B
Application number: CN202210514545.9A
Authority: CN
Inventors: 俞灵; 刘金波; 王佳琪; 李立新; 夏文岳; 陶蕾; 李大鹏; 黄宇鹏; 马欣欣; 杨楠; 杨清波; 冯琼; 黄运豪; 张周杰; 武书舟; 叶瑞丽; 崔灿; 刘�东; 李宇佳; 谢琳
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-03-10
Anticipated expiration: 2042-05-12
Also published as: CN114880932A

Abstract

本发明公开了一种电网运行环境模拟方法、系统、设备及介质，所述模拟方法包括以下步骤：获取当前时刻观测状态；生成当前时刻动作空间；获取外部输入的动作指令，根据当前时刻动作空间判定动作指令的合法性，若不合法则终止，若合法则基于动作指令和当前时刻观测状态进行潮流计算，获得下一时刻电网运行状态；获得符合预设约束规则的电网运行状态；获取下一时刻观测状态；基于下一时刻观测状态和所述外部输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟。本发明提供的方法能够模拟电网运行环境，可以支撑采用强化学习实现电网调度。

Description

一种电网运行环境模拟方法、系统、设备及介质

技术领域

本发明属于电网调度技术领域，特别涉及一种电网运行环境模拟方法、系统、设备及介质。

背景技术

随着电力系统各方面发生快速而深刻的变化，电网控制规模呈指数级增长，控制对象特性差异极大，源荷双侧不确定性增加。新型电力系统体现出的高复杂度、高协同性等特征，给电网调控工作在保障电力系统安全稳定经济运行方面提出了更高的要求。

目前，基于模型驱动的传统潮流及优化算法虽然已经成熟应用，但是面对新型电力系统下电网运行调度方式和运行优化目标日趋复杂，在处理电网非线性、非连续性以及强不确定性问题时，仍然存在考虑不确定因素建模难、求解大规模优化计算慢等问题。同时，电网调控业务仍以设备监视与人工分析为主，决策、执行等环节仍需要调控人员参与主导，更多依赖调控人员经验分析，这显然无法满足调度智能化要求。

传统物理求解方法无法解决日益复杂的电网调度问题，强化学习等人工方法在处理电网调度问题上取得了不错的效果。强化学习是机器学习的一大分支，受到人类学习行为的启发，强调观测状态、动作、奖励三个变量在智能体和环境两类角色之间的交互行为，如图1所示。具体来说，环境根据智能体给出的动作给出一个新的观测状态，并对于该状态给出一个奖励值。随后，智能体根据环境反馈的观测状态和奖励值，按照一定的策略给出新的动作，返回上一步，形成循环过程。最终，通过学习策略以达成奖励最大化或实现特定目标。

随着电网调度智能化的研究不断推进，对基于电网实际运行数据的电网运行环境模拟提出了新的需求，有必要考虑运用数据驱动方法替换过程仿真，研究基于强化学习的电网调度技术，尤其是基于强化学习的电网运行环境模拟技术，建立“数据-模型-算法”的实时交互响应机制，分析运行环境信息，快速得到控制策略，实现强化学习算法到电网在线调度领域具体场景中的应用，最终获得科学合理的电网调度策略，为实际工作任务提供有效的辅助决策甚至是直接决策。

请参阅图2，基于强化学习的电网运行环境模拟系统内置多种电网运行场景，通过统一规范、使用友好的交互接口接收用户给出的电网调度指令，输出电网运行状态和动作奖励得分，帮助用户训练强化学习智能体算法模型，交互过程中的数据流如图2所示。然而基于强化学习理论框架，用强化学习求解电网调度问题前，首先需要一个能够模拟电网运行状态的“环境”，目前尚未有这样的“环境”，这也是将强化学习应用到电网调度问题中的主要瓶颈。

发明内容

本发明的目的在于提供一种电网运行环境模拟方法、系统、设备及介质，以解决上述存在的一个或多个技术问题。本发明提供的方法能够模拟电网运行环境，可以支撑采用强化学习实现电网调度。

为达到上述目的，本发明采用以下技术方案：

本发明第一方面提供的一种电网运行环境模拟方法，包括以下步骤：

步骤1，获取待模拟电网运行环境的物理属性、电网网架模型和电网潮流连续断面数据；

步骤2，基于获取的电网潮流连续断面数据生成观测空间，基于电网潮流连续断面数据和观测空间，获得当前时刻观测状态；

步骤3，基于待模拟电网运行环境的物理属性和当前时刻观测状态，生成当前时刻动作空间；

步骤4，获取外部输入的动作指令，根据当前时刻动作空间判定动作指令的合法性，若不合法则终止，若合法则基于动作指令和当前时刻观测状态进行潮流计算，获得下一时刻电网运行状态；

步骤5，基于预设的约束规则对所述下一时刻电网运行状态进行检查及调整，获得符合预设约束规则的电网运行状态；

步骤6，基于符合预设约束规则的电网运行状态对当前时刻观测状态中的各属性值进行更新，获取下一时刻观测状态；

步骤7，基于下一时刻观测状态和所述外部输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟；其中，所述奖励值用于更新所述外部输入的动作指令。

本发明方法的进一步改进在于，在步骤7之后还包括：

步骤8，对步骤4中获取的下一时刻电网运行状态是否满足以下条件进行判定：

(1)步骤4潮流计算后显示潮流未收敛；

(2)当前时刻达到预设的最大时刻数；

若以上任一条件满足，则终止；否则以所述下一时刻观测状态为新的当前时刻观测状态并重复步骤3至步骤8。

本发明方法的进一步改进在于，动作空间包括允许调整的电网物理属性及其在下一时刻的数据类型和数值取值范围。

本发明方法的进一步改进在于，步骤4中，所述根据当前时刻动作空间判定动作指令的合法性，若不合法则终止的步骤具体包括：

对动作指令中各属性的数据类型和数值大小进行检查，如不符合动作空间要求，则返回错误信息并终止。

本发明方法的进一步改进在于，步骤5中，所述预设的约束规则包括：

线路电流越限约束：设线路i上的电流值为I_i、热极限值为T_i、常数K＞1，有正整数N₁，N₂，若T_i＜I_i＜K·T_i，表示该线路软过载；若I_i≥K·T_i，表示该线路硬过载；任一线路电流连续N₁个时刻发生软过载，则该线路停运；任一线路发生硬过载，则该线路停运；线路停运N₂个时刻之后，重新投运；

机组启停约束：预先设定正整数N₃，N₄，机组停运前机组有功出力调整至有功出力下限，再调整至0；机组停机后连续N₃个时间步内不允许重新启动；机组开启前有功出力调整至出力下限，机组启动后连续N₄个时间步内不允许停机。

本发明方法的进一步改进在于，步骤7中，所述基于下一时刻观测状态和所述外部输入的动作指令获得奖励值中，

奖励值R_t+1的计算表达式为，

式中，S_t和A_t分别表示t时刻的观测状态和动作，f表示映射函数t+1时刻的奖励值由t时刻的观测状态和动作共同决定，r_m和k_m表示不同的奖励项及对应系数。

本发明方法的进一步改进在于，

式中，r₁表示线路电流因素奖励项，n_l表示电网线路总数，I_i和T_i分别表示线路i的电流和热极限；

式中，r₂表示机组无功出力奖励项，n_g表示电网中机组总数，q_j、

分别表示机组i的实际无功出力值和无功出力上下限。

本发明第二方面提供的一种电网运行环境模拟系统，包括：

数据获取模块，用于获取待模拟电网运行环境的物理属性、电网网架模型和电网潮流连续断面数据；

当前时刻观测状态获取模块，用于基于获取的电网潮流连续断面数据生成观测空间，基于电网潮流连续断面数据和观测空间，获得当前时刻观测状态；

当前时刻动作空间获取模块，用于基于待模拟电网运行环境的物理属性和当前时刻观测状态，生成当前时刻动作空间；

下一时刻电网运行状态获取模块，用于获取外部输入的动作指令，根据当前时刻动作空间判定动作指令的合法性，若不合法则终止，若合法则基于动作指令和当前时刻观测状态进行潮流计算，获得下一时刻电网运行状态；

符合预设约束规则的电网运行状态获取模块，用于基于预设的约束规则对所述下一时刻电网运行状态进行检查及调整，获得符合预设约束规则的电网运行状态；

下一时刻观测状态获取模块，用于基于符合预设约束规则的电网运行状态对当前时刻观测状态中的各属性值进行更新，获取下一时刻观测状态；

模拟实现模块，用于基于下一时刻观测状态和所述外部输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟；其中，所述奖励值用于更新所述外部输入的动作指令。

本发明第三方面提供的一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明任一项上述的电网运行环境模拟方法。

本发明第四方面提供的一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明任一项上述的电网运行环境模拟方法。

与现有技术相比，本发明提供的电网运行环境模拟方法具有的显著进步包括：

1)可实现性；解释性的，本发明结合数据流，对模拟电网运行环境的创建过程和工作原理分步骤进行了具体说明，可以编程形成软件成品；

2)易拓展性；解释性的，本发明对模拟电网运行环境的创建过程和工作原理分步骤进行说明时，以动作空间、观测空间、约束规则、奖励函数等相对独立的模块作为主体对象，支持使用者基于实际需求，修改、扩充对应模块中的内容，便可快速完成电网运行环境的模拟。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中，强化学习的流程示意图；

图2是现有技术中，采用强化学习实现电网调度的数据流示意图；

图3是本发明实施例提供的一种电网运行环境模拟方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

请参阅图3，本发明实施例提供的一种电网运行环境模拟方法，可用于支撑强化学习求解电网调度问题，包括以下步骤：

获取待模拟电网运行环境的物理属性、电网网架模型和电网潮流连续断面数据；

基于获取的电网潮流连续断面数据生成观测空间，基于电网潮流连续断面数据和观测空间，获得当前时刻观测状态；

基于待模拟电网运行环境的物理属性，生成当前时刻动作空间；

获取外部输入的动作指令，并根据当前时刻动作空间判定动作指令的合法性，若不合法则终止，若合法则基于所述动作指令和当前时刻观测状态进行潮流计算，获得下一时刻电网运行状态；

基于预设的约束规则对所述下一时刻电网运行状态进行检查及调整，获得符合预设约束规则的电网运行状态；

基于符合预设约束规则的电网运行状态对当前时刻观测状态中的各属性值进行更新，获取下一时刻观测状态；

基于下一时刻观测状态和输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟；其中，所述奖励值和下一时刻观测状态用于对动作指令进行更新。

本发明实施例示例性的，获取待模拟电网运行环境的物理属性、电网网架模型和电网潮流连续断面数据具体包括：

1)用户选择某一电网运行场景；

2)基于获取的电网运行场景自动导入电网网架模型文件和电网潮流连续断面数据文件，完成电网运行场景初始化；其中，所述断面数据可包括机组有功出力、机组无功出力、负荷有功以及负荷无功等。

本发明实施例示例性的，在基于获取的电网潮流连续断面数据生成观测空间的过程中，选取电网潮流断面的部分电网物理属性，封装作为观测空间；进一步优选的，支持用户向观测空间中添加自定义属性。示例性的，观测空间的属性示例如表1所示。

表1.观测空间属性表

本发明实施例示例性的，基于电网潮流连续断面数据和观测空间，获得当前时刻观测状态的步骤包括：

读取数据文件中某一时刻的电网潮流断面数据，提取属于观测空间内的属性及数据，即获得初始观测状态S₀。进一步优选的，可支持用户选择随机读取形式或定向读取形式。

本发明实施例示例性的，基于待模拟电网运行环境的物理属性，生成当前时刻动作空间的步骤包括：

动作空间给出允许用户调整的电网物理属性及其在下一时刻的数据类型和数值取值范围；其中，以机组有功出力p为例，设当前时刻t第i台机组的有功出力实际值、有功出力下限值和有功出力上限值分别是为

则动作空间AS_t表示为：

AS_t＝{′adjust_p′:[low_value,high_value]}；

其中，n表示机组总数。

本发明实施例示例性的，获取外部输入的动作指令的步骤包括：读取用户提交的智能体算法文件，调用相关接口，接收智能体算法生成的调度指令，也称为动作A_t。进一步指出的是，系统会声明对文件命令、文件类型、接口命名等的具体要求，需用户配合。示例性的，例如：(1)用户需提交一个命名为model.zip的压缩文件。(2)压缩文件中有且仅有一个命名为agent.py的脚本文件。(3)脚本文件的代码中必须定义一个命名为Agent的类。

本发明实施例示例性的，判断动作A_t合法性的步骤包括：根据动作空间，对动作中各属性的数据类型和数值大小进行检查，如不符合动作空间要求，则返回错误信息并终止。

本发明实施例中，潮流计算的步骤包括：首先，计算动作A_t中各属性与当前时刻对应电网物理属性实际值之和，称为动作注入值；然后，读取下一时刻的潮流断面数据D^t并进行潮流计算。以机组有功出力p为例，设当前时刻第i台机组的有功出力实际值为

用户输入动作中有A_t＝{′adjust_p′:Δp^t}，

即第i台机组有功出力调整值为

则有公式如下所示：

其中，pre_p_i也表示潮流计算前的注入值，post_p_i表示潮流计算后的实际值，PowerFlow函数的计算过程由系统内置的潮流计算模块完成。

本发明实施例中，检查约束规则的步骤包括：基于不同电网运行场景设置各种约束规则，并对潮流计算后的电网运行状态进行检查，并自动对部分属性值进行调整。

本发明实施例中的部分运行规则如下：

线路电流越限约束：设线路i上的电流值为I_i，热极限值为T_i，有常数K＞1，有正整数N₁，N₂，若T_i＜I_i＜K·T_i，表示该线路“软过载”；若I_i≥K·T_i，表示该线路“硬过载”。任一线路电流连续N₁个时刻发生“软过载”，则该线路停运，即系统自动将该线路在当前时刻的连接状态修改成“断开”；任一线路一旦发生“硬过载”，则该线路立即停运；线路停运N₂个时刻之后，重新投运，即系统自动将该线路在下一时刻的连接状态修改成“连接”。

机组启停约束：有正整数N₃，N₄，任一机组停机后连续N₃个时间步内不允许重新启动，任一机组重新启动后连续N₄个时间步内不允许停机，即系统自动将该机组在当前时刻的有功出力值修改为上一时刻的有功出力值。

本发明实施例中，更新观测状态S_t+1的步骤包括：根据潮流计算结果和约束条件验证结果，对观测状态中的各属性值进行更新，以机组有功出力p为例，有

本发明实施例中，更新动作空间AS_t+1的步骤包括：根据观测状态S_t+1，计算下一时刻的动作空间AS_t+1中各属性的取值范围。以机组有功出力p为例，令

有

ActSp_t+1＝{′adjust_p′:[low_value,high_value]}；

本发明实施例中，计算奖励值R_t+1的步骤包括：系统根据用户输入动作A_t和当前时刻观测状态S_t计算奖励值R_t，公式如下所示：

基于不同电网运行场景提供常用奖励项供用户选择，并支持用户修改奖励项系数和自定义奖励项，系统提供的部分奖励项如下所示：

分别表示机组i的实际无功出力值和无功出力上下限。

本发明实施例中，系统对当前时刻电网运行状态是否满足以下条件进行判定：

(1)步骤7潮流计算后显示潮流未收敛；

(2)当前时刻达到最大时刻数；

若以上任一条件满足，则终止系统运行。

本发明提出了一种基于强化学习的电网运行环境模拟系统，帮助用户训练自己的智能体算法模型，通过用强化学习来解决电网调度问题，最终实现更好的调度效果。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，提供一种电网运行环境模拟系统，包括：

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于电网运行环境模拟方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电网运行环境模拟方法的相应步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电网运行环境模拟方法，其特征在于，包括以下步骤：

步骤7，基于下一时刻观测状态和所述外部输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟；其中，所述奖励值用于更新所述外部输入的动作指令；

步骤7中，所述基于下一时刻观测状态和所述外部输入的动作指令获得奖励值中，

奖励值R_t+1的计算表达式为，

式中，S_t和A_t分别表示t时刻的观测状态和动作，f表示映射函数t+1时刻的奖励值由t时刻的观测状态和动作共同决定，r_m和k_m表示不同的奖励项及对应系数；

分别表示机组i的实际无功出力值和无功出力上下限。

2.根据权利要求1所述的一种电网运行环境模拟方法，其特征在于，在步骤7之后还包括：

(1)步骤4潮流计算后显示潮流未收敛；

(2)当前时刻达到预设的最大时刻数；

3.根据权利要求1所述的一种电网运行环境模拟方法，其特征在于，动作空间包括允许调整的电网物理属性及其在下一时刻的数据类型和数值取值范围。

4.根据权利要求3所述的一种电网运行环境模拟方法，其特征在于，步骤4中，所述根据当前时刻动作空间判定动作指令的合法性，若不合法则终止的步骤具体包括：

5.根据权利要求1所述的一种电网运行环境模拟方法，其特征在于，步骤5中，所述预设的约束规则包括：

线路电流越限约束：设线路i上的电流值为I_i、热极限值为T_i、常数K＞1，有正整数N₁，N₂，若T_i<I_i<K·T_i，表示该线路软过载；若I_i≥K·T_i，表示该线路硬过载；任一线路电流连续N₁个时刻发生软过载，则该线路停运；任一线路发生硬过载，则该线路停运；线路停运N₂个时刻之后，重新投运；

6.一种电网运行环境模拟系统，其特征在于，包括：

模拟实现模块，用于基于下一时刻观测状态和所述外部输入的动作指令获得奖励值，完成基于强化学习的电网运行环境模拟；其中，所述奖励值用于更新所述外部输入的动作指令；

所述基于下一时刻观测状态和所述外部输入的动作指令获得奖励值中，

奖励值R_t+1的计算表达式为，

分别表示机组i的实际无功出力值和无功出力上下限。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的电网运行环境模拟方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的电网运行环境模拟方法。