CN115241885B

CN115241885B - 电网实时调度优化方法、系统、计算机设备及存储介质

Info

Publication number: CN115241885B
Application number: CN202210886335.2A
Authority: CN
Inventors: 杨楠; 黄宇鹏; 李立新; 刘金波; 宋旭日; 于钊; 罗雅迪; 常乃超; 俞灵; 於益军; 万雄; 韩昳; 蔡宇; 齐晓琳; 邱成建; 卫泽晨; 刘幸蔚; 张风彬; 许丹; 陶蕾
Original assignee: China Electric Power Research Institute Co Ltd CEPRI
Current assignee: China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-12-20
Anticipated expiration: 2042-07-26
Also published as: CN115241885A; WO2024022194A1

Abstract

本发明属于电力自动化领域，公开了一种电网实时调度优化方法、系统、计算机设备及存储介质，包括获取电网模型参数以及电网运行数据；根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。采用强化学习的方式能够融合电网的海量运行数据以及潮流计算仿真模拟技术，且不需要像传统算法一样建立复杂且难以求解的计算模型，进而实现电网实时调度的快速优化调整，降低优化调整成本，并提升电网实时调度与实际运行的匹配度。解决了针对电网实时调度优化问题，由于新型电力系统强不确定性及快速增长的控制规模等特性，导致现有算法存在的考虑不确定因素建模难以及求解大规模优化计算慢的缺陷。

Description

电网实时调度优化方法、系统、计算机设备及存储介质

技术领域

本发明属于电力自动化领域，涉及一种电网实时调度优化方法、系统、计算机设备及存储介质。

背景技术

电力系统是一个发、用电实时平衡系统，需要调度人员根据电网运行情况实时进行调度操作以保障电网安全运行，由于实时性强调度人员往往依据经验或者实时调度优化结果进行调度调整操作。目前，实时调度优化调整是在满足安全和电能质量的前提下，合理利用能源和设备，以最低的发电成本或燃料费用，来保障电网电力实时平衡，其本质上是多重约束的多目标优化问题。而随着传统电力系统向新型电力系统的转型升级，电网控制规模呈指数级增长，控制对象特性差异极大，源荷双侧不确定性增加，实时调度优化调整将会呈现高维、非线性及非凸的复杂特征，实时调度将面临严峻挑战。

目前，已经应用在实时调度优化调整中的智能算法有遗传算法以及粒子群优化算法等。如，中国专利申请CN105046395A，公开了一种含多类型新能源的电力系统日内滚动计划编制方法，包括：步骤1：根据编制要求确定约束条件、优化目标和相应算法选项；步骤2：建立基于鲁棒调度的日内滚动模型，采用原始对偶内点算法或其他非线性规划算法求解调度模型；步骤3：通过采用多时间尺度的电力系统鲁棒调度系统的静态安全校核服务以实现鲁棒调度日内计划的静态安全校核；步骤4：采用多时间尺度的电力系统鲁棒调度系统将经过安全校核的滚动调度计划以文件方式或者自动发布的方式发布到能量管理系统。

然而，不论是遗传算法以及粒子群优化算法，还是上述专利申请中涉及的智能算法，它们在本质上都是基于模型驱动的优化算法，这类算法在面对新型电力系统的强不确定性及快速增长的控制规模等变化时，均存在着多不确定因素建模难及求解大规模优化模型计算慢等问题，电网实时调度优化难度较大。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种电网实时调度优化方法、系统、计算机设备及存储介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，提供一种电网实时调度优化方法，包括：获取电网模型参数以及电网运行数据；根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。

可选的，所述根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略时，还包括：获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

可选的，所述电网实时调度强化学习训练模型包括智能体和强化学习训练环境；所述通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略包括：重复交互步骤至预设次数；其中，交互步骤包括：强化学习训练环境根据电网模型参数以及电网运行数据，通过预设的潮流模拟函数得到状态空间，并根据状态空间通过预设的奖励反馈函数得到奖励反馈，并将状态空间和奖励反馈发送至智能体；智能体根据状态空间和奖励反馈，得到动作策略并发送至强化学习训练环境；强化学习训练环境根据动作空间校验动作策略，并通过执行校验通过的动作策略更新电网运行数据；将奖励反馈最高时所执行的动作策略作为电网实时调度调整策略。

可选的，所述动作空间包括火电机组、PV型新能源发电机组、PQ型新能源发电机组以及储能电池的动作变量和动作约束；其中，火电机组的动作变量包括有功功率调整量和机端电压调整量；PV型新能源发电机组的动作变量包括有功功率调整量和机端电压调整量；PQ型新能源发电机组的动作变量包括有功功率调整量和无功功率调整量；储能电池的动作变量包括有功功率调整量；火电机组的动作约束包括机组出力约束、机组出力爬坡约束、火电机组机端电压约束以及机组启停约束；PV型新能源发电机组的动作约束包括新能源机组机端电压约束和PV型新能源允许最大出力约束；PQ型新能源发电机组的动作约束包括PQ型新能源允许最大出力约束和机组无功约束；储能电池的动作约束包括电池充放电约束和电池容量约束。

可选的，所述强化学习训练环境的状态空间包括机组有功出力、机组无功出力、机组电压幅值、负荷有功、负荷无功、负荷电压幅值、储能电池充放电功率、线路状态、线路负载率、电网损耗、下一时间步的合法动作空间、机组启停状态、当前时间步新能源机组的最大有功出力、下一时间步新能源机组的最大有功出力、下一时间步的负荷以及潮流收敛标志。

可选的，所述状态空间还包括机组日前计划有功出力参考值。

可选的，所述奖励反馈函数为加权叠加机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本、线路负载率以及节点电压越限度；其中，机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本以及节点电压越限度的权重系数为负数，线路负载率的权重系数为正数。

本发明第二方面，提供一种电网实时调度优化系统，包括：

数据获取模块，用于获取电网模型参数以及电网运行数据；优化处理模块，用于根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。

可选的，还包括故障设置模块，所述故障设置模块用于获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

可选的，所述电网实时调度强化学习训练模型包括智能体和强化学习训练环境；所述优化处理模块具体用于：重复交互步骤至预设次数；其中，交互步骤包括：强化学习训练环境根据电网模型参数以及电网运行数据，通过预设的潮流模拟函数得到状态空间，并根据状态空间通过预设的奖励反馈函数得到奖励反馈，并将状态空间和奖励反馈发送至智能体；智能体根据状态空间和奖励反馈，得到动作策略并发送至强化学习训练环境；强化学习训练环境根据动作空间校验动作策略，并通过执行校验通过的动作策略更新电网运行数据；将奖励反馈最高时所执行的动作策略作为电网实时调度。

本发明第三方面，提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述电网实时调度优化方法的步骤。

本发明第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述电网实时调度优化方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明电网实时调度优化方法，通过获取电网模型参数以及电网运行数据，然后通过预设的电网实时调度强化学习训练模型进行电网实时调度的优化调整采用强化学习的方式能够融合电网的海量运行数据以及潮流计算仿真模拟技术，且不需要像传统算法一样建立复杂且难以求解的计算模型，进而实现电网实时调度的快速优化调整，降低优化调整成本，并有效提升电网实时调度调整策略与实际运行的匹配度。有效解决了针对电网实时调度优化问题，由于新型电力系统的强不确定性、快速增长的控制规模等特性，导致现有算法存在的考虑不确定因素建模难以及求解大规模优化计算慢等问题。

附图说明

图1为本发明实施例的电网实时调度优化方法流程图。

图2为本发明实施例的智能体和强化学习训练环境交互流程图。

图3为本发明实施例的智能体结构示意图。

图4为本发明实施例的电网实时调度强化学习训练模型原理示意图。

图5为本发明实施例的智能体与强化学习训练环境交互训练流程图。

图6为本发明实施例的电网实时调度优化系统结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如背景技术中所介绍的，目前针对电网实时调度的优化问题，不论是遗传算法以及粒子群优化算法，还是其他传统智能优化算法，它们在本质上都是基于模型驱动的优化算法，这类算法在面对新型电力系统的强不确定性及快速增长的控制规模等变化时，均存在着多不确定因素建模难及求解大规模优化模型计算慢等问题，电网实时调度优化难度较大。

为了改善上述问题，本发明实施例提供了一种电网实时调度优化方法，包括获取电网模型参数以及电网运行数据；根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。采用强化学习的方式能够融合电网的海量运行数据以及潮流计算仿真模拟技术，且不需要像传统算法一样建立复杂且难以求解的计算模型，进而实现电网实时调度的快速优化调整，降低优化调整成本，并有效提升电网实时调度调整策略与实际运行的匹配度。有效解决了针对电网实时调度优化问题，由于新型电力系统的强不确定性、快速增长的控制规模等特性，导致现有算法存在的考虑不确定因素建模难以及求解大规模优化计算慢等问题。下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供一种电网实时调度优化方法，其基于强化学习训练实现电网实时调度优化，为基于数据驱动的智能分析算法来探索实现电网实时调度优化调整提供新思路，有效提升电网实时调度优化的速度和准确性。

具体的，该电网实时调度优化方法包括以下步骤：

S1：获取电网模型参数以及电网运行数据。

S2：根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。

具体的，针对电网实时调度优化问题，由于新型电力系统的强不确定性、快速增长的控制规模等特性，导致算法存在着考虑不确定因素建模难以及求解大规模优化计算慢等问题。而本发明电网实时调度优化方法，通过预设的电网实时调度强化学习训练模型实现优化，采用强化学习的方式能够融合电网的海量运行数据以及潮流计算仿真模拟技术，且不需要像传统算法一样建立复杂且难以求解的计算模型，进而实现电网实时调度的快速优化调整，降低优化调整成本，并有效提升电网实时调度调整策略与实际运行的匹配度。

在一种可能的实施方式中，所述根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略时，还包括：获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

具体的，针对电网实时调度优化来说，需要充分考虑电网的实际运行情况，而输电线路由于长时间过载引发的开断过程或者设备故障情况在实际中有可能会发生，因此，在进行电网实时调度的优化调整时，需要先获取电网的设备故障信息，以此为基础更新电网模型参数，对电网的基础模型进行修改，对相关支路设备进行断开，以此来保证优化后的电网实时调度的实用性。

在一种可能的实施方式中，电网模型参数可以是一种xml格式的文本文件，描述的是电网计算模型，主要包括计算母线、支路、机组、负荷、直流支路以及换流器六个对象，在通过电网实时调度强化学习训练模型训练前可根据需求将电网模型参数根据文件格式进行修改，从文件读取的模型称为基础模型。

其中，计算母线对象主要包括母线名称、节点类型、电压幅值、电压相角、基准电压、节点最大电压以及节点最小电压等内容。支路对象主要包括首端连接母线序号、末端连接母线序号、支路类型、电阻、电抗、电纳、变压器最后变比、相角、基准电压以及电流上限等内容。机组对象包括机组类型、所在母线节点、给定电压、给定相角、最大电压、最小电压、额定容量、有功下限、有功上限、无功下限、无功上限、给定有功以及给定无功等内容。负荷对象包括节点类型、所在母线节点、给定电压、给定相角、给定有功、给定无功、有功下限、有功上限、无功下限以及无功上限等内容；直流线路对象主要包括首端连接母线序号、末端连接母线序号、电阻、额定容量等内容。换流器对象主要包括换流变节点、换流变和换流器相连节点、正极节点、负极节点、正极节点对应母线、负极节点对应母线逻辑号、变压器的交流电阻、变压器的交流电抗、换流变档位、换相电抗、换流器降压运行电压、换流变有功、换流变无功、直流功率、直流电压以及直流电流等内容。

基于基础模型，需要读取电网运行数据，按母线节点计算节点注入功率，计算规则如下：PV节点：计算节点有功注入功率，由该节点上机组（包括储能电池）和负荷组成，节点电压由机组电压决定，无需计算节点无功功率。PQ节点：计算节点有功注入功率和无功注入功率，由该节点上机组（包括储能电池）和负荷组成，无需计算节点电压。平衡节点：节点电压由平衡机组两端电压决定，无需计算节点有功功率和无功功率。其中，PV节点为已知节点注入有功和电压值的节点，PQ节点为已知节点注入有功和节点注入无功的节点。

参见图2，强化学习训练模型一般包括智能体和强化学习训练环境，智能体和强化学习训练环境的大致交互流程如下：在t-1时刻智能体获取强化学习训练环境的环境状态变量，然后给出t时刻的动作策略，强化学习训练环境t时刻执行动作策略后，反馈给智能体t时刻的环境状态变量和反馈奖励分数，以供智能体进行下一时刻的动作策略生成。

而对于电网实时调度强化学习训练模型来说，参见图3，构建智能体可以采用目前成熟的行动者-评价者（A-C，Actor-Critic）架构来构建，图中，a _t是t时刻实时调度调整策略，s _t是t时刻训练环境状态变量，s _t+1是t+1时刻训练环境状态变量，r _t是t时刻训练环境反馈奖励分数；TD_error=γV _t + r _t -V _t+1；其中，γ是预设的衰减系数，V _t+1是t+1时刻智能体对实时调度调整策略评价。其包含Actor网络和Critic网络，根据马尔科夫决策过程，动作者(Actor）负责动作策略学习，目标是最大化价值函数确定最优策略；评价者（Critic）目标是学习最优价值函数，一般采用时间差分方法TD_error让智能体与环境交互使得损失函数较小。

在一种可能的实施方式中，所述通过预设的电网实时调度强化学习训练模型，得到电网实时调度包括：重复交互步骤至预设次数；其中，交互步骤包括：强化学习训练环境根据电网模型参数以及电网运行数据，通过预设的潮流模拟函数得到状态空间，并根据状态空间通过预设的奖励反馈函数得到奖励反馈，并将状态空间和奖励反馈发送至智能体；智能体根据状态空间和奖励反馈，得到动作策略并发送至强化学习训练环境；强化学习训练环境根据动作空间校验动作策略，并通过执行校验通过的动作策略更新电网运行数据；然后，将奖励反馈最高时所执行的动作策略作为电网实时调度调整策略。

具体的，电网实时调度强化学习训练模型包括动作空间、状态空间、潮流模拟函数以及奖励反馈函数。其中，一般从动作对象、动作变量及动作约束三个方面进行动作空间的设计，而状态空间的设计则需要充分考虑强化学习训练机制、动作对象电气特性和静态参数、电网模型参数和电网设备的电气特性以及智能体需要的状态量等信息。同时，基于强化学习的应用，可以将未来电网实时调度的参与调节对象将从单一的常规能源发电机组转变为灵活改造机组、新能源、储能、抽蓄等调节对象多电气量调节，因此，强化学习训练环境需要考虑多种调节对象。

在一种可能的实施方式中，所述动作空间包括火电机组、PV型新能源发电机组、PQ型新能源发电机组以及储能电池的动作变量和动作约束；其中，火电机组的动作变量包括有功功率调整量和机端电压调整量；PV型新能源发电机组的动作变量包括有功功率调整量和机端电压调整量；PQ型新能源发电机组的动作变量包括有功功率调整量和无功功率调整量；储能电池的动作变量包括有功功率调整量；火电机组的动作约束包括机组出力约束、机组出力爬坡约束、火电机组机端电压约束以及机组启停约束；PV型新能源发电机组的动作约束包括新能源机组机端电压约束和PV型新能源允许最大出力约束；PQ型新能源发电机组的动作约束包括PQ型新能源允许最大出力约束和机组无功约束；储能电池的动作约束包括电池充放电约束和电池容量约束。

具体的，针对电网中的火电机组，一般将火电机组分为两类，一类是常规的火电机组，其动作变量是有功功率和机端电压，另一类是用于电力平衡的火电机组，不用于进行实时调度调整，根据电网不平衡量自动进行出力调整。因此，对常规的火电机组进行动作空间设计，在t时刻常规的火电机组的动作空间表达式为：

，其中，

是火电机组的有功功率调整量，

是火电机组的机端电压调整量，I是常规的火电机组的数量，i= 1，…，I。

针对电网中的新能源发电机组，在强化学习训练环境中新能源发电机组依据所在节点类型而被分为PV型新能源发电机组和PQ型新能源发电机组，位于PV节点的新能源发电机组为PV型新能源发电机组，位于PQ节点的新能源发电机组为PQ型新能源发电机组。

具体的，对PV型新能源发电机组进行动作空间设计，t时刻的动作空间表达式为：

，其中，

是PV型新能源发电机组的有功功率调整量，

是PV型新能源发电机组的机端电压调整量，J是PV型新能源发电机组数量，j=1，…，J。对PQ型新能源发电机组进行动作空间设计，t时刻的动作空间表达式为：

，其中，

是 PQ型新能源发电机组的有功功率调整量，

是PQ型新能源发电机组的无功功率调整量，Z是PQ型新能源发电机组数量，z=1，…，Z。

针对电网中的储能电池，其在电网中主要用于电网调峰填谷，而在强化学习训练环境也要模拟这一作用，对储能电池进行动作空间设计，t时刻的动作空间表达式为：

，其中，

是储能电池的有功功率调整量，B是储能电池数量，b=1，…，B。

同时，动作空间边界不是无限的，智能体需要在决策时从强化学习训练环境中获取合法动作空间，其依据机组自身属性和运行状态动态变化。

对于火电机组来说，主要考虑以下动作约束：

机组出力约束：

其中，P _i,t是火电机组i在t时刻的有功出力；

是火电机组i在t时刻的有功调整量；

是火电机组i在t时刻最小有功出；

是火电机组i在t时刻最大有功出力。

机组出力爬坡约束：

其中，

是火电机组i的下爬坡限值；

是火电机组i的上爬坡限值。

火电机组机端电压约束：

其中，

是火电机组i的机端电压下限，

是火电机组i的机端电压上限，

是火电机组i在t-1时刻的机端电压值，

表火电机组i在t时刻的机端电压调整量。

机组启停约束：火电机组投入运行后必须持续运行一段时间T _i,on才允许停机，一旦停机后，必须持续停运一定时间T _i,off才允许再开机。由于火电机组运行的特性，火电机组需满足一定的开机曲线和停机曲线，一般开机有功出力必须调整至有功出力下限，停运前有功出力必须调整至出力下限，下一时刻再调整至0。

具体的，火电机组的有功功率调整量的合法边界由机组出力约束、机组出力爬坡约束以及机组启停约束共同决定，满足的次序是先依据机组启停约束观察是否符合正常出力情况，如果符合则取机组出力约束和机组出力爬坡约束的交集作为合法边界，如不符合则按照机组启停约束作为合法边界；火电机组的机端电压调整量的合法边界由火电机组机端电压约束决定。

新能源发电机组受天气影响其合法动作空间边界不能超过当时可发出的最大出力。其中，对于PV型新能源发电机组来说，主要考虑以下动作约束：

新能源机组机端电压约束：

其中，

是PV型新能源发电机组j的机端电压下限，

是PV型新能源发电机组j 的机端电压上限，

是PV型新能源发电机组j在t-1时刻的机端电压值，

表PV 型新能源发电机组j在t时刻的机端电压调整量。

PV型新能源允许最大出力约束：

其中，

是PV型新能源发电机组j的下爬坡限值，

是PV型新能源发电机组j在t时刻的实际最大出力。

PV型新能源发电机组的机端电压调整量的合法边界由新能源机组机端电压约束决定，有功功率调整量的合法边界由PV型新能源允许最大出力约束决定。

对于PQ型新能源发电机组来说，主要考虑以下动作约束：

PQ型新能源允许最大出力约束：

其中，

是PQ型新能源发电机组z的下爬坡限值，

是PQ型新能源发电机组z在t时刻的实际最大出力。

机组无功约束：

其中，

是PQ型新能源发电机组z的无功最小出力，

是PQ型新能源发电机组z在t-1时刻的出力，

是PQ型新能源发电机组z的无功功率调整量，

是PQ型新能源发电机组z的无功最大出力。

PQ型新能源发电机组的无功功率调整量的合法边界由机组无功约束决定，有功功率调整量的合法边界由PQ型新能源允许最大出力约束决定。

对于储能电池来说，主要考虑以下动作约束：

电池充放电约束：

其中，

是储能电池b的最大放电功率，

是储能电池b的最大充电功率。

电池容量约束：

其中，E _b,t-1是储能电池b在t-1时刻的电池剩余容量，E _i,max是储能电池b的额定电量。

因此，储能电池的有功功率调整量的合法边界由电池充放电约束和电池容量约束的交集决定。

在一种可能的实施方式中，所述强化学习训练环境的状态空间包括机组有功出力、机组无功出力、机组电压幅值、负荷有功、负荷无功、负荷电压幅值、储能电池充放电功率、线路状态、线路负载率、电网损耗、下一时间步的合法动作空间、机组启停状态、当前时间步新能源机组的最大有功出力、下一时间步新能源机组的最大有功出力、下一时间步的负荷以及潮流收敛标志。

具体的，在状态空间的设置上，强化学习训练环境综合考虑了强化学习训练机制、动作对象电气特性和静态参数、电网模型参数和电网设备的电气特性，以及智能体需要的状态量，状态空间是随着时间步变化的。

在一种可能的实施方式中，所述状态空间还包括机组日前计划有功出力参考值。具体的，为了加快智能体训练速度，强化学习训练环境通过提供日前计划机组有功出力参考值，来有效缩减动作空间的搜索范围。

在一种可能的实施方式中，所述电网实时调度强化学习训练模型的潮流模拟函数可以采用牛顿拉夫逊法，通过牛顿拉夫逊法进行潮流计算，不平衡功率全部由平衡发电机来承担。如果出现电气岛解列或者潮流不收敛情况则环境中止运行。

在一种可能的实施方式中，奖励反馈函数是影响智能体学习训练效果的重点，在实施方式中，奖励反馈函数综合考虑了机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本和一些安全运行奖励反馈，具体的，奖励反馈函数为加权叠加机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本、线路负载率以及节点电压越限度；其中，机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本以及节点电压越限度的权重系数为负数，线路负载率的权重系数为正数。

其中，机组发电成本采用二次曲线建模，机组在t时刻的发电成本如下所示：

其中，P _i,t表示机组ix在t时刻的出力，a _ix是机组ix发电成本的二次项系数，b _ix是机组ix发电成本的一次项系数，c _ix是机组ix发电成本的常数项系数。

机组碳排放成本中火电机组是碳排放的主要来源，一般用二次曲线建模，火电机组i在t时刻碳排放成本为：

由于新能源机组的碳排放几乎没有，因此机组碳排放成本如下所示：

其中，α _i是火电机组i碳排放成本二次项系数，β _i是火电机组i碳排放成本一次项系数，γ _i是火电机组i碳排放成本常数项系数。

储能电池损耗成本中，储能电池的充电和放电都会影响其寿命，一般用二次曲线对储能电池损耗建模，储能电池损耗成本如下所示：

其中，λ _s表示储能电池s损耗成本的二次项系数，η _s表示储能电池s损耗成本的常数项系数。

在训练环境中由平衡机进行系统不平衡功率分摊，但是一旦超过平衡机组运行允许限值则要使用备用容量，备用容量使用成本如下所示：

其中，P _n,t是平衡机n在k时刻出力，

是平衡机n的最大出力，

是平衡机n的最小出力。

线路负载率如下所示：

其中，I _jx,t是支路jx在t时刻的电流值，通过电网环境潮流计算得到，I _max,jx是支路jx的热稳极限，Jx是支路个数，ε为极小常数，避免出现分母为零的情况。

节点电压越限度如下所示：

其中，G是电网节点个数，V _g,t是节点g的电压值，

是节点g的电压上限，

是节点g的电压下限。

因此，在t时刻的奖励反馈分数R _t如下所示：

其中，w _i（i=1,…,6）是奖励权重系数。

在一种可能的实施方式中，参见图4，所述电网实时调度强化学习训练模型，智能体根据状态空间和奖励反馈给出动作策略。首先，基于获取的电网模型参数构建计算模型，然后加载获取的电网运行数据，接着根据动作变量和动作约束对动作策略的合法性进行判断，然后设置故障设备情况，接着引用潮流模拟动态库，调用潮流模拟函数，运行潮流模拟函数计算后返回状态空间，并进行奖励分数计算再传递给智能体。其中，可通过pybind11将调用的函数和变量进行封装生成供python调用的动态库，即潮流模拟动态库。

在一种可能的实施方式中，由于基于强化学习的电网实时调度强化学习训练模型的智能体训练需要与强化学习训练环境交互训练，一般按照回合机制进行，即与强化学习训练环境交互一定步骤即结束反馈。考虑到对智能体训练的需求不同，每个回合的交互次数和回合训练次数也不同，参见图5，交互训练流程如下：

步骤1、初始化回合数。

步骤2、判断是否达到最大回合数，在未达到最大回合数时，进行步骤3，在达到最大回合数时，交互训练流程结束。

步骤3、初始化强化学习训练环境和时间步数。

步骤4、智能体获取强化学习训练环境的环境状态和奖励反馈分数，并根据强化学习训练环境的环境状态和奖励反馈分数生成动作策略。

步骤5、进行动作策略的合法性判断，当动作策略合法时进行步骤6，当动作策略不合法时，该回合的交互训练结束，回合数加1并返回步骤2。

步骤6、强化学习训练环境执行动作策略。

步骤7、强化学习训练环境进行牛顿拉夫逊潮流计算，获取下一时间步强化学习训练环境的环境状态。

步骤8、通过奖励反馈函数计算奖励反馈分数，并反馈至步骤4。

步骤9、更新强化学习训练环境的环境状态，该回合的时间步加1。

步骤10、判断强化学习训练环境的潮流结果是否收敛，当潮流结果收敛时，判断是否达到该回合的最大时间步数，当达到该回合的最大时间步数时，该回合的交互训练结束，回合数加1并返回步骤2，否则，返回步骤4；当潮流结果不收敛时，交互训练流程结束。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未披露的细节，请参照本发明方法实施例。

参见图6，本发明再一实施例中，提供一种电网实时调度优化系统，能够用于实现上述的电网实时调度优化方法，具体的，该电网实时调度优化系统包括数据获取模块以及优化处理模块。其中，数据获取模块用于获取电网模型参数以及电网运行数据；优化处理模块用于根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略。

在一种可能的实施方式中，还包括故障设置模块，所述故障设置模块用于获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

在一种可能的实施方式中，所述电网实时调度强化学习训练模型包括智能体和强化学习训练环境；所述优化处理模块具体用于：重复交互步骤至预设次数；其中，交互步骤包括：强化学习训练环境根据电网模型参数以及电网运行数据，通过预设的潮流模拟函数得到状态空间，并根据状态空间通过预设的奖励反馈函数得到奖励反馈，并将状态空间和奖励反馈发送至智能体；智能体根据状态空间和奖励反馈，得到动作策略并发送至强化学习训练环境；强化学习训练环境根据动作空间校验动作策略，并通过执行校验通过的动作策略更新电网运行数据；将奖励反馈最高时所执行的动作策略作为电网实时调度调整策略。

在一种可能的实施方式中，状态空间还包括机组日前计划有功出力参考值。

在一种可能的实施方式中，所述奖励反馈函数为加权叠加机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本、线路负载率以及节点电压越限度；其中，机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本以及节点电压越限度的权重系数为负数，线路负载率的权重系数为正数。

前述的电网实时调度优化方法的实施例涉及的各步骤的所有相关内容均可以援引到本发明施例中的电网实时调度优化系统所对应的功能模块的功能描述，在此不再赘述。

本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本发明各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于电网实时调度优化方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质（Memory），所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电网实时调度优化方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种电网实时调度优化方法，其特征在于，包括：

获取电网模型参数以及电网运行数据；

根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略；

所述电网实时调度强化学习训练模型包括智能体和强化学习训练环境；

所述通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略包括：

重复交互步骤至预设次数；其中，交互步骤包括：强化学习训练环境根据电网模型参数以及电网运行数据，通过预设的潮流模拟函数得到状态空间，并根据状态空间通过预设的奖励反馈函数得到奖励反馈，并将状态空间和奖励反馈发送至智能体；智能体根据状态空间和奖励反馈，得到动作策略并发送至强化学习训练环境；强化学习训练环境根据动作空间校验动作策略，并通过执行校验通过的动作策略更新电网运行数据；

将奖励反馈最高时所执行的动作策略作为电网实时调度调整策略；

所述强化学习训练环境的状态空间包括机组有功出力、机组无功出力、机组电压幅值、负荷有功、负荷无功、负荷电压幅值、储能电池充放电功率、线路状态、线路负载率、电网损耗、下一时间步的合法动作空间、机组启停状态、当前时间步新能源机组的最大有功出力、下一时间步新能源机组的最大有功出力、下一时间步的负荷以及潮流收敛标志；

所述奖励反馈函数为加权叠加机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本、线路负载率以及节点电压越限度；其中，机组发电成本、机组碳排放成本、储能电池损耗成本、备用容量使用成本以及节点电压越限度的权重系数为负数，线路负载率的权重系数为正数。

2.根据权利要求1所述的电网实时调度优化方法，其特征在于，所述根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略时，还包括：

获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

3.根据权利要求1所述的电网实时调度优化方法，其特征在于，所述动作空间包括火电机组、PV型新能源发电机组、PQ型新能源发电机组以及储能电池的动作变量和动作约束；其中，火电机组的动作变量包括有功功率调整量和机端电压调整量；PV型新能源发电机组的动作变量包括有功功率调整量和机端电压调整量；PQ型新能源发电机组的动作变量包括有功功率调整量和无功功率调整量；储能电池的动作变量包括有功功率调整量；火电机组的动作约束包括机组出力约束、机组出力爬坡约束、火电机组机端电压约束以及机组启停约束；PV型新能源发电机组的动作约束包括新能源机组机端电压约束和PV型新能源允许最大出力约束；PQ型新能源发电机组的动作约束包括PQ型新能源允许最大出力约束和机组无功约束；储能电池的动作约束包括电池充放电约束和电池容量约束。

4.根据权利要求1所述的电网实时调度优化方法，其特征在于，所述状态空间还包括机组日前计划有功出力参考值。

5.一种电网实时调度优化系统，其特征在于，包括：

数据获取模块，用于获取电网模型参数以及电网运行数据；

优化处理模块，用于根据电网模型参数以及电网运行数据，通过预设的电网实时调度强化学习训练模型，得到电网实时调度调整策略；

所述优化处理模块具体用于：

将奖励反馈最高时所执行的动作策略作为电网实时调度；

6.根据权利要求5所述的电网实时调度优化系统，其特征在于，还包括故障设置模块，所述故障设置模块用于获取电网的设备故障信息，并根据设备故障信息更新电网模型参数。

7.根据权利要求5所述的电网实时调度优化系统，其特征在于，所述动作空间包括火电机组、PV型新能源发电机组、PQ型新能源发电机组以及储能电池的动作变量和动作约束；其中，火电机组的动作变量包括有功功率调整量和机端电压调整量；PV型新能源发电机组的动作变量包括有功功率调整量和机端电压调整量；PQ型新能源发电机组的动作变量包括有功功率调整量和无功功率调整量；储能电池的动作变量包括有功功率调整量；火电机组的动作约束包括机组出力约束、机组出力爬坡约束、火电机组机端电压约束以及机组启停约束；PV型新能源发电机组的动作约束包括新能源机组机端电压约束和PV型新能源允许最大出力约束；PQ型新能源发电机组的动作约束包括PQ型新能源允许最大出力约束和机组无功约束；储能电池的动作约束包括电池充放电约束和电池容量约束。

8.根据权利要求5所述的电网实时调度优化系统，其特征在于，所述状态空间还包括机组日前计划有功出力参考值。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述电网实时调度优化方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述电网实时调度优化方法的步骤。