CN115085202A

CN115085202A - 电网多区域智能功率协同优化方法、装置、设备及介质

Info

Publication number: CN115085202A
Application number: CN202210887179.1A
Authority: CN
Inventors: 陆亚楠; 杨胜春; 李亚平; 毛文博; 耿建; 李峰; 王勇; 朱克东; 严嘉豪; 刘建涛; 钱甜甜
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Beijing Electric Power Co Ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-09-20

Abstract

本发明公开了一种电网多区域智能功率协同优化方法、装置、设备及介质。方法包括：将电网分为若干个区域，每个区域内设置有预训练好的智能体；其中，电网的每个区域内均接入有分布式可调节资源；获取电网状态的观测量；将电网状态的观测量输入到预训练好的智能体中，得到输出结果；将输出结果生成电网中分布式可调节资源的调节指令。本发明将电网分为若干个区域，每个区域内设置预训练好的智能体，通过智能体来输出分布式可调节设备的控制指令，所构建的多智能体能够显著提升调度的决策速度效率与质量，提高新能源消纳率，保障系统的安全稳定性；智能体可利用各自的观测量进行分散决策，可以适应不同决策主体观测量首先的现实量测条件。

Description

电网多区域智能功率协同优化方法、装置、设备及介质

技术领域

本发明属于电网运行优化技术领域，具体涉及一种电网多区域智能功率协同优化方法、装置、设备及介质。

背景技术

近年来，分布式光伏、电动汽车、温控负荷等灵活性资源大量接入电网。这些灵活性资源具有出力小，波动性与随机性大的特点。大量的灵活性负荷接入电网，增加了电网复杂性，给电力系统调度控制带来了很大的挑战。目前，传统的集中式调度是目前电力行业运用最为广泛的方法。这种方法将所有信息集中在调度中心进行统一运算，具有单点故障率高、模型复杂、计算成本大等缺点，难以应用在短时间尺度下的电网调度。在此背景下，为了减轻电网调度的压力，将配电网分成多个区域，研究以区域内灵活性资源自发自用，新能源就地消纳；区域间相互协同，减少主网调度压力为目的的电力系统调度控制问题很有必要。

面向海量分布式可调节资源，通过聚合，形成多个利益主体，不同主体依据自身观测的局部信息，通过合作，完成控制区域内的功率调节，实现功率平衡、电压稳定、频率稳定等电网调度控制目标，是源网荷储协同互动，提升分布式新能源消纳的重要手段。为了实现分布式资源的分区就地消纳，跨区协同互动，将配电网分成多个区域，研究以区域内灵活性资源自发自用，新能源就地消纳；区域间相互协同，减少主网调度压力为目的的电力系统调度控制问题很有必要。在多区域互联的电力系统中，采用分区域控制的方法，实现各个分区的功率平衡，同时兼顾对相邻区域的功率支援，从而实现整个交流电力系统的功率平衡。

目前常用的调度控制手段主要依赖传统数学优化模型。其中，确定性优化模型将负荷预测值、新能源出力预测值作为实际出力，由于负荷和新能源天然具有的波性、随机性及随机性，其预测值往往不准确，这使确定性优化模型的优化结果与预期值偏差较大。不确定优化模型包括鲁棒优化法等，其模型复杂度高、计算时间长，难以应用于短时间尺度的电网控制。

发明内容

本发明的目的在于提供一种电网多区域智能功率协同优化方法、装置、设备及介质。以解决现有技术中采用传统数学优化模型进行电网调度，导致复杂度高、计算时间长，难以应用于短时间尺度的电网控制的问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的一方面，提供了一种电网多区域智能功率协同优化方法，包括如下步骤：

获取电网状态的观测量；

将所述电网状态的观测量输入到所述预训练好的智能体中，得到输出结果；其中，电网分为若干个区域，每个区域内设置有预训练好的智能体，每个所述区域内均接入有分布式可调节资源；

将所述输出结果生成电网中分布式可调节资源的调节指令。

作为本发明可选的一种方案，将所述输出结果生成电网中分布式可调节资源的调节指令的步骤之前，还包括步骤：

对所述输出结果进行安全校验；

当安全校验通过，将所述输出结果用于生成电网中分布式可调节资源的调节指令的步骤中；

否则，对所述输出结果进行校正，将校正后的输出结果用于生成电网中分布式可调节资源的调节指令的步骤中。

作为本发明可选的一种方案，所述每个区域内设置有所述预训练好的智能体的步骤中，所述智能体的训练方式如下：

初始化电网中所有区域的智能体的参数；其中，所述智能体包括动作器和评价器；

将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互，以累计经验；

利用MADDPG算法对所有累积经验后的智能体进行集中训练，计算策略损失以更新动作器和评价器；

依据更新后的动作器和评价器更新智能体的网络参数，得到训练好的智能体。

作为本发明可选的一种方案，所述初始化电网中所有区域的智能体的参数的步骤，具体包括：

基于预设的调度动作数据库训练所述智能体，得到所述智能体预优化后的网络参数；

将所述预优化后的网络参数复制到电网中所有区域的智能体，完成智能体参数的初始化。

作为本发明可选的一种方案，所述计算策略损失以更新动作器和评价器的步骤中，依据下式更新评价器θ_i：

其中，Q为评价器的损失函数，

为评价器的学习率，

为对应状态

和动作

的及时奖励；N为训练过程中从经验缓冲池中抽取的样本数，

为状态

及动作

的价值函数；

为状态

及动作

的价值函数，γ为折扣因子。

作为本发明可选的一种方案，所述计算策略损失以更新动作器和评价器的步骤中，依据下式更新动作器φ_i：

其中，

为动作器的损失函数，N为训练过程中从经验缓冲池中抽取的样本数，

为此智能体动作器的学习率；

为动作器参数为φ情况下的动作价值；θ为评价器参数。

作为本发明可选的一种方案，所述依据更新后的动作器和评价器更新智能体的网络参数的步骤中，智能体的网络参数包括目标评价网络的参数和目标动作网络的参数，依据下式更新智能体的网络参数：

θ‘_i←τθ‘_i+(1-τ)θ_i

φ‘_i←τφ‘_i+(1-τ)φ_i

其中，θ‘_i是目标评价网络的参数，φ‘_i是目标动作网络的参数，θ_i是评价器，φ_i是动作器。

本发明的二方面，提供了一种电网多区域智能功率协同优化装置，包括：

获取模块，用于获取电网状态的观测量。

结果生成模块，用于将所述电网状态的观测量输入到所述预训练好的智能体中，得到输出结果。其中，电网分为若干个区域，每个区域内设置有所述预训练好的智能体，每个所述区域内均接入有分布式可调节资源。

指令生成模块，用于将所述输出结果生成电网中分布式可调节资源的调节指令。

安全校验模块，用于对所述输出结果进行安全校验。

所述结果生成模块中，所述预训练好的智能体的训练方式如下：

本发明的三方面，提供了一种电子设备，包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序，以实现上述的电网多区域智能功率协同优化方法。

本发明的四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现上述的电网多区域智能功率协同优化方法。

与现有技术相比较，本发明的有益效果如下：

本发明提供的多区域智能功率协同优化方法，将电网分为若干个区域，每个区域内设置有预训练好的智能体，通过智能体来输出分布式可调节设备的控制指令，所构建的多智能体能够显著提升调度的决策速度效率与质量，提高新能源消纳率，保障系统的安全稳定性；智能体可利用各自的观测量进行分散决策，可以适应不同决策主体观测量首先的现实量测条件；此外，神经网络训练方法易于理解、扩展性强，适用于地(县)层级的调度系统，具有较强的实用性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例多区域智能功率协同优化方法流程示意图。

图2为本发明实施例中智能体的训练方式方法流程示意图。

图3为本发明实施例中预训练智能体的方法流程示意图。

图4为本发明实施例中基于MADDPG的多区域智能功率协同优化逻辑框图。

图5为本发明实施例中基于MADDPG的多区域智能功率协同优化原理图。

图6为本发明实施例一种多区域智能功率协同优化装置的结构框图。

图7为本发明实施例一种电子设备的结构框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

实施例1

本发明实施例1提供了一种多区域智能功率协同优化方法，基于多智能体深度确定性策略梯度算法，首先将电网的每一个区域设置一个智能体，获取本区域状态的观测量；然后将本区域状态的观测量输入到训练好的智能体中；最后将训练后的智能体的输出结果作为机组调节指令，对本区域中的分布式可调节资源进行功率调节，完成电网的实时控制。

需要说明的是，本方案中所提及的分布式可调节资源可以包括：传统机组例如火电机组、新能源机组如风电和光伏、储能等分布式电源，以及负荷等。

作为示例，本实施例中的观测量可以包括当前时段机组出力、下个时段负荷有功功率预测值、下个时段相对于当前时段负荷有功功率变化值、机组出力可调范围上界、机组出力可调范围下界、该区域功率缺口等。

如图1、图4和图5所示，一种电网多区域智能功率协同优化方法，包括如下步骤：

S1、将电网分为若干个区域，每个区域内设置有预训练好的智能体；其中，电网的每个所述区域内均接入有分布式可调节资源。

如图2所示，本方案中智能体的训练方式如下：

S11、初始化电网中所有区域的智能体的参数。目的是为了仿真传统优化的行为，具体来说，是使用调度动作数据库来预训练智能体，以调整智能体的参数，通过复制此经过预先优化的网络参数来初始化智能体的网络参数。

如图3所示，本方案中，在利用MADDPG算法对所有累积经验后的智能体进行集中训练之前，利用传统优化算法进行预训练，以初始化电网中所有区域的智能体的参数，方法如下：

S110、建立机会约束优化模型：利用机会约束理论描述分布式电源出力、负荷预测误差等多种不确定性因素，建立机会约束优化模型作为传统优化模型。

S111、生成调度动作数据库：基于机会约束优化模型生成调度动作命令，并将其保存在调度动作数据库中。

S112、基于生成的调度动作数据库训练所述智能体，得到智能体预优化后的网络参数。

S113、将所述预优化后的网络参数复制到电网中其他的所有区域的智能体，完成智能体参数的初始化。

S12、将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互，以累计经验。

本方案中，构建区域电力系统数字仿真环境的方法如下：

S121、建立仿真环境数据库

本方案中，仿真环境数据库中包含的数据类型为：历史实际负荷、历史传统机组实际出力变化曲线、历史储能实际出力变化曲线、历史新能源实际出力变化曲线、历史新能源可发电容量变化曲线等。

S122、搭建合理的电网拓扑及其电气参数

本方案中，依据实际需求，设计合理的电网的拓扑及其电气参数，考虑电网潮流约束、区域耦合约束、机组爬坡约束、机组出力上下限约束等约束条件，构建以潮流计算为核心的环境迭代更新函数。

S123、构建合理的奖励函数

本方案中，基于仿真环境数据库和电网拓扑，以区域内灵活性资源自发自用、新能源就地消纳、区域间相互协同、减少主网调度压力为目的，构建多区域电力系统数字仿真环境的奖励函数。

具体来说，多区域电力系统数字仿真环境的奖励函数由三部分组成：新能源消纳率，机组运行费用和不平衡误差。

S13、利用MADDPG算法对所有累积经验后的智能体进行集中训练，计算策略损失以更新动作器和评价器。

本方案中，以MADDPG算法网络结构构建N个区域的智能体，智能体包括动作器和评价器。动作器的输入为当前智能体的局部观测状态量，输出的动作为本区域内可调资源的发电量；评价器的输入为全体智能体的局部观测量及当前动作值，输出为该动作的预估价值q。

本方案中，计算策略损失的原理为：动作器计算当前时段动作，并在数字仿真环境中执行动作a，依据定义的奖励函数反馈每个智能体的奖励值，然后利用环境迭代更新函数更新得到下一步状态。

需要说明的是，本方案中奖励值r由以下三部分组成：

(1)新能源机组消纳量r₁(正奖励)

其中，

为该区域的新能源机组j在t时段的有功出力；

为该区域的新能源机组i在t时段的有功出力上界；N_w为该区域总的新能源场站数量；N为智能体的数量。

(2)机组运行费用r₂(负奖励)

其中，

为该区域中的第i个常规机组(如火电机组)在t时段的有功出力；

为其发电成本；

为该区域总的常规机组数量；N为智能体的数量。

(3)功率不平衡误差r₃(负奖励)

其中，N为智能体的数量；

为该区域总的常规机组数量；

为该区域中的第i个常规机组在t时段的有功出力；N_w为该区域总的新能源场站数量；

为该区域的新能源机组j在t时段的有功出力；

为第n个区域内负荷节点的数量；

为第n个区域内第d个负荷节点上的负荷。

本方案中，智能体进行集中训练时，先从经验缓存池中抽取N个样本，然后利用目标网络获取下一时段动作

所抽取的样本如下：

其中，

为智能体在t时刻机组i的状态，

为智能体在t+1时刻机组i的状态，

为智能体在t时刻机组i的动作，

为对应状态

和动作

的及时奖励。

依据下式计算每一个智能体评价器的损失函数Q并使用梯度更新评价器θ_i，即：

其中，Q为评价器的损失函数，

为评价器的学习率，

为对应状态

和动作

的及时奖励；N为训练过程中从经验缓冲池中抽取的样本数，

为状态

及动作

的价值函数；

为状态

及动作

的价值函数，γ为折扣因子，可以是预先给定的。

根据评价器构建动作器损失函数

并使用其梯度更新动作器φ_i，即：

其中，

为此智能体动作器的学习率；

为动作器参数为φ情况下的动作价值；θ为评价器参数。

S14、依据更新后的动作器和评价器更新智能体的网络参数，得到训练好的智能体。

智能体的网络参数包括目标评价网络的参数和目标动作网络的参数，依据下式更新智能体的网络参数：

θ‘_i←τθ‘_i+(1-τ)θ_i

φ‘_i←τφ‘_i+(1-τ)φ_i

需要说明的是，更新智能体的网络参数所采用的方法为迭代更新，当达到最大迭代次数或者满足预设条件时，结束训练，得到最终训练好的智能体。

S2、初始化电网运行环境，获取新的初始潮流数据和电网状态的观测量。

本方案中，智能体分别获取各自观测变量作为输入；

其中，每一个智能体的状态s∈S定义为：

s＝(P,W,P^high,P^low,t)

其中，P是由智能体包含节点有功注入向量

组成的矩阵，W是由智能体包含节点节点无功注入向量

组成的矩阵，P^high是智能体包含的机组出力可调范围上限

组成的矩阵，P^low是智能体包含的机组出力可调范围下限

组成的矩阵；t是每一个训练周期内的时间步长。需要说明的是，观测变量的数据类型可以和仿真环境数据库中的数据类型一致，区别为仿真环境数据库为历史数据，观测变量的数据为当前数据。

S3、将所述电网状态的观测量输入到所述预训练好的智能体中，得到输出结果。

S4、对所述输出结果进行安全校验；当安全校验通过，将所述输出结果生成电网中分布式可调节资源的调节指令；否则，对所述输出结果进行校正，将校正后的输出结果生成电网中分布式可调节资源的调节指令。

本发明实施例1提供的电网多区域智能功率协同优化方法，将每一个区域视为一个智能体；通过传统优化模型的结果进行一个简单的模仿学习来适当地预优化智能体的参数；将智能体与多区域电力系统数字仿真环境进行交互；累计到一定经验后，利用MADDPG算法对智能体进行集中训练，计算策略损失，更新网络参数；训练结束后，将电网状态的观测量输入到训练后的智能体中，将训练后的智能体的输出结果作为机组调节指令对电网中的各机组进行调节，以实现多区域智能功率协同。

需要说明的是，多智能体深度确定性策略梯度算法(Multi-agent deepdeterministic policy gradient)：是一种针对多智能体连续动作确定性策略学习算法，具有集中式训练，分布式执行的特点。每一个智能体的观测量不同，因此可以适应不完全信息条件下的多决策主体合作对抗。本发明所采用的多智能体深度强化学习算法通过智能体与环境之间的交互获得奖励，每个智能体拥有自己的奖励函数，以最大奖励为目标提升自身策略。该方法立足于随机变化环境，兼具响应速度快、考虑长效收益等优点。多智能体深度确定性策略梯度算法(MADDPG)的特点是集中训练和分散执行，智能体一方面在互相通信的基础上获取全局信息进行集中式训练，然后根据各自的部分观测值独立分散执行策略，该模式最大的优点是允许在训练时加入额外的信息(如环境的全局状态、动作或者回报)，在执行阶段这些信息无法获取，这使得神经网络训练时充分利用数据，实现快速收敛，降低实际运行中对数据的要求，提高实用性。

实施例2

如图6所示，一种电网多区域智能功率协同优化装置，包括：

获取模块，用于获取电网状态的观测量。

具体包括：基于预设的调度动作数据库训练所述智能体，得到所述智能体预优化后的网络参数；将所述预优化后的网络参数复制到电网中所有区域的智能体，完成智能体参数的初始化。

将参数初始化后的智能体与预先构建的多区域电力系统数字仿真环境进行交互，以累计经验。

利用MADDPG算法对所有累积经验后的智能体进行集中训练，计算策略损失以更新动作器和评价器。

依据下式更新评价器θ_i：

其中，Q为评价器的损失函数，

为评价器的学习率，

为对应状态

和动作

的及时奖励；N为训练过程中从经验缓冲池中抽取的样本数，

为状态

及动作

的价值函数；

为状态

及动作

的价值函数。

依据下式更新动作器φ_i：

其中，

为此智能体动作器的学习率；

为动作器参数为φ情况下的动作价值；θ为评价器参数。

依据下式更新智能体的网络参数：

θ‘_i←τθ‘_i+(1-τ)θ_i

φ‘_i←τφ‘_i+(1-τ)φ_i

安全校验模块，用于对所述输出结果进行安全校验；当安全校验通过时，将所述输出结果用于生成电网中分布式可调节资源的调节指令的步骤；当安全校验不通过时，对所述输出结果进行校正，将校正后的输出结果用于生成电网中分布式可调节资源的调节指令的步骤。

实施例3

如图7所示，本发明还提供一种用于实现电网多区域智能功率协同优化方法的电子设备100；电子设备100包括存储器101、至少一个处理器102、存储在存储器101中并可在至少一个处理器102上运行的计算机程序103及至少一条通讯总线104。存储器101可用于存储计算机程序103，处理器102通过运行或执行存储在存储器101内的计算机程序，以及调用存储在存储器101内的数据，实现实施例1电网多区域智能功率协同优化方法步骤。

存储器101可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备100的使用所创建的数据(比如音频数据)等。此外，存储器101可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

至少一个处理器102可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以是微处理器或者该处理器102也可以是任何常规的处理器等，处理器102是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分。

电子设备100中的存储器101存储多个指令以实现一种电网多区域智能功率协同优化方法，处理器102可执行多个指令从而实现：

获取电网状态的观测量；

将所述输出结果生成为电网中分布式可调节资源的调节指令。

实施例4

电子设备100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器及只读存储器(ROM，Read-Only Memory)。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。