CN114597916A

CN114597916A - 一种基于知识-数据混合驱动算法的电网频率协同控制方法

Info

Publication number: CN114597916A
Application number: CN202210272873.2A
Authority: CN
Inventors: 王力成; 邓宝华; 王润泽; 王国烽; 张有兵
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-06-07

Abstract

一种基于知识‑数据混合驱动算法的电网频率协同控制方法，根据新型电力系统各调频单元在控制系统中的传递函数，建立含储能设备的多机系统频率控制模型；采用演员‑评论家机制，以深度策略网络作为演员，构建起本地信息与控制器动作的映射关系，以系统频率偏差和调频控制器出力关于控制器输出动作的策略梯度解析表达式构建评论家，辅助深度策略网络参数的离线训练。本发明针对含储能设备的新型电力系统调频控制系统，建立知识‑数据混合驱动算法，显著降低了算法训练所需的迭代步数以及计算开销，并考虑了新型电力系统调频经济性因素，可实现新型电力系统各调频控制器在分布式执行中可仅依赖自身的本地状态信息就能实现全网调频单元间的协同控制。

Description

一种基于知识-数据混合驱动算法的电网频率协同控制方法

技术领域

本发明涉及一种电网频率协同控制方法。

背景技术

在“碳达峰”与“碳中和”的国家能源战略大背景下，以化石能源燃烧为驱动力的常规同步发电机组正加速被风电、光伏等清洁可再生能源驱动的发电机组所替代。然而，不断提高的可再生能源渗透率容易造成电源侧功率波动的问题，这给电能的供需平衡带来了挑战，进而显著削弱了电力系统对其频率的控制能力。与此同时，以电力电子变流器为接口与电网连接的新能源发电机组对常规同步机组的逐步替换，还会大幅度降低整个系统的转动惯量水平，从而大大加剧了由功率扰动引起的系统频率波动。

日益脆弱的电力系统频率稳定性正逐渐成为制约持续推进可再生能源发电替代的瓶颈问题。较低的惯量水平以及持续波动的电源侧功率将是未来可再生能源高渗透率电网运行与控制的新常态。可再生能源发电系统具有辅助调频的潜力，对于配备了储能的可再生能源发电系统，则可通过合理调节储能出力来使整个系统模拟传统同步机组的频率响应特性。

近年来兴起的深度强化学习算法为低惯量电力系统实时频率控制问题提供了新的解决思路。利用其强大的搜索学习能力，深度强化学习算法在面对复杂非线性频率控制问题时具有在线优化决策的潜力。谷歌DeepMind团队将深度强化学习拓展到了连续动作域，提出了基于深度确定策略梯度(Deep Deterministic Policy Gradient，DDPG)的演员-评论家(Actor-Critic)算法框架，从而极大地拓展了强化学习的应用范围。

发明内容

为了在可再生能源渗透率下实现电网频率实时控制，本发明提供一种基于知识-数据混合驱动算法的电网频率协同控制方法。

本发明在传统深度强化学习的基础上建立了一种知识-数据混合驱动的实时决策算法，用以在线协同各发电机和储能系统的频率响应控制。

为了实现上述目的，本发明的技术方案是：

一种基于知识-数据混合驱动算法的电网频率协同控制方法，该方法包括以下步骤：

S1：建立电网频率响应控制模型。确定模型的参数设置(如图1所示)：确定下垂控制系数R_j(j∈[1,m+n])；分别确定调频机组调速器和汽轮机组的时间常数T_a、T_b；分别确定储能系统的时间常数与调频参与因子T_B、k_B,j(j∈[m+1,m+n])；分别确定系统的扰动功率、系统惯性时间常数和负荷阻尼系数ΔP_L、H和D；确定调频发电机和储能系统在参与频率动态响应的最大/最小输出功率的约束限制。

式中，分别确定第i台发电机和第j个储能系统的输出功率变化量ΔP_G,i和ΔP_B,j；分别确定第i台发电机的输出功率上下限

确定代表第j个储能系统的最大充/放电功率

S2：建立知识-数据混合驱动的实时决策算法，采用演员-评论家架构。其中，演员负责在每步动作中提供最优动作策略π，其实质为一个将状态s映射到动作A上的确定性函数，并通过策略网络u(s；θ^u)对其进行近似逼近。此外，为了避免算法过早地陷入局部最优，本算法在训练过程中对策略网络u(s；θ^u)的输出值叠加了随机自相关系数ξ。因此，训练过程中控制器j在状态s下的输出动作A_j可表示为：

式中，

表示演员网络

的网络参数。

分布式安装于不同调频机组与储能系统的控制器(演员网络)可通过与环境交互得到大量的经验样本数据。这些样本数据在对演员网络的参数训练过程中，会首先注入评论家模型。承载着原始经验样本信息的“数据”流与频率响应模型知识相结合后，最终以策略梯度的形式对演员网络参数进行集中式更新。建立的评论家为基于模型知识推导的可用于辅助演员神经网络参数

训练更新的策略梯度。

S3：建立的训练流程，训练知识-数据混合驱动算法。

优选地，步骤S3所述的练知识-数据混合驱动算法的流程如下所示；

进一步，所述步骤S2中，知识-数据混合驱动的实时决策算法的构建包括以下过程：

S2-1：建立控制目标与奖励函数，系统频率偏差与系统调频总成本加权和的最小值作为算法控制目标，建立了状态动作值函数Q^u(s,A)来量化未来T时间内系统在所有智能体协同控制下的整体性能：

式中，A代表当前时刻所有智能体输出动作的集合，即A＝[A₁,A₂,···A_m,···,A_m+n]；G与B分别为调频发电机组与储能系统的集合；m、n分别表示调频机组与储能系统的数量；Q^u(s,A)的上标u表示，在当前状态s下决定状态动作值函数Q^u(s,A)大小的动作集合A是由m+n个策略网络的输出u＝[u₁,u₂,...,u_m,...,u_m+n]共同得到的；Δt、T分别代表时间步长大小及经验轨迹长度；s为t时刻系统的状态信息；

为发电机组的单位出力成本；

为储能系统的单位功率调度成本，其中储能在充电状态下

储能在放电状态下

λ为平衡电网频率偏差以及系统调频总成本的加权系数；f₀、P₀、C₀分别表示用于统一量纲时归一化的基准值。为尽快消除系统频率偏差，式(4)右边的第一项加入了折扣因子γ∈(0,1)，从而使当前时刻的Δf较未来的Δf有更大的权重。

S2-2：建立演员网络参数更新方法，通过最大化状态动作值函数的期望E_s～ρ[Q^u(s,A)]即可获得以其为评价指标的最优控制动作。因此，本发明基于梯度上升算法的思想，通过链式求导法则依次计算E_s～ρ[Q^u(s,A)]对参数

的梯度，从而通过迭代更新参数θ^u实现沿梯度方向最大化E_s～ρ[Q^u(s,A)]，也即获得了能使各个策略网络

输出最优动作的网络参数

以第j个控制器为例，E_s～ρ[Q^u(s,A)]对网络参数

的梯度及相应的参数

更新公式为：

式中，η∈(0,1)为策略网络参数

的学习率；N为小批量采样样本数，并通过求取N个状态动作值函数Q^u(s,A)对

的梯度

的平均值来近似表示E_s～ρ[Q^u(s,A)]对

的梯度。为实现如式(6)中的参数更新，必须首先求得式(5)中的

与

由于

为含多隐含层的策略网络，其对应的函数表达式为

因此，

式中，p代表神经网络层数；状态s为神经网络的输入；

表示策略网络j中第l层神经元的激活函数。

S2-3：建立状态动作值函数的策略梯度，在网络参数E_s～ρ[Q^u(s,A)]的迭代更新过程中，为求得状态动作值函数的期望E_s～ρ[Q^u(s,A)]对

的梯度，其关键在于获知状态动作值函数

对控制器动作A_j的梯度

根据链式求导法则，对于第i∈G台调频机组可得：

对于第j∈B个储能系统可得:

根据频率响应控制模型，系统频率偏差Δf(t)与调频机组/储能系统控制器输出指令A_i∈G/B之间的传递函数可以表达为如下形式：

相较于发电机组，储能系统的时间常数T_B几乎可以忽略不计。为了方便计算，在后续推导过程中将T_B近似为0。此外，各调频机组与储能系统的总出力与系统频率之间的传递函数可表示为：

1)推导

对式(10)进行拉普拉斯反变换并忽略关于

的高阶项后求关于A_i∈G的梯度，整理后即可得系统频率偏差Δf(t)对第i台调频机组控制器输出动作A_i∈G的策略梯度

表征了第i台调频机组控制器在当前时刻输出的单位动作量，在之后的时刻t所引起的系统频率变化。因此，以零状态求解式(12)的一阶微分方程，可得：

2)推导

对式(11)做拉普拉斯反变换并对控制动作A_i∈G求梯度，整理可得：

将式(12)代入(14)，并整理得：

式中的

已由式(13)给出。将式(13)与式(15)代入式(8)中，最终得到

的解析表达式。

3)推导

同理，对式(10)两端求A_j∈B的梯度：

(16)表征了第j个储能系统控制器在当前时刻输出的单位动作量，在之后的时刻t所引起的系统频率变化。因此，以零状态求解式(16)的一阶微分方程,可得：

式(17)中右边第一项代表单位控制指令A_j∈B所引起的频率变化最终稳态值。

4)推导

对式(11)做拉普拉斯反变换并对控制动作A_j∈B求梯度，整理可得：

将式(16)代入(18)，并整理得：

式中的

已由式(17)给出。将式(17)与式(19)代入式(9)中，最终得到

的解析表达式。

S2-4：建立调频机组与储能系统输出功率约束

调频机组与储能系统的实际有功出力不仅受到各自下垂控制系数与控制器输出的调控，同时还需时刻满足其最大和最小输出功率约束。调频机组/储能系统在频率响应中的功率变化量可表示为：

式中ΔP_G/B,j代表第j台调频机组或储能系统的功率变化量。因此，发电机与储能系统最大/最小输出功率约束表示为：

式中

分别表示代表第j台调频机组/储能系统的基准运行点、最大/最小输出功率约束。令

同时考虑

则P_G/B,j关于网络参数

的梯度可表示如下：

由式(22)可知，在相同的系统状态s下，若策略网络参数

沿如下方向更新，则对应的发电机/储能系统功率输出将增大，反之功率输出减小。

结合式(6)给出的沿E_s～ρ[Q^u(s,A)]梯度上升的方向，最终可得考虑发电机/储能系统输出功率最大/最小限制的策略网络参数

的更新规则为：

式(24)表示，若沿

方向更新参数

将导致发电机/储能系统输出功率违反其最大/最小限制，则在下一步迭代中，

将沿向量

在以向量

为法线的平面上的投影方向继续更新，从而使

的更新轨迹始终处于频率控制模型所刻画的可行域内。

本发明的工作原理是：

本发明的效果是根据步骤S1建立实际新型电力系统的控制模型，通过步骤S2建立本算法Python程序，结合实际光伏出力波动数据，通过步骤S3训练本算法以达到控制效果

本发明有益效果是：

1、经过全局信息充分训练后的深度策略网络可习得各发电机和储能系统在频率响应过程中的不同特性，从而使得训练完备的各智能体在分布式执行中可仅依赖自身的本地状态信息就能实现全网发电机/储能系统间的协同控制。

2、相较于现有深度强化学习方法(如DQN、DDPG)，本发明所提算法在系统频率控制、调频总成本以及算法训练时间等性能指标上均具有较为明显的优势。

附图说明

图1是本发明的含储能的多机系统频率协同控制模型图。

图2是本发明的基于知识-数据混合驱动算法的含储能多机系统频率协同控制原理图。

图3(a)是本发明的高光伏渗透率电力系统光伏功率变化情况图，图3(b)是本发明的的高光伏渗透率电力系统的负荷功率变化情况图。

图4是本发明的扰动功率的变化情况图。

图5是本发明所提算法与PID控制器的频率控制效果对比图。

图6是本发明所提算法与DQN、DDPG的频率控制效果对比图。

图7(a)～图7(c)是本发明所提算法与不同强化算法累积奖励值的迭代收敛过程对比图，其中图7(a)是DDPG算法迭代周期，图7(b)是DQN算法迭代周期，图7(c)是本发明所提算法迭代周期。

图8是加入经济性控制目标前后的算法频率控制效果对比图。

图9是加入经济性控制目标后不同发电机组和储能对电网频率偏差的协同响应功率变化图。

图10是本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1、图2，一种基于知识-数据混合驱动算法的电网频率协同控制方法，该方法包括以下步骤：

S1：建立电网频率响应控制模型，确定实际单区域电力系统参与调频发电机组与储能设备的数量m，n；确定各台调频发电机组下垂控制系数R_j(j∈[1,m+n])；确定调频机组调速器和汽轮机组的时间常数分别T_a、T_b；确定储能系统的时间常数与调频参与因子T_B、k_B,j(j∈[m+1,m+n])；确定系统惯性时间常数和负荷阻尼系数H、D；确定各参与调频的发电机组与储能设备的功率约束上下限ΔP_G,i、ΔP_B,j。

S2：根据电网频率响应控制模型建立知识-数据混合驱动算法，在考虑经济指标的情况下确定控制目标与奖励函数；确定演员网络参数更新；确定动作值函数的策略梯度。

S3：建立知识-数据混合驱动算法训练流程，根据S2所建立的知识-数据混合驱动算法确定算法参数后根据表1确定知识-数据混合驱动算法训练流程；

S4：将训练完备的知识-数据混合驱动应用于实际单区域电力系统调频任务。

所述步骤S2中，知识-数据混合驱动算法的构建包括以下过程：

S2-1：根据参与调频的发电机组和储能设备数确定动作集合A，即A＝[A₁,A₂,···A_m,···,A_m+n]；G与B分别为调频发电机组与储能系统的集合；m、n分别表示调频机组与储能系统的数量。确定发电机组的单位出力成本

储能系统的单位功率调度成本

储能在充电状态下的成本

储能在放电状态下的成本

平衡电网频率偏差以及系统调频总成本的加权系数λ；

S2-2：建立演员网络参数更新方法，采用的函数拟合器为深度神经网络：

确定神经网络层数p；为神经网络的输入状态s；策略网络j中第l层神经元的激活函数

S2-3：根据状态动作值函数的策略梯度，建立评论家模型参数更新方式；

考虑发电机/储能系统输出功率最大/最小限制的策略网络参数

建立更新规则：

为使本领域技术人员更好地理解本发明，算例分析包括以下构成：

一、算例描述

本算例以图3所示的某典型高光伏渗透率电力系统为研究对象，并选取其某日正午时段的净负荷波动功率(负荷有功功率与光伏出力的差值)作为系统的扰动功率ΔP_L进行算例仿真。由于受光伏功率剧烈波动影响(如图4所示)，正午时段10分钟内扰动功率ΔP_L的峰谷值分别为1800MW和1215MW，变化幅度高达48％。如果不采取有效的控制策略，系统频率稳定乃至电网运行安全都将受到严峻的挑战。

二、实际控制行为分析

算例采用含8台发电机组(编号为G1-G8)和1个储能系统组成的多机电力系统以验证所提实时决策算法在系统频率控制与系统调频总成本优化方面的有效性。在Python环境中建立了含储能的多机电力系统频率响应动态仿真模型，并将其作为本发明所提算法中演员网络的训练环境。此外，各发电机组的输出功率基准值

最大输出功率

最小输出功率

以及单位发电成本

如表1所示；储能系统的输出功率基准值

最大充/放电功率

以及单位功率调度成本

如表2所示。本发明所提算法中的经验轨迹(episode)数M、经验回放池容量D、小批量采样样本数N、学习率η、折扣因子γ、智能体个数g等参数设置如表3所示。

表1

表2

表3

三、案例对比分析

算例首先对传统PID控制器、经PSO算法参数优化后的PID控制器以及本发明所建立算法在系统频率实时控制性能方面进行对比。由图5可知，在传统PID控制器的实时调节下，扰动功率剧烈波动的正午时段有大约±0.042Hz的系统频率偏差。相较于传统PID控制器，经PSO算法参数优化后，PID控制器的频率效果虽然有所改善，但效果仍然不够理想，系统频率偏差在(-0.030Hz，0.032Hz)的范围内波动。而在同一时段内，本发明所提实时决策算法能够使系统频率偏差范围明显收窄至(-0.015Hz，0.018Hz)，因而可大大提高电网在大规模新能源并网场景下的系统频率稳定性。

本发明所提算法与DDPG算法均为基于连续动作空间的深度强化学习算法。如图6所示，该两者的实时频率控制效果都明显优于基于离散动作空间设计的DQN算法。而本发明所提算法在整合了知识驱动与数据驱动的各自优势之后，在连续动作域的实时频率控制效果上，相较于经充分训练的DDPG算法有进一步的提升。图7对比了DQN算法、DDPG算法与本发明所提算法累积奖励值的迭代收敛过程。其中，DQN算法与DDPG算法在分别经历了约400与650个迭代周期后，其累积奖励值的变化趋于平稳，不再继续增加。本算例的每个迭代周期均为包含200次迭代的一条经验轨迹。即两种算法分别需要8万和13万次迭代更新才趋于收敛。而采用了知识-数据混合驱动的算法只需经历大约150个迭代周期(3万次迭代更新)就能完成深度神经网络的参数训练，且该算法的收敛曲线振荡幅度最小。

本发明所提算法通过在目标函数中引入加权系数λ来平衡电网的频率偏差控制效果以及系统调频总成本。不同加权系数下算法的频率与经济性指标如表4所示。

表4

其中，

分别为仿真时段内频率偏差绝对值以及系统调频总成本的平均值。由表4可知，较大的加权系数λ在使得本发明所提算法有较好频率控制效果的同时增加了系统调频总成本；反之，较小的加权系数λ则以增大系统频率波动幅度为代价，进一步提高了系统运行的经济性。调度运行人员可依据当前系统运行状态下频率偏差和系统调频总成本的相对重要程度来相应设置加权系数。

图8比较了本发明所提算法在加权系数λ取1和0.6时的频率控制效果。由于在控制目标中加入了经济性指标，算法对频率偏差惩罚权重相对降低，从而导致系统最大频率偏差相较于加入经济性指标前略有增大。因此，在所提算法的控制下，系统整体运行成本的下降不以显著牺牲系统频率控制效果为代价，因而能较好地平衡系统频率偏差控制与系统调频总成本。

本算例比较了11:15:00至11:15:30时间段内各在线发电机组和储能系统在电网净负荷(扰动功率)陡然上升场景下的输出功率变化量，以展示在本发明所提算法控制下不同主体对系统频率偏差的协同响应情况。系统净负荷(如图4所示)自11:15:00起，由于受到光伏功率剧烈波动的影响，首先经历了一个迅猛上升的过程；紧接着在11:15:10至11:15:20这一时间段内进入了一个相对稳定的阶段；最后在11:15:20至11:15:30段内系统净负荷开始略有下降。为了迅速补偿由净负荷突增而导致的系统频率跌落，如图9所示，发电机组和储能系统的输出功率在净负荷突增后的第一阶段都会快速增加。在此阶段内，系统频率的偏移量较大，控制目标式(4)中的第一项(频率偏差)起主导作用。储能系统由于几乎不受爬坡速率的约束，其放电功率瞬间达到最大，并在第一阶段维持其最大放电功率用于辅助爬坡较慢的发电机组进行调频。然而，随着系统频率偏差逐步被补偿，约在11:15:10之后的第二阶段，控制目标(4)中的第二项(经济指标)的作用开始凸显。从图9可以看到，到了第二阶段(系统净负荷相对稳定)，由于受调频成本的影响，单位出力成本较高的发电机组G7、G8在此阶段内逐步减少功率输出，同时储能系统降低放电功率至零附近，从而提升系统的整体调频经济性；而单位出力成本较低的发电机组G1、G2在此阶段内将继续增加各自的输出功率以继续补偿系统频率偏差以及储能与高成本机组逐步退出带来的功率缺额。值得注意的是，由于受到输出功率上限的约束，如图9所示，G1在第二阶段达到出力饱和。进入第三阶段，受净负荷功率缓慢下降的影响，出力较高的发电机组(如G7)和出力成本中等的发电机组(如G4)的输出功率都出现了不同程度的降低。由此可见，本发明所提算法在加入经济性控制指标后，可以根据当前系统的实时频率偏差与各调频主体的单位出力成本以及出力上下限，合理地分配功率输出，从而实现了对系统频率偏差的经济性协同响应。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于知识-数据混合驱动算法的电网频率协同控制方法，其特征在于，包括以下步骤：

S1：建立电网频率响应控制模型，确定模型的参数设置，包括：确定下垂控制系数R_j(j∈[1,m+n])；分别确定调频机组调速器和汽轮机组的时间常数T_a、T_b；分别确定储能系统的时间常数与调频参与因子T_B、k_B,j(j∈[m+1,m+n])；分别确定系统的扰动功率、系统惯性时间常数和负荷阻尼系数ΔP_L、H和D；确定调频发电机和储能系统在参与频率动态响应的最大/最小输出功率的约束限制；

确定代表第j个储能系统的最大充/放电功率

S2：建立知识-数据混合驱动的实时决策算法，包括：采用演员-评论家架构；演员在每步动作中提供最优动作策略π，其实质为一个将状态s映射到动作A上的确定性函数，并通过策略网络u(s；θ^u)对其进行近似；为了避免过早地陷入局部最优，在训练过程中对策略网络u(s；θ^u)的输出值叠加了随机自相关系数ξ；因此，训练过程中控制器j在状态s下的输出动作A_j可表示为：

式中，

表示演员网络

的网络参数；

分布式调频机组与储能系统的控制器(演员网络)可通过与环境交互得到大量的经验样本数据；这些样本数据在对演员网络的参数训练过程中，会首先注入评论家模型；承载着原始经验样本信息的“数据”流与频率响应模型知识相结合后，最终以策略梯度的形式对演员网络参数进行集中式更新；建立的评论家为基于模型知识推导的可用于辅助演员神经网络参数

训练更新的策略梯度；

S3：建立的训练流程，训练知识-数据混合驱动算法。

2.如权利要求1所述的一种基于知识-数据混合驱动算法的电网频率协同控制方法，其特征在于，步骤S4所述的训练知识-数据混合驱动算法，具体包括：

1：初始化各演员网络参数

2：初始化经验回放池

3：设置参数m、n、η、γ、λ、

N、M的值。

4：for episode＝1 to M，do

5：利用自相关系数ξ初始化随机过程进行动作探索。

6：获得初始状态值s_i。

7：for t＝1 to T，do

8：for智能体j＝1 to m+n，do

9：计算当前时间步的动作

10：end for

11：执行

观测并记录下一状态s^t+1。

12：end for

13：往复循环步骤7-12，获得A¹→A^T下的所有状态，即：

s¹→s^T

14：根据步骤13可获得此经验轨迹下所有步长下的状态分量Δf：Δf(1)→Δf(T)

15：将经验样本存储到经验回放池

中。

16：从经验回放池中随机采样N个经验样本，作为演员网络j的小批量训练样本数据。

17：借助系统频率动态模型可分别计算

和

18：对

求梯度：

19：通过链式求导法则计算E_s～ρ[Q^u(s,A)]对网络参数

的梯度：

20：计算发电机/储能系统j的输出功率：

21：if发电机/储能系统j的输出功率未越界，即

22：则按下式更新演员网络j的参数

23：else演员网络j参数

的更新方式为：

24：end if

25：end for。

3.如权利要求1所述的一种基于知识-数据混合驱动算法的电网频率协同控制方法，其特征在于，步骤S2所述的知识-数据混合驱动的实时决策算法的构建包括：

式中，A代表当前时刻所有智能体输出动作的集合，即A＝[A₁,A₂,…A_m,…,A_m+n]；G与B分别为调频发电机组与储能系统的集合；m、n分别表示调频机组与储能系统的数量；Q^u(s,A)的上标u表示，在当前状态s下决定状态动作值函数Q^u(s,A)大小的动作集合A是由m+n个策略网络的输出u＝[u₁,u₂,...,u_m,...,u_m+n]共同得到的；Δt、T分别代表时间步长大小及经验轨迹长度；s为t时刻系统的状态信息；