CN113346552A

CN113346552A - 基于积分式强化学习的自适应最优agc控制方法

Info

Publication number: CN113346552A
Application number: CN202110420781.XA
Authority: CN
Inventors: 许懿; 欧睿; 胡润滋; 蒙永苹; 张明媚; 杨渝璐; 周宇晴; 熊伟; 廖新颖; 李德智; 甘潼临; 刘伟; 许洁; 李光杰; 李郅浩
Original assignee: Chongqing University; State Grid Chongqing Electric Power Co Ltd
Current assignee: Chongqing University; State Grid Chongqing Electric Power Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-09-03

Abstract

本发明公开基于积分式强化学习的自适应最优AGC控制方法，步骤为：1)建立单区域电力系统频率响应模型，并计算出电力系统状态空间矩阵；2)基于强化学习中的策略迭代算法，建立评判者‑执行者神经网络；所述评判者‑执行者神经网络包括评判者网络和执行者网络；3)将电力系统状态空间矩阵输入到评判者‑执行者神经网络中，解算得到最优控制策略。本发明使用积分强化学习策略进行最优代价函数的学习，使得学习过程可以在系统动态模型未知的情况下进行，并且从弱化持续激励条件的角度来提升学习的速度和准确性。

Description

基于积分式强化学习的自适应最优AGC控制方法

技术领域

本发明涉及电力系统及其自动化领域，具体是基于积分式强化学习的自适应最优AGC控制方法。

背景技术

现今电力系统的结构日趋复杂，不断拓展延伸到许多偏远地区，然而由于距离和自然条件的限制，偏远地区的输电成本高昂，与其他区域联络线的数量有限或没有联络线，当区间联络线发生故障时当地电力系统易成为孤岛运行的单区域系统，因此维持单区域电网稳定运行的AGC控制策略就显得较为重要。与此同时，新能源发电在这些地区电力系统中往往占据较大的比重，由于风机、光伏或潮汐发电机组输出功率的不稳定性，导致电网的频率响应容易产生波动，再加上单区域系统的机组总惯量较小，难以调节发电端和负荷端的随机波动，造成较大的频率偏差。另一方面，频繁的频率波动带来的系统调整动作也使得调速器等发电机组部件老化加快，增加运营维护成本。基于最优控制理论的AGC控制方法通过最小化所定义的与频率偏差量、机组出力相关的代价函数来达到控制目的，但从目前已有研究情况来看，现有的最优控制方法需要系统的完整的动态信息，最优的控制策略难以求解，且容易受到参数变化和扰动量的影响。部分学者提出的自适应最优控制方法可以通过在线学习解出最优控制策略，但面临学习速度慢且无法收敛到最优的问题，并且仍旧需要系统的动态信息。若要应用在单区域电力系统的AGC控制中，自适应最优的控制策略需要解决上述问题以达到实际运行的要求。

发明内容

本发明的目的是提供基于积分式强化学习的自适应最优AGC控制方法，包括以下步骤：

1)建立单区域电力系统频率响应模型，并计算出电力系统状态空间矩阵；

所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。

单区域电力系统频率响应模型如下所述：

式中，ΔX_g(t)为调速器阀门开度变化增量；

为增量ΔX_g(t)的微分；ΔP_g(t)为发电机输出变化量；

为增量ΔP_g(t)的微分；Δf(t)为频率误差增量；

为增量Δf(t)的微分；ΔI(t)为频率误差积分增量；

为增量ΔI(t)的微分；ΔP_d(t)为负荷增量；T_g、T_t、T_p分别为调速器、涡轮机、发电机时间常数；K_p、K_e分别为发电机增益和积分控制增益；R_d为调速器速度下降率；u(t)为t时刻的控制策略；

其中，调速器阀门开度变化增量ΔX_g(t)、发电机输出变化量ΔP_g(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量；负荷增量ΔP_d(t)为扰动变量。

电力系统状态空间矩阵如下所示：

式中，x(t)表示状态变量；

表示状态变量的微分；

其中，矩阵A、矩阵B和矩阵F分别如下所示：

式中，R为控制变量权重。

2)基于强化学习中的策略迭代算法，建立评判者-执行者神经网络；所述评判者-执行者神经网络包括评判者网络和执行者网络；

所述评判者网络、执行者网络均包括输入层、隐藏层和输出层；

评判者网络的激活函数为χ(x)＝[χ₁(x),χ₂(x),...,χ_N(x)]^T；χ₁(x)、χ₂(x)、...、χ_N(x)为评判者网络隐藏层中的神经元；神经元总数N≥n(n+1)/2；n为系统中状态变量的个数。

评判者网络输出代价函数V(x)的步骤包括：

I)建立代价函数V(x)估计表达式，即：

V(x)＝w^Tχ(x)+ε_a(x) (3)

式中，w＝[w₁,w₂,...,w_N]^T是激活函数向量χ(x)的权重向量；ε_a(x)是估计误差；

代价函数V(x)对于状态变量x的偏导

如下所示：

II)评判者网络通过自适应参数估计方法对权重参数向量进行学习，得到权重向量估计值

此时，代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式，如下所示：

式中，自适应估计误差

所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示：

式中，V(x(t)为代价函数。公式(6)用于对估计误差和评判者网络自适应误差的求取。

III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差ε_A，即：

式中，贝尔曼等式误差ε_A＝ε_a(x(t+T))-ε_a(x(t))有界；增强信号项

IV)计算得到时段[t,t+T]上的自适应估计误差ε_E＝ε_e(x(t+T))–ε_e(x(t))和总估计误差ε＝ε_A+ε_E；

其中，总估计误差ε满足下式：

式中，激活函数方程Δχ(t)＝χ(t+T)-χ(t)；

V)建立评判者网络的自适应估计误差代价函数J，即：

式中，J是误差二次项的积分式；β为遗忘因子；

VI)权重向量估计值的动态变化

如下所示：

式中，Γ>0是自适应增益对角矩阵；归一化因子η＝1+Δχ^TΔχ；

VII)定义积分项Ω(t)和积分项Φ(t)如下所示：

式中，Ω是N阶向量，Φ是N阶方阵；

将公式(10)代入公式(9)，得到：

其中，向量Ω和矩阵Φ的动态过程如下所示：：

式中，

分别表示向量Ω和矩阵Φ的动态过程；

VIII)将公式(11)代入公式(5)，得到代价函数V(x)。

执行者网络的输出如下所示：

式中，w为权重向量；u为控制策略；g为系统输入的动态特征，即状态空间模型中的矩阵B。

3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中，解算得到最优控制策略。

解算得到最优控制策略的步骤包括：

3.1)初始化控制策略，记为u⁰；初始化代价函数，记为V¹；

3.2)评判者网络根据第i次迭代的控制策略uⁱ计算第i+1次迭代的代价函数Vⁱ⁺¹；i初始值为1；代价函数Vⁱ⁺¹如下所示：

式中，V(x(t+T)为t+T时间的代价函数；x(τ)为状态变量；

其中，效用参数U(x(τ),u(x(τ))如下所示：

U(x(τ),u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ) (16)

式中，Q为状态变量权重；R为控制变量权重；

3.3)执行者网络根据代价函数Vⁱ⁺¹计算第i+1次迭代的控制策略uⁱ⁺¹，即：

3.4)执行者网络判断代价函数增量ΔV≤ε_V且控制策略增量Δu≤ε_u是否成立，若是，则以控制策略uⁱ⁺¹为最优控制策略，否则，令i＝i+1，并返回步骤3.2)；代价函数增量ΔV＝Vⁱ⁺¹-Vⁱ；控制策略增量Δu＝uⁱ⁺¹-uⁱε_V和ε_u分别为代价函数增量阈值和控制策略增量阈值。

值得说明的是，本发明建立单区域电力系统频率响应模型。对于一个既定系统，选取合适的状态变量，将其在系统平衡点处线性化，可以建立对应的频率响应模型并得到系统状态空间矩阵。

然后，基于强化学习中的策略迭代算法，建立评判者-执行者神经网络来实施学习和控制。强化学习中执行者网络(AGC控制器)执行控制策略作用于外部环境(电力系统)，评判者网络对当前控制作用进行策略评估，学习得到当前策略的回报值(代价函数)，系统状态变量和回报值反馈给评判者网络。其中评判者网络对代价函数的学习基于Weierstrass高阶近似估计方法，将未知的高阶多项式近似为二次多项式的组合，基于积分增强信号建立哈密顿误差方程，通过梯度法求解出二次多项式的权重系数向量，进而得到代价函数。执行者网络将代价函数的学习结果代入哈密顿方程求解当前的控制策略。

其中，在梯度法求解代价方程近似函数的权重向量时，本发明选用了二次型的误差代价函数，使得参数收敛中递归向量的持续激励条件可以弱化为有限时间内的持续激励，可以实现更快更准确的的代价函数学习。

最后，通过MATLAB 2016软件仿真，在单区域电力系统模型中验证了本发明的有效性，证明了本发明可以实现更好的调频效果。

本发明的技术效果是毋庸置疑的，本发明使用积分强化学习策略进行最优代价函数的学习，使得学习过程可以在系统动态模型未知的情况下进行，并且从弱化持续激励条件的角度来提升学习的速度和准确性。

附图说明

图1为自适应最优控制示意图；

图2为单区域电力系统频率响应框图；

图3为控制算法流程图；

图4为本发明频率误差抑制效果。

图5为传统PI控制的频率误差抑制效果。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图3，基于积分式强化学习的自适应最优AGC控制方法，包括以下步骤：

单区域电力系统频率响应模型如下所述：

式中，ΔX_g(t)为调速器阀门开度变化增量；

为增量ΔX_g(t)的微分；ΔP_g(t)为发电机输出变化量；

为增量ΔP_g(t)的微分；Δf(t)为频率误差增量；

为增量Δf(t)的微分；ΔI(t)为频率误差积分增量；

电力系统状态空间矩阵如下所示：

式中，x(t)表示状态变量；

表示状态变量的微分；

其中，矩阵A、矩阵B和矩阵F分别如下所示：

式中，R为控制变量权重。在作模型分析时假定其他状态变量不变,只有一个变量变动，该变动的状态变量即为控制变量。

评判者网络输出代价函数V(x)的步骤包括：

I)建立代价函数V(x)估计表达式，即：

V(x)＝w^Tχ(x)+ε_a(x) (3)

代价函数V(x)对于状态变量x的偏导

如下所示：

式中，自适应估计误差

式5是估计形式，式15是迭代过程中的直接表达式。

所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示：

III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差ε_A，即：

x(t+T)、x(t)分别表示t+T时段、t时段的状态变量。

其中，总估计误差ε满足下式：

式中，激活函数方程Δχ(t)＝χ(t+T)-χ(t)；

V)建立评判者网络的自适应估计误差代价函数J，即：

式中，J是误差二次项的积分式；β为遗忘因子；

VI)权重向量估计值的动态变化

如下所示：

VII)定义积分项Ω(t)和积分项Φ(t)如下所示：

式中，Ω是N阶向量，Φ是N阶方阵；

将公式(10)代入公式(9)，得到：

其中，向量Ω和矩阵Φ的动态过程如下所示：：

式中，

分别表示向量Ω和矩阵Φ的动态过程；

VIII)将公式(11)代入公式(5)，得到代价函数V(x)。

执行者网络的输出如下所示：

式中，w为权重向量；u为控制策略；g为系统输入的动态特征，即状态空间模型中的矩阵

17式为直接表达，13式是由神经网络对V的学习结果表达。

解算得到最优控制策略的步骤包括：

3.1)初始化控制策略，记为u⁰；初始化代价函数，记为V¹；

式中，V(x(t+T)为t+T时间的代价函数；x(τ)为状态变量；

其中，效用参数U(x(τ),u(x(τ))如下所示：

U(x(τ),u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ) (16)

式中，Q为状态变量权重；R为控制变量权重；

实施例2：

基于积分式强化学习的自适应最优AGC控制方法，包括以下步骤：

1)建立电力系统频率响应模型

本发明主要研究单区域电力系统的频率控制，其中的典型器件包括调速器、涡轮机、发电机转子和负载，其动态模型都可以近似为一阶过程。系统状态变量选取调速器阀门开度变化增量ΔX_g(t)，发电机输出变化量ΔP_g(t)，频率误差增量Δf(t)和频率误差积分增量ΔI(t)，扰动变量为负荷增量ΔP_d(t)，该系统的微分方程总结如下：

系统状态空间模型表示为：

2)积分型强化学习的策略迭代

在最优控制问题中，在无限时间域上定义与系统状态x和输入u相关的代价函数V：

其中U(x,u)为人为定义的效用方程，通常为二次型的形式:

U(x(τ),u(τ))＝x^T(τ)Qx(τ)+u^T(τ)Ru(τ), (4)

将代价函数针对时间t求偏导，得到该问题的哈密顿方程：

求解方程H＝0即可得到最优代价V^*，再将V^*代入

求解得到最优控制作用u^*。对于连续时间系统，常规强化学习方法的实施需要完整的系统动态信息，有一定的实施难度。积分型强化学习方法在求解该问题时可以仅使用模型的输入动态信息求解最优代价函数，避免了使用全部的系统动态信息，考虑含有积分增强信号的代价函数，对于任意时间间隔T>0，将代价函数以新的形式表达：

此时的哈密顿方程可以重新表达为：

根据该式求解代价函数时不需要系统的动态信息，策略迭代(Policy iteration)算法交替实施策略评估(Policy evaluation)和策略更新(Policy improvement)两个步骤，算法初始化包含控制策略的初始化u⁰和代价函数的初始化V¹，两个步骤总结如下：

I)策略评价

根据第i次迭代计算出的控制策略uⁱ，代入求解第i+1次迭代的代价函数Vⁱ⁺¹：

II)策略更新

根据第i+1次迭代计算出的代价函数Vⁱ⁺¹，计算第i+1次迭代的控制策略uⁱ⁺¹：

策略迭代算法交替进行以上两个步骤，直到代价函数和控制策略的增量收敛到某一较小的阈值以内。

3)执行者-评判者(Actor-critic)网络的设计

I)用于策略评估的评判者网络

评判者神经网络根据Weierstrass高阶估计方法将高阶的代价函数近似估计为低阶多项式的线性组合，通过梯度法估计低阶多项式对应的权重参数向量来实现对代价函数的近似。定义低阶多项式向量χ(x)＝[χ₁(x),χ₂(x),...,χ_N(x)]^T为激活函数向量，作为神经网络隐藏层中的神经元。若低阶多项式元素χ_i为系统状态变量的二次型形式{x_i(t)x_j(t)}(i,j＝1,2,...,n)，假设系统中状态变量的个数为n，则低阶多项式的个数N要满足N≥n(n+1)/2。此时，最优控制代价函数可以估计为：

V(x)＝w^Tχ(x)+ε_a(x), (10)

其中w＝[w₁,w₂,...,w_N]^T是激活函数向量χ(x)的权重向量，ε_a(x)是估计误差，考虑到(9)式中计算控制策略时用到的是代价函数对于状态变量x的偏导，基于(10)式可以得到偏导

的估计表达式：

估计误差ε_a(x)和它的偏导

均有界，当激活函数中元素个数N→∞时ε_a和

均趋于0，因此在计算能力范围内可以选择尽量多的激活元素。评判者网络通过自适应参数估计方法来实现对权重参数向量的学习，估计的权重向量表示为

代价函数可以进一步表示为：

这里的

是自适应估计误差，当自适应律和信号激励条件可以保证参数估计的指数稳定时，ε_e→0。

根据(7)式，时段[t,t+T]上的贝尔曼等式误差ε_A可以表示为：

其中ε_A＝ε_a(x(t+T))-ε_a(x(t))是有界的。这里的激活函数方程表示为Δχ(t)＝χ(t+T)-χ(t)，用μ(t)表示增强信号项

定义ε_E＝ε_e(x(t+T))–ε_e(x(t))为时段[t,t+T]上的自适应估计误差，再用总估计误差ε＝ε_A+ε_E表示时段[t,t+T]上近似误差和自适应估计误差之和，因此(13)式可以重新表示为：

定义评判者网络的自适应估计误差代价函数J：

J是一个误差二次项的积分式，指数衰减项避免了积分作用导致的代价无界，遗忘因子β与历史动态信息的衰减率有关。基于梯度法，估计权重的动态可以表示为：

这里的常数Γ>0是自适应增益对角矩阵，η＝1+Δχ^TΔχ作为归一化因子被引入，为方便自适应律的表示，定义以下积分项：

其中Ω是N阶向量，Φ是N阶方阵，因此(16)式可以表示为：

向量Ω和矩阵Φ的动态过程可以表示为：

所选取的误差代价函数保存了激活函数Δχ(t)的历史信息，自适应过程同时利用了目前时刻和历史时刻系统的动态信息，使得参数估计指数稳定所必需的Δχ(t)的持续激励条件可以弱化为更容易实现的有限时间内的激励，也就是说估计参数可以在更快的时间内收敛到真值，进而达到更好的控制效果。通过李雅普诺夫第二法证明，当有界的高阶估计误差ε_a存在时，参数估计误差

可以收敛到一有界值，评判者网络求解出的代价函数在最优值V^*附近；当估计误差ε_a＝0时，参数估计误差

可以指数收敛到0，此时评判者网络可以求解出最优的代价函数V^*。

II)用于策略更新的执行者网络

执行者网络根据当前评判者网络代价函数的学习结果计算控制策略：

假设评判者网络中自适应学习的信号激励条件能够保证参数估计结果的收敛，根据李雅普诺夫第二法，可以证明当神经网络高阶估计误差ε_a为足够小的有界值时，执行者网络求解出的控制策略是在最优策略u^*附近有界区间内一值，系统状态变量有界；当估计误差ε_a＝0时，执行者网络可以求解出最优策略u^*。

实施例3：

参见图4和图5，基于积分式强化学习的自适应最优AGC控制方法，包括以下步骤：

1)系统参数设置

控制对象为图1所示的单区域电力系统，调速器时间常数T_g＝0.08,涡轮机时间常数T_t＝0.1,发电机时间常数T_p＝20,发电机增益K_p＝120,调速器速度下降率R_d＝2.5，积分控制增益K_e＝1。

定义最优控制代价函数如式(6)，其中效用方程U(x,u)的状态变量权重Q＝I，控制变量权重R＝0.5，评判网络中激活函数χ(x)选为含有10个二次项元素的向量

系统状态变量初始化为x(0)＝[0 0 0 0]^T，评判网络权重初始值为

自适应增益矩阵Γ＝10I，自适应遗忘因子β＝1.2，积分增强信号的采样周期为T＝0.1s。

2)算法性能及测试结果

本发明所提出的控制算法对单区域电力系统的频率偏差抑制效果如图4所示，比例积分PI控制器的控制效果。系统中存在小幅负荷扰动的影响，在10秒时系统受到了0.25p.u.的负荷扰动，20秒时扰动消失，本发明所提出的控制方法对于负荷扰动的频率抑制效果要好于经典的比例积分方法，证明了方法有效性。

综上所述，本发明提出了单区域电力系统AGC控制的一种新方法。该方法基于积分型强化学习的策略迭代算法，利用执行者-评判者神经网络实现策略迭代中的策略评价和策略更新两个步骤，在系统动态信息未知的情况下就可以实现代价函数的学习和最优控制策略的实施，有效提升了电力系统频率偏差的抑制效果，为电力系统运行时的参数设置提供了指导。