CN113346552B - 基于积分式强化学习的自适应最优agc控制方法 - Google Patents

基于积分式强化学习的自适应最优agc控制方法

Info

Publication number
CN113346552B
CN113346552B CN202110420781.XA CN202110420781A CN113346552B CN 113346552 B CN113346552 B CN 113346552B CN 202110420781 A CN202110420781 A CN 202110420781A CN 113346552 B CN113346552 B CN 113346552B
Authority
CN
China
Prior art keywords
cost function
network
adaptive
error
increment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110420781.XA
Other languages
English (en)
Other versions
CN113346552A (zh
Inventor
许懿
欧睿
胡润滋
蒙永苹
张明媚
杨渝璐
周宇晴
熊伟
廖新颖
李德智
甘潼临
刘伟
许洁
李光杰
李郅浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
State Grid Chongqing Electric Power Co Ltd
Original Assignee
Chongqing University
State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, State Grid Chongqing Electric Power Co Ltd filed Critical Chongqing University
Priority to CN202110420781.XA priority Critical patent/CN113346552B/zh
Publication of CN113346552A publication Critical patent/CN113346552A/zh
Application granted granted Critical
Publication of CN113346552B publication Critical patent/CN113346552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for AC mains or AC distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • H02J3/0014
    • H02J2101/40
    • H02J2103/30

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Feedback Control In General (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开基于积分式强化学习的自适应最优AGC控制方法,步骤为:1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;2)基于强化学习中的策略迭代算法,建立评判者‑执行者神经网络;所述评判者‑执行者神经网络包括评判者网络和执行者网络;3)将电力系统状态空间矩阵输入到评判者‑执行者神经网络中,解算得到最优控制策略。本发明使用积分强化学习策略进行最优代价函数的学习,使得学习过程可以在系统动态模型未知的情况下进行,并且从弱化持续激励条件的角度来提升学习的速度和准确性。

Description

基于积分式强化学习的自适应最优AGC控制方法
技术领域
本发明涉及电力系统及其自动化领域,具体是基于积分式强化学习的自适应最优AGC控制方法。
背景技术
现今电力系统的结构日趋复杂,不断拓展延伸到许多偏远地区,然而由于距离和自然条件的限制,偏远地区的输电成本高昂,与其他区域联络线的数量有限或没有联络线,当区间联络线发生故障时当地电力系统易成为孤岛运行的单区域系统,因此维持单区域电网稳定运行的AGC控制策略就显得较为重要。与此同时,新能源发电在这些地区电力系统中往往占据较大的比重,由于风机、光伏或潮汐发电机组输出功率的不稳定性,导致电网的频率响应容易产生波动,再加上单区域系统的机组总惯量较小,难以调节发电端和负荷端的随机波动,造成较大的频率偏差。另一方面,频繁的频率波动带来的系统调整动作也使得调速器等发电机组部件老化加快,增加运营维护成本。基于最优控制理论的AGC控制方法通过最小化所定义的与频率偏差量、机组出力相关的代价函数来达到控制目的,但从目前已有研究情况来看,现有的最优控制方法需要系统的完整的动态信息,最优的控制策略难以求解,且容易受到参数变化和扰动量的影响。部分学者提出的自适应最优控制方法可以通过在线学习解出最优控制策略,但面临学习速度慢且无法收敛到最优的问题,并且仍旧需要系统的动态信息。若要应用在单区域电力系统的AGC控制中,自适应最优的控制策略需要解决上述问题以达到实际运行的要求。
发明内容
本发明的目的是提供基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;
所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
单区域电力系统频率响应模型如下所述:
式中,ΔXg(t)为调速器阀门开度变化增量;为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;为增量ΔPg(t)的微分;Δf(t)为频率误差增量;为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
电力系统状态空间矩阵如下所示:
式中,x(t)表示状态变量;表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
式中,R为控制变量权重。
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥n(n+1)/2;n为系统中状态变量的个数。
评判者网络输出代价函数V(x)的步骤包括:
I)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)是估计误差;
代价函数V(x)对于状态变量x的偏导如下所示:
II)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
式中,自适应估计误差
所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
式中,V(x(t)为代价函数。公式(6)用于对估计误差和评判者网络自适应误差的求取。
III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项
IV)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))–εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
V)建立评判者网络的自适应估计误差代价函数J,即:
式中,J是误差二次项的积分式;β为遗忘因子;
VI)权重向量估计值的动态变化如下所示:
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
VII)定义积分项Ω(t)和积分项Φ(t)如下所示:
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
其中,向量Ω和矩阵Φ的动态过程如下所示::
式中,分别表示向量Ω和矩阵Φ的动态过程;
VIII)将公式(11)代入公式(5),得到代价函数V(x)。
执行者网络的输出如下所示:
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵B。
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略。
解算得到最优控制策略的步骤包括:
3.1)初始化控制策略,记为u0;初始化代价函数,记为V1
3.2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
式中,V(x(t+T)为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3.3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
3.4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤3.2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
值得说明的是,本发明建立单区域电力系统频率响应模型。对于一个既定系统,选取合适的状态变量,将其在系统平衡点处线性化,可以建立对应的频率响应模型并得到系统状态空间矩阵。
然后,基于强化学习中的策略迭代算法,建立评判者-执行者神经网络来实施学习和控制。强化学习中执行者网络(AGC控制器)执行控制策略作用于外部环境(电力系统),评判者网络对当前控制作用进行策略评估,学习得到当前策略的回报值(代价函数),系统状态变量和回报值反馈给评判者网络。其中评判者网络对代价函数的学习基于Weierstrass高阶近似估计方法,将未知的高阶多项式近似为二次多项式的组合,基于积分增强信号建立哈密顿误差方程,通过梯度法求解出二次多项式的权重系数向量,进而得到代价函数。执行者网络将代价函数的学习结果代入哈密顿方程求解当前的控制策略。
其中,在梯度法求解代价方程近似函数的权重向量时,本发明选用了二次型的误差代价函数,使得参数收敛中递归向量的持续激励条件可以弱化为有限时间内的持续激励,可以实现更快更准确的的代价函数学习。
最后,通过MATLAB 2016软件仿真,在单区域电力系统模型中验证了本发明的有效性,证明了本发明可以实现更好的调频效果。
本发明的技术效果是毋庸置疑的,本发明使用积分强化学习策略进行最优代价函数的学习,使得学习过程可以在系统动态模型未知的情况下进行,并且从弱化持续激励条件的角度来提升学习的速度和准确性。
附图说明
图1为自适应最优控制示意图;
图2为单区域电力系统频率响应框图;
图3为控制算法流程图;
图4为本发明频率误差抑制效果。
图5为传统PI控制的频率误差抑制效果。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图3,基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;
所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
单区域电力系统频率响应模型如下所述:
式中,ΔXg(t)为调速器阀门开度变化增量;为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;为增量ΔPg(t)的微分;Δf(t)为频率误差增量;为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
电力系统状态空间矩阵如下所示:
式中,x(t)表示状态变量;表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
式中,R为控制变量权重。在作模型分析时假定其他状态变量不变,只有一个变量变动,该变动的状态变量即为控制变量。
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥n(n+1)/2;n为系统中状态变量的个数。
评判者网络输出代价函数V(x)的步骤包括:
I)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)是估计误差;
代价函数V(x)对于状态变量x的偏导如下所示:
II)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
式中,自适应估计误差
式5是估计形式,式15是迭代过程中的直接表达式。
所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
式中,V(x(t)为代价函数。公式(6)用于对估计误差和评判者网络自适应误差的求取。
III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项x(t+T)、x(t)分别表示t+T时段、t时段的状态变量。
IV)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))–εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
V)建立评判者网络的自适应估计误差代价函数J,即:
式中,J是误差二次项的积分式;β为遗忘因子;
VI)权重向量估计值的动态变化如下所示:
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
VII)定义积分项Ω(t)和积分项Φ(t)如下所示:
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
其中,向量Ω和矩阵Φ的动态过程如下所示::
式中,分别表示向量Ω和矩阵Φ的动态过程;
VIII)将公式(11)代入公式(5),得到代价函数V(x)。
执行者网络的输出如下所示:
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵
17式为直接表达,13式是由神经网络对V的学习结果表达。
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略。
解算得到最优控制策略的步骤包括:
3.1)初始化控制策略,记为u0;初始化代价函数,记为V1
3.2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
式中,V(x(t+T)为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3.3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
3.4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤3.2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
实施例2:
基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立电力系统频率响应模型
本发明主要研究单区域电力系统的频率控制,其中的典型器件包括调速器、涡轮机、发电机转子和负载,其动态模型都可以近似为一阶过程。系统状态变量选取调速器阀门开度变化增量ΔXg(t),发电机输出变化量ΔPg(t),频率误差增量Δf(t)和频率误差积分增量ΔI(t),扰动变量为负荷增量ΔPd(t),该系统的微分方程总结如下:
系统状态空间模型表示为:
2)积分型强化学习的策略迭代
在最优控制问题中,在无限时间域上定义与系统状态x和输入u相关的代价函数V:
其中U(x,u)为人为定义的效用方程,通常为二次型的形式:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ), (4)
将代价函数针对时间t求偏导,得到该问题的哈密顿方程:
求解方程H=0即可得到最优代价V*,再将V*代入求解得到最优控制作用u*。对于连续时间系统,常规强化学习方法的实施需要完整的系统动态信息,有一定的实施难度。积分型强化学习方法在求解该问题时可以仅使用模型的输入动态信息求解最优代价函数,避免了使用全部的系统动态信息,考虑含有积分增强信号的代价函数,对于任意时间间隔T>0,将代价函数以新的形式表达:
此时的哈密顿方程可以重新表达为:
根据该式求解代价函数时不需要系统的动态信息,策略迭代(Policy iteration)算法交替实施策略评估(Policy evaluation)和策略更新(Policy improvement)两个步骤,算法初始化包含控制策略的初始化u0和代价函数的初始化V1,两个步骤总结如下:
I)策略评价
根据第i次迭代计算出的控制策略ui,代入求解第i+1次迭代的代价函数Vi+1
II)策略更新
根据第i+1次迭代计算出的代价函数Vi+1,计算第i+1次迭代的控制策略ui+1
策略迭代算法交替进行以上两个步骤,直到代价函数和控制策略的增量收敛到某一较小的阈值以内。
3)执行者-评判者(Actor-critic)网络的设计
I)用于策略评估的评判者网络
评判者神经网络根据Weierstrass高阶估计方法将高阶的代价函数近似估计为低阶多项式的线性组合,通过梯度法估计低阶多项式对应的权重参数向量来实现对代价函数的近似。定义低阶多项式向量χ(x)=[χ1(x),χ2(x),...,χN(x)]T为激活函数向量,作为神经网络隐藏层中的神经元。若低阶多项式元素χi为系统状态变量的二次型形式{xi(t)xj(t)}(i,j=1,2,...,n),假设系统中状态变量的个数为n,则低阶多项式的个数N要满足N≥n(n+1)/2。此时,最优控制代价函数可以估计为:
V(x)=wTχ(x)+εa(x), (10)
其中w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量,εa(x)是估计误差,考虑到(9)式中计算控制策略时用到的是代价函数对于状态变量x的偏导,基于(10)式可以得到偏导的估计表达式:
估计误差εa(x)和它的偏导均有界,当激活函数中元素个数N→∞时εa均趋于0,因此在计算能力范围内可以选择尽量多的激活元素。评判者网络通过自适应参数估计方法来实现对权重参数向量的学习,估计的权重向量表示为代价函数可以进一步表示为:
这里的是自适应估计误差,当自适应律和信号激励条件可以保证参数估计的指数稳定时,εe→0。
根据(7)式,时段[t,t+T]上的贝尔曼等式误差εA可以表示为:
其中εA=εa(x(t+T))-εa(x(t))是有界的。这里的激活函数方程表示为Δχ(t)=χ(t+T)-χ(t),用μ(t)表示增强信号项定义εE=εe(x(t+T))–εe(x(t))为时段[t,t+T]上的自适应估计误差,再用总估计误差ε=εAE表示时段[t,t+T]上近似误差和自适应估计误差之和,因此(13)式可以重新表示为:
定义评判者网络的自适应估计误差代价函数J:
J是一个误差二次项的积分式,指数衰减项避免了积分作用导致的代价无界,遗忘因子β与历史动态信息的衰减率有关。基于梯度法,估计权重的动态可以表示为:
这里的常数Γ>0是自适应增益对角矩阵,η=1+ΔχTΔχ作为归一化因子被引入,为方便自适应律的表示,定义以下积分项:
其中Ω是N阶向量,Φ是N阶方阵,因此(16)式可以表示为:
向量Ω和矩阵Φ的动态过程可以表示为:
所选取的误差代价函数保存了激活函数Δχ(t)的历史信息,自适应过程同时利用了目前时刻和历史时刻系统的动态信息,使得参数估计指数稳定所必需的Δχ(t)的持续激励条件可以弱化为更容易实现的有限时间内的激励,也就是说估计参数可以在更快的时间内收敛到真值,进而达到更好的控制效果。通过李雅普诺夫第二法证明,当有界的高阶估计误差εa存在时,参数估计误差可以收敛到一有界值,评判者网络求解出的代价函数在最优值V*附近;当估计误差εa=0时,参数估计误差可以指数收敛到0,此时评判者网络可以求解出最优的代价函数V*
II)用于策略更新的执行者网络
执行者网络根据当前评判者网络代价函数的学习结果计算控制策略:
假设评判者网络中自适应学习的信号激励条件能够保证参数估计结果的收敛,根据李雅普诺夫第二法,可以证明当神经网络高阶估计误差εa为足够小的有界值时,执行者网络求解出的控制策略是在最优策略u*附近有界区间内一值,系统状态变量有界;当估计误差εa=0时,执行者网络可以求解出最优策略u*
实施例3:
参见图4和图5,基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)系统参数设置
控制对象为图1所示的单区域电力系统,调速器时间常数Tg=0.08,涡轮机时间常数Tt=0.1,发电机时间常数Tp=20,发电机增益Kp=120,调速器速度下降率Rd=2.5,积分控制增益Ke=1。
定义最优控制代价函数如式(6),其中效用方程U(x,u)的状态变量权重Q=I,控制变量权重R=0.5,评判网络中激活函数χ(x)选为含有10个二次项元素的向量系统状态变量初始化为x(0)=[0 0 0 0]T,评判网络权重初始值为 自适应增益矩阵Γ=10I,自适应遗忘因子β=1.2,积分增强信号的采样周期为T=0.1s。
2)算法性能及测试结果
本发明所提出的控制算法对单区域电力系统的频率偏差抑制效果如图4所示,比例积分PI控制器的控制效果。系统中存在小幅负荷扰动的影响,在10秒时系统受到了0.25p.u.的负荷扰动,20秒时扰动消失,本发明所提出的控制方法对于负荷扰动的频率抑制效果要好于经典的比例积分方法,证明了方法有效性。
综上所述,本发明提出了单区域电力系统AGC控制的一种新方法。该方法基于积分型强化学习的策略迭代算法,利用执行者-评判者神经网络实现策略迭代中的策略评价和策略更新两个步骤,在系统动态信息未知的情况下就可以实现代价函数的学习和最优控制策略的实施,有效提升了电力系统频率偏差的抑制效果,为电力系统运行时的参数设置提供了指导。

Claims (8)

1.基于积分式强化学习的自适应最优AGC控制方法,其特征在于,包括以下步骤:
1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略;
4)执行者网络在电力系统中执行所述最优控制策略;
单区域电力系统频率响应模型如下所述:
式中,ΔXg(t)为调速器阀门开度变化增量;为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;为增量ΔPg(t)的微分;Δf(t)为频率误差增量;为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
2.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于:所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
3.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,电力系统状态空间矩阵如下所示:
式中,x(t)表示状态变量;表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
式中,R为控制变量权重。
4.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥
n(n+1)/2;n为系统中状态变量的个数。
5.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,评判者网络输出代价函数V(x)的步骤包括:
1)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)
是估计误差;
代价函数V(x)对于状态变量x的偏导如下所示:
2)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
式中,自适应估计误差
3)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项
4)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))-εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
5)建立评判者网络的自适应估计误差代价函数J,即:
式中,J是误差二次项的积分式;β为遗忘因子;
6)权重向量估计值的动态变化如下所示:
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
7)定义积分项Ω(t)和积分项Φ(t)如下所示:
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
其中,向量Ω和矩阵Φ的动态过程如下所示:
式中,分别表示向量Ω和矩阵Φ的动态过程;
8)将公式(11)代入公式(5),得到代价函数V(x)。
6.根据权利要求5所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,执行者网络的输出如下所示:
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵B。
7.根据权利要求6所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
式中,V(x(t))为代价函数;公式(14)用于对估计误差和评判者网络自适应误差的求取。
8.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,解算得到最优控制策略的步骤包括:
1)初始化控制策略,记为u0;初始化代价函数,记为V1
2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
式中,V(x(t+T))为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
CN202110420781.XA 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法 Active CN113346552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420781.XA CN113346552B (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420781.XA CN113346552B (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Publications (2)

Publication Number Publication Date
CN113346552A CN113346552A (zh) 2021-09-03
CN113346552B true CN113346552B (zh) 2025-07-22

Family

ID=77468123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420781.XA Active CN113346552B (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Country Status (1)

Country Link
CN (1) CN113346552B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114188955B (zh) * 2021-12-01 2023-08-01 天津大学 基于自适应学习的互联微电网复合频率控制方法及装置
CN116861792B (zh) * 2023-07-14 2024-03-15 西北工业大学 一种基于增量网络的caid动力学习模型构建方法
CN119668259A (zh) * 2024-12-10 2025-03-21 广东海洋大学 一种船舶航向控制方法及系统
CN120896185A (zh) * 2025-07-30 2025-11-04 国电电力发展股份有限公司 一种基于深度学习的新型电力系统一次调频优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104682392A (zh) * 2014-12-04 2015-06-03 重庆大学 计及线路安全约束的省网agc机组动态优化调度方法
CN111555363A (zh) * 2020-04-09 2020-08-18 广西大学 大数据环境下基于深度学习的agc实时控制策略

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626350B2 (en) * 2010-04-14 2014-01-07 King Fahd University Of Petroleum And Minerals Sliding mode AGC controller and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104682392A (zh) * 2014-12-04 2015-06-03 重庆大学 计及线路安全约束的省网agc机组动态优化调度方法
CN111555363A (zh) * 2020-04-09 2020-08-18 广西大学 大数据环境下基于深度学习的agc实时控制策略

Also Published As

Publication number Publication date
CN113346552A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113346552B (zh) 基于积分式强化学习的自适应最优agc控制方法
Li et al. A novel robust adaptive-fuzzy-tracking control for a class of nonlinearmulti-input/multi-output systems
CN110374804B (zh) 一种基于深度确定性策略梯度补偿的变桨距控制方法
Yang et al. Adaptive fuzzy H/sub/spl infin//stabilization for strict-feedback canonical nonlinear systems via backstepping and small-gain approach
Beck et al. Error bounds for constant step-size Q-learning
Hovakimyan et al. Adaptive output feedback control of uncertain nonlinear systems using single-hidden-layer neural networks
US20220186709A1 (en) Reinforcement learning-based real time robust variable pitch control of wind turbine systems
Milovanović et al. Adaptive PID control based on orthogonal endocrine neural networks
Fan et al. Neuro-adaptive model-reference fault-tolerant control with application to wind turbines
CN102033548A (zh) 基于rbf神经网络的伺服控制系统及方法
Simani et al. Data-driven techniques for the fault diagnosis of a wind turbine benchmark
Wang et al. A novel adaptive model predictive frequency control using unscented Kalman filter
Wu et al. A construction-free coordinate-descent augmented-Lagrangian method for embedded linear MPC based on ARX models
Shi et al. Observer-based fixed-time fuzzy adaptive output feedback tracking control for a class of nonlinear systems
CN108448594A (zh) 微电网频率自适应学习控制方法
Bu et al. Event-triggered data-driven distributed LFC using controller-dynamic-linearization method
CN114188955B (zh) 基于自适应学习的互联微电网复合频率控制方法及装置
Kahouli et al. Type-2 fuzzy logic controller based PSS for large scale power systems stability
CN111240201A (zh) 一种扰动抑制控制方法
CN119994945A (zh) 一种变参数电力系统自适应调频方法及系统
Altas et al. A fuzzy logic decision maker and controller for reducing load frequency oscillations in multi-area power systems
Maraba et al. Speed control of an asynchronous motor using pid neural network
CN120762272B (zh) 自适应模糊pid流场控制方法及装置
Asadi et al. A Data-Based Adaptive Predictive Controller Design for Stabilizing Unknown Nonlinear Systems Featuring Input and Output Saturations
Chan et al. Neurofuzzy network based self-tuning control with offset eliminating

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant