CN113346552A - 基于积分式强化学习的自适应最优agc控制方法 - Google Patents

基于积分式强化学习的自适应最优agc控制方法 Download PDF

Info

Publication number
CN113346552A
CN113346552A CN202110420781.XA CN202110420781A CN113346552A CN 113346552 A CN113346552 A CN 113346552A CN 202110420781 A CN202110420781 A CN 202110420781A CN 113346552 A CN113346552 A CN 113346552A
Authority
CN
China
Prior art keywords
network
cost function
increment
error
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110420781.XA
Other languages
English (en)
Inventor
许懿
欧睿
胡润滋
蒙永苹
张明媚
杨渝璐
周宇晴
熊伟
廖新颖
李德智
甘潼临
刘伟
许洁
李光杰
李郅浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
State Grid Chongqing Electric Power Co Ltd
Original Assignee
Chongqing University
State Grid Chongqing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, State Grid Chongqing Electric Power Co Ltd filed Critical Chongqing University
Priority to CN202110420781.XA priority Critical patent/CN113346552A/zh
Publication of CN113346552A publication Critical patent/CN113346552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/24Arrangements for preventing or reducing oscillations of power in networks
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2300/00Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation
    • H02J2300/40Systems for supplying or distributing electric power characterised by decentralized, dispersed, or local generation wherein a plurality of decentralised, dispersed or local energy generation technologies are operated simultaneously

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开基于积分式强化学习的自适应最优AGC控制方法,步骤为:1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;2)基于强化学习中的策略迭代算法,建立评判者‑执行者神经网络;所述评判者‑执行者神经网络包括评判者网络和执行者网络;3)将电力系统状态空间矩阵输入到评判者‑执行者神经网络中,解算得到最优控制策略。本发明使用积分强化学习策略进行最优代价函数的学习,使得学习过程可以在系统动态模型未知的情况下进行,并且从弱化持续激励条件的角度来提升学习的速度和准确性。

Description

基于积分式强化学习的自适应最优AGC控制方法
技术领域
本发明涉及电力系统及其自动化领域,具体是基于积分式强化学习的自适应最优AGC控制方法。
背景技术
现今电力系统的结构日趋复杂,不断拓展延伸到许多偏远地区,然而由于距离和自然条件的限制,偏远地区的输电成本高昂,与其他区域联络线的数量有限或没有联络线,当区间联络线发生故障时当地电力系统易成为孤岛运行的单区域系统,因此维持单区域电网稳定运行的AGC控制策略就显得较为重要。与此同时,新能源发电在这些地区电力系统中往往占据较大的比重,由于风机、光伏或潮汐发电机组输出功率的不稳定性,导致电网的频率响应容易产生波动,再加上单区域系统的机组总惯量较小,难以调节发电端和负荷端的随机波动,造成较大的频率偏差。另一方面,频繁的频率波动带来的系统调整动作也使得调速器等发电机组部件老化加快,增加运营维护成本。基于最优控制理论的AGC控制方法通过最小化所定义的与频率偏差量、机组出力相关的代价函数来达到控制目的,但从目前已有研究情况来看,现有的最优控制方法需要系统的完整的动态信息,最优的控制策略难以求解,且容易受到参数变化和扰动量的影响。部分学者提出的自适应最优控制方法可以通过在线学习解出最优控制策略,但面临学习速度慢且无法收敛到最优的问题,并且仍旧需要系统的动态信息。若要应用在单区域电力系统的AGC控制中,自适应最优的控制策略需要解决上述问题以达到实际运行的要求。
发明内容
本发明的目的是提供基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;
所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
单区域电力系统频率响应模型如下所述:
Figure BDA0003027759310000021
式中,ΔXg(t)为调速器阀门开度变化增量;
Figure BDA0003027759310000022
为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;
Figure BDA0003027759310000023
为增量ΔPg(t)的微分;Δf(t)为频率误差增量;
Figure BDA0003027759310000024
为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;
Figure BDA0003027759310000025
为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
电力系统状态空间矩阵如下所示:
Figure BDA0003027759310000026
式中,x(t)表示状态变量;
Figure BDA0003027759310000027
表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
Figure BDA0003027759310000028
Figure BDA0003027759310000029
式中,R为控制变量权重。
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥n(n+1)/2;n为系统中状态变量的个数。
评判者网络输出代价函数V(x)的步骤包括:
I)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)是估计误差;
代价函数V(x)对于状态变量x的偏导
Figure BDA0003027759310000031
如下所示:
Figure BDA0003027759310000032
II)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值
Figure BDA0003027759310000033
此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
Figure BDA0003027759310000034
式中,自适应估计误差
Figure BDA0003027759310000035
所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
Figure BDA0003027759310000036
式中,V(x(t)为代价函数。公式(6)用于对估计误差和评判者网络自适应误差的求取。
III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
Figure BDA0003027759310000037
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项
Figure BDA0003027759310000038
IV)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))–εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
Figure BDA0003027759310000039
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
V)建立评判者网络的自适应估计误差代价函数J,即:
Figure BDA0003027759310000041
式中,J是误差二次项的积分式;β为遗忘因子;
VI)权重向量估计值的动态变化
Figure BDA0003027759310000042
如下所示:
Figure BDA0003027759310000043
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
VII)定义积分项Ω(t)和积分项Φ(t)如下所示:
Figure BDA0003027759310000044
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
Figure BDA0003027759310000045
其中,向量Ω和矩阵Φ的动态过程如下所示::
Figure BDA0003027759310000046
式中,
Figure BDA0003027759310000047
分别表示向量Ω和矩阵Φ的动态过程;
VIII)将公式(11)代入公式(5),得到代价函数V(x)。
执行者网络的输出如下所示:
Figure BDA0003027759310000048
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵B。
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略。
解算得到最优控制策略的步骤包括:
3.1)初始化控制策略,记为u0;初始化代价函数,记为V1
3.2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
Figure BDA0003027759310000049
式中,V(x(t+T)为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3.3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
Figure BDA0003027759310000051
3.4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤3.2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
值得说明的是,本发明建立单区域电力系统频率响应模型。对于一个既定系统,选取合适的状态变量,将其在系统平衡点处线性化,可以建立对应的频率响应模型并得到系统状态空间矩阵。
然后,基于强化学习中的策略迭代算法,建立评判者-执行者神经网络来实施学习和控制。强化学习中执行者网络(AGC控制器)执行控制策略作用于外部环境(电力系统),评判者网络对当前控制作用进行策略评估,学习得到当前策略的回报值(代价函数),系统状态变量和回报值反馈给评判者网络。其中评判者网络对代价函数的学习基于Weierstrass高阶近似估计方法,将未知的高阶多项式近似为二次多项式的组合,基于积分增强信号建立哈密顿误差方程,通过梯度法求解出二次多项式的权重系数向量,进而得到代价函数。执行者网络将代价函数的学习结果代入哈密顿方程求解当前的控制策略。
其中,在梯度法求解代价方程近似函数的权重向量时,本发明选用了二次型的误差代价函数,使得参数收敛中递归向量的持续激励条件可以弱化为有限时间内的持续激励,可以实现更快更准确的的代价函数学习。
最后,通过MATLAB 2016软件仿真,在单区域电力系统模型中验证了本发明的有效性,证明了本发明可以实现更好的调频效果。
本发明的技术效果是毋庸置疑的,本发明使用积分强化学习策略进行最优代价函数的学习,使得学习过程可以在系统动态模型未知的情况下进行,并且从弱化持续激励条件的角度来提升学习的速度和准确性。
附图说明
图1为自适应最优控制示意图;
图2为单区域电力系统频率响应框图;
图3为控制算法流程图;
图4为本发明频率误差抑制效果。
图5为传统PI控制的频率误差抑制效果。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图3,基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵;
所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
单区域电力系统频率响应模型如下所述:
Figure BDA0003027759310000061
式中,ΔXg(t)为调速器阀门开度变化增量;
Figure BDA0003027759310000062
为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;
Figure BDA0003027759310000063
为增量ΔPg(t)的微分;Δf(t)为频率误差增量;
Figure BDA0003027759310000064
为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;
Figure BDA0003027759310000065
为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
电力系统状态空间矩阵如下所示:
Figure BDA0003027759310000066
式中,x(t)表示状态变量;
Figure BDA0003027759310000071
表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
Figure BDA0003027759310000072
Figure BDA0003027759310000073
式中,R为控制变量权重。在作模型分析时假定其他状态变量不变,只有一个变量变动,该变动的状态变量即为控制变量。
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥n(n+1)/2;n为系统中状态变量的个数。
评判者网络输出代价函数V(x)的步骤包括:
I)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)是估计误差;
代价函数V(x)对于状态变量x的偏导
Figure BDA0003027759310000074
如下所示:
Figure BDA0003027759310000075
II)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值
Figure BDA0003027759310000076
此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
Figure BDA0003027759310000077
式中,自适应估计误差
Figure BDA0003027759310000078
式5是估计形式,式15是迭代过程中的直接表达式。
所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
Figure BDA0003027759310000081
式中,V(x(t)为代价函数。公式(6)用于对估计误差和评判者网络自适应误差的求取。
III)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
Figure BDA0003027759310000082
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项
Figure BDA0003027759310000083
x(t+T)、x(t)分别表示t+T时段、t时段的状态变量。
IV)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))–εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
Figure BDA0003027759310000084
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
V)建立评判者网络的自适应估计误差代价函数J,即:
Figure BDA0003027759310000085
式中,J是误差二次项的积分式;β为遗忘因子;
VI)权重向量估计值的动态变化
Figure BDA0003027759310000086
如下所示:
Figure BDA0003027759310000087
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
VII)定义积分项Ω(t)和积分项Φ(t)如下所示:
Figure BDA0003027759310000088
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
Figure BDA0003027759310000089
其中,向量Ω和矩阵Φ的动态过程如下所示::
Figure BDA00030277593100000810
式中,
Figure BDA0003027759310000091
分别表示向量Ω和矩阵Φ的动态过程;
VIII)将公式(11)代入公式(5),得到代价函数V(x)。
执行者网络的输出如下所示:
Figure BDA0003027759310000092
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵
Figure BDA0003027759310000093
17式为直接表达,13式是由神经网络对V的学习结果表达。
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略。
解算得到最优控制策略的步骤包括:
3.1)初始化控制策略,记为u0;初始化代价函数,记为V1
3.2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
Figure BDA0003027759310000094
式中,V(x(t+T)为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3.3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
Figure BDA0003027759310000095
3.4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤3.2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
实施例2:
基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)建立电力系统频率响应模型
本发明主要研究单区域电力系统的频率控制,其中的典型器件包括调速器、涡轮机、发电机转子和负载,其动态模型都可以近似为一阶过程。系统状态变量选取调速器阀门开度变化增量ΔXg(t),发电机输出变化量ΔPg(t),频率误差增量Δf(t)和频率误差积分增量ΔI(t),扰动变量为负荷增量ΔPd(t),该系统的微分方程总结如下:
Figure BDA0003027759310000101
系统状态空间模型表示为:
Figure BDA0003027759310000102
Figure BDA0003027759310000103
Figure BDA0003027759310000104
2)积分型强化学习的策略迭代
在最优控制问题中,在无限时间域上定义与系统状态x和输入u相关的代价函数V:
Figure BDA0003027759310000105
其中U(x,u)为人为定义的效用方程,通常为二次型的形式:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ), (4)
将代价函数针对时间t求偏导,得到该问题的哈密顿方程:
Figure BDA0003027759310000106
求解方程H=0即可得到最优代价V*,再将V*代入
Figure BDA0003027759310000107
求解得到最优控制作用u*。对于连续时间系统,常规强化学习方法的实施需要完整的系统动态信息,有一定的实施难度。积分型强化学习方法在求解该问题时可以仅使用模型的输入动态信息求解最优代价函数,避免了使用全部的系统动态信息,考虑含有积分增强信号的代价函数,对于任意时间间隔T>0,将代价函数以新的形式表达:
Figure BDA0003027759310000111
此时的哈密顿方程可以重新表达为:
Figure BDA0003027759310000112
根据该式求解代价函数时不需要系统的动态信息,策略迭代(Policy iteration)算法交替实施策略评估(Policy evaluation)和策略更新(Policy improvement)两个步骤,算法初始化包含控制策略的初始化u0和代价函数的初始化V1,两个步骤总结如下:
I)策略评价
根据第i次迭代计算出的控制策略ui,代入求解第i+1次迭代的代价函数Vi+1
Figure BDA0003027759310000113
II)策略更新
根据第i+1次迭代计算出的代价函数Vi+1,计算第i+1次迭代的控制策略ui+1
Figure BDA0003027759310000114
策略迭代算法交替进行以上两个步骤,直到代价函数和控制策略的增量收敛到某一较小的阈值以内。
3)执行者-评判者(Actor-critic)网络的设计
I)用于策略评估的评判者网络
评判者神经网络根据Weierstrass高阶估计方法将高阶的代价函数近似估计为低阶多项式的线性组合,通过梯度法估计低阶多项式对应的权重参数向量来实现对代价函数的近似。定义低阶多项式向量χ(x)=[χ1(x),χ2(x),...,χN(x)]T为激活函数向量,作为神经网络隐藏层中的神经元。若低阶多项式元素χi为系统状态变量的二次型形式{xi(t)xj(t)}(i,j=1,2,...,n),假设系统中状态变量的个数为n,则低阶多项式的个数N要满足N≥n(n+1)/2。此时,最优控制代价函数可以估计为:
V(x)=wTχ(x)+εa(x), (10)
其中w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量,εa(x)是估计误差,考虑到(9)式中计算控制策略时用到的是代价函数对于状态变量x的偏导,基于(10)式可以得到偏导
Figure BDA0003027759310000121
的估计表达式:
Figure BDA0003027759310000122
估计误差εa(x)和它的偏导
Figure BDA0003027759310000123
均有界,当激活函数中元素个数N→∞时εa
Figure BDA0003027759310000124
均趋于0,因此在计算能力范围内可以选择尽量多的激活元素。评判者网络通过自适应参数估计方法来实现对权重参数向量的学习,估计的权重向量表示为
Figure BDA00030277593100001212
代价函数可以进一步表示为:
Figure BDA0003027759310000125
这里的
Figure BDA0003027759310000126
是自适应估计误差,当自适应律和信号激励条件可以保证参数估计的指数稳定时,εe→0。
根据(7)式,时段[t,t+T]上的贝尔曼等式误差εA可以表示为:
Figure BDA0003027759310000127
其中εA=εa(x(t+T))-εa(x(t))是有界的。这里的激活函数方程表示为Δχ(t)=χ(t+T)-χ(t),用μ(t)表示增强信号项
Figure BDA0003027759310000128
定义εE=εe(x(t+T))–εe(x(t))为时段[t,t+T]上的自适应估计误差,再用总估计误差ε=εAE表示时段[t,t+T]上近似误差和自适应估计误差之和,因此(13)式可以重新表示为:
Figure BDA0003027759310000129
定义评判者网络的自适应估计误差代价函数J:
Figure BDA00030277593100001210
J是一个误差二次项的积分式,指数衰减项避免了积分作用导致的代价无界,遗忘因子β与历史动态信息的衰减率有关。基于梯度法,估计权重的动态可以表示为:
Figure BDA00030277593100001211
这里的常数Γ>0是自适应增益对角矩阵,η=1+ΔχTΔχ作为归一化因子被引入,为方便自适应律的表示,定义以下积分项:
Figure BDA0003027759310000131
其中Ω是N阶向量,Φ是N阶方阵,因此(16)式可以表示为:
Figure BDA0003027759310000132
向量Ω和矩阵Φ的动态过程可以表示为:
Figure BDA0003027759310000133
所选取的误差代价函数保存了激活函数Δχ(t)的历史信息,自适应过程同时利用了目前时刻和历史时刻系统的动态信息,使得参数估计指数稳定所必需的Δχ(t)的持续激励条件可以弱化为更容易实现的有限时间内的激励,也就是说估计参数可以在更快的时间内收敛到真值,进而达到更好的控制效果。通过李雅普诺夫第二法证明,当有界的高阶估计误差εa存在时,参数估计误差
Figure BDA0003027759310000134
可以收敛到一有界值,评判者网络求解出的代价函数在最优值V*附近;当估计误差εa=0时,参数估计误差
Figure BDA0003027759310000135
可以指数收敛到0,此时评判者网络可以求解出最优的代价函数V*
II)用于策略更新的执行者网络
执行者网络根据当前评判者网络代价函数的学习结果计算控制策略:
Figure BDA0003027759310000136
假设评判者网络中自适应学习的信号激励条件能够保证参数估计结果的收敛,根据李雅普诺夫第二法,可以证明当神经网络高阶估计误差εa为足够小的有界值时,执行者网络求解出的控制策略是在最优策略u*附近有界区间内一值,系统状态变量有界;当估计误差εa=0时,执行者网络可以求解出最优策略u*
实施例3:
参见图4和图5,基于积分式强化学习的自适应最优AGC控制方法,包括以下步骤:
1)系统参数设置
控制对象为图1所示的单区域电力系统,调速器时间常数Tg=0.08,涡轮机时间常数Tt=0.1,发电机时间常数Tp=20,发电机增益Kp=120,调速器速度下降率Rd=2.5,积分控制增益Ke=1。
定义最优控制代价函数如式(6),其中效用方程U(x,u)的状态变量权重Q=I,控制变量权重R=0.5,评判网络中激活函数χ(x)选为含有10个二次项元素的向量
Figure BDA0003027759310000141
系统状态变量初始化为x(0)=[0 0 0 0]T,评判网络权重初始值为
Figure BDA0003027759310000142
Figure BDA0003027759310000143
自适应增益矩阵Γ=10I,自适应遗忘因子β=1.2,积分增强信号的采样周期为T=0.1s。
2)算法性能及测试结果
本发明所提出的控制算法对单区域电力系统的频率偏差抑制效果如图4所示,比例积分PI控制器的控制效果。系统中存在小幅负荷扰动的影响,在10秒时系统受到了0.25p.u.的负荷扰动,20秒时扰动消失,本发明所提出的控制方法对于负荷扰动的频率抑制效果要好于经典的比例积分方法,证明了方法有效性。
综上所述,本发明提出了单区域电力系统AGC控制的一种新方法。该方法基于积分型强化学习的策略迭代算法,利用执行者-评判者神经网络实现策略迭代中的策略评价和策略更新两个步骤,在系统动态信息未知的情况下就可以实现代价函数的学习和最优控制策略的实施,有效提升了电力系统频率偏差的抑制效果,为电力系统运行时的参数设置提供了指导。

Claims (9)

1.基于积分式强化学习的自适应最优AGC控制方法,其特征在于,包括以下步骤:
1)建立所述单区域电力系统频率响应模型,并计算出电力系统状态空间矩阵。
2)基于强化学习中的策略迭代算法,建立评判者-执行者神经网络;所述评判者-执行者神经网络包括评判者网络和执行者网络;
3)将电力系统状态空间矩阵输入到评判者-执行者神经网络中,解算得到最优控制策略;
4)执行者网络在电力系统中执行所述最优控制策略。
2.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于:所述电力系统的器件包括调速器、涡轮机、发电机转子和负载。
3.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,单区域电力系统频率响应模型如下所述:
Figure FDA0003027759300000011
式中,ΔXg(t)为调速器阀门开度变化增量;
Figure FDA0003027759300000012
为增量ΔXg(t)的微分;ΔPg(t)为发电机输出变化量;
Figure FDA0003027759300000013
为增量ΔPg(t)的微分;Δf(t)为频率误差增量;
Figure FDA0003027759300000014
为增量Δf(t)的微分;ΔI(t)为频率误差积分增量;
Figure FDA0003027759300000015
为增量ΔI(t)的微分;ΔPd(t)为负荷增量;Tg、Tt、Tp分别为调速器、涡轮机、发电机时间常数;Kp、Ke分别为发电机增益和积分控制增益;Rd为调速器速度下降率;u(t)为t时刻的控制策略;
其中,调速器阀门开度变化增量ΔXg(t)、发电机输出变化量ΔPg(t)、频率误差增量Δf(t)和频率误差积分增量ΔI(t)为单区域电力系统频率响应模型的状态变量;负荷增量ΔPd(t)为扰动变量。
4.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,电力系统状态空间矩阵如下所示:
Figure FDA0003027759300000016
式中,x(t)表示状态变量;
Figure FDA0003027759300000021
表示状态变量的微分;
其中,矩阵A、矩阵B和矩阵F分别如下所示:
Figure FDA0003027759300000022
Figure FDA0003027759300000023
式中,R为控制变量权重。
5.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,所述评判者网络、执行者网络均包括输入层、隐藏层和输出层;
评判者网络的激活函数为χ(x)=[χ1(x),χ2(x),...,χN(x)]T;χ1(x)、χ2(x)、...、χN(x)为评判者网络隐藏层中的神经元;神经元总数N≥n(n+1)/2;n为系统中状态变量的个数。
6.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,评判者网络输出代价函数V(x)的步骤包括:
1)建立代价函数V(x)估计表达式,即:
V(x)=wTχ(x)+εa(x) (3)
式中,w=[w1,w2,...,wN]T是激活函数向量χ(x)的权重向量;εa(x)是估计误差;
代价函数V(x)对于状态变量x的偏导
Figure FDA0003027759300000024
如下所示:
Figure FDA0003027759300000025
2)评判者网络通过自适应参数估计方法对权重参数向量进行学习,得到权重向量估计值
Figure FDA0003027759300000026
此时,代价函数表达为评判者网络的估计值、估计误差和自适应估计误差之和的形式,如下所示:
Figure FDA0003027759300000027
式中,自适应估计误差
Figure FDA0003027759300000031
3)计算时段[t,t+T]上的哈密顿-贝尔曼等式误差εA,即:
Figure FDA0003027759300000032
式中,贝尔曼等式误差εA=εa(x(t+T))-εa(x(t))有界;增强信号项
Figure FDA0003027759300000033
4)计算得到时段[t,t+T]上的自适应估计误差εE=εe(x(t+T))–εe(x(t))和总估计误差ε=εAE
其中,总估计误差ε满足下式:
Figure FDA0003027759300000034
式中,激活函数方程Δχ(t)=χ(t+T)-χ(t);
5)建立评判者网络的自适应估计误差代价函数J,即:
Figure FDA0003027759300000035
式中,J是误差二次项的积分式;β为遗忘因子;
6)权重向量估计值的动态变化
Figure FDA0003027759300000036
如下所示:
Figure FDA0003027759300000037
式中,Γ>0是自适应增益对角矩阵;归一化因子η=1+ΔχTΔχ;
7)定义积分项Ω(t)和积分项Φ(t)如下所示:
Figure FDA0003027759300000038
式中,Ω是N阶向量,Φ是N阶方阵;
将公式(10)代入公式(9),得到:
Figure FDA0003027759300000039
其中,向量Ω和矩阵Φ的动态过程如下所示::
Figure FDA00030277593000000310
式中,
Figure FDA00030277593000000311
分别表示向量Ω和矩阵Φ的动态过程;
8)将公式(11)代入公式(5),得到代价函数V(x)。
7.根据权利要求6所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,执行者网络的输出如下所示:
Figure FDA0003027759300000041
式中,w为权重向量;u为控制策略;g为系统输入的动态特征,即状态空间模型中的矩阵B。
8.根据权利要求7所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,所述代价函数对应的哈密顿方程H(x(t,t+T),u)如下所示:
Figure FDA0003027759300000042
式中,V(x(t))为代价函数;公式(14)用于对估计误差和评判者网络自适应误差的求取。
9.根据权利要求1所述的基于积分式强化学习的自适应最优AGC控制方法,其特征在于,解算得到最优控制策略的步骤包括:
1)初始化控制策略,记为u0;初始化代价函数,记为V1
2)评判者网络根据第i次迭代的控制策略ui计算第i+1次迭代的代价函数Vi+1;i初始值为1;代价函数Vi+1如下所示:
Figure FDA0003027759300000043
式中,V(x(t+T))为t+T时间的代价函数;x(τ)为状态变量;
其中,效用参数U(x(τ),u(x(τ))如下所示:
U(x(τ),u(τ))=xT(τ)Qx(τ)+uT(τ)Ru(τ) (16)
式中,Q为状态变量权重;R为控制变量权重;
3)执行者网络根据代价函数Vi+1计算第i+1次迭代的控制策略ui+1,即:
Figure FDA0003027759300000044
4)执行者网络判断代价函数增量ΔV≤εV且控制策略增量Δu≤εu是否成立,若是,则以控制策略ui+1为最优控制策略,否则,令i=i+1,并返回步骤2);代价函数增量ΔV=Vi+1-Vi;控制策略增量Δu=ui+1-uiεV和εu分别为代价函数增量阈值和控制策略增量阈值。
CN202110420781.XA 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法 Pending CN113346552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420781.XA CN113346552A (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420781.XA CN113346552A (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Publications (1)

Publication Number Publication Date
CN113346552A true CN113346552A (zh) 2021-09-03

Family

ID=77468123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420781.XA Pending CN113346552A (zh) 2021-04-19 2021-04-19 基于积分式强化学习的自适应最优agc控制方法

Country Status (1)

Country Link
CN (1) CN113346552A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114188955A (zh) * 2021-12-01 2022-03-15 天津大学 基于自适应学习的互联微电网复合频率控制方法及装置
CN116861792A (zh) * 2023-07-14 2023-10-10 西北工业大学 一种基于增量网络的caid动力学习模型构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114188955A (zh) * 2021-12-01 2022-03-15 天津大学 基于自适应学习的互联微电网复合频率控制方法及装置
CN116861792A (zh) * 2023-07-14 2023-10-10 西北工业大学 一种基于增量网络的caid动力学习模型构建方法
CN116861792B (zh) * 2023-07-14 2024-03-15 西北工业大学 一种基于增量网络的caid动力学习模型构建方法

Similar Documents

Publication Publication Date Title
Hovakimyan et al. Adaptive output feedback control of uncertain nonlinear systems using single-hidden-layer neural networks
Chen et al. Globally stable adaptive backstepping fuzzy control for output-feedback systems with unknown high-frequency gain sign
US7647284B2 (en) Fixed-weight recurrent neural network controller with fixed long-term and adaptive short-term memory
Li et al. A novel robust adaptive-fuzzy-tracking control for a class of nonlinearmulti-input/multi-output systems
Li et al. A hybrid adaptive fuzzy control for a class of nonlinear MIMO systems
Boulkroune et al. On the design of observer-based fuzzy adaptive controller for nonlinear systems with unknown control gain sign
CN109033585B (zh) 不确定网络控制系统的pid控制器设计方法
CN113346552A (zh) 基于积分式强化学习的自适应最优agc控制方法
Fan et al. Neuro-adaptive model-reference fault-tolerant control with application to wind turbines
CN110374804B (zh) 一种基于深度确定性策略梯度补偿的变桨距控制方法
Jordanou et al. Echo state networks for practical nonlinear model predictive control of unknown dynamic systems
CN111474922B (zh) 一种连续非线性系统的控制器构建方法
Mohtadi et al. Generalized predictive control, LQ, or pole-placement: a unified approach
Kosmatopoulos Control of unknown nonlinear systems with efficient transient performance using concurrent exploitation and exploration
CN114326405B (zh) 一种基于误差训练的神经网络反步控制方法
Hager et al. Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design
CN108448594B (zh) 微电网频率自适应学习控制方法
CN111880413B (zh) 一种针对船舶航向保持的自适应动态面算法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
Chavoshi et al. Experimental comparison of STR and PI controllers on a nonlinear liquid-level networked control system
CN110095985A (zh) 一种观测器设计方法和抗干扰控制系统
CN112346342B (zh) 一种非仿射动力学系统的单网络自适应评价设计方法
Scola et al. Stable robust controller inspired by the mammalian limbic system for a class of nonlinear systems
Abouheaf et al. A data-driven model-reference adaptive control approach based on reinforcement learning
Oliveira et al. Granular evolving fuzzy robust feedback linearization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination